文档轮廓提取模型构建方法、装置、设备及可读存储介质与流程

2022-04-02 02:42:45 来源：中国专利 TAG：

1.本技术涉及文档检测技术领域，特别涉及一种文档轮廓提取模型构建方法、装置、设备及可读存储介质。

背景技术：

2.随着手机性能的提升以及人工智能的飞速发展，文档的拍照识别及后续包括文档材料中手写笔迹定位、错题擦除、ocr(optical character recognition，光学字符识别)以及nlp(natural language processing，自然语言处理)中情感分析、分词等技术逐步应用在学生的日常学习中。然而，若是直接对拍照得到的文档素材进行手写笔迹定位、错题擦除、ocr以及nlp中情感分析、分词等处理，由于易受拍照背景、环境等因素影响，所得到的处理结果差强人意。因此，如何针对拍照得到的文档素材进行区域检测得到其轮廓信息并对其进行校正就变得尤为重要。由此可见，文档轮廓提取的主要目的是通过算法获取文档的轮廓信息，然后根据轮廓信息去除照片中的背景信息，最后利用轮廓信息将照片中的文档区域进行校正，从而提高拍照得到的文档素材后续处理过程的准确性。
3.相关技术中，针对文档轮廓提取的方法可以分为：1、通过语义分割方法对文档区域进行分割，然后再使用传统图像处理的方法分析语义分割的结果并计算得到轮廓信息；2、通过文本区域检测先得到图片中文本区域信息，然后根据中心点以及文本区域计算偏移量后得到轮廓信息。
4.但是，由于语义分割得到的结果可能是不规则的图形，对此使用传统图像处理的方法分析可能无法得到准确的轮廓信息；且由于拍照得到的文本素材也存在各种不规整的情况，若只根据中心点与文本区域检测得到的文本区域来计算偏移量后得到轮廓结果，将导致其准确性也较差。由此可见，目前进行文档轮廓信息提取的方法存在准确性差的问题。

技术实现要素：

5.本技术提供一种文档轮廓提取模型构建方法、装置、设备及可读存储介质，以解决相关技术中存在的文档轮廓信息提取准确性差的问题。
6.第一方面，提供了一种文档轮廓提取模型构建方法，包括以下步骤：
7.获取图片训练集，所述图片训练集包括多张样本图片；
8.对每张样本图片进行标注得到对应的掩膜标签，并根据所述掩膜标签确定对应的样本图片的各个顶点信息，形成新的图片训练集；
9.基于所述新的图片训练集对语义分割模型进行训练，生成文档轮廓提取模型，所述语义分割模型包括学习下采样模块、全局特征提取模块、特征融合模块和标准分类器，所述标准分类器包括顶点回归子模块。
10.一些实施例中，所述标准分类器中的损失函数l的计算公式如下：
11.l＝ω1·
l
point
ω2·
l
mask
12.式中，ω1表示顶点权重，l
point
表示预测顶点围成区域与真实顶点围成区域之间的
损失，ω2表示掩膜权重，l
mask
表示掩膜的损失。
13.一些实施例中，在所述根据所述掩膜标签确定对应的样本图片的各个顶点信息，形成新的图片训练集的步骤之后，还包括：
14.判断所述新的图片训练集中的样本图片是否包含整体文档区域；
15.若是，则对所述新的图片训练集中的样本图片进行第一增强处理，得到第一样本图片；
16.若否，则对所述新的图片训练集中的样本图片进行第二增强处理，得到第二样本图片。
17.一些实施例中，所述语义分割模型还包括拼接模块，所述拼接模块用于拼接所述特征融合模块输出的高层语义信息和所述学习下采样模块输出的低层语义信息，得到拼接信息，所述拼接信息作为所述标准分类器的输入。
18.一些实施例中，所述对每张样本图片进行标注得到对应的掩膜标签，包括：
19.对每张样本图片的文档区域进行顶点标注，并根据原始图片信息为每张样本图片创建掩膜背景图；
20.基于所述掩膜背景图对对应的样本图片上的多个顶点围成的区域进行填充，得到掩膜标签。
21.一些实施例中，在所述基于所述新的图片训练集对语义分割模型进行训练，生成文档轮廓提取模型的步骤之后，还包括：
22.获取待预测图片，并对所述待预测图片进行归一化处理；
23.将归一化处理后的待预测图片输入所述文档轮廓提取模型，得到待预测图片的文档轮廓信息和文档轮廓上的多个顶点信息。
24.一些实施例中，在所述将归一化处理后的待预测图片输入所述文档轮廓提取模型，得到待预测图片的文档轮廓信息和文档轮廓上的多个顶点信息的步骤之后，还包括：
25.根据所述文档轮廓上的多个顶点信息计算文档轮廓上的多个顶点围成区域的最小外接矩形；
26.根据所述最小外接矩形的顶点信息和所述文档轮廓上的多个顶点信息计算透视变换矩阵；
27.根据所述透视变换矩阵对所述待预测图片进行校正，输出所述待预测图片的文档区域。
28.第二方面，提供了一种文档轮廓提取模型构建装置，包括：
29.获取单元，其用于获取图片训练集，所述图片训练集包括多张样本图片；
30.处理单元，其用于对每张样本图片进行标注得到对应的掩膜标签，并根据所述掩膜标签确定对应的样本图片的各个顶点信息，形成新的图片训练集；
31.训练单元，其用于基于所述新的图片训练集对语义分割模型进行训练，生成文档轮廓提取模型，所述语义分割模型包括学习下采样模块、全局特征提取模块、特征融合模块和标准分类器，所述标准分类器包括顶点回归子模块。
32.第三方面，提供了一种文档轮廓提取模型构建设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的文档轮廓提取模型构建方法。
33.第四方面，提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现前述的文档轮廓提取模型构建方法。
34.本技术提供的技术方案带来的有益效果包括：可有效提高文档轮廓信息提取的准确性。
35.本技术提供了一种文档轮廓提取模型构建方法、装置、设备及可读存储介质，包括获取图片训练集，所述图片训练集包括多张样本图片；对每张样本图片进行标注得到对应的掩膜标签，并根据所述掩膜标签确定对应的样本图片的各个顶点信息，形成新的图片训练集；基于所述新的图片训练集对语义分割模型进行训练，生成文档轮廓提取模型，所述语义分割模型包括学习下采样模块、全局特征提取模块、特征融合模块和标准分类器，所述标准分类器包括顶点回归子模块。由于本技术在标准分类器中集成了顶点回归子模块，使得生成的文档轮廓提取模型在对图片中文档区域进行分割的同时实现了顶点预测功能，进而能够通过直接获取文档区域的顶点信息来提取文档轮廓，其不受图形是否规则或文本素材是否规整的影响，有效提高了文档轮廓信息提取的准确性。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1为本技术实施例提供的一种文档轮廓提取模型构建方法的流程示意图；
38.图2为本技术实施例提供的文档轮廓提取模型的结构示意图；
39.图3为本技术实施例提供的文档轮廓提取与图片校正的流程示意图；
40.图4为本技术实施例提供的一种文档轮廓提取模型构建装置的结构示意图；
41.图5为本技术实施例提供的一种文档轮廓提取模型构建设备的结构示意图。
具体实施方式
42.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
43.本技术实施例提供了一种文档轮廓提取模型构建方法、装置、设备及可读存储介质，其能解决相关技术中存在的文档轮廓信息提取准确性差的问题。
44.图1是本技术实施例提供的一种文档轮廓提取模型构建方法，包括以下步骤：
45.步骤s10：获取图片训练集，所述图片训练集包括多张样本图片；
46.步骤s20：对每张样本图片进行标注得到对应的掩膜标签，并根据所述掩膜标签确定对应的样本图片的各个顶点信息，形成新的图片训练集；
47.进一步的，在本技术实施例中，所述对每张样本图片进行标注得到对应的掩膜标签，包括：
48.对每张样本图片的文档区域进行顶点标注，并根据原始图片信息为每张样本图片
创建掩膜背景图；
49.基于所述掩膜背景图对对应的样本图片上的多个顶点围成的区域进行填充，得到掩膜标签。
50.示范性的，本实施例中，首先需要对图片训练集中的每张样本图片进行预处理，生成模型训练所需的训练样本；具体的，可使用数据标注工具(比如labelme，其是一个离线图像标注的工具)对各个样本图片中的文档区域进行多顶点标注，并根据原始图片信息创建mask(掩膜)背景图，并通过mask背景图对多顶点围成的区域进行填充，生成mask标签，再对所有顶点进行遍历，计算围成面积最大的四个顶点并提取标注的类型，最终生成模型训练所需样本与标签。
51.进一步的，在本技术实施例中，在步骤s20之后，还包括以下步骤：
52.判断所述新的图片训练集中的样本图片是否包含整体文档区域；
53.若是，则对所述新的图片训练集中的样本图片进行第一增强处理，得到第一样本图片；
54.若否，则对所述新的图片训练集中的样本图片进行第二增强处理，得到第二样本图片。
55.示范性的，在使用传统图像处理的文档轮廓提取方法的相关技术中，首先要对图像进行二值化处理，其次使用二值化的结果对图像进行边缘检测，主要是查找像素值变化剧烈的区域，然后根据图像中的边缘信息查找图像中闭合的边缘区域作为所查到的轮廓区域，最后输出轮廓的顶点坐标完成轮廓提取。发明人发现在使用上述传统图像处理方法对图片进行处理并计算得到轮廓信息的方法时，由于拍照设备的硬件、拍照时间以及拍照所处场景千差万别，得到的文档素材差异性较大。因此若仅使用传统图像处理方法获取文档轮廓信息，无法适用于所有类型的文档素材。
56.于是，本实施例在对各类场景分析后，根据应用场景对上述训练样本数据进行文档区分处理，即区分带有全部文档轮廓的图片和轮廓不全的局部文档图片，以使得本方法适用于各类拍照得到的文档素材的轮廓提取。具体的，在模型训练之前对是否包含整体文档区域的图片样本分别进行数据增强处理，其中含有整体文档区域的图片样本进行第一增强处理，即做旋转、反转、色彩变换与归一化等增强处理，而不包含整体文档区域的图片样本进行第二增强处理，即做平移、旋转、反转、色彩变换与归一化等增强处理，通过增强处理后的图片样本对模型进行训练后，就可使得得到的模型能够对各类场景均适用，极大的增加了模型的鲁棒性。由此可见，本技术实施例针对不包括完整边界信息的图片数据进行了单独处理，通过不同的数据增强方式使模型能够处理各类图片数据的同时，不降低包含完整边界信息的图片数据的准确度。
57.步骤s30：基于所述新的图片训练集对语义分割模型进行训练，生成文档轮廓提取模型，所述语义分割模型包括学习下采样模块、全局特征提取模块、特征融合模块和标准分类器，所述标准分类器包括顶点回归子模块。
58.示范性的，fast scnn(fast semantic segmentation network，快速卷积神经网络)是一个用于语义分割任务的深度卷积神经网络模型，其输入为归一化后的三通道图片张量，输出与输入长宽相同的二元掩膜，每个位置的值代表该位置的对应像素是否为文档区域的一部分；其拥有速度快、计算开销低和精度较高的特点，同时fast scnn模型中使用
了不同阶段的特征进行学习，根据需要还可以加入比现有fast scnn网络结构中使用的更低的底层特征，针对文档素材中的轮廓与内容的不同特征的特点都能较好进行处理。本实施例所设计的语义分割模型需要输出文档区域与顶点信息，其中，区域提取部分用于将输入图片中的文档区域整体分割出来，因此，本实施例在fast scnn模型的基础上，对其进行改进形成新的语义分割模型，并通过前述的训练样本对新的语义分割模型进行训练，即可生成文档轮廓提取模型。
59.具体的，传统的fast scnn的网络结构仅包括学习下采样模块、全局特征提取模块、特征融合模块和标准分类器，而参见图2所示，本实施例中不仅具有上述模块，还为了更好的分割文档区域以及获取文档的顶点信息，在classifier(即标准分类器)中添加了一个顶点回归的输出分支：顶点回归子模块，即通过顶点回归子模块来预测输入图片中文档区域的顶点信息，由此可见，由于本技术在标准分类器中集成了顶点回归子模块，使得生成的文档轮廓提取模型在对图片中文档区域进行分割的同时实现了顶点预测功能，进而能够通过直接获取文档区域的顶点信息来提取文档轮廓，其不受图形是否规则或文本素材是否规整的影响，有效提高了文档轮廓信息提取的准确性。
60.进一步的，在本技术实施例中，所述语义分割模型还包括拼接模块，所述拼接模块用于拼接所述特征融合模块输出的高层语义信息和所述学习下采样模块输出的低层语义信息，得到拼接信息，所述拼接信息作为所述标准分类器的输入。
61.示范性的，为了更准确的得到文档的边界信息以提取轮廓区域，经过对模型需要处理的样本数据特征分析发现，若要更好的提取轮廓信息模型不仅需要学习到文档区域内的high-level feature(即高层语义信息)，还需要学习文档边界的low-level feature(即低层语义信息)，因为若只学习文档区域内的high-level feature将会导致文档区域颜色与背景颜色相似时轮廓提取不准确的问题。因此，本实施例在fast scnn的feature fusion(即特征融合模块)输出high-level feature之后，通过拼接模块将high-level feature与学习下采样模块输出的low-level feature进行拼接(即图2中的concat)，然后将拼接之后的特征送入classifier中进行处理，进而提高文档区域轮廓的提取准确度，由此可见，本技术实施例独创性的根据含有文档区域的拍照图片特征提出了一种增加low-levelfeature学习的fastscnn网络结构。
62.进一步的，在本技术实施例中，所述标准分类器中的损失函数l的计算公式如下：
63.l＝ω1·
l
point
ω2·
l
mask
64.式中，ω1表示顶点权重，l
point
表示预测顶点围成区域与真实顶点围成区域之间的损失，ω2表示掩膜权重，l
mask
表示掩膜的损失。
65.示范性的，本实施例还将标准分类器中的损失函数l的计算公式修改为：
66.l＝ω1·
l
point
ω2·
l
mask
67.式中，ω1表示顶点权重，l
point
可以为l
giou
，其表示预测顶点围成区域与真实顶点围成区域之间的giou损失(giou损失为广义的iou(intersection over union，交并比)损失)，ω2表示掩膜权重，l
mask
可以为l
crossentropy
，其表示不同类别掩膜的交叉熵损失。
68.其中，l
crossentropy
的具体计算公式如下：
[0069][0070]
式中，loss代表交叉熵损失函数，x代表文档区域，class代表mask类型。
[0071]
l
giou
的具体计算公式如下：
[0072]
l
giou
＝1-(giou)
[0073][0074]
式中，iou表示交并比损失，其可以反映预测检测框与真实检测框的检测效果，ac表示将真实顶点与预测顶点并集区域用最小矩形框起来的矩形面积，u表示真实顶点与预测顶点的并集区域面积。
[0075]
通过上述训练后，本技术实施例最终可得到准确率为98.59％的最优文档轮廓提取模型，通过该模型可以准确输出图片中文档区域轮廓与顶点信息，且在模型训练的过程中，损失函数中的l
point
和l
mask
起到了相互促进的作用，提升了模型的预测效果，即使得两种不同输出(即文档区域轮廓与顶点信息)也处于相互促进的过程。
[0076]
更进一步的，在本技术实施例中，在所述步骤s30之后，还包括以下步骤：
[0077]
获取待预测图片，并对所述待预测图片进行归一化处理；
[0078]
将归一化处理后的待预测图片输入所述文档轮廓提取模型，得到待预测图片的文档轮廓信息和文档轮廓上的多个顶点信息。
[0079]
示范性的，本实施例先对待预测图片进行归一化处理，目的是为了将待预测图片转换至文档轮廓提取模型预测期望得到的图片格式；然后将归一化处理后的待预测图片输入所述文档轮廓提取模型，即可输出预测结果，即输出待预测图片的文档轮廓信息和文档轮廓上的多个顶点信息。
[0080]
更进一步的，在本技术实施例中，在所述将归一化处理后的待预测图片输入所述文档轮廓提取模型，得到待预测图片的文档轮廓信息和文档轮廓上的多个顶点信息的步骤之后，还包括：
[0081]
根据所述文档轮廓上的多个顶点信息计算文档轮廓上的多个顶点围成区域的最小外接矩形；
[0082]
根据所述最小外接矩形的顶点信息和所述文档轮廓上的多个顶点信息计算透视变换矩阵；
[0083]
根据所述透视变换矩阵对所述待预测图片进行校正，输出所述待预测图片的文档区域。
[0084]
示范性的，根据获取的文档轮廓上的顶点信息对待预测图片进行校正以提取文档轮廓区域，具体的，首先对文档轮廓上的各个顶点坐标进行验证，若顶点坐标有效(即所有坐标均在对应文档区域内)，则根据顶点坐标计算得到顶点坐标围成区域的最小外接矩形的大小，并以最小外接矩形的顶点坐标与文档轮廓上的顶点坐标为基础计算透视变换矩阵，再使用透视变换矩阵校正待预测图片，即可输出待预测图片的文档区域。
[0085]
以下结合图3对本技术实施例的文档轮廓提取模型的数据预处理、网络结构调整与模型训练、文档轮廓与顶点预测以及轮廓提取与图片校正等几个部分进行阐述。
[0086]
步骤n1：输入含有文档区域的各场景下拍照得到的多张样本图片。
[0087]
步骤n2：使用标注工具对获取到的每张样本图片进行标注，得到对应样本图片的mask标签并根据标注结果生成可以包含mask标签区域的四个顶点。其中，mask标签为样本图片中所包含带有完整边界信息的区域，若不存在完整边界信息，则mask标签为样本图片中整体的文档区域；包含mask标签区域的四个顶点是对样本图片上的所有顶点进行遍历计算后，得到的能围成面积最大的四个顶点。
[0088]
步骤n3：判断样本图片中是否包含整体文档区域，对含有整体文档区域的样本图片做旋转、反转、色彩变换与归一化等增强处理，对不包含整体文档区域的样本图片做平移、旋转、反转、色彩变换与归一化等增强处理。其中，判断样本图片中是否包含整体文档区域的方法，是在样本标注的过程中针对含有整体文档区域的样本图片使用统一的命名方式加以区分，即只需通过样本图片的名称即可判断样本图片中是否包含整体文档区域。
[0089]
步骤n4：将步骤n3中得到的所有训练样本输入至增加low-level feature与顶点回归的输出分支并修改损失函数的计算方式的语义分割网络结构中进行模型训练，并最终得到准确率为98.59％的最优文档轮廓提取模型。
[0090]
步骤n5：获取待预测图片，并对该图片进行相应处理。其中，对待预测图片所作处理为模型训练过程中验证集输入图片所做的归一化处理，目的是为了将待预测图片转换至模型预测期望得到的图片格式。
[0091]
步骤n6：使用步骤n4中得到文档轮廓提取模型预测步骤n5输入的待预测图片，并输出预测结果，即文档轮廓信息和文档轮廓上的多个顶点信息。
[0092]
步骤n7：使用步骤n6中获取的顶点信息对待预测图片进行校正，以提取待预测图片的文档轮廓区域。
[0093]
由此可见，本技术实施例提供了一种通过预测文档轮廓的四个顶点直接输出轮廓信息的方法，其相对于传统图像处理的方法而言，可适用于各类拍照场景获取的文档素材，同时也适用于传统图像处理无法处理的不包含整体文档区域得文档素材；而针对通过语义分割方法对文档区域进行分割然后再使用传统图像处理分析语义分割的结果，并计算得到轮廓信息的方法中，语义分割得到结果可能是不规则的图形，使用传统图像处理分析无法得到准确结果的问题，本技术实施例可直接获取文档区域的顶点信息以提取文档轮廓，从而避免了此类问题的产生；此外，针对通过文本区域检测先得到图片中文本区域信息，根据中心点以及文本区域计算偏移量后得到轮廓信息所造成的准确度不高的问题，本技术实施例可直接对图片中文档区域进行分割并在此基础上增加了顶点预测功能，进而可忽略文本素材各种不规整情况所带来的不利影响。
[0094]
参见图4所示，本技术实施例还提供了一种文档轮廓提取模型构建装置，包括：
[0095]
获取单元，其用于获取图片训练集，所述图片训练集包括多张样本图片；
[0096]
处理单元，其用于对每张样本图片进行标注得到对应的掩膜标签，并根据所述掩膜标签确定对应的样本图片的各个顶点信息，形成新的图片训练集；
[0097]
训练单元，其用于基于所述新的图片训练集对语义分割模型进行训练，生成文档轮廓提取模型，所述语义分割模型包括学习下采样模块、全局特征提取模块、特征融合模块
和标准分类器，所述标准分类器包括顶点回归子模块。
[0098]
由于本技术在标准分类器中集成了顶点回归子模块，使得生成的文档轮廓提取模型在对图片中文档区域进行分割的同时实现了顶点预测功能，进而能够通过直接获取文档区域的顶点信息来提取文档轮廓，其不受图形是否规则或文本素材是否规整的影响，有效提高了文档轮廓信息提取的准确性。
[0099]
更进一步的，在本技术实施例中，所述标准分类器中的损失函数l的计算公式如下：
[0100]
l＝ω1·
l
point
ω2·
l
mask
[0101]
式中，ω1表示顶点权重，l
point
表示预测顶点围成区域与真实顶点围成区域之间的损失，ω2表示掩膜权重，l
mask
表示掩膜的损失。
[0102]
更进一步的，在本技术实施例中，所述处理单元还用于：
[0103]
判断所述新的图片训练集中的样本图片是否包含整体文档区域；
[0104]
若是，则对所述新的图片训练集中的样本图片进行第一增强处理，得到第一样本图片；
[0105]
若否，则对所述新的图片训练集中的样本图片进行第二增强处理，得到第二样本图片。
[0106]
更进一步的，在本技术实施例中，所述语义分割模型还包括拼接模块，所述拼接模块用于拼接所述特征融合模块输出的高层语义信息和所述学习下采样模块输出的低层语义信息，得到拼接信息，所述拼接信息作为所述标准分类器的输入。
[0107]
更进一步的，在本技术实施例中，所述处理单元具体用于：
[0108]
对每张样本图片的文档区域进行顶点标注，并根据原始图片信息为每张样本图片创建掩膜背景图；
[0109]
基于所述掩膜背景图对对应的样本图片上的多个顶点围成的区域进行填充，得到掩膜标签。
[0110]
更进一步的，在本技术实施例中，所述处理单元还用于：
[0111]
获取待预测图片，并对所述待预测图片进行归一化处理；
[0112]
将归一化处理后的待预测图片输入所述文档轮廓提取模型，得到待预测图片的文档轮廓信息和文档轮廓上的多个顶点信息。
[0113]
更进一步的，在本技术实施例中，所述装置还包括校正单元，其用于：
[0114]
根据所述文档轮廓上的多个顶点信息计算文档轮廓上的多个顶点围成区域的最小外接矩形；
[0115]
根据所述最小外接矩形的顶点信息和所述文档轮廓上的多个顶点信息计算透视变换矩阵；
[0116]
根据所述透视变换矩阵对所述待预测图片进行校正，输出所述待预测图片的文档区域。
[0117]
示范性的，参见图2所示，本技术实施例形成的文档轮廓提取模型包括学习下采样模块(learning to down-sample)、全局特征提取模块(global feature extractor)、特征融合模块(feature fusion)、拼接模块以及标准分类器(classifier)。其中，图2中不同的形状代表不同的对象，比如，三角形代表conv2d卷积层，长方体代表dsconv深度可分离卷积
层等；具体的，学习下采样模块包括输入层(即input)、1个普通的conv2d卷积层和2个dsconv深度可分离卷积层；全局特征提取模块包括8个bottleneck卷积层和1个pyramid pooling卷积层，pyramidpooling卷积层用于提取不同尺度的上下文特征；特征融合模块包括1个upsample上采样卷积层、1个dwconv卷积层和2个conv2d卷积层；拼接模块用于拼接特征融合模块输出的高层语义信息和学习下采样模块输出的低层语义信息，得到拼接信息，该拼接信息作为标准分类器的输入；标准分类器包括2个dsconv深度可分离卷积层、1个conv2d卷积层、1个upsample上采样卷积层、1个顶点回归子模块以及输出层(即softmax，softmax为归一化指数函数)，顶点回归子模块包括1个dsconv深度可分离卷积层，其用于对顶点进行回归并输出point信息，以预测待预测图片中文档的顶点信息。
[0118]
需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述文档轮廓提取模型构建方法实施例中的对应过程，在此不再赘述。
[0119]
上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的文档轮廓提取模型构建设备上运行。
[0120]
本技术实施例还提供了一种文档轮廓提取模型构建设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的文档轮廓提取模型构建方法的全部步骤或部分步骤。
[0121]
其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0122]
处理器可以是cpu，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程逻辑门阵列(fieldprogrammable gatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
[0123]
存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
[0124]
本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现前述的文档轮廓提取模型构建方法的全部步骤或部分步骤。
[0125]
本技术实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执
行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0126]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0127]
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0128]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0129]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0130]
以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：针对加密数据的解密预加载方法及装置与流程

文档轮廓提取模型构建方法、装置、设备及可读存储介质与流程

相关文献

最热文献