基于深度学习网络的文档行分割和分类的方法及系统与流程

2021-11-15 17:13:00 来源：中国专利 TAG：

1.本发明涉及深度学习
‑‑
计算机视觉技术领域，具体地，涉及基于深度学习网络的文档行分割和分类的方法及系统，更为具体地，涉及一种用于文档的行分割和分类的深度学习网络。

背景技术：

2.文档行检测是ocr领域的一个重要子方向，其任务是定位文本行的上下边界并标注其类别。和通用的目标检测任务不同，其输入数据存在明显的规律性。一套完整的算法应用流程一般包括：采集文档图片、标注图片、训练模型、部署模型。
3.在当前的文档行检测领域，为了获得较高的行分割精度，通常需要采用庞大的神经网络结构，其瓶颈在于大量的参数需要用到海量的标注样本参与训练来拟合；此外，由于训练集始终是真实样本的子集，因此根据机器学习的独立同分布假设，为了使模型泛化到未经标注的新样本中，往往需要再次投入人力去标注数据。
4.专利文献cn112257586a(申请号：202011135858.0)公开了一种目标检测中的真值框选择方法、装置、存储介质及设备，属于图像处理技术领域。所述方法包括：获取对图像进行特征提取后得到的目标特征图，目标特征图中包含多个预定大小的网格；在目标特征图中获取图像中的每个小目标对象对应的多个检测框；对于每个检测框，计算预定点位于检测框内的网格的中心度得分，预定点为网格的角点和/或中心点；对于每个小目标对象，从小目标对象对应的多个检测框中，将最大的中心度得分对应的检测框确定为小目标对象的真值框。相比较该专利，本发明的应用对象是文档的行分割和分类，文档的行分割和分类特殊性在于行分割只考虑竖直方向上的分割位置，该特殊性导致应用对象是目标检测框方案无法转用至本发明，因为目标检测框的方案同时考虑了水平和竖直两个方向的分割位置，而本发明针对文档的行分割和分类的特殊性，专门作出了如下设计：去掉根号开方，并将水平方向的结果置为1，确保中心度的计算不受不同任务的影响。
5.传统的建模思路一般有两种，两段式和一段式。两段式指的是先用水平投影直方图的算法完成文本行分割，再利用统计模型或深度模型来完成文本行分类，这种方法的缺点是水平投影直方图的效果容易受到噪音的干扰，结果不鲁棒；一段式的方法则是对整张图完成标注之后，使用统一的深度模型来完成一张图片上不同文本行的分割和分类，经典的方法包括faster r
‑
cnn、r
‑
fcn、yolo以及fcos，这种方法的缺点是由于网络结构过于复杂，因此需要大量的训练数据，耗费大量人力。
6.对于文档行分割与分类任务，传统的两段式建模是将其拆分为两个子任务。利用传统的水平投影直方图算法完成行分割，然后使用机器学习的方法完成行分类，其缺点在于水平投影直方图算法容易受到噪音的干扰，产生置信度很低的结果。图1是水平投影直方图算法在行分割任务上的可视化结果。
7.传统的一段式建模是完全采用深度模型训练，端到端建模，一般的流程为：搜集数据、标注数据、模型训练、模型预测。然而深度模型包含大量待拟合的参数，因此需要标注大
量的数据，而纯人力标注数据的成本是非常大的。此外，机器学习要求数据是独立同分布的，这就意味着，需要标注各种分布的数据才能满足泛化需求，这也再次加重了人力标注的成本。
8.在这里，我们需要解决的问题是如何既保证模型预测的准确性，同时又尽量减少标注成本。本发明采用的方法是使用合成文本当作训练集，将问题转化为如何保证在合成文本上训练出来的模型的泛化性能，下文会介绍具体的解决方案。

技术实现要素：

9.针对现有技术中的缺陷，本发明的目的是提供一种基于深度学习网络的文档行分割和分类的方法及系统。
10.根据本发明提供的一种基于深度学习网络的文档行分割和分类的方法，包括：
11.步骤s1：建立能够对文本进行行分割的深度学习网络模型；
12.步骤s2：利用合成文本图片训练深度学习网络模型，得到训练后的深度学习网络模型；
13.步骤s3：利用训练后的深度学习网络模型对文档进行行分割和分类。
14.优选地，所述深度学习网络模型包括：预设数量带relu激活函数的convolution层、预设数量bn层、预设数量bilstm层、预设数量convolution层以及预设数量全连接层分支。
15.优选地，在所述深度学习网络模型中：将预设大小的图片经过预设层带relu激活函数的convolution层和一个bn层对预设大小的图片进行降维处理；降维处理后的特征图以行为时间步输入到预设数量bilstm层，并保留最后一个时间步的输出；将输出的特征图经过变形得到预设大小的特征图，再经过预设数量的convolution层提取特征，得到提取后的特征图，利用提取后的特征图通过三个全连接层分支，分别产生定位、分类以及中心度的输出结果。
16.优选地，所述中心度采用：
[0017][0018]
其中，t
*
表示像素点离groud truth框顶部的距离；b
*
表示像素点离groud truth框底部的距离。
[0019]
优选地，所述合成文本图片包括：通过线下统计，得到不同的文档中各元素包括字体、文字大小、段落间距以及行间距发生的概率分布；结合先验概率利用a
‑
res算法产生分布一致的合成文本图片。
[0020]
根据本发明提供的一种基于深度学习网络的文档行分割和分类的系统，包括：
[0021]
模块m1：建立能够对文本进行行分割的深度学习网络模型；
[0022]
模块m2：利用合成文本图片训练深度学习网络模型，得到训练后的深度学习网络模型；
[0023]
模块m3：利用训练后的深度学习网络模型对文档进行行分割和分类。
[0024]
优选地，所述深度学习网络模型包括：预设层带relu激活函数的convolution层、bn层、预设数量bilstm层、预设数量的convolution层以及预设数量全连接层分支。
[0025]
优选地，在所述深度学习网络模型中：将预设大小的图片经过预设层带relu激活函数的convolution层和一个bn层对预设大小的图片进行降维处理；降维处理后的特征图以行为时间步输入到预设数量bilstm层，并保留最后一个时间步的输出；将输出的特征图经过变形得到预设大小的特征图，再经过预设数量的convolution层提取特征，得到提取后的特征图，利用提取后的特征图通过三个全连接层分支，分别产生定位、分类以及中心度的输出结果。
[0026]
优选地，所述中心度采用：
[0027][0028]
其中，t
*
表示像素点离groud truth框顶部的距离；b
*
表示像素点离groud truth框底部的距离。
[0029]
优选地，所述合成文本图片包括：通过线下统计，得到不同的文档中各元素包括字体、文字大小、段落间距以及行间距发生的概率分布；结合先验概率利用a
‑
res算法产生分布一致的合成文本图片。
[0030]
与现有技术相比，本发明具有如下的有益效果：
[0031]
1、本发明提出一种新的深度学习网络模型结构，在文本行检测任务中引入中心度的思想，保证分割的准确性；
[0032]
2、结合样本先验概率通过a
‑
res算法生成合成文本，让深度学习网络模型在合成文本上完成训练，比直方图法具备更好的行分割效果；与标注数据完成深度模型训练相比人力成本更低；
[0033]
3、本发明通过提出一种轻量的、端到端的深度文本检测网络，对于1024*724的图片输入，使用tesla k80的gpu速度能达到3fps。
附图说明
[0034]
通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0035]
图1为水平投影直方图算法的行分割效果示意图。
[0036]
图2为本发明提出的深度模型的行分割效果示意图。
[0037]
图3为深度学习网络模型结构示意图。
具体实施方式
[0038]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0039]
实施例1
[0040]
根据本发明提供的一种基于深度学习网络的文档行分割和分类的方法，包括：
[0041]
步骤m1：建立能够对文本进行行分割的深度学习网络模型；
[0042]
步骤m2：利用合成文本图片训练深度学习网络模型，得到训练后的深度学习网络
模型；
[0043]
步骤s3：利用训练后的深度学习网络模型对文档进行行分割和分类。
[0044]
具体地，所述步骤s1中深度学习网络模型包括：预设层带relu激活函数的convolution层、bn层、预设数量bilstm层、预设数量的convolution层以及预设数量全连接层分支。
[0045]
具体地，所述步骤s1中深度学习网络模型包括：如图2所示，将尺寸为1024*724的灰度图片经过两层带relu激活函数的convolution层和一个bn层；这一步的目的是降维，因为原图片太大所以不能直接输入到bilstm层；之后产生的4*256*181特征图会以行为时间步输入到两层bilstm，保留最后一个时间步的输出；将输出的1024*1024的特征图经过变形得到16*256*256的特征图，再经过4层convolution层提取特征，得到256*8*8的特征图，然后通过三个全连接层分支，分别产生定位、分类以及中心度的输出结果。
[0046]
具体地，普通的文本检测模型，只需要两个输出，即定位和分类，这里添加一个中心度分支。中心度分支的思想首次是在fcos论文中被提出，中心度反映了像素离ground truth中心的远近，最终会作为定位损失的权重。通过这种方法，使得模型的分割精度大大增强。原公式为如下，
[0047][0048]
这里的l
*
,t
*
,r
*
和b
*
唯一确定了一个目标检测框的位置，引入到本发明文本行分割任务，只需要做适当简化，下面是简化后的中心度计算公式。
[0049][0050]
其中，t
*
表示像素点离groud truth框顶部的距离；b
*
表示像素点离groud truth框底部的距离。
[0051]
本发明的应用对象是文档的行分割和分类，文档的行分割和分类特殊性在于行分割只考虑竖直方向上的分割位置，针对文档的行分割和分类的特殊性，基于现有的中心度计算方式，去掉根号开方，并将水平方向的结果置1，确保中心度的计算不受不同任务的影响。
[0052]
在实验中我们发现公式(2)并不能很好地区分不同位置点的权重，因此我们在公式(2)的基础上，结合softmax分类器的思想，将t
*
和b
*
改成exp(t
*
)和exp(b
*
)，加强了中心点对最终预测的影响。实验证明，该种方法在我们的场景下是有效的。改进后的公式如下：
[0053][0054]
具体地，所述步骤s2中合成文本图片包括：合成文本数据必须确保合成文本尽可能接近真实文本。对于不同的文档来说，其文字、文字大小、段落间距以及行间距都有可能不同，而这些组成文档的元素的发生也是遵循一定概率分布的。通过线下统计，得到不同的文档中各元素包括字体、文字大小、段落间距以及行间距发生的概率分布；结合先验概率利用a
‑
res算法产生分布一致的合成文本图片，这种方法在后面的实验结果中被证明是有效的。
[0055]
根据本发明提供的一种基于深度学习网络的文档行分割和分类的系统，包括：
[0056]
模块m1：建立能够对文本进行行分割的深度学习网络模型；
[0057]
模块m2：利用合成文本图片训练深度学习网络模型，得到训练后的深度学习网络模型；
[0058]
模块m3：利用训练后的深度学习网络模型对文档进行行分割和分类。
[0059]
具体地，所述模块m1中深度学习网络模型包括：预设层带relu激活函数的convolution层、bn层、预设数量bilstm层、预设数量的convolution层以及预设数量全连接层分支。
[0060]
具体地，所述模块m1中深度学习网络模型包括：如图2所示，将尺寸为1024*724的灰度图片经过两层带relu激活函数的convolution层和一个bn层；这一步的目的是降维，因为原图片太大所以不能直接输入到bilstm层；之后产生的4*256*181特征图会以行为时间步输入到两层bilstm，保留最后一个时间步的输出；将输出的1024*1024的特征图经过变形得到16*256*256的特征图，再经过4层convolution层提取特征，得到256*8*8的特征图，然后通过三个全连接层分支，分别产生定位、分类以及中心度的输出结果。
[0061]
具体地，普通的文本检测模型，只需要两个输出，即定位和分类，这里添加一个中心度分支。中心度分支的思想首次是在fcos论文中被提出，中心度反映了像素离ground truth中心的远近，最终会作为定位损失的权重。通过这种方法，使得模型的分割精度大大增强。原公式为如下，
[0062][0063]
这里的l
*
,t
*
,r
*
和b
*
唯一确定了一个目标检测框的位置，引入到本发明文本行分割任务，只需要做适当简化，下面是简化后的中心度计算公式。
[0064][0065]
其中，t
*
表示像素点离groud truth框顶部的距离；b
*
表示像素点离groud truth框底部的距离。
[0066]
本发明的应用对象是文档的行分割和分类，文档的行分割和分类特殊性在于行分割只考虑竖直方向上的分割位置，针对文档的行分割和分类的特殊性，基于现有的中心度计算方式，去掉根号开方，并将水平方向的结果置1，确保中心度的计算不受不同任务的影响。
[0067]
在实验中我们发现公式(2)并不能很好地区分不同位置点的权重，因此我们在公式(2)的基础上，结合softmax分类器的思想，将t
*
和b
*
改成exp(t
*
)和exp(b
*
)，加强了中心点对最终预测的影响。实验证明，该种方法在我们的场景下是有效的。改进后的公式如下：
[0068][0069]
具体地，所述模块m2中合成文本图片包括：合成文本数据必须确保合成文本尽可能接近真实文本。对于不同的文档来说，其文字、文字大小、段落间距以及行间距都有可能不同，而这些组成文档的元素的发生也是遵循一定概率分布的。通过线下统计，得到不同的文档中各元素包括字体、文字大小、段落间距以及行间距发生的概率分布；结合先验概率利用a
‑
res算法产生分布一致的合成文本图片，这种方法在后面的实验结果中被证明是有效
的。
[0070]
在实验中，我们以两本英文小说作为真实样本，如图2以及表1和表2所示，训练后的深度学习网络模型在《pride and prejudice》上得到了98.1％的行分割准确度和99.5％的分类准确度；在样本《the secret of plato’s atlantis》上得到了98.5％的行分割准确度和99.7％的分类准确度。
[0071]
表1：不同方法在《pride and prejudice》上的精度对比
[0072][0073]
表2：不同方法在《the secret of plato’s atlantis》上的精度对比
[0074][0075]
本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
[0076]
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述
特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度学习的图像目标检测方法与流程

基于深度学习网络的文档行分割和分类的方法及系统与流程

相关文献

最热文献