一种通用场景文本检测识别的预处理模型训练方法及系统与流程

2022-06-05 06:40:27 来源：中国专利 TAG：

1.本发明公开一种通用场景文本检测识别的预处理模型训练方法及系统，涉及计算机视觉技术领域。

背景技术：

2.随着计算机以及人工智能技术的发展，将现实场景中的文字信息，转化为电子设备可以处理的文本信息的应用场景越来越多。在文本检测与识别领域，文本检测与识别的数据标注成本相对普通的图像处理标注成本更高，通常难以获得足够的真实样本数据，并且数据集中大多会包含倾斜文本，若是根据标注好的文本区域坐标直接裁剪生成的文字识别数据背景会产生干扰信息影响文字识别模型识别精度。
3.传统的文字识别技术主要包括文本检测与文本识别两个模块，在模型训练时通常通过合成数据增加数据量，采用数据增强方式一般为旋转，翻转以及缩放等常规数据增强操作，并且裁剪出的文字识别数据集通常会包含大量冗余背景信息。该技术在处理单一场景下，例如对文档中文字识别效果较好，但是在两个场景差距较大，且训练数据量较小的情况下识别效果较差，使用同一个模型分别对自然场景下文字识别以及文档文字识别，由于自然场景下文字和文档中的文字相比尺度变化大，字体样式复杂等问题，使用同一个模型时文本检测与识别效果较差。
4.故本发明提出的一种通用场景文本检测识别的预处理模型训练方法及系统，以解决传统的混合场景文本检测与识别精度低的问题。

技术实现要素：

5.本发明针对现有技术的问题，提供一种通用场景文本检测识别的预处理模型训练方法及系统，所采用的技术方案为：一种通用场景文本检测识别的预处理模型训练方法，所述的方法具体步骤如下：
6.s1获取标注好的文本数据集，对图片进行copypaste数据增强操作后送入文本检测网络学习文本区域特征，得到文本检测模型；
7.s2获取文本数据集图片，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行裁剪，将数据划分为0
°
和180
°
两类后送入图像分类网络学习图像特征，得到文本方向分类模型；
8.s3获取文本数据集，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行剪裁，对图片进行tia数据增广，将其数据输入到文字识别网络学习文字特征，得到文字识别模型。
9.所述s1的具体步骤如下：
10.s101获取场景文本检测与识别数据集并进行标注，标注图片中的文字四点坐标位置，文本方向信息以及文本内容；
11.s102根据获取到的图片进行copypaste数据增强，将图片中的文本区域随机进行
裁剪，并将裁剪出来的文本图片随机贴到另外一张图片的没有文字信息的位置；
12.s103根据获取到的图片组成batch送入到文本检测网络，采用余弦学习率下降方式以及学习率预热，得到文本检测模型。
13.所述s2的具体步骤如下：
14.s201根据获取到的数据集，根据图片的文字四点坐标位置计算得到最长边的两个坐标点，由这两个坐标点计算长边斜率k，根据斜率k计算角度θ，将原始图片按照文本方向旋转θ后摆正进行裁剪。
15.s202根据步获取到的图片，将图片分为0
°
和180
°
两类，为平衡两类图片数量，将0
°
图片旋转180
°
作为另外一类图像；
16.s203根据获取到的图片组成batch送入到图像分类网络学习图像特征，得到文本方向分类模型。
17.所述s3的具体步骤如下：
18.s301对获取到的图片进行随机的tia数据增广，将图片平均分为n个斑块，并沿图像上下边界初始化2(n 1)个基准点p，并通过遵循一定的分布，将靶标点随机地移动到以p为圆心，半径为r的q处来增强原始图像；
19.s302根据获取到的图片组成batch送入到文字识别网络，采用策略学习文字特征得到文字识别模型。
20.一种通用场景文本检测识别的预处理模型训练系统，所述的系统具体包括文本检测模块、文本方向分类模块和文字识别模块：
21.文本检测模块：获取标注好的文本数据集，对图片进行copypaste数据增强操作后送入文本检测网络学习文本区域特征，得到文本检测模型；
22.文本方向分类模块：获取文本数据集图片，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行裁剪，将数据划分为0
°
和180
°
两类后送入图像分类网络学习图像特征，得到文本方向分类模型；
23.文字识别模块：获取文本数据集，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行剪裁，对图片进行tia数据增广，将其数据输入到文字识别网络学习文字特征，得到文字识别模型。
24.所述文本检测模块具体包括数据收集模块a、数据增强模块和网络检测模块：
25.数据收集模块a：获取场景文本检测与识别数据集并进行标注，标注图片中的文字四点坐标位置，文本方向信息以及文本内容；
26.数据增强模块：根据获取到的图片进行copypaste数据增强，将图片中的文本区域随机进行裁剪，并将裁剪出来的文本图片随机贴到另外一张图片的没有文字信息的位置；
27.网络检测模块：根据获取到的图片组成batch送入到文本检测网络，采用余弦学习率下降方式以及学习率预热，得到文本检测模型。
28.所述文本方向分类模块具体包括数据收集模块b、图片分类模块和网络分类模块：
29.数据收集模块b：根据获取到的数据集，根据图片的文字四点坐标位置计算得到最长边的两个坐标点，由这两个坐标点计算长边斜率k，根据斜率k计算角度θ，将原始图片按照文本方向旋转θ后摆正进行裁剪。
30.图片分类模块：根据步获取到的图片，将图片分为0
°
和180
°
两类，为平衡两类图片
数量，将0
°
图片旋转180
°
作为另外一类图像；
31.网络分类模块：根据获取到的图片组成batch送入到图像分类网络学习图像特征，得到文本方向分类模型。
32.所述文字识别模块具体包括数据处理模块和网络识别模块：
33.数据处理模块：对获取到的图片进行随机的tia数据增广，将图片平均分为n个斑块，并沿图像上下边界初始化2(n 1)个基准点p，并通过遵循一定的分布，将靶标点随机地移动到以p为圆心，半径为r的q处来增强原始图像；
34.网络识别模块：根据获取到的图片组成batch送入到文字识别网络，采用策略学习文字特征得到文字识别模型。
35.本发明的有益效果为：本发明通过文本检测网络对图片中的文字进行定位识别，将裁剪之后的文本图片输入到文本方向分类网络，再将矫正好的文本图片输入到文字识别网络，最后获取图片中的文字信息；其中：
36.(1)本发明在文本检测数据预处理阶段增加了copypaste数据增强方式，该方式可以有效提高文本检测模型在不同场景下检测效果的鲁棒性和泛化性；
37.(2)本发明在文本检测模块与文字识别模块中间增加了文本方向分类模块，可以有效解决倾斜文本以及文本方向旋转导致文字识别准确率低的问题；
38.(3)本发明在文本方向分类模块以及文字识别模块数据处理时按照长边倾斜角度进行图像裁剪，可以有效解决因为倾斜文本裁剪产生的冗余背景导致的文本方向分类以及文字识别模型精度低的问题；
39.(4)本发明在文字识别模块数据预处理阶段增加了tia数据增强方式，可以有效提高文本变化的多样性，提高文字识别的准确率。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
41.图1是本发明方法的流程图。
具体实施方式
42.下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。
43.实施例一：
44.一种通用场景文本检测识别的预处理模型训练方法，所述的方法具体步骤如下：
45.s1获取标注好的文本数据集，对图片进行copypaste数据增强操作后送入文本检测网络学习文本区域特征，得到文本检测模型；
46.s2获取文本数据集图片，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行裁剪，将数据划分为0
°
和180
°
两类后送入图像分类网络学习图像特征，得到文本方向分类模型；
47.s3获取文本数据集，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行剪裁，对图片进行tia数据增广，将其数据输入到文字识别网络学习文字特征，得到文字识别模型；
48.首先按照s1获取到标注好的文本数据集后，对图片进行copypaste数据增强操作，将图片中的文本区域随机进行裁剪，并将裁剪出来的文本图片随机贴到另外一张图片的没有文字信息的位置；数据增强之后送入文本检测网络学习文本区域特征，得到文本检测模型；
49.然后获取到标注好的文本数据集后，对文本的坐标区域计算长边斜率k，根据斜率k计算倾斜角度θ，将原始图片按照文本方向旋转θ后摆正进行裁剪；再将裁剪后的图片，按照0度和180度分为两类，为平衡两类图片数量，将0
°
图片旋转180
°
作为另外一类图像；最后将准备好的数据集进行翻转以及调整图片大小等数据增强操作送入图像分类网络学习图像特征，得到文本方向分类模型；
50.获取到标注好的文本数据集后，对图片中文本区域按照文本方向分类模块数据裁剪方式，对图片进行裁剪摆正，将摆正后的图片随机对图片进行tia数据增广，再将增广之后的数据输入到文字识别网络学习文字特征，得到文字识别模型；
51.进一步的，所述s1的具体步骤如下：
52.s101获取场景文本检测与识别数据集并进行标注，标注图片中的文字四点坐标位置，文本方向信息以及文本内容；
53.s102根据获取到的图片进行copypaste数据增强，将图片中的文本区域随机进行裁剪，并将裁剪出来的文本图片随机贴到另外一张图片的没有文字信息的位置；
54.s103根据获取到的图片组成batch送入到文本检测网络，采用余弦学习率下降方式以及学习率预热，得到文本检测模型；
55.步骤101：准备待训练的文本检测与识别的数据，待训练图像中包含标注好的文本坐标信息、文本方向信息以及文本内容；
56.步骤102：对步骤101获取到的数据进行copypaste数据增强，随机选取源图像用于提取文本区域，将提取到的文本区域随机贴到目标图像的没有文字区域，生成带训练图像；
57.步骤103：选取文本检测模型(包括但不局限于dbnet、panet、east等文本检测模型)作为文本检测模型，将步骤102获得的待训练图像输入到预设的文本检测网络模型中进行训练，并采用余弦学习率以及学习率预热策略得到文本检测模型；
58.进一步的，所述s2的具体步骤如下：
59.s201根据获取到的数据集，根据图片的文字四点坐标位置计算得到最长边的两个坐标点，由这两个坐标点计算长边斜率k，根据斜率k计算角度θ，将原始图片按照文本方向旋转θ后摆正进行裁剪；
60.s202根据步获取到的图片，将图片分为0
°
和180
°
两类，为平衡两类图片数量，将0
°
图片旋转180
°
作为另外一类图像；
61.s203根据获取到的图片组成batch送入到图像分类网络学习图像特征，得到文本方向分类模型；
62.对s101中标注好的数据，根据图片的文字四点坐标位置计算得到最长边的两个坐标点，由这两个坐标点计算长边斜率k，根据斜率k计算角度θ；
63.根据s201计算得到的角度θ，对原图像按照标注的文本方向进行旋转摆正，对摆正之后的图片进行裁剪，若是裁剪之后的图片高宽比大于1.5则将图片逆时针旋转90
°
；
64.对s202中获取到的图片，将图片分为0
°
和180
°
两类，为平衡两类图片数量，将0
°
图片旋转180
°
作为另外一类图像；
65.选取图像分类模型(包括但不限于mobilenetv3、resnet等图像分类模型)作为文本方向分类模型s203获得的待训练图像输入到预设的文本方向分类网络模型中进行训练，得到文本方向分类模型；
66.再进一步的，所述s3的具体步骤如下：
67.s301对获取到的图片进行随机的tia数据增广，将图片平均分为n个斑块，并沿图像上下边界初始化2(n 1)个基准点p，并通过遵循一定的分布，将靶标点随机地移动到以p为圆心，半径为r的q处来增强原始图像；
68.s302根据获取到的图片组成batch送入到文字识别网络，采用策略学习文字特征得到文字识别模型；
69.对s202中获取到的裁剪摆正后的图片随机进行tia数据增广，将图片平均分为n个斑块，并沿图像上下边界初始化2(n 1)个基准点p，并通过遵循一定的分布，将靶标点随机地移动到以p为圆心，半径为r的q处来增强原始图像；
70.为了生成一个增强的图像，在输入图像上应用基于移动最小二乘法的相似度变形；给定图像中的一个点u，u的变换是
71.t(u)＝(u-p
*
)m q
*
72.其中是一个线性变换矩阵，该矩阵被约束为具有m
t
m＝λ2i的属性，适用于某些标量λ；这里p
*
和q
*
分别是初始化靶点p和移动靶点q的加权中心点；
[0073][0074]
u点的权重wi有如下形式
[0075][0076]
当u接近pi时，权重wi增加；这意味着u主要取决于最近的标靶点的移动；wi是有界限的；如果u＝pi，那么t(u)＝u；这里我们设定α＝1；
[0077]
最佳变换t(u)是通过最小化得到的，以产生唯一的最小化器；
[0078][0079]
选取文字识别模型(包括但不限于crnn、starnet等文字识别模型)作为文字识别模型，将s301获得的待训练图像输入到预设的文字识别网络模型中进行训练，并采用余弦学习率以及学习率预热策略得到文字识别模型。
[0080]
实施例二：
[0081]
一种通用场景文本检测识别的预处理模型训练系统，所述的系统具体包括文本检测模块、文本方向分类模块和文字识别模块：
[0082]
文本检测模块：获取标注好的文本数据集，对图片进行copypaste数据增强操作后送入文本检测网络学习文本区域特征，得到文本检测模型；
[0083]
文本方向分类模块：获取文本数据集图片，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行裁剪，将数据划分为0
°
和180
°
两类后送入图像分类网络学习图像特征，得到文本方向分类模型；
[0084]
文字识别模块：获取文本数据集，计算文字区域长边角度θ，根据角度旋转原图片并对旋转后水平区域进行剪裁，对图片进行tia数据增广，将其数据输入到文字识别网络学习文字特征，得到文字识别模型；
[0085]
进一步的，所述文本检测模块具体包括数据收集模块a、数据增强模块和网络检测模块：
[0086]
数据收集模块a：获取场景文本检测与识别数据集并进行标注，标注图片中的文字四点坐标位置，文本方向信息以及文本内容；
[0087]
数据增强模块：根据获取到的图片进行copypaste数据增强，将图片中的文本区域随机进行裁剪，并将裁剪出来的文本图片随机贴到另外一张图片的没有文字信息的位置；
[0088]
网络检测模块：根据获取到的图片组成batch送入到文本检测网络，采用余弦学习率下降方式以及学习率预热，得到文本检测模型；
[0089]
进一步的，所述文本方向分类模块具体包括数据收集模块b、图片分类模块和网络分类模块：
[0090]
数据收集模块b：根据获取到的数据集，根据图片的文字四点坐标位置计算得到最长边的两个坐标点，由这两个坐标点计算长边斜率k，根据斜率k计算角度θ，将原始图片按照文本方向旋转θ后摆正进行裁剪；
[0091]
图片分类模块：根据步获取到的图片，将图片分为0
°
和180
°
两类，为平衡两类图片数量，将0
°
图片旋转180
°
作为另外一类图像；
[0092]
网络分类模块：根据获取到的图片组成batch送入到图像分类网络学习图像特征，得到文本方向分类模型；
[0093]
再进一步的，所述文字识别模块具体包括数据处理模块和网络识别模块：
[0094]
数据处理模块：对获取到的图片进行随机的tia数据增广，将图片平均分为n个斑块，并沿图像上下边界初始化2(n 1)个基准点p，并通过遵循一定的分布，将靶标点随机地移动到以p为圆心，半径为r的q处来增强原始图像；
[0095]
网络识别模块：根据获取到的图片组成batch送入到文字识别网络，采用策略学习文字特征得到文字识别模型。
[0096]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：工程机械寿命确定方法、装置、设备及存储介质与流程

一种通用场景文本检测识别的预处理模型训练方法及系统与流程

相关文献

最热文献