自然场景的文本识别方法、可读存储介质及文本识别装置与流程

2022-03-23 09:03:34 来源：中国专利 TAG：

1.本技术涉及文字识别技术领域，更具体地说，涉及一种自然场景的文本识别方法、可读存储介质及文本识别装置。

背景技术：

2.在当前的科技发展潮流下，借助图像识别文字的技术较为常见。主要可以分为光学文字识别、自然场景中的文字识别等。光学文字识别(ocr)主要面向高清的文档图像，此类技术假设输入图像背景干净、字体简单且文字排布整齐。在符合此前提要求的情况下，训练好的网络模型能够达到很高的识别准确率，并且训练过程较快。
3.自然场景中的文字识别(str)主要面向包含文字的自然场景图像。然而，生活中一些自然场景中的文本中的文字存在着不同角度等属性，这就使得识别这些自然场景的文字变得困难。

技术实现要素：

4.针对现有技术，本技术解决的技术问题是提供一种能有利于提高含有不同角度文字的文本的识别效率的自然场景的文本识别方法、可读存储介质及终端。
5.为解决上述技术问题，本技术提供一种自然场景的文本识别方法，包括：
6.获取待识别文本图像，对所述待识别文本图像进行文本区域检测获得矩形框的第一文本区域；
7.对第一文本区域进行透视变换，并对透视变换后的第一文本区域进行旋转获得第二文本区域，使第二文本区域的矩形框的长边与x轴平行；
8.基于深度学习模型训练获得角度检测模型，利用所述角度检测模型检测第二文本区域内的文字的角度，根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域，使第三文本区域内的文字夹角为0度；
9.对所述第三文本区域内的字符进行单字符分割和单字符识别；
10.其中，x轴和y轴相互垂直构成图像坐标系，文字角度为文字与y轴的夹角。
11.在一种可能的实现方式中，对透视变换后的第一文本区域进行旋转获得第二文本区域的步骤包括：
12.判断第一文本区域的矩形框在y轴和x轴的长度比是否大于1.5；
13.若是，将矩形框的第一文本区域逆时针旋转90度；
14.否者，对矩形框的第一文本区域进行逆时针旋转0度。
15.在一种可能的实现方式中，基于深度学习模型训练获得角度检测模型的步骤包括：
16.截取自然场景中字符横向平行分布且文字角度为0度的矩形框的文本图像作为数据集；
17.将数据集分成六份，分别记为第一份数据，第二份数据、第三份数据、第四份数据、
第五份数据和第六份数据；
18.将第一份数据中的每一文本图像的每个字符进行逆时针旋转0度获得第一训练数据集；将第二份数据中的每二文本图像的每个字符进行逆时针旋转90度获得第二训练数据集；将第三份数据中的每三文本图像的每个字符进行逆时针旋转180度获得第三训练数据集；将第四份数据中的每四文本图像的每个字符进行逆时针旋转270度获得第四训练数据集；将第五份数据中的每五文本图像的每个字符进行逆时针旋转45度获得第五训练数据集；将第六份数据中的每六文本图像的每个字符进行顺时针旋转负45度获得第六训练数据集；
19.利用shufflenetv2网络模型的特征层提取第一训练数据集、第二训练数据集、第三训练数据集、第四训练数据集、第五训练数据集和第六训练数据集关于文本图像的文字角度特征生成特征图，基于shufflenetv2网络模型进行学习训练直至shufflenetv2网络模型收敛，获得角度检测模型。
20.在一种可能的实现方式中，设定第一训练数据集、第二训练数据集、第三训练数据集、第四训练数据集、第五训练数据集和第六训练数据集中文本图像的数量相同。
21.在一种可能的实现方式中，根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域的步骤包括：
22.若所述角度检测模型检测的第二文本区域内的文字角度为0度，则维持所述第二文本区域内的文字的角度不变；
23.若所述角度检测模型检测的第二文本区域内的文字角度为90度，则将第二文本区域逆时针旋转270度；
24.若所述角度检测模型检测的第二文本区域内的文字角度为180度，则将第二文本区域逆时针旋转180度；
25.若所述角度检测模型检测的第二文本区域内的文字角度为270度，则将第二文本区域逆时针旋转90度；
26.若所述角度检测模型检测的第二文本区域内的文字角度为45度，则将第二文本区域逆时针旋转215度。
27.在一种可能的实现方式中，对所述待识别文本图像进行文本区域检测获得矩形框的第一文本区域的步骤包括：
28.利用3
×
3卷积核对所述文本图像连续进行五次卷积操作，对该五次卷积的结果进行基于特征图金字塔网络的级联融合获得所述文本图像的特征图；
29.利用dbnet学习网络对所述特征图进行预测获得关于文本的概率图；
30.对概率图进行阈值操作获得关于文本的分割结果；
31.提取分割结果的轮廓，计算该轮廓的外接矩形框，该外接矩形框框起区域矩形框的第一文本区域。
32.在一种可能的实现方式中，对所述第三文本区域内的字符进行单字符分割和单字符识别的步骤包括：
33.利用yolov3模型分割出第三文本区域内的所有的单个字符和每个单个字符外接矩形框；
34.根据所有单个字符的外接矩形框左上角顶点的横坐标从小到大的顺序，逐个将单
个字符输入单字符识别模型中进行字符识别。
35.在一种可能的实现方式中，单字符识别模型为resnet50学习模型。
36.本技术还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述自然场景的文本识别方法。
37.本技术还提供一种文本识别装置，其包括存储器和一个或多个处理器，所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述文本识别装置执行时，使得所述文本识别装置执行所述自然场景的文本识别方法。
38.在所述自然场景的文本识别方法中，首先检测出待识别文本图像的文本区域获得矩形框的第一文本区域；并对透视变换后的第一文本区域进行旋转获得第二文本区域使得第二文本区域的矩形框的长边与x轴平行，即获得横向矩形框的第二文本区域；再利用训练好的角度检测模型检测第二文本区域内的文字的角度，根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域使得第三文本区域内的文字夹角为0度，即使得第三文本区域内的文字在y轴上无角度偏差，从而使得第三文本区域内的文字角度统一为人眼惯常习惯查看的状态；如此有利于解决因文字不同角度问题增加后续字符识别难度以及影响字符识别效率的问题。
附图说明
39.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
40.图1为本技术实施例的自然场景的文本识别方法的流程图；
41.图2为本技术实施例的获得的第一文本区域、对第一文本区域进行透视变换和旋转、获得的第二文本区域和获得的第三文本区域的结果示意图；
42.图3为本技术实施例的对所述第三文本区域内的字符进行单字符分割和单字符识别的步骤流程图。
具体实施方式
43.为了使本技术所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
44.需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。
45.需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本技术的限制。
46.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
47.现结合附图对本技术实施例提供的自然场景的文本识别方法、可读存储介质及文本识别装置进行说明。
48.参照图1，本技术实施例提供自然场景的文本识别方法包括如下步骤：
49.步骤s100：获取待识别文本图像，对所述待识别文本图像进行文本区域检测获得矩形框的第一文本区域，其中，图2中第一列的每一文本表示进行文本区域检测获得矩形框的第一文本区域的文本结果。
50.步骤s200：对第一文本区域进行透视变换，并对透视变换后的第一文本区域进行旋转获得第二文本区域，使第二文本区域的矩形框的长边与x轴平行。
51.步骤s300：基于深度学习模型训练获得角度检测模型。
52.步骤s400：利用所述角度检测模型检测第二文本区域内的文字的角度。
53.步骤s500：根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域，使第三文本区域内的文字夹角为0度；。
54.步骤s600：对所述第三文本区域内的字符进行单字符分割和单字符识别。
55.在上述步骤中，x轴和y轴相互垂直构成图像坐标系，图像坐标系如图2所示。值得说明的是，文字角度为文字与y轴的夹角，可以理解为人眼惯常视角观察到的文字与y轴的角度偏差。为便于理解文字角度，举例说明，例如，图2中第一列文本的第五个矩形框的文本区域内的文字角度为0度，图2中第二列文本中的第一个矩形框的文本区域内的文字角度为0度；图2中三列文本中的第五个矩形框的文本区域内的文字角度为90度；图2中第三列文本中的第六个矩形框的文本区域内的文字角度为270度；图2中第三列文本中的第七个矩形框的文本区域内的文字角度为45度；图2中第三列文本中的第二个矩形框的文本区域内的文字角度为180度。
56.参照图3，在步骤s100中，对所述待识别文本图像进行文本区域检测获得矩形框的第一文本区域的步骤包括：
57.步骤s110：利用3
×
3卷积核对所述文本图像连续进行五次卷积操作。
58.步骤s120：对该五次卷积的结果进行基于特征图金字塔网络(fpn)的级联融合获得所述文本图像的特征图；其中，特征图中特征为关于文本图像特性的特征。
59.步骤s130：利用dbnet学习网络对所述特征图进行预测获得关于文本的概率图。
60.步骤s140：对概率图进行阈值操作获得关于文本的分割结果。
61.步骤s150：提取分割结果的轮廓，计算该轮廓的外接矩形框，该外接矩形框框起区域矩形框的第一文本区域。
62.在一申请实施例中，步骤s140中阈值操作的阈值去0.2。
63.在步骤s200中，对第一文本区域进行透视变换，对图2中第一列的文本进行透视变换后的结果为第二列文本。
64.在步骤s200中，对透视变换后的第一文本区域进行旋转获得第二文本区域的步骤包括：判断第一文本区域的矩形框在y轴和x轴的长度比是否大于1.5；若是，将矩形框的第
一文本区域逆时针旋转90度；否者，对矩形框的第一文本区域进行逆时针旋转0度。图2中的第三列文本为对第二列文本进行旋转之后的结果。
65.可以理解，第一文本区域的矩形框在y轴的长度可以理解为矩形框的高，第一文本区域的矩形框在x轴的长度可以理解为矩形框的宽；故在步骤s200中对透视变换后的第一文本区域进行旋转是为了获得横向的矩形框，即此时，第二文本区域的矩形框的长边与x轴平行；若矩形框为正方向，可以认定任意边长为长边，即设定第一文本区域的矩形框在x轴的长度为长边或第一文本区域的矩形框在y轴的长度为长边。
66.步骤s300：基于深度学习模型训练获得角度检测模型的步骤包括：
67.截取自然场景中字符横向平行分布且文字角度为0度的矩形框的文本图像作为数据集；
68.将数据集分成六份，分别记为第一份数据，第二份数据、第三份数据、第四份数据、第五份数据和第六份数据；
69.将第一份数据中的每一文本图像的每个字符进行逆时针旋转0度获得第一训练数据集；将第二份数据中的每二文本图像的每个字符进行逆时针旋转90度获得第二训练数据集；将第三份数据中的每三文本图像的每个字符进行逆时针旋转180度获得第三训练数据集；将第四份数据中的每四文本图像的每个字符进行逆时针旋转270度获得第四训练数据集；将第五份数据中的每五文本图像的每个字符进行逆时针旋转45度获得第五训练数据集；将第六份数据中的每六文本图像的每个字符进行顺时针旋转负45度获得第六训练数据集；
70.利用shufflenetv2网络模型的特征层提取第一训练数据集、第二训练数据集、第三训练数据集、第四训练数据集、第五训练数据集和第六训练数据集关于文本图像的文字角度特征生成特征图，基于shufflenetv2网络模型进行学习训练直至shufflenetv2网络模型收敛，获得角度检测模型。shufflenetv2网络模型为一神经网络模型。
71.进一步地，为提高角度检测模型的精确度，设定第一训练数据集、第二训练数据集、第三训练数据集、第四训练数据集、第五训练数据集和第六训练数据集中文本图像的数量相同。并且，在第一训练数据集、第二训练数据集、第三训练数据集、第四训练数据集、第五训练数据集和第六训练数据集加入负样本。
72.进一步参照图1，在步骤s500中，根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域的步骤包括：
73.步骤s510：若所述角度检测模型检测的第二文本区域内的文字角度为0度，则维持所述第二文本区域内的文字的角度不变；
74.步骤s520：若所述角度检测模型检测的第二文本区域内的文字角度为90度，则将第二文本区域逆时针旋转270度；
75.步骤s530：若所述角度检测模型检测的第二文本区域内的文字角度为180度，则将第二文本区域逆时针旋转180度；
76.步骤s540：若所述角度检测模型检测的第二文本区域内的文字角度为270度，则将第二文本区域逆时针旋转90度；
77.步骤s550：若所述角度检测模型检测的第二文本区域内的文字角度为45度，则将第二文本区域逆时针旋转215度。
78.值得说明的是，文字夹角为0度可以理解为：人员惯常视角查看文字时，文字为正常竖直的书写且文字在竖直方向无角度偏差；例如，图2中的第四列文本内的文字与y轴方向均为0度，人眼惯常视角观察第四列文本区域内的文字时，文字为正常竖直且在竖直方向无角度偏差。
79.在步骤s500中，根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域使得第三文本区域内的文字角度与y轴平行，即使得第三文本区域内的文字在竖直方向上无角度偏差，从而使得第三文本区域内的文字角度统一为人眼惯常习惯查看的状态，如此，便于后续进行单字符分割和单字符识别，降低后续字符分割和字符识别的难度。可以理解，文字角度多样时，由于常用的字符识别库里的文字一般都是正常竖直的，如此，利用常用的字符识别库进行不同角度字符识别时，必然会提高识别难度和影响识别效率。
80.其中，图2中的第四列文本为利用角度检测模型对第三列文本进行角度检测并进行文字角度调整后的结果。
81.在步骤s600中，对所述第三文本区域内的字符进行单字符分割和单字符识别的步骤包括：利用yolov3模型分割出第三文本区域内的所有的单个字符和每个单个字符外接矩形框；根据所有单个字符的外接矩形框左上角顶点的横坐标从小到大的顺序，逐个将单个字符输入单字符识别模型中进行字符识别。
82.在一申请实施例中，单字符识别模型为resnet50学习模型。训练resnet50学习模型的训练数据采用的是字符集gb2312-80一、二级字库中的6763个汉字。为增加数据集的多样性和增加resnet50学习模型的精确度，将训练模型所用的字符集中的至少部分字符图像的亮度变为原来的70％～130％；将至少部分字符图像的对比度随机变化为原来的70％～130％；将至少部分字符图像的饱和度随机变化为原来的70％～130％；将这些亮度变化、饱和度变化和对比度变化的图像加入原来的字符集中混合生成新的训练数据。
83.在所述自然场景的文本识别方法中，首先检测出待识别文本图像的文本区域获得矩形框的第一文本区域；并对透视变换后的第一文本区域进行旋转获得第二文本区域使得第二文本区域的矩形框的长边与x轴平行，即获得横向矩形框的第二文本区域；再利用训练好的角度检测模型检测第二文本区域内的文字的角度，根据所述角度检测模型检测的角度对矩形框的第二文本区域进行文字角度调整获得第三文本区域使得第三文本区域内的文字夹角为0度，即使得第三文本区域内的文字在y轴上无角度偏差，从而使得第三文本区域内的文字角度统一为人眼惯常习惯查看的状态；如此有利于解决因文字不同角度问题增加后续字符识别难度以及影响字符识别效率的问题。
84.本技术实施例还提供计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例中的自然场景的文本识别方法。
85.在本实施例中，计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solid state disk，ssd))等。
86.本技术实施例还提供文本识别装置，该文本识别装置包括存储器和一个或多个处理器，所述存储器和所述处理器耦合；所述存储器用于存储计算机程序代码，所述计算机程
序代码包括计算机指令，当所述计算机指令被所述文本识别装置执行时，使得所述文本识别装置执行述实施例中的自然场景的文本识别方法。
87.在本实施例中，处理器可以包括一个或多个处理单元，例如：处理器可以包括应用处理器(application processor，ap)，调制解调处理器，图形处理器(graphics processingunit，gpu)，图像信号处理器(image signal processor，isp)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，dsp)，基带处理器，和/或神经网络处理器(neural-network processing unit，npu)等；其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。所述存储器可以为但不限于电、磁、光或半导体的系统、装置或器件，具体为但不限于磁盘、硬盘、只读存储器、随机存取存储器或可擦式可编程只读存储器。所述处理器可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
88.以上所述仅为本技术的较佳实施例而已，并不用以限制本技术，凡在本技术的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种电力市场环境下新能源消纳能力的评价方法与流程

自然场景的文本识别方法、可读存储介质及文本识别装置与流程

相关文献

最热文献