一种文本矫正方法、电子设备和存储介质与流程

2022-12-06 23:15:50 来源：中国专利 TAG：

1.本技术涉及文本识别技术领域，特别是涉及一种文本矫正方法、电子设备和存储介质。

背景技术：

2.印章、邮戳、轮胎代码、商店标志等都含有大量的大曲率扇形文本，这些文本无法被传统的卷积神经网络或循环神经网络直接识别。现有技术常采用ocr(optical character recognition，光学字符识别)识别文本，例如，基于深度学习的ocr方法通过训练网络参数，然后使得网络将输入的文本图像自动识别出来，但是这类方法对于扇形文本的识别效果较差。

技术实现要素：

3.本技术主要解决的技术问题是提供一种文本矫正方法、电子设备和存储介质，能够将扇形文本区域矫正为线性文本区域，以提高对扇形文本区域的识别效果。
4.为解决上述技术问题，本技术第一方面提供了一种文本矫正方法，该方法包括：获取目标图像包含的扇形文本区域；获取扇形文本区域中的若干像素点的极坐标；利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域，其中，若干像素点在重映射前后的排列顺序不变。
5.为解决上述技术问题，本技术第二方面提供了一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述第一方面所述的方法。
6.为解决上述技术问题，本技术第三方面提供了一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，程序指令能够被执行以实现上述第一方面所述的方法。
7.本技术的有益效果是：区别于现有技术的情况，本技术获取目标图像包含的扇形文本区域以及扇形文本区域中的若干像素点的极坐标后，利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域，其中，若干像素点在重映射前后的排列顺序不变。通过对若干像素点进行重映射，即可将扇形文本区域矫正为线性文本区域。进一步对线性文本区域进行识别，可得到较好的识别效果。
附图说明
8.图1是本技术提供的文本矫正方法第一实施方式的流程示意图；
9.图2是本技术提供的目标图像一实施方式的示意图；
10.图3是本技术提供的文本矫正方法第二实施方式的流程示意图；
11.图4是本技术提供的文本矫正方法第三实施方式的流程示意图；
12.图5是本技术提供的电子设备一实施方式的框架结构示意图；
13.图6是本技术提供的计算机可读存储介质一实施方式的框架结构示意图。
具体实施方式
14.下面结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
15.需要说明的是，本技术实施例中有涉及“第一”、“第二”等的描述，该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
16.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
17.请结合参阅图1，图1是本技术提供的文本矫正方法第一实施方式的流程示意图，图2是本技术提供的目标图像一实施方式的示意图；该方法包括：
18.s11：获取目标图像包含的扇形文本区域。
19.在一实施方式中，目标图像中包含有扇形文本区域，对目标图像进行检测，得到扇形文本区域的位置。在一具体实施方式中，目标图像是对包含印章的文件进行拍摄得到的，印章中包含扇形文本区域。如图2所示，印章中可以包含扇形文本区域和线性文本区域。具体地，可以对目标图像进行检测，得到扇形文本区域和线性文本区域的若干控制点，若干控制点用于表示检测到的扇形文本区域和线性文本区域的位置和大小。针对线性文本区域可以直接采用ocr进行识别，以得到线性文本区域包含的文本。
20.对于扇形文本区域，可以获取扇形文本区域的几何参数。几何参数可以包括扇形文本区域中的若干像素点的坐标、扇形文本的若干边界点、扇形文本区域的中心点的位置、扇形文本区域的起点、终点和外环半径中的至少一者。如图2所示，在一具体实施方式中，可以以扇形文本区域的左上角一预设位置为原点，建立直角坐标系，以获得扇形文本区域中的若干像素点的直角坐标。
21.s12：获取扇形文本区域中的若干像素点的极坐标。
22.在一实施方式中，将扇形文本区域中的若干像素点的直角坐标转换为极坐标。针对扇形文本区域中的每个像素点，可采用公式(ρ，θ)＝t(x，y)得到极坐标。其中，t表示将直角坐标转换为极坐标的函数，t可表述为下述形式：
23.[0024][0025]
s.t.ρ∈(0，r_outer]andθ∈(-180
°
，180
°
].
ꢀꢀꢀꢀꢀꢀꢀ
(1)
[0026]
其中，x为扇形文本区域中一像素点在直角坐标系中的第一轴坐标，第一轴可以为x轴；y为扇形文本区域中一像素点在直角坐标系中的第二轴坐标，第二轴可以为y轴；r-outer为扇形文本区域的外环半径；ρ为极坐标中的极径；θ为极坐标中的极角；s.t.ρ∈(0,r-outer]表示极径的取值范围大于0，小于或等于扇形文本区域的外环半径。
[0027]
s13：利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域。
[0028]
在一实施方式中，对于扇形文本区域中的每个像素点，可以对像素点的极坐标和预设尺寸进行重映射计算，得到像素点在直角坐标系中的重映射位置，基于若干像素点的重映射位置，得到预设尺寸的线性文本区域。其中，极坐标包括极径和极角，预设尺寸包括预设长度和预设宽度。具体地，对于每个像素点，将预设宽度与像素点的极角的积除以2π，得到像素点的重映射第一轴坐标；将预设长度与像素点的极径的积除以扇形文本区域的外环半径，得到像素点的重映射第二轴坐标。具体如下述公式2所示：
[0029][0030][0031][0032][0033]
其中，ω为重映射第一轴坐标，为一像素点的向量表达，r-outer为扇形文本区域的外环半径，kw为预设宽度，kh为预设长度。
[0034]
其中，预设长度和预设宽度可以根据需要设置，在此不做限定。若干像素点在重映射前后的排列顺序不变。例如，在重映射之前第一像素点位于第二像素点的上方，则重映射后第一像素点还是位于第二像素点的上方，但重映射前后，第一像素点在直角坐标系中的
位置可以发生变化。
[0035]
本实施方式在获取目标图像包含的扇形文本区域以及扇形文本区域中的若干像素点的极坐标后，利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域，其中，若干像素点在重映射前后的排列顺序不变。通过对若干像素点进行重映射，即可将扇形文本区域矫正为线性文本区域。进一步对线性文本区域进行识别，可得到较好的识别效果。
[0036]
请结合参阅图2和图3，图3是本技术提供的文本矫正方法第二实施方式的流程示意图，该方法包括：
[0037]
s31：获取包含扇形文本区域的原始图像。
[0038]
在一实施方式中，原始图像是对包含印章的文件进行拍摄得到的，但是原始图像中的印章相对于正向参考线发生了偏移。如图2所示，以原始图像的左上角任一点为原点(如图2中的o点)建立直角坐标系，以直角坐标系的一个轴线为正向参考线，例如以x轴为正向参考线，获取印章中包含的扇形文本区域的中心点的位置以及原始图像中的凹凸参考点的位置，其中，凹凸参考点可以为扇形文本区域的外环上的一边界点。连接扇形文本的凹凸参考点和中心点，若扇形文本的凹凸参考点和中心点之间的连线与正向参考线的夹角等于预设角度，则认为原始图像中的印章相对于正向参考线发生了偏移，也即扇形文本区域相对于正向参考线发生了偏移。其中，预设角度可以根据凹凸参考点在扇形文本区域的弧线上的位置进行设置，若凹凸参考点为扇形文本区域的弧线的中间的一边界点，则预设角度可以设置为90
°
，即当凹凸参考点与中心点的连线与正向参考线之间的夹角等于90
°
时，认为扇形文本区域未发生偏移；当凹凸参考点与中心点的连线与正向参考线之间的夹角不等于90
°
时，认为扇形文本区域发生偏移。
[0039]
s32：确定原始图像中的扇形文本区域的凹凸性。
[0040]
在一实施方式中，可以统计扇形文本区域的弧线上至少两个像素点分别与扇形文本区域的中心点在预设轴方向上的坐标差，得到统计结果；基于统计结果，确定扇形文本区域的凹凸性。具体地，可以获取至少两个像素点的纵轴坐标与中心点的纵轴坐标之间的坐标差，以得到至少两个像素点对应的坐标差的集中趋势表征值。即利用下述公式3得到集中趋势表征值。
[0041][0042]
其中，δ为集中趋势表征值；yi为扇形文本区域内第i个点的纵轴坐标；y0为扇形文本区域的中心点的纵轴坐标；n为扇形文本区域包含的像素点的总数；pi为扇形文本区域的第i个像素点；pstart为扇形文本区域的起点；pend为扇形文本区域的终点；pi(xi,yi)∈[pstart,pend]表示扇形文本区域的第i个像素点为扇形文本区域的起点、或扇形文本区域的终点、或扇形文本区域的起点和终点之间的任一点。
[0043]
当集中趋势表征值大于预设数值，确定扇形文本区域为凸；当集中趋势表征值小于预设数值，确定扇形文本区域为凹。在一实施方式中，预设数值可以为0。也就是说，如图2
所示，当以扇形文本左上角的一点为原点建立直角坐标系，使得扇形文本区域位于直角坐标系的第一象限时，扇形文本区域的起点和终点的纵向坐标的值小于扇形文本区域的弧线上的任一边界点的纵向坐标的值时，扇形文本区域为凸；扇形文本区域的起点和终点的纵向坐标的值大于扇形文本区域的弧线上的任一边界点的纵向坐标的值时，扇形文本区域为凹。
[0044]
s33：基于扇形文本区域的凹凸性，对原始图像进行旋转，得到目标图像。
[0045]
在一实施方式中，可以预先确定两个候选控制点，其中，一个控制点为扇形文本区域为凹时，位于扇形文本区域的弧线上的一边界点；另一个控制点为扇形文本区域为凸时，位于扇形文本区域的弧线上的一边界点。两个候选控制点可以理解为一条射线与一个圆的交点。根据凹凸性从两个候选控制点中选择一候选控制点作为凹凸参考点，根据凹凸参考点的位置确定图像旋转角度，利用图像旋转角度对原始图像进行旋转，得到目标图像。
[0046]
在其他实施方式中，也可以预先确定三个候选控制点，使得扇形文本区域为凸时，扇形文本区域的弧线上至少存在一候选控制点，或使得扇形文本区域为凹时，扇形文本区域的弧线上至少存在一候选控制点。例如，扇形文本区域为凸时，扇形文本区域的弧线上存在一候选控制点，扇形文本区域为凹时，扇形文本区域的弧线上存在两个候选控制点。当确定扇形文本区域为凸时，将扇形文本区域的弧线对应的候选控制点作为凹凸参考点；当确定扇形文本区域为凹时，从扇形文本区域的弧线对应的两个候选控制点中选择任一候选控制点作为凹凸参考点。根据凹凸参考点的位置确定图像旋转角度，利用图像旋转角度对原始图像进行旋转，得到目标图像。
[0047]
可以理解地，候选控制点的数量可以根据需要设置，在此不做限定。
[0048]
s34：获取目标图像包含的扇形文本区域。
[0049]
s35：获取扇形文本区域中的若干像素点的极坐标。
[0050]
s36：利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域。
[0051]
步骤s34-s36的详细实施方式请参考本技术提供的文本矫正方法第一实施方式的步骤s11-s13，在此不再赘述。
[0052]
扇形文本区域的凹凸性对文本矫正非常重要，凹凸性判断错误会影响被矫正文本的方向，故本实施方式先确定扇形文本进行凹凸性，基于扇形文本区域的凹凸性，对原始图像进行旋转，得到目标图像。再获取扇形文本区域以及扇形文本区域中的若干像素点的极坐标，利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域，其中，若干像素点在重映射前后的排列顺序不变。通过上述方法，可以进一步提高扇形文本区域的矫正效果。
[0053]
请参阅图4，图4是本技术提供的文本矫正方法第三实施方式的流程示意图，该方法包括：
[0054]
s41：获取包含扇形文本区域的原始图像。
[0055]
在一实施方式中，原始图像是对包含印章的文件进行拍摄得到的，但是原始图像中的印章相对于正向参考线发生了偏移。
[0056]
s42：确定原始图像中的扇形文本区域的凹凸性。
[0057]
步骤s41-s42的详细实施方式请参考本技术提供的文本矫正方法第二实施方式的
步骤s31-s32，在此不再赘述。
[0058]
s43：获取原始图像中的扇形文本区域的几何参数。
[0059]
在一实施方式中，扇形文本区域的几何参数可以包括扇形文本区域的中心点的位置、扇形文本区域的起点、扇形文本区域的终点和扇形文本区域的外环半径。在获取扇形文本区域的几何参数时，可以对原始图像进行检测，得到扇形文本区域的若干边界点，根据扇形文本区域的若干边界点可以确定扇形文本区域在原始图像中的位置以及扇形文本区域的大小。其中，可以采用算法对原始图像进行检测，得到若干边界点；也可以采用检测模型对原始图像进行检测，得到若干边界点，在此不做限定。
[0060]
在另一实施方式中，对原始图像进行检测得到的若干边界点，计算任意两个相邻的边界点之间的距离后计算平均距离。然后对于相邻的两个边界点，选择一点作为参考边界点，并计算两点之间的距离，当两点之间的距离大于平均距离时，将参考边界点之外的点剔除。通过这种方法，可以消除对原始图像检测过程中得到的错误边界点。
[0061]
获得扇形文本的若干边界点后，利用若干边界点，得到扇形文本区域的几何参数。具体地，将若干边界点分为若干组，每组包含三个边界点，任意两组中至少存在一个不相同的边界点。利用每组边界点，确定一个圆，找出该圆的圆心位置。对于若干组边界点，可以得到若干个圆心位置，通过聚类算法对若干个圆心位置进行聚类，得到扇形文本区域的中心点的位置。
[0062]
根据中心点的位置和若干边界点，得到扇形文本区域的起点和扇形文本区域的终点。扇形文本区域的起点和终点分别为若干边界点中的一边界点。具体地，分别计算若干边界点到中心点的第一距离，将最大的两个第一距离对应的两个边界点作为扇形文本区域的起点和终点。最大的第一距离即为扇形文本区域的外环半径。
[0063]
s44：利用几何参数和凹凸性，确定原始图像中的凹凸参考点的位置；其中，凹凸参考点为扇形文本区域的一边界点。
[0064]
在一实施方式中，基于扇形文本区域的中心点的位置、外环半径以及起止线的斜率，得到至少两个候选控制点的位置，其中，起止线为由扇形文本区域的起点和终点连线得到的。具体的，可以利用下述公式4计算两个候选控制点的坐标。
[0065][0066]
其中，x0为扇形文本区域的中心点的第一轴坐标；y0为扇形文本区域的中心点的第二轴坐标；r为扇形文本区域的外环半径；k是起止线的斜率；为起止线的法线的斜率
[0067]
得到两个候选控制点的位置后，可以基于扇形文本区域的凹凸性，从两个候选控制点中选择一作为凹凸参考点。在一实施方式中，一个控制点为扇形文本区域为凹时，位于扇形文本区域的弧线上的一边界点；另一个控制点为扇形文本区域为凸时，位于扇形文本区域的弧线上的一边界点。则当确定扇形文本区域的凹凸性后，即可基于凹凸性从两个候选控制点中选择一作为凹凸参考点。
[0068]
s45：基于凹凸参考点的位置确定原始图像的图像旋转角度。
[0069]
在一实施方式中，获取凹凸参考点与扇形文本区域的中心点之间的连线与正向参考线之间的夹角；基于夹角，确定图像旋转角度。其中，正向参考线可以为用户建立的直角坐标系的一个轴线，例如，以原始图像的左上角任一点为原点建立直角坐标系，使原始图像位于直角坐标系的第一象限，以x轴为正向参考线。本实施方式中，可以控制图像旋转角度在0
°
到90
°
之间，可以理解地，在其他实施方式中，图像旋转角度也可以为其他范围，如0
°
到180
°
之间，在此不作限定。
[0070]
s46：利用图像旋转角度对原始图像进行旋转，得到目标图像。
[0071]
s47：获取目标图像包含的扇形文本区域。
[0072]
s48：获取扇形文本区域中的若干像素点的极坐标。
[0073]
s49：利用若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域。
[0074]
步骤s47-s49的详细实施方式请参考本技术提供的文本矫正方法第一实施方式的步骤s11-s13，在此不再赘述。
[0075]
本实施方式中，原始图形中可以仅包含扇形文本区域，也可以既包含线性文本区域又包含扇形文本区域，且线性文本区域和扇形文本区域相对于正向参考线均发生了偏移时，可以先确定扇形文本区域的凹凸性，获取原始图像中的扇形文本区域的几何参数，利用几何参数和凹凸性，确定原始图像中的凹凸参考点的位置；其中，凹凸参考点为扇形文本区域的一边界点，基于凹凸参考点的位置确定原始图像的图像旋转角度，利用图像旋转角度对原始图像进行旋转，得到目标图像。此时目标图像中的线性文本区域和扇形文本区域相对于正向参考线均未发生偏移。
[0076]
在其他实施方式中，原始图像既包含线性文本区域又包含扇形文本区域，且线性文本区域和扇形文本区域相对于正向参考线均发生了偏移时，也可以根据线性文本区域的若干像素点计算图像旋转角度，利用图像旋转角度对原始图像进行旋转，得到目标图像。
[0077]
进一步地，本技术在确定扇形文本区域的凹凸性后，还可以基于凹凸性对原始图像进行切割。在一实施方式中，原始图像中包含至少一个扇形文本区域时，可以利用凹凸性确定初始角，根据初始角切割原始图像，得到目标图像，其中，目标图像中包含完整的扇形文本区域，进而使得对目标图像进行处理后得到的线性文本区域是完整的；初始角可以是任意一条射线与正向参考线之间的夹角，也可以为任意两条射线之间的夹角例如，原始图像是对包含圆形印章的文件进行处理得到的，圆形印章中包含两个扇形文本区域，则可以根据初始角，将圆形印章切割为两部分，每部分包含一个扇形文本区域，分别利用每部分包含的扇形文本区域的若干像素点的极坐标对若干像素点进行重映射，以得到由重映射的若干像素点组成的线性文本区域。可以理解地，若只需要对两个扇形文本区域中的其中一个扇形文本区域进行矫正，则根据初始角切割原始图像时，只需要保证需进行矫正的扇形文本区域的完整性即可。
[0078]
通过上述方式，将扇形文本区域矫正为线性文本区域后，可以采用任何现有的文本识别技术对线性文本区域进行识别，以得到线性文本区域包含的文本。进一步地，本技术提供的文本矫正方法，不仅可以矫正小曲率的扇形文本区域，还可以矫正大曲率的扇形文本区域。
[0079]
请参阅图5，图5是本技术提供的电子设备一实施方式的框架结构示意图。
[0080]
电子设备50包括相互耦接的存储器51和处理器52，存储器51存储有程序指令，处理器52用于执行存储器51中存储的程序指令，以实现上述任一方法实施方式的步骤。在一个具体的实施场景中，电子设备50可以包括但不限于：微型计算机、服务器，此外，电子设备50还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。
[0081]
具体而言，处理器52用于控制其自身以及存储器51以实现上述任一方法实施方式的步骤。处理器52还可以称为cpu(central processing unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。
[0082]
请参阅图6，图6是本技术提供的计算机可读存储介质一实施方式的框架结构示意图。
[0083]
计算机可读存储介质60存储有程序指令61，程序指令61被处理器执行时，用以实现上述任一方法实施例中的步骤。
[0084]
计算机可读存储介质60具体可以为u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其它设备运行，或者也可以自运行该存储的计算机程序。
[0085]
若本技术技术方案涉及个人信息，应用本技术技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本技术技术方案涉及敏感个人信息，应用本技术技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
[0086]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种使用异步流程解决后端系统高并发难题的设计方法与流程

一种文本矫正方法、电子设备和存储介质与流程

相关文献

最热文献