一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练方法、装置及设备与流程

2022-06-29 17:24:24 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种模型训练方法、装置及设备。


背景技术:

2.在实际工作中,很多工作文件都会用到印章,以证明工作文件的真实性和正规性。
3.在很多场景下,需要对印章图像进行识别,以确定印章图像中包括的文本、以及文本所在的文本框(该文本框用于表示文本在印章图像中的位置)。在相关技术中,通常采用常规的文本识别模型对印章图像进行文本识别。然而,由于印章图像中的文本通常是弯曲分布,且文本分布比较密集,采用常规的文本识别模型无法准确的识别出印章图像中的文本区域,进而无法识别出印章图像中的文本、以及文本所在的文本框,导致对印章图像进行识别的准确性较低。


技术实现要素:

4.本技术的多个方面提供一种模型训练方法、装置及设备,用以提高对印章图像进行识别的准确性。
5.第一方面,本技术实施例提供一种模型训练方法,包括:
6.获取多个样本数据,所述样本数据包括样本印章图像和标注结果,所述标注结果包括:所述样本印章图像的标注文本和标注文本框;
7.根据所述多个样本数据进行子模型训练,得到文本中心线tcl子模型、文本边缘线tml子模型和文本边界偏移tbo子模型;
8.根据所述多个样本数据进行模型训练,得到识别模型,所述识别模型包括所述tcl子模型、所述tml子模型和所述tbo子模型,所述识别模型用于识别印章图像中的文本、以及所述文本所在的文本框。
9.在一种可能的实施方式中,根据所述多个样本数据进行子模型训练,得到文本中心线tcl子模型、文本边缘线tml子模型和文本边界偏移tbo子模型,包括:
10.根据所述多个样本数据,对初始的tcl子模型进行训练,得到所述tcl子模型;
11.根据所述多个样本数据,对初始的tml子模型进行训练,得到所述tml子模型;
12.根据所述多个样本数据,对初始的tbo子模型进行训练,得到所述tbo子模型。
13.在一种可能的实施方式中,根据所述多个样本数据,对初始的tcl子模型进行训练,得到所述tcl子模型,包括:
14.通过所述初始的tcl子模型对所述样本数据中的样本印章图像进行处理,得到第一tcl特征图,所述第一tcl特征图中像素点的像素值用于指示所述像素点为文本中心的概率;
15.将所述第一tcl特征图中的文本区域向内收缩预设比例,得到第二tcl特征图,所述文本区域中的像素值大于或等于第一阈值;
16.根据所述第二tcl特征图和所述样本数据中的标注文本框,更新所述初始的tcl子
模型的模型参数,直至得到所述tcl子模型。
17.在一种可能的实施方式中,根据所述多个样本数据,对初始的tml子模型进行训练,得到所述tml子模型,包括:
18.通过所述初始的tml子模型对所述样本数据中的样本印章图像进行处理,得到第一tml特征图,所述第一tml特征图中像素点的像素值用于指示所述像素点为文本框的概率;
19.将所述第一tml特征图中的文本框区域向内收缩预设比例,得到第二tml特征图,所述文本框区域中的像素值大于或等于第二阈值;
20.根据所述第二tml特征图和所述样本数据中的标注文本框,更新所述初始的tml子模型的模型参数,直至得到所述tml子模型。
21.在一种可能的实施方式中,根据所述多个样本数据,对初始的tbo子模型进行训练,得到所述tbo子模型,包括:
22.通过所述初始的tbo子模型对所述样本数据中的样本印章图像进行处理,得到第一tbo特征图,所述第一tbo特征图中像素点的像素值用于指示,所述像素点与文本框的上边缘之间的距离、以及所述像素点与所述文本框的下边缘之间的距离;
23.根据所述第一tbo特征图和所述样本数据中的标注文本框,更新所述初始的tbo子模型的模型参数,直至得到所述tbo子模型。
24.在一种可能的实施方式中,所述识别模型还包括特征提取子模型和文本识别子模型;
25.根据所述多个样本数据进行模型训练,得到识别模型,包括:
26.根据所述tcl子模型、所述tml子模型和所述tbo子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本框;
27.根据所述tcl子模型、所述tml子模型、所述特征提取子模型和所述文本识别子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本;
28.根据所述样本数据中的标注文本框、所述预测文本框、所述样本数据中的标注文本、所述预测文本,对所述识别模型的模型参数进行更新,直至得到所述识别模型。
29.在一种可能的实施方式中,根据所述tcl子模型、所述tml子模型和所述tbo子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本框,包括:
30.根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得近似二值图abm特征图,所述abm特征图中各像素点的像素值用于指示所述像素点为文本区域或者非文本区域;
31.通过所述tbo子模型对所述样本数据中的样本印章图像进行处理,得到第二tbo特征图;
32.根据所述abm特征图和所述第二tbo特征图,确定预测文本框。
33.在一种可能的实施方式中,根据所述tcl子模型、所述tml子模型、所述特征提取子模型和所述文本识别子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本,包括:
34.根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得到abm特征图;
35.根据所述特征提取子模型对所述样本印章图像进行处理,得到印章特征;
36.根据所述abm特征图和所述印章特征,确定文本区域特征;
37.通过所述文本识别子模型对所述文本区域特征进行处理,得到所述预测文本。
38.在一种可能的实施方式中,根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得到abm特征图,包括:
39.通过所述tcl子模型对所述样本数据中的样本印章图像进行处理,得到第三tcl特征图;
40.通过所述tml子模型对所述样本数据中的样本印章图像进行处理,得到第三tml特征图;
41.根据所述第三tcl特征图和所述第三tml特征图,确定所述abm特征图。
42.在一种可能的实施方式中,获取多个样本数据,包括:
43.获取人工标注的多个第一样本数据;以及,
44.根据印章配置信息和语料库中的多个文本,生成多个第二样本数据;
45.其中,所述多个样本数据包括多个第一样本数据和所述多个第二样本数据。
46.在一种可能的实施方式中,针对所述语料库中的任意一个第一文本;根据印章配置信息和所述第一文本,生成第二样本数据,包括:
47.根据所述印章配置信息,生成印章框架;
48.根据所述第一文本的文本长度和所述印章配置信息,确定所述第一文本中各字符在所述印章框架中的位置;
49.根据所述第一文本中各字符在所述印章框架中的位置,将所述第一文本填充至印章框架中,得到无背景印章图像;
50.获取背景图像,并根据所述背景图像和所述无背景印章图像,生成样本印章图像;
51.将所述第一文本确定为所述样本印章图像的标注文本,以及根据所述第一文本中各字符在印章框架中的位置确定所述样本印章图像的标注文本框。
52.在一种可能的实施方式中,根据所述背景图像和所述无背景印章图像,生成样本印章图像,包括:
53.对所述背景图像和所述无背景印章图像进行叠加处理,得到所述样本印章图像;或者,
54.对所述背景图像和所述无背景印章图像进行叠加处理,得到叠加图像,对所述叠加图像进行腐蚀操作、亮度变换操作或印章旋转操作中的至少一种,得到所述样本印章图像。
55.第二方面,本技术实施例提供一种印章图像识别方法,包括:
56.确定第一印章图像;
57.通过识别模型对所述第一印章图像进行处理,以得到所述第一印章图像中包括的文本、以及所述文本所在的文本框;
58.其中,所述识别模型为根据第一方面任一项所述的方法确定得到的。
59.第三方面,本技术实施例提供一种模型训练装置,包括:获取模块、第一训练模块和第二训练模块,其中,
60.所述获取模块用于,获取多个样本数据,所述样本数据包括样本印章图像和标注
结果,所述标注结果包括:所述样本印章图像的标注文本和标注文本框;
61.所述第一训练模块用于,根据所述多个样本数据进行子模型训练,得到文本中心线tcl子模型、文本边缘线tml子模型和文本边界偏移tbo子模型;
62.所述第二训练模块用于,根据所述多个样本数据进行模型训练,得到识别模型,所述识别模型包括所述tcl子模型、所述tml子模型和所述tbo子模型,所述识别模型用于识别印章图像中的文本、以及所述文本所在的文本框。
63.在一种可能的实施方式中,所述第一训练模块具体用于:
64.根据所述多个样本数据,对初始的tcl子模型进行训练,得到所述tcl子模型;
65.根据所述多个样本数据,对初始的tml子模型进行训练,得到所述tml子模型;
66.根据所述多个样本数据,对初始的tbo子模型进行训练,得到所述tbo子模型。
67.在一种可能的实施方式中,所述第一训练模块具体用于:
68.通过所述初始的tcl子模型对所述样本数据中的样本印章图像进行处理,得到第一tcl特征图,所述第一tcl特征图中像素点的像素值用于指示所述像素点为文本中心的概率;
69.将所述第一tcl特征图中的文本区域向内收缩预设比例,得到第二tcl特征图,所述文本区域中的像素值大于或等于第一阈值;
70.根据所述第二tcl特征图和所述样本数据中的标注文本框,更新所述初始的tcl子模型的模型参数,直至得到所述tcl子模型。
71.在一种可能的实施方式中,所述第一训练模块具体用于:
72.通过所述初始的tml子模型对所述样本数据中的样本印章图像进行处理,得到第一tml特征图,所述第一tml特征图中像素点的像素值用于指示所述像素点为文本框的概率;
73.将所述第一tml特征图中的文本框区域向内收缩预设比例,得到第二tml特征图,所述文本框区域中的像素值大于或等于第二阈值;
74.根据所述第二tml特征图和所述样本数据中的标注文本框,更新所述初始的tml子模型的模型参数,直至得到所述tml子模型。
75.在一种可能的实施方式中,所述第一训练模块具体用于:
76.通过所述初始的tbo子模型对所述样本数据中的样本印章图像进行处理,得到第一tbo特征图,所述第一tbo特征图中像素点的像素值用于指示,所述像素点与文本框的上边缘之间的距离、以及所述像素点与所述文本框的下边缘之间的距离;
77.根据所述第一tbo特征图和所述样本数据中的标注文本框,更新所述初始的tbo子模型的模型参数,直至得到所述tbo子模型。
78.在一种可能的实施方式中,所述识别模型还包括特征提取子模型和文本识别子模型;所述第二训练模块具体用于:
79.根据所述tcl子模型、所述tml子模型和所述tbo子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本框;
80.根据所述tcl子模型、所述tml子模型、所述特征提取子模型和所述文本识别子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本;
81.根据所述样本数据中的标注文本框、所述预测文本框、所述样本数据中的标注文
本、所述预测文本,对所述识别模型的模型参数进行更新,直至得到所述识别模型。
82.在一种可能的实施方式中,所述第二训练模块具体用于:
83.根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得近似二值图abm特征图,所述abm特征图中各像素点的像素值用于指示所述像素点为文本区域或者非文本区域;
84.通过所述tbo子模型对所述样本数据中的样本印章图像进行处理,得到第二tbo特征图;
85.根据所述abm特征图和所述第二tbo特征图,确定预测文本框。
86.在一种可能的实施方式中,所述第二训练模块具体用于:
87.根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得到abm特征图;
88.根据所述特征提取子模型对所述样本印章图像进行处理,得到印章特征;
89.根据所述abm特征图和所述印章特征,确定文本区域特征;
90.通过所述文本识别子模型对所述文本区域特征进行处理,得到所述预测文本。
91.在一种可能的实施方式中,所述第二训练模块具体用于:
92.通过所述tcl子模型对所述样本数据中的样本印章图像进行处理,得到第三tcl特征图;
93.通过所述tml子模型对所述样本数据中的样本印章图像进行处理,得到第三tml特征图;
94.根据所述第三tcl特征图和所述第三tml特征图,确定所述abm特征图。
95.在一种可能的实施方式中,所述获取模块具体用于:
96.获取人工标注的多个第一样本数据;以及,
97.根据印章配置信息和语料库中的多个文本,生成多个第二样本数据;
98.其中,所述多个样本数据包括多个第一样本数据和所述多个第二样本数据。
99.在一种可能的实施方式中,所述获取模块具体用于:
100.根据所述印章配置信息,生成印章框架;
101.根据所述第一文本的文本长度和所述印章配置信息,确定所述第一文本中各字符在所述印章框架中的位置;
102.根据所述第一文本中各字符在所述印章框架中的位置,将所述第一文本填充至印章框架中,得到无背景印章图像;
103.获取背景图像,并根据所述背景图像和所述无背景印章图像,生成样本印章图像;
104.将所述第一文本确定为所述样本印章图像的标注文本,以及根据所述第一文本中各字符在印章框架中的位置确定所述样本印章图像的标注文本框。
105.在一种可能的实施方式中,所述获取模块具体用于:
106.对所述背景图像和所述无背景印章图像进行叠加处理,得到所述样本印章图像;或者,
107.对所述背景图像和所述无背景印章图像进行叠加处理,得到叠加图像,对所述叠加图像进行腐蚀操作、亮度变换操作或印章旋转操作中的至少一种,得到所述样本印章图像。
108.第四方面,本技术实施例提供一种印章图像识别装置,包括:确定模块和处理模块,其中,
109.所述确定模块用于,确定第一印章图像;
110.所述处理模块用于,通过识别模型对所述第一印章图像进行处理,以得到所述第一印章图像中包括的文本、以及所述文本所在的文本框;其中,所述识别模型为根据第一方面任一项所述的方法确定得到的。
111.第五方面,本技术实施例提供一种电子设备,包括:存储器和处理器;
112.所述存储器存储计算机执行指令;
113.所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行第一方面任一项所述的模型训练方法。
114.第六方面,本技术实施例提供一种电子设备,包括:存储器和处理器;
115.所述存储器存储计算机执行指令;
116.所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行第二方面所述的印章图像识别方法。
117.第七方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的模型训练方法。
118.第八方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第二方面所述的模型训练方法。
119.第九方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面任一项所示的模型训练方法。
120.第十方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第二方面所示的印章图像识别方法。
121.在本技术实施例中,电子设备可以获取多个样本数据,并根据多个样本数据进行子模型训练,得到文本中心线tcl子模型、文本边缘线tml子模型和文本边界偏移tbo子模型。电子设备可以通过文本中心线tcl子模型、文本边缘线tml子模型和文本边界偏移tbo子模型对样本数据中的样本印章图像进行处理,得到预测文本框;可以通过tcl子模型、tml子模型、特征提取子模型和文本识别子模型,对样本数据中的样本印章图像进行处理,得到预测文本,进一步的,可以根据样本数据中的标注文本框、预测文本框、样本数据中的标注文本、预测文本,对识别模型的模型参数进行更新,直至得到识别模型。由于识别模型中的多个子模型可以从不同维度进行文本区域的识别,使得识别模型可以精准的识别出印章图像中的文本区域,进而准确的识别出印章图像中的文本、以及文本所在的文本框,因此可以提高对印章图像进行识别的准确性。
附图说明
122.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
123.图1a为本技术示例性实施例提供的双栏文字印章的示意图;
124.图1b为本技术示例性实施例提供的单栏文字印章的示意图;
125.图2为本技术示例性实施例提供的印章图像的识别示意图;
126.图3为本技术示例性实施例提供的生成样本数据的方法的流程示意图;
127.图4a为本技术示例性实施例提供的一种印章框架的示意图;
128.图4b为本技术示例性实施例提供的另一种印章框架的示意图;
129.图5为本技术示例性实施例提供的字符的坐标示意图;
130.图6为本技术示例性实施例提供的一种背景图像的示意图;
131.图7为本技术示例性实施例提供的一种生产样本数据的过程示意图;
132.图8为本技术示例性实施例提供的一种模型训练方法的流程示意图;
133.图9a为本技术示例性实施例提供的第一tcl特征图的示意图;
134.图9b为本技术示例性实施例提供的第一tml特征图的示意图;
135.图9c为本技术示例性实施例提供的第一tbo特征图的示意图;
136.图10为本技术示例性实施例提供的训练tcl子模型的方法的流程示意图;
137.图11为本技术示例性实施例提供的生成第二tcl特征图的过程示意图;
138.图12为本技术实施例提供的训练tml子模型的方法的流程示意图;
139.图13为本技术示例性实施例提供的生成第二tml特征图的过程示意图;
140.图14为本技术实施例提供的训练tbo子模型的方法的流程示意图;
141.图15为本技术示例性实施例提供的识别模型的训练方法的过程示意图;
142.图16为本技术示例性实施例提供的abm特征图的示意图;
143.图17为本技术示例性实施例提供的识别模型的示意图;
144.图18为本技术示例性实施例提供的一种印章图像识别方法的过程示意图;
145.图19为本技术示例性实施例提供的一种模型训练装置的结构示意图;
146.图20为本技术示例性实施例提供的一种印章图像识别装置的结构示意图;
147.图21为本技术示例性实施例提供一种电子设备的结构示意图。
具体实施方式
148.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
149.本技术实施例涉及印章,印章包括双栏文字印章和单栏文字印章,为了便于理解,下面,结合图1a-图1b,分别对双栏文字印章和单栏文字印章进行说明。
150.图1a为本技术示例性实施例提供的双栏文字印章的示意图。请参见图1a,双栏文字印章中包括上行语料和下行语料。例如,上行语料可以为“某责任有限公司”,下行语料可以为“财务专用章”。
151.图1b为本技术示例性实施例提供的单栏文字印章的示意图。请参见图1b,单栏文字印章中包括上行语料,没有下行语料。例如,上行语料为“某责任有限公司”。
152.在多种场景下,需要对印章图像(印章所形成的图像)进行识别,以识别得到印章图像中的文本、以及文本所在的文本框。下面,结合图2,对印章图像的识别进行说明。
153.图2为本技术示例性实施例提供的印章图像的识别示意图。请参见图2,以单栏文字印章的印章图像为例进行说明。印章图像中包括文本“某责任有限公司”,文本中的各个文字在印章图像中有对应的位置。识别模型可以对印章图像中的文本和文本的位置进行识别,得到对应的识别结果。如图2,识别结果可以包括文本识别结果和文本框识别结果。其中,文本识别结果为“某责任有限公司”,文本框识别结果为文本所在的文本框。
154.在相关技术中,通常采用常规的文本识别模型对印章图像进行文本识别。然而,由于印章图像中的文本通常是弯曲分布,且文本分布比较密集,采用常规的文本识别模型无法准确的识别出印章图像中的文本区域,进而无法识别出印章图像中的文本、以及文本所在的文本框,导致对印章图像进行识别的准确性较低。
155.在本技术实施例中,可以通过识别模型对印章图像进行识别,识别模型中包括多个用于进行文本区域识别的子模型,在对识别模型进行训练的过程中,可以先分别训练该多个子模型,在子模型训练完成之后,再整体训练识别模型。识别模型中的多个子模型可以从不同维度进行文本区域的识别,使得识别模型可以精准的识别出印章图像中的文本区域,进而准确的识别出印章图像中的文本、以及文本所在的文本框,提高了对印章图像进行识别的准确性。
156.下面,通过具体实施例对本技术所示的技术方案进行详细说明。需要说明的是,下面几个实施例可以单独存在,也可以相互结合,对于相同或相似的内容,在不同的实施例中不再重复说明。
157.本技术实施例涉及识别模型的训练过程、以及通过训练好的识别模型对印章图像进行识别的过程。在识别模型的训练过程中,为了保证训练样本的丰富性、充足性、以及获取训练样本的便捷性,可以自动生成训练样本(样本数据)。为了便于理解,首先结合图3-图7,以单栏文字印章的印章图像为例,对生成样本数据的过程进行说明。
158.图3为本技术示例性实施例提供的生成样本数据的方法的流程示意图。请参见图3,该方法可以包括:
159.s301、在语料库中获取第一文本。
160.本技术实施例的执行主体可以为电子设备,也可以为设置在电子设备中模型训练装置。模型训练装置可以通过软件实现,也可以通过软件和硬件的结合实现。模型训练装置可以为电子设备中的处理器。为了便于理解,在下文中,以执行主体为电子设备为例进行说明。
161.语料库可以包括上行语料库和下行语料库。其中,上行语料库中可以包括公司、企业等语料。例如,上行语料可以为“某责任有限公司”、“某科技有限公司”等。下行语料库中可以包括部门名称、专用章等语料。例如,下行语料可以为“财务专用章”、“人事专用章”等。
162.电子设备可以在语料库中读取上行语料和下行语料,用以生成双栏文字印章的印章图像,则第一文本包括上行语料和下行语料。电子设备也可以在语料库中读取上行语料,用以生成单栏文字印章的印章图像,则第一文本包括上行语料。
163.计算机获取第一文本之后,可以确定第一文本的长度。例如,若第一文本为“某责任有限公司”,则文本长度可以为7。
164.在下文中,以电子设备生成单栏文字印章的样本数据的过程进行说明。
165.s302、获取印章配置信息,生成印章框架。
166.印章配置信息中可以包括印章的内边线圆半径及对应的线条宽度、内环线圆半径及对应的线条宽度、五角星、字符所占的总弧度等信息中的一种或多种。例如,字符所占的总弧度可以为180度等。
167.电子设备可以获取印章配置信息,并根据印章配置信息,生成印章框架。
168.下面,结合图4a-图4b,对印章框架进行说明。
169.图4a为本技术示例性实施例提供的一种印章框架的示意图。请参见图4a,印章框架中包括内边线圆和五角星。其中,内边线圆的半径可以为2.1cm,线宽可以为0.1cm;五角星的星尖直径可以为0.8cm,字符所占的总弧度可以为150度。
170.图4b为本技术示例性实施例提供的另一种印章框架的示意图。请参见图4b,印章框架中包括内边线圆和内环线圆。其中内边线圆的半径可以为2.0cm,线宽可以为0.1cm;内环线圆的半径可以为1.5cm,线宽可以为0.01cm;字符所占的总弧度可以为120度。
171.可选的,电子设备生成印章框架之后,还可以进行抗锯齿操作,柔化印章框架的边缘。
172.s303、根据第一文本的文本长度和印章配置信息,确定第一文本中各字符在印章框架中的位置。
173.可选的,电子设备可以根据字符所占的总弧度及设定的字符间隙,确定每个字符平均所占的弧度,根据第一文本的文本长度和字符所占的总弧度,动态配置各字符的大小,并根据字符的大小、每个字符平均所占的弧度,确定每个字符在印章框架中的坐标,从而确定第一文本中各字符在印章框架中的位置。
174.例如,若第一文本的文本长度为“某责任有限公司”,共7个字符。第一文本中字符所占的总弧度为150度,设定的字符间隙为2度,则可以确定每个字符平均所占的弧度约为19.7度。
175.可以预先设置文本长度、字符所占的总弧度与字符的大小之间的对应关系,可以根据文本长度、字符所占的总弧度以及该对应关系,确定字符的大小。例如,若第一文本的文本长度为“某责任有限公司”,第一文本中字符所占的总弧度为150度,则可以动态配置字符的大小为四号(四号字体的高度约为5mm)。
176.下面,结合图5对字符在印章框架中的坐标进行说明。
177.图5为本技术示例性实施例提供的字符的坐标示意图。如图5,可以在印章框架中建立直角坐标系。可以以印章框架的中心为坐标原点,用“o”表示。字符“x”的坐标可以包括上下起始、终止坐标,共4个坐标。其中a(1,1.73)可以为上起始坐标,b(0.75,1.30)可以为下起始坐标,c(1.03,0.6)可以为下终止坐标,d(1.29,0.75)可以为上终止坐标。其中,oa和od之间的夹角为字符“x”所占的弧度。例如,字符“x”所占的弧度可以为30
°

178.可选的,还可以在印章框架中建立极坐标系,确定各个字符在极坐标系中的坐标。
179.s304、根据第一文本中各字符在印章框架中的位置,将第一文本填充至印章框架中,得到无背景印章图像。
180.电子设备可以确定第一文本中各字符在印章框架中的位置之后,则可以将第一文本按照从左到右的文字顺序,将各个文字填充在各个字符对应的位置上,从而得到无背景的印章图像。例如,若电子设备可以确定7个字符及各个字符对应的位置,其中,字符的顺序从左到右分别为字符-1、字符-2、字符-3、字符-4、字符-5、字符-6、字符-7,第一文本为“某
责任有限公司”,则电子设备可以将“某责任有限公司”中的7个文字,按照从左到右的文字顺序,分别填充在字符-1、字符-2、字符-3、字符-4、字符-5、字符-6、字符-7的位置上,以得到无背景的印章图像。
181.s305、获取背景图像。
182.电子设备可以在数据库中获取带有预设字符的文件的图片,并通过印章检测网络,检测出含有印章的文件图片和没有印章的文件图片。电子设备可以将没有印章的文件图片随机进行裁剪,作为背景图像。例如,预设字符可以包括“合同”、“表”等。
183.图6为本技术示例性实施例提供的一种背景图像的示意图。如图6,背景图像中可以包括日期、文字等。
184.s306、根据无背景印章图像和背景图像,确定样本印章图像。
185.电子设备可以通过如下两种方式确定样本印章图像:
186.方式1、将无背景印章图像和背景图像叠加处理。
187.电子设备可以将无背景印章图像直接叠加到背景图像上,以确定样本印章图像。
188.通过该种方式生成的样本印章图像通常为较为规整、清晰的图像。
189.方式2、将无背景印章图像和背景图像叠加处理,得到叠加图像,并对叠加图像进行模糊处理、旋转处理等中的至少一种处理。
190.由于在实际过程中,在按印章和印章图像的数据采集的过程中,会有一些非正常的情况。例如,按印章时力度不足,采样时背景亮度不足等情况,都会导致印章图像比较模糊。
191.为了使得生成的样本印章图像更真实,电子设备可以将无背景印章图像直接叠加到背景图像上,得到叠加图像之后,电子设备可以对叠加图像进行模糊处理、旋转处理等中的至少一种处理,以得到样本印章图像。
192.例如,电子设备可以对叠加图像进行腐蚀操作,来模拟按印章时力度不足导致印章模糊的情况;可以对叠加图像进行亮度变化操作,来模拟采集数据时,背景亮度不足导致图片偏暗的情况;可以利用对印章的随机旋转操作,来模拟按印章时,非正常角度的操作。
193.可选的,在印章旋转时,对应的印章边框的坐标也需要旋转,假设图片的长为h,宽为w,根据图片中心旋转的角度为β度,需要变换的原始坐标为(x,y),则坐标旋转变换后的坐标(xt,yt)计算公式为:
194.xt=x*cos(β)-y*sin(β)-0.5*w*cos(β) 0.5*h*sin(β) 0.5*w;
195.yt=y*cos(β) x*sin(β)-0.5*w*sin(β)-0.5*h*cos(β) 0.5*h。
196.s307、将第一文本确定为样本印章图像的标注文本,以及根据第一文本中各字符在印章框架中的位置确定标注文本所在的文本框。
197.电子设备可以将第一文本确定为样本印章图像的标注文本,并根据第一文本中各字符对应的上下起始坐标,将上下起始坐标依次连接起来形成文本框,则可以确定为标注文本所在的文本框。
198.为了字符和文本框之间留有一定的间隙,可以加入一定的偏置,确保文本框的准确性。
199.下面,结合图7,通过具体示例对生成样本数据的过程进行说明。
200.图7为本技术示例性实施例提供的一种生产样本数据的过程示意图。请参见图7,
包括过程1、过程2、过程3和过程4。
201.请参见过程1,电子设备可以获取第一文本为“某责任有限公司”和印章配置信息,并根据印章配置信息,生成印章框架。如图7,印章框架的内边线圆的半径可以为2.1cm,线宽可以为0.1cm;五角星的星尖直径可以为0.8cm,字符所占的总弧度可以为150度。
202.请参见过程2,电子设备可以根据第一文本的文本长度和印章配置信息,确定各字符平均所占的弧度,动态配置各字符的大小,并确定各字符在印章框架中的坐标,从而确定各字符在印章框架中的位置。各字符在印章框架中的位置可以通过坐标表示,也可以通过各字符对应的文本框表示。
203.请参见过程3,电子设备确定各字符在印章框架中的位置之后,则可以将第一文本“某责任有限公司”填充在文本框中,以得到无背景印章图像。
204.请参见过程4,电子设备可以将第一文本“某责任有限公司”确定为样本印章图像的标注文本,并将第一文本中各字符对应的坐标连接起来,确定为标注文本所在的文本框。
205.请参见过程5,电子设备可以获取背景图像,并将背景图像和无背景印章图像叠加在一起,以生成叠加图像,并将叠加图像确定为样本印章图像。
206.可选的,电子设备还可以对叠加图像进行模糊处理、亮度变化操作、旋转操作等,以模拟实际使用印章和对印章图像进行数据采集过程中的实际情况。
207.在本技术实施例中,电子设备可以在语料库中获取第一文本,并确定第一文本的文本长度。电子设备可以获取印章配置信息,并根据印章配置信息生成印章框架。电子设备可以根据第一文本的文本长度和印章配置信息,确定第一文本中各字符在印章框架中的位置,并将第一文本填充在印章框架中,得到无背景印章图像。电子设备可以获取背景图像,并将无背景印章图像和背景图像叠加在一起,确定为样本印章图像。电子设备可以将第一文本确定为样本印章图像的标注文本,以及根据第一文本中各字符在印章框架中的位置确定标注文本所在的文本框。由于电子设备可以根据第一文本和印章配置信息生成样本印章图像,并确定样本印章图像的标注结果,避免了人工标注大量的样本数据,因此可以提高获取样本数据的效率。
208.在上述任意一个实施例的基础上,下面,结合图8-图9,对识别模型的训练过程进行说明。
209.图8为本技术示例性实施例提供的一种模型训练方法的流程示意图。请参见图8,该方法可以包括:
210.s801、获取多个样本数据。
211.样本数据可以包括样本印章图像和标注结果。标注结果可以包括样本印章图像的标注文本和标注文本框。
212.多个样本数据中可以包括人工标注的第一样本数据和生成的第二样本数据。电子设备可以在数据库中获取印章图像,再通过人工标注,获取第一样本数据;生成第二样本数据的过程可以参见图3,此处不再进行赘述。
213.s802、根据多个样本数据进行子模型训练,得到文本中心线(text center line,tcl)子模型、文本边缘线(text margin line,tml)子模型和文本边界偏移(text border offerset,tbo)子模型。
214.电子设备可以根据多个样本数据,对初始的tcl子模型进行训练,得到tcl子模型。
可以通过tcl子模型对样本数据中的样本印章图像进行处理,得到第一tcl特征图。第一tcl特征图中包括多个像素点,每个像素点有对应的像素值,像素值用于指示像素点为文本中心的概率。第一tcl特征图中包括文本区域和非文本区域,其中,文本区域中的像素点的像素值大于或者等于第一阈值,非文本区域中的像素点的像素值小于第一阈值。例如,可以设定第一阈值为0.2,则电子设备可以确定像素值大于或者等于0.2的像素点属于文本区域,像素值小于0.2的像素点属于非文本区域。
215.电子设备可以根据多个样本数据,对初始的tml子模型进行训练,得到tml子模型。可以通过tml子模型对样本数据中的样本印章图像进行处理,得到第一tml特征图。第一tml特征图中包括多个像素点,每个像素点有对应的像素值,像素值用于指示像素点为文本框的概率。第一tml特征图中包括文本框区域和非文本框区域,其中,文本框区域中的像素点的像素值大于或者等于第二阈值,非文本框区域中的像素点的像素值小于第二阈值。例如,可以设定第二阈值为0.2,则电子设备可以确定像素值大于或者等于0.2的像素点属于文本框区域,像素值小于0.2的像素点属于非文本框区域。
216.电子设备可以根据多个样本数据,对初始的tbo子模型进行训练,得到tbo子模型。可以通过tbo子模型对样本数据中的样本印章图像进行处理,得到第一tbo特征图。第一tbo特征图中包括多个像素点,每个像素点有对应的像素值,像素值用于指示,像素点与文本框的上边缘之间的距离、以及像素点与文本框的下边缘之间的距离。
217.下面,结合图9a-图9c,分别对第一tcl特征图、第一tml特征图和第一tbo特征图进行说明。
218.图9a为本技术示例性实施例提供的第一tcl特征图的示意图。请参见图9a,若电子设备可以确定样本印章图像中的标注文本包括“公司、组”,其中,“公司”属于第一行字符,“组”属于第二行字符,且“公司”和“组”的位置如图9a所示,为了便于描述,以样本印章图像中包括“组、公司”文本的部分图像为例进行说明。
219.如图9a,若设定第一阈值为0.2,则电子设备可以确定“公”对应的文本区域。其中,在文本中心的像素点对应的像素值为1。从文本中心到文本四周,像素点对应的像素值逐渐降低,分别在0.2~1之间。例如,“公”四周的像素点分别为0.9、0.8、0.7、0.6、0.5、0.3、0.2等。非文本区域中的像素点对应的像素值可以为0~0.1。
220.同样的,电子设备可以确定“司”和“组”对应的文本区域。其中,文本中心的像素点,对应的像素值均为1。文本四周的像素点,对应的像素值可以分别为0.9、0.8、0.7、0.6、0.5、0.3、0.2等。非文本区域中的像素点对应的像素值可以为0~0.1。
221.图9b为本技术示例性实施例提供的第一tml特征图的示意图。请参见图9b,若电子设备可以确定样本印章图像中的标注文本框包括文本框1和文本框2,且文本框1和文本框2的位置如图9b所示,为了便于描述,以样本印章图像中的部分图像为了进行说明。
222.若设定第二阈值为0.2,则电子设备可以确定文本框1对应的文本框区域。其中,从文本框到文本框四周,像素点对应的像素值逐渐降低,分别在0.2~1之间。例如,文本框1对应的像素点的像素值可以为0.9、0.8、0.7、0.6、0.5、0.2等。非文本框区域中的像素点对应的像素值为0~0.1。
223.同样的,电子设备可以确定文本框2对应的文本框区域,对应的像素值可以分别为0.9、0.8、0.7、0.6、0.5、0.2等。非文本框区域中的像素点对应的像素值为0~0.1。
224.出于画图需要,像素点的尺寸较大,文本框的线条不足以覆盖整个像素点。在实际工作中,像素点很小,文本框的线条可以覆盖多个像素点。对于文本框的线条完全覆盖的像素点,对应的像素值可以为1。
225.图9c为本技术示例性实施例提供的第一tbo特征图的示意图。为了便于描述,以样本印章图像中的部分图像为了进行说明。
226.请参见图9c,若电子设备可以确定样本印章图像中的标注文本包括“公”,以及对应的标注文本框为文本框1,则电子设备可以确定“公”对应的多个像素点,并确定每个像素点与文本框1的上边缘之间的距离、以及像素点与文本框1的下边缘之间的距离。该距离可以通过像素值表示。如图9c,电子设备可以确定a点与文本1的上边缘之间的距离为10px、与文本框1的下边缘之间的距离为8px。
227.s803、根据多个样本数据进行模型训练,得到识别模型。
228.识别模型包括tcl子模型、tml子模型和tbo子模型,还可以包括特征(feature)提取子模型和文本识别子模型。识别模型可以用于识别印章图像中的文本、以及文本所在的文本框。
229.电子设备可以通过tcl子模型、tml子模型和tbo子模型,对样本数据中的样本印章图像进行处理,得到预测文本框;还可以通过tcl子模型、tml子模型、特征提取子模型和文本识别子模型,对样本数据中的样本印章图像进行处理,得到预测文本。
230.计算机获取预测文本框和预测文本之后,可以将预测文本框与样本数据中的标注文本框进行对比,获取文本框的对比结果;可以将预测文本与样本数据中的标注文本进行对比,获取文本的对比结果。电子设备可以根据文本框的对比结果、文本的对比结果,对识别模型的模型参数进行更新,直至得到识别模型。
231.在本技术实施例中,电子设备可以获取多个样本数据,并根据多个样本数据进行子模型训练,得到tcl子模型、tml子模型和tbo子模型,再通过样本数据进行整体训练,得到识别模型。识别模型可以用于识别印章图像中的文本、以及文本所在的文本框。由于识别模型中的多个子模型可以从不同维度进行文本区域的识别,使得识别模型可以精准的识别出印章图像中的文本区域,进而准确的识别出印章图像中的文本、以及文本所在的文本框,提高了对印章图像进行识别的准确性。
232.在上述任意一个实施例的基础上,在训练识别模型的过程中,需要先训练识别模型中的tcl子模型、tml子模型和tbo子模型。当子模型不同时,训练子模型的方法也不同。下面,结果图10-图14,对训练子模型的过程进行说明。
233.图10为本技术示例性实施例提供的训练tcl子模型的方法的流程示意图。请参见图10,该方法可以包括:
234.s1001、通过初始的tcl子模型对样本数据中的样本印章图像进行处理,得到第一tcl特征图。
235.可选的,样本数据中可以包括人工标记的第一样本数据和生成的第二样本数据,第一样本数据的数量和第二样本数据的数量可以相同。
236.针对任意一次迭代训练,初始的tcl子模型可以对样本印章图像进行处理,得到第一tcl特征图。第一tcl特征图中包括多个像素点,像素点的像素值用于指示像素点为文本中心的概率。关于第一tcl特征图的具体介绍,请参见图9a,此处不再进行赘述。
237.在第1次迭代训练的过程中,初始的tcl子模型是指未进行训练的tcl子模型。
238.在第i(大于或等于2)次迭代训练中,初始的tcl子模型是指上一次迭代完成之后得到的tcl子模型。例如,在第2次迭代训练过程中,初始的tcl子模型是指第1次迭代训练后得到的tcl子模型;在第3次迭代训练过程中,初始的tcl子模型是指第2次迭代训练后得到的tcl子模型。
239.s1002、将第一tcl特征图中的文本区域向内收缩预设比例,得到第二tcl特征图。
240.由于样本印章图像中的文字通常是弯曲分布,且文本分布比较密集,在第一tcl特征图中,文本区域可以会出现重叠、粘连的情况,导致难以识别出各个文字对应的文本区域,因此可以将第一tcl特征图的文本区域向内收缩预设比例,以使各个文字的文本区域可以区别开来。
241.下面,结合图11,对第二tcl特征图进行介绍。
242.图11为本技术示例性实施例提供的生成第二tcl特征图的过程示意图。请参见图11,包括第一tcl特征图和第二tcl特征图。
243.如图11,电子设备可以将像素值大于0.2的区域确定为文本区域。可以看出在第一tcl特征图中,“公司”和“组”的文本区域有部分粘连在一起,无法区别开来。
244.将第一tcl特征图收缩预设比例之后,可以得到第二tcl特征图。可以看出,公司”和“组”分别对应的文本区域缩小。“公司”和“组”之间出现了像素值为0的像素点,则tcl子模型可以将“公司”对应的文本区域和“组”对应的文本区域区别开来,便于tcl子模型进行识别。
245.s1003、根据第二tcl特征图和样本数据中的标注文本框,更新初始的tcl子模型的模型参数。
246.电子设备获取第二tcl特征图之后,可以将第二tcl特征图与样本数据中的标注文本框进行对比,得到第一损失函数,并根据第一损失函数更新初始的tcl子模型的模型参数。
247.s1004、判断tcl子模型是否收敛。
248.若是,则执行s1005。
249.若否,则执行s1001。
250.可选的,若在当前迭代之前的多次迭代过程中,得到的第一损失函数的值都小于或等于第一预设阈值,且第一损失函数的值保持稳定不变,则可以确定tcl子模型收敛。
251.s1005、将模型参数更新后的tcl子模型确定为训练完成的tcl子模型。
252.在本技术实施例中,电子设备可以通过初始的tcl子模型对样本数据中的样本印章图像进行处理,得到第一tcl特征图,并将第一tcl特征图中的文本区域向内收缩预设比例,得到第二tcl特征图。电子设备可以根据第二tcl特征图和样本数据中的标注文本框,更新初始的tcl子模型的模型参数。若tcl子模型为收敛状态,则可以将模型参数更新后的tcl子模型确定为训练完成的tcl子模型;若tcl子模型为非收敛状态,则可以继续进行迭代训练,直至tcl子模型为收敛状态,以确定训练完成的tcl子模型。在对tcl子模型进行训练的过程中,使用了人工标注的第一样本数据和生成的第二样本数据,丰富且全面的样本数据可以保证训练得到的tcl子模型的精确性。并且,还对tcl子模型输出的第一tcl特征图中的文本区域向内收缩预设比例,以确保识别出的文本区域的准确性,进一步提高了训练得到
的tcl子模型的精确性,提高了tcl子模型对文本区域识别的准确性。
253.图12为本技术示例性实施例提供的训练tml子模型的方法的流程示意图。请参见图12,该方法可以包括:
254.s1201、通过初始的tml子模型对样本数据中的样本印章图像进行处理,得到第一tml特征图。
255.可选的,样本数据中可以包括人工标记的第一样本数据和生成的第二样本数据,第一样本数据的数量和第二样本数据的数量可以相同。
256.针对任意一次迭代训练,初始的tml子模型可以对样本印章图像进行处理,得到第一tml特征图。第一tml特征图中包括多个像素点,像素点的像素值用于指示像素点为文本框的概率。关于第一tml特征图的具体介绍,请参见图9b,此处不再进行赘述。
257.在第1次迭代训练的过程中,初始的tml子模型是指未进行训练的tml子模型。
258.在第n(大于或等于2)次迭代训练中,初始的tml子模型是指上一次迭代完成之后得到的tml子模型。例如,在第2次迭代训练过程中,初始的tml子模型是指第1次迭代训练后得到的tml子模型;在第3次迭代训练过程中,初始的tml子模型是指第2次迭代训练后得到的tml子模型。
259.s1202、将第一tml特征图中的文本框区域向内收缩预设比例,得到第二tml特征图。
260.由于样本印章图像中的文本通常分布比较密集,在第一tml特征图中,文本框区域可以会出现粘连的情况,导致tml子模型难以识别出各个文本框,因此可以将第一tml特征图的文本框区域向内收缩预设比例,以使各个文本框区域可以区别开来,便于tml子模型进行识别。
261.下面,结合图13,对第二tml特征图进行介绍。
262.图13为本技术示例性实施例提供的生成第二tml特征图的过程示意图。请参见图13,包括第一tml特征图和第二tml特征图。
263.如图13,电子设备可以将像素值大于0.2的区域确定为文本框区域。可以看出在第一tml特征图中,文本框1的区域和文本框2的区域有部分粘连在一起,无法区别开来。
264.将第一tml特征图收缩预设比例之后,可以得到第二tml特征图。可以看出,文本框1的区域和文本框2的区域缩小。文本框1的区域和文本框2的区域之间出现了像素值为0的像素点,则tml子模型可以将文本框1的区域和文本框2的区域区别开来,便于tml子模型进行识别。
265.s1203、根据第二tml特征图和样本数据中的标注文本框,更新初始的tml子模型的模型参数。
266.电子设备获取第二tml特征图之后,可以将第二tml特征图与样本数据中的标注文本框进行对比,得到第二损失函数,并根据第二损失函数更新初始的tml子模型的模型参数。
267.s1204、判断tml子模型是否收敛。
268.若是,则执行s1205。
269.若否,则执行s1201。
270.可选的,若在当前迭代之前的多次迭代过程中,得到的第二损失函数的值都小于
或等于第二预设阈值,且第二损失函数的值保持稳定不变,则可以确定tml子模型收敛。
271.s1205、将模型参数更新后的tml子模型确定为训练完成的tml子模型。
272.在本技术实施例中,电子设备可以通过初始的tml子模型对样本数据中的样本印章图像进行处理,得到第一tml特征图,并将第一tml特征图中的文本框区域向内收缩预设比例,得到第二tml特征图。电子设备可以根据第二tml特征图和样本数据中的标注文本框,更新初始的tml子模型的模型参数。若tml子模型为收敛状态,则可以将模型参数更新后的tml子模型确定为训练完成的tml子模型;若tml子模型为非收敛状态,则可以继续进行迭代训练,直至tml子模型为收敛状态,以确定训练完成的tml子模型。在对tml子模型进行训练的过程中,使用了人工标注的第一样本数据和生成的第二样本数据,丰富且全面的样本数据可以保证训练得到的tml子模型的精确性。并且,还对tml子模型输出的第一tml特征图中的文本区域向内收缩预设比例,以确保识别出的文本区域的准确性,进一步提高了训练得到的tml子模型的精确性,提高了tml子模型对文本框区域识别的准确性。
273.图14为本技术实施例提供的训练tbo子模型的方法的流程示意图。请参见图14,该方法可以包括:
274.s1401、通过初始的tbo子模型对样本数据中的样本印章图像进行处理,得到第一tbo特征图。
275.可选的,样本数据中可以包括人工标记的第一样本数据和生成的第二样本数据,第一样本数据的数量和第二样本数据的数量可以相同。
276.针对任意一次迭代训练,初始的tbo子模型可以对样本印章图像进行处理,得到第一tbo特征图。第一tbo特征图中包括多个像素点,像素点的像素值用于指示像素点与文本框的上边缘之间的距离、以及像素点与文本框的下边缘之间的距离。关于第一tbo特征图的具体介绍,请参见图9c,此处不再进行赘述。
277.在第1次迭代训练的过程中,初始的tbo子模型是指未进行训练的tbo子模型。
278.在第m(大于或等于2)次迭代训练中,初始的tbo子模型是指上一次迭代完成之后得到的tbo子模型。例如,在第2次迭代训练过程中,初始的tbo子模型是指第1次迭代训练后得到的tbo子模型;在第3次迭代训练过程中,初始的tbo子模型是指第2次迭代训练后得到的tbo子模型。
279.s1402、根据第一tbo特征图和样本数据中的标注文本框,更新初始的tbo子模型的模型参数。
280.电子设备获取第一tbo特征图之后,可以将第一tbo特征图与样本数据中的标注文本框进行对比,得到第三损失函数,并根据第三损失函数更新初始的tbo子模型的模型参数。
281.s1403、判断tbo子模型是否收敛。
282.若是,则执行s1404。
283.若否,则执行s1401。
284.可选的,若在当前迭代之前的多次迭代过程中,得到的第三损失函数的值都小于或等于第三预设阈值,且第三损失函数的值保持稳定不变,则可以确定tbo子模型收敛。
285.s1404、将模型参数更新后的tbo子模型确定为训练完成的tbo子模型。
286.在本技术实施例中,电子设备可以获取通过初始的tbo子模型对样本数据中的样
本印章图像进行处理,得到第一tbo特征图。电子设备可以根据第一tbo特征图和样本数据中的标注文本框,更新初始的tbo子模型的模型参数。若tbo子模型为收敛状态,则可以将模型参数更新后的tbo子模型确定为训练完成的tbo子模型;若tbo子模型非收敛状态,则可以继续进行迭代训练,直至tbo子模型为收敛状态,以确定训练完成的tbo子模型。在对tbo子模型进行训练的过程中,使用了人工标注的第一样本数据和生成的第二样本数据,丰富且全面的样本数据可以保证训练得到的tbo子模型的精确性,提高了tbo子模型对文本区域识别的准确性。
287.电子设备对tcl子模型、tml子模型和tbo子模型训练完成之后,则可以根据样本数据对识别模型进行整体训练。下面,结合图15-图16,对识别模型的训练方法、以及识别模型进行说明。
288.图15为本技术示例性实施例提供的识别模型的训练方法的过程示意图。请参见图15,该方法可以包括:
289.s1501、根据tcl子模型和tml子模型,对样本数据中的样本印章图像进行处理,得近似二值图abm特征图。
290.在一可选实施例中,电子设备可以通过训练完成的tcl子模型对样本数据中的样本印章图像进行处理,得到第三tcl特征图;可以通过训练完成的tml子模型对样本数据中的样本印章图像进行处理,得到第三tml特征图,并根据第三tcl特征图和第三tml特征图,得到abm特征图。
291.第三tcl特征图的具体介绍可以参见图11中的第二tcl特征图,此处不再进行赘述。第三tml特征图的具体介绍可以参见图13中的第二tml特征图,此处不再进行赘述。
292.abm特征图可以为近似二值图,图像中的像素值可以为0或1,用于指示像素点为文本区域或者非文本区域。其中,文本区域中的像素点对应的像素值为1,非文本区域中的像素点对应的像素值为0。相比于第三tcl特征图,abm特征图中去除了一些非文本区域,文本区域更加精确,优化了第三tcl特征图。
293.下面,结合图16,对abm特征图进行说明。
294.图16为本技术示例性实施例提供的abm特征图的示意图。请参见图16,若电子设备可以确定样本印章图像中的标注文本包括“公司”和“组”,为了便于描述,以样本印章图像中包括“公司”和“组”文本的部分图像为例进行说明。
295.如图16,abm特征图中包括“公司”和“组”对应的文本区域。电子设备可以确定“公司”对应的文本区域和“组”对应的文本区域。其中,文本区域中的像素点对应的像素值均为1,非文本区域中的像素点的像素值为0。
296.s1502、通过tbo子模型对样本数据中的样本印章图像进行处理,得到第二tbo特征图。
297.电子设备可以通过训练完成的tbo子模型,对样本数据中的样本印章图像进行处理,得到第二tbo特征图。第二tbo特征图中像素点的像素值可以用于指示像素点与文本框的上边缘之间的距离、以及像素点与文本框的下边缘之间的距离。
298.第二tbo特征图的具体介绍可以参见图9c中的第一tbo特征图,此处不再进行赘述。
299.s1503、根据abm特征图和第二tbo特征图,确定预测文本框。
300.电子设备可以根据abm特征图和第二tbo特征图,计算对应像素点与文本框上下边缘之间的距离,从而精确的确定文本框的上下边缘的位置,即可以确定预测文本框。
301.s1504、根据特征提取子模型对样本印章图像进行处理,得到印章特征。
302.电子设备可以通过特征提取子模型对样本印章图像中进行特征提取处理,以确定印章特征。
303.s1505、根据abm特征图和印章特征,确定文本区域特征。
304.电子设备可以将abm特征图向外扩大预设比例,得到文本区域的掩码mask,再根据文本区域的掩码mask和印章特征,确定样本印章图像中的文本区域特征。例如,电子设备可以将印章特征乘上文本区域的掩码mask,得到文本区域特征。文本区域特征中可以包括文字特征。文本区域特征中去除了其他区域的干扰,有利于对识别模型的训练。
305.s1506、通过文本识别子模型对文本区域特征进行处理,得到预测文本。
306.电子设备可以通过文本识别子模型对文本区域特征进行识别和处理,得到样本印章图像中的预测文本。
307.样本印章图像中的文字通常为弯曲文字,在对弯曲文字进行识别时,文本识别子模型可选择的函数包括一维的连接时序分类损失函数(connectionist temporal classification,ctc loss)、二维(2dimension,2d)的ctc loss。
308.若文本识别子模型使用一维ctc loss,则需要将文本强行转化为一维,这样经压缩过的文字,会产生扭曲变形,不利于文字识别。因此文本识别子模型可以采用二维(2dimension,2d)的ctc loss,对文字识别进行约束,并识别弯曲文字。
309.s1507、根据样本数据中的标注文本框、预测文本框、样本数据中的标注文本、预测文本,对识别模型的模型参数进行更新。
310.样本数据中的标注文本和标注文本框是在生成样本数据时就确定的,具体介绍可以参见图3,此处不在继续赘述。
311.对于任意一次训练,电子设备获取样本数据中的样本印章图像的预测文本框和预测文本之后,可以将预测文本框与标注文本框进行对比,获取文本框的对比结果;可以将预测文本与标注文本进行对比,获取文本的对比结果。电子设备可以根据文本框的对比结果、文本的对比结果,对识别模型的模型参数进行更新。
312.s1508、判断识别模型是否收敛。
313.若是,则执行s1509。
314.若否,则执行s1501。
315.s1509、将模型参数更新后的识别模型确定为训练完成的识别模型。
316.电子设备可以对识别模型进行从端到端的多次整体训练,并根据多次的训练结果对识别模型进行校准,最终得到准确的识别模型。
317.在本技术实施例中,电子设备可以通过tcl子模型、tml子模型对样本印章图像进行处理,获得abm特征图。电子设备可以通过tbo子模型对样本印章图像进行处理,得到第二tbo特征图,并根据abm特征图和第二tbo特征图,确定预测文本框;可以根据特征提取子模型对样本印章图像进行处理,得到印章特征,并根据abm特征图和印章特征,确定文本区域特征,进而通过文本识别子模型对文本区域特征进行处理,得到预测文本。电子设备可以根据样本数据中的标注文本框、预测文本框、样本数据中的标注文本、预测文本,对识别模型
的模型参数进行更新。若识别模型为收敛状态,则可以将模型参数更新后的识别模型确定为训练完成的识别模型;若识别模型非收敛状态,则可以继续进行迭代训练,直至识别模型为收敛状态,以确定训练完成的识别模型。由于电子设备可以通过识别模型中的多个子模型,从不同维度识别样本印章图像中的文本区域,使得识别模型可以精准的识别出印章图像中的文本区域,进而准确的识别出印章图像中的文本、以及文本所在的文本框,因此可以提高对印章图像进行识别的准确性。
318.下面,结合图17,通过具体示例介绍一种识别模型的结构示意图。
319.图17为本技术示例性实施例提供的识别模型的示意图。请参见图17,识别模型可以包括预处理模块、tcl子模型、tml子模型、tbo子模型、特征(feature)提取子模型和文本识别子模型。
320.假设输入的样本印章图像的长为h,宽为w,图像的通道数为3。电子设备可以对输入的样本印章图像进行预处理。例如,电子设备可以先通过残差网络(residual network-50,resnet-50)对输入的样本印章图像进行处理。
321.具体的,resnet-50网络可以包括下采样和上采样。其中下采样可以包括卷积阶段1、卷积阶段2、卷积阶段3、卷积阶段4,上采样可以包括反卷积阶段1、反卷积阶段2、反卷积阶段3。
322.首先,电子设备可以将样本印章图像(h
×w×
3)输入池化阶段进行池化,得到池化后的图像。其中,该池化阶段的卷积核为7
×
7,卷积核个数为64,步长为2。
323.然后,电子设备可以通过卷积阶段1、卷积阶段2、卷积阶段3、卷积阶段4对池化后的图像进行处理。其中,卷积阶段1的卷积核为3
×
3,卷积核个数为64,步长为2;卷积阶段2的卷积核为3
×
3,卷积核个数为128,步长为2;卷积阶段3的卷积核为3
×
3,卷积核个数为256,步长为2;卷积阶段4的卷积核为3
×
3,卷积核个数为512,步长为2。
324.接下来,电子设备可以通过反卷积阶段1、反卷积阶段2、反卷积阶段3对卷积阶段4的输出图像进行处理。其中,反卷积阶段1的卷积核为3
×
3,卷积核个数为512,步长为2;反卷积阶段2的卷积核为3
×
3,卷积核个数为256,步长为2;反卷积阶段3的卷积核为3
×
3,卷积核个数为128,步长为2。
325.电子设备可以通过上述处理对样本印章图像进行特征提取,以获得样本印章图像对应的多张特征图。其中,输入tbo子模型的第一特征图的尺寸为维度为4;输入tcl子模型的第二特征图的尺寸为维度为2;输入tml子模型的第三特征图的尺寸为维度为2;输入特征提取子模型的第四特征图的尺寸为维度为128。该多张特征图的尺寸均为样本印章图像的尺寸的四分之一。特征图的尺寸减小,有利于减小后续多任务学习的计算量。
326.电子设备对样本印章图像预处理完成之后,则可以通过多个子模型继续进行处理。
327.电子设备可以将特征提取子模型和文本识别子模型进行冻结,然后再根据该多张特征图分别对tcl子模型、tml子模型和tbo子模型进行训练。电子设备可以分别通过tcl子模型、tml子模型、和tbo子模型对相应的特征图进行处理,获取对应的tcl特征图、tml特征图和tbo特征图。
328.电子设备可以根据tcl特征图、tml特征图,确定abm特征图,并根据tbo特征图和abm特征图,确定样本印章图像的文本检测框。
329.可以将abm特征图扩大预设比例,得到文本区域的掩码mask。电子设备可以对特征提取子模型和文本识别子模型进行解冻,通过特征提取子模型获取样本印章图像的印章特征。电子设备可以将掩码mask和印章特征进行相乘,确定文本区域特征,并通过文本识别子模型对文本区域特征进行识别,以确定样本印章图像的文本标注。
330.电子设备可以根据样本印章图像的文本检测框和文本标注,对识别模型的模型参数进行迭代更新,以获取准确的识别模型。
331.在本技术实施例中,电子设备可以先根据样本印章图像分别对tcl子模型、tml子模型和tbo子模型进行训练,在对3个子模型训练完成之后,再对识别模型进行从端到端的整体训练。由于识别模型中的tcl子模型、tml子模型和tbo子模型可以从不同维度识别样本印章图像中的文本区域,使得识别模型可以精准的识别出印章图像中的文本区域,进而准确的识别出印章图像中的文本、以及文本所在的文本框,因此可以提高对印章图像进行识别的准确性。
332.下面,结合图18,对模型的使用过程进行说明,即,通过识别模型对印章图像的处理过程进行说明。
333.图18为本技术示例性实施例提供的一种印章图像识别方法的过程示意图。请参见图18,该方法可以包括:
334.s1801、确定第一印章图像。
335.电子设备可以通过印章检测网络,对文件的图片进行识别,确定第一印章图像。
336.s1802、通过识别模型对第一印章图像进行处理,以得到第一印章图像中包括的文本、以及文本所在的文本框。
337.其中,识别模型可以根据上述任意实施例的模型训练方法确定得到的,此处不再进行赘述。
338.电子设备确定第一印章图像之后,可以通过识别模型中的tcl子模型对第一印章图像进行识别,获取tcl特征图;可以通过tml子模型对第一印章图像进行识别,获取tml特征图;可以通过tbo子模型对第一印章图像进行识别,获取tbo特征图。其中,电子设备还可以根据tml特征图,对tcl特征图进行划定,生成abm特征图。
339.电子设备可以通过特征提取子模型对第一印章图像进行处理,得到印章特征,进而根据abm特征图和印章特征,确定文本区域特征。电子设备可以通过文本识别子模型对文本区域特征进行识别,确定第一印章图像中包括的文本。
340.电子设备可以根据abm特征图和tbo特征图,计算对应像素点与文本框上下边缘之间的距离,从而精确的确定文本框的上下边缘的位置,即可以确定第一印章图像中文本所在的文本框。
341.在本技术实施例中,电子设备可以对文件的图片进行识别,确定第一印章图像,并通过tcl子模型、tml子模型和tbo子模型对第一印章图像进行识别,获得相应的tcl特征图、tml特征图、tbo特征图,并进一步获得abm特征图。电子设备可以根据tbo特征图和abm特征图确定第一印章图像中的文本框;可以通过识别模型中的特征提取子模型对第一印章图像进行识别,确定印章特征,并根据abm特征图和印章特征确定文本区域特征,再通过文本识
别子模型对文本区域特征进行识别,确定第一印章图像中包括的文本。由于电子设备可以通过识别模型中的多个子模型,从不同维度识别样本印章图像中的文本区域,使得识别模型可以精准的识别出印章图像中的文本区域,进而准确的识别出印章图像中的文本、以及文本所在的文本框,因此可以提高对印章图像进行识别的准确性。
342.图19为本技术示例性实施例提供的一种模型训练装置的结构示意图,请参见图19,该模型训练装置包括:包括:获取模块11、第一训练模块12和第二训练模块13,其中,
343.所述获取模块11用于,获取多个样本数据,所述样本数据包括样本印章图像和标注结果,所述标注结果包括:所述样本印章图像的标注文本和标注文本框;
344.所述第一训练模块12用于,根据所述多个样本数据进行子模型训练,得到文本中心线tcl子模型、文本边缘线tml子模型和文本边界偏移tbo子模型;
345.所述第二训练模块13用于,根据所述多个样本数据进行模型训练,得到识别模型,所述识别模型包括所述tcl子模型、所述tml子模型和所述tbo子模型,所述识别模型用于识别印章图像中的文本、以及所述文本所在的文本框。
346.本技术实施例提供的模型训练装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
347.在一种可能的实施方式中,所述第一训练模块12具体用于:
348.根据所述多个样本数据,对初始的tcl子模型进行训练,得到所述tcl子模型;
349.根据所述多个样本数据,对初始的tml子模型进行训练,得到所述tml子模型;
350.根据所述多个样本数据,对初始的tbo子模型进行训练,得到所述tbo子模型。
351.在一种可能的实施方式中,所述第一训练模块12具体用于:
352.通过所述初始的tcl子模型对所述样本数据中的样本印章图像进行处理,得到第一tcl特征图,所述第一tcl特征图中像素点的像素值用于指示所述像素点为文本中心的概率;
353.将所述第一tcl特征图中的文本区域向内收缩预设比例,得到第二tcl特征图,所述文本区域中的像素值大于或等于第一阈值;
354.根据所述第二tcl特征图和所述样本数据中的标注文本框,更新所述初始的tcl子模型的模型参数,直至得到所述tcl子模型。
355.在一种可能的实施方式中,所述第一训练模块12具体用于:
356.通过所述初始的tml子模型对所述样本数据中的样本印章图像进行处理,得到第一tml特征图,所述第一tml特征图中像素点的像素值用于指示所述像素点为文本框的概率;
357.将所述第一tml特征图中的文本框区域向内收缩预设比例,得到第二tml特征图,所述文本框区域中的像素值大于或等于第二阈值;
358.根据所述第二tml特征图和所述样本数据中的标注文本框,更新所述初始的tml子模型的模型参数,直至得到所述tml子模型。
359.在一种可能的实施方式中,所述第一训练模块12具体用于:
360.通过所述初始的tbo子模型对所述样本数据中的样本印章图像进行处理,得到第一tbo特征图,所述第一tbo特征图中像素点的像素值用于指示,所述像素点与文本框的上边缘之间的距离、以及所述像素点与所述文本框的下边缘之间的距离;
361.根据所述第一tbo特征图和所述样本数据中的标注文本框,更新所述初始的tbo子模型的模型参数,直至得到所述tbo子模型。
362.在一种可能的实施方式中,所述识别模型还包括特征提取子模型和文本识别子模型;所述第二训练模块具体用于:
363.根据所述tcl子模型、所述tml子模型和所述tbo子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本框;
364.根据所述tcl子模型、所述tml子模型、所述特征提取子模型和所述文本识别子模型,对所述样本数据中的样本印章图像进行处理,得到预测文本;
365.根据所述样本数据中的标注文本框、所述预测文本框、所述样本数据中的标注文本、所述预测文本,对所述识别模型的模型参数进行更新,直至得到所述识别模型。
366.在一种可能的实施方式中,所述第二训练模块13具体用于:
367.根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得近似二值图abm特征图,所述abm特征图中各像素点的像素值用于指示所述像素点为文本区域或者非文本区域;
368.通过所述tbo子模型对所述样本数据中的样本印章图像进行处理,得到第二tbo特征图;
369.根据所述abm特征图和所述第二tbo特征图,确定预测文本框。
370.在一种可能的实施方式中,所述第二训练模块13具体用于:
371.根据所述tcl子模型和所述tml子模型,对所述样本数据中的样本印章图像进行处理,得到abm特征图;
372.根据所述特征提取子模型对所述样本印章图像进行处理,得到印章特征;
373.根据所述abm特征图和所述印章特征,确定文本区域特征;
374.通过所述文本识别子模型对所述文本区域特征进行处理,得到所述预测文本。
375.在一种可能的实施方式中,所述第二训练模块13具体用于:
376.通过所述tcl子模型对所述样本数据中的样本印章图像进行处理,得到第三tcl特征图;
377.通过所述tml子模型对所述样本数据中的样本印章图像进行处理,得到第三tml特征图;
378.根据所述第三tcl特征图和所述第三tml特征图,确定所述abm特征图。
379.在一种可能的实施方式中,所述获取模块11具体用于:
380.获取人工标注的多个第一样本数据;以及,
381.根据印章配置信息和语料库中的多个文本,生成多个第二样本数据;
382.其中,所述多个样本数据包括多个第一样本数据和所述多个第二样本数据。
383.在一种可能的实施方式中,所述获取模块11具体用于:
384.根据所述印章配置信息,生成印章框架;
385.根据所述第一文本的文本长度和所述印章配置信息,确定所述第一文本中各字符在所述印章框架中的位置;
386.根据所述第一文本中各字符在所述印章框架中的位置,将所述第一文本填充至印章框架中,得到无背景印章图像;
387.获取背景图像,并根据所述背景图像和所述无背景印章图像,生成样本印章图像;
388.将所述第一文本确定为所述样本印章图像的标注文本,以及根据所述第一文本中各字符在印章框架中的位置确定所述样本印章图像的标注文本框。
389.在一种可能的实施方式中,所述获取模块11具体用于:
390.对所述背景图像和所述无背景印章图像进行叠加处理,得到所述样本印章图像;或者,
391.对所述背景图像和所述无背景印章图像进行叠加处理,得到叠加图像,对所述叠加图像进行腐蚀操作、亮度变换操作或印章旋转操作中的至少一种,得到所述样本印章图像。
392.本技术实施例提供的模型训练装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
393.图20为本技术示例性实施例提供的一种印章图像识别装置的结构示意图,请参见图20,该印章图像识别装置包括:确定模块21和处理模块22,其中,
394.所述确定模块21用于,确定第一印章图像;
395.所述处理模块22用于,通过识别模型对所述第一印章图像进行处理,以得到所述第一印章图像中包括的文本、以及所述文本所在的文本框;其中,所述识别模型为根据权利要求1-12所述的方法确定得到的。
396.本技术实施例提供的印章图像识别装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
397.本技术示例性实施例提供一种电子设备的结构示意图,请参见图21,该电子设备30可以包括处理器31和存储器32。示例性地,处理器31、存储器32,各部分之间通过总线33相互连接。
398.所述存储器32存储计算机执行指令;
399.所述处理器31执行所述存储器32存储的计算机执行指令,使得所述处理器31执行如上述方法实施例所示的模型训练方法,或者印章图像识别方法。
400.相应地,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现上述方法实施例所述的模型训练方法,或者印章图像识别方法。
401.相应地,本技术实施例还可提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,可实现上述方法实施例所示的模型训练方法,或者印章图像识别方法。
402.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
403.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
404.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
405.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
406.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
407.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
408.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
409.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
410.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献