一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种票据图像识别方法、装置及电子设备与流程

2021-10-27 14:39:00 来源:中国专利 TAG:识别 图像 票据 电子设备 装置


1.本发明涉及图像识别技术领域,特别是涉及一种票据图像识别方法、装置及电子设备。


背景技术:

2.在企业erp(enterprise resource planning,企业资源计划)、财务系统、医疗his(hospitalinformationsystem,医院信息系统)等应用领域,往往需要将企业、机构运转过程中产生的发票、收据、表单等票据中记录的信息以结构化数据的形式录入到相关系统,以便后续使用。
3.例如,为了实现财务报销,需要统计用于报销的发票中记录的相关信息,如图2所示,为一种增值税发票的示意图,通常需要将图2所示的增值税发票中的发票代码、发票号码、价税合计等关键信息输入到财务报销系统中,以供财务报销系统计算。
4.现有技术中,存在结合文本检测技术实现自动录入票据信息的技术方案,其主要通过扫描获取票据图像,并通过整段、或整行识别的方式来记录票据图像包含的票据信息。
5.发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
6.在实际应用的过程中,票据可能由于保存不完善等原因,导致票据出现弯曲、褶皱等问题,而弯曲、褶皱会对现有技术中通过整段、或整行识别的方式产生影响,容易造成识别出错,导致录入的票据信息准确较低。


技术实现要素:

7.本发明实施例的目的在于提供一种票据图像识别方法,以在票据图像的票据信息录入过程中,提高票据图像中票据信息录入的准确性。具体技术方案如下:
8.本发明实施例提供一种票据图像识别方法,包括:
9.对待识别票据图像进行文字识别,得到所述待识别票据图像包含的各文字,以及每个所述文字的位置信息;
10.将所述待识别票据图像输入预先训练完成的深度神经网络模型,得到所述待识别票据图像包含的每个像素点的预测方位信息,其中,所述待识别票据图像中一个像素点所属的文字,与该像素点的所述预测方位信息所表示位置的像素点所属的文字属于同一字段,所述深度神经网络模型为基于票据图像样本、以及所述票据图像样本中文字样本的位置信息预先训练完成的;
11.基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的各字段;
12.基于预设的匹配策略,从所述各字段中,确定出与预设的类型字段对应的信息字段,其中,所述类型字段表示与其对应字段所属的信息类型,所述信息字段表示票据信息。
13.进一步的,所述基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的
各字段,包括:
14.基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,确定每个所述文字的预测方位信息,所述文字的位置信息为文字区域的对角坐标,所述文字区域为矩形区域;
15.基于每个所述文字的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的各字段。
16.进一步的,所述基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,确定每个所述文字的预测方位信息,包括:
17.针对每个所述文字,基于该文字的位置信息,确定该文字的文字区域所包含的像素点;
18.计算该文字的文字区域所包含的像素点的所述预测方位信息的平均值,作为该文字的预测方位信息。
19.进一步的,所述预测方位信息为预测角度和预测距离;
20.所述基于每个所述文字的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的各字段,包括:
21.针对每个所述文字,基于该文字的位置信息,确定该文字的文字区域的中心点;
22.以该文字的中心点为基准点,按照该文字的预测角度和预测距离,在所述待识别票据图像中确定像素点,作为该文字的中心点的匹配点;
23.基于每个所述文字的位置信息,当一个文字的中心点的匹配点位于另一个文字的文字区域内时,确定该两个文字属于同一字段,得到所述待识别票据图像中包含的各字段。
24.进一步的,所述基于预设的匹配策略,从所述各字段中,确定出与预设的类型字段对应的信息字段,包括:
25.获取关键词表,其中,所述关键词表中记录有预设的关键词,以及与所述关键词对应的类型字段;
26.针对每个字段,当该字段包含有所述关键词时,确定该字段为信息字段,且该信息字段对应的类型字段为所包含的关键词对应的类型字段。
27.进一步的,所述基于预设的匹配策略,从所述各字段中,确定出与预设的类型字段对应的信息字段,包括:
28.获取类型字段表,其中,所述类型字段表中记录有预设的各类型字段;
29.确定所述各字段中未记录在所述类型字段表中的字段,作为预分类字段;
30.将每个预分类字段输入预先建立的文本分类模型,得到每个所述预分类字段的分类结果,一个所述预分类字段的所述分类结果包括:类型概率和删除概率,所述类型概率为该预分类字段为信息字段,且对应的字段类型为所述各类型字段中每种类型字段的概率,所述删除概率为该预分类字段属于待删除的类型字段的概率,所述待删除的类型字段为除预设的类型字段对应的信息字段之外的字段,其中,所述文本分类模型为基于字段样本,以及所述字段样本的类别标识预先训练完成的;
31.根据每个所述预分类字段的分类结果,从各预分类字段中,确定出与预设的类型字段对应的信息字段。
32.进一步的,所述根据每个所述预分类字段的分类结果,从各预分类字段中,确定出
与预设的类型字段对应的信息字段,包括:
33.从各预分类字段中,确定出所述删除概率小于预设概率阈值的预分类字段,作为信息字段;
34.基于确定出的每个信息字段为所述各类型字段中每种类型字段的类型概率,确定每个所述信息字段对应的类型字段。
35.进一步的,所述基于确定出的每个信息字段为所述各类型字段中每种类型字段的类型概率,确定每个所述信息字段对应的类型字段,包括:
36.按照确定出的每个信息字段为所述各类型字段中每种类型字段的类型概率的大小,从所述各类型字段中,确定出前预设数量个类型字段,作为与每个所述信息字段对应的预选类型字段,所述预先类字段包括实际类型字段和虚拟类型字段,所述实际类型字段为所述各字段中包含的字段,所述虚拟类型字段为所述各字段中未包含的字段;
37.基于每个所述文字的位置信息,确定每个所述信息字段的位置信息,以及每个所述信息字段对应的每个实际类型字段的位置信息;
38.基于每个所述信息字段的位置信息和所述每个信息字段对应每个所述实际类型字段的位置信息,确定每个所述信息字段与对应的每个所述实际类型信息之间连线的角度,作为每个所述信息字段与对应的每个所述实际类型信息对应的角度信息;
39.聚类分析每个所述信息字段与对应的每个所述实际类型信息对应的角度信息,确定出角度占比最多的角度区间;
40.当每个所述信息字段与对应的每个所述实际类型字段之间连线的角度,存在位于所述角度区间的角度时,确定位于所述角度区间的角度对应的实际类型字段,作为与每个所述信息字段对应的类型字段;
41.当每个所述信息字段与对应的每个所述实际类型字段之间连线的角度,不存在位于所述角度区间的角度时,在每个所述信息字段对应的虚拟类型字段中,确定出概率最大的虚拟类型字段,作为与每个所述信息字段对应的类型字段。
42.进一步的,所述深度神经网络模型的训练步骤包括:
43.针对每个所述文字样本,基于该文字样本的位置信息,确定该文字样本的中心点;
44.基于该文字样本的中心点,以及该文字样本对应的参考文字样本的中心点,确定该文字样本的中心点对应的方位信息,作为该文字样本所在文本区域内每个像素点的方位信息,其中,每个所述文字样本对应的参考文字样本为与每个所述文字样本属于同一字段的文字样本,所述方位信息表示每个所述文字样本的中心点与对应的参考文字样本的中心点之间连线的角度和距离;
45.基于所述票据图像样本、以及每个所述文字样本所在文本区域内每个像素点的方位信息,对所述深度神经网络模型进行训练。
46.进一步的,所述基于所述票据图像样本、以及每个所述文字样本所在文本区域内每个像素点的方位信息,对所述深度神经网络模型进行训练,包括:
47.将所述票据图像样本输入所述深度神经网络模型,得到所述票据图像样本包含的每个像素点的预测方位信息;
48.基于所述票据图像样本包含的每个像素点的预测方位信息,确定每个所述文字样本所在文本区域内每个像素点的预测方位信息;
49.基于每个所述文字样本所在文本区域内每个像素点的方位信息和预测方位信息,计算所述深度神经网络模型的损失函数值;
50.根据所述损失函数值,判断所述深度神经网络模型是否收敛,当所述深度神经网络模型未收敛时,根据所述损失函数值调整所述深度神经网络模型参数,并进行下一次训练,当所述深度神经网络模型收敛时,得到训练完成的所述深度神经网络模型。
51.本发明实施例还提供一种票据图像识别装置,所述装置包括:
52.图像识别模块,用于对待识别票据图像进行文字识别,得到所述待识别票据图像包含的各文字,以及每个所述文字的位置信息;
53.图像输入模块,用于将所述待识别票据图像输入预先训练完成的深度神经网络模型,得到所述待识别票据图像包含的每个像素点的预测方位信息,其中,所述待识别票据图像中一个像素点所属的文字,与该像素点的所述预测方位信息所表示位置的像素点所属的文字属于同一字段,所述深度神经网络模型为基于票据图像样本、以及所述票据图像样本中文字样本的位置信息预先训练完成的;
54.文字匹配模块,用于基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的各字段;
55.信息字段确定模块,用于基于预设的匹配策略,从所述各字段中,确定出与预设的类型字段对应的信息字段,其中,所述类型字段表示与其对应字段所属的信息类型,所述信息字段表示票据信息。
56.进一步的,所述文字匹配模块,具体用于基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,确定每个所述文字的预测方位信息,所述文字的位置信息为文字区域的对角坐标,所述文字区域为矩形区域,并且基于每个所述文字的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的各字段。
57.进一步的,所述文字匹配模块,具体用于针对每个所述文字,基于该文字的位置信息,确定该文字的文字区域所包含的像素点,并且计算该文字的文字区域所包含的像素点的所述预测方位信息的平均值,作为该文字的预测方位信息。
58.进一步的,所述预测方位信息为预测角度和预测距离;
59.所述文字匹配模块,具体用于针对每个所述文字,基于该文字的位置信息,确定该文字的文字区域的中心点,并且以该文字的中心点为基准点,按照该文字的预测角度和预测距离,在所述待识别票据图像中确定像素点,作为该文字的中心点的匹配点,以及基于每个所述文字的位置信息,当一个文字的中心点的匹配点位于另一个文字的文字区域内时,确定该两个文字属于同一字段,得到所述待识别票据图像中包含的各字段。
60.进一步的,所述信息字段确定模块,具体用于获取关键词表,其中,所述关键词表中记录有预设的关键词,以及与所述关键词对应的类型字段,并且针对每个字段,当该字段包含有所述关键词时,确定该字段为信息字段,且该信息字段对应的类型字段为所包含的关键词对应的类型字段。
61.进一步的,所述信息字段确定模块,具体用于获取类型字段表,其中,所述类型字段表中记录有预设的各类型字段,并且确定所述各字段中未记录在所述类型字段表中的字
段,作为预分类字段,以及将每个预分类字段输入预先建立的文本分类模型,得到每个所述预分类字段的分类结果,一个所述预分类字段的所述分类结果包括:类型概率和删除概率,所述类型概率为该预分类字段为信息字段,且对应的字段类型为所述各类型字段中每种类型字段的概率,所述删除概率为该预分类字段属于待删除的类型字段的概率,所述待删除的类型字段为除预设的类型字段对应的信息字段之外的字段,其中,所述文本分类模型为基于字段样本,以及所述字段样本的类别标识预先训练完成的,以及根据每个所述预分类字段的分类结果,从各预分类字段中,确定出与预设的类型字段对应的信息字段。
62.进一步的,所述信息字段确定模块,具体用于从各预分类字段中,确定出所述删除概率小于预设概率阈值的预分类字段,作为信息字段,并且基于确定出的每个信息字段为所述各类型字段中每种类型字段的类型概率,确定每个所述信息字段对应的类型字段。
63.进一步的,所述信息字段确定模块,具体用于按照确定出的每个信息字段为所述各类型字段中每种类型字段的类型概率的大小,从所述各类型字段中,确定出前预设数量个类型字段,作为与每个所述信息字段对应的预选类型字段,所述预先类字段包括实际类型字段和虚拟类型字段,所述实际类型字段为所述各字段中包含的字段,所述虚拟类型字段为所述各字段中未包含的字段,并且基于每个所述文字的位置信息,确定每个所述信息字段的位置信息,以及每个所述信息字段对应的每个实际类型字段的位置信息,以及基于每个所述信息字段的位置信息和所述每个信息字段对应每个所述实际类型字段的位置信息,确定每个所述信息字段与对应的每个所述实际类型信息之间连线的角度,作为每个所述信息字段与对应的每个所述实际类型信息对应的角度信息,以及聚类分析每个所述信息字段与对应的每个所述实际类型信息对应的角度信息,确定出角度占比最多的角度区间,以及当每个所述信息字段与对应的每个所述实际类型字段之间连线的角度,存在位于所述角度区间的角度时,确定位于所述角度区间的角度对应的实际类型字段,作为与每个所述信息字段对应的类型字段,以及当每个所述信息字段与对应的每个所述实际类型字段之间连线的角度,不存在位于所述角度区间的角度时,在每个所述信息字段对应的虚拟类型字段中,确定出概率最大的虚拟类型字段,作为与每个所述信息字段对应的类型字段。
64.进一步的,所述装置还包括:
65.中心点确定模块,用于针对每个所述文字样本,基于该文字样本的位置信息,确定该文字样本的中心点;
66.方位信息确定模块,用于基于该文字样本的中心点,以及该文字样本对应的参考文字样本的中心点,确定该文字样本的中心点对应的方位信息,作为该文字样本所在文本区域内每个像素点的方位信息,其中,每个所述文字样本对应的参考文字样本为与每个所述文字样本属于同一字段的文字样本,所述方位信息表示每个所述文字样本的中心点与对应的参考文字样本的中心点之间连线的角度和距离;
67.模型训练模块,用于基于所述票据图像样本、以及每个所述文字样本所在文本区域内每个像素点的方位信息,对所述深度神经网络模型进行训练。
68.进一步的,所述模型训练模块,具体用于将所述票据图像样本输入所述深度神经网络模型,得到所述票据图像样本包含的每个像素点的预测方位信息,并且基于所述票据图像样本包含的每个像素点的预测方位信息,确定每个所述文字样本所在文本区域内每个像素点的预测方位信息,以及基于每个所述文字样本所在文本区域内每个像素点的方位信
息和预测方位信息,计算所述深度神经网络模型的损失函数值,以及根据所述损失函数值,判断所述深度神经网络模型是否收敛,当所述深度神经网络模型未收敛时,根据所述损失函数值调整所述深度神经网络模型参数,并进行下一次训练,当所述深度神经网络模型收敛时,得到训练完成的所述深度神经网络模型。
69.本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
70.存储器,用于存放计算机程序;
71.处理器,用于执行存储器上所存放的程序时,实现上述任一票据图像识别方法的步骤。
72.本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一票据图像识别方法的步骤。
73.本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一票据图像识别方法。
74.本发明实施例提供的一种票据图像处理方法、装置及电子设备,方案中,对待识别票据图像进行文字识别,得到待识别票据图像包含的各文字,以及每个文字的位置信息,并且将待识别票据图像输入预先训练完成的深度神经网络模型,得到待识别票据图像包含的每个像素点的预测方位信息,以及基于每个像素点的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段,以及基于预设的匹配策略,从各字段中,确定出与预设的类型字段对应的信息字段,其中,类型字段表示与其对应字段所属的信息类型,信息字段表示票据信息,由于票据图像中弯曲、褶皱对单个文字的识别不会产生影响,因此以每个文字为识别基础,可以保证每个文字识别的准确性,并通过预先训练完成的深度神经网络模型,确定出票据图像中包含的各字段,从而避免了弯曲、褶皱对字段识别的影响,进而可以提高票据图像中票据信息录入的准确性。
75.当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
76.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
77.图1为本发明一个实施例提供的票据图像识别方法的流程图;
78.图2为一种增值税发票的示意图;
79.图3为一种出租车专用发票的数字图像;
80.图4为本发明一个实施例提供的文字示意图;
81.图5为本发明一个实施例提供的第一种待识别票据图像的示意图;
82.图6为本发明一个实施例提供的一种文字匹配方法的流程图;
83.图7为本发明一个实施例提供的一种预测方位信息确定方法的流程图;
84.图8为本发明一个实施例提供的一种字段确定方法的流程图;
85.图9为本发明一个实施例提供的第一种信息字段确定方法的流程图;
86.图10为本发明一个实施例提供的第二种信息字段确定方法的流程图;
87.图11为本发明一个实施例提供的第三种信息字段确定方法的流程图;
88.图12为本发明一个实施例提供的第四种信息字段确定方法的流程图;
89.图13为本发明一个实施例提供的第二种待识别票据图像的示意图;
90.图14为本发明一个实施例提供的连线示意图;
91.图15为本发明一个实施例提供的简化连线示意图;
92.图16为本发明一个实施例提供的深度神经网络模型的训练的流程图;
93.图17a为本发明一个实施例提供的一种票据图像样本中文字样本的示意图;
94.图17b为本发明一个实施例提供的另一种票据图像样本中文字样本的示意图;
95.图18为本发明一个实施例提供的票据图像识别装置的结构示意图;
96.图19为本发明一个实施例提供的深度神经网络装置的训练的结构示意图;
97.图20为本发明实施例提供的电子设备的结构示意图。
具体实施方式
98.为了给出在票据图像的票据信息录入过程中,提高票据图像中票据信息录入的准确性的实现方案,本发明实施例提供了一种票据图像识别方法、装置及电子设备,以下结合说明书附图对本发明的实施例进行说明。并且在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
99.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
100.在本发明的一个实施例中,提供一种票据图像识别方法,如图1所示,该方法包括以下步骤:
101.s101:对待识别票据图像进行文字识别,得到待识别票据图像包含的各文字,以及每个文字的位置信息。
102.本步骤中,待识别票据图像可以是发票、收据、表单等票据,通过拍照、扫描等技术手段获取的数字图像,具体的,可以通过高拍仪、手机拍摄,或通过扫描仪扫描获取,例如,如图2所示的一种增值税发票的图像,以及如图3所示的一种出租车专用发票的数字图像。
103.在一个实施例中,可以先检测待识别票据图像中存在文字的文字区域,再识别文字区域所包含的文字。
104.可选的,可以通过yolo(you only look once,你只需要看一遍)算法、faster-rcnn(faster-region convolutional neural networks,快速区域卷积神经网络)、east(efficient accurate scene text,高效准确的场景文本)算法等检测技术检测待识别票据图像中存在文字的文字区域。
105.可选的,对文字区域所包含的文字的识别可以为通过现有技术训练分类网络的方式实现,在此不再赘述。
106.在一个实施例中,识别出的文字的位置信息可以为文字所在文本区域的中心点坐标,在如图4所示的文字示意图中,矩形框所在的区域为文字所在的文本区域,矩形框位于以x轴和y轴组成的坐标系统中,其中,o点为坐标轴零点坐标为(0,0),其中c1为文本区域的中心点,则该文字的位置信息可以以c1点的坐标表示,如(x1,y1)。
107.可选的,当文本区域为矩形区域时,文字的位置信息还可以为文字所在矩形区域对角坐标,例如,在如图4所示的文字示意图中,c2和c3为文字所在矩形区域对角点,可以确定c2和c3的坐标,作为该文字的位置信息,如{(x2,y2)、(x3,y3)},或以另外一对对角点(图中未示出)的坐标表示。
108.可选的,在文本区域为矩形区域的情况下,还可以以矩形框的长、宽(图中未示出)以及矩形框四个角中任意一个角的坐标(如c2)表示,此时,可以表示为{长、宽、(x2,y2)}。
109.s102:将待识别票据图像输入预先训练完成的深度神经网络模型,得到待识别票据图像包含的每个像素点的预测方位信息。
110.本步骤中,待识别票据图像中一个像素点所属的文字,与该像素点的预测方位信息所表示位置的像素点所属的文字属于同一字段,深度神经网络模型为基于票据图像样本、以及票据图像样本中文字样本的位置信息预先训练完成的。
111.可选的,一个像素点的预测方位信息可以表示与该像素点的对应的一个位置,例如,如图5所示,为本发明实施例示出的一种待识别票据图像的示意图,图中每个小方格表示一个像素点,图中灰色区域表示文字所在的文字区域,q、i、和p分别为票据图像中一个像素点,将该待识别票据图像输入深度神经网络模型,得到该待识别票据图像中每个像素点对应的预测方位值,示例性的,对于像素点q,其预测方位信息所表示的位置可能位于像素点i,也可能位于像素点p,当位于像素点i时,表示像素点i所属的文字与像素点q所属的文字属于同一字段,在本实例中,像素点i并为属于任何一个实际存在文字(即没有实际存在的文字包含像素点i,因此,可用理解为,像素点i所属的文字为实际并不存在的虚拟文字,该虚拟文字是深度神经网络模型预测经过运算“预测”的,当位于像素点p时,则表示像素点q所属的文字与像素点q所属的文字属于同一字段,即图5所示待识别票据图像中两个灰度区域的文字属于同一字段。
112.在一个实施例中,预测方位信息可以表示位置关系,可选的,可以为角度、距离,如(θ,l),其中θ表示像素点与其预测方位信息所表示位置处的像素点连线与基准方向的夹角,l表示该两个像素点的距离,可选的,对于文字来说,与其属于同一文段的且相邻的文字至多为两个,因此,为了方便的计算,一个像素点的预测方位信息可以包括两组,其中,对于左右排序的字段,一组表示与左边文字所包含像素点的位置关系,一组表示与右边文字所包含像素点的位置关系,对于上下排序的字段,一组表示与位于上方文字所包含像素点的位置关系,一组表示与位于下方文字所包含像素点的位置关系,此时预测方位信息可以表示为(θ1,l1,θ2,l2),其中,θ1和l1为一组,θ2和l2为一组。
113.为了进一步的便于计算,可以进一步的将角度通过该角度的正弦值和余弦值表示,例如,(sinθ1,cosθ1,l1,sinθ2,cosθ2,l2),其中,sinθ1、cosθ1和l1为一组,sinθ2、cosθ2和l2为一组。
114.在一个实施例中,可以将票据图像样本输入深度神经网络模型,以票据图像样本中文字样本的位置信息作为真值标定,以训练深度神经网络模型。
115.在一个实施例中,本步骤可以与步骤s101同步执行,也可以步骤s101执行之后或执行之前执行。
116.s103:基于每个像素点的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段。
117.本步骤中,由前述内容可知,一个像素点的预测方位信息可以表示一个位置,其可以为该像素点与该位置所属像素点的位置关系,因此,基于每个像素点的预测方位信息,可以确定每个像素点对应的一个位置。
118.在一个实施例中,对于任意两个文字,当属于其中一个文字的像素点的预测方位信息所表示的位置与另一个文字的位置信息所表示的位置相匹配时,可以确定该两个文字属于同一文段,进一步的还可以确定该两个文字相邻,并且还可以根据该两个文字的位置信息,确定该两个文字在文段中的先后顺序,从而得到待识别票据图像中包含的各字段。
119.在一个实施例中,为了确保匹配结果的准确性,还可以综合属于同一个文字的像素点的预测方位信息进行判断,可选的,可以基于一个文字包含的各像素点的预测方位信息与另一个文字的位置信息所表示的位置相匹配的比例,例如,一个文字包含的像素点中有60%像素点的预测方位信息所表示的位置于另一个文字的位置信息相匹配时,则可以确定该两个文字属于同一文段。
120.在一个实施例中,对于任意两个文字,仅当两个文字中的任意一个文字包含的像素点的预测方位信息所表示的位置均与另一个文字的位置信息所表示的位置相匹配时,确定该两个文字属于同一文段。
121.可知的,在一个文段中,每个文字在文段中的位置是固定的,每个文字都存在与其对应的前一个文字和后一个文字(段首前一个文字为空、段尾后一个文字为空),因此,为了更准确的得到待识别票据图像中包含的各字段,可以通过文字包含的像素点的预测方位进一步的验证,此时,每个像素点可以有两组预测方位信息,分别为第一预设方位信息和第二预测方位信息。
122.可选的,对于任意两个文字,以第一文字和第二文字表示,当第一文字包含的像素点的第一预测方位信息所表示的位置于第二文字的位置信息所表示的位置相匹配,且第二文字包含的像素点的第二预测方位信息所表示的位置信息与第一文字的位置信息所表示的位置相匹配时,确定第一文字和第二文字属于同一个字段,且相邻。
123.s104:基于预设的匹配策略,从各字段中,确定出与预设的类型字段对应的信息字段。
124.本步骤中,上述类型字段表示与其对应字段所属的信息类型,信息字段表示票据信息。
125.示例性的,一张票据图像的类型字段可以为发票金额、发票代码、发票号码等字段,例如,在如图2所示的增值税票据图像中,类型字段包括:发票代码、发票号码、开票日期、校验码、机器编号、名称、纳税人识别号等,在如图3所示的一种出租车专用发票的图像中,类型字段包括:代码、号码、监督电话、税务登记证号码、车号、证号等,而信息字段则可以是对应上述类型字段的票据信息,例如在如图3所示出租车专用发票的图像中,代码对应的“135021610881”、金额对应的“58.30元”等。
126.在实际使用的过程中,实际可能只需要记录部分预设的类型字段,以及与其对于的信息字段,例如,对于如图3所示出租车专用发票的图像中,预设的类型字段可以包括代码、金额,而其余的如监督电话等字段类型对应的信息字段并不需要记录,因此,可以基于预设的匹配策略,从各字段中,确定出与预设的类型字段对应的信息字段。
127.其中,预设的匹配策略可以是根据应用场景,以及实际需求来确定,可选的,可以
通过建立关键词表的方式实现,其中,关键词表中记录有关键词,通过在各字段中确定包括关键词的字段,来确定与预设的类型字段对应的信息字段。
128.示例性的,当需要确定出待视频票据图像中记录的时间信息时,预设的类型字段可以为日期,关键词为“年”、“月”或“日”等,将其写入关键词表,当各字段中某个字段中包含“年”、“月”或“日”时,则可以确定该字段为对应日期的信息字段。
129.可选的,还可以结合各字段的各特征,来确定字段是否为对应预设的类型字段的信息字段,例如通过字段包含的文字的数量、字段包含的文字规律、字段颜色信息、组成字段的各文字分布规律、是否包含特征字符等特征来确定。
130.可选的,对于一张票据来说,其票据中包含的各类型字段时可以提前已知的,如图2所示增值税的票据图像中,发明代码等类型字段为固定的,因此,还可以通过预选训练的文本分类模型来确定,将各字段中每个字段输入预先训练完成的文本分类模型,得到文本分类模型输出的该字段对应各类型字段的概率,从而可以结合该字段对应各类型字段的概率大小,来确定该字段对应的类型字段,并进一步的确定该字段对应的类型字段是否为预设的类型字段。
131.本发明实施例提供的上述票据图像识别方法中,对待识别票据图像进行文字识别,得到待识别票据图像包含的各文字,以及每个文字的位置信息,并且将待识别票据图像输入预先训练完成的深度神经网络模型,得到待识别票据图像包含的每个像素点的预测方位信息,以及基于每个像素点的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段,以及基于预设的匹配策略,从各字段中,确定出与预设的类型字段对应的信息字段,其中,类型字段表示与其对应字段所属的信息类型,信息字段表示票据信息,由于票据图像中弯曲、褶皱对单个文字的识别不会产生影响,因此以每个文字为识别基础,可以保证每个文字识别的准确性,并通过预先训练完成的深度神经网络模型,确定出票据图像中包含的各字段,从而避免了弯曲、褶皱对字段识别的影响,进而可以提高票据图像中票据信息录入的准确性。
132.在本发明的另一个实施例中,还提供一种文字匹配方法,以实现上述步骤s103,如图6所示,该方法包括以下步骤:
133.s601:基于每个像素点的预测方位信息,以及每个文字的位置信息,确定每个文字的预测方位信息。
134.本步骤中,上述文字的位置信息为文字区域的对角坐标,文字区域为矩形区域,例如,如图4所示,图中矩形框为文字区域,其对角可以为点c2和c3的坐标,如{(x2,y2)、(x3,y3)},其中(x2,y2)为点c2的坐标,(x3,y3)为点c3的坐标。
135.根据每个文字所在文字区域的对角坐标,可以确定每个文字所在文字区域内每个像素点的坐标的取值范围,进而确定出每个文字所在文字区域内包含的每个像素点,进一步的,结合待识别票据图像中每个像素点的预测方位信息,可以确定每个文字所在文字区域内每个像素点的预测方位信息,从而可以进一步的可以确定出每个文字的预测方位信息。
136.s602:基于每个文字的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段。
137.本步骤中,对于任意两个文字,当其中一个文字的预测方位信息所表示的位置落
入另一个文字所在文字区域内时,可以确定该两个为属于同一字段的两个文字。
138.在本发明一个实施例中,对应任意两个文字,仅当两个文字的预测方位信息所表示的位置均落入对方所在文字区域内,确定该两个为属于同一字段的两个文字。
139.在本发明一个实施例中,每个文字可以有两组预测方位信息,分别为第一预设方位信息和第二预测方位信息。
140.可选的,同一文段中,一个文字的第一预测方位信息所表示的位置落入该文字前一个文字所在文字区域内,一个文字的第二预测方位信息所表示的位置落入该文字后一个文字所在文字区域内,则对于任意两个文字,第一文字和第二文字,当第一文字的第一预测方位信息所表示的位置落入第二文字所在文字区域内,且第二文字的第二预测方位信息所表示的位置落入第一文字所在文字区域内时,可以确定该两个文字属于同一字段,且第二文字为第一文字的前一个文字。
141.进一步的,当各文字均完成位置匹配后,根据匹配结果,确定各字段。
142.本发明实施例提供的上述文字匹配方法中,可以基于每个像素点的预测方位信息,以及每个文字的位置信息,确定每个文字的预测方位信息,并且基于每个文字的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段,由于通过每个文字的预测方位信息进行位置匹配,可以排除个别像素点的预测方位信息错误对匹配结果的影响,进而提高了对文字进行位置匹配的准确信。
143.在本发明的另一个实施例中,还提供一种预测方位信息确定方法,以实现上述步骤s601,如图7所示,该方法包括以下步骤:
144.s701:针对每个文字,基于该文字的位置信息,确定该文字的文字区域所包含的像素点。
145.本步骤中,由于位置信息为文字所在文字区域的对角坐标,因此,可以基于该对角坐标,确定每个文字的文字区域所包含的像素点。
146.示例性的,如图4所示,图中矩形框为文字区域,其对角可以为点c2和c3的坐标,如{(x2,y2)、(x3,y3)},其中(x2,y2)为点c2的坐标,(x3,y3)为点c3的坐标,则当一个像素点的x轴坐标x和y轴坐标y,满足下述条件时,该像素点包含在该文字区域:x2≤x≤x3,且y3≤y≤y2。
147.s702:计算该文字的文字区域所包含的像素点的预测方位信息的平均值,作为该文字的预测方位信息。
148.本步骤中,将该文字的文字区域所包含的像素点的预测方位信息的平均值作为该文字的预测方位信息,可以避免由于个别像素点的预测方位信息出错,导致后续进行文字匹配时出错。
149.本发明实施例提供的上述文字匹配方法中,可以针对每个文字,基于该文字的位置信息,确定该文字的文字区域所包含的像素点,并且计算该文字的文字区域所包含的像素点的预测方位信息的平均值,作为该文字的预测方位信息,由于将每个文字所在文字区域内包含的每个像素点的预测方位信息的平均值作为每个文字的预测方位信息,可以避免由于个别像素点的预测方位信息的出错导致的文字匹配的出错,提高了文字匹配的准确性。
150.在本发明的另一个实施例中,预测方位信息为预测角度和预测距离,此时还提供一种字段确定方法,可以在步骤s601或步骤s702之后执行,以实现步骤s602,如图8所示,该方法包括以下步骤:
151.s801:针对每个文字,基于该文字的位置信息,确定该文字的文字区域的中心点。
152.本步骤中,由于位置信息为文字所在文字区域的对角坐标,因此,可以基于该对角坐标,确定每个文字的文字区域的中心点。
153.示例性的,如图4所示,图中矩形框为文字区域,其对角可以为点c2和c3的坐标,如{(x2,y2)、(x3,y3)},中心点为c1,则中心点c1的x轴坐标x1=(x2 x3)/2,中心点c1的y轴坐标y1=(y2 y3)/2,从而可以根据文字所在文字区域的对角坐标确定文字区域的中心点。
154.s802:以该文字的中心点为基准点,按照该文字的预测角度和预测距离,在待识别票据图像中确定像素点,作为该文字的中心点的匹配点。
155.本步骤中,设该文字的中心点为p,p点的坐标为(p.x,p.y),该文字的预测方位信息为(θ,l),其中,θ可以表示预测角度,l可以表示预测距离,则该文字的中心点的匹配点的x轴坐标为p.x l*cosθ该文字的中心点的匹配点的y轴坐标为p.y l*sinθ,即该文字的中心点的匹配点的坐标为(p.x l*cosθ,p.y l*sinθ)。
156.为了进一步的便于计算,预测方位信息可以表示成(sinθ,cosθ,l)的形式,此时,可以直接通过深度神经网络模型预测的sinθ和cosθ进行计算,避免了计算角度θ的正弦值和余弦值。
157.可选的,预测方位信息可以表示成(sinθ1,cosθ1,l1,sinθ2,cosθ2,l2)的形式,其中,sinθ1、cosθ1和l1表示同一组预测角度和预测距离,sinθ2、cosθ2和l2表示另一组预测角度和预测距离,即像素点的预测方位信息对应两个位置,且可以表示一左一右文字,也可以表示一上一下的文字,此时,其计算方式与上述类似,在此不再赘述。
158.s803:基于每个文字的位置信息,当一个文字的中心点的匹配点位于另一个文字的文字区域内时,确定该两个文字属于同一字段,得到待识别票据图像中包含的各字段。
159.本步骤中,还可以进一步的提高匹配的准确信,可选的,在确定一个文字的中心点的匹配点位于另一个文字的文字区域内时,可以进一步的确定另一个的文字的中心点的匹配点是否位于该文字的文字区域内,若位于,则确定该两个文字属于同一字段。
160.在一个实施例中,每个文字的中心点可以两个匹配点,分别为第一匹配点和第二匹配点。
161.可选的,对于任意两个文字,第一文字和第二文字,当第一文字的中心点的第一匹配点位于第二文字的文字区域内,且第二文字的中心点的第二匹配点落入第一文字所在文字区域内时,可以确定该两个文字属于同一字段,且第二文字为第一文字的前一个文字。
162.可选的,还可以将每个文字所在的文字区域按照比例缩小,得到一个更小范围的区域,作为每个文字的中心区域,缩小比例可以根据实际需求确定,例如70%。
163.此时,仅当一个文字的中心点的匹配点位于另一个的中心区域内时,确定该两个文字属于同一字段。
164.本发明实施例提供的上述字段确定方法中,可以针对每个文字,基于该文字的位置信息,确定该文字的文字区域的中心点,并且以该文字的中心点为基准点,按照该文字的预测角度和预测距离,在待识别票据图像中确定像素点,作为该文字的中心点的匹配点,以
及基于每个文字的位置信息,当一个文字的中心点的匹配点位于另一个文字的文字区域内时,确定该两个文字属于同一字段,得到待识别票据图像中包含的各字段,可以提高文字匹配的准确信。
165.在本发明的另一个实施例中,还提供一种信息字段确定方法,以实现步骤s104,如图9所示,该方法包括以下步骤:
166.s901:获取关键词表,其中,关键词表中记录有预设的关键词,以及与关键词对应的类型字段。
167.本步骤中,关键词表中记录的预设的关键词是需要的类型字段对应的信息字段对应的关键词。
168.示例性的,当需要确定出待视频票据图像中记录的时间信息时,预设的类型字段可以为日期,关键词为“年”、“月”或“日”等,将其写入关键词表。或者,当需要确定出待视频票据图像中记录的金额时,关键词可以为“元”、“圆”等,关键词对应的类型字段为金额。
169.s902:针对每个字段,当该字段包含有关键词时,确定该字段为信息字段,且该信息字段对应的类型字段为所包含的关键词对应的类型字段。
170.本步骤中,示例性的,关键词表中记录有关键词“年”,其对应的类型字段为日期时,当各字段中存在字段“2017年11月2日”,则确定该字段为对应日期的信息字段。
171.本发明实施例提供的上述信息字段确定方法中,可以获取关键词表,其中,关键词表中记录有预设的关键词,以及与关键词对应的类型字段,并且针对每个字段,当该字段包含有关键词时,确定该字段为信息字段,且该信息字段对应的类型字段为所包含的关键词对应的类型字段,通过关键词表可以快速的确定出对应预设类型的信息字段。
172.在本发明的另一个实施例中,还提供第二种信息字段确定方法,以实现步骤s104,如图10所示,该方法包括以下步骤:
173.s1001:获取类型字段表,其中,类型字段表中记录有预设的各类型字段。
174.本步骤中,预设的各类型字段可以为用户感兴趣的字段,例如“上车”“下车”“车号”“里程”“金额”等。
175.s1002:确定各字段中未记录在类型字段表中的字段,作为预分类字段。
176.本步骤中,对于一张待识别票据图像,其包含的各字段可以包括待识别票据图像中所存在的所有的类型字段,还包括待识别票据图像中记录表示票据信息的信息字段,以及既不是类型字段也不是信息字段的字段,例如说明字段,而对于一张待识别票据图像来说,用户感兴趣的、所需的仅为待识别票据图像中所存在部分类型字段、以及该部分类型字段对应的信息字段,以及部分不存在类型字段的信息字段。
177.示例性的,如图4所示示意图中,待识别票据图像中各字段可以包括{厦门市出租汽车专用发票、代码、135021610881、号码、10259982、监督电话、上车、(k0680)21:27、下车、21:54、金额、58.30元},其中用户预设的类型字段为{票据头、代码、号码、上车、下车、金额},则可以得到{厦门市出租汽车专用发票、135021610881、10259982、监督电话、(k0680)21:27、21:54、58.30元}作为各预分类字段。
178.s1003:将每个预分类字段输入预先建立的文本分类模型,得到每个预分类字段的分类结果。
179.本步骤中,一个预分类字段的分类结果包括:类型概率和删除概率,类型概率为该
预分类字段为信息字段,且对应的字段类型为各类型字段中每种类型字段的概率,删除概率为该预分类字段属于待删除的类型字段的概率,待删除的类型字段为除预设的类型字段对应的信息字段之外的字段,其中,文本分类模型为基于字段样本,以及字段样本的类别标识预先训练完成的。
180.示例性的,如图4所示示意图中,类型字段表中记录的预设的类型字段为{票据头、代码、号码、上车、下车、金额},将{厦门市出租汽车专用发票、135021610881、10259982、监督电话、(k0680)21:27、21:54、58.30元}中每个预分类字段输入文本分类模型,得到每个预分类字段对应的字段类型为个类型字段中每种类型字段的概率,以及属于待删除的类型字段的概率,示例性的,将“58.30元”输入到文本分类模型,得到“58.30元”为票据头、代码、号码、上车、下车、金额中每一个字段的概率,以及“58.30元为待删除的类型字段的概率,例如“58.30元”对应的概率分别为票据头9%、代码15%、号码10%、上车15%、下车16%、金额30%、待删除的类型字段5%。
181.s1004:根据每个预分类字段的分类结果,从各预分类字段中,确定出与预设的类型字段对应的信息字段。
182.本步骤中,可以判断每个预分类字段的类型概率和删除概率中是否存在大于第一预设阈值的,若存在,则确定是否为删除概率最大,若是,则将该预设类型字段删除,否则,将其对应最大概率所对应的类型字段。
183.可选的,针对每个预分类字段,还可以判断删除概率是否大于第二阈值,若大于,则删除该预分类字段,将剩余的预分类字段,根据每个预分类字段类型概率,从各预分类字段中,确定出与预设的类型字段对应的信息字段。
184.本发明实施例提供的上述信息字段确定方法中,可以获取类型字段表,其中,类型字段表中记录有预设的各类型字段,并且确定各字段中未记录在类型字段表中的字段,作为预分类字段,以及将每个预分类字段输入预先建立的文本分类模型,得到每个预分类字段的分类结果,以及根据每个预分类字段的分类结果,从各预分类字段中,确定出与预设的类型字段对应的信息字段,由于通过文本分类模型确定对应预设的类型字段的信息字段,可以使得类型字段与信息字段匹配的准确率更高。
185.在本发明的另一个实施例中,还提供第三种信息字段确定方法,以实现步骤s1004,如图11所示,该方法包括以下步骤:
186.s1101:从各预分类字段中,确定出删除概率小于预设概率阈值的预分类字段,作为信息字段。
187.本步骤中,可从各预分类字段中,确定出删除概率小于预设概率阈值的预分类字段,作为信息字段。
188.示例性的,对于{厦门市出租汽车专用发票、135021610881、10259982、监督电话、(k0680)21:27、21:54、58.30元}每个预分类字段,其删除概率分别为{6%、5%、7%、40%、5%、6%、5%、},预设概率阈值可以为根据实际需求和经验确定的,例如,预设概率阈值为30,则可以确定{厦门市出租汽车专用发票、135021610881、10259982、(k0680)21:27、21:54、58.30元}为信息字段。
189.s1102:基于确定出的每个信息字段为各类型字段中每种类型字段的类型概率,确定每个信息字段对应的类型字段。
190.本步骤中,可以将概率最大的类型字段确定为与信息字段对应的类型字段。
191.示例性的,信息字段“58.30元”对应的各类型字段的概率分别为票据头9%、代码15%、号码10%、上车15%、下车16%、金额30%、则信息字段“58.30元”与类型字段“金额”对应。
192.本发明实施例提供的上述另一种信息字段确定方法中,从各预分类字段中,确定出删除概率小于预设概率阈值的预分类字段,作为信息字段,并且基于确定出的每个信息字段为各类型字段中每种类型字段的类型概率,确定每个信息字段对应的类型字段,由于通过,确定出删除概率小于预设概率阈值的预分类字段从而排除了待删除的类型字段,因此,可以快速的确定出所需的信息字段。
193.在本发明的另一个实施例中,还提供第四种信息字段确定方法,以实现步骤s1102,如图12所示,该方法包括以下步骤:
194.s1201:按照确定出的每个信息字段为各类型字段中每种类型字段的类型概率的大小,从各类型字段中,确定出前预设数量个类型字段,作为与每个信息字段对应的预选类型字段。
195.本步骤中,预先类字段包括实际类型字段和虚拟类型字段,实际类型字段为各字段中包含的字段,虚拟类型字段为各字段中未包含的字段。
196.示例性的,预设数量为可以根据实际需求来确定,例如为2,则确定出的每个信息字段概率最大的前2个的类型字段。
197.对于如图4所示示意图中的各信息字段{厦门市出租汽车专用发票、135021610881、10259982、(k0680)21:27、21:54、58.30元},可以得到前2个的类型字段分别为:“厦门市出租汽车专用发票”对应票据头和金额,“135021610881”对应代码和号码,“10259982”对应号码和代码,“(k0680)21:27”对应上车和下车,“21:54”对应下车和金额,“58.30元”对应金额和下次。
198.其中{代码、号码、上车、下车、金额}为实际类型字段、{票据头}为虚拟类型字段。
199.s1202:基于每个文字的位置信息,确定每个信息字段的位置信息,以及每个信息字段对应的每个实际类型字段的位置信息。
200.本步骤中,组成信息字段和每个实际类型字段的文字的位置信息已知,因此,可以基于每个文字的位置信息,确定每个信息字段的位置信息,以及每个信息字段对应的每个实际类型字段的位置信息。
201.可选的,每个信息字段的位置信息可以为信息字段的中心点,和每个信息字段对应的每个实际类型字段的位置信息可以为实际类型字段的中心点。
202.s1203:基于每个信息字段的位置信息和每个信息字段对应每个实际类型字段的位置信息,确定每个信息字段与对应的每个实际类型信息之间连线的角度,作为每个信息字段与对应的每个实际类型信息对应的角度信息。
203.本步骤中,如图13所示的第二种待识别票据图像的示意图,其中虚线框为虚拟类型字段,其不存在实际的位置,基于每个信息字段的位置信息和每个信息字段对应每个实际类型字段的位置信息,确定每个信息字段与对应的每个实际类型信息之间连线,得到如图14所示的连线示意图,连线的角度可以为连线与基准线(图中未示出)之间的夹角,图14中为了更清楚显示连线示意图,隐去了矩形框中的文字,图14中,每个矩形框所表示的含义
与图13对应位置矩形框相同。
204.s1204:聚类分析每个信息字段与对应的每个实际类型信息对应的角度信息,确定出角度占比最多的角度区间。
205.本步骤中,从如图15所示的简化连线示意图可以看出,角度占比最多的角度区间为图15示出的连线的角度所在的最小角度区间。
206.s1205:判断每个信息字段与对应的每个实际类型字段之间连线的角度,是否存在位于角度区间的角度。
207.本步骤中,若是,执行步骤s1206,否则,执行步骤s1207。
208.s1206:确定位于角度区间的角度对应的实际类型字段,作为与每个信息字段对应的类型字段。
209.本步骤中,通过图15可以看出,“135021610881”对应的实际类型信息为对应代码,“10259982”对应的实际类型信息为号码,“(k0680)21:27”对应的实际类型信息为上车,“21:54”对应的实际类型信息为下车,“58.30元”对应的实际类型信息为金额。
210.s1207:在每个信息字段对应的虚拟类型字段中,确定出概率最大的虚拟类型字段,作为与每个信息字段对应的类型字段。
211.本步骤中,当每个信息字段与对应的每个实际类型字段之间连线的角度,不存在位于角度区间的角度时,说明信息字段对应的实际类型字段并不能与其进行对应,因此,需要从虚拟类型字段中选取,进而,可以在每个信息字段对应的虚拟类型字段中,确定出概率最大的虚拟类型字段,作为与每个信息字段对应的类型字段。
212.本发明实施例提供的上述又一种信息字段确定方法中,可以按照确定出的每个信息字段为各类型字段中每种类型字段的类型概率的大小,从各类型字段中,确定出前预设数量个类型字段,作为与每个信息字段对应的预选类型字段,并且基于每个文字的位置信息,确定每个信息字段的位置信息,以及每个信息字段对应的每个实际类型字段的位置信息,以及基于每个信息字段的位置信息和每个信息字段对应每个实际类型字段的位置信息,确定每个信息字段与对应的每个实际类型信息之间连线的角度,作为每个信息字段与对应的每个实际类型信息对应的角度信息,以及聚类分析每个信息字段与对应的每个实际类型信息对应的角度信息,确定出角度占比最多的角度区间,以及当每个信息字段与对应的每个实际类型字段之间连线的角度,存在位于角度区间的角度时,确定位于角度区间的角度对应的实际类型字段,作为与每个信息字段对应的类型字段,以及当每个信息字段与对应的每个实际类型字段之间连线的角度,不存在位于角度区间的角度时,在每个信息字段对应的虚拟类型字段中,确定出概率最大的虚拟类型字段,作为与每个信息字段对应的类型字段,由于通过综合角度去确定与信息字段匹配的类型字段,因此,可以提高信息字段与类型字段匹配的准确性。
213.在本发明的另一个实施例中,还提供一种深度神经网络模型的训练方法,以得到步骤s102中所使用的深度神经网络模型,如图16所示,该方法包括以下步骤:
214.s1601:针对每个文字样本,基于该文字样本的位置信息,确定该文字样本的中心点。
215.本步骤中,文字样本的中心点可以基于前述方法,在此不再赘述。
216.如图17a所示的,为票据图像样本中一种文字样本的示意图,中心点a、b、c、d、e、f
和g所在文字区域内的文字属于同一字段。
217.如图17b所示的,为票据图像样本中另一种文字样本的示意图,中心点a、b、c、d和e所在文字区域内的文字属于同一字段。
218.s1602:基于该文字样本的中心点,以及该文字样本对应的参考文字样本的中心点,确定该文字样本的中心点对应的方位信息,作为该文字样本所在文本区域内每个像素点的方位信息。
219.本步骤中,每个文字样本对应的参考文字样本为与每个文字样本属于同一字段的文字样本,方位信息表示每个文字样本的中心点与对应的参考文字样本的中心点之间连线的角度和距离。
220.例如,对应中心点e所在位置的文字样本,其参考文字样本可以为中心点d所在位置的文字样本,或中心点f所在位置的文字样本,或两者皆是。
221.当参考文字样本为中心点d所在位置的文字样本时,通过中心点e和中心点d的坐标,可以计算出线段de的与x轴的夹角θ,并可以计算出线段de的长度l
de
,同理可以计算出线段ef的与x轴的夹角β,并可以计算出线段ef的长度l
ef

222.当方位信息包括两组角度和距离时,中心点e的方位信息可以表示为(θ,l
de
,β,l
ef
),或者(sinθ,cosθ,l
de
,sinβ,cosβ,l
ef
)。
223.s1603:基于票据图像样本、以及每个文字样本所在文本区域内每个像素点的方位信息,对深度神经网络模型进行训练。
224.本步骤中,可以将每个文字样本所在文本区域内每个像素点的方位信息作为真值标定,对深度神经网络模型的参数进行调整。
225.可选的,将票据图像样本输入深度神经网络模型,得到票据图像样本包含的每个像素点的预测方位信息,并且基于票据图像样本包含的每个像素点的预测方位信息,确定每个文字样本所在文本区域内每个像素点的预,以及基于每个文字样本所在文本区域内每个像素点的方位信息和预测方位信息,计算深度神经网络模型的损失函数值,以及根据损失函数值,判断深度神经网络模型是否收敛,当深度神经网络模型未收敛时,根据损失函数值调整深度神经网络模型参数,并进行下一次训练,当深度神经网络模型收敛时,得到训练完成的深度神经网络模型。
226.本发明实施例提供的上述一种信深度神经网络模型的训练方法中,可以针对每个文字样本,基于该文字样本的位置信息,确定该文字样本的中心点,并且基于该文字样本的中心点,以及该文字样本对应的参考文字样本的中心点,确定该文字样本的中心点对应的方位信息,作为该文字样本所在文本区域内每个像素点的方位信息,以及基于票据图像样本、以及每个文字样本所在文本区域内每个像素点的方位信息,对深度神经网络模型进行训练,由于通过方位信息对深度神经网络模型进行训练,可以使得深度神经网络模型输出待识别票据图像每个像素点的预测方位值。
227.基于同一发明构思,根据本发明实施例提供的票据图像识别方法,本发明实施例还提供了一种票据图像识别装置,如图18所示,该装置包括:
228.图像识别模块1801,用于对待识别票据图像进行文字识别,得到待识别票据图像包含的各文字,以及每个文字的位置信息;
229.图像输入模块1802,用于将待识别票据图像输入预先训练完成的深度神经网络模
型,得到待识别票据图像包含的每个像素点的预测方位信息,其中,待识别票据图像中一个像素点所属的文字,与该像素点的预测方位信息所表示位置的像素点所属的文字属于同一字段,深度神经网络模型为基于票据图像样本、以及票据图像样本中文字样本的位置信息预先训练完成的;
230.文字匹配模块1803,用于基于每个像素点的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段;
231.信息字段确定模块1804,用于基于预设的匹配策略,从各字段中,确定出与预设的类型字段对应的信息字段,其中,类型字段表示与其对应字段所属的信息类型,信息字段表示票据信息。
232.进一步的,文字匹配模块1803,具体用于基于每个像素点的预测方位信息,以及每个文字的位置信息,确定每个文字的预测方位信息,文字的位置信息为文字区域的对角坐标,文字区域为矩形区域,并且基于每个文字的预测方位信息,以及每个文字的位置信息,对待识别票据图像中各文字进行位置匹配,得到待识别票据图像中包含的各字段。
233.进一步的,文字匹配模块1803,具体用于针对每个文字,基于该文字的位置信息,确定该文字的文字区域所包含的像素点,并且计算该文字的文字区域所包含的像素点的预测方位信息的平均值,作为该文字的预测方位信息。
234.进一步的,预测方位信息为预测角度和预测距离;
235.文字匹配模块1803,具体用于针对每个文字,基于该文字的位置信息,确定该文字的文字区域的中心点,并且以该文字的中心点为基准点,按照该文字的预测角度和预测距离,在待识别票据图像中确定像素点,作为该文字的中心点的匹配点,以及基于每个文字的位置信息,当一个文字的中心点的匹配点位于另一个文字的文字区域内时,确定该两个文字属于同一字段,得到待识别票据图像中包含的各字段。
236.进一步的,信息字段确定模块1804,具体用于获取关键词表,其中,关键词表中记录有预设的关键词,以及与关键词对应的类型字段,并且针对每个字段,当该字段包含有关键词时,确定该字段为信息字段,且该信息字段对应的类型字段为所包含的关键词对应的类型字段。
237.进一步的,信息字段确定模块1804,具体用于获取类型字段表,其中,类型字段表中记录有预设的各类型字段,并且确定各字段中未记录在类型字段表中的字段,作为预分类字段,以及将每个预分类字段输入预先建立的文本分类模型,得到每个预分类字段的分类结果,一个预分类字段的分类结果包括:类型概率和删除概率,类型概率为该预分类字段为信息字段,且对应的字段类型为各类型字段中每种类型字段的概率,删除概率为该预分类字段属于待删除的类型字段的概率,待删除的类型字段为除预设的类型字段对应的信息字段之外的字段,其中,文本分类模型为基于字段样本,以及字段样本的类别标识预先训练完成的,以及根据每个预分类字段的分类结果,从各预分类字段中,确定出与预设的类型字段对应的信息字段。
238.进一步的,信息字段确定模块1804,具体用于从各预分类字段中,确定出删除概率小于预设概率阈值的预分类字段,作为信息字段,并且基于确定出的每个信息字段为各类型字段中每种类型字段的类型概率,确定每个信息字段对应的类型字段。
239.进一步的,信息字段确定模块1804,具体用于按照确定出的每个信息字段为各类
型字段中每种类型字段的类型概率的大小,从各类型字段中,确定出前预设数量个类型字段,作为与每个信息字段对应的预选类型字段,预先类字段包括实际类型字段和虚拟类型字段,实际类型字段为各字段中包含的字段,虚拟类型字段为各字段中未包含的字段,并且基于每个文字的位置信息,确定每个信息字段的位置信息,以及每个信息字段对应的每个实际类型字段的位置信息,以及基于每个信息字段的位置信息和每个信息字段对应每个实际类型字段的位置信息,确定每个信息字段与对应的每个实际类型信息之间连线的角度,作为每个信息字段与对应的每个实际类型信息对应的角度信息,以及聚类分析每个信息字段与对应的每个实际类型信息对应的角度信息,确定出角度占比最多的角度区间,以及当每个信息字段与对应的每个实际类型字段之间连线的角度,存在位于角度区间的角度时,确定位于角度区间的角度对应的实际类型字段,作为与每个信息字段对应的类型字段,以及当每个信息字段与对应的每个实际类型字段之间连线的角度,不存在位于角度区间的角度时,在每个信息字段对应的虚拟类型字段中,确定出概率最大的虚拟类型字段,作为与每个信息字段对应的类型字段。
240.基于同一发明构思,根据本发明实施例提供的信深度神经网络模型的训练方法,本发明实施例还提供了一种深度神经网络模型的训练装置,如图19所示,该装置包括:
241.中心点确定模块1901,用于针对每个文字样本,基于该文字样本的位置信息,确定该文字样本的中心点;
242.方位信息确定模块1902,用于基于该文字样本的中心点,以及该文字样本对应的参考文字样本的中心点,确定该文字样本的中心点对应的方位信息,作为该文字样本所在文本区域内每个像素点的方位信息,其中,每个文字样本对应的参考文字样本为与每个文字样本属于同一字段的文字样本,方位信息表示每个文字样本的中心点与对应的参考文字样本的中心点之间连线的角度和距离;
243.模型训练模块1903,用于基于票据图像样本、以及每个文字样本所在文本区域内每个像素点的方位信息,对深度神经网络模型进行训练。
244.进一步的,模型训练模块1903,具体用于将票据图像样本输入深度神经网络模型,得到票据图像样本包含的每个像素点的预测方位信息,并且基于票据图像样本包含的每个像素点的预测方位信息,确定每个文字样本所在文本区域内每个像素点的预测方位信息,以及基于每个文字样本所在文本区域内每个像素点的方位信息和预测方位信息,计算深度神经网络模型的损失函数值,以及根据损失函数值,判断深度神经网络模型是否收敛,当深度神经网络模型未收敛时,根据损失函数值调整深度神经网络模型参数,并进行下一次训练,当深度神经网络模型收敛时,得到训练完成的深度神经网络模型。
245.本发明实施例还提供了一种电子设备,如图20所示,包括处理器2001、通信接口2002、存储器2003和通信总线2004,其中,处理器2001,通信接口2002,存储器2003通过通信总线2004完成相互间的通信,
246.存储器2003,用于存放计算机程序;
247.处理器2001,用于执行存储器2003上所存放的程序时,实现如下步骤:
248.对待识别票据图像进行文字识别,得到所述待识别票据图像包含的各文字,以及每个所述文字的位置信息;
249.将所述待识别票据图像输入预先训练完成的深度神经网络模型,得到所述待识别
票据图像包含的每个像素点的预测方位信息,其中,所述待识别票据图像中一个像素点所属的文字,与该像素点的所述预测方位信息所表示位置的像素点所属的文字属于同一字段,所述深度神经网络模型为基于票据图像样本、以及所述票据图像样本中文字样本的位置信息预先训练完成的;
250.基于每个所述像素点的预测方位信息,以及每个所述文字的位置信息,对所述待识别票据图像中各文字进行位置匹配,得到所述待识别票据图像中包含的各字段;
251.基于预设的匹配策略,从所述各字段中,确定出与预设的类型字段对应的信息字段,其中,所述类型字段表示与其对应字段所属的信息类型,所述信息字段表示票据信息。
252.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
253.通信接口用于上述电子设备与其他设备之间的通信。
254.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
255.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
256.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一票据图像识别方法的步骤。
257.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一票据图像识别方法。
258.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
259.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
260.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质、计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
261.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜