一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

增值税发票自动识别与管理方法及系统与流程

2022-03-05 08:07:43 来源:中国专利 TAG:


1.本发明涉及发票识别领域,具体地说是一种增值税发票自动识别与管理方法及系统。


背景技术:

2.发票数据一直以来都是财政相关部门,涉税部门等关注的重要数据,随着数字化时代的飞速到来,如何快速处理大规模的发票数据成为了一个重要研究技术。当前对于纸质发票的人工录入处理,存在效率低下,反应滞后,难以大规模批量处理大量发票信息的痛点。对于已存在的扫描录入技术,例如ocr等,存在着准确率较低,难以准确识别高噪声数据例如污损图像等。
3.近年来,随着深度学习目标检测与识别技术的发展,涌现了一批高效率,高识别率的算法,利用该类算法对发票图像进行特征提取与识别,一定程度上改善了上述发票录入中速度慢,精准率较低的痛点,达到更加实时化,批量化的发票录入目的,但是仍然不能完全解决发票录入任务中效率低以及准确率低的问题。


技术实现要素:

4.本发明的技术任务是提供一种增值税发票自动识别与管理方法及系统,来解决发票录入任务中效率低以及准确率低的问题。
5.本发明的技术任务是按以下方式实现的,一种增值税发票自动识别与管理方法,该方法具体如下:
6.对发票进行自动识别获取发票图像采集;
7.采集完毕后,对发票图像进行预处理,得到发票图像灰度图;
8.将发票图像灰度图进行发票信息识别提取;
9.通过级联目标检测器对发票内容各区域进行检测区域;
10.通过发票内容识别器对检测分割区域的发票内容进行识别,得到识别结果与得分;
11.根据所设置的置信区间,将得分分为三个等级,具体如下:
12.得分≥阈值1时,直接将记录进行入库操作;
13.得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作;
14.得分<阈值2时,选择直接放弃,用户手动录入该条发票信息,并进行入库操作。
15.作为优选,发票图像是通过扫描仪或相机等设备,采集增值税发票信息,保存为图像模式;
16.图像预处理包括发票信息标注、腐蚀膨胀、去除图像噪声、灰度化及图形归一化操作。
17.作为优选,通过级联目标检测器对发票内容各区域进行检测区域具体如下:
18.训练模式:进行图像标签信息的人工标注,通过级联目标检测器和图像识别器进行有监督训练;
19.推理模式:将级联目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。
20.更优地,训练模式具体如下:
21.通过级联目标检测器进行标注:标注发票图像灰度图各内容区域伦果,获得区域坐标,用于一级检测器的训练;对各区域内容再次进行分割标注,分割区域内的文字实例,获得区域坐标,用于二级检测器的训练;
22.通过图像识别器进行标注:将各区域分割出来的文字实例进行含义标签标注,分别对应n个图像识别器;
23.将标注信息分别送入一级检测器、二级检测器及图像识别器进行有监督训练;
24.其中,所述级联目标检测器根据各部分性能,使用faster r-cnn或mask r-cnn的two-stage目标检测器,
25.或,
26.根据速度实时性,选择yolo或ssd的one-stage检测器;
27.图像识别器的训练使用lstm时序网络或resnet的cnn图像识别网络。
28.更优地,推理模式具体如下:
29.将发票图像灰度图送入一级目标检测器获得各区域坐标位置及区域名称;
30.通过二级目标检测器对一级目标检测器进行细粒度检测,检测出各区域内文字实例的坐标位置;
31.将一级目标检测器和二级目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。
32.一种增值税发票自动识别与管理系统,该系统包括,
33.发票自动识别单元,用于对增值税发票进行图像模式输入,对发票图像进行自动文字检测与文字识别,将所识别的发票信息保存为一条发票记录,进行记录直接入库或传入人工管理系统进行发票信息人工校正;
34.人工管理单元,用于对发票自动识别信息难以正确识别的发票信息,进行人工信息录入,或对发票自动识别单元所传入的发票信息进行人工校正,将结果进行入库操作。
35.作为优选,所述发票自动识别单元包括,
36.发票信息输入模块,用于对增值税发票进行图像采集,具体为:采用扫描仪进行增值税发票扫描上传或采用移动设备(手机,平板电脑,照相机,摄像机等)进行拍照上传,将所采集数据进行图像模式保存,用于后续自动检测与识别;
37.发票信息识别提取模块,用于对所采集发票图像进行图像预处理,得到发票图像灰度图,利用目标检测方法,对发票上的发票号码、纳税人识别号、开票日期、发票名称及发票金额的全部发票信息进行分割定位,利用文字图像识别算法对各区域信息进行识别,形成一条数据字典记录,对于每条记录得到一个识别得分,根据得分置信区间,分为三个等级,选择进入直接入库、人工校正或人工录入;
38.发票信息入库模块一,用于对得到的记录进行入库归档操作存入数据库中,数据库包括mysql或oracle的关系型数据库;数据库存储的文件类型包括xml或json的数据文
件。
39.作为优选,所述人工管理单元包括,
40.人工录入模块,用于对得分置信区间最低,自动识别困难的发票图像样本,进行发票信息人工录入流程,对本记录全部发票信息进行人工录入流程结束后,进行入库操作;
41.发票信息人工校正模块,用于对得分置信区间次低的发票图像样本,进行发票信息人工校正流程,对本记录部分识别不准确发票项进行人工校正录入,流程结束后,进行入库操作;
42.发票信息入库模块二,用于对得到的记录进行入库归档操作。
43.更优地,所述发票信息识别提取模块包括级联目标检测器和图像识别器;级联目标检测器由两个深度学习目标检测器组成,分别作为一级目标检测器与二级目标检测器;一级目标检测器与二级目标检测器采取faster r-cnn目标检测算法,目标检测算法分为训练模式与推理模式;
44.训练模式具体如下:
45.对发票图像进行图像预处理,包括发票信息标注、图像灰度化、腐蚀膨胀及图像归一化,用于去除图像噪声,分别得到一级目标检测器训练集与二级目标检测器训练集;
46.将处理完毕的训练集图像分别输入一级目标检测器和二级目标检测器进行训练;
47.推理模式具体如下:
48.对发票图像进行图像预处理操作,但不包括标注,确保输入图像数据的数据一致性;
49.按次序经过一级目标检测器和二级目标检测器,得到发票内容各区域,并对各区域进行分割保存;
50.所述图像识别器由n(n为发票内容区域的种类,即一个发票项对应一个识别器)个图像识别器组成,图像识别器采用lstm神经网络图像识别算法,图像识别算法分为训练模式与推理模式;
51.训练模式具体如下:
52.对发票图像进行图像预处理,包括发票信息标注、图像灰度化、腐蚀膨胀及图像归一化,用于去除图像噪声,得到图像识别网络训练集;
53.将处理完毕的训练集送入识别网络进行训练;
54.推理模式具体如下:
55.对得到的发票图像各区域分别送入各自图像识别器进行识别,计算得分,比较得分置信区间,具体如下:
56.得分≥阈值1时,直接将记录进行入库操作;
57.得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作;
58.得分<阈值2时,选择直接放弃,用户手动录入该条发票信息,并进行入库操作。
59.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述增值税发票自动识别与管理方法。
60.本发明的增值税发票自动识别与管理方法及系统具有以下优点:
61.(一)本发明完成发票的录入,发票内容的自动检测识别,发票信息入库的操作,解
决了发票录入任务中的效率低,不准确的问题;
62.(二)本发明将增值税普通发票通过发票信息输入模块上传为图像模式,发票信息识别提取模块对发票图像进行系统识别与信息提取,生成固定发票信息,传入发票信息人工校正模块进行人工校正,将校正之后的发票信息通过发票信息入库模块一和发票信息入库模块二进行入库操作,操作简单,使用方便且大大提高了发票入库效率及发票识别的准确率,同时降低了人工劳动强度。
附图说明
63.下面结合附图对本发明进一步说明。
64.附图1为增值税发票自动识别与管理方法的流程框图。
具体实施方式
65.参照说明书附图和具体实施例对本发明的增值税发票自动识别与管理方法及系统作以下详细地说明。
66.实施例1:
67.如附图1所示,本发明的增值税发票自动识别与管理方法,该方法具体如下:
68.s1、对发票进行自动识别获取发票图像采集;
69.s2、采集完毕后,对发票图像进行预处理,得到发票图像灰度图;
70.s3、将发票图像灰度图进行发票信息识别提取;
71.s4、通过级联目标检测器对发票内容各区域进行检测区域;
72.s5、通过发票内容识别器对检测分割区域的发票内容进行识别,得到识别结果与得分;
73.s6、根据所设置的置信区间,判断得分是否大于等于阈值1:
74.①
、若是,则跳转至步骤s8;
75.②
、若否,则执行步骤s7;
76.s7、判断得分是否大于等于阈值2:
77.①
、若是,则进行人工校正,经人工校正识别信息后,跳转至步骤s8;
78.②
、若否,则选择直接放弃,用户手动录入该条发票信息,并跳转至步骤s8。
79.s8、将记录进行入库操作.
80.本实施例步骤s1中的发票图像是通过扫描仪或相机等设备,采集增值税发票信息,保存为图像模式;
81.本实施例步骤s2中的图像预处理包括发票信息标注、腐蚀膨胀、去除图像噪声、灰度化及图形归一化操作。
82.本实施例步骤s3中的通过级联目标检测器对发票内容各区域进行检测区域具体如下:
83.s301、训练模式:进行图像标签信息的人工标注,通过级联目标检测器和图像识别器进行有监督训练;
84.s302、推理模式:将级联目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。
85.本实施例步骤s301中的训练模式具体如下:
86.s30101、通过级联目标检测器进行标注:标注发票图像灰度图各内容区域伦果,获得区域坐标,用于一级检测器的训练;对各区域内容再次进行分割标注,分割区域内的文字实例,获得区域坐标,用于二级检测器的训练;
87.s30102、通过图像识别器进行标注:将各区域分割出来的文字实例进行含义标签标注,分别对应n个图像识别器;
88.s30103、将标注信息分别送入一级检测器、二级检测器及图像识别器进行有监督训练;
89.其中,级联目标检测器根据各部分性能,使用faster r-cnn目标检测器;
90.图像识别器的训练使用lstm时序网络。
91.本实施例步骤s302中的推理模式具体如下:
92.s30201、将发票图像灰度图送入一级目标检测器获得各区域坐标位置及区域名称;
93.s30202、通过二级目标检测器对一级目标检测器进行细粒度检测,检测出各区域内文字实例的坐标位置;
94.s30203、将一级目标检测器和二级目标检测器得到的各区域检测结果分别送入对应图像识别器,得到识别结果作为一条发票的记录,作为识别得分。
95.实施例2:
96.本发明的增值税发票自动识别与管理系统,该系统包括,
97.发票自动识别单元,用于对增值税发票进行图像模式输入,对发票图像进行自动文字检测与文字识别,将所识别的发票信息保存为一条发票记录,进行记录直接入库或传入人工管理系统进行发票信息人工校正;
98.人工管理单元,用于对发票自动识别信息难以正确识别的发票信息,进行人工信息录入,或对发票自动识别单元所传入的发票信息进行人工校正,将结果进行入库操作。
99.本实施例中的发票自动识别单元包括,
100.发票信息输入模块,用于对增值税发票进行图像采集,具体为:采用扫描仪进行增值税发票扫描上传或采用移动设备(手机,平板电脑,照相机,摄像机等)进行拍照上传,将所采集数据进行图像模式保存,用于后续自动检测与识别;
101.发票信息识别提取模块,用于对所采集发票图像进行图像预处理,得到发票图像灰度图,利用目标检测方法,对发票上的发票号码、纳税人识别号、开票日期、发票名称及发票金额的全部发票信息进行分割定位,利用文字图像识别算法对各区域信息进行识别,形成一条数据字典记录,对于每条记录得到一个识别得分,根据得分置信区间,分为三个等级,选择进入直接入库、人工校正或人工录入;
102.发票信息入库模块一,用于对得到的记录进行入库归档操作存入数据库中,数据库包括mysql或oracle的关系型数据库;数据库存储的文件类型包括xml或json的数据文件。
103.本实施例中的人工管理单元包括,
104.人工录入模块,用于对得分置信区间最低,自动识别困难的发票图像样本,进行发票信息人工录入流程,对本记录全部发票信息进行人工录入流程结束后,进行入库操作;
105.发票信息人工校正模块,用于对得分置信区间次低的发票图像样本,进行发票信息人工校正流程,对本记录部分识别不准确发票项进行人工校正录入,流程结束后,进行入库操作;
106.发票信息入库模块二,用于对得到的记录进行入库归档操作。
107.本实施例中的发票信息识别提取模块包括级联目标检测器和图像识别器;级联目标检测器由两个深度学习目标检测器组成,分别作为一级目标检测器与二级目标检测器;一级目标检测器与二级目标检测器采取faster r-cnn目标检测算法,目标检测算法分为训练模式与推理模式;
108.训练模式具体如下:
109.对发票图像进行图像预处理,包括发票信息标注、图像灰度化、腐蚀膨胀及图像归一化,用于去除图像噪声,分别得到一级目标检测器训练集与二级目标检测器训练集;
110.将处理完毕的训练集图像分别输入一级目标检测器和二级目标检测器进行训练;
111.推理模式具体如下:
112.对发票图像进行图像预处理操作,但不包括标注,确保输入图像数据的数据一致性;
113.按次序经过一级目标检测器和二级目标检测器,得到发票内容各区域,并对各区域进行分割保存;
114.本实施例中的图像识别器由n(n为发票内容区域的种类,即一个发票项对应一个识别器)个图像识别器组成,图像识别器采用lstm神经网络图像识别算法,图像识别算法分为训练模式与推理模式;
115.训练模式具体如下:
116.对发票图像进行图像预处理,包括发票信息标注、图像灰度化、腐蚀膨胀及图像归一化,用于去除图像噪声,得到图像识别网络训练集;
117.将处理完毕的训练集送入识别网络进行训练;
118.推理模式具体如下:
119.对得到的发票图像各区域分别送入各自图像识别器进行识别,计算得分,比较得分置信区间,具体如下:
120.得分≥阈值1时,直接将记录进行入库操作;
121.得分<阈值1或得分≥阈值2时,进行人工校正,经人工校正识别信息后,进行入库操作;
122.得分<阈值2时,选择直接放弃,用户手动录入该条发票信息,并进行入库操作。
123.实施例3:
124.本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的增值税发票自动识别与管理方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
125.在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
126.用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-rym、dvd-rw、dvd rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上下载程序代码。
127.此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
128.此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
129.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献