一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于增值税发票识别的不含税价获取方法及系统与流程

2022-04-30 11:09:53 来源:中国专利 TAG:


1.本发明涉及发票技术领域,并且更具体地,涉及一种用于增值税发票识别的不含税价获取方法及系统。


背景技术:

2.增值税发票识别在财务报销、税务核算等场景有着广泛的应用,票面信息主要包含五要素、购销方信息和发票明细三部分,其中五要素包括票据代码、票据号码、开票日期、不含税价、验证码,是整张票据的唯一凭证,相当于增值税发票的“身份证明”,可用来进行发票查验等相关处理。在发票五要素的识别中,不含税价由于存在印章覆盖、金额压线、字迹模糊等问题,是最容易出错的字段。
3.目前市面上针对增值税发票识别主要是训练通用模型,通过提高模型检测、识别的准确率来提高系统最终的准确率,但由于通用模型需要大量数据与时间重复训练方可逐步提升效果,且在模型训练过程中会出现过拟合、欠拟合等问题,最终结果存在不稳定性。


技术实现要素:

4.本发明提出一种用于增值税发票识别的不含税价获取方法及系统,以解决如何获取用于增值税发票识别系统的不含税价的问题。
5.为了解决上述问题,根据本发明的一个方面,提供了一种用于增值税发票识别的不含税价获取方法,所述方法包括:
6.获取目标增值税发票图像,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息;
7.确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息;
8.根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息。
9.优选地,其中所述按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息,包括:
10.按照预设分辨率对所述目标增值税发票图像进行缩放处理,以获取目标增值税发票标准图像;
11.根据不同属性对应的位置信息对所述目标增值税发票标准图像进行分割,以确定不同属性对应的区域图像;
12.对不同属性对应的区域图像进行ocr文本识别,并根据识别数据进行数据提取,以获取价税合计原始信息、合计税额和税率信息。
13.优选地,其中所述确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息,包括:
14.将所述价税合计原始信息中的每个字符和预设数字库中的字符进行比较,并提取出比较一致的字符,以获取所述数字信息;
15.按照预设转换规则将所述数字信息中的每个字符依次由大写格式转换为阿拉伯数字格式,根据转换后的数据获取所述价税合计处理信息。
16.优选地,其中所述根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息,包括:
17.a=a

a
t

18.a
t
=a
×
t,
19.a

=a/(1 t),
20.其中,a

为不含税价信息,a
t
为合计税额,a为价税合计处理信息,t为税率信息。
21.优选地,其中所述方法还包括:
22.按照不含税价信息对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取不含税价提取信息;
23.将所述不含税价提取信息和所述不含税价信息进行比较,并当比较结果指示不一致时,返回不含税价信息不一致的告警信息至终端设备,以提醒用户进行不含税价信息的校核。
24.根据本发明的另一个方面,提供了一种用于增值税发票识别的不含税价获取系统,所述系统包括:
25.数据提取单元,用于获取目标增值税发票图像,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息;
26.格式转换单元,用于确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息;
27.不含税价信息确定单元,用于根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息。
28.优选地,其中所述数据提取单元,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息,包括:
29.按照预设分辨率对所述目标增值税发票图像进行缩放处理,以获取目标增值税发票标准图像;
30.根据不同属性对应的位置信息对所述目标增值税发票标准图像进行分割,以确定不同属性对应的区域图像;
31.对不同属性对应的区域图像进行ocr文本识别,并根据识别数据进行数据提取,以获取价税合计原始信息、合计税额和税率信息。
32.优选地,其中所述格式转换单元,确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息,包括:
33.将所述价税合计原始信息中的每个字符和预设数字库中的字符进行比较,并提取出比较一致的字符,以获取所述数字信息;
34.按照预设转换规则将所述数字信息中的每个字符依次由大写格式转换为阿拉伯数字格式,根据转换后的数据获取所述价税合计处理信息。
35.优选地,其中所述不含税价信息获取单元,根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息,包括:
36.a=a

a
t

37.a
t
=a
×
t,
38.a

=a/(1 a),
39.其中,a

为不含税价信息,a
t
为合计税额,a为价税合计处理信息,t为税率信息。
40.优选地,其中所述系统还包括:告警单元,用于:
41.按照不含税价信息对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取不含税价提取信息;
42.将所述不含税价提取信息和所述不含税价信息进行比较,并当比较结果指示不一致时,返回不含税价信息不一致的告警信息至终端设备,以提醒用户进行不含税价信息的校核。
43.本发明提供了一种用于增值税发票识别的不含税价获取方法及系统,包括:获取目标增值税发票图像,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息;确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息;根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息。本发明的方法能够降低增值税发票识别系统对通用模型准确率的依赖性,增加不含税价字段识别的普适性,使得该字段的识别能够适用于模型效果不一的识别系统中,实现增值税发票不含税价信息的准确提取。
附图说明
44.通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
45.图1为根据本发明实施方式的用于增值税发票识别的不含税价获取方法100的流程图;
46.图2为根据本发明实施方式的用于增值税发票识别的不含税价获取系统200的结构示意图。
具体实施方式
47.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
48.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
49.图1为根据本发明实施方式的用于增值税发票识别的不含税价获取方法100的流程图。如图1所示,本发明实施方式提供的用于增值税发票识别的不含税价获取方法,能够降低增值税发票识别系统对通用模型准确率的依赖性,增加不含税价字段识别的普适性,使得该字段的识别能够适用于模型效果不一的识别系统中,实现增值税发票不含税价信息
的准确提取。本发明实施方式提供的用于增值税发票识别的不含税价获取方法100,从步骤101处开始,在步骤101获取目标增值税发票图像,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息。
50.优选地,其中所述按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息,包括:
51.按照预设分辨率对所述目标增值税发票图像进行缩放处理,以获取目标增值税发票标准图像;
52.根据不同属性对应的位置信息对所述目标增值税发票标准图像进行分割,以确定不同属性对应的区域图像;
53.对不同属性对应的区域图像进行ocr文本识别,并根据识别数据进行数据提取,以获取价税合计原始信息、合计税额和税率信息。
54.通过对价税合计原始信息、合计税额和税率信息相对位置的分析即可得到不含税价金额,是最简单直观的提取方法。鉴于增值税发票识别模型存在不稳定性,金额部分的检测识别结果往往会有遗漏、误识等问题,因此需要借助诸如税率、价税合计等信息计算得到增值税发票的不含税价信息。
55.具体地,在本发明的实施方式中,首先按照预设分辨率对所述目标增值税发票图像进行缩放处理,以获取目标增值税发票标准图像;再根据不同属性对应的位置信息对所述目标增值税发票标准图像进行分割,以确定不同属性对应的区域图像;最后,对不同属性对应的区域图像进行ocr文本识别,并根据识别数据进行数据提取,以获取价税合计原始信息、合计税额和税率信息。其中,税率用于在无法正确得到识别结果的情况下作为计算不含税价的补充条件。
56.在步骤102,确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息。
57.优选地,其中所述确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息,包括:
58.将所述价税合计原始信息中的每个字符和预设数字库中的字符进行比较,并提取出比较一致的字符,以获取所述数字信息;
59.按照预设转换规则将所述数字信息中的每个字符依次由大写格式转换为阿拉伯数字格式,根据转换后的数据获取所述价税合计处理信息。
60.在本发明中,在进行价税合计的转换时,是通过文字转换算法,将票面的大写价税合计转为阿拉伯数字表示的金额,从而得到增值税发票的价税合计金额。中文的大写金额由大写数字、大写单位两部分组成,大写数字即“零壹贰叁肆伍陆柒捌玖”,大写单位为“分角元圆拾佰仟万萬”,二者组合在一起即为中文大写金额,如:壹万贰仟叁佰肆拾伍圆陆角七分。在本发明中,通过将所述价税合计原始信息中的每个字符和预设数字库中的字符进行比较,获取所述数字信息;并按照预设转换规则将所述数字信息中的每个字符依次由大写格式转换为阿拉伯数字格式,根据转换后的数据获取所述价税合计处理信息。本发明引入文字转换的原因在于中文金额部分噪音较少,通用模型识别结果的中文大写金额的误识率远低于阿拉伯数字,从而可以准确得到增值税发票的价税合计金额,用于辅助计算不含税价信息。
61.在步骤103,根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息。
62.优选地,其中所述根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息,包括:
63.a=a

a
t

64.a
t
=a
×
t,
65.a

=a/(1 t),
66.其中,a

为不含税价信息,a
t
为合计税额,a为价税合计处理信息,t为税率信息。
67.在本发明的实施方式中,在进行不含税价的计算时,是利用价税合计、税率、税额等信息通过计算的方法得到票面的不含税价金额,能够确保通用模型准确率低的情况下提高不含税价字段结果准确率。增值税发票的金额之间存在固定的关系,如式(1-2)所示,本发明将税率、价税合计处理信息作为输入,通过式(3)计算得到不含税价。
68.a=a

a
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式1)
69.a
t
=a
×
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式2)
70.a

=a/(1 t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(式3)
71.其中,a
t
为合计税额,为a

不含税价值,a为价税合计值,t为税率值。商品/服务实际价格为不含税价金额,消费者在购买商品/服务的过程中需要缴纳对应的税额,该税额为“商品价值
×
税率”(式2),最终花费的金额即价税合计值,即“价税合计=实际花费”。因此,可以通过价税合计、税率计算得到不含税价值(式3)。
72.优选地,其中所述方法还包括:
73.按照不含税价信息对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取不含税价提取信息;
74.将所述不含税价提取信息和所述不含税价信息进行比较,并当比较结果指示不一致时,返回不含税价信息不一致的告警信息至终端设备,以提醒用户进行不含税价信息的校核。
75.在本发明的实施方式中,一方面可以通过计算得到不含税价信息,一方面还可以直接通过票面信息提取获取不含税价信息,然后进行比较,确定识别的准确与否。具体地,按照不含税价信息对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取不含税价提取信息;将所述不含税价提取信息和所述不含税价信息进行比较,并当比较结果指示不一致时,返回不含税价信息不一致的告警信息至终端设备,以提醒用户进行不含税价信息的校核。
76.本发明所设计的不含税价提取方法,通过坐标分析票面金额相关字段的信息,引入税率、大写金额、金额计算等方法辅助计算增值税发票中的不含税价金额。本发明能极大地降低发票识别系统对模型的依赖程度,通过位置比对、税额做差、文字转换等方法降低模型识别错误导致的准确率低问题,即在通用模型基础之上进一步提高不含税价字段准确率,提高增值税发票识别系统的可解释性。
77.图2为根据本发明实施方式的用于增值税发票识别的不含税价获取系统200的结构示意图。如图2所示,本发明实施方式提供的用于增值税发票识别的不含税价获取系统200,包括:数据提取单元201、格式转换单元202和不含税价信息确定单元203。
78.优选地,所述数据提取单元201,用于获取目标增值税发票图像,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息。
79.优选地,其中所述数据提取单元201,按照不同属性对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取价税合计原始信息、合计税额和税率信息,包括:
80.按照预设分辨率对所述目标增值税发票图像进行缩放处理,以获取目标增值税发票标准图像;
81.根据不同属性对应的位置信息对所述目标增值税发票标准图像进行分割,以确定不同属性对应的区域图像;
82.对不同属性对应的区域图像进行ocr文本识别,并根据识别数据进行数据提取,以获取价税合计原始信息、合计税额和税率信息。
83.优选地,所述格式转换单元202,确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息。
84.优选地,其中所述格式转换单元202,确定所述价税合计原始信息中的数字信息,并按照预设转换规则对所述数字信息进行格式转换,以获取价税合计处理信息,包括:
85.将所述价税合计原始信息中的每个字符和预设数字库中的字符进行比较,并提取出比较一致的字符,以获取所述数字信息;
86.按照预设转换规则将所述数字信息中的每个字符依次由大写格式转换为阿拉伯数字格式,根据转换后的数据获取所述价税合计处理信息。
87.优选地,所述不含税价信息确定单元203,用于根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息。
88.优选地,其中所述不含税价信息获取单元203,根据所述税价合计处理信息、合计税额和税率信息,获取不含税价信息,包括:
89.a=a

a
t

90.a
t
=a
×
t,
91.a

=a/(1 t),
92.其中,a

为不含税价信息,a
t
为合计税额,a为价税合计处理信息,t为税率信息。
93.优选地,其中所述系统还包括:告警单元,用于:
94.按照不含税价信息对应的位置信息对所述目标增值税发票图像进行属性值的提取,以获取不含税价提取信息;
95.将所述不含税价提取信息和所述不含税价信息进行比较,并当比较结果指示不一致时,返回不含税价信息不一致的告警信息至终端设备,以提醒用户进行不含税价信息的校核。
96.本发明的实施例的用于增值税发票识别的不含税价获取系统200与本发明的另一个实施例的用于增值税发票识别的不含税价获取方法100相对应,在此不再赘述。
97.已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
98.通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解
释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
[0099]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0100]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0101]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0102]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0103]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献