一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数字结构特征的发票编码识别方法及系统与流程

2022-05-18 11:11:40 来源:中国专利 TAG:


1.本发明涉及发票编码识别技术领域,并且更具体地,涉及一种基于数字结构特征的发票编码识别方法及系统。


背景技术:

2.数字识别是字符识别的一个重要研究方向和组成部分,它仅利用计算机就能自动识别阿拉伯数字0-9,是一种有效的,可靠的,简单快速的数字识别系统,不仅可以作为单独使用的软件,也可用于识别车牌号码系统以及智能安防系统,具有很广泛的商业用途。
3.在发票图片的采集过程中,由于拍摄不当获取到的图片存在倾斜,或者图片表面光照不均匀,部分区域过亮或过暗,不利于数字的定位与识别。
4.针对此类问题,需要一种能够准确地识别发票编码的方法。


技术实现要素:

5.本发明提出一种基于数字结构特征的发票编码识别方法及系统,以解决如何准确地识别发票编码的问题。
6.为了解决上述问题,根据本发明的一个方面,提供了一种基于数字结构特征的发票编码识别方法,所述方法包括:
7.获取需要进行发票编码识别的发票原始图像;
8.对所述发票原始图像进行预处理,以获取发票处理图像;
9.根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域;
10.对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码。
11.优选地,其中所述对所述发票原始图像进行预处理,以获取发票处理图像,包括:
12.对所述发票原始图像进行倾斜校正,包括:
13.对所述发票原始图像进行灰度化处理;
14.按照预设尺寸进行发票编码区域的截取,获取检测区域图像;、
15.对所述检测区域图像进行roberts边缘检测,获取边界,滤除竖线,并检测所有横线,计算所有横线的长度;
16.根据横线的长度的最大值确定斜率,并根据斜率对所述检测区域图像进行校正,以获取发票处理图像。
17.优选地,其中所述方法还包括:
18.采用中值滤波器对经过预处理后的发票处理图像进行去噪处理。
19.优选地,其中所述根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域,包括:
20.确定发票处理图像中最大矩形框的位于右上角的顶点位置,以所述顶点位置为基准位置,按照预设距离分别向左和向上进行定位,确定所述发票编码区域,并根据所述发票
编码区域进行水平切割,获取所述发票编码区域。
21.优选地,其中所述对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码,包括:
22.采用投影法进行数字分割,确定所述发票编码中的数字;
23.确定每个数字对应的上横线、下横线、水平交线个数和垂直交线个数,根据每个数字对应的上横线、下横线、水平交线个数和垂直交线个数进行基于数字结构特征的数字识别,确定发票编码;
24.其中,若数字的顶部有上横线特征且中间垂直交线个数为3个,则确定该数字为5;
25.若数字的顶部有上横线特征且中间垂直交线个数为2个,则确定该数字为7;
26.若数字的底部有下横线特征且中间垂直交线个数为2个,则确定该数字为1;
27.若数字的底部有下横线特征且中间垂直交线个数为3个,则确定该数字为2;
28.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为2个,则确定该数字为0;
29.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为3个,则确定该数字为8;
30.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为2个,则确定该数字为4;
31.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为3个,则确定该数字为9;
32.若数字在水平1/3处和2/3处的交线个数均为1个,则确定该数字为3;
33.若数字在水平1/3处和2/3处的交线个数分别为1个和2个,则确定该数字为6。
34.根据本发明的另一个方面,提供了一种基于数字结构特征的发票编码识别系统,所述系统包括:
35.发票原始图像获取单元,用于获取需要进行发票编码识别的发票原始图像;
36.预处理单元,用于对所述发票原始图像进行预处理,以获取发票处理图像;
37.发票编码区域获取单元,用于根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域;
38.发票编码获取单元,用于对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码。
39.优选地,其中所述预处理单元,对所述发票原始图像进行预处理,以获取发票处理图像,包括:
40.对所述发票原始图像进行倾斜校正,包括:
41.对所述发票原始图像进行灰度化处理;
42.按照预设尺寸进行发票编码区域的截取,获取检测区域图像;、
43.对所述检测区域图像进行roberts边缘检测,获取边界,滤除竖线,并检测所有横线,计算所有横线的长度;
44.根据横线的长度的最大值确定斜率,并根据斜率对所述检测区域图像进行校正,以获取发票处理图像。
45.优选地,其中所述系统还包括:
46.去噪单元,用于采用中值滤波器对经过预处理后的发票处理图像进行去噪处理。
47.优选地,其中所述发票编码区域获取单元,根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域,包括:
48.确定发票处理图像中最大矩形框的位于右上角的顶点位置,以所述顶点位置为基准位置,按照预设距离分别向左和向上进行定位,确定所述发票编码区域,并根据所述发票编码区域进行水平切割,获取所述发票编码区域。
49.优选地,其中所述发票编码获取单元,对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码,包括:
50.采用投影法进行数字分割,确定所述发票编码中的数字;
51.确定每个数字对应的上横线、下横线、水平交线个数和垂直交线个数,根据每个数字对应的上横线、下横线、水平交线个数和垂直交线个数进行基于数字结构特征的数字识别,确定发票编码;
52.其中,若数字的顶部有上横线特征且中间垂直交线个数为3个,则确定该数字为5;
53.若数字的顶部有上横线特征且中间垂直交线个数为2个,则确定该数字为7;
54.若数字的底部有下横线特征且中间垂直交线个数为2个,则确定该数字为1;
55.若数字的底部有下横线特征且中间垂直交线个数为3个,则确定该数字为2;
56.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为2个,则确定该数字为0;
57.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为3个,则确定该数字为8;
58.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为2个,则确定该数字为4;
59.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为3个,则确定该数字为9;
60.若数字在水平1/3处和2/3处的交线个数均为1个,则确定该数字为3;
61.若数字在水平1/3处和2/3处的交线个数分别为1个和2个,则确定该数字为6。
62.本发明提供了一种基于数字结构特征的发票编码识别方法及系统,包括:获取需要进行发票编码识别的发票原始图像;对所述发票原始图像进行预处理,以获取发票处理图像;根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域;对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码。通过本发明的基于数字结构特征的数字识别方法,能够拥有更高的准确率和更快的识别速度,对噪声有更强的鲁棒性。
附图说明
63.通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
64.图1为根据本发明实施方式的基于数字结构特征的发票编码识别方法100的流程图;
65.图2为根据本发明实施方式的基于数字结构特征的发票编码识别系统200的结构示意图。
具体实施方式
66.现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
67.除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
68.图1为根据本发明实施方式的基于数字结构特征的发票编码识别方法100的流程图。如图1所示,本发明实施方式提供的基于数字结构特征的发票编码识别方法及,拥有更高的准确率和更快的识别速度,对噪声有更强的鲁棒性。本发明实施方式提供的基于数字结构特征的发票编码识别方法100,从步骤101处开始,在步骤101获取需要进行发票编码识别的发票原始图像。
69.在本发明的实施方式中,可以通过图像采集设备获取需要进行发票编码识别的发票原始图像,也可以通过数据接口获取到需要进行发票编码识别的发票原始图像。
70.在步骤102,对所述发票原始图像进行预处理,以获取发票处理图像。
71.优选地,其中所述对所述发票原始图像进行预处理,以获取发票处理图像,包括:
72.对所述发票原始图像进行倾斜校正,包括:
73.对所述发票原始图像进行灰度化处理;
74.按照预设尺寸进行发票编码区域的截取,获取检测区域图像;、对所述检测区域图像进行roberts边缘检测,获取边界,滤除竖线,并检测所有横线,计算所有横线的长度;
75.根据横线的长度的最大值确定斜率,并根据斜率对所述检测区域图像进行校正,以获取发票处理图像。
76.优选地,其中所述方法还包括:
77.采用中值滤波器对经过预处理后的发票处理图像进行去噪处理。
78.在本发明的实施方式中,还需要对获取的发票原始图像进行倾斜校正和噪声处理。
79.其中,图片的倾斜矫正采用的是霍夫变换法检测发票图像中的横线并计算其倾斜角,通过旋转对发票图片进行矫正。具体操作为:(1)读入发票原始图像并进行灰度化处理;(2)按照预设尺寸截取经过灰度化处理的整个发票的右上角部分,以将检测区域缩小;(3)对获取的检测区域图像进行roberts边缘检测,获取边界,滤除竖线,检测所有横线,计算长度并标出最长直线;(4)根据长度最长的支线计算斜率,并根据斜率进行图像校正,获取发票处理图像。
80.另外,还采用中值滤波器对校正后的发票处理图像进行去噪处理,以消除图像的噪声。
81.在步骤103,根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域。
82.优选地,其中所述根据所述发票处理图像进行发票编码区域的定位和切割,以获
取发票编码区域,包括:
83.确定发票处理图像中最大矩形框的位于右上角的顶点位置,以所述顶点位置为基准位置,按照预设距离分别向左和向上进行定位,确定所述发票编码区域,并根据所述发票编码区域进行水平切割,获取所述发票编码区域。
84.由于发票编号位于发票图像中最大矩形框的上方,因此在本发明得实施方式中,采用以这个矩形框右上角的顶点为基准点,根据顶点位置按照预设距离分别向左和向上截取合适的宽度和高度,构成一个特定的矩形把两行数字包含起来,确定发票编码区域,实现对数字的初次定位,最后将包括两行数字的发票编码区域进行水平切割,从而获得发票编码区域。
85.在步骤104,对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码。
86.优选地,其中所述对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码,包括:
87.采用投影法进行数字分割,确定所述发票编码中的数字;
88.确定每个数字对应的上横线、下横线、水平交线个数和垂直交线个数,根据每个数字对应的上横线、下横线、水平交线个数和垂直交线个数进行基于数字结构特征的数字识别,确定发票编码;
89.其中,若数字的顶部有上横线特征且中间垂直交线个数为3个,则确定该数字为5;
90.若数字的顶部有上横线特征且中间垂直交线个数为2个,则确定该数字为7;
91.若数字的底部有下横线特征且中间垂直交线个数为2个,则确定该数字为1;
92.若数字的底部有下横线特征且中间垂直交线个数为3个,则确定该数字为2;
93.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为2个,则确定该数字为0;
94.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为3个,则确定该数字为8;
95.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为2个,则确定该数字为4;
96.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为3个,则确定该数字为9;
97.若数字在水平1/3处和2/3处的交线个数均为1个,则确定该数字为3;
98.若数字在水平1/3处和2/3处的交线个数分别为1个和2个,则确定该数字为6。
99.在本发明的实施方式中,采用投影法进行数字分割,具体地:先竖直投影,找出多个数字的左右边界,分割出单个数字;其次再为每个数字进行水平投影,找出其上下边界;最后将每个数字归一化,使单个数字大小一致。最后,采用基于数字结构特征的数字识别方法,提取关键且有效的结构特征,根据提取的结构特征进行数字识别,从而确定发票编码。
100.其中,结构特征包括:上横线、下横线、水平交线个数以及垂直交线个数。在本发明的实施方式中,基于数字结构特征的数字识别原理包括:
101.1、数字5和7在顶部有上横线特征,通过上横线特征分类出5和7,根据中间垂直交线个数可以确定到底是5还是7;
102.2、数字1和2在底部有下横线特征,在剩余的所有数字中分类出1和2,并根据中间垂直交线个数确定到底是1还是2;
103.3、对其余的6个数字0、3、4、6、8、9,通过水平交线个数和垂直交线个数两种特征进行分类:
104.a.对于数字0和8,在水平1/3处和2/3处的交线个数都是2,但是数字0的垂直交线个数为2,数字8的垂直交线个数为3,通过垂直交线个数分类出0和8;。
105.b.对于数字4和9,在水平1/3处和2/3处的交线个数分别均是2和1,但数字4的垂直交线个数为2,数字9的垂直交线个数为3,通过垂直交线个数分类出4和9;
106.c.对于数字3和6,数字3在水平1/3处和2/3处的交线个数分别为1和1,数字6在水平1/3处和2/3处的交线个数分别为1和2,2/3处水平交线个数为2的是数字6,为1的是数字3。
107.因此,在进行数字识别时,若数字的顶部有上横线特征且中间垂直交线个数为3个,则确定该数字为5;若数字的顶部有上横线特征且中间垂直交线个数为2个,则确定该数字为7;若数字的底部有下横线特征且中间垂直交线个数为2个,则确定该数字为1;若数字的底部有下横线特征且中间垂直交线个数为3个,则确定该数字为2;若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为2个,则确定该数字为0;若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为3个,则确定该数字为8;若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为2个,则确定该数字为4;若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为3个,则确定该数字为9;若数字在水平1/3处和2/3处的交线个数均为1个,则确定该数字为3;若数字在水平1/3处和2/3处的交线个数分别为1个和2个,则确定该数字为6。
108.本发明实施方式提供的方法在预处理阶段,应用霍夫变换检测水平直线,计算直线斜率,计算图像的倾斜角度,通过旋转对发票图片进行矫正;采用基于数字结构特征的数字识别方法,选取的结构特征为:上横线、下横线、水平交线个数以及垂直交线个数。
109.本发明的方法通过发票图像的预处理工作能够有效的消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性;采用基于数字结构特征的数字识别方法,能够拥有更高的准确率和更快的识别速度,以及对噪声有更强的鲁棒性。
110.图2为根据本发明实施方式的基于数字结构特征的发票编码识别系统200的结构示意图。如图2所示,本发明实施方式提供的基于数字结构特征的发票编码识别系统200,包括:发票原始图像获取单元201、预处理单元202、发票编码区域获取单元203和发票编码获取单元204。
111.优选地,所述发票原始图像获取单元201,用于获取需要进行发票编码识别的发票原始图像。
112.优选地,所述预处理单元202,用于对所述发票原始图像进行预处理,以获取发票处理图像。
113.优选地,其中所述预处理单元202,对所述发票原始图像进行预处理,以获取发票处理图像,包括:
114.对所述发票原始图像进行倾斜校正,包括:
115.对所述发票原始图像进行灰度化处理;
116.按照预设尺寸进行发票编码区域的截取,获取检测区域图像;、
117.对所述检测区域图像进行roberts边缘检测,获取边界,滤除竖线,并检测所有横线,计算所有横线的长度;
118.根据横线的长度的最大值确定斜率,并根据斜率对所述检测区域图像进行校正,以获取发票处理图像。
119.优选地,其中所述系统还包括:
120.去噪单元,用于采用中值滤波器对经过预处理后的发票处理图像进行去噪处理。
121.优选地,所述发票编码区域获取单元203,用于根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域。
122.优选地,其中所述发票编码区域获取单元203,根据所述发票处理图像进行发票编码区域的定位和切割,以获取发票编码区域,包括:
123.确定发票处理图像中最大矩形框的位于右上角的顶点位置,以所述顶点位置为基准位置,按照预设距离分别向左和向上进行定位,确定所述发票编码区域,并根据所述发票编码区域进行水平切割,获取所述发票编码区域。
124.优选地,所述发票编码获取单元204,用于对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码。
125.优选地,其中所述发票编码获取单元204,对所述发票编码区域中的数字进行分割,并基于数字结构特征进行数字识别,确定发票编码,包括:
126.采用投影法进行数字分割,确定所述发票编码中的数字;
127.确定每个数字对应的上横线、下横线、水平交线个数和垂直交线个数,根据每个数字对应的上横线、下横线、水平交线个数和垂直交线个数进行基于数字结构特征的数字识别,确定发票编码;
128.其中,若数字的顶部有上横线特征且中间垂直交线个数为3个,则确定该数字为5;
129.若数字的顶部有上横线特征且中间垂直交线个数为2个,则确定该数字为7;
130.若数字的底部有下横线特征且中间垂直交线个数为2个,则确定该数字为1;
131.若数字的底部有下横线特征且中间垂直交线个数为3个,则确定该数字为2;
132.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为2个,则确定该数字为0;
133.若数字在水平1/3处和2/3处的交线个数均为2个,且垂直交线个数为3个,则确定该数字为8;
134.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为2个,则确定该数字为4;
135.若数字在水平1/3处和2/3处的交线个数分别为2个和1个,且垂直交线个数为3个,则确定该数字为9;
136.若数字在水平1/3处和2/3处的交线个数均为1个,则确定该数字为3;
137.若数字在水平1/3处和2/3处的交线个数分别为1个和2个,则确定该数字为6。
138.本发明的实施例的基于数字结构特征的发票编码识别系统200与本发明的另一个实施例的基于数字结构特征的发票编码识别方法100相对应,在此不再赘述。
139.已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
140.通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
[0141]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0142]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0143]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0144]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0145]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献