电子发票信息提取方法、装置、电子设备及存储介质与流程

2022-05-18 08:29:38 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，具体涉及一种电子发票信息提取方法、装置、电子设备及存储介质。

背景技术：

2.医疗电子发票中的收费项目一般都是采用表格形式呈现，并且表格模式较为固定，为了提取电子发票中的信息，现有技术通常对图片形式的医疗收费票据进行结构化处理后，进行票据信息的采集和管理。
3.然而，医疗电子发票中的表格可能存在重叠的问题，若针对每张医疗收费票据进行结构化处理后直接提取，无法确保提取的收费项目与收费金额相匹配，导致提取的电子发票信息混乱且准确率低。
4.因此，有必要提出一种可以准确的提取出电子发票信息的方法。

技术实现要素：

5.鉴于以上内容，有必要提出一种电子发票信息提取方法、装置、电子设备及存储介质，通过对识别结果进行语义切分，将重叠的两个边界框切分后分别进行电子发票信息提取，提高了提取的电子发票信息的准确率。
6.本发明的第一方面提供一种电子发票信息提取方法，所述方法包括：
7.接收待提取文本的电子发票图像，并对所述电子发票图像进行识别，得到识别结果；
8.对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息；
9.基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签；
10.对所述多个单元格的多个标签进行识别，确定各个单元格之间的映射关系；
11.对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息；
12.根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的多个第二目标文本信息中进行电子发票信息提取。
13.可选地，所述对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息包括：
14.对所述识别结果中的每个边界框的第一文本信息进行序列标注；
15.将序列标注好的第一文本信息输入至预先训练好的序列标注模型中进行识别，得到每个边界框的第二文本信息；
16.识别所述每个边界框的第二文本信息中的标签，对对应的每个边界框进行语义切分，得到所述电子发票图像的多个单元格的单元格信息。
17.可选地，所述识别所述每个边界框的第二文本信息中的标签，对对应的每个边界
框进行语义切分，得到所述电子发票图像的多个单元格的单元格信息包括：
18.当识别到所述多个边界框中的任意一个边界框的第二文本信息中的标签包含有多个时，根据标签对所述任意一个边界框进行切分，得到多个单元格；
19.对所述任意一个边界框的第一坐标信息进行坐标转换，得到所述多个单元格中的每个单元格的第二坐标信息；
20.根据所述多个单元格中的每个单元格的第二坐标信息确定每个单元格的第一目标文本信息；
21.根据所述多个单元格中的每个单元格的第二坐标信息和第一目标文本信息更新所述识别结果，得到所述电子发票图像的多个单元格的单元格信息。
22.可选地，所述对所述任意一个边界框的第一坐标信息进行坐标转换，得到所述多个单元格中的每个单元格的第二坐标信息包括：
23.识别所述任意一个边界框中的第二文本信息中的所有字符所属的字符类型；
24.根据每个所述字符所属的字符类型确定每个所述字符的标准字符；
25.根据所述所有字符所属的字符类型及对应的每个所述字符的标准字符，将所述任意一个边界框的第二文本信息中的所有字符转换为标准字符，并计算所述标准字符的字符数之和，确定为所述任意一个边界框的第二文本信息的标准字符的字符数之和；
26.根据所述任意一个边界框的第一坐标信息及所述任意一个边界框的第二文本信息的标准字符的字符数之和，采用预设的公式计算所述任意一个边界框中的每个字符的坐标信息，根据每个字符的坐标信息计算得到所述多个单元格中的每个单元格的第二坐标信息。
27.可选地，所述基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签包括：
28.将所述单元格信息输入至预先训练好的标签分类模型中，得到每个单元格的标签，其中，所述标签分类模型的训练过程包括：
29.获取历史的单元格信息；
30.从所述历史的单元格信息中提取每个单元格的历史文本信息及坐标信息；
31.根据每个单元格的历史文本信息确定每个单元格的基础特征，及根据每个单元格的坐标信息确定每个单元格的列对齐区域特征、相对位置特征和行相邻单元格特征；
32.将每个单元格的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征进行关联，得到每个单元格的目标特征；
33.从多个单元格的目标特征中确定出训练集和测试集；
34.基于所述训练集训练预设的微调整模型，得到标签分类模型；
35.将所述测试集输入至所述标签分类模型中进行测试，并计算测试通过率；
36.若所述测试通过率大于或者等于预设通过率阈值，确定所述标签分类模型训练结束；若所述测试通过率小于所述预设通过率阈值，增加所述训练集的数量，重新进行标签分类模型的训练。
37.可选地，所述根据每个单元格的坐标信息确定每个单元格的列对齐区域特征、相对位置特征和行相邻单元格特征包括：
38.随机选取任意一列中的任意一个单元格作为目标单元格，计算所述目标单元格的
下一行单元格的列对齐特征，其中，所述计算所述目标单元格的下一行单元格的列对齐特征包括：从所述目标单元格开始递归，依次遍历所述目标单元格的下一行单元格，并计算所述目标单元格的下一行单元格的列高度，得到列高度；计算所述目标单元格与下一行单元格的列距离差值，得到列距离差值；计算所述目标单元格与下一行单元格之间的重叠率，得到行重叠率；当所述列距离差值与所述列高度之商数小于或者等于预设的第一阈值，及所述行重叠率大于或者等于预设的第二阈值时，确定所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域；当所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域时，计算所述目标单元格的下一行单元格的基础特征的平均值，并将所述平均值确定为所述目标单元格的下一行单元格的列对齐特征；重复执行所述计算所述目标单元格的下一行单元格的列对齐特征，直至提取到所有单元格的列对齐特征；
39.识别每个单元格的标签确定标题单元格及信息单元格，并计算每个信息单元格与每个标题单元格之间的行相对距离，并提取所述行相对距离确定为对应信息单元格的相对位置特征；
40.将每个单元格的左相邻单元格的基础特征、基础特征及右相邻单元格的基础特征进行合并，得到合并后的基础特征，并将合并后的基础特征确定为每个单元格的行相邻单元格特征。
41.可选地，所述对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息包括：
42.从每个单元格的第一目标文本信息中提取出命中预设字典中的多个第一关键词；
43.根据所述多个第一关键字从所述预设的字典中提取出预设数量的多个第二关键词；
44.计算任意一个第一关键词与任意一个第二关键词之间的相似度；
45.从计算得到的相似度中选取相似度最大的第二关键词确定为对应单元格的第二目标文本信息。
46.本发明的第二方面提供一种电子发票信息提取装置，所述装置包括：
47.接收和识别模块，用于接收待提取文本的电子发票图像，并对所述电子发票图像进行识别，得到识别结果；
48.切分模块，用于对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息；
49.分类模块，用于基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签；
50.确定模块，用于对所述多个单元格的多个标签进行识别，确定各个单元格之间的映射关系；
51.归一化处理模块，用于对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息；
52.提取模块，用于根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的多个第二目标文本信息中进行电子发票信息提取。
53.本发明的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的电子发票信息提取方法。
54.本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的电子发票信息提取方法。
55.综上所述，本发明所述的电子发票信息提取方法、装置、电子设备及存储介质，通过对所述电子发票图像进行识别，对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息，解决了一个边界框包含多个单元格的问题，提高了后续提取的电子发票信息的准确率。基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签，避免出现不同类别的标签划分为同一个组，提高了标签分类的准确率，进而确保了每个标签的准确性。对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，所述归一化处理是指对每个单元格中的第一目标文本信息进行更新，确保提取后的电子发票信息为标准值，提高了电子发票信息的可读性。根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的第二目标文本信息中进行电子发票信息提取，避免单独进行电子发票信息导致的电子发票信息混乱的现象，进而提高了电子发票信息提取的准确率及效率。
附图说明
56.图1是本发明实施例一提供的电子发票信息提取方法的流程图。
57.图2是本发明实施例二提供的电子发票信息提取装置的结构图。
58.图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
59.为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。
60.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。
61.实施例一
62.图1是本发明实施例一提供的电子发票信息提取方法的流程图。
63.在本实施例中，所述电子发票信息提取方法可以应用于电子设备中，对于需要进行电子发票信息提取的电子设备，可以直接在电子设备上集成本发明的方法所提供的电子发票信息提取的功能，或者以软件开发工具包(software development kit，sdk)的形式运行在电子设备中。
64.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
65.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深
度学习等几大方向。
66.如图1所示，所述电子发票信息提取方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。
67.s11，接收待提取文本的电子发票图像，并对所述电子发票图像进行识别，得到识别结果。
68.本实施例中，用户在进行电子发票信息提取时，通过客户端发送待提取文本的电子发票图像至客户端，具体地，所述客户端可以是智能手机、ipad或者其他现有智能设备，所述服务端可以为电子发票信息提取子系统，在电子发票信息提取过程中，如所述客户端可以向电子发票信息提取子系统发送待提取文本的电子发票图像，当所述电子发票信息提取子系统接收到待提取文本的电子发票图像时，对所述电子发票图像进行识别。
69.本实施例中，在数字医疗技术领域，电子发票图像可以为缴费项目发票、也可以为诊收费电子发票，也可以为门诊收费票据，还可以为体检报告，例如，血常规检查报告、尿常规检查报告等其他体检报告。
70.在一个可选的实施例中，所述对所述电子发票图像进行识别，得到识别结果包括：
71.采用ocr对所述电子发票图像进行识别，得到多个边界框的信息，其中，每个边界框信息中包含有每个边界框的第一坐标信息、置信度和第一文本信息；
72.将所述多个边界框的信息确定为识别结果。
73.本实施例中，所述每个边界框的第一坐标信息中包含有所述每个边界框的左上角的坐标信息、左下角的坐标信息、右上角的坐标信息和右下角的坐标信息。
74.本实施例中，针对门诊收费票据，所述第一文本信息可以为项目名称、金额、备注等其他信息。
75.s12，对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息。
76.本实施例中，所述单元格信息中包含有每个单元格的第二坐标信息及第一目标文本信息，单元格与单元格之间一般通过空白区域进行切分，一个边界框代表一个表格单元，即一个单元格，同时也存在特殊情况，当一个单元格文本较长时可能与相邻的单元格产生空间上的粘连，存在一个边界框内包含了多个单元格的现象，需要对单元格进行语义切分，解决了一个边界框包含多个单元格的问题，提高了后续提取的电子发票信息的准确率。
77.在一个可选的实施例中，所述对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息包括：
78.对所述识别结果中的每个边界框的第一文本信息进行序列标注；
79.将序列标注好的第一文本信息输入至预先训练好的序列标注模型中进行识别，得到每个边界框的第二文本信息；
80.识别所述每个边界框的第二文本信息中的标签，对对应的每个边界框进行语义切分，得到所述电子发票图像的多个单元格的单元格信息。
81.本实施例中，可以采用bio序列标注对每个边界框的第一文本信息进行序列标注，所述bio序列标注为现有技术，本案不再赘述。
82.进一步地，所述识别所述每个边界框的第二文本信息中的标签，对对应的每个边界框进行语义切分，得到所述电子发票图像的多个单元格的单元格信息包括：
83.当识别到所述多个边界框中的任意一个边界框的第二文本信息中的标签包含有多个时，根据标签对所述任意一个边界框进行切分，得到多个单元格；
84.对所述任意一个边界框的第一坐标信息进行坐标转换，得到所述多个单元格中的每个单元格的第二坐标信息；
85.根据所述多个单元格中的每个单元格的第二坐标信息确定每个单元格的第一目标文本信息；
86.根据所述多个单元格中的每个单元格的第二坐标信息和第一目标文本信息更新所述识别结果，得到所述电子发票图像的多个单元格的单元格信息。
87.本实施例中，通过对每个边界框进行语义切分，可以将重叠的两个边界框切分后分别进行电子发票信息提取，解决了直接从边界框中进行电子发票信息提取导致提取出电子发票信息混乱的问题，提高了提取的电子发票信息的准确率。
88.进一步地，所述对所述任意一个边界框的第一坐标信息进行坐标转换，得到所述多个单元格中的每个单元格的第二坐标信息包括：
89.识别所述任意一个边界框中的第二文本信息中的所有字符所属的字符类型；
90.根据每个所述字符所属的字符类型确定每个所述字符的标准字符；
91.根据所述所有字符所属的字符类型及对应的每个所述字符的标准字符，将所述任意一个边界框的第二文本信息中的所有字符转换为标准字符，并计算所述标准字符的字符数之和，确定为所述任意一个边界框的第二文本信息的标准字符的字符数之和；
92.根据所述任意一个边界框的第一坐标信息及所述任意一个边界框的第二文本信息的标准字符的字符数之和，采用预设的公式计算所述任意一个边界框中的每个字符的坐标信息，根据每个字符的坐标信息计算得到所述多个单元格中的每个单元格的第二坐标信息。
93.具体地，采用如下预设的公式计算所述任意一个边界框中的第n个字符的左上角的坐标信息和右上角的坐标信息包括：
[0094][0095][0096]
x
n_0
＝x
n-1_3
，
[0097]yn_0
＝y
n-1_3
，
[0098][0099][0100]
x
0_0
＝x
zri_0
，
[0101]y0_0
＝y
ori_0
，
[0102]
其中，表示任意一个边界框的左上角的坐标信息，表示任意一个边界框的右上角的坐标信息，all_normal_char代表所述任意一个边界框的第二文本信息的标准字符之和；normal_charn代表第n个字符的标准字符个数，(x
n_0
，y
n_0
)代表第n个字符的左上角的坐标信息，(x
n_3
，y
n_3
)代表第n个字符的右上角的坐标信息。
[0103]
示例性地，中文字符的标准字符为1，大写英文字符的标准字符为0.75，小写英文字符的标准字符为0.5，标点符号的标准字符为0.5，normal_charn代表第n个字符的标准字符，例如，第二文本信息为“海伦滴眼液盐酸左氧氟氪沙星”，设置第n个字符为“盐”，则normal_charn代表第6个字符的标注字符1。
[0104]
具体地，计算所述任意一个边界框中的第n个字符的左下角的坐标信息和右下角的坐标信息的原理与计算所述任意一个边界框中的第n个字符的左上角的坐标信息和右上角的坐标信息的原理相同。
[0105]
本实施例中，为了确保语义切分的准确率，将每个边界框中的第一文本信息进行序列标注后进行语义切分，同时将每个边界框中的第一文本信息转换为标准字符后进行坐标转换，进而得到所述电子发票图像的多个单元格的单元格信息，一方面，通过序列标注，可以确保语义切分后的单元格的准确率，另一方，通过将第一文本信息转换为标准字符后进行坐标转换后得到每个单元格的坐标信息，确保了语义切分后的每个单元格的单元格信息的完整性。
[0106]
s13，基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签。
[0107]
本实施例中，在得到单元格信息之后，由于单元格信息中包含每个单元格的第二坐标信息及第一目标文本信息，可以根据每个单元格的第一目标文本信息得到每个单元格的标签。
[0108]
在一个可选的实施例中，所述基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签包括：
[0109]
将所述多个单元格的单元格信息输入至预先训练好的标签分类模型中，得到每个单元格的标签。
[0110]
具体地，所述标签分类模型的训练过程包括：
[0111]
获取历史的单元格信息；
[0112]
从所述历史的单元格信息中提取每个单元格的历史文本信息及坐标信息；
[0113]
根据每个单元格的历史文本信息确定每个单元格的基础特征，及根据每个单元格的坐标信息确定每个单元格的列对齐区域特征、相对位置特征和行相邻单元格特征；
[0114]
将每个单元格的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征进行关联，得到每个单元格的目标特征；
[0115]
从多个单元格的目标特征中确定出训练集和测试集；
[0116]
基于所述训练集训练预设的微调整模型，得到标签分类模型；
[0117]
将所述测试集输入至所述标签分类模型中进行测试，并计算测试通过率；
[0118]
若所述测试通过率大于或者等于预设通过率阈值，确定所述标签分类模型训练结束；若所述测试通过率小于所述预设通过率阈值，增加所述训练集的数量，重新进行标签分类模型的训练。
[0119]
本实施例中，可以预先设置微调整模型，所述微调整模型是基于历史单元格的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征预先设置的。
[0120]
进一步地，所述根据每个单元格的历史文本信息确定每个单元格的基础特征包括：
[0121]
当每个单元格的历史文本信息命中预设字典中的关键词时，确定每个单元格的第
一个基础特征为1；或者，当每个单元格的历史文本信息未命中预设字典中的关键词时，确定每个单元格的第一个基础特征为0；
[0122]
统计每个单元格的历史文本信息中任意两个字排序命中预设字典中的关键词的第一次数，并将所述第一次数确定为每个单元格的第二个基础特征；
[0123]
统计每个单元格的历史文本信息中每个字命中预设字典中的关键词的第二次数，并将所述第二次数确定为每个单元格的第三个基础特征；
[0124]
当每个单元格的历史文本信息与预设的金额正则表达式匹配时，确定每个单元格的第四个基础特征为1；或者，当每个单元格的历史文本信息与预设的金额正则表达式不匹配时，确定每个单元格的第四个基础特征为0；
[0125]
当每个单元格的历史文本信息中的数值为1时，确定每个单元格的第五个基础特征为1；或者，当每个单元格的历史文本信息中的数值不为1时，确定每个单元格的第五个基础特征为0。
[0126]
进一步地，所述根据每个单元格的坐标信息确定每个单元格的列对齐区域特征、相对位置特征和行相邻单元格特征包括：
[0127]
随机选取任意一列中的任意一个单元格作为目标单元格，计算所述目标单元格的下一行单元格的列对齐特征，其中，所述计算所述目标单元格的下一行单元格的列对齐特征包括：从所述目标单元格开始递归，依次遍历所述目标单元格的下一行单元格，并计算所述目标单元格的下一行单元格的列高度，得到列高度；计算所述目标单元格与下一行单元格的列距离差值，得到列距离差值；计算所述目标单元格与下一行单元格之间的重叠率，得到行重叠率；当所述列距离差值与所述列高度之商数小于或者等于预设的第一阈值，及所述行重叠率大于或者等于预设的第二阈值时，确定所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域；当所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域时，计算所述目标单元格的下一行单元格的基础特征的平均值，并将所述平均值确定为所述目标单元格的下一行单元格的列对齐特征；重复执行所述计算所述目标单元格的下一行单元格的列对齐特征，直至提取到所有单元格的列对齐特征；
[0128]
识别每个单元格的标签确定标题单元格及信息单元格，并计算每个信息单元格与每个标题单元格之间的行相对距离，并提取所述行相对距离确定为对应信息单元格的相对位置特征；
[0129]
将每个单元格的左相邻单元格的基础特征、基础特征及右相邻单元格的基础特征进行合并，得到合并后的基础特征，并将合并后的基础特征确定为每个单元格的行相邻单元格特征。
[0130]
本实施例中，预设的第一阈值可以为2，预设的第二阈值可以为0.8，本实施例在此不做限制。
[0131]
本实施例中，所述列高度是指每个单元格的上边界线的下边界线之间的距离；所述列距离差值是指目标单元格的下一个单元格的y轴最小坐标与目标单元格的y轴最大坐标之间的差值；所述行重叠率是指目标单元格的上边界线与目标单元格的下一个单元格的下边界线之间的差值除以目标单元格的列高和目标单元格的下一个单元格的列高之和的商数。
[0132]
进一步地，在所述确定所述目标单元格与所述目标单元格的下一行单元格构成了
对齐区域之后，所述方法还包括：
[0133]
计算目标单元格的下一行单元格的列最小值与目标单元格的列最小值之差与所述列高度之商数小于预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格构成了左对齐；或者
[0134]
计算目标单元格的下一行单元格的列最大值与目标单元格的列最大值之差与所述列高度之商数小于所述预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格构成了右对齐；或者
[0135]
计算目标单元格的下一行单元格的列中间值与目标单元格的列中间值之差与所述列高度之商数小于所述预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格构成了中间对齐。
[0136]
本实施例中，预设的第三阈值可以为1，本实施例在此不做限制。
[0137]
进一步地，所述方法还包括：
[0138]
计算目标单元格的下一行单元格的列最小值与目标单元格的列最小值之差与所述列高度之商数大于或者等于预设的第三阈值，或者，计算目标单元格的下一行单元格的列最大值与目标单元格的列最大值之差与所述列高度之商数大于或者等于所述预设的第三阈值，或者，计算目标单元格的下一行单元格的列中间值与目标单元格的列中间值之差与所述列高度之商数大于或者等于所述预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格不构成列对齐。
[0139]
本实施例中，通过根据确定左对齐、右对齐及中间对齐，可以调整对应的单元格的位置坐标，在后期进行电子发票信息提取时，考虑到了调整后的单元格的位置坐标，进而提高了提取电子发票信息的准确率。
[0140]
本实施例中，在对多个单元格的单元格信息进行标签分类时，从每个单元格的单元格信息中的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征四个方面进行了考量，具体地，基础特征从每个单元格的历史文本信息是否命中预设字典中的关键、任意两个字排序命中预设字典中的关键词的次数、每个字命中预设字典中的关键词的次数、是否与预设的金额正则表达式匹配及数值是否为1五个维度进行了确定，确保了基础特征的完整性；列对齐区域特征从每个单元格是否为一列进行了考量，确保获取的单元格不会出现错位的现象；相对位置特征在确保了列对齐的情况下，从每个单元格与标题单元格的相对位置进行了考量，进一步确保了每个单元格的位置坐标的准确率；行相邻单元格特征对每个单元格的基础特征进行了扩充，增加了每个单元格的特征。
[0141]
本实施例中，通过从多个维度进行考虑确定每个单元格的标签，避免出现不同类别的标签划分为同一个组，提高了标签分类的准确率，进而确保了每个标签的准确性。
[0142]
s14，对所述多个单元格的多个标签进行识别，确定各个单元格之间的映射关系。
[0143]
本实施例中，确定各个单元格之间的映射关系时，可以采用行关系识别算法，具体地，所述行关系识别算法从所述多个单元格中划分每行对应的多个单元格，并识别每行对应的多个单元格之间的位置关系，进而确定出各个单元格之间的映射关系。
[0144]
s15，对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息。
[0145]
本实施例中，所述归一化处理是指对每个单元格中的第一目标文本信息进行更
新，确保提取后的电子发票信息为标准值，提高了电子发票信息的可读性。
[0146]
在一个可选的实施例中，所述对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息包括：
[0147]
从每个单元格的第一目标文本信息中提取出命中预设字典中的多个第一关键词；
[0148]
根据所述多个第一关键字从所述预设的字典中提取出预设数量的多个第二关键词；
[0149]
计算任意一个第一关键词与任意一个第二关键词之间的相似度；
[0150]
从计算得到的相似度中选取相似度最大的第二关键词确定为对应单元格的第二目标文本信息。
[0151]
本实施例中，由于预设字典中包含有标准值，例如，若第一目标文本信息为中药饮片，将所述中药饮片归一化为中药费。
[0152]
s16，根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的多个第二目标文本信息中进行电子发票信息提取。
[0153]
本实施例中，针对收费电子发票，所述映射关系指的是收费项目与金额或者数量之间的关联关系，例如，提取的收费项目为床位费，对应金额的映射关系为：xxxx元。
[0154]
本实施例中，通过确定各个单元格之间的映射关系，并根据映射关系提取出所述电子发票的信息，避免单独进行电子发票信息导致的电子发票信息混乱的现象，进而提高了电子发票信息提取的准确率及效率。
[0155]
综上所述，本实施例所述的电子发票信息提取方法，通过对所述电子发票图像进行识别，对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息，解决了一个边界框包含多个单元格的问题，提高了后续提取的电子发票信息的准确率。基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签，避免出现不同类别的标签划分为同一个组，提高了标签分类的准确率，进而确保了每个标签的准确性。对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，所述归一化处理是指对每个单元格中的第一目标文本信息进行更新，确保提取后的电子发票信息为标准值，提高了电子发票信息的可读性。根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的多个第二目标文本信息中进行电子发票信息提取，避免单独进行电子发票信息导致的电子发票信息混乱的现象，进而提高了电子发票信息提取的准确率及效率。
[0156]
实施例二
[0157]
图2是本发明实施例二提供的电子发票信息提取装置的结构图。
[0158]
在一些实施例中，所述电子发票信息提取装置20可以包括多个由程序代码段所组成的功能模块。所述电子发票信息提取装置20中的各个程序段的程序代码可以存储于电子设备的存储器中，并由所述至少一个处理器所执行，以执行(详见图1描述)电子发票信息提取的功能。
[0159]
本实施例中，所述电子发票信息提取装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：接收和识别模块201、切分模块202、分类模块203、确定模块204、归一化处理模块205及提取模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。
[0160]
接收和识别模块201，用于接收待提取文本的电子发票图像，并对所述电子发票图像进行识别，得到识别结果。
[0161]
本实施例中，用户在进行电子发票信息提取时，通过客户端发送待提取文本的电子发票图像至客户端，具体地，所述客户端可以是智能手机、ipad或者其他现有智能设备，所述服务端可以为电子发票信息提取子系统，在电子发票信息提取过程中，如所述客户端可以向电子发票信息提取子系统发送待提取文本的电子发票图像，当所述电子发票信息提取子系统接收到待提取文本的电子发票图像时，对所述电子发票图像进行识别。
[0162]
本实施例中，在数字医疗技术领域，电子发票图像可以为缴费项目发票、也可以为诊收费电子发票，也可以为门诊收费票据，还可以为体检报告，例如，血常规检查报告、尿常规检查报告等其他体检报告。
[0163]
在一个可选的实施例中，所述接收和识别模块201对所述电子发票图像进行识别，得到识别结果包括：
[0164]
采用ocr对所述电子发票图像进行识别，得到多个边界框的信息，其中，每个边界框信息中包含有每个边界框的第一坐标信息、置信度和第一文本信息；
[0165]
将所述多个边界框的信息确定为识别结果。
[0166]
本实施例中，所述每个边界框的第一坐标信息中包含有所述每个边界框的左上角的坐标信息、左下角的坐标信息、右上角的坐标信息和右下角的坐标信息。
[0167]
本实施例中，针对门诊收费票据，所述第一文本信息可以为项目名称、金额、备注等其他信息。
[0168]
切分模块202，用于对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息。
[0169]
本实施例中，所述单元格信息中包含有每个单元格的第二坐标信息及第一目标文本信息，单元格与单元格之间一般通过空白区域进行切分，一个边界框代表一个表格单元，即一个单元格，同时也存在特殊情况，当一个单元格文本较长时可能与相邻的单元格产生空间上的粘连，存在一个边界框内包含了多个单元格的现象，需要对单元格进行语义切分，解决了一个边界框包含多个单元格的问题，提高了后续提取的电子发票信息的准确率。
[0170]
在一个可选的实施例中，所述切分模块202对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息包括：
[0171]
对所述识别结果中的每个边界框的第一文本信息进行序列标注；
[0172]
将序列标注好的第一文本信息输入至预先训练好的序列标注模型中进行识别，得到每个边界框的第二文本信息；
[0173]
识别所述每个边界框的第二文本信息中的标签，对对应的每个边界框进行语义切分，得到所述电子发票图像的多个单元格的单元格信息。
[0174]
本实施例中，可以采用bio序列标注对每个边界框的第一文本信息进行序列标注，所述bio序列标注为现有技术，本案不再赘述。
[0175]
进一步地，所述识别所述每个边界框的第二文本信息中的标签，对对应的每个边界框进行语义切分，得到所述电子发票图像的多个单元格的单元格信息包括：
[0176]
当识别到所述多个边界框中的任意一个边界框的第二文本信息中的标签包含有多个时，根据标签对所述任意一个边界框进行切分，得到多个单元格；
[0177]
对所述任意一个边界框的第一坐标信息进行坐标转换，得到所述多个单元格中的每个单元格的第二坐标信息；
[0178]
根据所述多个单元格中的每个单元格的第二坐标信息确定每个单元格的第一目标文本信息；
[0179]
根据所述多个单元格中的每个单元格的第二坐标信息和第一目标文本信息更新所述识别结果，得到所述电子发票图像的多个单元格的单元格信息。
[0180]
本实施例中，通过对每个边界框进行语义切分，可以将重叠的两个边界框切分后分别进行电子发票信息提取，解决了直接从边界框中进行电子发票信息提取导致提取出电子发票信息混乱的问题，提高了提取的电子发票信息的准确率。
[0181]
进一步地，所述对所述任意一个边界框的第一坐标信息进行坐标转换，得到所述多个单元格中的每个单元格的第二坐标信息包括：
[0182]
识别所述任意一个边界框中的第二文本信息中的所有字符所属的字符类型；
[0183]
根据每个所述字符所属的字符类型确定每个所述字符的标准字符；
[0184]
根据所述所有字符所属的字符类型及对应的每个所述字符的标准字符，将所述任意一个边界框的第二文本信息中的所有字符转换为标准字符，并计算所述标准字符的字符数之和，确定为所述任意一个边界框的第二文本信息的标准字符的字符数之和；
[0185]
根据所述任意一个边界框的第一坐标信息及所述任意一个边界框的第二文本信息的标准字符的字符数之和，采用预设的公式计算所述任意一个边界框中的每个字符的坐标信息，根据每个字符的坐标信息计算得到所述多个单元格中的每个单元格的第二坐标信息。
[0186]
具体地，采用如下预设的公式计算所述任意一个边界框中的第n个字符的左上角的坐标信息和右上角的坐标信息包括：
[0187][0188][0189]
x
n_0
＝x
n-1_3
，
[0190]yn_0
＝y
n-1_3
，
[0191][0192][0193]
x
0_0
＝x
ori_0
，
[0194]y0_0
＝y
ori_0
，
[0195]
其中，表示任意一个边界框的左上角的坐标信息，表示任意一个边界框的右上角的坐标信息，all_normal_char代表所述任意一个边界框的第二文本信息的标准字符之和；normal_charn代表第n个字符的标准字符个数，(x
n_0
，y
n_0
)代表第n个字符的左上角的坐标信息，(x
n_3
，y
n_3
)代表第n个字符的右上角的坐标信息。
[0196]
示例性地，中文字符的标准字符为1，大写英文字符的标准字符为0.75，小写英文字符的标准字符为0.5，标点符号的标准字符为0.5，normal_charn代表第n个字符的标准字
符，例如，第二文本信息为“海伦滴眼液盐酸左氧氟氪沙星”，设置第n个字符为“盐”，则normal_charn代表第6个字符的标注字符1。
[0197]
具体地，计算所述任意一个边界框中的第n个字符的左下角的坐标信息和右下角的坐标信息的原理与计算所述任意一个边界框中的第n个字符的左上角的坐标信息和右上角的坐标信息的原理相同。
[0198]
本实施例中，为了确保语义切分的准确率，将每个边界框中的第一文本信息进行序列标注后进行语义切分，同时将每个边界框中的第一文本信息转换为标准字符后进行坐标转换，进而得到所述电子发票图像的多个单元格的单元格信息，一方面，通过序列标注，可以确保语义切分后的单元格的准确率，另一方，通过将第一文本信息转换为标准字符后进行坐标转换后得到每个单元格的坐标信息，确保了语义切分后的每个单元格的单元格信息的完整性。
[0199]
分类模块203，用于基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签。
[0200]
本实施例中，在得到单元格信息之后，由于单元格信息中包含每个单元格的第二坐标信息及第一目标文本信息，可以根据每个单元格的第一目标文本信息得到每个单元格的标签。
[0201]
在一个可选的实施例中，所述分类模块203基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签包括：
[0202]
将所述多个单元格的单元格信息输入至预先训练好的标签分类模型中，得到每个单元格的标签。
[0203]
具体地，所述标签分类模型的训练过程包括：
[0204]
获取历史的单元格信息；
[0205]
从所述历史的单元格信息中提取每个单元格的历史文本信息及坐标信息；
[0206]
根据每个单元格的历史文本信息确定每个单元格的基础特征，及根据每个单元格的坐标信息确定每个单元格的列对齐区域特征、相对位置特征和行相邻单元格特征；
[0207]
将每个单元格的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征进行关联，得到每个单元格的目标特征；
[0208]
从多个单元格的目标特征中确定出训练集和测试集；
[0209]
基于所述训练集训练预设的微调整模型，得到标签分类模型；
[0210]
将所述测试集输入至所述标签分类模型中进行测试，并计算测试通过率；
[0211]
若所述测试通过率大于或者等于预设通过率阈值，确定所述标签分类模型训练结束；若所述测试通过率小于所述预设通过率阈值，增加所述训练集的数量，重新进行标签分类模型的训练。
[0212]
本实施例中，可以预先设置微调整模型，所述微调整模型是基于历史单元格的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征预先设置的。
[0213]
进一步地，所述根据每个单元格的历史文本信息确定每个单元格的基础特征包括：
[0214]
当每个单元格的历史文本信息命中预设字典中的关键词时，确定每个单元格的第一个基础特征为1；或者，当每个单元格的历史文本信息未命中预设字典中的关键词时，确
定每个单元格的第一个基础特征为0；
[0215]
统计每个单元格的历史文本信息中任意两个字排序命中预设字典中的关键词的第一次数，并将所述第一次数确定为每个单元格的第二个基础特征；
[0216]
统计每个单元格的历史文本信息中每个字命中预设字典中的关键词的第二次数，并将所述第二次数确定为每个单元格的第三个基础特征；
[0217]
当每个单元格的历史文本信息与预设的金额正则表达式匹配时，确定每个单元格的第四个基础特征为1；或者，当每个单元格的历史文本信息与预设的金额正则表达式不匹配时，确定每个单元格的第四个基础特征为0；
[0218]
当每个单元格的历史文本信息中的数值为1时，确定每个单元格的第五个基础特征为1；或者，当每个单元格的历史文本信息中的数值不为1时，确定每个单元格的第五个基础特征为0。
[0219]
进一步地，所述根据每个单元格的坐标信息确定每个单元格的列对齐区域特征、相对位置特征和行相邻单元格特征包括：
[0220]
随机选取任意一列中的任意一个单元格作为目标单元格，计算所述目标单元格的下一行单元格的列对齐特征，其中，所述计算所述目标单元格的下一行单元格的列对齐特征包括：从所述目标单元格开始递归，依次遍历所述目标单元格的下一行单元格，并计算所述目标单元格的下一行单元格的列高度，得到列高度；计算所述目标单元格与下一行单元格的列距离差值，得到列距离差值；计算所述目标单元格与下一行单元格之间的重叠率，得到行重叠率；当所述列距离差值与所述列高度之商数小于或者等于预设的第一阈值，及所述行重叠率大于或者等于预设的第二阈值时，确定所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域；当所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域时，计算所述目标单元格的下一行单元格的基础特征的平均值，并将所述平均值确定为所述目标单元格的下一行单元格的列对齐特征；重复执行所述计算所述目标单元格的下一行单元格的列对齐特征，直至提取到所有单元格的列对齐特征；
[0221]
识别每个单元格的标签确定标题单元格及信息单元格，并计算每个信息单元格与每个标题单元格之间的行相对距离，并提取所述行相对距离确定为对应信息单元格的相对位置特征；
[0222]
将每个单元格的左相邻单元格的基础特征、基础特征及右相邻单元格的基础特征进行合并，得到合并后的基础特征，并将合并后的基础特征确定为每个单元格的行相邻单元格特征。
[0223]
本实施例中，预设的第一阈值可以为2，预设的第二阈值可以为0.8，本实施例在此不做限制。
[0224]
本实施例中，所述列高度是指每个单元格的上边界线的下边界线之间的距离；所述列距离差值是指目标单元格的下一个单元格的y轴最小坐标与目标单元格的y轴最大坐标之间的差值；所述行重叠率是指目标单元格的上边界线与目标单元格的下一个单元格的下边界线之间的差值除以目标单元格的列高和目标单元格的下一个单元格的列高之和的商数。
[0225]
进一步地，在所述确定所述目标单元格与所述目标单元格的下一行单元格构成了对齐区域之后，所述方法还包括：
[0226]
计算目标单元格的下一行单元格的列最小值与目标单元格的列最小值之差与所述列高度之商数小于预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格构成了左对齐；或者
[0227]
计算目标单元格的下一行单元格的列最大值与目标单元格的列最大值之差与所述列高度之商数小于所述预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格构成了右对齐；或者
[0228]
计算目标单元格的下一行单元格的列中间值与目标单元格的列中间值之差与所述列高度之商数小于所述预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格构成了中间对齐。
[0229]
本实施例中，预设的第三阈值可以为1，本实施例在此不做限制。
[0230]
进一步地，计算目标单元格的下一行单元格的列最小值与目标单元格的列最小值之差与所述列高度之商数大于或者等于预设的第三阈值，或者，计算目标单元格的下一行单元格的列最大值与目标单元格的列最大值之差与所述列高度之商数大于或者等于所述预设的第三阈值，或者，计算目标单元格的下一行单元格的列中间值与目标单元格的列中间值之差与所述列高度之商数大于或者等于所述预设的第三阈值，确定所述目标单元格与所述目标单元格的下一行单元格不构成列对齐。
[0231]
本实施例中，通过根据确定左对齐、右对齐及中间对齐，可以调整对应的单元格的位置坐标，在后期进行电子发票信息提取时，考虑到了调整后的单元格的位置坐标，进而提高了提取电子发票信息的准确率。
[0232]
本实施例中，在对多个单元格的单元格信息进行标签分类时，从每个单元格的单元格信息中的基础特征、列对齐区域特征、相对位置特征和行相邻单元格特征四个方面进行了考量，具体地，基础特征从每个单元格的历史文本信息是否命中预设字典中的关键、任意两个字排序命中预设字典中的关键词的次数、每个字命中预设字典中的关键词的次数、是否与预设的金额正则表达式匹配及数值是否为1五个维度进行了确定，确保了基础特征的完整性；列对齐区域特征从每个单元格是否为一列进行了考量，确保获取的单元格不会出现错位的现象；相对位置特征在确保了列对齐的情况下，从每个单元格与标题单元格的相对位置进行了考量，进一步确保了每个单元格的位置坐标的准确率；行相邻单元格特征对每个单元格的基础特征进行了扩充，增加了每个单元格的特征。
[0233]
本实施例中，通过从多个维度进行考虑确定每个单元格的标签，避免出现不同类别的标签划分为同一个组，提高了标签分类的准确率，进而确保了每个标签的准确性。
[0234]
确定模块204，用于对所述多个单元格的多个标签进行识别，确定各个单元格之间的映射关系。
[0235]
本实施例中，确定各个单元格之间的映射关系时，可以采用行关系识别算法，具体地，所述行关系识别算法从所述多个单元格中划分每行对应的多个单元格，并识别每行对应的多个单元格之间的位置关系，进而确定出各个单元格之间的映射关系。
[0236]
归一化处理模块205，用于对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息。
[0237]
本实施例中，所述归一化处理是指对每个单元格中的第一目标文本信息进行更新，确保提取后的电子发票信息为标准值，提高了电子发票信息的可读性。
[0238]
在一个可选的实施例中，所述归一化处理模块205对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，得到所述电子发票图像的每个单元格的第二目标文本信息包括：
[0239]
从每个单元格的第一目标文本信息中提取出命中预设字典中的多个第一关键词；
[0240]
根据所述多个第一关键字从所述预设的字典中提取出预设数量的多个第二关键词；
[0241]
计算任意一个第一关键词与任意一个第二关键词之间的相似度；
[0242]
从计算得到的相似度中选取相似度最大的第二关键词确定为对应单元格的第二目标文本信息。
[0243]
本实施例中，由于预设字典中包含有标准值，例如，若第一目标文本信息为中药饮片，将所述中药饮片归一化为中药费。
[0244]
提取模块206，用于根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的多个第二目标文本信息中进行电子发票信息提取。
[0245]
本实施例中，针对收费电子发票，所述映射关系指的是收费项目与金额或者数量之间的关联关系，例如，提取的收费项目为床位费，对应金额的映射关系为：xxxx元。
[0246]
本实施例中，通过确定各个单元格之间的映射关系，并根据映射关系提取出所述电子发票的信息，避免单独进行电子发票信息导致的电子发票信息混乱的现象，进而提高了电子发票信息提取的准确率及效率。
[0247]
综上所述，本实施例所述的电子发票信息提取装置，通过对所述电子发票图像进行识别，对所述识别结果进行语义切分，得到所述电子发票图像的多个单元格的单元格信息，解决了一个边界框包含多个单元格的问题，提高了后续提取的电子发票信息的准确率。基于所述多个单元格的单元格信息进行标签分类，得到每个单元格的标签，避免出现不同类别的标签划分为同一个组，提高了标签分类的准确率，进而确保了每个标签的准确性。对所述电子发票图像中的每个单元格的第一目标文本信息进行归一化处理，所述归一化处理是指对每个单元格中的第一目标文本信息进行更新，确保提取后的电子发票信息为标准值，提高了电子发票信息的可读性。根据各个单元格之间的映射关系，从所述电子发票图像的多个单元格的多个第二目标文本信息中进行电子发票信息提取，避免单独进行电子发票信息导致的电子发票信息混乱的现象，进而提高了电子发票信息提取的准确率及效率。
[0248]
实施例三
[0249]
参阅图3所示，为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中，所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
[0250]
本领域技术人员应该了解，图3示出的电子设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。
[0251]
在一些实施例中，所述电子设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行
人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。
[0252]
需要说明的是，所述电子设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。
[0253]
在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述电子设备3中的电子发票信息提取装置20，并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(read-only memory，rom)、可编程只读存储器(programmable read-only memory，prom)、可擦除可编程只读存储器(erasable programmable read-only memory，eprom)、一次可编程只读存储器(one-time programmable read-only memory，otprom)、电子擦除式可复写只读存储器(electrically-erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0254]
在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(control unit)，利用各种接口和线路连接整个电子设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行电子设备3的各种功能和处理数据。
[0255]
在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
[0256]
尽管未示出，所述电子设备3还可以包括给各个部件供电的电源(比如电池)，可选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等，在此不再赘述。
[0257]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0258]
上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
[0259]
在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的电子发票信息提取装置20)、程序代码等，例如，上述的各个模块。
[0260]
所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图2中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到电子发票信息提取的目的。
[0261]
示例性的，所述程序代码可以被分割成一个或多个模块/单元，所述一个或者多个
模块/单元被存储在所述存储器31中，并由所述处理器32执行，以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如，所述程序代码可以被分割成接收和识别模块201、切分模块202、分类模块203、确定模块204、归一化处理模块205及提取模块206。
[0262]
在本发明的一个实施例中，所述存储器31存储多个计算机可读指令，所述多个计算机可读指令被所述至少一个处理器32所执行以实现电子发票信息提取的功能。
[0263]
具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0264]
在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0265]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0266]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0267]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。
[0268]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于分布式计算框架的单张场景地图内多人同屏操控方法与流程

电子发票信息提取方法、装置、电子设备及存储介质与流程

相关文献

最热文献