针对图像的信息提取方法、装置、介质及电子设备与流程

2021-10-24 10:29:00 来源：中国专利 TAG：提取图像信息电子设备介质

1.本公开涉及信息识别技术领域，具体而言，涉及一种针对图像的信息提取方法、针对图像的信息提取装置、计算机可读介质及电子设备。

背景技术：

2.对于易失性的书面文字，一般可以采用照片的方式进行记录。为了对照片中的文字进行统一管理和存储，一般需要人为手动将照片中的文字输入标准化的列表，以通过结构化信息的方式统一对照片中文字进行标准化存储。但是，人工输入信息通常会存在效率较低的问题。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.本公开实施例的目的在于提供一种针对图像的信息提取方法、针对图像的信息提取装置、计算机可读介质及电子设备，可以通过对图像的区域划分实现对于结构化信息的自动提取，提升结构化信息的提取效率。
5.本公开实施例的第一方面提供了一种针对图像的信息提取方法，该方法包括：
6.识别目标图像中的文本框，并根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线；
7.根据直线将目标图像划分为多个图像区域；
8.对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息；
9.根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
10.根据本公开实施例的第二方面，提供一种针对图像的信息提取装置，该装置包括：
11.文本框识别单元，用于识别目标图像中的文本框；
12.直线拟合单元，用于根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线；
13.图像区域划分单元，用于根据直线将目标图像划分为多个图像区域；
14.信息识别单元，用于对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息；
15.结构化信息生成单元，用于根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
16.根据本公开实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述实施例中第一方面的针对图像的信息提取方法。
17.根据本公开实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得
一个或多个处理器实现如上述实施例中第一方面的针对图像的信息提取方法。
18.根据本技术的第五方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的各种可选实现方式中提供的方法。
19.本公开实施例提供的技术方案可以包括以下有益效果：
20.在本公开的一些实施例所提供的技术方案，具体包括：识别目标图像中的文本框，并根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线；根据直线将目标图像划分为多个图像区域；对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息；根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。实施本公开的实施例，一方面，可以通过对图像的区域划分实现对于结构化信息的自动提取，提升结构化信息的提取效率。另一方面，可以基于包含关键词的目标文本框拟合出个性化匹配目标图像的直线，从而可以基于直线划分出的区域精准提取出各区域的结构化信息，提升结构化信息的提取精度。
21.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
22.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
23.图1示意性示出了可以应用本公开实施例的一种针对图像的信息提取方法及针对图像的信息提取装置的示例性系统架构的示意图；
24.图2示意性示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；
25.图3示意性示出了根据本公开的一个实施例的针对图像的信息提取方法的流程图；
26.图4示意性示出了根据本公开的一个实施例的直线划分后得到的目标图像示意图；
27.图5示意性示出了根据本公开的一个实施例的目标图像中直线距离特征的示意图；
28.图6示意性示出了根据本公开的一个实施例的目标图像中定向投影示意图；
29.图7示意性示出了根据本公开的一个实施例的目标图像中包含“不对应的字段与字段信息展示距离较近”情况的示意图；
30.图8示意性示出了根据本公开的一个实施例的目标图像中包含“数量/单位”情况的示意图；
31.图9示意性示出了根据本公开的一个实施例的目标图像中包含“多行打印”情况的示意图；
32.图10示意性示出了根据本公开的一个实施例的目标图像中包含“多行打印”情况的处理流程示意图；
33.图11示意性示出了根据本公开的一个实施例的结构化信息示意图；
34.图12示意性示出了根据本公开的一个实施例的应用图像区域规划模型的多端交互示意图；
35.图13示意性示出了根据本公开的一个实施例的针对图像的信息提取方法的流程图；
36.图14示意性示出了根据本公开的一个实施例中的针对图像的信息提取装置的结构框图。
具体实施方式
37.图1示出了可以应用本公开实施例的一种针对图像的信息提取方法及针对图像的信息提取装置的示例性应用环境的系统架构的示意图。
38.如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。其中，服务器105用于执行：识别目标图像中的文本框，并根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线；根据直线将目标图像划分为多个图像区域；对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息；根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
39.图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
40.需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
41.如图2所示，计算机系统200包括中央处理单元(cpu)201，其可以根据存储在只读存储器(rom)202中的程序或者从存储部分208加载到随机访问存储器(ram)203中的程序而执行各种适当的动作和处理。在(ram)203中，还存储有系统操作所需的各种程序和数据。(cpu)201、(rom)202以及(ram)203通过总线204彼此相连。输入/输出(i/o)接口205也连接至总线204。
42.以下部件连接至(i/o)接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至(i/o)接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。
43.特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质
211被安装。在该计算机程序被中央处理单元(cpu)201执行时，执行本技术的方法和装置中限定的各种功能。
44.需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
45.作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图3所示的各个步骤等。
46.本示例实施方式提供了一种针对图像的信息提取方法，参考图3所示，该针对图像的信息提取方法可以包括以下步骤s310至步骤s340，具体地：
47.步骤s310：识别目标图像中的文本框，并根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线。
48.步骤s320：根据直线将目标图像划分为多个图像区域。
49.步骤s330：对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息。
50.步骤s340：根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
51.实施图3所示的针对图像的信息提取方法，可以通过对图像的区域划分实现对于结构化信息的自动提取，提升结构化信息的提取效率。此外，可以基于包含关键词的目标文本框拟合出个性化匹配目标图像的直线，从而可以基于直线划分出的区域精准提取出各区域的结构化信息，提升结构化信息的提取精度。
52.下面，对于本示例实施方式的上述步骤进行更加详细的说明。
53.在步骤s310中，识别目标图像中的文本框，并根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线。
54.具体地，目标图像可以为图4～9中任一图像所示的医疗清单图像。目标图像中的
文本框包含文本信息，其中，文本框包含的文本信息可以为字段(如，“所属电子票据代码”、“所属电子票据号码”、“交款人”、“开票日期”、“项目名称”、“数量/单位”、“金额(元)”、“备注”、“小计”或“合计)，也可以为字段信息(如，“abc片剂”、“7.00”、“剂”或“5.60”)。用于对目标图像进行区域划分的直线的数量可以取决于包含字段的文本框数量，本技术中以医疗清单图像为例，可以将医疗清单图像划分为明细区域、头部区域和尾部区域，明细区域、头部区域和尾部区域即为多个图像区域。具体地，明细区域中的字段与字段信息之间为一对一关系或一对多关系，头部区域中的字段和字段信息之间为一对一关系，尾部区域中的字段和字段信息之间为一对一关系。可选的，目标图像也可以为其他图像，本技术对于目标图像被划分得到的区域数量不作限定。
55.其中，识别目标图像中的文本框，包括：基于深度学习的文字检测算法确定样本图像中各文本区域，将限定文本区域的封闭图像作为样本图像中的文本框，其中的文字检测算法可以基于现有的ctpn、east、pa
‑
net、db
‑
net等网络结构进行实现。
56.作为一种可选的实施例，根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线，包括：从文本框中确定命中预设词库中关键词的至少一类目标文本框；其中，每一类目标文本框中的目标文本框数量为至少一个；确定至少一类目标文本框中每个目标文本框的位置信息；根据位置信息确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线均用于对目标图像进行区域划分。
57.具体地，预设词库用于存储多个预限定的关键词，若目标图像中存在命中关键词的文本框，则将该文本框确定为目标文本框，每个目标文本框包含一个关键词，该关键词可以为上述的字段和/或字段信息，本技术实施例不作限定。优选地，关键词包括字段。
58.其中，目标文本框的位置信息可以包括目标文本框相对于目标图像的中心坐标和/或角坐标进行表示，目标文本框角坐标可以为左上角坐标、左下角坐标、右上角坐标或右下角坐标。
59.请参阅图4，图4示意性示出了根据本公开的一个实施例的直线划分后得到的目标图像示意图。如图4所示，目标图像中包含两类目标文本框，一类目标文本框包括：目标文本框“项目名称”、目标文本框“数量/单位”、目标文本框“金额(元)”、目标文本框“备注”；另一类目标文本框包括：目标文本框“小计”、目标文本框“26.77”。其中，通过一类目标文本框的中心点可以确定直线410，通过二类目标文本框的中心点可以确定直线420，直线410可以连接所有的一类目标文本框的中心点，直线420可以连接所有的二类目标文本框的中心点。直线410用于划分头部区域和明细区域，直线420用于划分尾部区域和明细区域。基于直线410和直线420可以将目标图像划分为头部区域、明细区域和尾部区域。
60.需要说明的是，图4～9所示的文本框并未通过“框”的形式进行显示，但是每个文本信息(如，字段或字段信息)都对应存在用于包含该信息的虚拟封闭区域，即，文本框。此外，针对图4～9，其中楷体的文本信息为图像中的原始信息，宋体的文本信息是对于楷体的文本信息的识别结果，宋体的文本信息可以显示于相应楷体的文本信息的附近(如，楷体的文本信息的下部)。
61.可见，实施该可选的实施例，能够通过关键字确定出用于划分图像区域的目标文本框，基于目标文本框的位置可以确定出划分目标图像的直线，从而便于后续的结构化信息提取，针对划分得到的各图像区域，可以有针对性进行相应的信息提取，进而有利于提升
结构化信息的提取精度和提取效率。
62.作为一种可选的实施例，根据位置信息确定每一类目标文本框对应的直线，包括：
63.根据位置信息确定类内目标文本框的中心点，并根据类内目标文本框的中心点确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线用于连接类内目标文本框的中心点；
64.或者，
65.根据位置信息确定类内目标文本框的边界斜率，并根据类内目标文本框的边界斜率确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线用于贯穿类内目标文本框，边界斜率包括上边界斜率和下边界斜率中至少一种。
66.具体地，根据位置信息确定类内目标文本框的中心点，包括：确定位置信息中用于表示目标文本框位置的左上角坐标、左下角坐标、右上角坐标或右下角坐标；根据左上角坐标、左下角坐标、右上角坐标或右下角坐标计算的目标文本框的中心点坐标，通过中心点坐标表示目标文本框的中心点。另外，根据位置信息确定类内目标文本框的边界斜率，包括：确定位置信息中用于表示目标文本框位置的左上角坐标和右上角坐标，根据左上角坐标和右上角坐标计算目标文本框的上边界斜率；或者，确定位置信息中用于表示目标文本框位置的左下角坐标和右下角坐标，根据左下角坐标和右下角坐标计算目标文本框的下边界斜率。
67.可见，实施该可选的实施例，能够公开两种确定直线的方式，根据上述方式确定出的直线能够更为精准地实现图像区域划分，从而有利于提升结构化信息的提取精度。
68.在步骤s320中，根据直线将目标图像划分为多个图像区域。
69.具体地，图像区域的数量可以为至少两个，本技术实施例不作限定。
70.在步骤s330中，对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息。
71.具体地，对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，包括：基于knn分类器对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别；其中，knn分类器依赖的是k最邻近算法(knn，k
‑
nearestneighbor)，knn算法中，每个样本都可以通过最接近的k个邻近值进行表示，k为正整数。
72.作为一种可选的实施例，对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，包括：通过预训练的分类器计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征；其中，目标图像区域为多个图像区域中任一图像区域；通过分类器计算目标图像区域中各文本框相对于目标图像区域中各字段的水平距离特征；通过分类器对目标图像区域中各文本框进行特定对象识别，得到对象识别结果；其中，特定对象包括符号如“/”、数字、字中至少一种；通过分类器对目标图像区域中各文本框进行定向投影，得到特定方向上各文本框分别对应的投影区域，将存在交集的投影区域合并得到多个融合区域；其中，多个融合区域与明细区域中各字段一一对应；将直线距离特征、水平距离特征、对象识别结果以及多个融合区域确定为目标图像区域的特征识别结果。
73.具体地，预训练的分类器可以为上述的knn分类器。其中，通过预训练的分类器计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征，包括：通过预训练的分类器目标图像中边框的底边长度/顶边长度(distance)；根据待处理文本框的中心点确
定与边框底边平行的参考线段的长度(center
‑
left)，该参考线段用于连接目标图像中边框特定点与待处理文本框的中心点，待处理文本框为目标图像区域中任一文本框；根据表达式distance_left＝(center
‑
left)/distance计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征(distance_left)。
74.其中，通过分类器计算目标图像区域中各文本框相对于目标图像区域中各字段的水平距离特征，包括：确定目标图像区域中包含字段的文本框，通过knn分类器计算在同一投影平面上的目标图像区域中各文本框对于目标图像区域中各字段的水平距离特征。例如，目标图像区域包括字段“项目名称”、字段“数量/单位”、字段“金额(元)”、字段“备注”，目标图像区域还包括字段信息“abc片剂”、字段信息“7.00/剂”、字段信息“5.00”、字段信息“s药丸”、字段信息“42.00/剂”、字段信息“21.17”，可以计算字段信息“abc片剂”、字段信息“7.00/剂”、字段信息“5.00”、字段信息“s药丸”、字段信息“42.00/剂”、字段信息“21.17”分别相对应“项目名称”、字段“数量/单位”、字段“金额(元)”、字段“备注”的水平距离特征。
75.此外，通过分类器对目标图像区域中各文本框进行定向投影，得到特定方向上各文本框分别对应的投影区域，包括：确定目标图像区域中待投影的包含字段信息的文本框，通过knn分类器对包含字段信息的文本框进行纵向投影，得到包含字段信息的文本框分别对应的投影区域。
76.可见，实施该可选的实施例，能够考虑到图像中存在的不对应的字段与字段信息展示距离较以及包含多个字段的文本框的情况，进行正确的特征识别，从而有利于提升结构化信息的提取精度。
77.请参阅图5，图5示意性示出了根据本公开的一个实施例的目标图像中直线距离特征的示意图。如图5所示，基于目标文本框“项目名称”、目标文本框“数量/单位”、目标文本框“金额(元)”、目标文本框“备注”可以确定出直线510，基于目标文本框“小计”、目标文本框“26.77”可以确定出直线520。直线510和直线520用于将目标图像划分为头部区域、明细区域和尾部区域。基于此，可以通过knn分类器计算明细区域中的文本框相对于目标图像中边框511的直线距离特征。明细区域中包含：包括“项目名称”的文本框、包括“数量/单位”的文本框、包括“金额(元)”的文本框、包括“备注”的文本框、包括“abc片剂”的文本框、包括“7.00/剂”的文本框、包括“5.00”的文本框、包括“s药丸”的文本框、包括“42.00/剂”的文本框、包括“21.17”的文本框。以包括“abc片剂”的文本框为例，可以通过knn分类器目标图像中边框的底边513的长度；根据包括“abc片剂”的文本框的中心点确定与边框底边平行的参考线段512的长度，该参考线段512用于连接目标图像中边框特定点与待处理文本框的中心点；计算参考线段512与底边513的长度比，作为包括“abc片剂”的文本框的直线距离特征。
78.请参阅图6，图6示意性示出了根据本公开的一个实施例的目标图像中定向投影示意图。如图6所示，基于目标文本框“项目名称”、目标文本框“数量/单位”、目标文本框“金额(元)”、目标文本框“备注”可以确定出直线610，基于目标文本框“小计”、目标文本框“26.77”可以确定出直线620。直线610和直线620用于将目标图像划分为头部区域、明细区域和尾部区域。基于此，可以对明细区域中包括“abc片剂”的文本框、包括“7.00/剂”的文本框、包括“5.00”的文本框、包括“s药丸”的文本框、包括“42.00/剂”的文本框、包括“21.17”的文本框进行纵向投影，得到包括“abc片剂”的文本框、包括“7.00/剂”的文本框、包括“5.00”的文本框、包括“s药丸”的文本框、包括“42.00/剂”的文本框、包括“21.17”的文本框
分别对应的投影区域，将存在交集的投影区域合并得到融合区域611、融合区域612、融合区域613、融合区域614，即，上述的多个融合区域。
79.请参阅图7，图7示意性示出了根据本公开的一个实施例的目标图像中包含“不对应的字段与字段信息展示距离较近”情况的示意图。如图7所示，基于目标文本框“项目名称”、目标文本框“数量/单位”、目标文本框“金额(元)”、目标文本框“备注”可以确定出直线710，基于目标文本框“小计”、目标文本框“26.77”可以确定出直线720。直线710和直线720用于将目标图像划分为头部区域、明细区域和尾部区域。基于此，可以通过knn分类器计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征；计算目标图像区域中各文本框相对于目标图像区域中各字段的水平距离特征；对目标图像区域中各文本框进行特定对象识别，得到对象识别结果；对目标图像区域中各文本框进行定向投影，得到特定方向上各文本框分别对应的投影区域，将存在交集的投影区域合并得到多个融合区域。从而将区域711中的文本框确定为字段“金额(元)”对应的字段信息，避免因区域711中的文本框的打印距离与字段“备注”较近而将区域711中的文本框确定为与字段“备注”对应的字段信息。
80.请参阅图8，图8示意性示出了根据本公开的一个实施例的目标图像中包含“数量/单位”情况的示意图。如图8所示，基于目标文本框“项目名称”、目标文本框“数量/单位”、目标文本框“金额(元)”、目标文本框“备注”可以确定出直线810，基于目标文本框“小计”、目标文本框“26.77”可以确定出直线820。直线810和直线820用于将目标图像划分为头部区域、明细区域和尾部区域。基于此，可以通过knn分类器计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征；计算目标图像区域中各文本框相对于目标图像区域中各字段的水平距离特征；对目标图像区域中各文本框进行特定对象识别，得到对象识别结果；对目标图像区域中各文本框进行定向投影，得到特定方向上各文本框分别对应的投影区域，将存在交集的投影区域合并得到多个融合区域。这样可以识别出“数量/单位”中字段“数量”和字段“单位”分别对应的字段信息，即，实现对于区域811中文本框的正确识别，确定正确的对应关系。避免将包含“7.00/剂”的文本框和包含“42.00/剂”的文本框确定为字段“数量”对应的字段信息或字段“单位”对应的字段信息。基于上述方式，可以正确识别出与字段“数量”对应的字段信息“7.00”和“42.00”以及与字段“单位”对应的字段信息“剂”，以提升对于结构化信息的提取精度。
81.作为一种可选的实施例，将直线距离特征、水平距离特征、对象识别结果以及多个融合区域确定为目标图像区域的特征识别结果之后，上述方法还包括：根据目标图像和各图像区域的特征识别结果训练分类器，直到分类器的损失函数收敛为止。
82.具体地，根据目标图像和各图像区域的特征识别结果训练分类器，直到分类器的损失函数收敛为止，包括：将目标图像输入分类器，以使得分类器计算各图像区域的特征识别结果，根据样本中各图像区域的特征识别结果与分类器计算出各图像区域的特征识别结果之间的损失函数对分类器进行参数调整，直到分类器的损失函数收敛为止。
83.可见，实施该可选的实施例，能够基于目标图像和各图像区域的特征识别结果对分类器进行不断地训练，从而提升分类器的分类精度。
84.作为一种可选的实施例，对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息，包括：根据各图像区域的特征
识别结果和各图像区域中的文本框确定各图像区域中相对应的参考字段和参考字段信息；对各图像区域内上下相邻的参考字段信息进行文本长度比对，得到比对结果；若比对结果表示上下相邻的参考字段信息中的上部参考字段信息的文本长度大于下部参考字段信息的文本长度，则根据上下相邻的参考字段信息对应的字段计算上下相邻的参考字段信息的融合结果的置信度以及上下相邻的参考字段信息分别对应的置信度；若所述融合结果的置信度大于上下相邻的参考字段信息分别对应的置信度，则将上下相邻的参考字段信息分别对应的文本框融合为完整文本框；根据完整文本框更新各图像区域中相对应的参考字段和参考字段信息，得到各图像区域中相对应的字段和字段信息。
85.具体地，若比对结果表示上下相邻的参考字段信息中的上部参考字段信息的文本长度小于等于下部参考字段信息的文本长度，上述方法还可以包括：判定上下相邻的参考字段信息为相互独立的参考字段信息，不需要融合。此外，若所述融合结果的置信度小于等于上下相邻的参考字段信息分别对应的置信度，上述方法还可以包括：判定上下相邻的参考字段信息为相互独立的参考字段信息，不需要融合。
86.请参阅图9，图9示意性示出了根据本公开的一个实施例的目标图像中包含“多行打印”情况的示意图。如图9所示，基于目标文本框“项目名称”、目标文本框“数量/单位”、目标文本框“金额(元)”、目标文本框“备注”可以确定出直线910，基于目标文本框“小计”、目标文本框“26.77”可以确定出直线920。直线910和直线920用于将目标图像划分为头部区域、明细区域和尾部区域。在图9所示的明细区域中，存在“多行打印”情况，即，区域911中所示的情况，包含字段信息“abcdefghhh片剂”的文本框展示为两行文本，容易被识别为包含“abcdefghh”的和包含“h片剂”的两个文本框。基于此，可以根据各图像区域的特征识别结果和各图像区域中的文本框确定各图像区域中相对应的参考字段和参考字段信息，对各图像区域内上下相邻的参考字段信息进行文本长度比对，得到比对结果，若比对结果表示上下相邻的参考字段信息中的上部参考字段信息的文本长度大于下部参考字段信息的文本长度，则根据上下相邻的参考字段信息对应的字段计算上下相邻的参考字段信息的融合结果的置信度以及上下相邻的参考字段信息分别对应的置信度，若所述融合结果的置信度大于上下相邻的参考字段信息分别对应的置信度，则将上下相邻的参考字段信息分别对应的文本框融合为完整文本框。这样就可以将识别为包含“abcdefghh”的和包含“h片剂”的两个文本框融合为包含“abcdefghhh片剂”的完整文本框，以提升对于结构化信息的提取精度。
87.请参阅图10，图10示意性示出了根据本公开的一个实施例的目标图像中包含“多行打印”情况的处理流程示意图。如图10所示，该流程示意图可以包括：步骤s1010～步骤s1050。
88.步骤s1010：根据各图像区域的特征识别结果和各图像区域中的文本框确定各图像区域中相对应的参考字段和参考字段信息。
89.步骤s1020：对各图像区域内上下相邻的参考字段信息进行文本长度比对，得到比对结果。若上下相邻的参考字段信息中的上部参考字段信息的文本长度大于下部参考字段信息的文本长度，则执行步骤s1030。若上下相邻的参考字段信息中的上部参考字段信息的文本长度小于等于下部参考字段信息的文本长度，则结束流程。
90.步骤s1030：根据上下相邻的参考字段信息对应的字段计算上下相邻的参考字段信息的融合结果的置信度以及上下相邻的参考字段信息分别对应的置信度。
91.步骤s1040：检测融合结果的置信度是否大于上下相邻的参考字段信息分别对应的置信度。如果是，则执行步骤s1050。如果否，则结束流程。
92.步骤s1050：将上下相邻的参考字段信息分别对应的文本框融合为完整文本框。
93.可见，实施该可选的实施例，能够通过对文本框的融合，避免将构成完整内容的多行文本信息识别为多个文本信息，从而避免割裂完整内容，有利于提升对于结构化信息的提取精度。
94.在步骤s340中，根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
95.具体地，根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息，包括：根据预设排版规则对各图像区域中相对应的字段和字段信息进行排布，将排布结果作为目标图像对应的结构化信息输出。
96.请参阅图11，图11示意性示出了根据本公开的一个实施例的结构化信息示意图。如图11所示，根据各图像区域中相对应的字段和字段信息生成的与目标图像对应的结构化信息可以包括：电子票据代码：123456；电子票据号码：789123；交款人：xxx；开票日期：2020年01月01日；项目明细：abc片剂
‑‑‑
7.00/剂
‑‑‑
5.60，s药丸
‑‑‑
42.00/剂
‑‑‑
21.17；小计：26.77；合计：26.77；收款单位：xxxxxx；页数：第1页。
97.请参阅图12，图12示意性示出了根据本公开的一个实施例的应用图像区域规划模型的多端交互示意图。如图12所示，应用图像区域规划模型的多端交互过程包括：客户端1210、理赔核心系统1220、理赔处理端1230；其中，理赔核心系统1220用于接收客户端1210上传的医疗清单图像，并调用分类器1221对医疗清单图像进行结构化信息提取，进而可以将分类器1221提取得到的结构化信息反馈至理赔处理端1230。客户端1210和理赔处理端1230可以为用户终端，理赔核心系统1220可以运行于服务器中，理赔核心系统1220包括可视化平台，用于接收上传的医疗清单图像以及显示提取得到的结构化信息。
98.请参阅图13，图13示意性示出了根据本公开的一个实施例的针对图像的信息提取方法的流程图。如图13所示，针对图像的信息提取方法包括：步骤s1310～步骤s1370。
99.步骤s1310：识别目标图像中的文本框，并从文本框中确定命中预设词库中关键词的至少一类目标文本框，确定至少一类目标文本框中每个目标文本框的位置信息；其中，每一类目标文本框中的目标文本框数量为至少一个。进而，执行步骤s1320或步骤s1330。
100.步骤s1320：根据位置信息确定类内目标文本框的中心点，并根据类内目标文本框的中心点确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线用于连接类内目标文本框的中心点。进而，执行步骤s1340。
101.步骤s1330：根据位置信息确定类内目标文本框的边界斜率，并根据类内目标文本框的边界斜率确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线用于贯穿类内目标文本框，边界斜率包括上边界斜率和下边界斜率中至少一种。进而，执行步骤s1340。
102.步骤s1340：根据直线将目标图像划分为多个图像区域，多个图像区域包括明细区域、头部区域和尾部区域。
103.步骤s1350：通过预训练的分类器计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征；其中，目标图像区域为多个图像区域中任一图像区域；通过分类器
计算目标图像区域中各文本框相对于目标图像区域中各字段的水平距离特征；通过分类器对目标图像区域中各文本框进行特定对象识别，得到对象识别结果；其中，特定对象包括符号、数字、字中至少一种；通过分类器对目标图像区域中各文本框进行定向投影，得到特定方向上各文本框分别对应的投影区域，将存在交集的投影区域合并得到多个融合区域；其中，多个融合区域与明细区域中各字段一一对应；将直线距离特征、水平距离特征、对象识别结果以及多个融合区域确定为目标图像区域的特征识别结果。
104.步骤s1360：根据各图像区域的特征识别结果和各图像区域中的文本框确定各图像区域中相对应的参考字段和参考字段信息；对各图像区域内上下相邻的参考字段信息进行文本长度比对，得到比对结果；若比对结果表示上下相邻的参考字段信息中的上部参考字段信息的文本长度大于下部参考字段信息的文本长度，则根据上下相邻的参考字段信息对应的字段计算上下相邻的参考字段信息的融合结果的置信度以及上下相邻的参考字段信息分别对应的置信度；若所述融合结果的置信度大于上下相邻的参考字段信息分别对应的置信度，则将上下相邻的参考字段信息分别对应的文本框融合为完整文本框；根据完整文本框更新各图像区域中相对应的参考字段和参考字段信息，得到各图像区域中相对应的字段和字段信息。
105.步骤s1370：根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
106.需要说明的是，步骤s1310～步骤s1370与图3所示的各步骤及其实施例相对应，针对步骤s1310～步骤s1370的具体实施方式，请参阅图3所示的各步骤及其实施例，此处不再赘述。
107.可见，实施图13所示的针对图像的信息提取方法，可以通过对图像的区域划分实现对于结构化信息的自动提取，提升结构化信息的提取效率。此外，可以基于包含关键词的目标文本框拟合出个性化匹配目标图像的直线，从而可以基于直线划分出的区域精准提取出各区域的结构化信息，提升结构化信息的提取精度。
108.进一步的，本示例实施方式中，还提供了一种针对图像的信息提取装置，参考图14所示，该针对图像的信息提取装置1400，可以包括：
109.文本框识别单元1401，用于识别目标图像中的文本框；
110.直线拟合单元1402，用于根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线；
111.图像区域划分单元1403，用于根据直线将目标图像划分为多个图像区域；
112.信息识别单元1404，用于对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息；
113.结构化信息生成单元1405，用于根据各图像区域中相对应的字段和字段信息生成与目标图像对应的结构化信息。
114.其中，多个图像区域包括明细区域、头部区域和尾部区域，明细区域中的字段与字段信息之间为一对一关系或一对多关系，头部区域中的字段和字段信息之间为一对一关系，尾部区域中的字段和字段信息之间为一对一关系。
115.可见，实施图14所示的针对图像的信息提取装置，可以通过对图像的区域划分实现对于结构化信息的自动提取，提升结构化信息的提取效率。此外，可以基于包含关键词的
目标文本框拟合出个性化匹配目标图像的直线，从而可以基于直线划分出的区域精准提取出各区域的结构化信息，提升结构化信息的提取精度。
116.在本公开的一种示例性实施例中，直线拟合单元1402根据文本框中包含关键词的目标文本框拟合用于对目标图像进行区域划分的直线，包括：
117.从文本框中确定命中预设词库中关键词的至少一类目标文本框；其中，每一类目标文本框中的目标文本框数量为至少一个；
118.确定至少一类目标文本框中每个目标文本框的位置信息；
119.根据位置信息确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线均用于对目标图像进行区域划分。
120.可见，实施该可选的实施例，能够通过关键字确定出用于划分图像区域的目标文本框，基于目标文本框的位置可以确定出划分目标图像的直线，从而便于后续的结构化信息提取，针对划分得到的各图像区域，可以有针对性进行相应的信息提取，进而有利于提升结构化信息的提取精度和提取效率。
121.在本公开的一种示例性实施例中，直线拟合单元1402根据位置信息确定每一类目标文本框对应的直线，包括：
122.根据位置信息确定类内目标文本框的中心点，并根据类内目标文本框的中心点确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线用于连接类内目标文本框的中心点；
123.或者，
124.根据位置信息确定类内目标文本框的边界斜率，并根据类内目标文本框的边界斜率确定每一类目标文本框对应的直线；其中，每一类目标文本框对应的直线用于贯穿类内目标文本框，边界斜率包括上边界斜率和下边界斜率中至少一种。
125.可见，实施该可选的实施例，能够公开两种确定直线的方式，根据上述方式确定出的直线能够更为精准地实现图像区域划分，从而有利于提升结构化信息的提取精度。
126.在本公开的一种示例性实施例中，信息识别单元1404对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，包括：
127.通过预训练的分类器计算目标图像区域中的文本框相对于目标图像中边框的直线距离特征；其中，目标图像区域为多个图像区域中任一图像区域；
128.通过分类器计算目标图像区域中各文本框相对于目标图像区域中各字段的水平距离特征；
129.通过分类器对目标图像区域中各文本框进行特定对象识别，得到对象识别结果；其中，特定对象包括符号、数字、字中至少一种；
130.通过分类器对目标图像区域中各文本框进行定向投影，得到特定方向上各文本框分别对应的投影区域，将存在交集的投影区域合并得到多个融合区域；其中，多个融合区域与明细区域中各字段一一对应；
131.将直线距离特征、水平距离特征、对象识别结果以及多个融合区域确定为目标图像区域的特征识别结果。
132.可见，实施该可选的实施例，能够考虑到图像中存在的不对应的字段与字段信息展示距离较以及包含多个字段的文本框的情况，进行正确的特征识别，从而有利于提升结
构化信息的提取精度。
133.在本公开的一种示例性实施例中，上述装置还包括：
134.分类器训练单元(未图示)，用于在信息识别单元1404将直线距离特征、水平距离特征、对象识别结果以及多个融合区域确定为目标图像区域的特征识别结果之后，根据目标图像和各图像区域的特征识别结果训练分类器，直到分类器的损失函数收敛为止。
135.可见，实施该可选的实施例，能够基于目标图像和各图像区域的特征识别结果对分类器进行不断地训练，从而提升分类器的分类精度。
136.在本公开的一种示例性实施例中，信息识别单元1404对多个图像区域中各图像区域的文本框进行字段识别和字段信息识别，得到各图像区域中相对应的字段和字段信息，包括：
137.根据各图像区域的特征识别结果和各图像区域中的文本框确定各图像区域中相对应的参考字段和参考字段信息；
138.对各图像区域内上下相邻的参考字段信息进行文本长度比对，得到比对结果；
139.若比对结果表示上下相邻的参考字段信息中的上部参考字段信息的文本长度大于下部参考字段信息的文本长度，则根据上下相邻的参考字段信息对应的字段计算上下相邻的参考字段信息的融合结果的置信度以及上下相邻的参考字段信息分别对应的置信度；
140.若所述融合结果的置信度大于上下相邻的参考字段信息分别对应的置信度，则将上下相邻的参考字段信息分别对应的文本框融合为完整文本框；
141.根据完整文本框更新各图像区域中相对应的参考字段和参考字段信息，得到各图像区域中相对应的字段和字段信息。
142.可见，实施该可选的实施例，能够通过对文本框的融合，避免将构成完整内容的多行文本信息识别为多个文本信息，从而避免割裂完整内容，有利于提升对于结构化信息的提取精度。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

针对图像的信息提取方法、装置、介质及电子设备与流程

相关文献

最热文献