信息识别方法、装置、设备和存储介质与流程

2022-08-31 02:56:51 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，尤其涉及一种信息识别方法、装置、设备和存储介质。

背景技术：

2.传统的财务报销方法主要是报销人员将各种卡证、票据线下交给财务人员，由财务人员人工地完成报销信息的审核、录入和结算，浪费了大量的人力和时间，效率较低。
3.随着人工智能和云计算技术发展，智能化办公已经走进越来越多的企业。财务报销作为智能化办公的重要组成部分，可以基于光学字符识别(optical character recognition，简称ocr)技术自动地识别出卡证、票据中的相关文字信息，实现相关文字信息的电子化录入。
4.受很多因素影响，文字信息识别结果的准确度并不十分可靠，如果录入不准确的文字信息，将会导致报销结果的错误。

技术实现要素：

5.本发明实施例提供一种信息识别方法、装置、设备和存储介质，能够帮助用户快速定位出文字信息识别结果中可能存在的错误。
6.第一方面，本发明实施例提供一种信息识别方法，该方法包括：
7.在界面的第一显示区域内显示目标对象的图像；
8.确定所述图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述目标对象中的不同字段；
9.在所述界面的第二显示区域内，输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息。
10.第二方面，本发明实施例提供一种信息识别装置，该装置包括：
11.显示模块，用于在界面的第一显示区域内显示目标对象的图像；
12.检测模块，用于确定所述图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述目标对象中的不同字段；
13.所述显示模块，还用于在所述界面的第二显示区域内，输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息。
14.第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，存储器上存储有可执行代码，当所述可执行代码被处理器执行时，使处理器至少可以实现如第一方面所述的信息识别方法。
15.第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使处理器至少可以实现如第一方面所述的信息识别方法。
16.第五方面，本发明实施例提供一种信息识别方法，该方法包括：
17.接收用户设备调用目标服务接口的请求，所述请求中包括目标对象的图像；
18.利用所述目标服务接口对应的处理资源执行如下步骤：
19.确定所述图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述目标对象中的不同字段；
20.将所述至少一个信息结构体发送至所述用户设备，以使所述用户设备在界面的第一显示区域内显示所述图像以及在第二显示区域内输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息。
21.第六方面，本发明实施例提供一种信息识别方法，该方法包括：
22.获取表单图像；
23.确定所述表单图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述表单图像中的不同字段；
24.输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息，以供用户根据所述标记信息和所述至少一个信息结构体完成所述表单图像的信息录入处理。
25.第七方面，本发明实施例提供一种信息识别方法，该方法包括：
26.获取包含商品信息的图像；
27.确定所述图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述图像中的不同字段；
28.输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息，以供用户根据所述标记信息和所述至少一个信息结构体核对已录入的商品信息。
29.第八方面，本发明实施例提供一种信息识别方法，该方法包括：
30.获取病历图像；
31.确定所述病历图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述病历图像中的不同字段；
32.输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息，以供用户根据所述标记信息和所述至少一个信息结构体筛选出符合要求的病历图像。
33.第九方面，本发明实施例提供一种信息识别方法，该方法包括：
34.获取教学图像；
35.确定所述教学图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述教学图像中的不同字段；
36.输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息，以供用户根据所述标记信息和所述至少一个信息结构体筛选出符合要求的教学图像。第十方面，本发明实施例提供一种信息识别方法，该方法包括：
37.获取包含卡证和/或票据的报销图像；
38.确定所述报销图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述报销图像中的不同字段；
39.输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息，以供用户根据所述标记信息和所述至少一个信息结构体完成报销处理。
40.在本发明实施例中，在接收到包含目标对象(比如某种卡证、票据)的图像时，对该
图像进行文字信息识别，以得到目标对象包含的至少一个信息结构体及该至少一个信息结构体各自对应的标记信息，其中，每个信息结构体对应于所述目标对象中的不同字段，比如每个信息结构体中包括字段属性、字段位置和字段内容。最终，输出识别出的至少一个信息结构体和每个信息结构体对应的标记信息，这样，用户可以基于每个信息结构体对应的标记信息快速查看到各个信息结构体，以便可以对识别错误的信息结构体进行纠正，以保证最终识别结果的准确性。
附图说明
41.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1为本发明实施例提供的一种图像和信息结构体的示意图；
43.图2为本发明实施例提供的一种信息识别方法的流程图；
44.图3为本发明实施例提供的信息结构体的显示效果的示意图；
45.图4为本发明实施例提供的另一种信息识别方法的流程图；
46.图5为本发明实施例提供的信息结构体识别过程的流程图；
47.图6为本发明实施例提供的板式信息的示意图；
48.图7为本发明实施例提供的信息结构体的识别过程示意图；
49.图8为本发明实施例提供的信息结构体的显示效果的示意图；
50.图9为本发明实施例提供的另一种信息识别方法的流程图；
51.图10为本发明实施例提供的一种信息识别方法的应用示意图；
52.图11为本发明实施例提供的另一种信息识别方法的流程图；
53.图12为本发明实施例提供的另一种信息识别方法的流程图；
54.图13为本发明实施例提供的另一种信息识别方法的流程图；
55.图14为本发明实施例提供的另一种信息识别方法的流程图；
56.图15为本发明实施例提供的另一种信息识别方法的流程图；
57.图16为本发明实施例提供的一种信息识别装置的结构示意图；
58.图17为与图16所示实施例提供的信息识别装置对应的电子设备的结构示意图。
具体实施方式
59.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
60.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。
61.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
62.另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
63.本发明实施例提供的信息识别方法可以由一电子设备来执行，该电子设备可以是诸如pc机、笔记本电脑、智能手机等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云端的服务器或服务器集群。
64.本发明实施例提供的信息识别方法可以用于对一张图像中包含的各对象进行文字信息识别，并结构化输出识别到的文字信息。另外，由于在文字信息自动识别过程中，可能会存在一些文字信息识别结果出错的现象，为了让用户能够更快速便捷地定位出可能出错的文字信息识别结果，在结构化输出文字信息的同时，还可以同时输出文字信息对应的标记信息，这样用户可以根据不同识别结果对应的标记信息来快速聚焦、审核各识别结果的准确性。
65.其中，这里所说的结构化输出文字信息是指以键值对的形式输出从输入图像中识别到的一组组文字信息，亦即输出识别出的各个信息结构体。
66.以输入的待识别的图像是目标对象的图像为例，目标对象比如是一个卡证、票据、报表、商品宣传单，等等。目标对象中实际上会包括多个字段，本文中所说的每个信息结构体对应于目标对象中的不同字段。在对该图像进行信息识别的过程中，需要提取出每个字段的相关信息，可以将每个字段的相关信息以结构体的形式来表示，由此可见，一个信息结构体用以表示目标对象中包含的一个字段。另外，通过信息结构体，也可以将图像格式的数据(输入的是图像数据)转换为文字格式的数据(信息结构体是文字格式)，以便于用户后续对文字格式的数据进行诸如编辑、信息录入等操作。
67.实际应用中，每个信息结构体由一组对应的字段属性、字段位置和字段内容组成。其中，可以认为字段属性、字段位置属于键(key)，字段内容属于键值(value)。由于一个信息结构体是用于表示目标对象中的一个字段的，为能够准确地表示一个字段，本发明实施例中采用上述三种信息来表示一个字段。假设目标对象中包括字段x，字段位置即为字段x在图像中的像素位置，在对图像进行信息结构体识别的过程中会自动输出该字段位置。字段内容，顾名思义就是字段x处实际填充的文字内容，在进行信息结构体识别的过程中通过文字识别处理自动得到。由于本发明实施例中假设目标对象具有固定板式，因此目标对象这一类对象中各个字段都具有特定的物理含义，而该物理含义可以以自动属性来表示，换言之，字段属性用于描述字段内容的物理含义。
68.信息结构体可以表示为如下格式：[字段位置，字段属性，字段内容]，通过该信息结构体便可以得知在目标对象的图像中的某个位置处具有一个字段，该字段的内容是什么以及该字段的物理含义是什么。
[0069]
为便于理解，结合图1来示例性一种图像的组成以及信息结构体的含义。
[0070]
在图1中，假设一张图像中包括图中示意的身份证和火车票，即对某用户的身份证和火车票一起进行拍照得到一张图像，对这张图像进行文字信息识别的目的是提取出身份证图像区域中包括的各个信息结构体以及火车票图像区域中包括的各个信息结构体。
[0071]
基于图1中的假设，身份证图像区域中识别出的信息结构体可以包括但不限于：
[0072]
[l1，姓名，张某某]，[l2，出生日期，1990年9月20日]，[l3，住址，某市某区某小区]。
[0073]
其中，“l1”表示姓名字段在身份证图像区域中对应的字段位置，“姓名”为字段属性(或者说字段类别、字段名称)，“张某某”表示字段内容。
[0074]
同理，“l2”、“l3”分别表示出生日期字段和住址字段在身份证图像区域中对应的字段位置。
[0075]
类似地，火车票图像区域中识别出的信息结构体可以包括但不限于：
[0076]
[l4，起始站，广州东站]，[l5，终点站，北京南站]，[l6，票价，500元]。
[0077]
如图1中所示，基于上述信息结构体的识别结果，可以在界面上分别输出身份证图像区域和火车票图像区域各自对应的文字识别结果。具体地，如图1中所示，比如在显示从身份证图像区域识别的多个信息结构体时，可以根据这多个信息结构体中包含的字段位置，确定多个信息结构体的位置关系，基于该位置关系，在界面上显示出多个信息结构体中各自包括的字段属性和字段内容。其中，多个信息结构体的位置关系即为：一个信息结构体相对其他信息结构体的位置关系，比如图1中示意的“出生日期”这个信息结构体位于“姓名”这个信息结构体的下方某处。
[0078]
实际应用中，在得到上述信息结构体后，可以记录下每个信息结构体中包含的字段属性、字段内容，以备后续使用。比如，在财务报销场景中，可以将从图像中的各卡证、票据中识别出的信息结构体录入到报销系统中，以便于后续财务人员进行相关报销处理。
[0079]
图1中示意的是对输入图像进行文字信息识别处理后，得到的都是正确的文字信息识别结果的情形，但是，实际应用中，无法保证识别结果完全正确可靠，因此，可以显示出识别结果，以便进行人工审核、纠错，以保证最终得到的文字信息是准确的。
[0080]
下面结合以下实施例对本文提供的信息识别方法的执行过程进行示例性说明。
[0081]
图2为本发明实施例提供的一种信息识别方法的流程图，如图2所示，该方法包括如下步骤：
[0082]
201、在界面的第一显示区域内显示目标对象的图像。
[0083]
202、确定图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于目标对象中的不同字段。
[0084]
203、在界面的第二显示区域内，输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息。
[0085]
本发明实施例中，输入的图像可以是包括至少一个对象的图像，每个对象中可以包括多个字段。上述目标对象可以是这至少一个对象中的任一个，目标对象中包括多个字段。
[0086]
实际应用中，可以对至少包含目标对象的至少一个对象一起进行拍照，以得到上述目标对象的图像。在不同应用场景中，目标对象是不同的。比如，在报销场景中，目标对象可以是一个或几个卡证、票据。比如在医疗场景中，目标对象可以是电子病历。比如在电商场景中，目标对象可以是商品宣传单。
[0087]
实际应用中，在不同应用场景中，用户可能会具有提取出目标对象的图像中包含的文字信息的需求，此时，用户在得到目标对象的图像后，可以采用本发明实施例提供的方
法，得到该图像中包含的文字信息，即至少一个信息结构体，并可以快速完成对提取到的文字信息的审核。
[0088]
为便于用户对识别结果的审核，可以在用户设备的界面上同时显示识别前的初始输入图像以及识别结果，其中，初始输入图像即为目标对象的图像，识别结果即为识别得到的至少一个信息结构体和至少一个信息结构体各自对应的标记信息。
[0089]
其中，信息结构体的识别过程可以通过预先训练好的网络模型来识别得到，具体识别过程将在下文进行详细说明。
[0090]
可选地，信息结构体对应的标记信息可以根据在识别信息结构体的过程中得到的信息结构体的置信度来确定。或者，可选地，信息结构体对应的标记信息也可以根据信息结构体中包含的字段位置、字段属性来确定。或者，可以随机确定不同信息结构体对应的标记信息。
[0091]
其中，根据信息结构体中包含的字段位置、字段属性来确定，核心思想就是不同信息结构体对应的标记信息不同。比如，可以让位置相邻的字段具有不同的标记信息以在视觉上容易区分相邻的字段。再比如，可以另不同字段属性的字段具有不同的标记信息，以区分不同的字段。
[0092]
为便于理解，结合图3来对本实施例的执行过程进行示例性说明。
[0093]
如图3所示，假设目标对象的图像是一张包括火车票和出租车票的图像，此时，目标对象包括火车票和出租车票。可以在用户设备的界面的第一显示区域内显示出初始输入的该图像，即包括火车票和出租车票的图像。
[0094]
在图3中，以识别火车票中包含的信息结构体为例，假设得到了图3中第二显示区域内示意的多个信息结构体。那么可以根据这多个信息结构体中记录的字段位置，保持不同信息结构体间的相对位置关系不变，在第二显示区域内，以键值对的形式分别显示出每个信息结构体内记录的字段属性和字段内容。同时，根据每个信息结构体对应的标记信息，在对应的字段属性和/或字段内容的显示区域添加该标记信息，图3中，以不同的线条表示不同的标记信息。
[0095]
实际应用中，标记信息的表现形式可以包括颜色、图形、符号等多种形式。
[0096]
基于不同信息结构体各自对应的标记信息，可以让用户聚焦、区分不同的信息结构体，与输入图像中对应的各个字段进行对比，可以得知信息结构体的识别结果是否正确，对识别错误的信息结构体进行纠正。
[0097]
如前文所述，信息结构体对应的标记信息反映出信息结构体内包含信息的可信度，使得用户可以聚焦于可信度低的信息结构体的审核，而对于可信度高的信息结构体，用户可以选择信任前述模型的识别结果。这样，当接收到用户根据各信息结构体对应的标记信息针对目标信息结构体触发的编辑操作时，执行该编辑操作，以实现对目标信息结构体的纠错。其中，目标信息结构体是获得的多个信息结构体中的任一个，一般地，用户会针对可信度低的信息结构体触发编辑操作，因此，目标信息结构体一般会是可信度低的信息结构体。上述编辑操作往往是纠正字段内容和字段属性的操作。
[0098]
在另一可选实施例中，如果一张图像中包括很多个对象都是需要进行文字信息识别处理的，且每个对象中需要识别的字段数量比较多，那么最终得到的信息结构体的数量也是很多的，如果靠用户完全人工地逐个核对各个信息结构体的正确性，显然会比较耗时
耗力。
[0099]
为此，在本发明实施例提供的信息识别方案中，可以协助用户快速定位到可信度比较低的信息结构体，使得用户可以聚焦于该可信度比较低的信息结构体所对应的字段内容的审核，而跳过可信度比较高的信息结构体所对应字段内容的审核，提高效率。为此，在识别图像中包含的至少一个信息结构体的同时，还需要得到每个信息结构体的置信度，以基于该置信度确定每个信息结构体对应的标记信息，通过该标记信息反映对应的信息结构体的可信度。这样，用户可以聚焦于可信度比较低的文字信息识别结果，对其进行审核、校正。
[0100]
图4为本发明实施例提供的另一种信息识别方法的流程图，如图4所示，该方法包括如下步骤：
[0101]
401、在目标对象的图像中确定目标对象包含的至少一个信息结构体及至少一个信息结构体各自对应的置信度，每个信息结构体中包括字段属性、字段位置和字段内容。
[0102]
其中，信息结构体的置信度用以反映该信息结构体的识别结果的准确度或者说可信度。比如，假设某信息结构体为[l1,起始站，广州东站]，那么这个信息结构体对应的置信度可以反映目标对象的图像中确实包含这个信息结构体的概率是多少。
[0103]
402、根据至少一个信息结构体各自对应的置信度，确定至少一个信息结构体各自对应的标记信息。
[0104]
403、输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息。
[0105]
本发明实施例中，目标对象的图像可以是包括至少一个对象的图像，上述目标对象可以是这至少一个对象中的任一个，每个对象中可以包括多个字段。
[0106]
比如在财务报销场景中，目标对象的图像中可以包括至少一个卡证和/或票据，也就是说，上述至少一个对象可以是至少一个卡证和/或票据。
[0107]
在不同的应用场景中，当同一张图像中包含多个对象时，同一张图像中包含的这多个对象的类型往往不完全相同。
[0108]
实际应用中，用户可以将所需用到的卡证、票据(比如身份证、火车票、出租车票、飞机票、发票)摆放在一起进行拍照得到一张图像，将该图像提供给相关工作人员(如财务人员)，相关工作人员将该图像输入到提供有本发明实施例提供的信息识别方法的功能模块中，以获得该功能模块的输出结果，简单来说，该输出结果即为带有标记信息的各个信息结构体。进而，相关工作人员基于标记信息定位出可信度较低的信息结构体，对该信息结构体中包括的字段内容的准确性进行确认。上述功能模块可以是用户终端本地的一个应用程序(app)，或者是一个app中的一个功能模块，也可以是云端提供的一种服务，用户调用该服务对应的调用接口，将图像上传至云端，并接收云端反馈的识别结果：至少一个信息结构体及该至少一个信息结构体各自对应的置信度。
[0109]
下面先具体说明确定目标对象包含的至少一个信息结构体及该至少一个信息结构体各自对应的置信度的过程，如图5所示，可以包括如下步骤：
[0110]
501、通过对象检测模型在图像中识别出目标对象对应的类别和目标对象在图像中的位置区域。
[0111]
502、将根据所述位置区域截取出的目标图像区域输入到文字识别模型，以通过文字识别模型识别出至少一组文字识别结果以及每组文字识别结果中字段位置的置信度和
字段内容的置信度，每组文字识别结果中包括字段位置和字段内容。
[0112]
503、将目标图像区域以及至少一组文字识别结果输入到与目标对象的类别对应的板式识别模型，以通过板式识别模型输出至少一个信息结构体，以及字段属性与字段内容间对应关系的置信度，每个信息结构体中包括字段属性、字段位置和字段内容。
[0113]
由此可见，本发明实施例中需要使用到如下三个模型：对象检测模型、文字识别模型以及板式识别模型。
[0114]
实际应用中，从结构上说，这三种模型都可以实现为神经网络模型，比如卷积神经网络(convolutional neural network，简称cnn)模型；残差网络(residual network，简称resnet)模型，如resnet-18，dla-34模型，等等。
[0115]
概括来说，对象检测模型用于检测其输入图像中各对象的类别和位置，文字识别模型(基于ocr技术得到的模型)用于识别其输入图像中各字段位置和字段内容，板式识别模型用于识别其输入图像中的字段位置和字段属性。
[0116]
其中，板式识别模型是用于识别其输入图像中包含的板式信息的，该板式信息反映的是输入图像中的各字段位置及其对应的字段属性。举例来说，比如火车票、发票、出租车票等卡证、票据都是具有比较固定的板式信息的，与某种卡证或票据对应的板式识别模型，即用于学习该卡证、票据的板式信息，使其具有提取该卡证、票据的板式信息的能力。
[0117]
举例来说，以图6中示意的火车票为例，火车票对应的板式信息可以是火车票中包含的多个字段的字段属性及字段位置，在图6中，字段位置以黑色矩形图形来表示，字段属性以每个字段位置处关联的属性标签来表示，包括图6中示意的始发站、终点站、车次、座位号、出发日期、票价，等等。其中，实际应用中，字段位置可以以矩形图形的四个顶点的像素坐标来表示，坐标系如图6中所示。
[0118]
为便于理解，结合图7中所示意的图像来说明图5所示实施例的执行过程。在图7中，假设输入图像中包括一个火车票以及一个出租车票，此时，前文中的目标对象可以分别是该火车票和出租车票。将该图像输入到对象检测模型后，对象检测模型对输入图像中包括的对象类别以及对象位置进行识别，从而得到识别结果：输入图像中包括两类对象，一类为火车票，另一类为出租车票，火车票在输入图像中对应的位置区域为图7中示意的区域q1，出租车票在输入图像中对应的位置区域为图7中示意的区域q2。
[0119]
之后，可以根据区域q1和区域q2分别截取出火车票图像区域和出租车票图像区域，调用文字识别模型分别对火车票图像区域和出租车票图像区域进行文字识别处理，这样可以得到火车票图像区域中包含的各个字段位置以及每个字段位置处的字段内容，以及得到出租车票图像区域中包含的各个字段位置以及每个字段位置处的字段内容，识别结果如图7中所示。
[0120]
值得说明的是，以火车票图像区域为例，文字识别模型在对火车票图像区域进行文字识别的过程中，一方面会输出火车票图像区域内包含的各字段位置及每个字段位置处的字段内容，另一方面也会输出每个字段位置的置信度以及每个字段内容的置信度。其中，某字段位置的置信度反映的是该位置处确实有文字的概率，字段内容的置信度反映的是在字段位置处存在的文字确实是识别出的字段内容的概率。
[0121]
之后，如果已经训练有与火车票这类对象对应的板式识别模型m1，则将火车票图像区域以及文字识别模型从火车票图像区域中识别出的字段位置、字段内容输入到板式识
别模型m1中，板式识别模型m1输出火车票图像区域中包括的各个信息结构体，每个信息结构体的组成为：[字段位置、字段属性、字段内容]，针对火车票图像区域的识别结果如图7中所示。另外，板式识别模型m1还会输出每个信息结构体中字段属性与字段内容对应关系的置信度，该置信度反映的是一个信息结构体内的字段属性与字段内容匹配的概率。实际上，该置信度可以认为即为板式识别模型m1的输出结果所对应的置信度，该输出结果即为信息结构体。
[0122]
假设将火车票图像区域输入到文字识别模型后，文字识别模型从中识别出字段位置li及其对应的字段内容si(这里仅以一个字段为例，实际上会识别出所有字段的位置和内容),将火车票图像区域、字段位置li及字段内容si输入到板式识别模型m1后，字段内容si会透传输出，板式识别模型m1基于已经学习到的火车票的板式信息在火车票图像区域中识别出字段位置li'及其对应的字段属性ci，以及该识别结果对应的置信度，假设表示为pa。板式识别模型m1还可以基于字段位置li与字段位置li'的距离确定这两个位置对应的是同一个字段的置信度，假设表示为pb。如果发现字段位置li与字段位置li'对应，即可以认为两者对应的是同一个字段，那么由此可以得到字段位置li'、字段属性ci、字段内容si构成的一个信息结构体，即得到字段属性ci与字段内容si的对应关系。该对应关系的置信度可以根据pa和pb确定，比如两者的乘积。
[0123]
实际上，如图7中所示，文字识别模型输出的某个字段位置l1，与板式识别模型m1输出的字段位置l1'实际上是对应于同一个字段的，其他字段位置同理。可以认为是板式识别模型m1基于文字识别模型输出的字段位置l1的辅助，输出更加准确的字段位置l1'。实际上，文字识别模型输出的火车票图像区域中包括的各字段位置和每个字段位置对应的字段内容，可以反映出火车票图像区域中不同字段位置，以及不同字段位置之间的相对位置关系，结合每个字段位置对应的字段内容，可以进一步反映出不同字段位置之间的语义关系，将文字识别模型的上述输出结果输入到板式识别模型m1中，可以使得板式识别模型m1基于各字段位置、不同字段位置之间的相对位置关系、不同字段位置处的字段内容之间的语义信息，更为准确地输出从火车票图像区域中识别到的板式信息：某种属性的字段在什么位置处，其字段内容是什么，亦即是各个信息结构体。
[0124]
同理，如果已经训练有与出租车票这类对象对应的板式识别模型m2，则将出租车票图像区域以及文字识别模型从出租车票图像区域中识别出的字段位置、字段内容输入到板式识别模型m2中，板式识别模型m2的输出结果如图7中所示。
[0125]
由此可知，每种对象类别对应有一种板式识别模型。
[0126]
可以理解的是，对象检测模型被训练成具有识别多种对象类别的能力，当对象检测模型在检测输入图像中都包括什么类别的对象时，如果发现无法识别出其中某个对象x的类别，说明在对象检测模型的训练阶段，并未针对该类别对对象检测模型进行训练。当对象检测模型、文字识别模型和板式识别模型作为一个整体被使用时，当对象检测模型无法识别出对象x的类别时，可以认为与对象x的类别相对应的板式识别模型也不存在，需要训练一个与对象x的类别相对应的板式识别模型。板式识别模型的训练过程将在后续其他实施例中介绍。
[0127]
在本发明实施例中，对象检测模型可以采用现有的可以用于识别一张图像中包含的多个对象的检测模型。文字识别模型也可以采用现有的可以进行文字识别的模型。
[0128]
在通过上述方式得到图像中目标对象包含的至少一个信息结构体以及每个信息结构体对应的置信度后，可以根据该至少一个信息结构体各自对应的置信度，确定该至少一个信息结构体的标记信息。由上文描述可知，一个信息结构体对应的置信度，可以由该信息结构体中字段位置的置信度、字段内容的置信度以及字段属性与字段内容之间对应关系的置信度来决定。
[0129]
值得说明的是，包括本发明实施例提供的对象检测模型、文字识别模型和板式识别模型在内的各种机器学习模型、神经网络模型，在其工作过程中，都可以输出某种结果以及这种结果对应的置信度，只是，本发明实施例中，为了能够最终获得准确的信息识别结果，提高信息审核、录入效率，还需基于特定某些模型输出的置信度(即上文中提到的几种置信度)，进行标记信息的确定。
[0130]
具体地，针对从图像中识别得到的任一信息结构体i，可以根据如下至少一种置信度，确定该信息结构体i的置信度p：
[0131]
信息结构体i中字段位置的置信度p1，信息结构体i中字段内容的置信度p2，信息结构体i中字段属性与字段内容间对应关系的置信度p3。
[0132]
也就是说，可以根据上述三种置信度p1、p2、p3来确定信息结构体i的置信度p。
[0133]
可选地，可以根据预设的置信度权重，确定信息结构体i的置信度p，其中，置信度权重包括如下至少一种：与字段位置的置信度对应的第一权重a1，与字段内容的置信度对应的第二权重a2，与字段属性与字段内容间对应关系的置信度对应的第三权重a3。
[0134]
具体地，可以确定信息结构体i的置信度p为：p＝a1*p1 a2*p2 a3*p3。
[0135]
实际应用中，上述三个权重是与三种置信度分别对应的预设值，可选地，可以设置第三权重a3大于或等于第二权重a2，第二权重a2大于或等于第一权重a1。或者，也可以设置第三权重a3大于第二权重a2，第三权重a3大于第一权重a1。之所以这样设置，是因为越晚得到的置信度(即越靠近最终输出的置信度)，对最终输出结果的影响越大。
[0136]
以上举例的是一个信息结构体i的置信度同时考虑上述三种置信度p1、p2、p3，实际上，也可以使用这三种置信度中的部分。
[0137]
在得到信息结构体i的置信度后，根据该置信度，确定信息结构体i对应的标记信息。
[0138]
概括来说，可以预先设定不同的置信度取值范围与标记信息之间的对应关系，根据信息结构体i的置信度所落入的取值范围，确定信息结构体i对应的标记信息。
[0139]
比如，可选地，可以预先设定两个阈值：第一预设阈值和第二预设阈值，第二预设阈值大于第一预设阈值。通过这两个阈值，确定三个置信度取值范围：小于第一预设阈值的范围：(0，第一预设阈值)，由第一预设阈值和第二预设阈值构成的范围：[第一预设阈值，第二预设阈值]，大于第二预设阈值的范围：(第二预设范围，1)。
[0140]
从而，可选地，以上述任一信息结构体i来说，若信息结构体i的置信度小于第一预设阈值，则确定信息结构体i对应的标记信息为第一标记信息；若信息结构体i的置信度在第一预设阈值与第二预设阈值之间，则确定信息结构体i对应的标记信息为第二标记信息；若信息结构体i的置信度大于第三预设阈值，则确定信息结构体i对应的标记信息为第三标记信息。
[0141]
可选地，上述第一标记信息、第二标记信息和第三标记信息可以是不同颜色，比如
第一标记信息为绿色，第二标记信息为黄色，第三标记信息为红色。
[0142]
当然，可选地，标记信息的表现形式还可以采用其他形式，不限于颜色，比如不同的图形、符号，等等。
[0143]
本发明实施例中，一个信息结构体对应的标记信息用于反映该信息结构体的可信度，简单来说就是反映信息结构体中所包含的字段属性、字段内容、字段位置的识别结果是否准确。
[0144]
以上介绍了信息结构体i的标记信息的确定过程，基于该确定过程，可以得到从目标对象对应的目标图像区域中识别出的多个信息结构体各自对应的标记信息，在得到多个信息结构体各自对应的标记信息后，输出多个信息结构体及多个信息结构体各自对应的标记信息。换言之，根据多个信息结构体各自对应的标记信息输出多个信息结构体。其中，标记信息会影响信息结构体的视觉特征，比如某个信息结构体对应的标记信息为红色，则该信息结构体的显示区域会被渲染成红色背景或以红色高亮显示。这样，用户可以根据每个信息结构体的颜色来确定其可信度，比如红色的可信度最低，绿色的可信度最高。针对可信度低的信息结构体，对比原始的输入图像，审核信息结构体内字段内容、字段属性的正确性，在不正确时及时纠正。
[0145]
为便于理解，针对图7中示意的火车票，结合图8来示例性说明信息结构体的显示结果。
[0146]
如图8所示，可选地，可以在界面的第一显示区域内显示出初始输入的图像，即包括火车票和出租车票的图像。由于对象检测模型对该输入的图像进行检测时会得到图像中包括的各个对象(本举例中为火车票和出租车票)的位置区域，因此，在第一显示区域内还可以显示一个选框(图8中示意的加粗选框)，以及控制该选框的控件：图中示意的具有上一个、下一个字样的按钮。该选框用于根据对象检测模型输出的各个对象的位置区域来框定一个对象，控件用于控制选框的移动，使得选框在不同对象之间切换。
[0147]
在界面的第二显示区域内可以显示出当前被框定的对象的文字信息识别结果：各个信息结构体以及每个信息结构体对应的标记信息。
[0148]
在图8中，假设当前选框选定的是火车票，并假设从火车票图像区域内识别到图7中示意的多个信息结构体，那么可以根据这多个信息结构体中记录的字段位置，保持不同信息结构体间的相对位置关系不变，在第二显示区域内，以键值对的形式分别显示出每个信息结构体内记录的字段属性和字段内容。同时，根据每个信息结构体对应的标记信息，在对应的字段属性和/或字段内容的显示区域添加该标记信息，图8中，以不同的线条表示不同的标记信息。
[0149]
如前文所述，信息结构体对应的标记信息反映出信息结构体内包含信息的可信度，使得用户可以聚焦于可信度低的信息结构体的审核，而对于可信度高的信息结构体，用户可以选择信任前述模型的识别结果。这样，当接收到用户根据各信息结构体对应的标记信息针对目标信息结构体触发的编辑操作时，执行该编辑操作，以实现对目标信息结构体的纠错。其中，目标信息结构体是获得的多个信息结构体中的任一个，一般地，用户会针对可信度低的信息结构体触发编辑操作，因此，目标信息结构体一般会是可信度低的信息结构体。上述编辑操作往往是纠正字段内容和字段属性的操作。
[0150]
综上，基于对图像中目标对象进行文字信息识别处理而得到的目标对象包含的各
信息结构体以及每个信息结构体的置信度，可以根据各信息结构体的置信度的高低，为对应的信息结构体设置标记信息，以反映信息结构体的可信度，这样，用户可以快速定位到容易存在识别错误的信息结构体，并及时进行审核、纠正，相比于人工逐个核对全部信息结构体，提高了效率。
[0151]
图9为本发明实施例提供的另一种信息识别方法的流程图，如图9所示，该方法可以包括如下步骤：
[0152]
901、通过对象检测模型未在图像中识别出目标对象对应的类别。
[0153]
902、获取与目标对象对应的第一训练样本。
[0154]
903、确定第一训练样本的标注信息，根据第一训练样本和标注信息训练出板式识别模型，第一标注信息包括第一训练样本包含的各信息结构体，每个信息结构体中包括字段属性、字段位置和字段内容。
[0155]
904、根据所述图像获取第二训练样本。
[0156]
905、确定第二训练样本的标注信息，根据第二训练样本和标注信息训练对象检测模型，第二标注信息包括第二训练样本中包含的各对象的类别和位置区域。
[0157]
本实施例中，图像是指包括至少一个对象的图像，目标对象可以是该至少一个对象中的任一个。比如，这至少一个对象为至少一个卡证和/或票据。
[0158]
实际应用中，对于对象检测模型来说，假设初始时，该对象检测模型被训练成具有识别n种对象的能力，n大于或等于1，在后续使用过程中，可能会产生新的需求，如希望对象检测模型还能够识别另外的某种对象的能力。
[0159]
比如，对象检测模型初始时具有识别身份证、火车票的能力，后来，产生识别出租车票的需求，此时，该初始的对象检测模型将无法识别出出租车票，所以需要对该对象检测模型进行优化，使其具有识别出租车票等能力。
[0160]
另外，如前文所述，当对象检测模型无法识别某对象的类别时，可以认为也不存在与该类别对应的板式识别模型，所以，为了后续能够针对这类别的对象进行文字信息识别处理，还需要训练出与该类别对应的板式识别模型。
[0161]
基于此，当某个图像输入到对象检测模型后，对象检测模型对该图像中包含的各个对象进行类别和位置区域的识别。在识别过程中可能遇到如下情形：对象检测模型能够识别出其中某个对象的位置区域，但是无法识别出该对象的类别。此时，会触发与该对象的类别对应的板式识别模型的训练，以及对象检测模型的优化训练。
[0162]
假设将图像中对象检测模型无法识别出类别的对象称为目标对象，针对板式识别模型的训练来说，首先，需要获得与目标对象的类别对应的若干训练样本图像，称为第一训练样本，之后，为了进行有监督训练，需要对第一训练样本进行监督信息的标注，称为第一标注信息。由于板式识别模型是用于学习目标对象的板式信息的，而板式信息可以通过目标对象包括的多个字段的字段位置、字段属性来反映，因此，第一标注信息中可以包括第一训练样本中包括的各个字段的字段位置、字段属性和字段内容。
[0163]
其中，字段位置可以以包围字段的矩形框的四个顶点坐标来表示。可以预先对目标对象中包括的多种字段属性进行编码，从而，可以以编码结果表示字段属性。
[0164]
实际应用中，与目标对象的类别对应的第一训练样本的获取方式不作具体限定，可以是用户自主收集的，也可以是基于对抗网络模型生成的。
[0165]
之后，将第一训练样本及其对应的第一标注信息输入到板式识别模型中，以训练板式识别模型。概括来说，板式识别模型基于第一标注信息中标注出的不同字段对应的字段属性、字段内容可以学习到不同字段之间的语义信息，结合各个字段的字段位置，可以学习到不同字段属性的字段之间的字段位置相对关系，最终使得板式识别模型具有识别目标对象的不同字段的字段位置和字段属性的能力。
[0166]
针对对象检测模型的优化训练来说，首先，需要获得包含目标类别(是指目标对象的类别)的对象的若干训练样本图像，称为第二训练样本，之后，为了进行有监督训练，需要对第二训练样本进行监督信息的标注，称为第二标注信息。由于对象检测模型是用于识别图像中包含的各个对象的类别和位置的，因此，第二标注信息中可以包括第二训练样本中包括的各个对象的位置区域和类别。
[0167]
假设对象检测模型未能够在输入的图像x中识别出对象1的类别c，那么，第二训练样本的获取结果是：获取包括类别c的对象的图像，但是，在对象检测模型仅针对类别c进行优化训练的时候，该图像中不包含对象检测模型不能够识别的其他对象类别。可选地，假设图像x中包括类别a、类别b和类别c的对象，类别c是对象检测模型当前无法识别出的类别，从而可以收集包括类别a、类别b和类别c的对象的图像作为第二训练样本。
[0168]
在完成对象检测模型和板式识别模型的训练后，后续再输入的包含类别c的对象的图像，就可以基于前述实施例提供的方案，完成该对象中信息结构体的识别和显示处理。
[0169]
如前文所述，本发明提供的信息识别方法可以在云端来执行，在云端可以部署有若干计算节点，每个计算节点中都具有计算、存储等处理资源。在云端，可以组织由多个计算节点来提供某种服务，当然，一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口，用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(software development kit，简称sdk)、应用程序接口(application programming interface，简称api)等形式。
[0170]
针对本发明实施例提供的方案，云端可以提供有信息识别服务的服务接口，称为目标服务接口。当用户需要针对某图像进行信息识别的时候，通过用户设备调用该目标服务接口，以向云端触发调用该目标服务接口的请求，在该请求中携带有需要识别的目标对象的图像。云端确定响应该请求的计算节点，利用该计算节点中的处理资源执行如下步骤：
[0171]
确定所述图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述目标对象中的不同字段；
[0172]
将至少一个信息结构体发送至用户设备，以使用户设备在界面的第一显示区域内显示所述图像以及在第二显示区域内输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息。
[0173]
目标服务接口利用处理资源执行信息识别处理的详细过程可以参考前述其他实施例中的相关说明，在此不赘述。另外，可以理解的是，前述实施例中所说的对象检测模型、文字识别模型、板式识别模型可以运行在云端的一个计算节点或不同计算节点中。
[0174]
为便于理解，结合图10来示例性说明。在图10中，用户想要对目标对象的图像进行信息识别处理时，在用户设备e1中调用目标服务接口，以向云端计算节点e2发送调用请求，该调用请求中包括目标对象的图像。本实施例中假设云端计算节点e2中运行有对象检测模型、文字识别模型和板式识别模型，通过这些网络模型，云端计算节点e2识别出图像中包含
的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，并将该识别结果反馈给用户设备e1，用户设备e1在界面上显示该至少一个信息结构体及至少一个信息结构体各自对应的标记信息，以供用户基于该标记信息对信息结构体进行操作。实际应用中，在诸多应用领域中可能都涉及到图像信息识别的问题，都可以使用本发明实施例的技术方案。
[0175]
在报销场景中，为提高财务报销效率以及报销信息的持久化存储管理，同时便于用户的报销处理，不必一定需要携带报销相关卡证、票据去往财务人员处才能进行报销，可以基于本发明实施例提供的方案来协助完成报销处理。
[0176]
图11为本发明实施例提供的另一种信息识别方法的流程图，如图11所示，该方法可以包括如下步骤：
[0177]
1101、获取包含卡证和/或票据的报销图像。
[0178]
1102、确定报销图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述目标对象中的不同字段。
[0179]
1103、输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息，以供用户根据标记信息和至少一个信息结构体完成报销处理。
[0180]
其中，需要报销的用户可以对报销所需的卡证、票据摆放在一起进行拍照，得到包含这些卡证、票据的报销图像，将报销图像线上传输给财务人员。财务人员调用提供有信息识别服务的服务接口，以上传该报销图像。通过对报销图像中包含的各个卡证、票据分别进行所含信息结构体的识别，可以得到每个卡证、票据中包含的信息结构体。每个信息结构体可以由字段位置、字段属性和字段内容构成。同时，在识别信息结构体的同时，确定每个信息结构体对应的标记信息，以对应的标记信息显示每个信息结构体，以便财务人员能够根据每个信息结构体对应的标记信息聚焦各信息结构体，核对每个信息结构体的识别结果的准确性，对其中识别错误的信息结构体进行纠正操作，存储纠正后的各个信息结构体。此时，由于各个信息结构体是文字格式的数据，财务人员可以根据需要对各信息结构体中包含的字段内容进行诸如复制、编辑等操作。另外，在得到纠正的各个信息结构体后，还可以根据设定的存储策略将信息结构体中包括的字段属性、字段内容以键值对的方式存储到报销数据库中。
[0181]
实际应用中，在一些应用场景中会用到诸如税单、报关单等纸质的表单，这些表单往往也都具有固定的板式。纸质的表单不利于长久存储，因此，需要将纸质的表单进行数字化转化，以便于长久存储。而数字化转化并非是说对纸质的表单进行拍摄得到对应的图像即可，因为在实际应用中，可能会存在对表单数据进行统计、分析的需求，为支持这些需求，需要将纸质的表单中所包含的数据内容以文字形式进行存储。此时，可以使用本发明实施例提供的信息识别方案来实现。
[0182]
图12为本发明实施例提供的另一种信息识别方法的流程图，如图12所示，该方法可以包括如下步骤：
[0183]
1201、获取表单图像。
[0184]
1202、确定表单图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于表单图像中的不同字段。
[0185]
1203、输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息，以供用户根据标记信息和至少一个信息结构体完成表单图像的信息录入处理。
[0186]
对某个表单进行拍摄可以得到表单图像。一个表单中会包含多个单元格，每个单元格可以认为即为一个字段。从而，一个信息结构体可以对应于一个单元格。
[0187]
在从表单图像中识别出每个单元格对应的信息结构体以及确定每个信息结构体对应的标记信息后，可以根据每个信息结构体对应的标记信息显示出每个信息结构体，每个信息结构体中会包括每个单元格的位置、属性、内容。
[0188]
用户基于各信息结构体的标记信息区分不同的信息结构体，参考表单图像以对每个信息结构体进行核对，对有错误的信息结构体进行纠正。之后，可以将经过纠正后的各信息结构体中包含的单元格属性和单元格内容以键值对的形式存储到数据库中。基于此，假设某种表单中具有缴费金额这个属性，基于大量表单的存储结果，用户可以在数据库中触发比如搜索缴费金额大于某设定金额的统计操作，以得到满足缴费金额大于该设定金额的表单的数量。
[0189]
在电子商务领域中，也会存在信息提取的需求。比如商家有新产品需要发布的时候，会在电商平台上进行商品信息的注册(即将商品信息录入到商品数据库)，也可能会制作商品宣传图像，以在商品界面进行商品宣传，使得消费者能够更全面、细致地了解商品，其中，该商品宣传图像中包括商品信息。商家在进行商品信息注册的时候，可能会将部分商品信息输入错误，此时，通过对商品宣传图像进行商品信息的识别，可以帮助电商平台的工作人员核对商家录入的商品信息是否有误。
[0190]
图13为本发明实施例提供的另一种信息识别方法的流程图，如图13所示，该方法可以包括如下步骤：
[0191]
1301、获取包含商品信息的图像。
[0192]
1302、确定所述图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述图像中的不同字段。
[0193]
1303、输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息，以供用户根据标记信息和至少一个信息结构体核对已录入的商品信息。
[0194]
本实施例中，包含商品信息的图像即可以是上文中的商品宣传图像。商品信息中可能包括商品名称、型号、尺寸、颜色、价格、生产商等多个商品属性。此时，不同的商品属性即作为不同的字段属性，每种商品属性的属性值即为字段内容。
[0195]
在从图像中识别出每个商品属性对应的信息结构体以及确定每个信息结构体对应的标记信息后，可以根据每个信息结构体对应的标记信息显示出每个信息结构体，每个信息结构体中会包括每个商品属性、属性值、每个商品属性在图像中的位置。
[0196]
电商平台的工作人员基于各信息结构体的标记信息区分不同的信息结构体，在数据库中查询出对应的商品信息，该商品信息中包含已经录入到数据库的各个商品属性及其属性值，对比已经录入到数据库中的商品信息和信息结构体中所揭示出的商品信息，以确定录入到数据库中的商品信息是否正确，对录入不正确的商品属性和属性值进行纠正处理。
[0197]
在医疗领域中，可以产生大量电子病历图像，当某机构需要进行病历的统计、分析时，可以基于本发明实施例提供的信息识别方案的辅助，提取病历图像中包含的一些关键信息，以便基于这些关键信息对病历图像进行深度的管理、分析。
[0198]
图14为本发明实施例提供的另一种信息识别方法的流程图，如图14所示，该方法
可以包括如下步骤：
[0199]
1401、获取病历图像。
[0200]
1402、确定病历图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于病历图像中的不同字段。
[0201]
1403、输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息，以供用户根据标记信息和至少一个信息结构体筛选出符合要求的病历图像。
[0202]
病历图像可以是对具有固定板式的病历进行拍照得到的图像。病历图像中包含的字段，可以包括用户的基础信息相对应的多个字段，以及诊断相关的多个字段。
[0203]
通过对病历图像进行识别，可以得到其中包含的对应于每个字段的信息结构体及每个信息结构体对应的标记信息。基于各信息结构体的标记信息区分不同的信息结构体，以参考病历图像对识别错误的信息结构体进行纠正。
[0204]
可以对纠正后的各信息结构体进行信息存储处理。比如根据各信息结构体中包含的字段属性和字段内容，以键值对的形式将病历图像中包含的信息存储到数据库中，该数据库可以是关系数据库。
[0205]
之后，通过按需对该数据库进行数据查询处理，可以实现多种疾病的统计分析需求。比如，以就诊时间和某种疾病为查询关键字(病历图像中包含对应于就诊时间的字段以及对应于疾病类型的字段)，可以查询设定的某段时间内产生的与这种疾病对应的病历图像，以查看这些病历图像。
[0206]
在教育场景中，老师在授课过程中可能会使用板书、ppt等演示工具，同学可以对演示工具拍摄得到教学图像，当同学拍得大量的教学图像时，面临着后续需要对大量教学图像进行分类整理和按需检索的需求。
[0207]
图15为本发明实施例提供的另一种信息识别方法的流程图，如图15所示，该方法可以包括如下步骤：
[0208]
1501、获取教学图像。
[0209]
1502、确定教学图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息，每个信息结构体对应于教学图像中的不同字段。
[0210]
1503、输出至少一个信息结构体和至少一个信息结构体各自对应的标记信息，以供用户根据标记信息和至少一个信息结构体筛选出符合要求的教学图像。
[0211]
某位老师可能会有自己的板式书写习惯或ppt编辑习惯，从而形成较为固定的板式特征。教学图像中可能包括体现为树状关系的各种知识点，比如某个大标题下存在并列的两个小标题。如大标题为“三角函数”，小标题包括“正弦”、“余弦”、“正切”等。本实施例中，教学图像中的不同字段可以对应于不同的知识点标题。
[0212]
一个信息结构体中可以包括字段属性、字段位置、字段内容。在本实施例中，字段属性是指知识点对应的类别，字段内容是指知识点名称，字段位置是指某个知识点在教学图像中对应的像素位置。
[0213]
通过前述信息识别方案得到某个教学图像中包含的至少一个信息结构体及至少一个信息结构体各自对应的标记信息后，可以以对应的标记信息显示出各信息结构体，以便同学能够聚焦当前的教学图像中包含的知识点都是什么，从而筛选出自己需要的教学图像进行查看。
[0214]
以上仅以几种应用领域为例对本发明实施例提供的信息识别方案可以适用于的应用场景进行了举例说明，实际上，不以此为限。
[0215]
以下将详细描述本发明的一个或多个实施例的信息识别装置。本领域技术人员可以理解，这些信息识别装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
[0216]
图16为本发明实施例提供的一种信息识别装置的结构示意图，如图16所示，该装置包括：显示模块11、检测模块12。
[0217]
显示模块11，用于在界面的第一显示区域内显示目标对象的图像。
[0218]
检测模块12，用于确定所述图像中包含的至少一个信息结构体及所述至少一个信息结构体各自对应的标记信息，每个信息结构体对应于所述目标对象中的不同字段。
[0219]
所述显示模块11，还用于在所述界面的第二显示区域内，输出所述至少一个信息结构体和所述至少一个信息结构体各自对应的标记信息。
[0220]
可选地，所述目标对象包含至少一个卡证和/或票据。
[0221]
可选地，所述装置还包括：交互模块，用于响应于用户根据所述至少一个信息结构体各自对应的标记信息针对目标信息结构体输入的纠正操作，执行所述纠正操作。
[0222]
可选地，检测模块12具体可以用于：确定所述至少一个信息结构体各自对应的置信度；根据所述至少一个信息结构体各自对应的置信度，确定所述至少一个信息结构体各自对应的标记信息。
[0223]
每个信息结构体中包括字段属性、字段位置和字段内容。从而，可选地，检测模块12具体可以用于：对于所述至少一个信息结构体中的任一信息结构体，根据如下至少一种置信度，确定所述任一信息结构体的置信度：所述任一信息结构体中字段位置的置信度，所述任一信息结构体中字段内容的置信度，所述任一信息结构体中字段属性与字段内容间对应关系的置信度。
[0224]
可选地，检测模块12具体可以用于：根据预设的置信度权重，确定所述任一信息结构体的置信度；其中，所述置信度权重包括如下至少一种：与所述字段位置的置信度对应的第一权重，与所述字段内容的置信度对应的第二权重，与所述字段属性与字段内容间对应关系的置信度对应的第三权重。
[0225]
可选地，所述第三权重大于或等于所述第二权重，所述第二权重大于或等于所述第一权重。
[0226]
可选地，检测模块12具体可以用于：对于所述至少一个信息结构体中的任一信息结构体，若所述任一信息结构体的置信度小于第一预设阈值，则确定所述任一信息结构体对应的标记信息为第一标记信息；若所述任一信息结构体的置信度在第一预设阈值与第二预设阈值之间，则确定所述任一信息结构体对应的标记信息为第二标记信息；若所述任一信息结构体的置信度大于第二预设阈值，则确定所述任一信息结构体对应的标记信息为第三标记信息。
[0227]
可选地，所述第一标记信息、所述第二标记信息和所述第三标记信息为不同颜色。
[0228]
可选地，所述检测模块12具体可以用于：通过对象检测模型在所述图像中识别出所述目标对象对应的类别和所述目标对象在所述图像中的位置区域；将根据所述位置区域截取出的目标图像区域输入到文字识别模型，以通过所述文字识别模型识别出至少一组文
字识别结果，每组文字识别结果中包括字段位置和字段内容；将所述目标图像区域以及所述至少一组文字识别结果输入到与所述类别对应的板式识别模型，以通过所述板式识别模型输出至少一个信息结构体，每个信息结构体中包括字段属性、字段位置和字段内容。
[0229]
其中，可选地，所述字段位置的置信度和所述字段内容的置信度由所述文字识别模型输出，所述字段属性与字段内容间对应关系的置信度由所述板式识别模型输出。
[0230]
可选地，所述装置还包括：第一训练模块，用于若通过所述对象检测模型未在所述图像中识别出所述目标对象对应的类别，则获取与所述目标对象对应的第一训练样本；确定所述第一训练样本的第一标注信息，所述第一标注信息包括所述第一训练样本包含的各信息结构体，每个信息结构体中包括字段属性、字段位置和字段内容；根据所述第一训练样本和所述第一标注信息训练出所述板式识别模型。
[0231]
可选地，所述装置还包括：第二训练模块，用于若通过所述对象检测模型未在所述图像中识别出所述目标对象对应的类别，则根据所述图像获取第二训练样本；确定所述第二训练样本的第二标注信息，所述第二标注信息包括所述第二训练样本中包含的各对象的类别和位置区域；根据所述第二训练样本和所述第二标注信息训练所述对象检测模型。
[0232]
图16所示装置可以执行前述实施例中提供的信息识别方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。
[0233]
在一个可能的设计中，上述图16所示信息识别装置的结构可实现为一电子设备，如图17所示，该电子设备可以包括：处理器21、存储器22、显示屏23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的信息识别方法。
[0234]
可选地，该电子设备中还可以包括通信接口24，用于与其他设备进行通信。
[0235]
另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的信息识别方法。
[0236]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0237]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0238]
本发明实施例提供的信息识别方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述信息识别方法时，通过cpu将该程序/软件读取到内存中，进而由cpu执行该程序/软件以实现前述实施例中所提供的信息识别方法，执行过程可以参见前述图1至图15中的示意。
[0239]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像处理方法、装置、终端设备及计算机可读存储介质

信息识别方法、装置、设备和存储介质与流程

相关文献

最热文献