一种图像信息输出方法和相关装置与流程

2021-10-29 20:57:00 来源：中国专利 TAG：图像处理装置输出图像方法

1.本技术涉及图像处理领域，特别是涉及一种图像信息输出方法和相关装置。

背景技术：

2.随着科学技术的发展，可以利用图像识别技术提取图像上的信息。以票据为例，通过图像识别技术可以抽取票据中抬头、金额、时间等信息，由此可以替代人工打字方式将票据的各种信息录入系统，降低了人力与时间的消耗。
3.对于票据等具有一定文字排布规则的图像，图像中待提取信息包括的字段名称和字段内容具有结构化关系，例如，在票据中，“时间：2020年1月1日”为一条结构化信息，其中，“时间”为字段名称，“2020年1月1日”为其对应的字段内容。
4.相关技术中，按照图像的文字排布规则制定对应的信息提取模板，模板中包括字段内容的位置和该位置对应的字段名称，按照模板中字段内容的位置抽取图像中的字段内容，并将其与对应的字段名称组成一条结构化信息，从而完成图像中结构化信息的提取。
5.但是图像的版式较多，例如，仅以票据而言，会包括增值税发票、火车票、出租车发票等，不同版式对应的文字排布规则不同，故不同版式的图像需要制定不同的模板完成结构化信息的提取，泛化能力较差，不适用于多种信息录入场景。

技术实现要素：

6.为了解决上述技术问题，本技术提供了一种图像信息输出方法和相关装置，用于解决不同版式的图像需要制定不同的模板完成结构化信息的提取的问题。
7.本技术实施例公开了如下技术方案：
8.一方面，本技术提供一种图像信息输出方法，所述方法包括：
9.获取目标图像，所述目标图像包括多条具有结构化关系的字段名称和字段内容；
10.识别所述目标图像中的多个待提取对象，所述多个待提取对象包括多个字段名称和所述目标图像中的多个字段内容；
11.根据相对位置约束规则，对所述多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容，所述相对位置约束规则用于标识具有所述结构化关系的字段名称和字段内容的相对位置；
12.输出所述匹配成功的字段名称和字段内容。
13.另一方面，本技术提供一种图像信息输出装置，所述装置包括：获取单元、识别单元、匹配单元和输出单元；
14.所述获取单元，用于获取目标图像，所述目标图像包括多条具有结构化关系的字段名称和字段内容；
15.所述识别单元，用于识别所述目标图像中的多个待提取对象，所述多个待提取对象包括多个字段名称和所述目标图像中的多个字段内容；
16.所述匹配单元，用于根据相对位置约束规则，对所述多个待提取对象进行匹配，获
得匹配成功的字段名称和字段内容，所述相对位置约束规则用于标识具有所述结构化关系的字段名称和字段内容的相对位置；
17.所述输出单元，用于输出所述匹配成功的字段名称和字段内容。
18.另一方面，本技术提供一种计算机设备，所述设备包括处理器以及存储器：
19.所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；
20.所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
21.另一方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。
22.另一方面，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。
23.由上述技术方案可以看出，针对包括多条具有结构化关系的字段名称和字段内容的目标图像，不再根据对应的模板获取目标图像中的字段内容，而是获取目标图像中的多个字段名称和多个字段内容，将多个字段名称和多个字段内容作为待提取对象，根据相对位置约束规则，对多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容，其中，相对位置约束规则用于标识具有结构化关系的字段名称和字段内容的相对位置，能够根据多个待提取对象间的相对位置，从多个待提取对象中获取匹配成功字段名称和字段内容，从而输出匹配成功的字段名称和字段内容，实现按照结构化关系输出目标图像中包括的字段名称和字段内容。由此，通过获取目标图像中的多个字段名称和多个字段内容，然后对多个字段名称和多个字段内容分别进行匹配，按照结构化关系获得匹配成功的字段名称和字段内容，从而无需为每一种目标图像设计对应的模板便能够实现结构化信息的提取，提高了泛化能力，适用于多种信息录入场景。
附图说明
24.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
25.图1为本技术实施例提供的图像信息输出方法的应用场景示意图；
26.图2为本技术实施例提供的一种图像信息输出方法的流程图；
27.图3为本技术提供的一种目标图像的示意图；
28.图4为本技术实施例提供的一种目标图像识别结果的示意图；
29.图5为本技术实施例提供的一种多维度的原始特征融合的示意图；
30.图6为本技术实施例提供的一种特征交互的示意图；
31.图7为本技术实施例提供的一种匹配成功的字段名称和字段内容的示意图；
32.图8为本技术实施例提供的一种目标图像信息输出示意图；
33.图9为本技术实施例提供的一种图像信息输出方法的场景示意图；
34.图10为本技术实施例提供的一种图像信息输出装置的示意图；
35.图11为本技术实施例提供的服务器的结构示意图；
36.图12为本技术实施例提供的终端设备的结构示意图。
具体实施方式
37.下面结合附图，对本技术的实施例进行描述。
38.鉴于相关技术中按照模板提取图像中的结构化信息，泛化能力较差，不适用于多种信息录入场景。本技术提出一种输出图像信息的方法和相关装置，无需通过模板即可输出图像中的结构化信息，适用于多种信息录入场景。
39.本技术实施例提供的图像信息输出方法是基于人工智能实现的，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
40.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
41.在本技术实施例中，主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如，可以涉及自然语言处理(nature language processing,nlp)中的文本预处理(text preprocessing)、语义理解(semantic understanding)，也可以涉及机器学习(machine learning，ml)中的深度学习(deep learning)，包括各类人工神经网络(artificial neural network,ann)。
42.本技术提供的图像信息输出方法可以应用于具有数据处理能力的图像信息输出设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等，但并不局限于此等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
43.该图像信息输出设备可以具备实施自然语言处理的能力，自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本技术实施例中，文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。
44.该图像信息输出设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改
善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
45.在本技术实施例提供的图像信息输出方法中采用的人工智能模型主要涉及神经网络的应用，通过神经网络识别目标图像中的多个待提取对象，以及对多个待提取对象进行匹配等。
46.为了便于理解本技术的技术方案，下面结合实际应用场景，对本技术实施例提供的实体类型确定方法进行介绍。
47.参见图1，图1为本技术实施例提供的图像信息输出方法的应用场景示意图。在图1所示的应用场景中，前述图像信息输出设备为服务器100。
48.服务器100获取目标图像，目标图像为具有一定文字排布规则的图像，包括多条具有结构化关系的字段名称和字段内容，字段名称以及字段名称对应的字段内容可以构成一条结构化信息。在图1所示的应用场景中，目标图像为张三的身份证图像，“姓名张三”为一条结构化信息，其中，“姓名”为字段名称，“张三”为字段内容。
49.服务器100识别目标图像中的多个待提取对象，待提取对象是目标图像中的结构化信息，包括多个字段名称和目标图像中的多个字段内容。在图1所示的应用场景中，服务器100通过实线矩形检测框定位出目标图像中的所有的字段名称并提取对应的位置特征，以及通过虚线矩形检测框定位出目标图像中所有的字段内容并提取对应的位置特征。
50.服务器100根据相对位置约束规则，对识别出的多个字段名称和多个字段内容进行匹配，获得匹配成功的字段名称和字段内容。其中，相对位置约束规则用于标识具有结构化关系的字段名称和字段内容的相对位置，能够根据多个待提取对象间的相对位置，从多个待提取对象中获取匹配成功字段名称和字段内容，从而输出匹配成功的字段名称和字段内容，实现按照结构化关系输出图像中包括的字段名称和字段内容。
51.在图1所示的应用场景中，以为字段名称“姓名”匹配对应的字段内容为例，通过相对位置约束规则，多个字段内容中“张三”与字段名称“姓名”具有结构化关系，字段名称“姓名”和字段内容“张三”可以作为匹配成功的字段名称和字段内容。而多个字段内容中“男”与字段名称“姓名”不具有结构化关系，字段名称“姓名”和字段内容“男”匹配失败。
52.服务器100为识别出的多个字段名称和多个字段内容进行匹配后，输出匹配成功的字段名称和字段内容，如“姓名：张三”为一条结构化信息，即匹配成功的字段名称和字段内容。
53.由此，通过获取目标图像中的多个字段名称和多个字段内容，然后对目标图像中的多个字段名称和多个字段内容分别进行匹配，按照结构化关系获得匹配成功的字段名称和字段内容，从而无需为每一种图像设计对应的模板便能够实现结构化信息的提取，提高了泛化能力，适用于多种信息录入场景。
54.下面结合附图，以服务器作为图像信息输出设备，对本技术实施例提供的一种图像信息输出方法进行介绍。
55.参见图2，图2为本技术实施例提供的一种图像信息输出方法的流程图。如图2所示，该图像信息输出方法包括以下步骤：
56.s201：获取目标图像。
57.目标图像为具有一定文字排布规则的图像，包括多条具有结构化关系的字段名称
和字段内容，一条结构化信息包括字段名称以及字段名称对应的字段内容。
58.本技术实施例不具体限定目标图像的类型，例如，目标图像可以包括证照图像、证书图像、单据图像、票据图像中的一种或多种。本技术的技术方案可以应用于例如前述的多种图像的结构化信息提取，无需为每种图像设计对应的模板，泛化能力较强，可以将多种图像中结构化信息提取后将信息自动录入系统。
59.为了方便说明，本技术实施例中以目标图像为票据图像为例进行说明，参见图3，该图为本技术提供的一种目标图像的示意图。如图3所示，该图为张三在中央医疗住院时的收费票据的图像。
60.s202：识别目标图像中的多个待提取对象。
61.目标图像中包括多个字段名称和多个字段内容，相关技术中仅会通过目标图像对应的模板识别字段内容，而在本技术实施例中不仅识别字段内容，还识别字段名称，目标图像中包括的字段名称和字段内容均为待提取对象。
62.本技术实施例不具体限定识别待提取对象的方式，下面以带标签的文本检测网络为例进行说明。
63.相关技术中，采用训练好的文本检测网络识别图像中的字段内容。在训练文本检测网络时，会将图像对应的模板中记载的字段内容的位置作为标签，例如，目标图像对应的模板为目标模板，目标模板中包括m个字段内容位置，对应设置m个标签，一个标签表征一个字段内容的位置，从而训练目标模板对应的文本检测网络。也就是说，根据目标模板训练的文本检测网络仅适用于目标图像，泛化能力差，不仅造成模型冗余并增加了定制化模型的工作量。
64.而本技术实施例在训练文本检测网络时，不再根据对应的模板设置多个不同位置的字段内容标签，而是设置两类标签，分别为字段名称类标签和字段内容类标签，使得训练出的文本检测网络能够区分图像中的字段名称和字段内容，使得训练好的文本检测网络模型不再局限于一种图像，而是用于多种图像，具有通用性，泛化能力强，且降低了由于定制化带来的工作量。
65.作为一种可能的实现方式，在训练文本检测网络时，还可以将背景区域设置为第三类标签，即带标签的文本检测网络中的标签不仅可以包括字段名称类标签和字段内容类标签，还可以包括背景区域类标签。其中，背景区域类标签为无需提取的信息，例如，图3中右侧“第一联”和标题“中央医疗住院收费票据”等信息均为不需要提取的信息，即背景区域。
66.通过结合背景区域类标签，可以使得文本检测网络能够更好的学习字段名称和字段内容的特征，从而避免由于背景区域的干扰产生的文本检测网络抖动，增强了文本检测网络的鲁棒性。
67.参见图4，该图为本技术实施例提供的一种目标图像识别结果的示意图。在图4中，通过例如文本检测网络的模型检测出收费票据中的字段名称、字段内容和背景区域，其中，实线矩形检测框中为字段名称，虚线矩形检测框中为字段内容，实线圆形检测框中为背景区域。
68.在通过文本检测网络检测出目标图像中的字段名称、字段内容和背景区域后，可以将检测结果作为输入，通过识别网络得到字段名称、字段内容和背景区域对应的文本内
容。
69.作为一种可能的实现方式，还可以训练一个网络模型，通过该网络模型可以先识别出目标图像中的文本内容，再通过文本内容识别出该文本内容对应的类型，如字段名称、字段内容和背景区域。
70.通过本技术实施例提供的带标签的文本检测网络识别出目标图像中的字段名称和字段内容，并识别出其内容，可以有效解决字段粘连的问题。
71.例如，在图4所示的“男”“医保类型”粘连在一起，若通过采用相关技术中的方式，很容易将“男”“医保类型”一起提取，作为字段名称“性别：”对应的字段内容。但是采用本技术的技术方案，由于“男”会被识别为字段内容，“医保类型：”会被识别为字段名称，所以二者不会粘连在一起，从而解决了字段粘连的问题。
72.s203：根据相对位置约束规则，对多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容。
73.在获得目标图像中的多个字段名称和字段内容后，根据相对位置约束规则对目标图像中的字段名称和字段内容进行匹配，其中，相对位置约束规则用于标识具有结构化关系的字段名称和字段内容的相对位置，能够根据目标图像中的字段名称和字段内容之间的相对位置，从多个待提取对象中获取匹配成功字段名称和字段内容，从而输出匹配成功的字段名称和字段内容，匹配成功的字段名称和字段内容可以构成结构化信息。
74.本技术实施例不具体限定获取字段名称和字段内容相对位置的方式。下面以提取图4中检测框的位置特征为例进行说明。
75.通过提取每个检测框(至少包括字段名称对应的检测框和字段内容对应的检测框)的原始特征，如位置特征，通过比对每个检测框的位置特征，获取字段名称和字段内容的相对位置。
76.作为一种可能的实现方式，不仅可以提取待提取对象的位置特征，还可以提取待提取对象的其他维度的原始特征，融合待提取对象的多个维度的原始特征，相比仅通过位置特征进行检测框匹配，多方面考虑待提取对象之间的匹配关系可以有效解决字段偏移的问题，提高了检测框之间匹配的准确性。
77.下面继续结合图4，以原始特征为位置特征、图像特征和语义特征为例，对提取待提取对象的特征的过程进行说明。
78.为了方便后续处理，可以对目标图像的大小进行归一化，例如，将目标图像的分辨率缩放至512*512大小，获得归一化后的图像。建立平面坐标系，获取目标图像在x方向上的缩放因子scale_x，以及目标图像在y方向上的缩放因子scale_y。然后将归一化后的目标图像作为输入，通过裁剪后的resnet残差网络获得分辨率为128*128、通道数为64特征图，该特征图用于表征目标图像的纹理、颜色和形状。
79.(1)图像特征。
80.图4中每个检测框的坐标为(xi，yi，wi，hi)，其中xi表示第i个检测框在x轴上的位置，yi表示第i个检测框在y轴上的位置，wi表示第i个检测框的宽度，hi表示第i个检测框的高度。将每个检测框的坐标(xi，yi，wi，hi)按照(128/512)*scale_x和(128/512)*scale_y缩放后，得到每个检测框在最底层的特征图上的坐标(xi’，yi’，wi’，hi’)，最后将特征图中(xi’ wi’/2，yi’ hi’/2)位置上特征作为第i个检测框的特征，得到图4中n个检测框的图像
特征集合，每个图像特征维度为64。
81.(2)位置特征。
82.将图4中每个检测框的坐标(xi，yi，wi，hi)作为位置特征，得到图4中n个检测框的位置特征集合，每个位置特征维度为4。
83.(3)语义特征。
84.利用文本嵌入(text embedding)将每个检测框内的文本信息生成词向量，得到图4中n个检测框的语义特征集合，且每个语义特征维度为64。
85.在提取了待提取对象的多个不同维度的原始特征，将多个维度的原始特征进行融合，作为待提取对象的特征。下面继续以提取了检测框的图像特征、位置特征和语义特征为例进行说明。
86.参见图5，该图为本技术实施例提供的一种多维度的原始特征融合的示意图。在图5中，以3层为例表示检测框的多层特征图，分别表示为5011、5012和5013，其中5013表示该检测框最底层的特征图，提取该层特征图中的图像特征502，将位置特征503和语义特征504三个维度的原始特征融合进行融合，作为该检测框的特征505。重复前述过程，可以获取目标图像中n个检测框的特征，每个待提取对象的特征为132维。
87.相对位置约束规则用于标识具有结构化关系的字段名称和字段内容的相对位置，其更注重关注图像中构成一条结构化信息的字段名称和字段内容，较少关注多条结构化信息之间的特征。当目标图像的局部文本间存在偏移或者字段间存在明显歧义，容易陷入局部最优，降低字段名称和字段内容的匹配的准确性。
88.基于此，为了避免出现上述问题，可以将待提取对象的特征，以及与待提取对象位置相邻的其他待提取对象的特征进行交互，获得待提取对象的交互特征。下面以通过特征交互模型为例进行说明。
89.参见图6，该图为本技术实施例提供的一种特征交互的示意图。在图6左上角所示，将待提取对象的特征输入至特征交互模型中，特征交互模型可以将待提取对象的特征与其周围的其他待提取对象的特征进行交互。
90.以前述矩形检测框为例，获取第i个矩形检测框的每个顶点坐标，以一个顶点为例，找到该顶点最邻近的k个顶点，并将最邻近的k个顶点的特征融合至该顶点中，从而加强各个顶点之间的联系，进而使得各个检测框之间具有联系，提升了全局特征。然后通过例如全连接神经网络(full connected network，fcn)模型将每个顶点的特征融合至一起，使每个顶点的特征由132维降至64维，完成特征交互过程。根据相对位置约束规则和待提取对象的交互合特征，对多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容。
91.作为一种可能的实现方式，在匹配的过程中，可以任意两个矩形检测框进行匹配，获得n*n个匹配组合(包括第i个矩形检测框和第i个矩形检测框匹配)，将n*n个匹配组合作为输入，输入至分类模型中，通过分类模型预测任意两个矩形检测框是否匹配，在预测时，由于需要预测出每一对组合是否匹配，因为需要获得所有矩形检测框匹配结果。例如，先将任意两个矩形检测框的特征进行拼接，由n*64维变为n*n*128维，如图6下方所示，获得表征目标图像中n个矩形检测框之间的邻接矩阵，通过分类模型获得该邻接矩阵表征的组合是否具有匹配关系。
92.作为一种可能的实现方式，在训练分类模型时，可以采用蒙特卡洛采样随机选取
成对的矩形检测框进行训练，由于仅采用一部分检测框而非所有检测框进行训练，可以提高训练的效率和随机性。
93.在获得字段名称和字段内容的是否匹配后，下面介绍字段名称和字段内容完成匹配过程，参见s2031
‑
s2034。
94.s2031：根据相对位置约束规则，获取与第一待提取对象匹配的至少一个第二待提取对象。
95.以一个矩形检测框为例，该矩形检测框为第一待提取对象，第一待提取对象可以为字段名称对应的实线矩形检测框，还可以为字段内容对应的虚线矩形检测框，本技术对比不做具体限定。
96.获取与第一待提取对象匹配的至少一个第二待提取对象，该第二待提取对象可以为字段名称对应的实线矩形检测框，还可以为字段内容对应的虚线矩形检测框，本技术对比不做具体限定。
97.s20332：将第一待提取对象与第二待提取对象放入一个集合中。
98.将互相具有匹配关系的矩形检测框放入至同一个集合中。例如，遍历邻接矩阵，选取未进行转化(未从邻接矩阵中转化为字段内容或字段名称)的矩形检测框作为第一待提取对象；继续遍历邻接矩阵，选取未进行转化的第二待提取对象，第二待提取对象可以为多个，将第一待提取对象和第二待提取对象放入至一个集合中，并将第一待提取对象和第二待提取对象的状态更改为已转化；重复前述步骤，直至邻接矩阵中所有的矩阵检测框的状态均为已转化。
99.s2033：若集合中字段名称具有多个，根据集合中字段名称间的相对位置确定集合中字段名称的排布顺序；若集合中字段内容具有多个，根据集合中字段内容间的相对位置确定集合中字段内容的排布顺序。
100.以图4为例，根据相对位置约束规则，字段名称“住院时间：”和两个字段内容“2016年03月14日”和“2016年03月21日”会放入至同一个集合中，在该集合中，字段内容有2个，根据2个字段内容的相对位置，可以确定出集合中字段内容的排布顺序应该为字段内容“2016年03月14日”在字段内容“2016年03月21日”之前。
101.s2034：根据排布顺序对第一待提取对象和第二待提取对象进行排序，获得匹配成功的字段名称和字段内容。
102.继续以s2033中的例子为例，字段名称“住院时间：”和两个字段内容“2016年03月14日”和“2016年03月21日”的顺序应该为“住院时间：”、“2016年03月14日”、“2016年03月21日”。
103.参见图7，该图为本技术实施例提供的一种匹配成功的字段名称和字段内容的示意图。为了清楚的示意字段名称和字段内容的匹配关系，将匹配成功的字段名称和字段内容用同一种矩形框进行渲染。如，字段名称“姓名”和字段内容“张三”为一条结构化信息，字段名称“性别”和字段内容“男”为一条结构化信息，两条结构化信息用不同的矩形框进行渲染。
104.由此，通过将相互之间具有匹配关系的多个待提取对象放入至一个集合中，再根据相互之间的位置关系重新进行排序，最后再进行输出，可以有效解决由于字段换行和多对多带来的匹配准确率较低的问题。
105.s204：输出匹配成功的字段名称和字段内容。
106.参见图8，该图为本技术实施例提供的一种目标图像信息输出示意图。在图8中，匹配成功的字段名称和字段内容显示在目标头像的右侧，以便用户进行检查。匹配成功的字段名称和字段内容可以录入到系统中。
107.由上述技术方案可以看出，针对包括多条具有结构化关系的字段名称和字段内容的目标图像，不再根据对应的模板获取目标图像中的字段内容，而是获取目标图像中的多个字段名称和多个字段内容，将多个字段名称和多个字段内容作为待提取对象，根据相对位置约束规则，对多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容，其中，相对位置约束规则用于标识具有结构化关系的字段名称和字段内容的相对位置，能够根据多个待提取对象间的相对位置，从多个待提取对象中获取匹配成功字段名称和字段内容，从而输出匹配成功的字段名称和字段内容，实现按照结构化关系输出目标图像中包括的字段名称和字段内容。由此，通过获取目标图像中的多个字段名称和多个字段内容，然后对多个字段名称和多个字段内容分别进行匹配，按照结构化关系获得匹配成功的字段名称和字段内容，从而无需为每一种目标图像设计对应的模板便能够实现结构化信息的提取，提高了泛化能力，适用于多种信息录入场景。
108.为了更好的理解本技术实施例提供的图像信息输出方法，下面结合图9对本技术实施例提供的图像信息输出方法进行说明。
109.参见图9，该图为本技术实施例提供的一种图像信息输出方法的场景示意图。在图9所示场景中，目标图像可以为任意一种具有多条结构化信息的图像。
110.s901：文本检测与识别。
111.通过带有标签的文本检测网络通过检测框定位目标图像中的字段名称、字段内容和背景区域，并识别出每个检测框中信息内容。
112.s902：特征提取。
113.通过图神经网络(graph neural networks，gnn)提取每个检测框的图像特征、位置特征和语义特征。
114.s903：特征融合。
115.针对每个检测框，将图像特征、位置特征和语义特征进行融合，获得每个检测框的融合特征。
116.s904：特征交互。
117.通过k
‑
近邻算法(k
‑
nearest neighbor algorithm，knn)找到每个检测框最邻近的检测框，通过fcn将其整合至一起，获得邻接矩阵。
118.s905：匹配关系预测。
119.将邻接矩阵输入至分类模型，通过分类模型预测每两个检测框至今是否具有匹配关系。
120.s906：邻接矩阵解析。
121.采用s2031
‑
s2034的方式对邻接矩阵进行解析，获得匹配成功的字段名称和字段内容，并作为结构化信息进行输出。适用于各类信息录入等场景，节省人力成本，提高企业效率。
122.通过构造用于来衡量结构化信息抽取的精度的数据集对本技术实施例提供的图
像信息输出方法进行评价，如表1所示，召回率为92.49％，准确率为93.77％。
123.表1结构化信息抽取指标
[0124] 召回率准确率结构化信息抽取92.49％93.77％
[0125]
其中，在评价指标中，召回率是指在数据集存在的信息中，待提取对象提取正确的字段所占的比例；准确率是指在预测的信息中，待提取对象提取正确的信息所占的比例。
[0126]
针对上述实施例提供的图像信息输出方法，本技术实施例还提供了一种图像信息输出装置。
[0127]
参见图10，该图为本技术实施例提供的一种图像信息输出装置的示意图。如图10所示，该图像输出装置1000包括：获取单元1001、识别单元1002、匹配单元1003和输出单元1004；
[0128]
所述获取单元1001，用于获取目标图像，所述目标图像包括多条具有结构化关系的字段名称和字段内容；
[0129]
所述识别单元1002，用于识别所述目标图像中的多个待提取对象，所述多个待提取对象包括多个字段名称和所述目标图像中的多个字段内容；
[0130]
所述匹配单元1003，用于根据相对位置约束规则，对所述多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容，所述相对位置约束规则用于标识具有所述结构化关系的字段名称和字段内容的相对位置；
[0131]
所述输出单元1004，用于输出所述匹配成功的字段名称和字段内容。
[0132]
作为一种可能的实现方式，所述匹配单元1003，用于：
[0133]
根据相对位置约束规则，获取与第一待提取对象匹配的至少一个第二待提取对象；
[0134]
将所述第一待提取对象与所述第二待提取对象放入一个集合中；
[0135]
若所述集合中字段名称具有多个，根据所述集合中字段名称间的相对位置确定所述集合中字段名称的排布顺序；若所述集合中字段内容具有多个，根据所述集合中字段内容间的相对位置确定所述集合中字段内容的排布顺序；
[0136]
根据所述排布顺序对所述第一待提取对象和所述第二待提取对象进行排序，获得匹配成功的字段名称和字段内容。
[0137]
作为一种可能的实现方式，所述匹配单元1003，用于：
[0138]
将所述待提取对象的特征，以及与所述待提取对象位置相邻的其他待提取对象的特征进行交互，获得所述待提取对象的交互特征；
[0139]
根据相对位置约束规则和所述待提取对象的交互特征，对所述多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容。
[0140]
作为一种可能的实现方式，所述匹配单元1003将所述待提取对象的特征，以及与所述待提取对象位置相邻的其他待提取对象的特征进行交互，获得所述待提取对象的交互特征之前，所述装置1000，还用于：
[0141]
提取所述待提取对象的原始特征，所述原始特征包括图像特征、位置特征和语义特征中的至少一种；
[0142]
若所述待提取对象的原始特征包括多种，将所述待提取对象的原始特征进行融
合，获得所述待提取对象的特征。
[0143]
作为一种可能的实现方式，所述识别单元1002，用于：
[0144]
根据带标签的文本检测网络识别所述目标图像中的多个待提取对象，所述带标签的文本检测网络中的标签包括字段名称类标签和字段内容类标签。
[0145]
作为一种可能的实现方式，所述带标签的文本检测网络中的标签还包括背景区域类标签。
[0146]
作为一种可能的实现方式，所述目标图像为证照图像、证书图像、单据图像、票据图像中的至少一种。
[0147]
上述实施例提供的图像信息输出装置，针对包括多条具有结构化关系的字段名称和字段内容的目标图像，不再根据对应的模板获取目标图像中的字段内容，而是获取目标图像中的多个字段名称和多个字段内容，将多个字段名称和多个字段内容作为待提取对象，根据相对位置约束规则，对多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容，其中，相对位置约束规则用于标识具有结构化关系的字段名称和字段内容的相对位置，能够根据多个待提取对象间的相对位置，从多个待提取对象中获取匹配成功字段名称和字段内容，从而输出匹配成功的字段名称和字段内容，实现按照结构化关系输出目标图像中包括的字段名称和字段内容。由此，通过获取目标图像中的多个字段名称和多个字段内容，然后对多个字段名称和多个字段内容分别进行匹配，按照结构化关系获得匹配成功的字段名称和字段内容，从而无需为每一种目标图像设计对应的模板便能够实现结构化信息的提取，提高了泛化能力，适用于多种信息录入场景。
[0148]
本技术实施例还提供了一种计算机设备，下面将从硬件实体化的角度对本技术实施例提供的计算机设备进行介绍。
[0149]
参见图11，图11是本技术实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。
[0150]
服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
[0151]
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
[0152]
其中，cpu 1422用于执行如下步骤：
[0153]
获取目标图像，所述目标图像包括多条具有结构化关系的字段名称和字段内容；
[0154]
识别所述目标图像中的多个待提取对象，所述多个待提取对象包括多个字段名称和所述目标图像中的多个字段内容；
[0155]
根据相对位置约束规则，对所述多个待提取对象进行匹配，获得匹配成功的字段名称和字段内容，所述相对位置约束规则用于标识具有所述结构化关系的字段名称和字段
内容的相对位置；
[0156]
输出所述匹配成功的字段名称和字段内容。
[0157]
可选的，cpu 1422还可以执行本技术实施例中图像信息输出方法任一具体实现方式的方法步骤。
[0158]
针对上文描述的图像信息输出方法，本技术实施例还提供了一种用于图像信息输出的终端设备，以使上述图像信息输出方法在实际中实现以及应用。
[0159]
参见图12，图12为本技术实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本技术实施例相关的部分，具体技术细节未揭示的，请参照本技术实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，简称pda)等任意终端设备，以终端设备为手机为例：
[0160]
图12示出的是与本技术实施例提供的终端设备相关的手机的部分结构的框图。参考图12，该手机包括：射频(radio frequency，简称rf)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，简称wifi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0161]
下面结合图12对手机的各个构成部件进行具体的介绍：
[0162]
rf电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，rf电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，简称lna)、双工器等。此外，rf电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，简称gsm)、通用分组无线服务(general packet radio service，简称gprs)、码分多址(code division multiple access，简称cdma)、宽带码分多址(wideband code division multiple access，简称wcdma)、长期演进(long term evolution，简称lte)、电子邮件、短消息服务(short messaging service，简称sms)等。
[0163]
存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0164]
输入单元1530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测
装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0165]
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(liquid crystal display，简称lcd)、有机发光二极管(organic light
‑
emitting diode，简称oled)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图12中，触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。
[0166]
手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
[0167]
音频电路1560、扬声器1561，传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经rf电路1510以发送给比如另一手机，或者将音频数据输出至存储器1520以便进一步处理。
[0168]
wifi属于短距离无线传输技术，手机通过wifi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了wifi模块1570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。
[0169]
处理器1580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。
[0170]
手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源
管理系统与处理器1580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0171]
尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。
[0172]
在本技术实施例中，该手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。
[0173]
该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的图像信息输出方法。
[0174]
本技术实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的图像信息输出方法。
[0175]
本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的图像信息输出方法。
[0176]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read
‑
only memory，缩写：rom)、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0177]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0178]
以上所述，仅为本技术的一种具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于数据特征的大规模数据质量异常检测方法与流程

一种图像信息输出方法和相关装置与流程

相关文献

最热文献