图像处理方法、装置、电子设备及存储介质与流程

2022-06-08 16:07:03 来源：中国专利 TAG：

1.本公开涉及光学字符识别、图像识别和计算机技术领域，尤其涉及图像处理方法、装置、电子设备及存储介质。

背景技术：

2.文档智能是指通过人工智能技术对网页、图片、扫描文档或数字文档所包含的文本信息、排版格式等信息进行理解、分类、提取及信息归纳的过程。文档智能是数字化进程中的重要环节。然而，在实际应用场景中，待处理的文档通常存在多样性和复杂性，文档智能技术也面临相应的挑战。如何对复杂文档进行结构化分析和内容抽取成为文档智能技术中的重要挑战之一。
3.相关技术中，对复杂文档进行结构化分析和内容抽取的方法主要有以下两种，两种方法各有优劣。
4.第一种方法：采用基于深度学习的文档ocr技术识别文档结构，能够在感知层面上重构文档，进而进行内容抽取。然而，这种方法的缺陷在于：不能确定目标文档区域，对复杂文档进行信息抽取的难度较大。
5.第二种方法：采用基于图像形态的框线(如文档边框线、表格框线等)检测技术和后处理规则的方法识别文档结构并确定目标区域，，进而进行内容抽取。然而这种方法的缺陷在于：仅适用于包含框线的文档，无法进行无框线文档识别；使用后处理规则导致灵活性较低。
6.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

7.本公开提供了图像处理方法、装置、电子设备及存储介质，以至少解决现有技术中提供的目标区域处理方法其目标区域检测精度低、目标信息抽取难度大的技术问题。
8.根据本公开其中一实施例，提供了一种图像处理方法，包括：获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域；对待处理图像进行光学字符识别，得到识别结果；基于识别结果从第一目标区域中获取多个第一候选框；利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域；对部分图像进行检测，得到第二目标区域对应的目标键值对信息。
9.根据本公开其中一实施例，还提供了一种图像处理的装置，包括：第一获取模块，用于获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域；识别模块，用于对待处理图像进行光学字符识别，得到识别结果；第二获取模块，用于基于识别结果从第一目标区域中获取多个第一候选框；截取模块，用于利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域；处理模块，用于对部分图像进行检测，得到第二目标区域对应的目标键值对信
息。
10.根据本公开其中一实施例，还提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的图像处理方法。
11.根据本公开其中一实施例，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的图像处理方法。
12.根据本公开其中一实施例，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的图像处理方法。
13.本公开的实施例中，获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域，通过对待处理图像进行光学字符识别，得到识别结果，并基于识别结果从第一目标区域中获取多个第一候选框，利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域，进而对部分图像进行检测，得到第二目标区域对应的目标键值对信息，达到了以灵活、精准的方式解构复杂表格、确定目标表格区域并抽取目标表格信息的目的，实现了提高目标区域检测精度、降低目标信息抽取难度的技术效果，解决了相关技术提供的目标区域处理方法其目标区域检测精度低、目标信息抽取难度大的技术问题。
14.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
15.附图用于更好地理解本方案，不构成对本公开的限定。其中：
16.图1是根据本公开实施例的一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图；
17.图2是根据本公开实施例提供的一种图像处理方法的流程图；
18.图3是根据本公开实施例的一种可选的文档图像表格区域的处理过程的示意图；
19.图4是根据本公开实施例的一种可选的文档图像表格区域的示意图；
20.图5是根据本公开实施例的一种可选的文档图像表格区域的识别结果的示意图；
21.图6是根据本公开实施例的一种可选的文档图像表格区域的划分结果的示意图；
22.图7是根据本公开实施例的提供的一种图像处理装置的结构框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
24.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.根据本公开实施例，提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
26.本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图1是根据本公开实施例的一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。
27.如图1所示，计算机终端100包括计算单元101，其可以根据存储在只读存储器(rom)102中的计算机程序或者从存储单元108加载到随机访问存储器(ram)103中的计算机程序，来执行各种适当的动作和处理。在ram 103中，还可存储计算机终端100操作所需的各种程序和数据。计算单元101、rom 102以及ram 103通过总线104彼此相连。输入/输出(i/o)接口105也连接至总线104。
28.计算机终端100中的多个部件连接至i/o接口105，包括：输入单元106，例如键盘、鼠标等；输出单元107，例如各种类型的显示器、扬声器等；存储单元108，例如磁盘、光盘等；以及通信单元109，例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
29.计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元108。在一些实施例中，计算机程序的部分或者全部可以经由rom 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到ram 103并由计算单元101执行时，可以执行本文描述的定位故障硬盘的方法的一个或多个步骤。备选地，在其他实施例中，计算单元101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行定位故障硬盘的方法。
30.本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装
置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
31.此处需要说明的是，在一些可选实施例中，上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。
32.在上述运行环境下，本公开提供了如图2所示的图像处理方法，该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种图像处理方法的流程图。如图2所示，该方法可以包括如下步骤：
33.步骤s21，获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域；
34.可选地，上述待处理图像可以是待识别或待提取信息的图像，该待处理图像可以是pdf文档的单页图像、电子表格截图、电子文档截图、打印表格的照片、打印文档的照片等。
35.可选地，上述待处理图像的显示内容可以包括：上述第一目标区域。该第一目标区域可以是复杂表格区域，例如：包含合并单元格、拆分单元格、固定单元格、填充复杂内容单元格的表格区域。
36.步骤s22，对待处理图像进行光学字符识别，得到识别结果；
37.可选地，上述光学字符识别(optical character recognition，简称ocr)是指电子设备检查纸上打印的字符或图片显示的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将其形状翻译成计算机文字的过程。
38.可选地，对上述待处理图像进行ocr，可以得到上述识别结果。该识别结果可以包括与该待处理图像对应的多个计算机文字及其在图像中的相对位置。
39.步骤s23，基于识别结果从第一目标区域中获取多个第一候选框；
40.可选地，基于上述待处理图像的ocr识别结果，可以从上述第一目标区域中，获取上述多个第一候选框。该第一目标区域可以是待处理图像中的复杂表格区域，该多个第一候选框可以是该复杂表格区域中的多个文字显示区域。
41.步骤s24，利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域；
42.可选地，利用上述多个第一候选框，可以从上述待处理图像中截取部分图像，该部分图像的显示内容包括：第二目标区域。该第二目标区域为上述第一目标区域中的部分区域。该第一目标区域可以是待处理图像中的复杂表格区域，该第二目标区域可以是该复杂表格区域中的简单表格子区域。
43.具体地，上述复杂表格区域可以包含多个子区域。上述第二目标区域可以是该复杂表格区域的多个子区域中不包含复杂情况(如合并单元格、拆分单元格、固定单元格、填充复杂内容单元格)的子区域。
44.步骤s25，对部分图像进行检测，得到第二目标区域对应的目标键值对信息。
45.可选地，对从待处理图像中截取的部分图像进行检测，可以得到上述第二目标区域对应的上述目标键值对信息。该第二目标区域可以是复杂表格区域中的简单表格子区域，该目标键值对信息可以是需要从该待处理图像中提取的键值对信息。
46.具体地，图像处理方法包括的其他方法步骤还可以参照下文中对于本公开实施例的进一步介绍，此处不予赘述。
47.本公开的实施例中，获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域，通过对待处理图像进行光学字符识别，得到识别结果，并基于识别结果从第一目标区域中获取多个第一候选框，利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域，进而对部分图像进行检测，得到第二目标区域对应的目标键值对信息，达到了以灵活、精准的方式解构复杂表格、确定目标表格区域并抽取目标表格信息的目的，实现了提高目标区域检测精度、降低目标信息抽取难度的技术效果，解决了相关技术提供的目标区域处理方法其目标区域检测精度低、目标信息抽取难度大的技术问题。
48.下面对该实施例的上述方法进行进一步介绍。
49.作为一种可选的实施方式，在步骤s23中，基于识别结果从第一目标区域中获取多个第一候选框，还包括以下方法步骤：
50.步骤s231，从识别结果中抽取文本特征和图像特征；
51.步骤s232，利用目标神经网络模型对文本特征和图像特征进行分析，从第一目标区域中获取多个第一候选框，其中，目标神经网络模型使用多组数据通过机器学习训练得到，多组数据中的每组数据均包括：样本图像和样本图像中标识出的多个候选框。
52.在上述可选的实施方式中，上述识别结果可以是待处理图像的ocr结果。从该识别结果中可以抽取上述文本特征和上述图像特征。该文本特征可以用于描述该待处理图像中包含的文本信息。该图像特征可以用于描述该待处理图像中包含的文本信息的位置信息。
53.在上述可选的实施方式中，上述目标神经网络可以是使用多组数据通过机器学习训练得到的模型。该目标神经网络模型可以用于分析上述待处理图像的文本特征和图像特征。该多组数据中的每组数据均包括：上述样本图像以及上述样本图像中标识出的多个候选框。
54.特别地，在训练上述目标神经网络的过程中，多组数据中每组数据的样本图像以及该样本图像中标识出的多个候选框可以是实际应用场景中技术人员根据需求预先指定的。多组数据中每组数据的样本图像以及该样本图像中标识出的多个候选框还可以是在该模型的训练过程中实时更新的。
55.在上述可选的实施方式中，利用上述目标神经网路模型可以对从上述识别结果中抽取的文本特征和图像特征进行分析，以此从上述第一目标区域中获取上述多个第一候选框。该第一目标区域可以是待处理图像中的复杂表格区域，该多个第一候选框可以是该复杂表格区域中的多个文字显示区域。
56.作为一种可选的实施方式，在步骤s231中，从识别结果中抽取文本特征和图像特征，还包括以下方法步骤：
57.步骤s2311，对识别结果进行数据标注，得到目标标注结果；
58.步骤s2312，对目标标注结果进行预处理，得到文本特征和图像特征。
59.在上述可选的实施方式中，识别结果可以是待处理图片的ocr结果。对该识别结果进行数据标注可以是使用一个或多个标记对该ocr结果进行标注。通过该数据标注过程可以得到上述目标标注结果。
60.在上述可选的实施方式中，对上述目标标注结果进行预处理，可以得到上述文本特征和上述图像特征。该文本特征可以用于描述该待处理图像中包含的文本信息。该图像特征可以用于描述该待处理图像中包含的文本信息的位置信息。
61.具体地，对识别结果进行数据标注，以及对目标标注结果进行预处理还可以参照下文中的进一步介绍，此处不予赘述。
62.作为一种可选的实施方式，在步骤s2311中，对识别结果进行数据标注，得到目标标注结果，还包括以下方法步骤：
63.步骤s1101，在识别结果中，采用第一标记标注多个第一候选框，以及采用第二标记标注多个第二候选框，得到初始标注结果，其中，第一标记与第二标记用于区分候选框所在的目标区域；
64.步骤s1102，按照预设数据集格式对初始标注结果进行转换，得到目标标注结果。
65.在上述可选的实施方式中，识别结果可以是上述待处理图像的ocr结果。在该识别结果中，可以采用上述第一标记标注上述多个第一候选框，还可以采用上述第二标记标注上述多个第二候选框，由此可以得到上述初始标注结果。
66.可选地，上述第一标记与上述第二标记可以用于区分上述候选框所在的目标区域。上述多个第一候选框可以是待处理图像的复杂表格区域中的多个文字显示区域，上述多个第二候选框可以是待处理图像的简单表格区域中的多个文字显示区域。对应地，该第一标记可以是与复杂表格区域对应的标记，该第二标记可以是与简单表格区域对应的标记。
67.可选地，上述初始标记结果中可以包括：识别结果、多个第一候选框及其对应的第一标记、多个第二候选框及其对应的第二标记。
68.在上述可选的实施方式中，预设数据集格式可以是在实际应用场景中技术人员根据需求预先设置的数据集格式。按照该预设数据集格式对上述初始标注结果进行转换，可以得到目标标注结果。
69.图3是根据本公开实施例的一种可选的文档图像表格区域的处理过程的示意图，如图3所示，文档图像表格区域的处理过程中，首先，获取文档图像fig01(相当于上述待处理图像)，该文档图像包括表格区域sheet01。
70.图4是根据本公开实施例的一种可选的文档图像表格区域的示意图，如图4所示为上述文档图像fig01中包含的表格区域sheet01(相当于上述第一目标区域)。
71.仍然如图3所示，文档图像表格区域的处理过程还包括文本位置信息处理过程。通过ocr服务(如应用程序软件中提供的文档识别ocr接口)对该文档图像fig01进行ocr识别，得到识别结果，记为fig01_ocr。
72.可选地，当待处理的图像为pdf文档时，在文本位置信息处理过程中，还可以包括使用pdf解析器对该pdf文档进行解析。
73.图5是根据本公开实施例的一种可选的文档图像表格区域的识别结果的示意图，如图5所示，经过ocr服务，可以识别表格中的文字显示区域(如图中黑框区域所示，相当于上述多个第一候选框)，可以将表格中多个文字显示区域中每个文字显示区域称为一个bbox。
74.可选地，上述识别结果fig01_ocr可以包括：表格区域sheet01中每个bbox的文本
信息、表格区域sheet01中每个bbox的位置坐标、表格区域sheet01中每个bbox中字符粒度的文本及该字符粒度的文本的位置坐标等。
75.图6是根据本公开实施例的一种可选的文档图像表格区域的划分结果的示意图，如图6所示，文档图像fig01中包含的表格区域sheet01可以被划分为简单表格子区域sheet01_e(如图6中所示的阴影部分区域，相当于上述第二目标区域)和复杂表格子区域sheet01_c(如图6中所示的除阴影部分外的其他区域)。
76.容易注意到的是，上述简单表格子区域sheet01_e中不包含合并单元格、拆分单元格等复杂情况。在实际应用场景中，类似的简单表格子区域便于用户从中抽取目标信息，在对整个文档的识别过程中，可以先从该文档中解构出简单表格子区域进行简单信息抽取，以优化文档识别过程。
77.仍然如图3所示，文档图像表格区域的处理过程还包括图像特征抽取过程。在该图像抽取过程中，通过特征图和resnet特征网络，从识别结果fig01_ocr中抽取文本特征和图像特征。
78.具体地，从识别结果fig01_ocr中抽取文本特征和图像特征可以包括两个阶段：数据标注阶段、数据预处理阶段。
79.具体地，在上述数据标注阶段中，首先，对识别结果fig01_ocr中所有的bbox进行标注：将简单表格子区域sheet01_e(如图6中所示的阴影部分区域，相当于上述第二目标区域)中的部分bbox标记为t_bbox；将复杂表格子区域sheet01_c(如图6中所示的除阴影部分外的其他区域)中的部分bbox标记为o_bbox。
80.具体地，在上述数据标注阶段中，其次，将整个表格区域sheet01中所有标记后的bbox(相当于上述初始标注结果)转换成xfun数据集的格式(相当于上述预设数据集格式)。
81.需要说明的是，上述xfun数据集是一个公开的数据集。将整个表格区域sheet01中所有标记后的bbox转换成xfun数据集的格式可以便于使用现有的应用程序编程接口(api)生成训练数据集，进而便于输入神经网络模型进行训练；还可以便于后续调用该数据集。
82.可选地，在上述数据标注阶段中，可以仅关注每个bbox所述的区域，为属于不同区域的bbox标注不同的标记，可以不关注多个bbox之间的关系。
83.作为一种可选的实施方式，在步骤s2312中，对目标标注结果进行预处理，得到文本特征和图像特征，还包括以下方法步骤：
84.步骤s1201，采用序列标注方式对目标标注结果进行转化，得到第一处理结果；
85.步骤s1202，对目标数据单位内包含的多个第三候选框所显示的文本字段进行连接，得到第二处理结果；
86.步骤s1203，基于第一处理结果与第二处理结果，对多个第三候选框中每个候选框的属性信息进行封装，得到第三处理结果，其中，属性信息包括：多个第三候选框中每个候选框所显示的文本字段在第二处理结果中的起始索引与结束索引，多个第三候选框中每个候选框在第二处理结果中对应的标签；
87.步骤s1204，对第三处理结果进行分词，得到第四处理结果；
88.步骤s1205对待处理图像进行尺寸调整，得到第五处理结果；
89.步骤s1206，利用第一处理结果、第二处理结果、第三处理结果、第四处理结果以及第五处理结果，确定文本特征和图像特征。
90.在上述可选的实施方式中，可以采用序列标注方式对上述目标标注结果进行转化，进而得到上述第一处理结果。该序列标注方式的输入为一个序列，输出也为一个序列。
91.在上述可选的实施方式中，对上述目标数据单位内包含的上述多个第三候选框所显示的文本字段进行连接，可以得到上述第二处理结果。该多个第三候选框为该目标数据单位中包含的多个文字显示区域。将该多个第三候选框显示的文本字段连接后得到的该第二处理结果可以是对应的文档内容。
92.在上述可选的实施方式中，上述多个第三候选框中每个候选框均包含属性信息。该属性信息可以包括：该多个第三候选框中每个候选框所显示的文本字段在上述第二处理结果中的起始索引(如开始位置坐标)与结束索引(如结束位置坐标)；该多个第三候选框中每个候选框在上述第二处理结果中对应的标签。
93.在上述可选的实施方式中，基于上述第一处理结果和上述第二处理结果，可以对上述多个第三候选框中每个候选框的上述属性信息进行封装，进而得到上述第三处理结果。可选地，该封装可以是实体名封装。
94.在上述可选的实施方式中，对上述第三处理结果进行分词，可以得到上述第四处理结果。可选地，该分词过程可以是对文本数据分词得到文本分词结果，并将该文本分词结果转化为分词标识。
95.在上述可选的实施方式中，对上述待处理图像进行尺寸调整，可以得到上述第五处理结果。可选地，上述尺寸调整可以是按照预设尺寸规则调整该待处理图像的尺寸的大小。将该调整后的待处理图像作为该第五处理结果。
96.在上述可选的实施方式中，利用上述第一处理结果、上述第二处理结果、上述第三处理结果、上述第四处理结果以及上述第五处理结果，可以确定上述待处理图像的上述文本特征和上述图像特征。该文本特征可以用于描述该待处理图像中包含的文本信息。该图像特征可以用于描述该待处理图像中包含的文本信息的位置信息。
97.仍然如图3所示，在图像特征抽取过程中，从识别结果fig01_ocr中抽取文本特征和图像特征可以包括两个阶段：数据标注阶段、数据预处理阶段。
98.具体地，上述数据预处理阶段可以包括如下方法步骤：
99.步骤s261，获取预设的模型训练样本数据sample(相当于上述目标数据单位)，该模型训练样本数据sample经ocr识别和数据标注(包含t或者o标记)，包含多个文字框sample_bbox(相当于上述多个第三候选框)；
100.步骤s262，使用bio标注方式(相当于上述序列标注方式)将多个文字框sample_bbox的标记(上述t或者o)转化为token标签，将所有bbox及转化后的标签记为labels(相当于上述第一处理结果)；
101.步骤s263，获取模型训练样本数据sample中多个文字框sample_bbox中的文本字段按照预设顺序(如从上到下和从左到右)进行连接，从而得到对应的训练样本文档sample_text(相当于上述第二处理结果)；
102.步骤s264，根据训练样本文档sample_text，对多个文字框sample_bbox的转化后的标签labels进行封装，得到封装结果entities(相当于上述第三处理结果)；
103.步骤s265，对上述封装结果entities进行分词，将分词后对应的标签labels中的token标签转化为token_id,将所有bbox及转化后的token_id记为input_ids(相当于上述
第四处理结果)；
104.步骤s266，将文档图像fig01(相当于上述待处理图像)的尺寸大小调整为3
×
224
×
224，将调整后的文档图像记为image(相当于上述第五处理结果)；
105.步骤s267，对上述sample_bbox以及对应的input_ids、labels、entities、image进行封装，得到封装结果；
106.步骤s268，将上述封装结果输入预设数据加载器类中进行迭代并添加注意力掩膜attention_mask；
107.步骤s269，由bbox的text字段值确定文本数据(相当于上述文本特征)，以及由调整后的文档图像image确定图像数据(相当于上述图像特征)。
108.需要说明的是，在上述步骤s262中，bio标注方式是指将每个bbox标注为“b-x”、“i-x”或者“o”三种token标签的方式。其中，某bbox的token标签为“b-x”表示该bbox所在的片段属于x类型并且此bbox在此片段的开头，某bbox的token标签为“i-x”表示该bbox所在的片段属于x类型并且此bbox在此片段的中间位置，某bbox的token标签为“o”表示该bbox不属于任何类型。特别地，这里“片段”可以是text文档。此外，
109.需要说明的是，在上述步骤s268中，预设数据加载器类可以是python语言下的一个类，数据加载器类可以将训练数据封装为迭代器，在该迭代器中，可以依次取出一个预设大小的数据集或样本输入模型进行训练。此外，通过添加注意力掩膜attention_mask可以避免后续在神经网络模型中用注意力机制时关注填充符。
110.作为一种可选的实施方式，目标神经网络模型包括：嵌入层、特征融合提取层，在步骤s232中，利用目标神经网络模型对文本特征和图像特征进行分析，从第一目标区域中获取多个第一候选框，还包括以下方法步骤：
111.步骤s2321，将文本特征输入至嵌入层，得到第一输出结果，以及将图像特征输入至嵌入层，得到第二输出结果；
112.步骤s2322，在特征融合提取层中，对第一输出结果和第二输出结果进行特征融合提取，得到第三输出结果；
113.步骤s2323，从第三输出结果中获取文本序列；
114.步骤s2324，对文本序列进行语义实体识别，从第一目标区域中获取多个第一候选框。
115.在上述可选的实施方式中，用于分析待处理图像的文本特征和图像特征的目标神经网络模型可以至少包括：嵌入层、特征融合提取层。
116.在上述可选的实施方式中，将上述待处理图像的文本特征输入上述目标神经网络模型的嵌入层，从而可以得到上述第一输出结果。将上述待处理图像的图像特征输入上述目标神经网络的嵌入层，从而可以得到上述第二输出结果。
117.在上述可选的实施方式中，在上述目标神经网络中，将嵌入层输出的第一输出结果和第二输出结果输入特征融合层中。特征融合层可以对该第一输出结果和该第二输出结果进行特征融合提取，从而得到上述第三输出结果。
118.在上述可选的实施方式中，基于上述特征融合层得到的第三输出结果，可以从中获取上述文本序列。进而，通过对该文本序列进行语义实体识别，可以从上述第一目标区域中获取上述多个第一候选框。
119.仍然如图3所示，文档图像表格区域的处理过程还包括使用目标神经网络(相当于图3中的文本及位置嵌入层和特征融合提取层)分析文本数据和图像数据的过程。
120.具体地，在目标神经网络的文本及位置嵌入层中，可以基于文本数据(相当于上述文本特征)和图像数据(相当于上述图像特征)进行部分嵌入、文本嵌入、一维嵌入、二维嵌入和视觉嵌入，以分别得到文本特征嵌入结果(相当于上述第一输出结果)和图像特征嵌入结果(相当于上述第二输出结果)。
121.具体地，在目标神经网络的特征融合提取层中，可以对上述文本特征嵌入结果和上述图像特征嵌入结果进行特征融合提取，从而得到特征融合提取结果(相当于上述第三输出结果)。
122.仍然如图3所示，根据目标神经网络的特征融合提取层输出的结果，可以获取文本序列(sequence)和图像image。
123.仍然如图3所示，可以设置条件随机场层(conditional random field layers)和全连接层(fully connected layers)，用于对获取的文本序列(sequence)和图像image进行微调，得到输出结果。
124.具体地，通过条件随机场层(conditional random field layers)可以对文本序列(sequence)进行语义实体识别，从而从文档图像fig01中包含的表格区域sheet01中获取多个bbox。特别地，该语义实体识别中的实体可以是简单表格子区域中的bbox。
125.需要说明的是，在特征融合提取层中，与相关技术中使用能够捕捉基于绝对位置的token标签之间的关系的自注意力机制相比，使用基于空间感知的自注意力机制实现的转换器(transformer)能够充分利用语义相对位置和空间相对位置计算注意力权重，还可以捕捉到文档布局中的局部不变性，具有明显的有益效果。
126.作为一种可选的实施方式，在步骤s24中，利用多个第一候选框从待处理图像截取部分图像，还包括以下方法步骤：
127.步骤s241，利用多个第一候选框的坐标信息确定第二目标区域；
128.步骤s242，按照第二目标区域从待处理图像截取部分图像。
129.在上述可选的实施方式中，多个第一候选框可以是待处理图像的复杂表格区域中的多个文字显示区域。该多个第一候选框中每个第一候选框可以包含该候选框的坐标信息。利用该多个第一候选框的坐标信息，可以确定上述第二目标区域(还可以包括该第二目标区域的坐标信息)。
130.在上述可选的实施方式中，第二目标区域可以是待处理图像的复杂表格区域中的简单表格子区域。按照该第二目标区域(还可以按照该第二目标区域的坐标信息)，可以从该待处理图像中截取部分图像。该待处理图像中包括复杂表格区域，该截取的部分图像是该待处理图像的复杂表格区域中的简单表格子区域图像。
131.仍然以对文档图像fig01中的表格区域sheet01进行处理为例，从目标神经网络模型中可以得到该表格区域sheet01中的多个bbox对应的token标签，可以将“b-t”和“i-t”两种token标签对应的部分bbox合并成属于t标签的t_bbox集合。该t_bbox集合中的部分bbox的每个bbox可以包含该bbox的位置坐标(如可以包括x坐标、y坐标)。
132.仍然以对文档图像fig01中的表格区域sheet01进行处理为例，利用上述t_bbox集合中每个bbox的位置坐标，可以确定表格区域sheet01中的简单表格子区域sheet01_e。具
体地，根据该位置坐标确定简单表格子区域sheet01_e的方法可以是：在t_bbox集合中每个bbox的位置坐标中取x坐标、y坐标的最小值作为简单表格子区域sheet01_e的左上角坐标；在t_bbox集合中每个bbox的位置坐标中取x坐标、y坐标的最大值作为简单表格子区域sheet01_e的右下角坐标；根据该左上角坐标和该右下角坐标即可确定简单表格子区域sheet01_e。
133.仍然以对文档图像fig01中的表格区域sheet01进行处理为例，按照简单表格子区域sheet01_e可以从文档图像fig01中截取该简单表格子区域sheet01_e对应的部分图像fig01_e(如从图6中所示的所有区域中截取阴影部分图像)。
134.仍然以对文档图像fig01中的表格区域sheet01进行处理为例，可以对部分图像fig01_e进行检测，进而得到简单表格子区域sheet01_e对应的目标键值对信息。
135.需要说明的是，针对文档图像中的框线表格，可以采用基于图像形态学的框线检测技术和后处理规则的方法，得到目标键值对信息。对于文档图像中的无框线表格，可以采用本公开实施方式提供的基于深度学习的复杂表格ocr技术进行处理，进而得到目标键值对信息。
136.容易注意到的是，根据本公开实施方式提供的方法，可以对含有复杂表格的文档图片(或者pdf文档)进行解构，进而检测得到简单表格区域。因此，本公开实施方式的有益效果之一可以是：便于后续基于深度学习的表格ocr技术或者基于图像形态学的框线检测技术在简单表格区域抽取目标信息。
137.容易注意到的是，本公开实施方式的上述方法可以是一种基于layoutxlm预训练模型的面向复杂表格pdf扫描件目标区域的信息抽取方法。不同于基于计算机视觉技术的图像语义分割或目标区域检测技术，本方法既利用了文档中表格单元格的位置描述的图像语义，又利用了表格单元格的文本信息的文本语义，是一种针对目标区域监测的多模态解决方案。因此，本公开实施方式的有益效果之一可以是：由于采用了多模态的解决方案，提高了目标区域监测的准确度和方案的灵活性、稳定性。
138.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例所述的方法。
139.在本公开中还提供了一种图像处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
140.图7是根据本公开实施例的提供的一种图像处理装置的结构框图，如图7所示，图像处理装置700包括：第一获取模块701，用于获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域；识别模块702，用于对待处理图像进行光学字符识别，得到识别结果；第二获取模块703，用于基于识别结果从第一目标区域中获取多个第一候选框；截取模块704，用于利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容
包括：第二目标区域，第二目标区域为第一目标区域中的部分区域；处理模块705，用于对部分图像进行检测，得到第二目标区域对应的目标键值对信息。
141.可选地，第二获取模块703还用于：从识别结果中抽取文本特征和图像特征；利用目标神经网络模型对文本特征和图像特征进行分析，从第一目标区域中获取多个第一候选框，其中，目标神经网络模型使用多组数据通过机器学习训练得到，多组数据中的每组数据均包括：样本图像和样本图像中标识出的多个候选框。
142.可选地，第二获取模块703还用于：对识别结果进行数据标注，得到目标标注结果；对目标标注结果进行预处理，得到文本特征和图像特征。
143.可选地，第二获取模块703还用于：在识别结果中，采用第一标记标注多个第一候选框，以及采用第二标记标注多个第二候选框，得到初始标注结果，其中，第一标记与第二标记用于区分每个候选框所在的目标区域；按照预设数据集格式对初始标注结果进行转换，得到目标标注结果。
144.可选地，第二获取模块703还用于：采用序列标注方式对目标标注结果进行转化，得到第一处理结果；对目标数据单位内包含的多个第三候选框所显示的文本字段进行连接，得到第二处理结果；基于第一处理结果与第二处理结果，对多个第三候选框中每个候选框的属性信息进行封装，得到第三处理结果，其中，属性信息包括：多个第三候选框中每个候选框所显示的文本字段在第二处理结果中的起始索引与结束索引，多个第三候选框中每个候选框在第二处理结果中对应的标签；对第三处理结果进行分词，得到第四处理结果；对待处理图像进行尺寸调整，得到第五处理结果；利用第一处理结果、第二处理结果、第三处理结果、第四处理结果以及第五处理结果，确定文本特征和图像特征。
145.可选地，目标神经网络模型包括：嵌入层、特征融合提取层，第二获取模块703还用于：将文本特征输入至嵌入层，得到第一输出结果，以及将图像特征输入至嵌入层，得到第二输出结果；在特征融合提取层中，对第一输出结果和第二输出结果进行特征融合提取，得到第三输出结果；从第三输出结果中获取文本序列；对文本序列进行语义实体识别，从第一目标区域中获取多个第一候选框。
146.可选地，截取模块704还用于：利用多个第一候选框的坐标信息确定第二目标区域；按照第二目标区域从待处理图像截取部分图像。
147.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
148.根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。
149.可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
150.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
151.步骤s1，获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域；
152.步骤s2，对待处理图像进行光学字符识别，得到识别结果；
153.步骤s3，基于识别结果从第一目标区域中获取多个第一候选框；
154.步骤s4，利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域；
155.步骤s5，对部分图像进行检测，得到第二目标区域对应的目标键值对信息。
156.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
157.根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。
158.可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
159.步骤s1，获取待处理图像，其中，待处理图像的显示内容包括：第一目标区域；
160.步骤s2，对待处理图像进行光学字符识别，得到识别结果；
161.步骤s3，基于识别结果从第一目标区域中获取多个第一候选框；
162.步骤s4，利用多个第一候选框从待处理图像截取部分图像，其中，部分图像的显示内容包括：第二目标区域，第二目标区域为第一目标区域中的部分区域；
163.步骤s5，对部分图像进行检测，得到第二目标区域对应的目标键值对信息。
164.可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于：u盘、只读存储器(rom)、随机存取存储器(ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
165.根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的图像处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
166.上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。
167.在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
168.在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
169.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
170.另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
171.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom)、随机存取存储器(ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
172.以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种分发信息流资源的方法、装置、电子设备及存储介质与流程

图像处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献