基于单元格约束的表格结构识别方法及其应用与流程

2023-01-02 16:17:17 来源：中国专利 TAG：

1.本技术涉及表格识别技术领域，特别是一种涉及基于单元格约束的表格结构识别方法及其应用。

背景技术：

2.在实际应用中，电子文档的关键信息通常以表格形式总结。由于广泛使用的电子文档格式不保留完整表格结构信息，因此需要精确的表格结构识别技术，系统的提取表格内容并用于后续分析。
3.目前表格识别技术包括表格检测和单元格结构识别。表格检测是对表格的边界检测，而单元格结构识别是检测表格内的单元格并解析其逻辑关系（如识别表格内行或列的所有单元格）。对计算机自动化系统来说，从电子文档中精确地重构表格边界和单元格结构信息是困难的，因为表格的样式、布局和内容均可能有较大不同。深度学习方法通过直接处理图像，可应用于任何可呈现为图像的电子文档，取得了优于传统方法的效果。
4.虽然现有技术如cn114529773a公开了基于结构的单元的表格识别方法、系统、终端及介质，也采用了深度学习方法来处理出现从而识别表格，但是仍旧过度依赖现成的通用目标检测方法，不能完全适应表格的独特属性。而近期基于深度学习的研究主要分为两个方向：（1）通过机器翻译方法将表格结构输出为文本。这种端到端的输出表格结构的方法在整体结构表达上仍不够准确；（2）通过表格中的被检测的对象生成表结构。这种基于目标检测的方法可分别检测整行和整列，并将检测到的行和列的交集表示为单元格，但针对复杂表结构仍有局限性，且不能跨越或对齐整张表。
5.因此，亟待一种可更加准确的分析表格结构，从而获取表格内容逻辑信息的基于单元格约束的表格结构识别方法及其应用，以解决现有技术存在的问题。

技术实现要素：

6.本技术实施例提供了基于单元格约束的表格结构识别方法及其应用，针对目前技术存在的局限性大、不准确、不能跨越或对其整张表等问题。
7.本发明核心技术主要是表格信息提取框架由多个神经网络组成，其每个主要的目标检测网络都以其他网络的输出作为输入。该框架可适用于任何类型的目标检测网络。基于表格必须包含单元格的客观事实，表格边界网络使用单元格检测网络检测表边界，单元格结构识别网络则通过表格边界和表格样式识别单元格结构。
8.第一方面，本技术提供了基于单元格约束的表格结构识别方法，所述方法包括以下步骤：s00、根据表格类型将不同的表格图像输入到对应的目标检测模型中，以输出对应表格的位置信息；其中，表格的位置信息包括表格的任意两个不相邻的顶点的坐标，表格的
类型分为有框表格和无框表格；s10、根据表格的位置信息，获取表格的整行和整列的信息，该信息包括每行和每列的任意两个不相邻的顶点的坐标；s20、识别表格中的所有文本及其边框；s30、通过机器翻译方法获取表格的表格结构信息，该表格结构信息包括行列数量和布局信息；s40、根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息，修正表格中的单元格，其中该修正的手段包括补全单元格、合并单元格及去除单元格；s50、对修正后的表格中单元格的坐标进行聚类，以生成表格的单元格结构。
9.进一步地，步骤s00中，通过计算表格外的单元格数量和表格内的单元格数量的差值来得到表格的边界，以该边界作为表格的边框，从而输出对应表格的位置信息。
10.进一步地，步骤s30中，根据表格图像的单元格位置，使得表格图像与文本位置对齐，并分别在垂直和水平方向采样，以确定表格的行数和列数。
11.进一步地，在步骤s30中，在垂直方向采样之前，在不与现有单元格重叠的情况下展开单元格的左右边缘，以确定缺少单元格的行，并在确定表格的行数和列数后，通过找出与已知单元格最接近完整对齐的单元格边框，从而推断出表格垂直和水平的对齐方式，该对齐方式作为布局信息。
12.进一步地，步骤s40中，对单元格边框进行聚类，以确定每行和每列的位置，并根据每个单元格的框位置分配行和列的位置，以合并单元格。
13.进一步地，步骤s40中，根据单元格的文本内容确定单元格的逻辑关系，以再次合并单元格，并将单元格位置分配给与任何检测到的单元格不重叠的剩余文本框，同时拆分附近有间隙的单元格。
14.进一步地，步骤s40中，当文本的边框与相邻的空行或列相交时，增加单元格的行或列的跨度。
15.第二方面，本技术提供了一种基于单元格约束的表格结构识别装置，包括：输入模块，根据表格类型将不同的表格图像输入到对应的目标检测模型中；目标检测模块，用于根据输入的表格图像，通过对应的目标检测模型输出对应表格的位置信息；其中，表格的位置信息包括表格的任意两个不相邻的顶点的坐标，表格的类型分为有框表格和无框表格；行列信息获取模块，用于根据表格的位置信息，获取表格的整行和整列的信息，该信息包括每行和每列的任意两个不相邻的顶点的坐标；文本识别模块，用于识别表格中的所有文本及其边框；机器翻译模块，用于通过机器翻译方法获取表格的表格结构信息，该表格结构信息包括行列数量和布局信息；修正模块，用于根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息，修正表格中的单元格，其中该修正的手段包括补全单元格、合并单元格及去除单元格；聚类输出模块，用于对修正后的表格中单元格的坐标进行聚类，以生成输出表格的单元格结构。
16.第三方面，本技术提供了一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述的基于单元格约束的表格结构识别方法。
17.第四方面，本技术提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据上述的基于单元格约束的表格结构识别方法。
18.本发明的主要贡献和创新点如下：1、与现有技术相比，本技术充分利用表格的特点（一般来说，表格内部包含一定数量的单元格，并且单元格不能存在于表之外。单元格是表格的重要特征，且单元格外观也决定了表格的全局样式）以及整张表格的信息，提出了一个分层的网络系统，同时基于该网络系统开发的方法以更准确地分析表格结构，从而获取表格内容逻辑信息；2、与现有技术相比，本技术可结合任意一种光学符号识别方法，通过完整的表格识别技术，端到端地从电子文档中分析表格结构（包括表格位置、单元格位置及单元格间的逻辑关系），使后续内容分析更容易更有效。
19.本技术的一个或多个实施例的细节在以下附图和描述中提出，以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
20.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：图1是根据本技术实施例的基于单元格约束的表格结构识别方法的流程；图2是本技术一种优选实施例的流程图；图3是根据本技术实施例的电子装置的硬件结构示意图。
具体实施方式
21.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
22.需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。
23.传统的表格识别技术基于规则或统计，往往不能通用于不同类型的电子文档，且严重依赖于人工设定特征（如图形线或粗体字体）。另一方面，基于深度学习的表格识别方法需要大规模数据集，且过度依赖现成的通用目标检测方法，不能完全适应表格的独特属性。
24.基于此，本技术基于图像识别来解决现有技术存在的问题。在实际应用中，一些表格的行和列都有可见的垂直和水平的直线，因此很容易判断单元格边框。然而，有些表格只有虚线或没有规则线，因此只观察其局部环境将无法确定一条线是否代表一个新的单元格。在本技术中，首先通过一个属性网络对表格中垂直线进行分类。其次，属性网络的输出决定了使用哪种单元格检测网络。无边框表格在表内几乎没有任何水平或垂直线，有表框表格则通过水平和垂直线相交构成单元格。有边框表格网络模型由具有边框的原始表格训练而成，而无边框表格网络模型在有边框数据基础上增加了增强数据（即去掉全部或部分边框，使有框表格变为无边框表格，从而增加无框表格的训练样本）。
25.实施例一具体地，本技术实施例提供了基于单元格约束的表格结构识别方法，具体地，参考图1和图2，所述方法包括：s00、根据表格类型将不同的表格图像输入到对应的目标检测模型中，以输出对应表格的位置信息；其中，表格的位置信息包括表格的任意两个不相邻的顶点的坐标，表格的类型分为有框表格和无框表格；此步骤中，通过计算表格外的单元格数量和表格内的单元格数量的差值来得到表格的边界，以该边界作为表格的边框，从而输出对应表格的位置信息。
26.在本实施例中，输入前需要区分全局文档中表格的类型。通常可将表格类型分为有框表格和无框表格，实际应用中可根据业务特点分类（如发票表格、订单表格等）。因此本技术可适用几乎所有表格分类方式。如在本实施例中，可以获取表格的左上和右下顶点的坐标。
27.优选地，目标检测模型中的表格信息提取框架由多个神经网络组成，其每个主要的目标检测网络都以其他网络的输出作为输入。该框架可适用于任何类型的目标检测网络。基于表格必须包含单元格的客观事实，表格边界网络使用单元格检测网络检测表边界，单元格结构识别网络则通过表格边界和表格样式识别单元格结构。本发明的方法流程图如图2所示。
28.其中，如图2中，在目标检测模型的训练阶段，其损失函数包括回归损失、分类损失和约束损失。回归损失和分类损失与一般目标检测模型的损失函数相同，而约束损失惩罚了不现实的表格检测概率。这种基于单元格约束的损失函数可以应用于任何检测网络。
29.为此本技术使用单元格网络生成一组单元格边界，训练数据为原始的电子文档图片，且不需要提供表格位置信息。表格边框候选为给定单元格，通过两个布尔操作符（在表格内()和在表格外()）定义了掩码输入区域的边界：其中表示两个边框格间的重叠面积，表示边框格的二值掩码区域，表示边框格的面积。如果和之间的单元格覆盖面积最多等于系数乘以与的面积之差，则为真。
30.如果和之间存在任何单元格，d为真。则惩罚函数定义为：其中表示将边框格长和宽各增加一定数量的像素，表示将边框格向底端延长一定数量的像素。
31.当以下任何一个条件为真时，惩罚函数为真：1）：全表格有单元格比例少于阈值。
32.2）：表格内有单元格的区域比例少于阈值。
33.3）：表外有单元格的区域。
34.4）：表底部有单元格的区域比例少于阈值。
35.则约束损函数为：其中为表的概率函数。
36.在推理阶段，决定边框时不仅考虑检测概率，而且考虑表内是否有单元格。即单元格边框候选，边框的约束系数被定义为：因此本技术通过表格外单元格的数量减去表格内部单元格的数量来计算每一个表格边界。对于任意一对边框, 重叠率大于比例阈值且小于概率阈值的，则丢弃约束系数更高的边框。
37.其中，电子文档输入大都不止包含表格，因此先找到表格，再对表格做结构化解析。如此，得到图2中的表格候选，也就是找到表格在电子文档中的位置，生成掩码矩阵，从而生成有掩码的图片。表格候选即为表格检测模型的输出。其中，掩码有很多形式，本技术的掩码是binary（二值化）的，即1或0的矩阵。简单来说，有表格标为1，无表格标为0，通过点乘即可无效化无表格区域。如此相当于得到了表格的位置信息。
38.s10、根据表格的位置信息，获取表格的整行和整列的信息，该信息包括每行和每列的任意两个不相邻的顶点的坐标；同样的，在本实施例中，获取每行和每列的左上和右下顶点的坐标。如此，行与列交叉重合的部分就是单元格所在，而单元格是组成表格的最小单位，可拆分或者合并。单个数据的输入和修改都是在单元格中进行的。
39.上述步骤可实现对表格的位置进行检测，然后方便进行后续的表格识别操作，目的在于解析表格中的单元格的位置关系，从而生成完整的表单元格结构。
40.s20、识别表格中的所有文本及其边框；此步骤中，可采用任意一种文字识别方法检测表格中的所有文本及其边框。
41.s30、通过机器翻译方法获取表格的表格结构信息，该表格结构信息包括行列数量和布局信息；其中，机器翻译在本领域中意为输入图片输出文字描述，本处实际含义为输入表格图片，输出描述表格结构的语法（如html语言），通过该信息可得知道表格大致的总体结构。
42.此步骤中，根据表格图像的单元格位置（根据有掩码的完整电子文档图片中的单元格位置），使得表格图像与文本位置对齐，并分别在垂直和水平方向采样，以确定表格的行数和列数。
43.其中，掩码英文即为mask，原始图为电子文档图片，掩码作用是将电子文档图片中的非表格进行表格无效化，减少干扰。通常的电子文档图片不一定都是表格，本技术主要目的为分析表格的结构。而文本位置是通过前面文字识别得到的文本框得出的，单元格判定是表格结构识别的难点，因此本技术通过基于多种检测原理的不同方法去确定单元格位置。
44.优选的，在垂直方向采样之前，在不与现有单元格重叠的情况下展开单元格的左右边缘，以确定缺少单元格的行，并在确定表格的行数和列数后，通过找出与已知单元格最接近完整对齐的单元格边框，从而推断出表格垂直和水平的对齐方式，该对齐方式作为布
局信息。
45.s40、根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息，修正表格中的单元格，其中该修正的手段包括补全单元格、合并单元格及去除单元格；此步骤中，对单元格边框进行聚类（k平均值聚类方法），以确定每行和每列的位置，并根据每个单元格的框位置分配行和列的位置，以合并单元格。
46.优选的，根据单元格的文本内容确定单元格的逻辑关系（单元格内容通常以大写字母开始的规律进行排序），以再次合并单元格，并将单元格位置分配给与任何检测到的单元格不重叠的剩余文本框，同时拆分附近有间隙的单元格。当文本的边框与相邻的空行或列相交时，增加单元格的行或列的跨度（这可能是一个跨越多行或多列的分层单元格）。
47.s50、对修正后的表格中单元格的坐标进行聚类，以生成表格的单元格结构。
48.由于机器翻译的方法相对抽象（语法文字描述）；而框相关的方法为纯视觉算法，输出为边框线的坐标。机器翻译只能获得表格大致结构（如准确的行数列数），视觉算法可获取准确坐标，但可能会遗漏部分单元格、列或行。本技术的目的是二者结合补全表格整体信息。
49.机器翻译只能得到表格有多少行和列，没有任何坐标信息，而聚类方法实际输入是坐标信息，将距离很近的坐标点聚为一类，达到合并冗余单元格的目的。目前的视觉算法大都采用边框判断单元格，然而一旦错失一条边框，则整体结构完全错乱。机器翻译输出相对较为准确的行数和列数，相当于为边框增加了一定的限制条件，使边框坐标的检测更加准确。
50.如此，本技术提出了基于视觉的表格识别系统框架，包括表格检测和单元格结构识别，框架适用于任意目标检测模型和光学符号识别模型。可结合任意一种光学符号识别方法，通过完整的表格识别技术，端到端地从电子文档中分析表格结构（包括表格位置、单元格位置及单元格间的逻辑关系），使后续内容分析更容易更有效。
51.优选地，还可以通过机器翻译的方法获取表格的整体逻辑结构，并结合如基于视觉的行和列的检测方法辅助补全表格结构信息。
52.实施例二基于相同的构思，本技术还提出了一种基于单元格约束的表格结构识别装置，包括：输入模块，根据表格类型将不同的表格图像输入到对应的目标检测模型中；目标检测模块，用于根据输入的表格图像，通过对应的目标检测模型输出对应表格的位置信息；其中，表格的位置信息包括表格的任意两个不相邻的顶点的坐标，表格的类型分为有框表格和无框表格；行列信息获取模块，用于根据表格的位置信息，获取表格的整行和整列的信息，该信息包括每行和每列的任意两个不相邻的顶点的坐标；文本识别模块，用于识别表格中的所有文本及其边框；机器翻译模块，用于通过机器翻译方法获取表格的表格结构信息，该表格结构信息包括行列数量和布局信息；修正模块，用于根据表格的位置信息、表格的整行和整列的信息及表格的表格结构信息，修正表格中的单元格，其中该修正的手段包括补全单元格、合并单元格及去除单元
格；聚类输出模块，用于对修正后的表格中单元格的坐标进行聚类，以生成输出表格的单元格结构。
53.实施例三本实施例还提供了一种电子装置，参考图3，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
54.具体地，上述处理器402可以包括中央处理器（cpu），或者特定集成电路（applicationspecificintegratedcircuit，简称为asic），或者可以被配置成实施本技术实施例的一个或多个集成电路。
55.其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（harddiskdrive，简称为hdd）、软盘驱动器、固态驱动器（solidstatedrive，简称为ssd）、闪存、光盘、磁光盘、磁带或通用串行总线（universalserialbus，简称为usb）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（non-volatile）存储器。在特定实施例中，存储器404包括只读存储器（read-onlymemory，简称为rom）和随机存取存储器（randomaccessmemory，简称为ram）。在合适的情况下，该rom可以是掩模编程的rom、可编程rom（programmableread-onlymemory，简称为prom）、可擦除prom（erasableprogrammableread-onlymemory，简称为eprom）、电可擦除prom（electricallyerasableprogrammableread-onlymemory，简称为eeprom）、电可改写rom（electricallyalterableread-onlymemory，简称为earom）或闪存（flash）或者两个或更多个以上这些的组合。在合适的情况下，该ram可以是静态随机存取存储器（staticrandom-accessmemory，简称为sram）或动态随机存取存储器（dynamicrandomaccessmemory，简称为dram），其中，dram可以是快速页模式动态随机存取存储器404（fastpagemodedynamicrandomaccessmemory，简称为fpmdram）、扩展数据输出动态随机存取存储器（extendeddateoutdynamicrandomaccessmemory，简称为edodram）、同步动态随机存取内存（synchronousdynamicrandom-accessmemory，简称sdram）等。
56.存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。
57.处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意基于单元格约束的表格结构识别方法。
58.可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。
59.传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（network interface controller，简称为nic），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（radio frequency，简称为rf）模块，其用于通过无线方式与互联网进行通讯。
60.输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是表格电子文档图片等，输出的信息可以是表单元格结构等。
61.实施例四本实施例还提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据实施例一的基于单元格约束的表格结构识别方法。
62.需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
63.通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
64.本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如dvd及其数据变体、cd等光学介质上。物理介质是非瞬态介质。
65.本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
66.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以作出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：可线性扩展的分布式数据库的制作方法

基于单元格约束的表格结构识别方法及其应用与流程

相关文献

最热文献