基于人工智能的表格图片内容提取方法、装置及设备与流程

2022-02-19 03:54:11 来源：中国专利 TAG：

1.本发明涉及人工智能的图像识别领域，尤其涉及一种基于人工智能的表格图片内容提取方法、装置、计算机设备及存储介质。

背景技术：

2.文档智能主要是指对于扫描文档所包含的文本、排版信息，通过人工智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据也可进行更上层的智能化应用，如：信息挖掘、智能决策等。关于文档智能的研究在近年来逐渐兴起。
3.目前，在保险领域，保险公司判断客户是否具备投保保险产品的资格，需要根据客户当前身体状况信息及既往史、住院史等信息综合判断。因此需要客户上传提供全面的体检报告单、住院病历等影像，再进行复核。为了提高获取体检报告单、住院病历等图片中信息的效率，采用了ocr识别的技术。但是目前仅通过ocr识别获取影像中的信息，因为一些表格类图片中存在多个字段及对应字段取值的布局方式，仅通过ocr识别只能识别图中的文本，难以获取字段与字段取值之间的对应关系，导致对表格类图片的结构化信息提取效率低下。

技术实现要素：

4.本发明实施例提供了一种基于人工智能的表格图片内容提取方法、装置、计算机设备及存储介质，旨在解决现有技术中对表格类图片信息上传系统后，，仅通过ocr识别只能识别图中的文本，难以获取字段与字段取值之间的对应关系，导致对表格类图片的结构化信息提取效率低下的问题。
5.第一方面，本发明实施例提供了一种基于人工智能的表格图片内容提取方法，其包括：
6.响应于表格解析指令，获取与所述表格解析指令相应的待识别表格图片；
7.通过光学字符识别模型获取所述待识别表格图片的初始边框集合；
8.获取预先训练的边框内容类型分类模型，将所述初始边框集合中各边框输入至所述边框内容类型分类模型进行运算，得到各边框相应的边框分类标签；
9.获取预先训练的边框行列关系识别模型，将所述初始边框集合中各边框均输入至所述边框行列关系识别模型进行运算，得到所述初始边框集合相应的边框行列关系输出矩阵；以及
10.由各边框的属性数据、边框分类标签及与所述边框行列关系输出矩阵相应的边框行列关系组成所述初始边框集合中各边框的边框信息结构体。
11.第二方面，本发明实施例提供了一种基于人工智能的表格图片内容提取装置，其包括：
12.待识别表格图片获取单元，用于响应于表格解析指令，获取与所述表格解析指令相应的待识别表格图片；
13.初始边框集合获取单元，用于通过光学字符识别模型获取所述待识别表格图片的初始边框集合；
14.边框分类获取单元，用于获取预先训练的边框内容类型分类模型，将所述初始边框集合中各边框输入至所述边框内容类型分类模型进行运算，得到各边框相应的边框分类标签；
15.行列关系获取单元，用于获取预先训练的边框行列关系识别模型，将所述初始边框集合中各边框均输入至所述边框行列关系识别模型进行运算，得到所述初始边框集合相应的边框行列关系输出矩阵；以及
16.结构体信息存储单元，用于由各边框的属性数据、边框分类标签及与所述边框行列关系输出矩阵相应的边框行列关系组成所述初始边框集合中各边框的边框信息结构体。
17.第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于人工智能的表格图片内容提取方法。
18.第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于人工智能的表格图片内容提取方法。
19.本发明实施例提供了一种基于人工智能的表格图片内容提取方法、装置、计算机设备及存储介质，先基于边框内容类型分类模型获取边框分类标签，且基于边框行列关系识别模型获取边框行列关系输出矩阵，解析初始边框集合中各边框的属性数据、各边框相应的边框分类标签及所述边框行列关系输出矩阵，得到各边框的边框顶点坐标集合、识别文本、边框分类标签、边框的同行边框索引列表及边框的同列边框索引列表，组成各边框的边框信息结构体并存储。实现了智能结构化表格图片信息，且实现了全文档信息结构化，识别数据更多维度且更加高效。
附图说明
20.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的基于人工智能的表格图片内容提取方法的应用场景示意图；
22.图2为本发明实施例提供的基于人工智能的表格图片内容提取方法的流程示意图；
23.图3a为本发明实施例提供的基于人工智能的表格图片内容提取方法中待识别表格图片的示意图；
24.图3b为本发明实施例提供的基于人工智能的表格图片内容提取方法中ocr识别结果的示意图；
25.图4为本发明实施例提供的基于人工智能的表格图片内容提取装置的示意性框图；
26.图5为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
27.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
30.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
31.请参阅图1和图2，图1为本发明实施例提供的基于人工智能的表格图片内容提取方法的应用场景示意图；图2为本发明实施例提供的基于人工智能的表格图片内容提取方法的流程示意图，该基于人工智能的表格图片内容提取方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。
32.如图2所示，该方法包括步骤s101～s105。
33.s101、响应于表格解析指令，获取与所述表格解析指令相应的待识别表格图片。
34.在本实施例中，是以服务器为执行主体描述技术方案。当用户通过使用用户端与服务器建立通讯连接后(例如登录了服务器中的理赔系统)，常见的操作之一是上传如图3a所示的待识别表格图片，当服务器接收了待识别表格图片后，最核心的操作就是对其进行识别获取该待识别表格图片中的详细信息。故当服务器检测到了表格解析指令后，是先获取并保存相应的待识别表格图片。
35.在一实施例中，步骤s101包括：
36.获取所述待识别表格图片的旋转角度，根据所述旋转角度将所述待识别表格图片调整为水平向的待识别表格图片以更新所述待识别表格图片。
37.在本实施例中，为了提高后续对所述待识别表格图片的处理速度，可以先判断所述待识别表格图片初始是否为水平向的图片(也即如图1所示方向的图片)，若获取到所述待识别表格图片的旋转角度不是0度，表示所述待识别表格图片是有一定旋转角度的，此时需要将相对与之前旋转角度的方向反向旋转与旋转角度相等的角度才可实现其矫正为水平向的待识别表格图片。当完成了上述初始图片方向的调整和矫正后，后续文本识别更加快速和准确。
38.s102、通过光学字符识别模型获取所述待识别表格图片的初始边框集合。
39.在本实施例中，所述初始边框集合中每一边框的属性数据均包括边框顶点坐标集合、识别置信度分数和识别文本。通过光学字符识别模型(即ocr模型)可以将待识别表格图片切割为多个边框(也可以理解为文本切割边框，一般一个边框是一个四边形形状，最理想的状况是一个矩形)，每个边框的属性数据中均至少包括该边框对应的四个顶点坐标(即边框顶点坐标集合)、识别置信度分数以及识别文本。例如，如图3b所示的ocr识别结果与图3a
所示的待识别表格图片相对应，如图3b所示的ocr识别结果也可以理解为所述初始边框集合中每一边框的属性数据，图3b中每一行代表一个边框，一行共含有10个元素，行内采用\t分割，前8个元素代表边框对应的四个顶点坐标的x\y值，第9个元素代表ocr识别置信度分数，第10个元素代表边框内的识别文本。通过这一初始识别可以准确识别出各边框的属性数据。
40.s103、获取预先训练的边框内容类型分类模型，将所述初始边框集合中各边框输入至所述边框内容类型分类模型进行运算，得到各边框相应的边框分类标签。
41.在本实施例中，在表格类型的待识别表格图片中，若仅仅只是识别了各边框及相应的属性数据，并未继续深度挖掘出边框的更多属性数据(如边框中分类标签、边框所属行列等)，就无法确定待识别表格图片中字段之间的相互关联关系。在本技术中，可以预先训练一个边框内容类型分类模型，以用于识别各边框相应的边框分类标签。其中，在待识别表格图片中常见的边框分类标签一般有3类，分别是项目标题、表格内容、辅助内容(辅助内容这一类可以理解为既不是项目标题这一类别，也不是表格内容这一类别，而是除了上述两种类别之外的其他类别)。
42.在一实施例中，作为步骤s103的第一实施例，所述边框内容类型分类模型为xgboost模型，步骤s103包括：
43.获取边框的属性数据，将由边框的属性数据中获取的识别文本、边框竖边长、边框横边长、相邻边框总个数；
44.将所述边框的识别文本、边框竖边长、边框横边长、相邻边框总个数输入至所述xgboost模型进行分类决策，得到所述边框相应的边框分类标签。
45.在本实施例中，所采用的xgboost模型是一个树集成模型，例如由k(树的总数为k)棵决策树组成，每棵树对样本的预测值的和作为该样本在xgboost系统中的预测。例如，通过xgboost模型可以对边框的字典匹配特征、正则匹配特征、边框形状特征、相对位置特征进行分类。
46.更具体的，对边框的字典匹配特征基于决策树进行分类时，是将边框的识别文本与预先构建的项目标题字典进行相似度计算，以获取与项目标题字典中词语相似度为最大值的目标词语，以该最大的词语相似度作为字典匹配特征的预测结果；对边框的正则匹配特征基于决策树进行分类时，是判断该边框中是否为中文、数字、单位等，例如如果是中文则输出分类结果为1，不是中文则输出分类结果为0；对边框的边框形状特征基于决策树进行分类时，是基于边框竖边长和边框横边长来判断边框形状，如果是边框竖边长大于或等于边框横边长则输出分类结果为0，如果是边框竖边长小于边框横边长则输出分类结果为1；对边框的相对位置特征基于决策树进行分类时，获取位于该边框上方或左侧直接相邻且无其他边框间隔的相邻边框的个数，一般项目标题都位于第一行或第一列，往往其上方或是左侧是无相邻边框的，故当一个边框既有上方相邻边框也有左侧相邻边框则对应的相邻边框的个数是2，当一个边框有上方相邻边框或是左侧相邻边框则对应的相邻边框的个数是1，当一个边框既无上方相邻边框也无左侧相邻边框则对应的相邻边框的个数是0，当一个边框的相邻边框的个数未超出1则输出分类结果为1，当一个边框的相邻边框的个数超出1则输出分类结果为0。当获取了上述4个特征(即字典匹配特征、正则匹配特征、边框形状特征、相对位置特征)的具体取值后，可以进行加权求和得到最终的分类结果值，由该分类结
果值确定边框分类标签。例如分类结果值的取值在(0，1]则确定边框分类标签为辅助内容，分类结果值的取值在(1，2]则确定边框分类标签为表格内容，分类结果值的取值在(2，3]则确定边框分类标签为项目标题。通过上述分类方式，可以快速且准确的得到每一边框的边框分类标签。
47.在一实施例中，作为步骤s103的第二实施例，所述边框内容类型分类模型为深度学习模型，步骤s103包括：
48.获取所述边框的属性数据中的边框顶点坐标集合，通过所述边框顶点坐标集合获取所述边框的左上角顶点坐标和边框中心点坐标；
49.将所述左上角顶点坐标和所述边框中心点坐标进行归一化处理，得到归一化左上角顶点坐标和归一化边框中心点坐标，由归一化左上角顶点坐标和归一化边框中心点坐标组成所述边框的位置嵌入向量；
50.获取所述边框的属性数据中的识别文本，通过将所述识别文本进行词向量转换，得到文本嵌入向量；
51.将所述文本嵌入向量和所述位置嵌入向量组合并输入至预先训练的深度学习模型，得到边框分类标签。
52.在本实施例中，所采用的深度学习模型是layoutlm模型(是一种通用文档理解与训练模型)，可对文档结构信息(document layout information)和视觉信息(visual information)进行建模，让模型在预训练阶段进行多模态对齐。为了利用上述信息，可在现有的预训练模型基础上添加2
‑
d position embedding和image embedding两种新的embedding层，这样一来可以有效地结合文档结构和视觉信息。
53.其中，2
‑
d position embedding层在实际应用时，先根据ocr获得的文本的边框以获取文本在文档中的具体位置，然后将边框将应坐标转化为虚拟坐标之后，计算该坐标对应在x、y、w、h四个embedding子层的表示，最终的2
‑
dposition embedding为四个子层的embedding之和。也即上述得到的归一化左上角顶点坐标的横纵坐标值和归一化边框中心点坐标的横纵坐标值对应了x、y、w、h四个embedding子层的表示。
54.image embedding层在实际应用时，将边框当作faster r
‑
cnn中的候选框，从而提取对应的局部特征。特殊地，由于[cls]符号用于表示整个输入文本的语义，同样使用整张文档图像作为该位置的image embedding，从而保持模态对齐。在本技术中为了简化获取image embedding层的输出，直接使用识别文本进行词向量转换，即可得到文本嵌入向量。
[0055]
将所述文本嵌入向量和所述位置嵌入向量组合时，具体是将所述文本嵌入向量和所述位置嵌入向量进行求和而得到一个同时具备位置特征和文本特征的综合向量。
[0056]
最后，深度学习模型的输出值为边框分类标签，边框分类标签是一种字级别的预测标签，边框分类标签的最终结果由该边框的识别文本中每一字对应的字标签投票得到。通过这一方式也可以快速且准确的得到每一边框的边框分类标签。
[0057]
s104、获取预先训练的边框行列关系识别模型，将所述初始边框集合中各边框均输入至所述边框行列关系识别模型进行运算，得到所述初始边框集合相应的边框行列关系输出矩阵。
[0058]
在本实施例中，为了更加精准的定位每一边框所属行和列，可以基于预先训练的边框行列关系识别模型来对所述初始边框集合相应的边框行列关系输出矩阵进行预测计
算。其中，所采用的边框行列关系识别模型具体由layoutlm模型、维矩阵及全连接层组成(其中，n的取值为所述初始边框集合中边框的总个数)。通过这一计算得到的边框行列关系输出矩阵中，可以准确的获知每一边框与哪些边框位于同一行或同一列，从而实现边框位置的精准定位。
[0059]
在一实施例中，步骤s104包括：
[0060]
将所述初始边框集合中各边框的属性向量输入至所述边框行列关系识别模型中的layoutlm模型进行运算，得到各边框的预测向量，按列向量模式组成预测向量组合向量；
[0061]
将所述预测向量组合向量左乘所述边框行列关系识别模型中的第一预设矩阵，得到第一输出矩阵；其中，所述第一预设矩阵为维矩阵，在维矩阵中每一行有两个元素为1且其余元素为0；所述第一输出矩阵为元素为1且其余元素为0；所述第一输出矩阵为维矩阵，len(b)表示所述初始边框集合中边框的预测向量的维度，n的取值为所述初始边框集合中边框的总个数；
[0062]
将所述第一输出矩阵输入至所述边框行列关系识别模型中的全连接层进行运算，得到边框行列关系识别向量并转换等价矩阵得到边框行列关系输出矩阵。
[0063]
在本实施例中，将所述初始边框集合中各边框均输入至layoutlm模型得到每一边框相应的预测向量b1…
b
n
；再经过矩阵乘法即左乘维矩阵，其中在维矩阵中每一行有两个元素为1，其余为0，代表依次计算两个预测向量b之和，生成维矩阵；最后再连接一个全连接层，即可得到预测的标签向量。通过将所述初始边框集合中各边框均输入至所述边框行列关系识别模型进行运算而得到的边框行列关系输出矩阵中，可以准确的获知每一边框与哪些边框位于同一行或同一列。
[0064]
所得到的边框行列关系输出矩阵，边框行列关系输出矩阵的本质是是一个行向量[l
11
l
12
……
l(
n
‑
1)m
]，其中l
mn
代表b
m
和b
n
的关系标签，且l
mn
的取值在(0，1，2)这3个值中选择，例如l
mn
＝0表示表b
m
和b
n
这两个分别对应的边框既不同行也不同列，l
mn
＝1表示表b
m
和b
n
这两个分别对应的边框同行但不同列，l
mn
＝2表示表b
m
和b
n
这两个分别对应的边框同列但不同行。通过这一模型可以准确预测出各边框的定位位置。
[0065]
s105、由各边框的属性数据、边框分类标签及与所述边框行列关系输出矩阵相应的边框行列关系组成所述初始边框集合中各边框的边框信息结构体。
[0066]
在本实施例中，当完成了对每一边框的属性数据、边框分类标签及边框行列关系输出矩阵的获取之后，即可准确获知每一边框的边框顶点坐标集合、识别文本、边框识别标签、与边框位于同一行的其他边框组成的同行边框索引列表，与边框位于同一列的其他边框组成的同列边框索引列表。这样一个边框的详细信息就能由一个相应的边框结构体存储，当获取了所有边框各自对应的边框结构体后，可以组成一个包含所有边框信息的综合结构体。通过这一存储方式，可以存储更加多维度的识别信息。
[0067]
在一实施例中，所述步骤s105，包括：
[0068]
解析所述初始边框集合中各边框的属性数据得到各边框的边框顶点坐标集合和识别文本，解析所述边框行列关系输出矩阵得到各边框的同行边框索引列表及边框的同列边框索引列表；
[0069]
由各边框相应的边框顶点坐标集合、识别文本、边框分类标签、边框的同行边框索引列表及边框的同列边框索引列表组成所述初始边框集合中各边框的边框信息结构体。
[0070]
在本实施例中，对所述初始边框集合中各边框的属性数据、各边框相应的边框分类标签及所述边框行列关系输出矩阵进行解析时是采用上述解析步骤。具体是从所述初始边框集合中各边框的属性数据获取各边框的边框顶点坐标集合及识别文本，从所述边框行列关系输出矩阵获取各边框的同行边框索引列表及边框的同列边框索引列表，当完成了这一具体解析处理后，即可得到所述初始边框集合中各边框的边框顶点坐标集合、识别文本、边框分类标签、边框的同行边框索引列表及边框的同列边框索引列表。
[0071]
在一实施例中，步骤s015之后，还包括：
[0072]
将各边框的边框信息结构体进行组合得到综合结构体，将所述综合结构体进行存储。
[0073]
在本实施例中，通过上述方式得到的各边框的边框信息结构体(可用boundingbox结构体来表示)，其包含5个部分的属性，coordinate属性存储边框顶点坐标集合，text属性存储对应的识别文本，lable属性存储边框分类标签，samerowboxindexes属性为列表形式且用于存储边框的同行边框索引列表，samecolumnboxindexes属性同样也为列表形式且用于存储边框的同列边框索引列表。当将待识别表格图片中的所有信息采用上述结构体并组合成综合结构体的方式存储，使得全图片信息实现了多维度信息结构化存储。
[0074]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0075]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0076]
该方法实现了智能结构化表格图片信息，且实现了全文档信息结构化，识别数据更多维度且更加高效。
[0077]
本发明实施例还提供一种基于人工智能的表格图片内容提取装置，该基于人工智能的表格图片内容提取装置用于执行前述基于人工智能的表格图片内容提取方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的基于人工智能的表格图片内容提取装置100的示意性框图。
[0078]
其中，如图4所示，基于人工智能的表格图片内容提取装置100包括待识别表格图片获取单元101、初始边框集合获取单元102、边框分类获取单元103、行列关系获取单元104、结构体信息存储单元105。
[0079]
待识别表格图片获取单元101，用于响应于表格解析指令，获取与所述表格解析指令相应的待识别表格图片。
[0080]
在本实施例中，是以服务器为执行主体描述技术方案。当用户通过使用用户端与服务器建立通讯连接后(例如登录了服务器中的理赔系统)，常见的操作之一是上传如图3a所示的待识别表格图片，当服务器接收了待识别表格图片后，最核心的操作就是对其进行
识别获取该待识别表格图片中的详细信息。故当服务器检测到了表格解析指令后，是先获取并保存相应的待识别表格图片。
[0081]
在一实施例中，待识别表格图片获取单元101还用于：
[0082]
获取所述待识别表格图片的旋转角度，根据所述旋转角度将所述待识别表格图片调整为水平向的待识别表格图片以更新所述待识别表格图片。
[0083]
在本实施例中，为了提高后续对所述待识别表格图片的处理速度，可以先判断所述待识别表格图片初始是否为水平向的图片(也即如图1所示方向的图片)，若获取到所述待识别表格图片的旋转角度不是0度，表示所述待识别表格图片是有一定旋转角度的，此时需要将相对与之前旋转角度的方向反向旋转与旋转角度相等的角度才可实现其矫正为水平向的待识别表格图片。当完成了上述初始图片方向的调整和矫正后，后续文本识别更加快速和准确。
[0084]
初始边框集合获取单元102，用于通过光学字符识别模型获取所述待识别表格图片的初始边框集合。
[0085]
在本实施例中，所述初始边框集合中每一边框的属性数据均包括边框顶点坐标集合、识别置信度分数和识别文本。通过光学字符识别模型(即ocr模型)可以将待识别表格图片切割为多个边框(也可以理解为文本切割边框，一般一个边框是一个四边形形状，最理想的状况是一个矩形)，每个边框的属性数据中均至少包括该边框对应的四个顶点坐标(即边框顶点坐标集合)、识别置信度分数以及识别文本。例如，如图3b所示的ocr识别结果与图3a所示的待识别表格图片相对应，如图3b所示的ocr识别结果也可以理解为所述初始边框集合中每一边框的属性数据，图3b中每一行代表一个边框，一行共含有10个元素，行内采用\t分割，前8个元素代表边框对应的四个顶点坐标的x\y值，第9个元素代表ocr识别置信度分数，第10个元素代表边框内的识别文本。通过这一初始识别可以准确识别出各边框的属性数据。
[0086]
边框分类获取单元103，用于获取预先训练的边框内容类型分类模型，将所述初始边框集合中各边框输入至所述边框内容类型分类模型进行运算，得到各边框相应的边框分类标签。
[0087]
在本实施例中，在表格类型的待识别表格图片中，若仅仅只是识别了各边框及相应的属性数据，并未继续深度挖掘出边框的更多属性数据(如边框中分类标签、边框所属行列等)，就无法确定待识别表格图片中字段之间的相互关联关系。在本技术中，可以预先训练一个边框内容类型分类模型，以用于识别各边框相应的边框分类标签。其中，在待识别表格图片中常见的边框分类标签一般有3类，分别是项目标题、表格内容、辅助内容(辅助内容这一类可以理解为既不是项目标题这一类别，也不是表格内容这一类别，而是除了上述两种类别之外的其他类别)。
[0088]
在一实施例中，作为边框分类获取单元103的第一实施例，所述边框内容类型分类模型为xgboost模型，边框分类获取单元103包括：
[0089]
边框属性数据获取单元，用于获取边框的属性数据，将由边框的属性数据中获取的识别文本、边框竖边长、边框横边长、相邻边框总个数；
[0090]
第一分类单元，用于将所述边框的识别文本、边框竖边长、边框横边长、相邻边框总个数输入至所述xgboost模型进行分类决策，得到所述边框相应的边框分类标签。
[0091]
在本实施例中，所采用的xgboost模型是一个树集成模型，例如由k(树的总数为k)棵决策树组成，每棵树对样本的预测值的和作为该样本在xgboost系统中的预测。例如，通过xgboost模型可以对边框的字典匹配特征、正则匹配特征、边框形状特征、相对位置特征进行分类。
[0092]
更具体的，对边框的字典匹配特征基于决策树进行分类时，是将边框的识别文本与预先构建的项目标题字典进行相似度计算，以获取与项目标题字典中词语相似度为最大值的目标词语，以该最大的词语相似度作为字典匹配特征的预测结果；对边框的正则匹配特征基于决策树进行分类时，是判断该边框中是否为中文、数字、单位等，例如如果是中文则输出分类结果为1，不是中文则输出分类结果为0；对边框的边框形状特征基于决策树进行分类时，是基于边框竖边长和边框横边长来判断边框形状，如果是边框竖边长大于或等于边框横边长则输出分类结果为0，如果是边框竖边长小于边框横边长则输出分类结果为1；对边框的相对位置特征基于决策树进行分类时，获取位于该边框上方或左侧直接相邻且无其他边框间隔的相邻边框的个数，一般项目标题都位于第一行或第一列，往往其上方或是左侧是无相邻边框的，故当一个边框既有上方相邻边框也有左侧相邻边框则对应的相邻边框的个数是2，当一个边框有上方相邻边框或是左侧相邻边框则对应的相邻边框的个数是1，当一个边框既无上方相邻边框也无左侧相邻边框则对应的相邻边框的个数是0，当一个边框的相邻边框的个数未超出1则输出分类结果为1，当一个边框的相邻边框的个数超出1则输出分类结果为0。当获取了上述4个特征(即字典匹配特征、正则匹配特征、边框形状特征、相对位置特征)的具体取值后，可以进行加权求和得到最终的分类结果值，由该分类结果值确定边框分类标签。例如分类结果值的取值在(0，1]则确定边框分类标签为辅助内容，分类结果值的取值在(1，2]则确定边框分类标签为表格内容，分类结果值的取值在(2，3]则确定边框分类标签为项目标题。通过上述分类方式，可以快速且准确的得到每一边框的边框分类标签。
[0093]
在一实施例中，作为边框分类获取单元103的第二实施例，所述边框内容类型分类模型为深度学习模型，边框分类获取单元103包括：
[0094]
边框坐标获取单元，用于获取所述边框的属性数据中的边框顶点坐标集合，通过所述边框顶点坐标集合获取所述边框的左上角顶点坐标和边框中心点坐标；
[0095]
位置嵌入向量获取单元，用于将所述左上角顶点坐标和所述边框中心点坐标进行归一化处理，得到归一化左上角顶点坐标和归一化边框中心点坐标，由归一化左上角顶点坐标和归一化边框中心点坐标组成所述边框的位置嵌入向量；
[0096]
文本嵌入向量获取单元，用于获取所述边框的属性数据中的识别文本，通过将所述识别文本进行词向量转换，得到文本嵌入向量；
[0097]
第二分类单元，用于将所述文本嵌入向量和所述位置嵌入向量组合并输入至预先训练的深度学习模型，得到边框分类标签。
[0098]
在本实施例中，所采用的深度学习模型是layoutlm模型(是一种通用文档理解与训练模型)，可对文档结构信息(document layout information)和视觉信息(visual information)进行建模，让模型在预训练阶段进行多模态对齐。为了利用上述信息，可在现有的预训练模型基础上添加2
‑
d position embedding和image embedding两种新的embedding层，这样一来可以有效地结合文档结构和视觉信息。
[0099]
其中，2
‑
d position embedding层在实际应用时，先根据ocr获得的文本的边框以获取文本在文档中的具体位置，然后将边框将应坐标转化为虚拟坐标之后，计算该坐标对应在x、y、w、h四个embedding子层的表示，最终的2
‑
dposition embedding为四个子层的embedding之和。也即上述得到的归一化左上角顶点坐标的横纵坐标值和归一化边框中心点坐标的横纵坐标值对应了x、y、w、h四个embedding子层的表示。
[0100]
image embedding层在实际应用时，将边框当作faster r
‑
cnn中的候选框，从而提取对应的局部特征。特殊地，由于[cls]符号用于表示整个输入文本的语义，同样使用整张文档图像作为该位置的image embedding，从而保持模态对齐。在本技术中为了简化获取image embedding层的输出，直接使用识别文本进行词向量转换，即可得到文本嵌入向量。
[0101]
将所述文本嵌入向量和所述位置嵌入向量组合时，具体是将所述文本嵌入向量和所述位置嵌入向量进行求和而得到一个同时具备位置特征和文本特征的综合向量。
[0102]
最后，深度学习模型的输出值为边框分类标签，边框分类标签是一种字级别的预测标签，边框分类标签的最终结果由该边框的识别文本中每一字对应的字标签投票得到。通过这一方式也可以快速且准确的得到每一边框的边框分类标签。
[0103]
行列关系获取单元104，用于获取预先训练的边框行列关系识别模型，将所述初始边框集合中各边框均输入至所述边框行列关系识别模型进行运算，得到所述初始边框集合相应的边框行列关系输出矩阵。
[0104]
在本实施例中，为了更加精准的定位每一边框所属行和列，可以基于预先训练的边框行列关系识别模型来对所述初始边框集合相应的边框行列关系输出矩阵进行预测计算。其中，所采用的边框行列关系识别模型具体由layoutlm模型、维矩阵及全连接层组成(其中，n的取值为所述初始边框集合中边框的总个数)。通过这一计算得到的边框行列关系输出矩阵中，可以准确的获知每一边框与哪些边框位于同一行或同一列，从而实现边框位置的精准定位。
[0105]
在一实施例中，行列关系获取单元104包括：
[0106]
预测向量组合向量获取单元，用于将所述初始边框集合中各边框的属性向量输入至所述边框行列关系识别模型中的layoutlm模型进行运算，得到各边框的预测向量，按列向量模式组成预测向量组合向量；
[0107]
第一输出矩阵获取单元，用于将所述预测向量组合向量左乘所述边框行列关系识别模型中的第一预设矩阵，得到第一输出矩阵；其中，所述第一预设矩阵为维矩阵，在维矩阵中每一行有两个元素为1且其余元素为0；所述第一输出矩阵为维矩阵，len(b)表示所述初始边框集合中边框的预测向量的维度，n的取值为所述初始边框集合中边框的总个数；
[0108]
行列关系输出矩阵获取单元，用于将所述第一输出矩阵输入至所述边框行列关系识别模型中的全连接层进行运算，得到边框行列关系识别向量并转换等价矩阵得到边框行列关系输出矩阵。
[0109]
在本实施例中，将所述初始边框集合中各边框均输入至layoutlm模型得到每一边框相应的预测向量b1…
b
n
；再经过矩阵乘法即左乘维矩阵，其中在维矩
阵中每一行有两个元素为1，其余为0，代表依次计算两个预测向量b之和，生成维矩阵；最后再连接一个全连接层，即可得到预测的标签向量。通过将所述初始边框集合中各边框均输入至所述边框行列关系识别模型进行运算而得到的边框行列关系输出矩阵中，可以准确的获知每一边框与哪些边框位于同一行或同一列。
[0110]
所得到的边框行列关系输出矩阵，边框行列关系输出矩阵的本质是是一个行向量[l
11
l
12
……
l(
n
‑
1)m
]，其中l
mn
代表b
m
和b
n
的关系标签，且l
mn
的取值在(0，1，2)这3个值中选择，例如l
mn
＝0表示表b
m
和b
n
这两个分别对应的边框既不同行也不同列，l
mn
＝1表示表b
m
和b
n
这两个分别对应的边框同行但不同列，l
mn
＝2表示表b
m
和b
n
这两个分别对应的边框同列但不同行。通过这一模型可以准确预测出各边框的定位位置。
[0111]
结构体信息存储单元105，用于由各边框的属性数据、边框分类标签及与所述边框行列关系输出矩阵相应的边框行列关系组成所述初始边框集合中各边框的边框信息结构体。
[0112]
在本实施例中，当完成了对每一边框的属性数据、边框分类标签及边框行列关系输出矩阵的获取之后，即可准确获知每一边框的边框顶点坐标集合、识别文本、边框识别标签、与边框位于同一行的其他边框组成的同行边框索引列表，与边框位于同一列的其他边框组成的同列边框索引列表。这样一个边框的详细信息就能由一个相应的边框结构体存储，当获取了所有边框各自对应的边框结构体后，可以组成一个包含所有边框信息的综合结构体。通过这一存储方式，可以存储更加多维度的识别信息。
[0113]
在一实施例中，结构体信息存储单元105，包括：
[0114]
信息解析单元，用于解析所述初始边框集合中各边框的属性数据得到各边框的边框顶点坐标集合和识别文本，解析所述边框行列关系输出矩阵得到各边框的同行边框索引列表及边框的同列边框索引列表；
[0115]
边框结构体获取单元，用于由各边框相应的边框顶点坐标集合、识别文本、边框分类标签、边框的同行边框索引列表及边框的同列边框索引列表组成所述初始边框集合中各边框的边框信息结构体。
[0116]
在本实施例中，对所述初始边框集合中各边框的属性数据、各边框相应的边框分类标签及所述边框行列关系输出矩阵进行解析时是采用上述解析步骤。具体是从所述初始边框集合中各边框的属性数据获取各边框的边框顶点坐标集合及识别文本，从所述边框行列关系输出矩阵获取各边框的同行边框索引列表及边框的同列边框索引列表，当完成了这一具体解析处理后，即可得到所述初始边框集合中各边框的边框顶点坐标集合、识别文本、边框分类标签、边框的同行边框索引列表及边框的同列边框索引列表。
[0117]
在一实施例中，基于人工智能的图片内容提取装置，还包括：
[0118]
综合结构体获取单元，用于将各边框的边框信息结构体进行组合得到综合结构体，将所述综合结构体进行存储。
[0119]
在本实施例中，通过上述方式得到的各边框的边框信息结构体(可用boundingbox结构体来表示)，其包含5个部分的属性，coordinate属性存储边框顶点坐标集合，text属性存储对应的识别文本，lable属性存储边框分类标签，samerowboxindexes属性为列表形式且用于存储边框的同行边框索引列表，samecolumnboxindexes属性同样也为列表形式且用
于存储边框的同列边框索引列表。当将待识别表格图片中的所有信息采用上述结构体并组合成综合结构体的方式存储，使得全图片信息实现了多维度信息结构化存储。
[0120]
该装置实现了智能结构化表格图片信息，且实现了全文档信息结构化，识别数据更多维度且更加高效。
[0121]
上述基于人工智能的表格图片内容提取装置可以实现为计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。
[0122]
请参阅图5，图5是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，也可以是服务器集群。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0123]
参阅图5，该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。
[0124]
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于人工智能的表格图片内容提取方法。
[0125]
该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。
[0126]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于人工智能的表格图片内容提取方法。
[0127]
该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0128]
其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的基于人工智能的表格图片内容提取方法。
[0129]
本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。
[0130]
应当理解，在本发明实施例中，处理器502可以是中央处理单元(central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field
‑
programmable gatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0131]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的
基于人工智能的表格图片内容提取方法。
[0132]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0133]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
[0134]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0135]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0136]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，后台服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视频信号处理系统、方法、投影系统以及投影方法与流程

基于人工智能的表格图片内容提取方法、装置及设备与流程

相关文献

最热文献