一种基于图神经网络的多模态文档信息抽取方法与流程

2022-04-30 17:05:57 来源：中国专利 TAG：

技术特征：
1.一种基于图神经网络的多模态文档信息抽取方法，其特征在于，包括如下步骤：步骤s1：光学字符识别ocr：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；步骤s2：预编码：对光学字符识别ocr输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合，输出图节点特征；步骤s3：图构建：将所述文本块内容进行抽象化，输出初始图g＝(v,e,a)：其中，v代表图节点，e代表节点间的边，a代表图的邻接矩阵；步骤s4：图划分：通过将图节点分配到不同的簇来实现对步骤s3中的初始图进行划分，并对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；步骤s5：图深度编码：根据步骤s4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；步骤s6：信息抽取：对步骤s5中的图节点进行节点分类和链路预测，输出最终结果。2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤s1中，对图片中的文字进行识别包括文本检测和文字识别，通过文本检测和文字识别输出所述文本块和文本块的位置坐标，其中，文本检测使用了轻量级dbnet作为骨干网络；文字识别使用crnn来进行行文本识别，并采用centerloss来提升识别效果。3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤s2中，使用roberta提取文本特征，使用resnet作为骨干网络，根据文本块的位置坐标并通过roialign获得对应文本块范围内的视觉特征；并且，根据文本块的位置坐标、大小生成初始布局特征；最后，对提取的文本特征、视觉特征、布局特征三种模态特征，利用block机制进行特征融合，输出图节点特征。4.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤s3中，e代表节点间的边，是由各文本块间的空间关系以及语义相似度定义，边的特征通过计算文本块之间的相对位置关系，以及包含两者的视觉范围特征得出；a代表图的邻接矩阵，通过得到的边特征，利用多头自注意力机制进行计算。5.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤s4中，通过将图节点分配到不同的簇来实现图划分具体包括：假设当前图节点个数为n，首先预定义衰减因子c确定下一层簇的个数n*c，利用第一图卷积网络进行信息交互和图节点分配矩阵学习n x n*c，分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互，图的邻接矩阵维度由n x n变为n*c x n*c；通过迭代多次分配实现图的分块。6.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤s5中，对图节点的最终表示进行更新包括：在相同簇内的图节点按照“从左到右，从上到下”的原则进行横向位置排序编码；对图节点的依次分配结果进行纵向位置编码，同时将层次化分块信息和局部阅读顺序融入到图节点表示中。7.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤s6中，所述链路预测是通过拼接两个候选图节点的表示作为输入，最后通过一个分类器计算两者之间边的概率。

技术总结
本发明公开了一种基于图神经网络的多模态文档信息抽取方法，包括S1：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；S2：对文本块进行文本、视觉、布局三种模态特征提取，并进行模态间的特征融合，输出图节点特征；S3：将文本块内容进行抽象化，输出初始图G＝(V,E,A)：S4：通过将图节点分配到不同的簇来实现对初始图进行划分，对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；S5：根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；S6：对图节点进行节点分类和链路预测，输出最终结果。本发明能够有效捕获文档的空间布局信息、有效提高语义准确性，通用性强。通用性强。通用性强。

技术研发人员：罗伟杰陈永红谢翀
受保护的技术使用者：深圳前海环融联易信息科技服务有限公司
技术研发日：2022.01.18
技术公布日：2022/4/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种快速三维点云生成三维网格的方法与流程

一种基于图神经网络的多模态文档信息抽取方法与流程

相关文献

最热文献