一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图神经网络的多模态文档信息抽取方法与流程

2022-04-30 17:05:57 来源:中国专利 TAG:

技术特征:
1.一种基于图神经网络的多模态文档信息抽取方法,其特征在于,包括如下步骤:步骤s1:光学字符识别ocr:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;步骤s2:预编码:对光学字符识别ocr输出的文本块进行特征提取,包括文本、视觉、布局三种模态特征,并进行模态间的特征融合,输出图节点特征;步骤s3:图构建:将所述文本块内容进行抽象化,输出初始图g=(v,e,a):其中,v代表图节点,e代表节点间的边,a代表图的邻接矩阵;步骤s4:图划分:通过将图节点分配到不同的簇来实现对步骤s3中的初始图进行划分,并对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;步骤s5:图深度编码:根据步骤s4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;步骤s6:信息抽取:对步骤s5中的图节点进行节点分类和链路预测,输出最终结果。2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤s1中,对图片中的文字进行识别包括文本检测和文字识别,通过文本检测和文字识别输出所述文本块和文本块的位置坐标,其中,文本检测使用了轻量级dbnet作为骨干网络;文字识别使用crnn来进行行文本识别,并采用centerloss来提升识别效果。3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤s2中,使用roberta提取文本特征,使用resnet作为骨干网络,根据文本块的位置坐标并通过roialign获得对应文本块范围内的视觉特征;并且,根据文本块的位置坐标、大小生成初始布局特征;最后,对提取的文本特征、视觉特征、布局特征三种模态特征,利用block机制进行特征融合,输出图节点特征。4.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤s3中,e代表节点间的边,是由各文本块间的空间关系以及语义相似度定义,边的特征通过计算文本块之间的相对位置关系,以及包含两者的视觉范围特征得出;a代表图的邻接矩阵,通过得到的边特征,利用多头自注意力机制进行计算。5.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤s4中,通过将图节点分配到不同的簇来实现图划分具体包括:假设当前图节点个数为n,首先预定义衰减因子c确定下一层簇的个数n*c,利用第一图卷积网络进行信息交互和图节点分配矩阵学习n x n*c,分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互,图的邻接矩阵维度由n x n变为n*c x n*c;通过迭代多次分配实现图的分块。6.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤s5中,对图节点的最终表示进行更新包括:在相同簇内的图节点按照“从左到右,从上到下”的原则进行横向位置排序编码;对图节点的依次分配结果进行纵向位置编码,同时将层次化分块信息和局部阅读顺序融入到图节点表示中。7.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法,其特征在于:在所述步骤s6中,所述链路预测是通过拼接两个候选图节点的表示作为输入,最后通过一个分类器计算两者之间边的概率。

技术总结
本发明公开了一种基于图神经网络的多模态文档信息抽取方法,包括S1:对图片中的文字进行识别,并转化成文本格式输出文本块,同时输出文本块的位置坐标;S2:对文本块进行文本、视觉、布局三种模态特征提取,并进行模态间的特征融合,输出图节点特征;S3:将文本块内容进行抽象化,输出初始图G=(V,E,A):S4:通过将图节点分配到不同的簇来实现对初始图进行划分,对图节点的分配矩阵进行迭代更新,通过迭代多次分配实现图的分块;S5:根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新;S6:对图节点进行节点分类和链路预测,输出最终结果。本发明能够有效捕获文档的空间布局信息、有效提高语义准确性,通用性强。通用性强。通用性强。


技术研发人员:罗伟杰 陈永红 谢翀
受保护的技术使用者:深圳前海环融联易信息科技服务有限公司
技术研发日:2022.01.18
技术公布日:2022/4/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献