一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文档处理方法和装置与流程

2022-07-31 10:20:18 来源:中国专利 TAG:

技术特征:
1.文档处理方法,其中包括:从待处理的文档中提取出至少两个文本块;将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;根据每一个节点的至少一种特征,得到该节点的初始表征向量;根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。2.根据权利要求1所述的方法,其中,所述得到每一个节点的至少一种特征,包括如下中的至少一项:根据每一个节点对应的文本块的文本内容,得到该节点的文本特征;根据每一个节点对应的文本块在待处理的文档中的位置,得到该节点的布局特征;根据每一个节点对应的文本块的图像,得到该节点的图像特征。3.根据权利要求2所述的方法,其中,所述根据每一个节点对应的文本块的图像得到该节点的图像特征,包括如下中的至少一项:对所述待处理的文档的图像进行编码,获得待处理的文档对应的图像特征;根据每一个节点对应的文本块的四角坐标以及所述待处理文档对应的图像特征,利用roi池化方法获取每一个节点的图像特征;根据每一个节点对应的文本块的四角坐标,在所述待处理文档对应的图像中截取该节点对应的图像;对该节点对应的图像进行编码,获得该节点的图像特征。4.根据权利要求2所述的方法,其中,当得到了每一个节点的文本特征、布局特征以及图像特征时;所述根据每一个节点的至少一种特征得到该节点的初始表征向量,包括:将该节点的文本特征与布局特征拼接在一起,得到该节点的基础特征;将该节点的基础特征与该节点的图像特征通过门机制的方式进行融合,得到该节点的初始表征向量。5.根据权利要求1所述的方法,其中,所述根据每一个节点的初始表征向量以及该节点与其他各节点在待处理的文档中的位置关系得到该节点的最终表征向量,包括:针对每一个节点均执行:利用当前节点与其他各节点在待处理的文档中的相对位置关系,生成n*n的权重矩阵;其中,n为大于1的正整数,且等于节点的数量;该权重矩阵中的每一个元素对应n个节点的n*n种两两组合的其中一种组合,元素的值为权重值,且权重值越大表示该元素对应的组合中的两个节点的相互影响越大;利用所诉权重矩阵对图处理模型的邻接矩阵进行加权,得到加权后的邻接矩阵;根据图处理模型的加权后的邻接矩阵,对每一个节点的初始表征向量进行聚合,得到该节点的最终表征向量。6.根据权利要求5所述的方法,其中,所述利用当前节点与其他各节点在待处理的文档中的位置关系生成n*n的权重矩阵,包括:针对n*n的权重矩阵中的每一个元素,均执行:得到该元素对应的两个节点;在极坐标系下构建该元素对应的两个节点的位置;
根据该元素对应的两个节点在极坐标系中的径向距离,得到该元素对应的径向权重值;根据该元素对应的两个节点在极坐标系中形成的角度,得到该元素对应的角度权重值;将该元素对应的径向权重值及角度权重值相加,得到该元素的值;根据得到的各个元素的值,形成n*n的权重矩阵。7.根据权利要求6所述的方法,其中,所述根据该元素对应的两个节点在极坐标系中的径向距离得到该元素对应的径向权重值,包括:根据该元素对应的两个节点在极坐标系中的径向距离以及预先设置的衰减函数,得到该元素对应的径向权重值;和/或,所述根据该元素对应的两个节点在极坐标系中形成的角度得到该元素对应的角度权重值,包括:对该元素对应的两个节点在极坐标系中形成的角度进行离散化,得到离散角度;将离散角度映射为角度向量;将该角度向量输入预先训练的角度权重识别模型,得到该识别模型输出的该元素对应的角度权重值。8.根据权利要求5所述的方法,其中,所述图处理模型为:gcn网络或者gtn网络。9.文档处理装置,其中包括:文本块提取模块,配置为从待处理的文档中提取出至少两个文本块;特征获取模块,配置为将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;初始表征向量获取模块,配置为根据每一个节点的至少一种特征,得到该节点的初始表征向量;最终表征向量获取模块,配置为根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。

技术总结
本说明书实施例提供了一种文档处理方法及装置。该方法包括:从待处理的文档中提取出至少两个文本块;将每一个文本块作为一个节点,并得到每一个节点的至少一种特征;根据每一个节点的至少一种特征,得到该节点的初始表征向量;根据每一个节点的初始表征向量、该节点对应的文本块与其他各节点对应的文本块在待处理的文档中的位置关系,得到每一个节点的最终表征向量。本说明书实施例能够更为准确地得到表征文档中的信息的向量。得到表征文档中的信息的向量。得到表征文档中的信息的向量。


技术研发人员:施登亮 郝嘉然 祝慧佳 刘思亮
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2022.04.02
技术公布日:2022/7/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献