一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息比对方法、装置、电子设备及存储介质与流程

2022-11-13 13:10:53 来源:中国专利 TAG:

技术特征:
1.一种信息比对方法,包括:从参考文件的文本内容中提取多项文本信息,以及基于所述参考文件的元数据提取元数据特征;分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征;基于所述元数据特征和所述综合文本特征,确定所述参考文件与待比对文件的相似度。2.根据权利要求1所述的方法,所述对各项文本信息的文本特征进行融合处理,得到综合文本特征,包括:基于层次注意力机制处理各项文本信息的文本特征,得到所述综合文本特征。3.根据权利要求2所述的方法,所述基于层次注意力机制处理各项文本信息的文本特征,得到所述综合文本特征,包括:确定所述多项文本信息中包含多个段落的复杂文本项,并确定所述多项文本信息中除所述复杂文本项之外的文本信息为简单文本信息;基于所述复杂文本项,确定所述层次注意力机制的键特征、值特征和查询特征;其中,所述复杂文本项的文本特征中每个段落的子文本特征为所述键特征和所述值特征,所述简单文本信息的文本特征为所述查询特征;基于所述键特征、所述值特征和所述查询特征确定所述复杂文本项的优化文本特征;将所述复杂文本项的优化文本特征和所述简单文本项的文本特征进行拼接处理,得到所述综合文本特征。4.根据权利要求1所述的方法,所述对各项文本信息的文本特征进行融合处理,得到综合文本特征,包括:对各项文本信息的文本特征进行拼接处理,得到所述综合文本特征。5.根据权利要求1-4中任一项所述的方法,所述分别提取各项文本信息的文本特征,包括:针对每项文本信息分别执行以下操作:采用所述文本信息对应的第一语言模型提取所述文本信息的初始文本特征;将所述文本信息的初始文本特征输入所述文本信息对应的第一全连接层,得到所述第一全连接层输出的所述文本信息的文本特征。6.根据权利要求1-4中任一项所述的方法,针对所述多项文本信息中包含多个段落的复杂文本项,提取所述复杂文本项的文本特征,包括:基于所述复杂文本项对应的第二语言模型,分别提取所述复杂文本项中各段文本的子文本特征;对各段文本的子文本特征进行降维处理,得到所述复杂文本项的降维特征;将所述复杂文本项的降维特征输入所述复杂文本项对应的第二全连接层,得到所述第二全连接层输出的所述复杂文本项的文本特征。7.根据权利要求1所述的方法,所述分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征,包括:基于综合文本特征网络模型,分别提取各项文本信息的文本特征,并对各项文本信息
的文本特征进行融合处理,得到所述综合文本特征。8.根据权利要求7所述的方法,还包括基于以下方法训练得到所述综合文本特征网络模型:从同一文件中提取多项文本信息,构建正样本,并从不同文件中提取多项文本信息,构建负样本;将所述正样本和所述负样本分别输入初始文本特征网络,得到所述初始文本特征网络输出的所述正样本的综合文本特征、和所述负样本的综合文本特征;采用分类器对所述正样本的综合文本特征和所述负样本的综合文本特征分别进行分类处理,得到分类处理结果,其中,分类器的分类类别包括正样本和负样本;基于所述分类处理结果、所述正样本的类别标签和所述负样本的类别标签,确定分类损失值;基于所述分类损失值,调整所述初始文本特征网络的模型参数,得到所述综合文本特征网络模型。9.一种信息比对装置,包括:获取模块,用于从参考文件的文本内容中提取多项文本信息,以及基于所述参考文件的元数据提取元数据特征;提取模块,用于分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到综合文本特征;比对模块,用于基于所述元数据特征和所述综合文本特征,确定所述参考文件与待比对文件的相似度。10.根据权利要求9所述的装置,所述提取模块,用于基于层次注意力机制处理各项文本信息的文本特征,得到所述综合文本特征。11.根据权利要求10所述的装置,所述提取模块包括:文本项确定单元,用于确定所述多项文本信息中包含多个段落的复杂文本项,并确定所述多项文本信息中除所述复杂文本项之外的文本信息为简单文本信息;特征确定单元,用于基于所述复杂文本项,确定所述层次注意力机制的键特征、值特征和查询特征;其中,所述复杂文本项的文本特征中每个段落的子文本特征为所述键特征和所述值特征,所述简单文本信息的文本特征为所述查询特征;特征优化单元,用于基于所述键特征、所述值特征和所述查询特征确定所述复杂文本项的优化文本特征;拼接单元,用于将所述复杂文本项的优化文本特征和所述简单文本项的文本特征进行拼接处理,得到所述综合文本特征。12.根据权利要求9所述的装置,所述提取模块,用于对各项文本信息的文本特征进行拼接处理,得到所述综合文本特征。13.根据权利要求9-12中任一项所述的装置,所述提取模块,用于针对每项文本信息分别执行以下操作:采用所述文本信息对应的第一语言模型提取所述文本信息的初始文本特征;将所述文本信息的初始文本特征输入所述文本信息对应的第一全连接层,得到所述第一全连接层输出的所述文本信息的文本特征。
14.根据权利要求9-12中任一项所述的装置,针对所述多项文本信息中包含多个段落的复杂文本项,所述提取模块,基于以下方法提取所述复杂文本项的文本特征:基于所述复杂文本项对应的第二语言模型,分别提取所述复杂文本项中各段文本的子文本特征;对各段文本的子文本特征进行降维处理,得到所述复杂文本项的降维特征;将所述复杂文本项的降维特征输入所述复杂文本项对应的第二全连接层,得到所述第二全连接层输出的所述复杂文本项的文本特征。15.根据权利要求9所述的装置,所述提取模块,用于基于综合文本特征网络模型,分别提取各项文本信息的文本特征,并对各项文本信息的文本特征进行融合处理,得到所述综合文本特征。16.根据权利要求15所述的装置,还包括训练模块,用于基于以下方法训练得到所述综合文本特征网络模型:从同一文件中提取多项文本信息,构建正样本,并从不同文件中提取多项文本信息,构建负样本;将所述正样本和所述负样本分别输入初始文本特征网络,得到所述初始文本特征网络输出的所述正样本的综合文本特征、和所述负样本的综合文本特征;采用分类器对所述正样本的综合文本特征和所述负样本的综合文本特征分别进行分类处理,得到分类处理结果,其中,分类器的分类类别包括正样本和负样本;基于所述分类处理结果、所述正样本的类别标签和所述负样本的类别标签,确定分类损失值;基于所述分类损失值,调整所述初始文本特征网络的模型参数,得到所述综合文本特征网络模型。17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。

技术总结
本公开提供了一种信息比对方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及智能搜索技术领域。具体实现方案为:从参考文件的文本内容中提取多项文本信息,并基于参考文件的元数据提取元数据特征;分别提取各项文本信息的文本特征,并对各文本特征进行融合处理,得到综合文本特征;基于元数据特征和综合文本特征,确定参考文件与待比对文件的相似度。本公开实施例中从参考文件中提取多项文本信息,并分别提取文本特征,有利于提炼出每项文本信息独立表达的思想特征。结合多个文本特征得到的综合文本特征能够代表整体文本特征。进一步结合了元数据特征,能够从多个维度实现对参考文件的特征描述,进而提高文件相似度的准确性。似度的准确性。似度的准确性。


技术研发人员:武晗 祝恒书 熊辉 刘浩 秦川 刘淇 陈恩红
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.08.02
技术公布日:2022/11/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献