一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息抽取方法、装置、设备以及计算机可读存储介质与流程

2021-10-30 03:06:00 来源:中国专利 TAG:例数 抽取 装置 可读 实施

技术特征:
1.一种信息抽取方法,其特征在于,所述方法包括:获取待抽取数据;确定所述待抽取数据对应的词向量矩阵;根据所述词向量矩阵和头实体预测模型确定头实体预测信息;根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。2.根据权利要求1所述的方法,其特征在于,所述待抽取数据中包括多个字符位;所述头实体预测信息包括各个所述字符位对应的头实体起始位置预测概率、头实体结束位置预测概率以及所述待抽取数据中包含的有效头实体信息;每一个所述有效头实体包括至少一个所述字符位;所述根据所述词向量矩阵和头实体预测模型确定头实体预测信息,包括:将所述词向量矩阵输入所述头实体预测模型,得到所述头实体起始位置预测概率及所述头实体结束位置预测概率;根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息。3.根据权利要求2所述的方法,其特征在于,所述有效头实体信息包括至少一个有效头实体对应的有效头实体起止位置对;所述根据所述头实体起始位置预测概率以及头实体结束位置预测概率确定所述有效头实体信息,包括:将所述头实体起始位置预测概率、所述头实体结束位置预测概率分别与第一阈值、第二阈值进行比较,得到第一比较结果;根据所述第一比较结果从所述字符位中分别确定头实体可选起始位置、头实体可选结束位置;将所述头实体可选起始位置与所述头实体可选结束位置进行组合,得到多个第一头实体起止位置对;删除所述头实体可选起始位置在所述头实体可选结束位置之后的所述第一头实体起止位置对,得到第二头实体起止位置对;对所述头实体起始位置或所述头实体结束位置相同的所述第二头实体起止位置对进行筛选,得到所述有效头实体起止位置对;每一个所述有效头实体起止位置对对应于一个所述有效头实体。4.根据权利要求3所述的方法,其特征在于,所述中间词预测信息包括与目标头实体满足第一语法关系的目标中间词对应的目标中间词起止位置对;所述目标头实体为所述有效头实体中的一个;所述第一语法关系为多个预设主谓语法关系中的一个;所述根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息,包括:将所述词向量矩阵与所述目标头实体对应的目标头实体起止位置对进行混合编码,得到主语特征向量;将所述主语特征向量输入所述中间词预测模型,得到中间词预测信息;所述中间词预测信息中包括各个所述字符位对应的中间词起始位置预测概率、中间词结束位置预测概率
以及所述第一语法关系;根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述中间词起始位置预测概率、中间词结束位置预测概率以及第一语法关系确定所述中间词预测信息,包括:将所述第一语法关系相同的各个字符位对应的所述中间词起始位置预测概率、中间词结束位置预测概率分别与第三阈值、第四阈值进行比较,得到第二比较结果;根据所述第二比较结果从所述字符位中确定中间词可选起始位置、中间词可选结束位置;将所述中间词可选起始位置与所述中间词可选结束位置进行组合,得到多个第一中间词起止位置对;删除所述中间词可选起始位置在所述中间词可选结束位置之后的所述第一中间词起止位置对,得到第二中间词起止位置对;对所述中间词起始位置或中间词结束位置相同的所述第二中间词起止位置对进行筛选,得到所述第一语法关系对应的所述目标中间词起止位置对。6.根据权利要求5所述的方法,其特征在于,所述根据所述词向量矩阵、头实体预测信息、中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息,包括:将所述词向量矩阵与待混合中间词起止位置对进行混合编码,得到中间词位置向量;所述待混合中间词起止位置对为所述目标中间词起止位置对中的一个;将所述主语特征向量与所述中间词位置向量进行混合编码,得到主谓语特征向量;将所述主谓语特征向量输入所述尾实体预测模型,得到尾实体预测信息;所述尾实体预测信息包括各个所述字符位为与所述目标头实体中间对满足第二语法关系的目标尾实体的起止位置的预测概率;其中,所述第二语法关系为多个预设主谓宾语法关系中的一个;所述目标头实体中间对包括所述目标头实体和所述待混合中间词起止位置对对应的目标中间词;根据所述尾实体预测信息确定所述三元组信息。7.根据权利要求6所述的方法,其特征在于,所述根据所述尾实体预测信息确定所述三元组信息,包括:将所述第二语法关系相同的各个字符位对应的所述尾实体起始位置预测概率、尾实体结束位置预测概率分别与第五阈值、第六阈值进行比较,得到第三比较结果;根据所述第三比较结果从所述字符位中确定尾实体可选起始位置、尾实体可选结束位置;将所述尾实体可选起始位置与所述尾实体可选结束位置进行组合,得到多个第一尾实体起止位置对;删除所述尾实体可选起始位置在所述尾实体可选结束位置之后的第一尾实体起止位置对,得到第二尾实体起止位置对;对存在尾实体可选起始位置相同或尾实体可选结束位置相同的所述第二尾实体起止位置对进行筛选,得到与所述目标头实体中间词对满足所述第二语法关系的目标尾实体起止位置对。
8.一种信息抽取装置,其特征在于,所述装置包括:获取模块,用于获取待抽取数据;确定模块,用于确定所述待抽取数据对应的词向量矩阵;第一预测模块,用于根据所述词向量矩阵和头实体预测模型确定头实体预测信息;第二预测模块,用于根据所述词向量矩阵、所述头实体预测信息以及中间词预测模型确定中间词预测信息;第三预测模块,用于根据所述词向量矩阵、所述头实体预测信息、所述中间词预测信息以及尾实体预测模型确定所述待抽取数据包含的三元组信息;所述三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。9.一种信息抽取设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1

7任意一项所述的信息抽取方法的操作。10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在信息抽取设备上运行时,使得信息抽取设备执行如权利要求1

7任意一项所述的信息抽取方法的操作。

技术总结
本发明实施例涉及数据处理技术领域,公开了一种信息抽取方法、装置、设备以及计算机可读存储介质,该方法包括:获取待抽取数据;确定待抽取数据对应的词向量矩阵;根据词向量矩阵和头实体预测模型确定头实体预测信息;根据词向量矩阵、头实体预测信息以及中间词预测模型确定中间词预测信息;根据词向量矩阵、头实体预测信息、中间词预测信息以及尾实体预测模型确定待抽取数据包含的三元组信息;三元组信息包括头实体、中间词以及尾实体的位置信息和语法关系。通过上述方式,本发明实施例提高了信息抽取的准确率。息抽取的准确率。息抽取的准确率。


技术研发人员:李敏 陆彦良 李东晓 移金圣 徐健
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2021.07.30
技术公布日:2021/10/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜