一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于融入知识图谱子图信息及实体信息的实体链接方法与流程

2021-11-09 22:44:00 来源:中国专利 TAG:

技术特征:
1.一种基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出问句文本中的预测提及词;对预测提及词召回,根据召回算法得到目标提及词,根据知识库自带的映射文件,得到目标提及词的所有候选实体,从知识库中检索每个候选实体,得到所有候选实体的知识图谱子图信息;将所述知识图谱子图信息融入到所述候选实体中得到候选实体文本,并在包含提及词的问句文本及包含候选实体的候选实体文本中引入标签对,即引入实体边界信息,构建实体消歧数据集;将所述实体消歧数据集喂入训练好的实体消歧模型,池化得到提及词对应的不同候选实体的分值,取分值最高作为提及词的目标实体,完成实体链接。2.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,所述训练提及识别模型的方法包括:构建提及识别预训练模型;获取训练数据,对训练数据中的文本进行序列标注,标出命名实体,得到训练集;将标签的训练集输入到所述提及识别预训练模型进行训练得到相应的命名实体,得到提及识别模型。3.根据权利要求2所述的基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,所述预训练模型为bert模型加入crf架构的基础模型;所述训练数据中的文本进行标签的方法为:获取训练数据中的文本的句子;对所述句子中的每一个中文字进行标注;其中,对句子中命名实体的第一个字、命名实体中的其他字以及句子的非命名实体字标注出不同标签,命名实体为提及词。4.根据权利要求3所述的基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,所述提及词召回的方法,包括:获取提及识别模型识别的预测提及词以及一个提及词跟知识库实体的映射文件;从所述映射文件中得到知识图谱的全部提及词列表,遍历全部提及词列表中的项,提取所述预测提及词包含的项形成切割列表;将切割列表中长度最大的项作为召回提及词,根据召回提及词与预测提及词建立召回列表;遍历召回列表中的每一项,检索所述全部提及词列表中包含所述历召回列表的项,提取构建延伸列表,将延伸列表与所述立召回列表合并得到召回的实体召回列表。5.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述候选实体文本的构建方法,包括:检索知识图谱,所述知识图谱以头节点、关系、尾节点的三元组形式存储;根据所述知识图谱的三元组形式,将所有与头节点相连的边和尾节点都取出作为知识图谱子图信息,得到所述候选实体的所有知识图谱子图信息;将所述知识图谱子图信息拼接到所述候选实体的上下文中得到候选实体文本。
6.根据权利要求5所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述标签对为实体消歧模型识别所述提及词和候选实体的边界信息,所述标签对分别插入所述问句文本的提及词前后和所述候选实体文本的候选实体前后。7.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述实体消歧数据集构建为:[cls]“问句文本”[sep] “候选实体文本” [sep] 句对的正确分类。8.根据权利要求7所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述训练实体消歧模型的方法包括:基于bert模型构建bert的句子对分类任务的实体消歧预训练模型;将实体消歧数据集输入到所述实体消歧预训练模型进行训练得到相应的知识库实体,得到实体消歧模型。9.根据权利要求7所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述实体消歧模型的池化采用实体级别的最大池化策略,所述池化得到提及词对应的知识库实体为:根据实体级别的最大池化策略分别获取所述提及词片段的最大池化表示向量和候选实体片段的最大池化表示向量;将[cls]的表示向量、问句文本的提及词片段的最大池化表示向量以及候选文本的候选实体片段的最大池化表示向量进行拼接,输入前馈神经网络,通过计算得到所述问句文本中提及词所指向的知识库实体的分值;根据计算得到的分值对比,取最大分值的候选实体作为实体目标,得到提及词对应的知识库实体。10.根据权利要求9所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述计算得到所述问句文本中提及词所指向的知识库实体的分值采用softmax函数。

技术总结
本发明涉及一种基于融入知识图谱子图信息及实体信息的实体链接方法,该方法包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出预测提及词;对预测提及词进行召回,得到更高准确率的目标提及词。根据目标提及词从知识库中得到提及词对应的所有候选实体;对每个候选实体,检索它的知识图谱子图信息;将知识图谱子图信息融入到候选实体中得到候选实体文本,并在问句文本及候选实体文本中引入实体边界标签,构建实体消歧数据集;喂入训练好的实体消歧模型,池化得到提及词对应的知识库实体,完成实体链接。本发明能有效提高提及词识别的召回率,提高候选实体的排序准确率并减少错误传递,有效解决推理及在训练集中的未见实体情况。见实体情况。见实体情况。


技术研发人员:唐蕾 徐有恒 何展鹏 毛婷婷 张武军 任斌 邓蓉蓉
受保护的技术使用者:广州医药信息科技有限公司
技术研发日:2021.08.18
技术公布日:2021/11/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献