一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

知识图谱构建方法、装置、设备和存储介质与流程

2022-11-09 22:10:19 来源:中国专利 TAG:

技术特征:
1.一种知识图谱构建方法,其特征在于,包括:获取特定领域的多个目标语料,所述多个目标语料的格式统一;将所述多个目标语料输入实体关系抽取模型中,得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系,其中,所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后,基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的,所述本体库中包括通用领域的概念层本体和特定领域的领域层本体,所述领域层本体为基于所述概念层本体进行扩展得到的;根据所述多个目标实体以及所述目标关系,构建面向特定领域的知识图谱。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述实体关系抽取模型根据如下方法训练得到:获取初始语料库,所述初始语料库中包括多个已进行实体标注的第一语料和多个未进行实体标注的第二语料,所述第一语料为基于本体库进行标注的;将所述第二语料输入至初始模型中的领域层实体标注模型中,得到多个进行实体标注的第三语料;将目标语料输入所述初始模型中的初始实体关系抽取模型中,基于对比学习,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型,所述目标语料包括所述第一语料和所述第三语料。3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述获取初始语料库,包括:确定待采集的语料对应的多个数据来源;分别确定所述多个数据来源各自对应的数据适配器;通过所述数据适配器,从对应的数据来源中采集语料,得到所述初始语料库,所述初始语料库中包括多个格式统一的语料。4.根据权利要求2或3所述的知识图谱构建方法,其特征在于,所述将所述第二语料输入至初始模型中的领域层实体标注模型中,得到多个第三语料之前,所述方法还包括:获取所述通用领域的多个样本语料;采用所述多个样本语料,对初始概念层实体标注模型进行训练,得到概念层实体标注模型;将所述概念层实体标注模型的模型参数迁移至所述初始模型中的初始领域层实体标注模型中,并基于所述第一语料对迁移了模型参数的初始领域层实体标注模型进行训练,得到所述初始模型中的领域层实体标注模型。5.根据权利要求2或3所述的知识图谱构建方法,其特征在于,所述将目标语料输入所述初始模型中的初始实体关系抽取模型中,基于对比学习损失函数,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型,包括:将所述目标语料输入所述初始实体关系抽取模型中,通过所述初始实体关系抽取模型中的编码器对所述目标语料进行编码,得到多个分布式向量;通过所述初始实体关系抽取模型中的实体解码器,分别将所述多个分布式向量转换为实体标签,所述实体标签用于表示所述目标语料中的实体;通过所述初始实体关系抽取模型中的关系解码器,确定所述多个分布式向量中的头实
体向量和尾实体向量之间的关系;根据所述实体标签、所述关系和所述目标语料的实体标注信息,基于对比学习损失函数,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型。6.根据权利要求5所述的知识图谱构建方法,其特征在于,所述根据所述实体标签、所述关系和所述目标语料的实体标注信息,基于对比学习损失函数,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型,包括:根据所述实体标签和所述目标语料的实体标注信息,基于对比学习损失函数,确定对比损失;所述对比损失包括类间对比损失、类内对比损失和层次间对比损失,所述类间对比损失为基于不同概念层本体的实体确定出的损失,所述类内对比损失为基于同一概念层本体、且不属于同一领域层本体的实体确定出的损失,所述层次间对比损失为基于概念层本体的实体和领域层本体的实体确定出的损失;根据所述目标语料的实体标注信息和所述关系,确定第一损失;根据所述对比损失和所述第一损失,确定目标损失;根据所述目标损失,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型。7.根据权利要求6所述的知识图谱构建方法,其特征在于,所述根据所述目标损失,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型,包括:确定领域层本体中心的中心向量;根据所述实体标签对应的实体向量和所述中心向量,确定中心损失;根据所述中心损失,对所述目标损失进行更新,得到更新后的目标损失;根据所述更新后的目标损失,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型。8.一种知识图谱构建装置,其特征在于,包括:获取单元,用于获取特定领域的多个目标语料,所述多个目标语料的格式统一;处理单元,用于将所述多个目标语料输入实体关系抽取模型中,得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系,其中,所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后,基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的,所述本体库中包括通用领域的概念层本体和特定领域的领域层本体,所述领域层本体为基于所述概念层本体进行扩展得到的;构建单元,用于根据所述多个目标实体以及所述目标关系,构建面向特定领域的知识图谱。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述知识图谱构建方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识图谱构建方法。

技术总结
本发明提供一种知识图谱构建方法、装置、设备和存储介质,应用于信息处理技术领域,该方法包括:获取特定领域的多个目标语料;将多个目标语料输入实体关系抽取模型中,得到多个目标语料中的多个目标实体以及多个目标实体中头实体和尾实体之间的目标关系,其中,实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后,基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的,本体库中包括通用领域的概念层本体和特定领域的领域层本体,领域层本体为基于概念层本体进行扩展得到的;根据多个目标实体以及目标关系,构建面向特定领域的知识图谱。本发明中,使得构建出的面向特定领域的知识图谱准确性更高。谱准确性更高。谱准确性更高。


技术研发人员:王乐
受保护的技术使用者:北京如炬科技有限公司
技术研发日:2022.09.29
技术公布日:2022/11/8
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献