一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语义对齐及对称结构编码的知识图谱补全方法及装置与流程

2022-03-02 04:18:57 来源:中国专利 TAG:


1.本发明涉及知识图谱补全的技术领域,更具体地,涉及一种基于语义对齐及对称结构编码的知识图谱补全方法及装置。


背景技术:

2.知识图谱(knowledge graph)是显示知识发展进程与结构关系的一系列各种不同的图形,通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,知识图谱本质上是一种语义网络,是真实世界信息的结构化表示。在一个kg中,节点表示实体,例如人和地点,标签是连接它们的关系类型,边是用关系连接两个实体的特定事实,由于kg能够以机器可读的方式对结构化、复杂的数据进行建模,因此它被广泛应用于各个领域,从问答到信息检索和基于内容的推荐系统,并且对于任何语义web项目都非常重要,作为结构化的知识引导系统更精准、高效地实现系统目标。通过知识图谱能够将web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并且形成一套web语义知识库。
3.然而,知识图谱中实体间关系的缺失也给其实际的应用带来了很多问题,因此,知识图谱补全技术应运而生,目的就是为了补全图谱,适应性地添加图谱中节点的关联或者根据已经节点和关系推测目标节点,这种链路预测在做智能问答和智能推荐,如根据用户喜好进行购物推荐时起到关键作用,目前绝大多数知识图谱补全的模型使用原始的知识图谱元素来学习低维表示,称为知识图谱嵌入,然后利用它们来推断新的事实,主流的方法包括基于张量分解的模型、几何模型和深度学习模型。现有技术中公开了一种基于深度学习模型来实现知识图谱补全的方法,该方案中首先下载知识图谱并获取每个关系的文本描述,然后基于文本嵌入方式获取每个关系的向量初始化,再将每个关系的向量初始化输入到下载知识图谱中,得到新的知识图谱;基于用户提供待补全的三元组,将其头实体和尾实体输入至msnn网络,在msnn网络内,通过两个并行的子网络分别提取实体的上下文信息和关系路径特征;最后根据上下文信息和关系路径特征推断出缺失的关系,并补全到原知识图谱中。从整体上看,该专利的方案中提出的知识图谱补全方法基于深度神经网络训练推理的方式得出缺失的关系,然而这种方法仅考虑了知识图谱中的结构信息,一旦知识图谱有动态调整,比如增加结点或关系,模型都需要从头训练,因此,并不具备很强的泛化能力和鲁棒性,以智能搜索和智能问答为例,如果目标是图谱中的实体,当新增了搜索结果对应的实体节点时,整个实体库的嵌入需要重新训练,因为增加节点带来了拓扑图的改变,嵌入一旦改变了,补全的结果也会有差异,因此,基于原知识图谱结构的方法并不适用于动态变化的图谱,具有很大的局限性。
4.此外,在大多数kgs中,对于包含丰富语义信息的实体,有简明的描述,因此,利用嵌入带有文本的信息优化知识图谱的表征,可以更好地完成知识图谱的补全任务。但是,现存的基于文本的kgc模型,虽然已使用了预训练、微调等先进的自然语言处理(nlp)技术,却存在较严重的预测不对称问题,主要表现为:由头实体和关系预测尾实体的性能和由尾实
体和关系预测头实体的性能差异巨大。


技术实现要素:

5.为解决当前知识图谱的补全方式受限于原知识图谱的结构,且预测不对称的问题,本发明提出一种基于语义对齐及对称结构编码的知识图谱补全方法及装置,当节点关系变化时,可直接在原知识图谱结构模型上微调,鲁棒性强,缓解了传统应用知识图谱预测中结果的不对称性,提升了知识图谱补全效果。
6.为了达到上述技术效果,本发明的技术方案如下:
7.一种基于语义对齐及对称结构编码的知识图谱补全方法,包括以下步骤:
8.s1.将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
9.s2.将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
10.s3.构建知识图谱补全模型,包括上路文本编码器、与上路文本编码器对称的下路文本编码器、上路交互单元、与上路交互单元对称的下路交互单元及分数拟合器;
11.s4.侧重头实体组合及侧重尾实体组合分别输入知识图谱补全模型的下路文本编码器及上路文本编码器,分别生成下路编码向量与上路编码向量;
12.s5.将下路编码向量通过下路交互单元进行交互拼接,将上路编码向量通过上路交互单元进行交互拼接;
13.s6.经步骤s5后分别得到上路拼接向量v与下路拼接向量u,然后引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
14.s7.对s1中的每一个三元组进行负采样,确定最终的负采样三元组,然后对每一个负采样三元组执行s2~s5,得到负采样三元组对应的下路拼接向量u';
15.s8.引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
16.s9.从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
17.在本技术方案中,首先基于训练集中原始知识图谱三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,模型中包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元组样本的语义特征,整个过程先对比学习进行自监督训练,为增强模型对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原知识图谱的结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。
18.优选地,步骤s2中,设h代表头实体,r代表关系,t代表尾实体,将三元组的各部分组合时,以头实体和关系、尾实体为一路输入(h r,t),形成侧重头实体组合:hh与h
t
,对应输入文本表示为:
19.hh=[《cls》,x
(h)
,《sep》,x
(r)
,《sep》],
[0020]ht
=[《cls》,x
(t)
,《sep》],
[0021]
以尾实体和关系、头实体为另一路输入(h,r t),形成侧重尾实体组合:th与t
t
,对应输入文本表示为:
[0022]
th=[《cls》,x
(h)
,《sep》],
[0023]
t
t
=[《cls》,x
(r)
,《sep》,x
(t)
,《sep》],
[0024]
transformer架构是仅用attention来做特征抽取的模型,在此,《cls》和《sep》分别为tansformer架构中用于分类和句子分离的特殊token,x
(h)
是头实体对应的文本内容里的字符,x
(r)
是关系实体对应的文本字符,x
(t)
是尾实体对应的文本字符,x
(h)
、x
(r)
、x
(t)
与特殊token拼接形成两路输入。
[0025]
在此,通过组合三元组的不同部分生成一条三元组的两种两路组合的文本输入,充分利用了知识库里的文本信息。
[0026]
优选地,步骤s3中上路文本编码器与下路文本编码器结构对称,均选用基于transformer的预模型,定义为transfomer-enc,上路交互单元与下路交互单元结构对称,均定义为intertrans-enc,对称的架构以便基于侧重头实体组合及侧重尾实体组合均衡生成关系和头实体、关系和尾实体的组合,双塔的输入结构保证了推理的性能,使整个模型相比于单塔降低推理时长之外,还缓解链路预测中的不对称性,提升模型整体的预测性能。
[0027]
优选地,步骤s4中,侧重头实体组合hh与h
t
输入下路文本编码器,通过下路文本编码器生成下路编码向量,表征为:
[0028]
uh=transformer-enc(hh)[0],
[0029]ut
=transformer-enc(h
t
)[0]
[0030]
侧重尾实体组合th与t
t
输入上路文本编码器,通过上路文本编码器生成下路编码向量,表征为:
[0031]
vh=transformer_enc(th)[0],
[0032]vt
=transformer_enc(t
t
)[0]
[0033]
其中,下标[0]表示经过transformer-enc的特殊token【cls】后对应的向量,由于【cls】在每一路输入文本中被放置在第一个位置,所以对应[0]下标。
[0034]
优选地,步骤s5中,将上路编码向量通过上路交互单元进行交互拼接时,满足:
[0035]
v=[vh;vh×vt
;v
h-v
t
;v
t
]
[0036]
其中,v表示上路拼接向量;
[0037]
将下路编码向量通过下路交互单元进行交互拼接时,满足:
[0038]
u=[uh;uh×ut
;u
h-u
t
;u
t
]
[0039]
其中,u表示下路拼接向量,u,v彼此构成正样本。
[0040]
优选地,设经步骤s5后,输出的下路拼接向量集合表示为上路拼接向量集合表示为v={v1,

,vb},b表示下路拼接向量中元素的个数;步骤s6所述语义对齐损失函数的表达式为:
[0041][0042]
其中,表示语义对齐损失函数;τ表示温度系数,作用是调节
对困难样本的关注程度,越小的温度系数越关注于将本样本和最相似的其他样本分开;将下路拼接向量集合与上路拼接向量集合中的向量取出,基于对齐损失函数做对比学习对齐u,v的语义,训练上路文本编码器及下路文本编码器,以调整两路文本编码器共享的权重参数。
[0043]
在此,调整了知识库中三元组的独立语义表征,使其与其他三元组拉开空间距离,在链路预测时可以更高效地召回正确的候选实体,强化一条文本两种解释的共同语义,是一种更具独立性的表征,可以生成更具表现力的三元组关系表示。
[0044]
优选地,步骤s7所述对s1中的每一个三元组进行负采样时,基于关系过滤的负样本采样策略实现,设传统负采样满足:
[0045][0046][0047][0048]
其中,集合表示负样本采样的结果,由头实体替换后的和尾实体替换后的组成;
[0049]
增强两个约束条件,采样到困难负样本和
[0050][0051][0052]
其中,和分别被定义为:
[0053][0054][0055]
在此,增加了采样的限制条件,利用关系过滤的机制优先选择困难负样本进行训练,让知识图谱补全模型更具备对负样本的区分能力。
[0056]
优选地,步骤s8中引入的得分损失函数表达式为:
[0057][0058]
其中,loss表示得分损失函数;表示第一损失函数,表达式为:
[0059][0060]
其中,φ

表示三元组正样本,φ-对应s7中采样到的困难负样本,q(φ )和q(φ-)分别表示正负三元组的分布;函数表示对样本空间中的所有样本点映射到一个非概率的标量值;表示第二损失函数,由距离估计定义,表达式为:
[0061][0062]
其中,d=-‖u
h-u
t
‖2,d

代表负样本对应的uh和u
t
的距离计算结果;λ表示边距;将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,通过反向传播不断调整原始上路文本编码器与下路文本编码器共享的权重参数,直至得分损失函数收敛,得到训练好的知识图谱补全模型。
[0063]
在此,在引入语义对齐损失函数对比学习拉近u,v构成的正样本的语义后,通过第二阶段的得分损失函数,考虑负样本,进一步训练模型区分真假样本的能力。
[0064]
优选地,步骤s9所述从测试集中选定的缺失的三元组为缺失头实体的三元组或缺失尾实体的三元组,将实体集合和关系集合作为候选集,缺失头实体的三元组或缺失尾实体的三元组与候选集中的实体/关系均输入知识图谱补全模型,其中,缺失头实体的三元组输入知识图谱补全模型的下路文本编码器,缺失尾实体的三元组输入知识图谱补全模型的上路文本编码器,利用分数拟合器输出缺失头实体或尾实体的三元组与候选集中的实体/关系的匹配得分,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
[0065]
本发明还提出一种基于语义对齐及对称结构编码的知识图谱补全装置,所述装置包括:
[0066]
数据集预处理模块,用于将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
[0067]
组合输入文本生成模块,用于将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
[0068]
知识图谱补全模型构建模块,用于构建知识图谱补全模型;
[0069]
文本编码器,属于知识图谱补全模型,包括下路文本编码器及上路文本编码器,在侧重头实体组合及侧重尾实体组合分别输入时,分别编码生成下路编码向量与上路编码向量;
[0070]
交互拼接单元,属于知识图谱补全模型,包括下路交互单元与上路交互单元,分别用于下路编码向量的交互拼接及上路编码向量的交互拼接,分别得到上路拼接向量v与下路拼接向量u;
[0071]
语义对齐模块,用于引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
[0072]
负采样策略模块,用于对原始原始知识图谱中的每一个三元组进行负采样,确定最终的负采样三元组以及负采样三元组对应的下路拼接向量u';
[0073]
训练模块,用于引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
[0074]
测试模块,用于从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
[0075]
与现有技术相比,本发明技术方案的有益效果是:
[0076]
本发明提出一种基于语义对齐及对称结构编码的知识图谱补全方法及装置,首先基于训练集中原始知识图谱三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,模型中包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元
组样本的语义特征,整个过程先对比学习进行自监督训练,为增强模型对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原知识图谱的结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。
附图说明
[0077]
图1表示本发明实施例1中提出的基于语义对齐及对称结构编码的知识图谱补全方法的流程示意图;
[0078]
图2表示基于本发明实施例1中提出的知识图谱补全模型进行知识图谱补全的整体过程示意图;
[0079]
图3表示本发明实施例1中提出的基于关系过滤的负样本采样策略的示意图;
[0080]
图4表示本发明实施例3中提出的基于语义对齐及对称结构编码的知识图谱补全的系统结构图。
具体实施方式
[0081]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0082]
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
[0083]
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
[0084]
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
[0085]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0086]
实施例1
[0087]
本发明在实施例1中提出一种基于基于语义对齐及对称结构编码的知识图谱补全方法,所述方法的流程示意图如图1所示,具体包括以下步骤:
[0088]
s1.将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;在本实施例中,以wn18rr、fb15k-237、umls数据集为典型代表,首先划分好数据集的训练集、验证集和测试集,wn18rr数据集包含实体40943个,关系11种,训练集大小:86835,验证集大小:3034,测试集大小3134;fb15k-237数据集包含实体14541个,关系237种,训练集大小:272115,验证集大小:17535,测试集大小:652;umls数据集包含实体135个,关系46种,训练集大小:5216,验证集大小:652,测试集大小:661。取出训练集原始知识图谱中的三元组,创建实体集合和关系集合,并绑定实体或关系对应的名称和描述文本,存储在原始kg的字典中。
[0089]
s2.将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
[0090]
此步骤是通过充分利用知识库里的文本信息,组合三元组的不同部分生成一条三元组的两种两路组合的文本输入,使之成为标准输入文本范式。具体的:设h代表头实体,r代表关系,t代表尾实体,将三元组的各部分组合时,以头实体和关系、尾实体为一路输入(h r,t),形成侧重头实体组合:hh与h
t
,对应输入文本表示为:
[0091]hh
=[《cls》,x
(h)
,《sep》,x
(r)
,《sep》],
[0092]ht
=[《cls》,x
(t)
,《sep》],
[0093]
以尾实体和关系、头实体为另一路输入(h,r t),形成侧重尾实体组合:th与t
t
,对
应输入文本表示为:
[0094]
th=[《cls》,x
(h)
,《sep》],
[0095]
t
t
=[《cls》,x
(r)
,《sep》,x
(t)
,《sep》],
[0096]
transformer架构是仅用attention来做特征抽取的模型,在此,《cls》和《sep》分别为tansformer架构中用于分类和句子分离的特殊token,x
(h)
是头实体对应的文本内容里的字符,x
(r)
是关系实体对应的文本字符,x
(t)
是尾实体对应的文本字符,x
(h)
、x
(r)
、x
(t)
与特殊token拼接形成两路输入,步骤s2中形成的这两路输入,一路输入包含两条文本,由头实体和关系构成一条文本,尾实体构成独立的文本,记作hh、h
t
,另一路输入由尾实体和关系构成一条文本,头实体构成独立的文本th、t
t

[0097]
s3.构建知识图谱补全模型,包括上路文本编码器、与上路文本编码器对称的下路文本编码器、上路交互单元、与上路交互单元对称的下路交互单元及分数拟合器,知识图谱补全模型结构可参见图2,上路文本编码器与下路文本编码器结构对称,均选用基于transformer的预模型,定义为transfomer-enc,在本实施例中选取roberta,上路交互单元与下路交互单元结构对称,均定义为intertrans-enc,分数拟合器在下路交互单元intertrans-enc后,图2中描述为score fitting stage,这种对称的架构以便基于侧重头实体组合及侧重尾实体组合均衡生成关系和头实体、关系和尾实体的组合,双塔的输入结构保证了推理的性能,使整个模型相比于单塔降低推理时长之外,还缓解链路预测中的不对称性,提升模型整体的预测性能。
[0098]
s4.侧重头实体组合及侧重尾实体组合分别输入知识图谱补全模型的下路文本编码器及上路文本编码器,分别生成下路编码向量与上路编码向量;
[0099]
参见图2,侧重头实体组合hh与h
t
输入下路文本编码器,通过下路文本编码器生成下路编码向量,表征为:
[0100]
uh=transformer-enc(hh)[0],
[0101]ut
=transformer-enc(h
t
)[0]
[0102]
侧重尾实体组合th与t
t
输入上路文本编码器,通过上路文本编码器生成下路编码向量,表征为:
[0103]
vh=transformer_enc(th)[0],
[0104]vt
=transformer_enc(t
t
)[0]
[0105]
其中,下标[0]表示经过transformer-enc的特殊token【cls】后对应的向量,由于【cls】在每一路输入文本中被放置在第一个位置,所以对应[0]下标,在通过上下路的文本编码器编码之后,准备进入交互拼接操作,执行步骤s5:
[0106]
s5.将下路编码向量通过下路交互单元进行交互拼接,将上路编码向量通过上路交互单元进行交互拼接,通过交互的方式拼接一路中的两条向量从而确定一条embedding对应表征一种文本组合,定义交互后的两条表征为u,v;上路编码向量通过上路交互单元进行交互拼接时,满足:
[0107]
v=[vh;vh×vt
;v
h-v
t
;v
t
]
[0108]
其中,v表示上路拼接向量,该过程可参见图2所示的上路vh与v
t
通过intertrans-enc单元交互拼接的过程。
[0109]
将下路编码向量通过下路交互单元进行交互拼接时,满足:
[0110]
u=[uh;uh×ut
;u
h-u
t
;u
t
]
[0111]
其中,u表示下路拼接向量,该过程可参见图2所示的下路uh与u
t
通过intertrans-enc单元交互拼接的过程,最终,u,v彼此构成正样本,uh、u
t
、vh、v
t
分别从前序步骤中获得,此处做信息融合,也即把表征向量交互在一起,选取了乘积、相减等方式。
[0112]
s6.经步骤s5后分别得到了上路拼接向量v与下路拼接向量u,然后引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
[0113]
设经步骤s5后,输出的下路拼接向量集合表示为上路拼接向量集合表示为b表示下路拼接向量中元素的个数;将u,v两条表征取出来,使u、v彼此构成正样本,为了对齐u,v的语义空间,首先提出一个距离度量来判断它们的语义差异,然后最小化相应的差距。目前,有很多距离度量可以用来实现这个目标,比如欧拉距离和余弦相似度。然而,这种简单的距离度量效果不好,因为,欧拉距离和余弦测度都只负责让u,v两条表征更接近,而根本不考虑保留它们的语义信息,都倾向于折叠成一个点,丢弃三元组中包含的所有有意义的语义信息。为了在保留语义信息的同时对齐两个表示,将两种类型的连接视为三元组关系的视图,上下路文本编码器类transformer-enc似于对比学习的模型架构,以此,引入第一阶段训练:对比学习,具体表征可参见图2,u、v进入做对比学习的阶段,可描述为:contrastive learning stage,该阶段中提出的语义对齐损失函数表达式为:
[0114][0115]
其中,表示语义对齐损失函数;τ表示温度系数,作用是调节对困难样本的关注程度,越小的温度系数越关注于将本样本和最相似的其他样本分开;将下路拼接向量集合与上路拼接向量集合中的向量取出,基于对齐损失函数做对比学习对齐u,v的语义,训练上路文本编码器及下路文本编码器,以调整上路文本编码器及下路文本编码器的共享参数,这里训练采用常规的训练方式,此处不再赘述。
[0116]
除了原kg中的三元组(既定事实),知识图谱补全模型还需要负样本提升区别真假三元组的能力,因此,执行步骤s7:
[0117]
s7.对s1中的每一个三元组进行负采样,确定最终的负采样三元组,然后对每一个负采样三元组执行s2~s5,得到负采样三元组对应的下路拼接向量u';
[0118]
在对比学习拉近正样本的语义后,进一步训练模型的评估估计能力。提出第二阶段训练以及匹配得分拟合,执行步骤s8:
[0119]
s8.引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
[0120]
引入的得分损失函数表达式为:
[0121][0122]
其中,loss表示得分损失函数;表示第一损失函数,表达式为:
[0123][0124]
其中,φ

表示三元组正样本,φ-对应s7中采样到的困难负样本,q(φ )和q(φ-)
分别表示正负三元组的分布;函数表示对样本空间中的所有样本点映射到一个非概率的标量值;表示第二损失函数,由距离估计定义,表达式为:
[0125][0126]
其中,d=-‖u
h-u
t
‖2,d

代表负样本对应的uh和u
t
的距离计算结果;λ表示边距;将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,在训练分数拟合阶段,具体可参见图2,该过程中通过损失函数的值以及得分,基于反向传播的方式不断调整原始上路文本编码器与下路文本编码器共享的权重参数,直至得分损失函数收敛,得到训练好的知识图谱补全模型。
[0127]
s9.从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
[0128]
从测试集中选定的缺失的三元组为缺失头实体的三元组或缺失尾实体的三元组,将实体集合和关系集合作为候选集,缺失头实体的三元组或缺失尾实体的三元组与候选集中的实体/关系均输入知识图谱补全模型,其中,缺失头实体的三元组输入知识图谱补全模型的下路文本编码器,缺失尾实体的三元组输入知识图谱补全模型的上路文本编码器,利用分数拟合器输出缺失头实体或尾实体的三元组与候选集中的实体/关系的匹配得分,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。以图2所示的过程为例,输入的三元组有(steven jobs,founded,apple),这是正样本,进入模型后续进行对齐学习,该过程中还引入困难负样本分别是(bill gates,founded,apple)与(steven jobs,founded,microsoft),假设测试时,输入的三元组为缺失头实体即“steven jobs”的三元组(,founded,apple)或缺失尾实体“apple”的三元组(steven jobs,founded,),对于候选集中的头实体可能有多种人物,尾实体可能有微软、苹果、华为、小米、三星等,这样共同输入后,通过分数拟合器,与候选集中的实体(头实体或尾实体)匹配得分最高的,则作为补全三元组的实体。
[0129]
整体的技术实施过程如下:首先基于训练集中原始知识图谱三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,模型中包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元组样本的语义特征,整个过程先对比学习进行自监督训练,为增强模型对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原知识图谱的结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。
[0130]
实施例2
[0131]
在实现最终知识图谱补全的过程中,为了提高模型区分真假样本的能力,本实施例中针对负采样的过程进行说明,对每一个三元组进行负采样时,基于关系过滤的负样本采样策略实现,设定随机种子,随机替换头实体h或者尾实体t,并且保证被替换后的三元组不存在与原来的kg中,传统负采样一般策略满足:
[0132]
[0133][0134][0135]
其中,集合表示负样本采样的结果,由头实体替换后的和尾实体替换后的组成;
[0136]
增强两个约束条件,过程可参考图3,记作:
[0137][0138][0139]
最终取加入约束条件后的集合,也就是:
[0140][0141][0142]
通过增加采样的限制条件,利用关系过滤的机制优先选择困难负样本进行训练,让知识图谱补全模型更具备对负样本的区分能力,困难负样本参与知识图谱补全训练的过程参见图2,当然,不能保证这样的负样本个数满足模型设定的采样参数,所以该策略在具体实施的时候是一种优先采样策略。即在采样时,优先选取加了约束条件的样本,且是无放回采样,避免重复。当没有此类样本时,可以把约束条件去掉,按照普通采样的模式进行采样。总体上,这样加强约束的目的是采样到真正的困难样本(容易被模型误判的样本),只有高效的负采样才能让模型训练出对正负样本的区分能力。
[0143]
实施例3
[0144]
如图4所示,本发明还提出一种基于语义对齐及对称结构编码的知识图谱补全装置,用于实现实施例1提出的基于语义对齐及对称结构编码的知识图谱补全装置,所述装置包括:
[0145]
数据集预处理模块,用于将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
[0146]
组合输入文本生成模块,用于将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
[0147]
知识图谱补全模型构建模块,用于构建知识图谱补全模型;
[0148]
文本编码器,属于知识图谱补全模型,包括下路文本编码器及上路文本编码器,在侧重头实体组合及侧重尾实体组合分别输入时,分别编码生成下路编码向量与上路编码向量;
[0149]
交互拼接单元,属于知识图谱补全模型,包括下路交互单元与上路交互单元,分别用于下路编码向量的交互拼接及上路编码向量的交互拼接,分别得到上路拼接向量v与下路拼接向量u;
[0150]
语义对齐模块,用于引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
[0151]
负采样策略模块,用于对原始原始知识图谱中的每一个三元组进行负采样,确定最终的负采样三元组以及负采样三元组对应的下路拼接向量u';
[0152]
训练模块,用于引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
[0153]
测试模块,用于从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
[0154]
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献