一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于知识图谱嵌入模型的负采样方法

2023-03-29 02:06:21 来源:中国专利 TAG:


1.本发明涉及知识图谱嵌入技术领域,具体涉及一种用于知识图谱嵌入模型的负采样方法。


背景技术:

2.知识图谱(knowledge graph)是人工智能领域的重要分支,它由谷歌在2012年提出,核心思想是使用符号形式来描述真实世界中存在的事实及其相互关系。知识图谱作为一个统一的结构化语义知识库,对机器友好且人类可识别,同时还蕴含了丰富的语义信息,拥有极强的表达能力,所以知识图谱被广泛应用于信息检索、推荐系统、电子商务、金融风控等领域。
3.虽然知识图谱已在众多领域上获得了巨大成就,但知识图谱本身却存在一个缺陷:极度不完整。为了解决该缺陷,有学者提出知识图谱补全任务,即通过现有的事实补全推理得到新的事实,从而使知识图谱变得更加完整。知识图谱嵌入技术就是解决知识图谱补全任务的重要技术之一,其将知识图谱中的实体和关系嵌入到高维连续空间内,从而快速高效地进行知识补全和推理。
4.知识图谱嵌入模型在训练过程中,需要为嵌入模型提供正样本和负样本,使模型具备区分正、负样本的能力,但是知识图谱中的事实都是正样本,所以需要人工构造一批负样本用于学习,这就是负采样技术。负采样技术通过替换正样本中的头/尾实体,生成现实世界不存在的事实,即负样本。目前最常用的负采样技术是论文《translating embeddings for modeling multi-relational data》(bordes a,usunier n,garcia-duran a,et al.translating embeddings for modeling multi-relational data[j].advances in neural information processing systems,2013,26.)提出的均匀负采样(uniform negative sampling),即从全部实体中随机挑选某一个实体,用于替换正样本的头实体或者尾实体。论文《kbgan:adversarial learning for knowledge graph embeddings》(cai l,wang w y.kbgan:adversarial learning for knowledge graph embeddings[j].arxiv preprint arxiv:1711.04071,2017.)中使用生成对抗网络(generative adversarial networks,gan)来拟合负样本的分布情况,从而得到与正样本区分度更高的负样本。现有技术中专利文献“一种基于数据增强和自适应负采样技术的知识图谱推理方法”提出将实体关系频率之间的皮尔逊系数作为判断依据,通过设定阈值来筛选得到高质量的负样本,但是其也存在着占用资源多、运行效率低的不足。


技术实现要素:

[0005]
鉴于现有问题,本发明的目的在于提供一种用于知识图谱嵌入模型的负采样方法,以解决上述问题。
[0006]
本发明提供如下的技术方案:
[0007]
一种用于知识图谱嵌入模型的负采样方法,包括以下步骤:
[0008]
s1:在进行嵌入模型的第一次训练之前,根据输入模型的正样本xi(i=1,2,3......n)初始化n个存储空间space_i(i=1,2,3......n),其中,每一个存储空间space_i包含n个负样本,正样本xi与存储空间space_i一一对应;
[0009]
s2:根据给定的正样本三元组xi=(h,r,t),基于实体集合ε中全部实体生成负样本集合通过均匀采样从(h

,r,t)和(h,r,t

)中分别采样n1个负样本,得到2*n1个负样本,其中,负样本统一表示为(h

,r,t

),此外,(h

,r,t)中t=t

,(h,r,t

)中h=h


[0010]
s3:将步骤s2得到的2*n1个负样本添加至存储空间space_i,使存储空间space_i共包含n2=(n 2*n1);
[0011]
s4:对存储空间space_i中的负样本进行重要性pi评估;
[0012]
s5:对存储空间space_i中所有负样本的重要性pi进行降序排序,保留重要性分数较高的n3个样本,存储于存储空间space_i;
[0013]
s6:从步骤s5保留的负样本中均匀采样若干个负样本组成hns=(h

,r,t

)并将存储空间space_i更新为hns,hns即为正样本三元组xi=(h,r,t)对应的高质量负样本集合;
[0014]
s7:对步骤s2-s6重复n次,n个正样本分别得到对应的n个存储空间space_i,将n个正样本集合和n个负样本集合输入模型完成一次训练;
[0015]
s8:模型的当前轮次训练完成后,在下一次迭代训练开始之前,重复步骤s2-s7,直到迭代训练次数达到设置的次数或模型性能表现稳定。
[0016]
优选地,步骤s4首先计算di,di通过以下任一方法,或任意多种方法取平均值求得:
[0017]
a)通过相似性函数,衡量正样本(h,r,t)和负样本(h

,r,t

)之间的差异性,di=||e
h-eh′
|| ||e
t-e
t

||,其中eh为实体h的嵌入表示形式;
[0018]
b)通过相似性函数,衡量当前状态的嵌入模型对正样本(h,r,t)和负样本(h

,r,t

)的损失函数g差异性,di=||g(h,r,t)-g(h

,r,t

)||;
[0019]
c)通过当前状态的嵌入模型对负样本(h

,r,t

)进行打分,di=f(eh′
,er,e
t

);
[0020]
优选地,通过softmax函数计算重要性程度pi:
[0021][0022]
优选地,步骤s5中计算得到的pi表示对应负样本的质量,重要性程度pi越高,负样本质量越高;保留重要性排序后重要性最高的n3个负样本于存储空间space_i。
[0023]
优选地,步骤s5保留重要性排序后重要性最高的n3个,其中n3>n。
[0024]
优选地,步骤s6中一个正样本(h,r,t)对应了n个负样本(h

,r,t

)。
[0025]
本发明的有益技术效果在于:
[0026]
1.本发明提供的技术方案框架清晰,易于实现,适应性强;
[0027]
2.本发明提供的技术方案在模型训练过程中动态更新高质量负样本集合,从而减少收敛时间,提高运行效率;
[0028]
3.本发明提供的技术方案仅占用少量存储空间,无需额外在嵌入模型中添加负载;
[0029]
4.本发明提供的技术方案适用性广,可用于各类知识图谱嵌入模型。
附图说明
[0030]
图1是本发明提供的用于知识图谱嵌入模型的负采样方法的流程示意图。
具体实施方式
[0031]
下面对本发明的实施例作详细说明,下述的实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0032]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,在不冲突的情况下,本文所描述的实施例可以与其它实施例相结合。
[0033]
实施例1
[0034]
如图1所示,在本发明实施例提供的用于知识图谱嵌入模型的负采样方法,包括以下步骤:
[0035]
s1:在进行嵌入模型的第一次训练之前,根据输入模型的正样本xi(i=1,2,3......n)初始化n个存储空间space_i(i=1,2,3......n),其中,每一个存储空间space_i包含n个负样本,正样本xi与存储空间space_i一一对应;
[0036]
s2:根据给定的正样本三元组xi=(h,r,t),基于实体集合ε中全部实体生成负样本集合通过均匀采样从(h

,r,t)和(h,r,t

)中分别采样n1个负样本,得到2*n1个负样本,其中,负样本统一表示为(h

,r,t

),此外,(h

,r,t)中t=t

,(h,r,t

)中h=h


[0037]
s3:将步骤s2得到的2*n1个负样本添加至存储空间space_i,使存储空间space_i共包含n2=(n 2*n1);
[0038]
s4:对存储空间space_i中的负样本进行重要性pi评估;
[0039]
s5:对存储空间space_i中所有负样本的重要性pi进行降序排序,保留重要性分数较高的n3个样本,存储于存储空间space_i;
[0040]
s6:从步骤s5保留的负样本中均匀采样若干个负样本组成hns=(h

,r,t

)并将存储空间space_i更新为hns,hns即为正样本三元组xi=(h,r,t)对应的高质量负样本集合;
[0041]
s7:对步骤s2-s6重复n次,n个正样本分别得到对应的n个存储空间space_i,将n个正样本集合和n个负样本集合输入模型完成一次训练;
[0042]
s8:模型的当前轮次训练完成后,在下一次迭代训练开始之前,重复步骤s2-s7,直到迭代训练次数达到设置的次数或模型性能表现稳定。
[0043]
步骤s4首先计算di,di通过以下任一方法,或任意多种方法取平均值求得:
[0044]
a)通过相似性函数,衡量正样本(h,r,t)和负样本(h

,r,t

)之间的差异性,di=||e
h-eh′
|| ||e
t-e
t

||,其中eh为实体h的嵌入表示形式;
[0045]
b)通过相似性函数,衡量当前状态的嵌入模型对正样本(h,r,t)和负样本(h

,r,t

)的损失函数g差异性,di=||g(h,r,t)-g(h

,r,t

)||;
[0046]
c)通过当前状态的嵌入模型对负样本(h

,r,t

)进行打分,di=f(eh′
,er,e
t

);
[0047]
通过softmax函数计算重要性程度pi:
[0048][0049]
步骤s5中计算得到的pi表示对应负样本的质量,重要性程度pi越高,负样本的质量越高;保留重要性排序后重要性最高的n3个负样本于存储空间space_i。
[0050]
步骤s5保留重要性排序后重要性最高的n3个,其中n3>n。
[0051]
步骤s6中一个正样本(h,r,t)对应了n个负样本(h

,r,t

)。
[0052]
实施例2
[0053]
在本发明另一优选实施例中,用于知识图谱嵌入模型的负采样方法,在实施例1的基础上,进一步在中文知识图谱中,对于某一个正样本(h,r,t),初始化一个space_i空间(i表示该正样本(h,r,t)在n个正样本中的序号i),设定n=5,随机挑选5个负样本放置于space_i存储空间中作为初始负样本。h为事实的头节点,r为事实的关系,t为事实的尾节点。
[0054]
给定中文知识图谱中某一个正样本,假设其为(大华,出生地,江西),实体集合ε为{大华,铅笔,苹果,水杯,中国,火车,纸巾,电脑,鼠标,江西},负样本集合ns一共有16个,其中(h

,r,t)共8个,为(大华,出生地,铅笔)、(大华,出生地,苹果)、(大华,出生地,水杯)、(大华,出生地,中国)、(大华,出生地,火车)、(大华,出生地,纸巾)、(大华,出生地,电脑)、(大华,出生地,鼠标);(h,r,t

)共8个,为(苹果,出生地,江西)、(铅笔,出生地,江西)、(水杯,出生地,江西)、(中国,出生地,江西)、(纸巾,出生地,江西)、(电脑,出生地,江西)、(鼠标,出生地,江西)、(火车,出生地,江西)。
[0055]
设置n1=5,分别从(h

,r,t)和(h,r,t

)进行均匀采样(随机采样),得到10个负样本:(大华,出生地,铅笔)、(大华,出生地,苹果)、(大华,出生地,中国)、(大华,出生地,电脑)、(大华,出生地,鼠标)和(铅笔,出生地,江西)、(水杯,出生地,江西)、(电脑,出生地,江西)、(火车,出生地,江西)、(中国,出生地,江西)。将以上10个负样本添加到space_i存储空间中,此时space_i存储空间中一共包含n2=15个负样本。
[0056]
计算space_i存储空间中15个负样本的重要性pi,对应的pi值依次为0.15,0.03,0.09,0.14,0.11,0.09,0.10,0.06,0.06,0.05,0.02,0.01,0.02,0.02。
[0057]
设定n3=8,按照值的从大到小依次排列,取top-8(即前8个较大的值),依次对应着(大华,出生地,铅笔)、(大华,出生地,中国)、(大华,出生地,电脑)、(大华,出生地,鼠标)、(水杯,出生地,江西)、(电脑,出生地,江西)、(火车,出生地,江西)、(中国,出生地,江西)。
[0058]
因为n=5,所以在上述n3=8个样本中随机采样n=5个样本,得到高质量的负样本集合hns:(大华,出生地,铅笔)、(大华,出生地,电脑)、(大华,出生地,鼠标)、(电脑,出生地,江西)、(中国,出生地,江西),最后将存储空间space_i更新为hns。所以hns就是正样本(大华,出生地,江西)对应的高质量负样本集合。
[0059]
以上表示的是模型在第一次训练过程中,对于某一个特定正样本(h,r,t),生成高质量负样本集合hns的过程,由于模型在每一轮迭代训练过程之前会输入多个不同的正样本,所以以上操作要重复n次(n为输入正样本的数量)。模型下一次迭代训练之前,并不需要
重新初始化存储空间space_i,只需要对space_i中的负样本集合进行动态更新,得到高质量负样本集合hns即可,直到模型迭代训练次数达到设定次数或者模型性能表现稳定(性能波动不超过设定的阈值)。
[0060]
本发明上述实施例提供的技术方案占用资源少,运行效率高,广泛适用于各种知识图谱模型。
[0061]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献