一种利用路径排序快速进行知识图谱补全的方法

2022-04-27 04:22:34 来源：中国专利 TAG：

1.本发明涉及人工智能领域，尤其涉及一种利用路径排序快速进行知识图谱补全的方法。

背景技术：

2.知识图谱是一种结构化的知识表示方法，通过描述不同实体间的关系来描述外部世界的知识。知识图谱通过利用三元组(头节点，关系，尾节点)来描述知识，并以有向图的形式对其进行表示和存储，具有语义丰富、结构友好、易于理解等优点。由于在表达人类先验知识上具有优良的特点，知识图谱近年来在自然语言处理、信息检索、推荐系统等领域取得了广泛且成功的应用。如百度知识图谱，百度知识图谱是一个宏大的数据模型，可以构建庞大的“知识”网络，包含世间万物构成的“实体”以及它们之间的“关系”，图文并茂地展现知识方方面面的“属性”，让人们更便捷地获取信息、找到所求。知识图谱将人与知识智能地连接了起来。通过这项技术的大规模应用，将人与“知识”连接起来，智能获取知识。通常，传统的知识库如freebase、dbpedia和nell都包含了几百万、上千万条的知识三元组。但是，由于现实世界的复杂性，这些知识库并不完整，无法描述现实世界所有物体之间的关系，无法覆盖所有可能的知识。例如，freebase中75％的人物实体缺少国籍信息，dbpedia中60％的任务实体缺少出生地信息。知识图谱链接确实的问题，限制了知识图谱在相关下游任务中的使用。因此，如何将不完整的知识图谱进行补全成为了亟待解决的问题。
3.知识图谱补全任务旨在根据知识图谱中已有事实推断出新的事情，从而使得知识图谱更加完整。现有的图谱补全技术主要利用图谱嵌入技术，通过将知识图谱中实体和关系嵌入到连续向量空间，从而在方便计算的同时保留知识图谱中的结构信息。这些嵌入向量包含了丰富的语义信息，不仅可以帮助图谱的补全还可以受益广泛的下游应用。但是，现有基于图谱嵌入的补全方法仅仅利用了知识图谱中直接连接的路径信息，忽略了多跳路径信息，这在一定程度上限制了图谱补全算法的性能。本发明提出一种利用图谱中多跳路径来帮助进行知识图谱补全的方法。

技术实现要素：

4.基于现有技术所存在的问题，本发明的目的是提供一种利用路径排序快速进行知识图谱补全的方法，解决知识图谱的缺失问题。
5.本发明的目的是通过以下技术方案实现的：一种利用路径排序快速进行知识图谱补全的方法，包括如下步骤：
6.步骤1、数据构建阶段，对知识图谱进行数据清洗和预处理；
7.步骤2、离线阶段，为知识库中的三元组生成元路径特征；利用训练模块对训练知识库中三元组及其元路径特征进行训练，训练好相应的分类器；
8.步骤3、在线阶段，利用生成好的元路径特征完成链接预测的任务。
9.进一步的，所述步骤1、数据构建阶段，对知识图谱进行数据清洗和预处理，具体如
下：
10.对于一个简单的知识图谱构建流程如下：知识获取及存储，或者说是数据支持层，首先从不同来源、不同结构的数据中获取知识，知识来源主要是通过爬取各种百科知识这类半结构化数据。爬取好这些数据后，本发明根据这些知识已有的逻辑关系，对其进行三元组的构建，并连成图数据的结构。然后对图谱中的三元组进行统计，统计图谱中实体和关系的数量并编号。如下形式：实体1：eid1，实体2：eid2,
…
,实体n：eidn。关系1：rid1，关系2：rid2，
…
,关系n：ridn。该步骤的目的是方便在后续算法中对实体和关系进行索引，将图谱中的三元组进行量化，形成如(eidi，ridj，eidk)的范式。将这些信息统计好之后，就完成了补全图谱的数据预处理过程。
11.进一步的，所述步骤2、离线阶段，为知识库中的三元组生成元路径特征；利用训练模块对训练知识库中三元组及其元路径特征进行训练，训练好相应的分类器，具体如下：
12.步骤fs1，利用路径提取模块提取知识库中每个关系对应的元路径集合；
13.步骤fs2，利用路径向量化模块将所有训练三元组中对应的元路径集合进行编码，生成对应的元路径特征，并进行存储；
14.步骤fs3，利用训练模块对训练知识库中三元组及其元路径特征进行训练，训练好相应的分类器。
15.进一步的，所述步骤3、在线阶段，利用生成好的元路径特征完成链接预测的任务，具体如下：
16.步骤os1，针对缺失信息的三元组，将其缺失的实体进行扩充，生成候选三元组集合。
17.步骤os2，对每个候选的三元组查询对应的元路径特征，并利用训练好的分类器进行打分，选出top-k个实体作为的补全结果(k可以为1)。
18.有益效果：
19.相较于基于嵌入的模型只利用三元组直接连接的信息，本发明利用关系路径中潜在的多跳语义信息和可观察的模式，进行实体预测任务。充分挖掘了图谱中的连接信息，以提高预测的准确率。此外，本发明的方法分为线上和线下两阶段，可以提前生成三元组的元路径特征并存储，充分提高了线上预测阶段的效率。
附图说明
20.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例说明，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
21.图1为本发明实施例提供的一种利用路径排序快速补全知识图谱的方法的流程图；
22.图2为本发明实施例提供的一种利用路径排序快速补全知识图谱的方法中分类器的优化步骤流程图；
具体实施方式
23.下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
24.如图1所示，本发明实施例提供一种利用路径排序快速补全知识图谱的方法，能实现准确、快速的知识图谱补全，分为数据构建、在线和离线三个阶段，图中只展示了完成补全的两个重要阶段：线上训练和线下预测阶段；具体的，方法如下：
25.步骤1、数据构建阶段，对知识图谱进行数据清洗和预处理；
26.步骤2、离线阶段，为知识库中的三元组生成元路径特征；利用训练模块对训练知识库中三元组及其元路径特征进行训练，训练好相应的分类器；
27.步骤3、在线阶段，利用生成好的元路径特征完成链接预测的任务。
28.根据本发明的一个实施例，所述步骤1、数据构建阶段，对知识图谱进行数据清洗和预处理，具体如下：
29.对于一个简单的知识图谱构建流程如下：知识获取及存储，或者说是构建数据支持层，首先从不同来源、不同结构的数据中获取知识，知识来源主要是通过爬取各种百科知识这类半结构化数据。爬取好这些数据后，本发明根据这些知识已有的逻辑关系，对其进行三元组的构建，并连成图数据的结构。然后对图谱中的三元组进行统计，统计图谱中实体和关系的数量并编号。如下形式：实体1：eid1，实体2：eid2,
…
,实体n：eidn。关系1：rid1，关系2：rid2，
…
,关系n：ridn。该步骤的目的是方便在后续算法中对实体和关系进行索引，将图谱中的三元组进行量化，形成如(eidi，ridj，eidk)的范式。将这些信息统计好之后，就完成了补全图谱的数据预处理过程。
30.根据本发明的实施例，所述步骤2、离线阶段，为知识库中的三元组生成元路径特征；利用训练模块对训练知识库中三元组及其元路径特征进行训练，训练好相应的分类器，具体如下：
31.步骤fs1，利用路径提取模块提取知识库中每个关系对应的元路径集合；
32.步骤fs2，利用路径向量化模块将所有训练三元组中对应的元路径集合进行编码，对每个三元组生成对应的元路径特征，并进行存储；
33.步骤fs3，利用训练模块对训练知识库中三元组及其元路径特征进行训练，训练好相应的分类器。
34.离线阶段的步骤fs1中，t＝{(ei,ri,e
′i),
…
}是训练知识库中的所有三元组，ei表示三元组中的头结点，ri表示三元组的关系，e
′i则是尾节点。知识图谱中的三元组彼此互相连接，形成类似图的数据结构。定义关系路径pi是一段关系连成的路径r1,
…
,元路径则是可以用一段关系路径来连接两个直接相连的节点对，即多跳关系路径能够代替直接相连路径。在该步骤中，需要将知识库中每一个关系所对应的元路径搜索出来。对于关系路径。在该步骤中，需要将知识库中每一个关系所对应的元路径搜索出来。对于关系使用深度优先搜索dfs去寻找对应的元路径p＝{p1,
…
,pn}，其长度限制在之内。实际上，是一个需要调整的超参数，在本发明中设置为4。
35.离线阶段的步骤fs2中，关系路径可以被写成ei表示所有与关系ri有连接关系的实体集合，可以用ei＝range(ri)＝dom(r
i 1
)进行表示。用dom(ri)代表关系ri的域，range(ri)代表关系ri的范围。还定义dom(p)≡e0,即一段关系路径的域是其头部节点集合，一段关系路径的范围是其尾部节点集合。在此可以用递归的形式定义分布用于描述从实体e到实体e
′
经过路径p的概率，如果关系路径p为空概率分布为：
[0036][0037]
如果是不为空的，则让并递归地定义概率分布：
[0038][0039]
其中，其中，表示头结点为q，连接关系为的三元组数量，此概率分布描述的是从节点q通过关系到达节点e的概率。更一般的情况下，给定一系列关系路径p1,
…
pn，可以定义每一个作为节点e的一条路径为pi的特征，因此两节点对之间将有n条路径特征。并通过线性模型对每条路径的特征进行加权：
[0040][0041]
其中，θn是对每条路径特征的权重，在本发明中，本发明考虑路径长度小于4的情况。最后，p(e,l)＝{p}是一系列长度小于l的路径，可以定义分数函数：
[0042][0043]
该函数表示从节点e通过一系列长度小于l的路径到达e
′
的概率的加权值，最终，本发明会将所有三元组对应的路径特征进行存储。以加速在线阶段的预测的速度。
[0044]
离线阶段的步骤fs3中，发明将用已有的数据训练对应的分类器，获得相应的路径特征权重。给定关系r，以及节点对集合{(ei,e
′i)},构造相应的训练数据集d＝{(xi,li)}，其中xi是节点对(ei,e
′i)的路径特征，是一个n维向量，每一维度表示该路径能够联通节点对的概率。li表示节点对在该路径下是否相连，相连则为1，不相连则为0。
[0045]
有了训练数据集d，下面训练并优化对应特征的分类器如图2所示。针对每一个三元组的路径特征xi，以及连接条件li。首先初始化全连接分类器的权重，接着，计算输入三元组出现的概率，然后发明将利用fs2中的分数函数优化下面的损失函数oi(θ)：
[0046]
oi(θ)＝wi[lilnpi (1-li)ln(1-pi)]
[0047]
这其中，分数函数中的权重参数θ是通过训练得到，本发明方法使用交叉熵进行优化。其中pi是该三元组出现的概率，由下面的式子计算出来：
[0048]
[0049]
o(θ)＝∑ioi(θ)
[0050]
最终的损失函数将把所有得到的单个样本损失进行加和，得到最终的损失函数o(θ)，利用梯度反向传播优化所述损失函数的参数θ，直至该损失函数收敛，得到优化后分类器权重参数θ为优化所述求解网络模型。
[0051]
根据本发明的实施例，所述步骤3、在线阶段，利用生成好的元路径特征完成链接预测的任务，具体如下：
[0052]
步骤os1，针对缺失信息的三元组，将其缺失的实体进行扩充，生成候选三元组集合。
[0053]
步骤os2，对每个候选的三元组查询对应的元路径特征，并利用训练好的分类器进行打分，选出top-k个实体作为发明的补全结果(k可以为1)。
[0054]
在线阶段的os1步骤中，待预测尾实体三元组的形式如(ei,ri,？)，已知头实体为ei，关系为ri，预测该情况下的尾实体。本发明使用知识库中的所有候选的实体集合将其扩展成候选三元组集合γ＝{(ei,ri,e
′1),
…
,(ei,ri,e
′m)}，m是知识库中实体的数量，本发明的任务即是选出该情况下最有可能出现的尾实体。
[0055]
在线步骤阶段的os2中，在获得了候选三元组实体集合γ后，针对每一个候选三元组，查询其路径特征xi(离线阶段产生的)。接着通过对应的特征和fs3步骤中的表达式计算出三元组出现的概率pi。最终，通过下面的式子选出得分最高，最有可能出现的实体索引，其索引为ind：
[0056]
ind＝argmaxi{pi}
[0057]
所以，最终被预测可能出现的实体为e
′
ind
。完成了链接预测的任务。
[0058]
根据本发明的一个实施例，将本发明的方法应用于互联网信息检索应用中；互联网搜索引擎会储存很多的知识，这些知识以知识三元组的形式进行存储。比如(张三，出生于，湖南长沙)，(湖南长沙，是省会，中国)。这些三元组又会以图数据的结构联系起来，形成以“张三”，“湖南长沙”等实体为节点，“出生于”“是省会”等关系为边的图谱结构。但实际上，搜索引擎的知识可能是不全的，比如“张三”和“中国”这两个实体之间是否存在关系，存在什么关系，这些知识可能是未知的，用户如果搜索“张三”的“国籍”时，便需要进行知识图谱的链接预测任务并给出答案。本发明在此任务中，可以充分利用实体间路径进行预测，具体地如前例所述，查询“张三”的“国籍”时，本算法可以发现“国籍”这个关系对应的较为重要的路径(“出生于
”‑
》“是省会”)，并将查询的头结点“张三”在该路径中的具体知识：(张三，出生于，湖南长沙，是省会，中国)，这样就能利用已有的知识判定“张三”的“国籍”为“中国”。
[0059]
至此，已经结合附图对本发明进行了详细描述。依据以上描述，本领域技术人员应当对本发明有了清楚的认识。
[0060]
需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换，例如：
[0061]
(1)实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围；
[0062]
(2)上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。
[0063]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种单样本与小样本微体古生物化石图像识别方法及系统

一种利用路径排序快速进行知识图谱补全的方法

相关文献

最热文献