面向中学实验的知识图谱动态知识补全方法与流程

2022-03-23 01:59:44 来源：中国专利 TAG：

1.本发明涉及知识图谱补全技术领域，具体涉及一种面向中学实验的知识图谱动态知识补全方法。

背景技术：

2.知识图谱是google在2012年提出的一个新概念，它将知识以三元组的形式表示，是一种以图的形式展现的知识库。知识图谱分为通用知识图谱和领域知识图谱，后者汇集了一个领域内的专业知识，对专业性和准确性的要求较高，可以面向特定领域进行知识推理，辅助决策等功能。中学知识是经过梳理之后成体系的知识，该知识体系历经了几代人的验证和更新，具有权威性和正确性。中学实验知识是中学知识的一部分，知识图谱可以很好地体现出知识的结构关系。通过对中学教材依照教学大纲进行知识抽取，构建出中学实验知识图谱。再基于众包式教学资源获取知识子图，用于中学实验知识图谱的补全。
3.知识补全通常描述为寻找知识图谱中缺失的实体或者关系。静态知识补全方法的任务是对知识图谱中缺失关系的预测，但是不具备泛化能力，对于知识图谱中没有出现过的实体不能有效表示，通常需要将知识子图在内的所有知识图谱重新训练才能完成任务，会花费大量的时间。
4.可以对没有出现过的实体和关系也能做出判断，这就是动态知识补全的目标。由于众包资源中获取的知识子图中可能存在中学实验知识图谱中未出现过的实体，因此需要动态知识补全方法。另一方面需要针对中学实验的构成对知识补全方法特化处理。

技术实现要素：

5.本发明的目的在于提供一种面向中学实验的知识图谱动态知识补全方法。
6.实现本发明目的的技术解决方案为：一种面向中学实验的知识图谱动态知识补全方法，包括以下步骤：
7.步骤1，得到中学实验知识图谱的嵌入表示：基于图神经网络结构规定节点传播方式，完成知识图谱的嵌入，通过邻居节点的信息解决知识图谱外实体的嵌入问题；
8.步骤2，获取中学实验知识三元组评分：中学实验知识三元组表述为(头实体，关系，尾实体)；基于表示学习的翻译模型transh得到三元组距离评分，初步地将三元组分类；
9.步骤3，计算中学实验知识三元组置信度：一条关系连接两个实体，表示中学实验中的一条知识；将关系对应的头、尾实体作为其语义环境，基于综合语义相似度的最相似关系完成三元组置信度评估，作为三元组进一步分类的依据；
10.步骤4，完成中学实验知识三元组分类：通过三元组评分初步分类和三元组置信度进一步判断得到中学实验知识正例三元组，将正例三元组用于知识图谱补全。
11.优选地，中学实验知识图谱的嵌入表示包括以下步骤：
12.步骤1.1：初始向量表示。通过one-hot方法得到中学实验知识三元组中每个实体和每种关系的初始向量表示。
13.步骤1.2：中学实验知识图谱上节点的传播。图神经网络通过在每个节点上分别传播的方式进行学习，利用边关系聚合不同邻居节点的特征，邻居也就是当前中学实验知识实体的关联实体，包括相关知识单元、相关知识点、相关实验、相关器材技能，具体公式如下：
14.ve＝pooling(t
head
(vh)∪t
tail
(v
t
)),e∈g,ve∈rd15.其中，用g表示中学实验知识图谱，e表示图中节点，即中学实验知识实体，ve代表当前节点的隐藏状态向量，vh、v
t
分别表示头、尾邻居节点；pooling(
·
)表示池化方法；t
head
(
·
)、t
tail
(
·
)分别表示头、尾邻居节点的转换函数，输出即为邻居特征的聚合。
16.步骤1.3：中学实验知识图谱外实体的嵌入。中学实验知识具有较强的互联性，一个知识点会归属于知识单元，可能属于某个实验，实验会包括实验器材，涵盖知识点。而知识点间存在平行、前导、后继、父、子五类关系。因此认为对于中学实验知识图谱，图谱外实体可以通过与图谱内实体相连的关系，基于图神经网络节点传播的方式获取向量表示。
17.优选地，获取中学实验知识图谱知识三元组评分s包括以下步骤：
18.步骤2.1：选择输出模型为transh。中学实验知识图谱涉及1-to-n、n-to-n的复杂关系模式，因此使用表示学习的翻译模型transh作为图神经网络的输出模型，transh也是三元组分类的常用模型。
19.步骤2.2：构造负例三元组。模型训练的目标是将正例三元组和负例三元组区分开来，负例三元组的选取会影响模型的训练结果。
20.中学实验知识子图与主图的知识抽取方式相同，因此不会出现关系两侧的实体类型与主图中关系模式不符的三元组，为了在模型训练中加强对同类型实体的区分，基于伯努利概率随机替换当前中学实验知识三元组中的头实体或尾实体，替换范围为该关系涉及的所有三元组的头实体集合和尾实体集合。
21.步骤2.3：获取知识三元组评分s。通过transh模型的距离评估函数计算。
22.优选地，计算中学实验知识三元组置信度p包括以下步骤：
23.步骤3.1：综合语义相似度找到最相似关系r
′
。对于关系之间相似性的评估，直接计算嵌入向量的距离，没有考虑关系的语义信息。一条关系连接两个实体，表示中学实验中的一条知识。因此可以将关系对应的头、尾实体作为其语义环境。
24.第一步，求得关系r所在的全部三元组中的头实体平均向量和尾实体平均向量，作为语义信息。
25.第二步，求得中学实验知识图谱中当前关系与其他关系的语义相似度。
26.第三步，综合考虑语义相似度和关系向量间的相似度找到最相似关系r
′
。
27.步骤3.2：计算关系的先验概率；通过统计所有正例三元组中关系r出现的次数nr和其最相似关系r
′
的出现次数nr′
，计算先验概率pro(r)；具体公式如下：
[0028][0029]
步骤3.3：计算关系语义匹配度。中学实验知识图谱中，关系r所在中学实验知识三元组中的头尾实体即关系的语义信息；计算平均头实体与当前三元组中头实体的距离、平均尾实体与当前三元组中尾实体的距离，以此判断当前三元组中，头实体h、尾实体t与r的匹配程度align(h,r,t)；具体公式如下：
[0030][0031]
步骤3.4：计算三元组置信度p。融合上述特征得到三元组置信度，即置信度p＝先验概率*语义匹配度。
[0032]
优选地，完成中学实验知识三元组分类包括以下步骤：
[0033]
步骤4.1：根据三元组评分s初步分类。当s大于正、负例三元组的间隔τ时，直接判定为负例，其余情况需要完成更进一步地判定。
[0034]
步骤4.2：构造近似三元组。对于当前三元组(h,r,t)，找到最相似关系r
′
，构造近似三元组(h,r
′
,t)，得到评分s
′
并与阈值比较，若近似三元组也被判定为正例，则进入置信度判定。否则当前三元组判定为正例。
[0035]
步骤4.3：根据三元组置信度进一步判定。分别计算r与r
′
的置信度，当r
′
的置信度更高时，说明近似三元组更有可能成立，则当前三元组判定为负例。否则判定当前三元组为正例。
[0036]
步骤4.4：将得到的正例三元组用于中学实验知识图谱的补全。
[0037]
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的面向中学实验知识图谱的动态知识补全方法。
[0038]
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的面向中学实验知识图谱的动态知识补全方法。
[0039]
本发明与现有技术相比，其显著优点为：本发明通过图神经网络学习中学实验知识图谱中节点的表示，解决知识图谱外实体的嵌入问题，增加了知识补全方法对新实体的泛化能力；本发明通过限定负例三元组头尾实体的替换范围，关注同种关系涉及实体在向量空间上的差异，提高了三元组之间的区分度；本发明采用了综合语义最相似关系的三元组置信度进一步分类，充分利用中学实验语义信息，进一步提高了三元组分类的准确性。
附图说明
[0040]
图1为本发明方法的总体流程。
[0041]
图2为一个具体实施例的知识子图。
具体实施方式
[0042]
本发明公开了一种面向中学实验的知识图谱动态知识补全方法，知识补全通常描述为寻找知识图谱中缺失的实体或者关系。静态知识补全是指对图谱中缺失关系的预测，动态知识补全的目标是对没有出现过的实体和关系也能做出判断。众包资源中获取的知识子图中可能存在中学实验知识图谱中未出现过的实体，因此需要动态知识补全方法。采用图神经网络通过邻居节点的信息完成嵌入，解决图谱外实体嵌入问题。根据中学实验知识图谱的特点使用知识表示学习的翻译模型transh，构造符合中学实验知识子图模式的负例三元组，结合综合中学实验知识语义相似度的最相似关系的三元组置信度评估完成三元组分类任务。
[0043]
一种面向中学实验知识图谱的动态知识补全方法，对于众包资源中获取的知识子
图中存在的中学实验知识图谱中未出现过的实体，采用图神经网络通过邻居节点的信息完成嵌入，解决图谱外实体嵌入问题。根据中学实验知识图谱的特点使用知识表示学习的翻译模型transh，构造符合中学实验知识子图模式的负例三元组，结合综合中学实验知识语义相似度的最相似关系的三元组置信度评估完成三元组分类任务。
[0044]
一种面向中学实验的知识图谱动态知识补全方法，包括以下步骤：
[0045]
步骤1：得到中学实验知识图谱的嵌入表示。基于图神经网络结构规定节点传播方式，完成知识图谱的嵌入，通过邻居节点的信息解决知识图谱外实体的嵌入问题；
[0046]
步骤2：获取中学实验知识三元组评分s。中学实验知识三元组表述为(头实体，关系，尾实体)。实体类型包括知识单元、知识点、实验、技能器材。关系类型包括平行、前导、后继、父、子、包括、涵盖。基于表示学习的翻译模型transh得到三元组距离评分，初步地将三元组分类；
[0047]
步骤3：计算中学实验知识三元组置信度p。一条关系连接两个实体，表示中学实验中的一条知识。因此可以将关系对应的头、尾实体作为其语义环境，基于综合语义相似度的最相似关系完成三元组置信度评估。作为三元组进一步分类的依据；
[0048]
步骤4：完成中学实验知识三元组分类。通过三元组评分初步分类和三元组置信度进一步判断得到中学实验知识正例三元组，将正例三元组用于知识图谱补全。
[0049]
整体流程如图1所示。
[0050]
在其中一个实施例中，得到中学实验知识图谱的嵌入表示包括以下步骤：
[0051]
步骤1.1：初始向量表示。中学实验知识图谱中总共存在4类实体，包括知识点、知识单元、实验和器材技能。实体间存在7种关系，整理为关系表，依次为“平行”、“前导”、“后继”、“父”、“子”、“包括”、“涵盖”。“平行”关系的one-hot初始向量表示为[1,0,0,0,0,0,0]。
[0052]
步骤1.2：节点的传播。图神经网络通过在每个节点上分别传播的方式进行学习，利用边关系聚合不同邻居节点的特征，具体公式如下：
[0053]
ve＝pooling(t
head
(vh)∪t
tail
(v
t
)),e∈g,ve∈rd[0054][0055][0056]
其中，用g表示中学实验知识图谱，e表示图中节点，即中学实验知识实体，ve代表当前节点的隐藏状态向量，vh、v
t
分别表示头、尾邻居节点；pooling(
·
)表示池化方法；t
head
(
·
)、t
tail
(
·
)分别表示头、尾邻居节点的转换函数。将模型参数矩阵a和邻居向量的乘积经过批归一化bn(
·
)后送入修正线性单元relu(
·
)，输出即为邻居特征的聚合。
[0057]
在图2所示的子图中，知识点实体“安倍力”的邻居头实体为{“洛伦兹力”，“磁场”，“左手定则”}，邻居尾实体为{“洛伦兹力”，“磁场”，“左手定则”，“磁场”}。邻居尾实体相较邻居头实体中多出的“磁场”属于知识单元，其他均为知识点实体。“安倍力”的向量表示受这些节点影响，同时也影响邻居节点的向量表示。
[0058]
步骤1.3：中学实验知识图谱外实体的嵌入。对于知识图谱外的实体，通过与知识图谱内的实体相连的边，基于图神经网络节点传播的方式获取向量表示。
[0059]
在图2所示的子图中，知识点实体“电感”属于原知识图谱没有的实体，但由于“电感”与“电流”之间存在“平行”关系，因此即使没有初始向量，也可以直接由“电流”向量经过传播公式间接表示。
[0060]
在其中一个实施例中，获取中学实验知识图谱知识三元组评分s包括以下步骤：
[0061]
步骤2.1：选择输出模型为transh。使用表示学习的翻译模型transh作为图神经网络的输出模型，中学实验知识图谱涉及1-to-n、n-to-n的复杂关系模式，因此使用transh模型，transh也是三元组分类的常用模型。
[0062]
步骤2.2：构造负例三元组。
[0063]
基于伯努利概率的随机替换算法根据关系模式的头尾实体分布密度决定将更为稀疏的一侧替换为其他实体。对于一对多的关系模式更倾向于替换头实体，对于多对一的关系模式更倾向于替换尾实体。记录头实体对应的尾实体数量tph，记录尾实体对应头实体数量hpt。当前三元组头实体替换概率如下：
[0064][0065]
中学实验知识图谱中不同的关系对应的实体类型不同，如图2中的知识子图，“包括”是知识单元实体与知识点实体之间的关系，而“前导/后继/父/子/平行”这几种关系涉及的均为知识点实体。而经过训练之后，同一种关系涉及的实体向量会在向量空间中更为接近。为了加强同种关系对应实体的区分度，将替换范围缩小为同种关系涉及的三元组中的头、尾实体。
[0066]
步骤2.3：获取知识三元组评分s。具体计算公式如下：
[0067][0068]
其中，vh⊥
、v
t
⊥
分别表示头、尾实体在关系超平面上的投影，dr表示关系在关系超平面上的向量。
[0069]
在其中一个实施例中，计算中学实验知识三元组置信度p包括以下步骤：
[0070]
综合语义相似度找到最相似关系r
′
。对于关系之间相似性的评估，直接计算嵌入向量的距离，没有考虑关系的语义信息。一条关系连接两个实体，表示中学实验中的一条知识。因此可以将关系对应的头、尾实体作为其语义环境。
[0071]
具体地，先按第一步，根据中学实验知识图谱及子图中的三元组，用(h,r,t)表示，其中vh、v
t
为头尾实体的向量。关系r对应的三元组总数用nr表示。找到关系的头实体平均向量和尾实体平均向量作为语义信息：
[0072][0073][0074]
再将当前关系r与其余关系r
′
按照下式计算综合相似度sim(r,r
′
)：
[0075][0076][0077]
对7种关系进行同样的计算，找到各自的最相似关系。
[0078]
步骤3.2：计算关系的先验概率。通过统计所有正例三元组中关系r出现的次数nr和其最相似关系r
′
的出现次数nr′
，计算先验概率pro(r)。具体公式如下：
[0079][0080]
步骤3.3：计算关系语义匹配度。中学实验知识图谱中，关系r所在中学实验知识三元组中的头尾实体即关系的语义信息。计算平均头实体与当前三元组中头实体的距离、平均尾实体与当前三元组中尾实体的距离，以此判断当前三元组中，头实体h、尾实体t与r的匹配程度align(h,r,t)；具体公式如下：
[0081][0082]
如图2中的知识子图，其中的一个三元组(“电流”，“平行”，“电感”)，对于当前三元组中，头实体“电流”与尾实体“电感”与关系“平行”的匹配程度，就要将“电流”与“电感”的向量代入上式计算。
[0083]
步骤3.4：计算三元组置信度p。融合上述特征得到三元组置信度，即置信度p＝先验概率*上下文匹配度。
[0084]
完成中学实验知识三元组分类包括以下步骤：
[0085]
步骤4.1：根据三元组评分s初步分类。当s大于正、负例三元组的间隔τ时，直接判定为负例，其余情况需要完成更进一步地判定。
[0086]
步骤4.2：构造近似三元组。对于当前三元组(h,r,t)，找到最相似关系r
′
，构造近似三元组(h,r
′
,t)，得到评分s
′
并与阈值比较，若近似三元组也被判定为正例，则进入置信度判定。否则当前三元组判定为正例。
[0087]
步骤4.3：根据三元组置信度进一步判定。分别计算r与r
′
的置信度，当r
′
的置信度更高时，说明近似三元组更有可能成立，则当前三元组判定为负例。否则判定当前三元组为正例。
[0088]
步骤4.4：将得到的正例三元组用于中学实验知识图谱的补全。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种流域降雨径流监测方法、监测装置以及监测系统与流程

面向中学实验的知识图谱动态知识补全方法与流程

相关文献

最热文献