一种基于双层异质图的事理知识图谱关系补全方法及系统

2022-12-07 16:54:28 来源：中国专利 TAG：

1.本发明涉及文本数据分析处理领域，具体涉及一种基于双层异质图的事理知识图谱关系补全方法及系统。

背景技术：

2.传统技术中的事件之间可能会存在多种关系连接，公布号为cn111382575a的现有发明专利申请文献《一种基于联合标注和实体语义信息的事件抽取方法》的事件抽取方法，首先采用bert模型作为特征提取器；其次，基于字特征输入建模，不进行分词操作，并采用bio标注，降低触发词识别的错误；再将抽取得到的事件通过计算事件相似度进行同类型事件的事件元素融合。由该现有技术的具体实现内容可知，该现有方案提取的文本对象的实体语义特征信息以对文本中的段落或句子进行事件。但前述现有技术仅通过事件本身的语义信息难以准确对事件之间的关系进行补全。公布号为cn109190656a的现有专利申请文献《一种低采样定位环境下的室内语义轨迹标注和补全方法》语义实体和室内空间结构信息录入，构建获得移动转移图；采集原始位置轨迹，对每个原始位置轨迹分割形成多个分割片段；对于事件模式，用户选取绑定位置轨迹片段；将分割片段和位置轨迹片段的关键特征进行相似性比较，取相似性最高的进行相关性链接，形成一组独立的语义元组；将语义元组组装，概率推断计算生成缺失部分的语义元组；插入补全后将完整的语义轨迹导出。从该现有技术的具体实现方式可知，该现有技术结合语义信息和室内空间结构生成的移动转移图，对时序的缺失部分进行概率推断运算，将获取的缺失部分语义元组插入到对应的语义轨迹中进行补全，但该现有方案仅适用于低采样定位环境下的室内语义轨迹标注和补全的应用场景，在低采样定位环境之外的应用场景下，无法确保事理知识图谱的关系补全准确性。
3.综上，现有技术存在事件关系补全困难以及补全准确度较低的技术问题。

技术实现要素：

4.本发明所要解决的技术问题在于如何解决现有技术中事件关系补全困难以及补全准确度较低的技术问题。
5.本发明是采用以下技术方案解决上述技术问题的：一种基于双层异质图的事理知识图谱关系补全方法包括：s1、从已知的事理知识图谱中，获取全部事件中的对应关系，其中，对应关系包括：全部事件包含的所有实体构成的异质图；s2、对异质图进行表示学习，据以获得每个实体节点的向量表示，以得到子图结构嵌入特征表示，据以获取预训练模型，其中，步骤s2还包括：s21、获取并利用预置逻辑表示元路径；s22、根据元路径的节点嵌入聚合得到元路径嵌入表示，据以构造语义嵌入矩阵，融合处理一个事件中的不少于2个的元路径，以得到事件在异质图上的子图语义特征；s23、根据原始异质子图的节点特征和语义特征，分别生成异质子图，融合异质子
图与原始异质子图，以得到第一融合新异质子图；s24、根据第一融合新异质子图，每个事件映射一个子图，与该子图的节点特征和语义特征进行融合处理，据以得到第二融合新异质子图；s25、将第二融合新异质子图输入到图神经网络模型gnn和预置正则化器中，以通过双层异质图联合学习，优化第二融合新异质子图的图结构和gnn参数，以得到预训练模型；s3、结合预训练模型，提取事理知识图谱中的事件语义特征；s4、结合子图结构嵌入特征表示以及事件语义特征，据以进行异质图联合学习，据以得到事理知识图谱关系预测模型；s5、获取并利用新事件实体，根据事理知识图谱关系预测模型，对基本异质图进行扩展补全，以得到更新异质图，利用更新异质图更新子图结构嵌入特征表示，据以补全事理知识图谱，其中，事理知识图谱关系预测模型包括：transr模型。
6.本发明针对已知的事理知识图谱包含的大量事件，由所有事件中的实体构成一个基本的异质图，每一个事件可以由其包含的实体作为边界在基本异质图上找到一个子图，从而可以通过构建聚合每个事件对应的子图信息作为该事件的嵌入表示，结合事件本身携带的语义信息对事件知识图谱进行训练学习，进而实现事理知识图谱的关系补全。本发明中的新的事件包含的实体会对基本异质图进行扩展或补全，利用更新的基本异质图重新更新图结构的表示，提升模型的准确度。
7.本发明中，事理知识图谱是一个异质图，故而本发明提出的模型是在一个双层异质图上进行训练的，且该双层异质图之间存在映射关系。该模型加入了子图结构信息和由元路径融合产生的语义信息。其中，结构信息主要由事件映射子图产生，故而在训练异质图的表示学习过程中，已经利用了事理知识图谱中的信息，即第一层异质图对第二层异质图所施加的影响，优化了事理知识图谱的补全效果。
8.在更具体的技术方案中，步骤s1包括：s11、利用已知的事理知识图谱kg，与事理知识图谱kg中的所有事件节点包含的实体构成异质图g，其中，以下述逻辑表示异质图:g=（v,e,f）其中，v表示节点集合，e表示边集合，f表示特征集合；s12、获取事件知识图谱中的对应关系，其中，对应关系包括:事件ee与事件之间的关系re，事理知识图谱中的事件之间的关系类型包括：因果关系、条件关系、反转关系、顺承关系、上下位关系、组成关系和并发关系；s13、从事件中抽取实体eg及实体间关系r
g，
据以构成异质子图，并利用每个事件与该事件的异质子图建立映射关系，其中，实体的类型包括：人物、事物、地点，每个事件包括：实体及实体间关系；s14、以实体为边界，在异质图g上划分与事件对应的异质子图g
sub
，并在异质图表示学习过程中，融合异质子图g
sub
的子图结构信息。
9.在更具体的技术方案中，步骤s21中，利用下述逻辑定义元路径p：
据以描述节点v1和节点v
l 1
之间的复合关系。
10.在更具体的技术方案中，以下述逻辑表示复合关系：其中，v表示异质图中的节点，r表示异质图中节点之间的关系。
11.在更具体的技术方案中，步骤s25中，利用事件映射子图生成结构信息，该结构信息包括：第一融合新异质子图以及第二融合新异质子图的影响数据。
12.本发明的事件映射的异质图上的训练学习中，不仅利用了节点及其关系的特征，还融合了事件映射的子图结构特征，进一步提升了事理知识图谱补全精度。
13.在更具体的技术方案中，步骤s3包括：s31、从预训练模型中，获取文本的文本向量表示；s32、利用预置的中文预训练模型bert-wwm，从预训练模型中获取中文文本向量表示；s33、根据文本的具体文本长度分布情况，进行补0及截断处理，以设置适用文本长度；s34、根据文本的位置信息，处理得到文本嵌入表示，据以作为事件语义特征。
14.针对传统技术中使用词向量获取其嵌入表示的方式存在的问题，本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式，避免了现有技术中难以包含文本的上下文信息的缺陷。
15.在更具体的技术方案中，步骤s4包括：s41、结合处理异质图的子图结构嵌入特征表示以及事件语义特征；s42、结合transr算法，针对子图结构特征表示中的三元组＜e
eh
,re,e
et
》，以结点e
eh
作为头结点，结点e
et
作为尾结点，并使得期望头结点向量和关系向量之和逼近尾结点向量，以达到头节点及尾结点适用状态；s43、损失函数利用负采样的max-margin函数，以下述逻辑处理得到损失函数：l(y,y’)=max(0,margin-y y’)其中，y是正样本的得分，y’是负样本的得分；s44、对于事理知识图谱，以下述逻辑表示其知识表示损失函数：l(e
eh
,re,e
et
)=max(0,d
pos-d
neg
margin)其中，d=||e
eh
r
e-e
et
||，表示l1、l2范数；s45、利用损失函数以及知识表示损失函数，进行异质图联合学习。以得到事理知识图谱关系预测模型，据以进行关系补全。
16.在更具体的技术方案中，步骤s42中，以下述逻辑表示头尾结点适用状态：e
eh
re=e
et
。
17.在更具体的技术方案中，步骤s5包括：s51、更新异质图g，抽取事理知识图谱中，新事件实体及新事件关系，据以向异质图g进行映射；s52、利用新事件实体及新事件关系，补全更新异质图g的节点和连接，以得到更新异质图；
s53、对更新异质图的信息表示进行再学习，获取新嵌入表示；s54、将新嵌入表示重新载入transr模型，据以完成事理知识图谱的补全更新。
18.s55、循环执行步骤s51至s54，以循环更新事理知识图谱。
19.本发明中新的事件的出现先更新了异质图，再更新了事理知识图谱，循环往复，随着事理知识图谱的事件密度的提升，异质图持续完善，再反馈回事理知识图谱，本发明采用的前述相互促进的机制使得事理知识图谱的关系补全准确度更高。
20.在更具体的技术方案中，一种基于双层异质图的事理知识图谱关系补全系统包括：事件对应关系获取模块，用以从已知的事理知识图谱中，获取全部事件中的对应关系，其中，对应关系包括：全部事件包含的所有实体构成的异质图；预训练模型获取模块，用以对异质图进行表示学习，据以获得每个实体节点的向量表示，以得到子图结构嵌入特征表示，据以获取预训练模型，预训练模型获取模块与事件对应关系获取模块连接，其中，预训练模型获取模块还包括：元路径表示模块，用以获取并利用预置逻辑表示元路径；子图语义特征获取模块，用以根据元路径的节点嵌入聚合得到元路径嵌入表示，据以构造语义嵌入矩阵，融合处理一个事件中的不少于2个的元路径，以得到事件在异质图上的子图语义特征，子图语义特征获取模块与元路径表示模块连接；第一异质图模块，用以根据原始异质子图的节点特征和语义特征，分别生成异质子图，融合异质子图与原始异质子图，以得到第一融合新异质子图，第一异质图模块与子图语义特征获取模块连接；第二异质图模块，用以根据第一融合新异质子图，每个事件映射一个子图，与该子图的节点特征和语义特征进行融合处理，据以得到第二融合新异质子图，第一异质图模块与第二异质图模块连接；双层异质图联合训练模块，用以将第二融合新异质子图输入到图神经网络模型gnn和预置正则化器中，以通过双层异质图联合学习，优化第二融合新异质子图的图结构和gnn参数，以得到预训练模型，双层异质图联合处理模块与第二异质图模块连接；事件语义特征获取模块，用以结合预训练模型，提取事理知识图谱中的事件语义特征，事件语义特征获取模块与预训练模型获取模块连接；关系预测模型获取模块，用以结合子图结构嵌入特征表示以及事件语义特征，据以进行异质图联合学习，据以得到事理知识图谱关系预测模型，关系预测模型获取模块与事件语义特征获取模块连接；图谱补全模块，用以获取并利用新事件实体，根据事理知识图谱关系预测模型，对基本异质图进行扩展补全，以得到更新异质图，利用更新异质图更新子图结构嵌入特征表示，据以补全事理知识图谱，图谱补全模块与关系预测模型获取模块连接。
21.本发明相比现有技术具有以下优点：本发明针对已知的事理知识图谱包含的大量事件，由所有事件中的实体构成一个基本的异质图，每一个事件可以由其包含的实体作为边界在基本异质图上找到一个子图，从而可以通过构建聚合每个事件对应的子图信息作为该事件的嵌入表示，结合事件本身携带的语义信息对事件知识图谱进行训练学习，进而实现事理知识图谱的关系补全。本发明中的新的事件包含的实体会对基本异质图进行扩展或
补全，利用更新的基本异质图重新更新图结构的表示，提升模型的准确度。
22.本发明中，事理知识图谱是一个异质图，故而本发明提出的模型是在一个双层异质图上进行训练的，且该双层异质图之间存在映射关系。该模型加入了子图结构信息和由元路径融合产生的语义信息。其中，结构信息主要由事件映射子图产生，故而在训练异质图的表示学习过程中，已经利用了事理知识图谱中的信息，即第一层异质图对第二层异质图所施加的影响，优化了事理知识图谱的补全效果。
23.本发明的事件映射的异质图上的训练学习中，不仅利用了节点及其关系的特征，还融合了事件映射的子图结构特征，进一步提升了事理知识图谱补全精度。
24.针对传统技术中使用词向量获取其嵌入表示的方式存在的问题，本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式，避免了现有技术中难以包含文本的上下文信息的缺陷。
25.本发明中新的事件的出现先更新了异质图，再更新了事理知识图谱，循环往复，随着事理知识图谱的事件密度的提升，异质图持续完善，再反馈回事理知识图谱，本发明采用的前述相互促进的机制使得事理知识图谱的关系补全准确度更高。本发明解决了现有技术中存在的事件关系补全困难以及补全准确度较低的技术问题。
附图说明
26.图1为本发明实施例1的一种基于双层异质图的事理知识图谱关系补全方法步骤示意图；图2为本发明实施例1的事件与异质图之间的映射关系示意图；图3为本发明实施例1的取事件与异质图的对应关系具体步骤示意图；图4为本发明实施例1的异质子图多信息融合过程示意图；图5为本发明实施例1的事件子图嵌入表示获取具体步骤示意图；图6为本发明实施例1的具体文本示例示意图；图7为本发明实施例1的语义信息嵌入表示获取具体步骤示意图；图8为本发明实施例1的transe算法思想原理图；图9为本发明实施例1的异质图结构信息及事件语义信息联合学习具体步骤示意图；图10为本发明实施例1的事理知识图谱关系补全具体步骤示意图。
具体实施方式
27.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
28.实施例1本发明的目的是对事理知识图谱进行关系补全，其中，输入数据包括：两个事件，输出数据包括：两个事件之间存在的关系。
29.如图1所示，本发明提供的一种基于双层异质图的事理知识图谱关系补全方法包
括以下步骤：s1、获取事件与异质图的对应关系；在本实施例中，已知的事理知识图谱包括：所有事件与所有事件包含的所有实体构成异质图，在事件及子图上形成的对应关系；在本实施例中，s1步骤还包括以下具体步骤：s11、已知的事理知识图谱kg与其所有事件节点包含的实体构成异质图g；在本实施例中，异质图为多种类型节点和关系的图。异质图g=（v,e,f），其中v表示节点集合，e表示边集合，f表示特征集合。
30.s12、获取事件知识图谱中的对应关系；在本实施例中，事件知识图谱由事件ee与事件之间的关系re构成，事理知识图谱中的事件之间的关系类型包含：因果关系、条件关系、反转关系、顺承关系、上下位关系、组成关系和并发关系。
31.s13、抽取所有事件的实体及其关系构建一个整体的异质图，并将每个事件与其所包含的实体所构成的异质子图建立映射关系；在本实施例中，异质图是从事件中抽取的实体eg及其之间的关系rg构成的，其实体类型主要包括人物、事物、地点等。每个事件都会包含实体及其之间的关系；s14、以事件包含的实体为边界在g上划分与之对应的异质子图g
sub
，并在异质图表示学习中融合子图结构信息；在本实施例中，考虑到事件之间的关系可能与其所对应的异质子图之间的空间关系存在联系，在异质图表示学习中融合了子图结构信息。在本实施例中，子图间的空间关系包括：包含、相交、相等、相接、不相交、重叠、内部。
32.s2、通过对整体的异质图的表示学习获得事件子图的嵌入表示；在本实施例中，对整体的异质图进行表示学习，获得每个实体节点的向量表示，进而获得子图结构的嵌入表示；如图4及图5所示，在本实施例中，步骤s2还包括以下具体步骤：s21、元路径表示；在本实施例中，元路径p被定义为型如的一条路径，描述了v1和v
l 1
之间的复合关系，其中v表示异质图中的节点，r表示异质图中节点之间的关系；s22、基于元路径的节点嵌入聚合得到元路径嵌入表示，通过来自于m个元路径嵌入构造语义嵌入矩阵z，对于一个事件，在其映射的异质子图中存在多个元路径，将其融合作为该事件在异质图上的子图的语义特征；s23、将原始异质子图、节点特征和语义特征的信息作为输入，分别生成异质子图。将生成的子图与原始图融合，即得到新的异质子图；s24、融合得到的新的异质子图中既包含了原始子图的结构信息，也包含了其中的节点特征和语义特征的信息，且每个事件都会映射一个子图并融合节点特征和语义特征产生一个新的异质子图，以此作为后续表示学习的输入；s25、将融合得到的子图输入到gnn图神经网络模型和正则化器中，联合学习优化图结构和gnn参数。在本实施例中，与传统的gnn不同的是本发明加入了子图结构信息和由元路径融合产生的语义信息。其中结构信息主要由事件映射子图产生，故而在训练异质图的表示学习过程中，已经利用了事理知识图谱中的信息，即第一层异质图对第二层异质图所施加的影响。
33.s3、结合预训练模型获取事件的语义信息的嵌入表示；在本实施例中，结合预训练模型，提取事理知识图谱中事件的语义特征；如图6及图7所示，在本实施例中，步骤s3包括以下具体步骤：s31、从预训练模型中获取文本向量表示；在本实施例中，事理知识图谱中的事件属性中有具体的描述，其中包含了重要的文本信息。通过该文本信息，可以获取事件的语义特征，传统的方法主要使用词向量获取其嵌入表示，这种方式往往难以包含文本的上下文信息，故而本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式；s32、利用中文预训练模型bert-wwm，从预训练模型中获取中文文本向量表示；在本实施例中，针对中文数据，本发明应用哈工大讯飞联合实验室发布的中文预训练模型bert-wwm，从预训练模型中获取文本的向量表示，如图6所示的《m女士事件》的具体文本信息；s33、针对具体的文本长度分布情况设置合适的文本长度，对于未达到所设长度的文本进行补0，超过的文本进行截断处理；在本实施例中，文本长度计入标点符号；s34、结合其文本的位置信息，得到文本的嵌入表示。在本实施例中，本发明以此文本嵌入表示作为事件的语义特征。
34.s4、结合异质图结构信息和事件语义信息进行联合学习；在本实施例中，结合步骤s2中获取的图结构特征和步骤s3中获取的语义特征进行联合学习；如图8及图9所示，在本实施例中，步骤s4还包括以下具体步骤：s41、将步骤s2中获取的图结构表示与步骤s3中获取的事件语义特征结合，作为事件的嵌入表示；在本实施例中，事件的嵌入表示结合了事件本身的语义特征及其映射的异质子图的结构特征、节点特征和语义特征；s42、根据transr算法，使得期望头结点向量和关系向量之和逼近尾结点向量，以达到适用的状态；在本实施例中，结合transr算法的思想，对于三元组＜e
eh
,re,e
et
》，e
eh
作为头结点，e
et
作为尾结点，期望头结点向量和关系向量的和尽可能靠近尾结点向量，适用的状态即希望达到的e
eh
re=e
et
的状态；s43、获取损失函数；在本实施例中，损失函数使用负采样的max-margin函数，即l(y,y’)=max(0,margin-y y’)其中，y是正样本的得分，y’是负样本的得分；s44、获取知识表示损失函数；在本实施例中，对于事理知识图谱，其知识表示的损失函数为：l(e
eh
,re,e
et
)=max(0,d
pos-d
neg
margin)其中，d=||e
eh
r
e-e
et
||，这是l1或l2范数；s45、利用训练得到的模型即可对事理知识图谱进行关系预测，并依据前述原理对缺失关系的事件对进行关系补全。
35.s5、利用学习到的模型对事理知识图谱进行关系补全；在本实施例中，新的事件包含的实体会对基本异质图进行扩展或补全，利用更新的基本异质图重新更新图结构的表示，提升模型的准确度，进而对事理知识图谱进行关系补全。
36.如图10所示，在本实施例中，s5步骤还包括一下具体步骤：
s51、将其包含的实体及其关系抽取出来，并向基本异质图g进行映射；在本实施例中，对于新的事件的加入，从更新基本异质图g开始。新事件在事理知识图谱中属于孤立的点，还未与其他事件建立关系，故本发明首先将其包含的实体及其关系抽取出来，并向基本异质图g进行映射；s52、利用新的事件中的实体及关系对基本异质图g进行补全更新，在本实施例中，新的事件可能抽取出未被基本异质图g包含的实体或关系，即需要在g中加入新的节点或连接；s53、对所有信息表示进行再学习；在本实施例中，由于异质图g更新，所有事件对应的异质子图g
sub
都有可能改变，其中包含的元路径也可能进一步丰富，从而需要对所有的信息表示进行再学习，获取新的嵌入表示。
37.s54、将全部更新后的事件的嵌入表示重新载入transr模型中，进而完成事理知识图谱的补全更新；s55、循环执行前述步骤s51至s54；经过以上操作，新的事件的出现先更新了异质图，再更新了事理知识图谱，循环往复，随着事理知识图谱的事件密度的提升，异质图更加完善，再反馈回事理知识图谱，相互促进的机制使得事理知识图谱的关系补全准确度更高。
38.综上，本发明针对已知的事理知识图谱包含的大量事件，由所有事件中的实体构成一个基本的异质图，每一个事件可以由其包含的实体作为边界在基本异质图上找到一个子图，从而可以通过构建聚合每个事件对应的子图信息作为该事件的嵌入表示，结合事件本身携带的语义信息对事件知识图谱进行训练学习，进而实现事理知识图谱的关系补全。本发明中的新的事件包含的实体会对基本异质图进行扩展或补全，利用更新的基本异质图重新更新图结构的表示，提升模型的准确度。
39.本发明中，事理知识图谱是一个异质图，故而本发明提出的模型是在一个双层异质图上进行训练的，且该双层异质图之间存在映射关系。该模型加入了子图结构信息和由元路径融合产生的语义信息。其中，结构信息主要由事件映射子图产生，故而在训练异质图的表示学习过程中，已经利用了事理知识图谱中的信息，即第一层异质图对第二层异质图所施加的影响，优化了事理知识图谱的补全效果。
40.本发明的事件映射的异质图上的训练学习中，不仅利用了节点及其关系的特征，还融合了事件映射的子图结构特征，进一步提升了事理知识图谱补全精度。
41.针对传统技术中使用词向量获取其嵌入表示的方式存在的问题，本发明使用目前自然语言处理工作中常用的从预训练模型获取向量表示的方式，避免了现有技术中难以包含文本的上下文信息的缺陷。
42.本发明中新的事件的出现先更新了异质图，再更新了事理知识图谱，循环往复，随着事理知识图谱的事件密度的提升，异质图持续完善，再反馈回事理知识图谱，本发明采用的前述相互促进的机制使得事理知识图谱的关系补全准确度更高。本发明解决了现有技术中存在的事件关系补全困难以及补全准确度较低的技术问题。
43.以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：虚拟账户创建方法、系统、服务器及计算机可读存储介质与流程

一种基于双层异质图的事理知识图谱关系补全方法及系统

相关文献

最热文献