一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实体对齐方法、装置、设备和计算机可读存储介质与流程

2022-10-26 18:48:00 来源:中国专利 TAG:


1.本技术涉及知识图谱技术领域,特别是涉及一种实体对齐方法、装置、设备和计算机可读存储介质。


背景技术:

2.知识图谱的核心是大规模的语义网络,而语义网络是一种基于有向图结构的知识表示形式,其中结点代表实体、概念,边表示各种语义关系。由于知识的有效时间并不相同,为了更好地刻画实体和关系,提供更精准的知识信息,时序知识图谱(temporal knowledge graph, tkg),将知识表示为形如(头实体,关系,尾实体,有效时间)的四元组。
3.无论是静态或者时序的知识图谱,都是从非结构化信息构建而来的。因此,不同来源的非结构信息构建的不同知识图谱之间,不可避免地存在着组织结构、表达模式、语言等各方面的差异性,例如,奥运会和奥林匹克运动会指向同一实体。
4.本技术的申请人在长期的研发过程中,发现面对静态知识图谱的实体对齐已经被广泛研究,但是实体对齐工作中常常忽视时间信息,从而无法精准地实现实体对齐。


技术实现要素:

5.本技术主要解决的技术问题是提供一种实体对齐方法、装置、设备和计算机可读存储介质,能够提高时序知识图谱实体对齐的准确性。
6.为解决上述技术问题,本技术采用的一个技术方案是:提供一种实体对齐方法,该方法包括:基于第一知识图谱和第二知识图谱包含的各知识中的时间,划分若干时间超平面,每条知识基于知识中的时间与时间超平面关联;对于第一知识图谱和第二知识图谱中的各实体,基于实体所在的知识所关联的时间超平面的平面表示和实体的邻居实体,确定实体的实体表示;基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐。
7.其中,基于第一知识图谱和第二知识图谱包含的各知识中的时间,划分若干时间超平面包括:将第一知识图谱和第二知识图谱中包含的时间进行排序,得到时间序列;依据时间序列中的时间构建若干时间超平面。
8.其中,依据时间序列中的时间构建若干时间超平面,包括:统计第一知识图谱和第二知识图谱中各时间出现的频次;依据频次之和满足预设频次要求的每组时间组,构建对应的一个时间超平面,其中每组时间组包括时间序列中连续的至少一个时间,不同组时间组包括的时间不同。
9.其中,基于实体所在的知识所关联的时间超平面的平面表示和实体的邻居实体,确定实体的实体表示,包括:将实体对应关联的至少一个时间超平面作为实体的目标时间超平面,基于实体初始的实体表示和实体的各目标时间超平面的平面表示,得到实体分别投影至各目标时间超平面的第一投影表示;基于实体及其邻居实体投影至各目标时间超平面的第一投影表示,得到实体经更新的实体表示。
10.其中,实体的目标时间超平面包括实体所在的知识图谱中包含实体的每条知识分别关联的时间超平面。
11.其中,基于实体及其邻居实体投影至各目标时间超平面的第一投影表示,得到实体经更新的实体表示,包括:综合实体投影至各目标时间超平面的第一投影表示,得到实体的时间感知表示,以及,综合实体的各邻居实体投影至各目标时间超平面的第一投影表示,得到各邻居实体的时间感知表示;对于实体的各邻居实体,基于实体和邻居实体的时间感知表示,确定邻居实体的注意力系数;利用实体的各邻居实体的注意力系数,对各邻居实体的时间感知表示进行加权处理,得到实体经更新的实体表示。
12.其中,实体的时间感知表示为实体投影至各目标时间超平面的第一投影表示的均值,邻居实体的时间感知表示为邻居实体投影至各目标时间超平面的第一投影表示的均值;基于实体和邻居实体的时间感知表示,确定邻居实体的注意力系数,包括:基于实体和邻居实体的时间感知表示,确定实体和邻居实体在时域上的相关系数;对邻居实体对应的相关系数进行归一化处理,得到邻居实体的注意力系数。
13.其中,将第一知识图谱和第二知识图谱分别作为目标图谱,基于实体所在的知识所关联的时间超平面的平面表示和实体的邻居实体,确定实体的实体表示,还包括:利用经更新的实体表示,获取关于若干目标知识的结构损失以及获取关于若干目标实体对的对齐损失,若干目标知识的结构损失是基于各目标知识中的头实体、尾实体和关系之间的表示关系确定的,若干目标知识为目标图谱中的知识,目标实体对所包含的两个实体是预先确定具有对齐关系且分别来自第一知识图谱和第二知识图谱;基于结构损失和对齐损失,更新第一知识图谱和第二知识图谱中至少一个实体的实体表示。
14.其中,获取关于若干目标知识的结构损失,包括:对于每条待处理知识,基于待处理知识中的头实体和尾实体经更新的实体表示和关系的关系表示,获得待处理知识中的头实体、尾实体和关系分别投影至待处理知识关联的时间超平面的第二投影表示,待处理知识包括目标知识及其对应的负样本知识;基于待处理知识中的头实体、尾实体和关系的第二投影表示,得到待处理知识中头尾实体与关系之间的第一表示距离;基于各目标知识及其对应的负样本知识的第一表示距离之间的差异,得到结构损失。
15.其中,获取关于若干目标实体对的对齐损失,包括:对于各待处理实体对,基于待处理实体对中两个实体之间的实体表示的差异,获得待处理实体对的第二表示距离;待处理实体对包括目标实体对和对应的负样本实体对,负样本实体对中的一个实体与对应的目标实体对中的一个实体相同,负样本实体对中的另一个实体与对应目标实体对中的另一个实体不同且属于同一知识图谱;基于各目标实体对和对应的负样本实体对的第二标识距离,得到对齐损失。
16.其中,在获取关于若干目标知识的结构损失之前,还包括:将目标知识中的关系作为目标关系;利用与目标关系相关的至少一个实体的实体表示和与目标关系相关的至少一个时间的时间表示,生成目标关系的关系表示,与目标关系相关的实体、时间分别为目标图谱中与目标关系属于同一知识的实体、时间。
17.其中,利用与目标关系相关的至少一个实体的实体表示和与目标关系相关的至少一个时间的时间表示,生成目标关系的关系表示,包括:将与目标关系相关的至少一个实体的实体表示的均值,与目标关系相关的至少一个时间的时间表示的均值之和,作为目标关
系的关系表示。
18.其中,基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐,包括:获取两个待对齐实体之间的实体表示之间的相似度,两个待对齐实体分别来自第一知识图谱和第二知识图谱;基于两个待对齐实体对应的相似度,确定两个待对齐实体是否对齐。
19.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种实体对齐装置,包括划分模块、表示模块和对齐模块;划分模块用于基于第一知识图谱和第二知识图谱包含的各知识中的时间,划分若干时间超平面,每条知识基于知识中的时间与时间超平面关联;表示模块用于对于第一知识图谱和第二知识图谱中的各实体,基于实体所在的知识所关联的时间超平面的平面表示和实体的邻居实体,确定实体的实体表示;对齐模块用于基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐。
20.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种实体对齐设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述任一项中的方法。
21.为解决上述技术问题,本技术采用的另一个技术方案是:提供一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述任一项中的方法。
22.上述方案,通过构建时间超平面以表示实体关联的时间信息,并且基于邻居实体对实体的表示的影响,利用时间信息和邻居实体的实体表示来确定实体表示,使得实体表示更为准确,从而有利于利用实体表示准确计算实体之间的相似度,进而提高实体对齐的准确性。
附图说明
23.图1是本技术实体对齐方法一实施例的流程示意图;图2是本技术步骤s110另一实施例的流程示意图;图3是本技术步骤s120另一实施例的流程示意图;图4是本技术步骤s322另一实施例的流程示意图;图5是本技术实体对齐方法另一实施例的流程示意图;图6是本技术实体对齐装置一实施例的框架示意图;图7是本技术实体对齐设备一实施例的框架示意图;图8是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
24.为使本技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本技术进一步详细说明。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
25.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任
意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
26.可以理解的是,本技术中的实体对齐方法可以由一实体对齐设备执行,该实体对齐设备可以是具有处理能力的任意设备,例如,手机、计算机、平板电脑等。
27.请参阅图1,图1是本技术实体对齐方法一实施例的流程示意图。具体而言,该方法可以包括:步骤s110:基于第一知识图谱和第二知识图谱包含的各知识中的时间,划分若干时间超平面。
28.需要说明的是,本技术中涉及的知识图谱为时序知识图谱,第一知识图谱和第二知识图谱为两个时序知识图谱,进行对齐的两个图谱通常是不同源的。两个图谱中的知识均包括头实体、关系、尾实体和时间,时间可以表示该头实体、关系和尾实体在该时间范围内有效。实体对齐可以用于判断第一知识图谱中包含的实体和第二知识图谱中包含的实体是否指向同一对象。例如,第一知识图谱中包含“李雷”,第二知识图谱中包含“lilei”,通过实体对齐可以确定这两个实体指向同一对象,那么也就可以确定这两个实体相互对齐。
29.基于第一知识图谱和第二知识图谱中的各条知识中的时间,划分得到若干时间超平面,其中,每条知识基于其中包含的时间与时间超平面关联。
30.步骤s120:基于实体所在的知识关联的时间超平面的平面表示和实体的邻居实体,确定实体的实体表示。
31.需要说明的是,对每个实体来说,其可以作为头实体,通过关系与一尾实体相连,其也可以作为尾实体,通过关系与一头实体相连。将该实体可以称为中心实体,与该中心实体通过关系相连的其他实体为该中心实体的邻居实体。
32.其中,时间超平面的平面表示用于表征该时间超平面,例如,平面表示可以是该时间超平面的法向量表示等,是基于划分该时间超平面的若干时间得到的。
33.实体所在的知识关联的时间超平面的平面表示可以用于表征该实体的有效时间。另外,实体的邻居结构也能够表征实体的信息,例如,相互对齐的实体往往具有相似的邻居结构。从而上述平面表示和实体的邻居实体可以用于确定实体的实体表示,并且该实体表示中融入了该实体的时间信息和邻居结构信息。
34.在步骤s120中对第一知识图谱和第二知识图谱中包含的所有实体分别确定实体表示,以用于后续的对齐计算过程中。
35.步骤s130:基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐。
36.需要说明的是,若两实体相互对齐,那么两个实体表示则具有相近的实体表示,若两实体表示满足预设要求,那么则可以认为两实体是对齐的,其中,预设要求可以是两实体表示相似度达到一定要求。
37.上述方案,通过构建时间超平面以表示实体关联的时间信息,并且基于邻居实体对实体的表示的影响,利用时间信息和邻居实体的实体表示来确定实体表示,使得实体表示更为准确,从而有利于利用实体表示准确计算实体之间的相似度,进而提高实体对齐的准确性。
38.请参阅图2,图2是本技术步骤s110另一实施例的流程示意图。具体而言,步骤s110
可以包括如下步骤:步骤s211:将第一知识图谱和第二知识图谱中包含的时间进行排序,得到时间序列。
39.第一知识图谱和第二知识图谱为时序知识图谱,其中每条知识均包含时间,对其中包含的时间进行排序,得到时间序列。
40.步骤s212:依据时间序列中的时间构建若干时间超平面。
41.利用时间序列中连续的若干时间构建一个时间超平面,使得每个时间超平面上有效的三元组的数量基本平均。
42.具体地,第一知识图谱和第二知识图谱中不同知识可能包含相同的时间,故在依据时间序列构建时间超平面时,对各时间出现的频次进行统计,基于上述时间出现的频次构建若干时间组,每组时间组中时间的频次之和满足预设频次要求,利用一时间组构建对应的一个时间超平面。其中,每组时间组包括时间序列中连续的至少一个时间,不同组时间组包括的时间不同。通过控制时间组的频次满足预设频次要求从而能够实现每个时间超平面上有效的三元组的数量基本平均。
43.通过利用两图谱中包含的时间构建时间超平面,利用时间超平面的平面表示以表示时间信息,以用于将与实体关联的时间表示融入实体表示中,使得实体表示能够包含其对应的有效时间信息。
44.请参阅图3,图3是本技术步骤s120另一实施例的流程示意图。具体而言,该方法可以包括如下步骤:步骤s321:基于实体初始的实体表示和实体的各目标时间超平面的平面表示,得到实体分别投影至各目标时间超平面的第一投影表示。
45.需要说明的是,知识图谱中包含若干知识,每条知识以四元组的形式存在,其中包含实体和时间,一实体对应关联的至少一个时间超平面(目标时间超平面)为该实体所在的知识图谱(第一知识图谱或者第二知识图谱)中,包含该实体的每条知识分别关联的时间超平面,知识以其包含的时间与时间超平面关联。
46.在一些实施例中,在一图谱中的一实体可能存在于不同的四元组中,包含该实体的多个四元组中分别包含的多个时间可能均相同、均不同或者也可能存在至少部分相同,基于此确定的该实体对应关联的目标时间超平面可以为一个或多个。
47.其中,实体初始的实体表示可以为随机初始化得到的结果,在确定实体表示的过程中对实体表示进行更新,从而得到最终的实体表示以用于后续的对齐计算过程中。
48.将实体分别投影到各目标时间超平面,基于实体初始的实体表示和各目标时间超平面的平面表示,得到实体投影到每个目标时间超平面上的第一投影表示。
49.在一具体的应用场景中,基于第一知识图谱和第二知识图谱中的时间划分得到t个时间超平面。第一知识图谱中包括四元组,其中h、r、t分别代表头实体、关系和尾实体,h和t分别代表头实体和尾实体的实体表示。三元组在超平面上有效,超平面为头实体h和尾实体t对应关联的一个目标时间超平面。头实体h和尾实体t投影到该目标时间超平面上的第一投影表示可以利用如下式得到:
(1)(2)其中,为目标时间超平面的平面表示,和分别表示头实体h和尾实体t投影到该目标时间超平面上的第一投影表示。
50.步骤s322:基于实体及其邻居实体投影至各目标时间超平面的第一投影表示,得到实体经更新的实体表示。
51.具体来说,通过将实体投影到各自的目标时间超平面上得到的第一投影表示融合了实体对应的目标时间超平面的时间信息,而后利用实体和邻居实体的第一投影表示对该实体表示进行更新。
52.上述方案,通过构建时间超平面进行时间表示,通过将实体投影到时间超平面,将时间信息融入实体表示中,而后基于中心实体的邻居实体的实体表示对中心实体的表示进行更新,从而实现了将时间信息和邻居结构信息融入实体表示,提高实体表示的准确度。
53.请参阅图4,图4是本技术步骤s322另一实施例的流程示意图。具体而言,步骤s322可以包括:步骤s4221:综合实体投影至各目标时间超平面的第一投影表示,得到实体的时间感知表示,综合实体的各邻居实体投影至各目标时间超平面的第一投影表示,得到各邻居实体的时间感知表示。
54.需要说明的是,一实体对应的目标时间超平面可以为一个或多个,对该实体来说,在其关联的目标时间超平面上投影,得到第一投影表示后,通过该实体在各目标时间超平面的第一投影表示可以综合得到该实体的时间感知表示,也就实现了将该实体关联的时间信息融入了其表示中。
55.需要说明的是,对第一知识图谱和第二知识图谱中分别包含的各实体分别进行处理,得到所有实体的时间感知表示。从某一个实体的角度来说,此时该实体的时间感知表示和该实体的邻居实体的时间感知表示均已经获得。
56.在一具体的应用场景中,综合实体投影至各目标时间超平面的第一投影表示得到实体的时间感知表示,可以通过对实体投影至各目标时间超平面的第一投影表示求取平均值而实现。一实体的时间感知表示可以为实体投影至各目标时间超平面的第一投影表示的均值,邻居实体的时间感知表示为邻居实体投影至各目标时间超平面的第一投影表示的均值。可以体现为如下公式:(3)其中,表示实体的时间感知表示,代表该实体对应的目标时间超平面集合,s为该集合的大小。实体i、j的实体表示分别为和,利用式1或式2计算得到的第一投影表示分别为和,利用式3计算得到实体i、j的时间感知表示分别为
和。
57.步骤s4222:基于实体和邻居实体的时间感知表示,确定邻居实体的注意力系数。
58.其中,邻居实体的注意力系数可以在利用邻居实体的时间感知表示更新实体的实体表示时,作为邻居实体的时间感知表示的加权系数。
59.邻居实体的注意力系数可以基于对实体和邻居实体在时域上的相关系数进行归一化处理而得到。具体地,基于实体和邻居实体的时间感知表示,确定实体和邻居实体在时域上的相关系数,对邻居实体对应的相关系数进行归一化处理。
60.在一具体的应用场景中,实体i表示中心实体,j表示该中心实体的邻居实体,实体i有若干个邻居实体j,实体i、j的时间感知表示分别为和,通过如下式可以计算得到实体i和邻居实体j在时域上的相关系数:(4)其中,表示实体i和其邻居实体j之间的相关系数,表示实体i的邻居实体集合,代表向量拼接,表示将高维特征转化为具体的实数。
61.(5)其中,表示实体i和其邻居实体j之间的注意力系数。
62.需要说明的是,对于实体i来说,与每一个邻居实体j均计算相关系数,对所有邻居实体j的相关系数归一化处理,得到其与每一个邻居实体j之间的注意力系数。
63.在一些实施例中,通过上述一次操作能够得到实体i分别与每个邻居实体j之间的注意力系数,称为一组注意力系数。为了进行多组特征的提取,对实体i也可以通过k次类似操作,能够得到实体i与邻居实体j之间的k组注意力系数。
64.步骤s4223:利用实体的各邻居实体的注意力系数,对各邻居实体的时间感知表示进行加权处理,得到实体经更新的实体表示。
65.在一具体的应用场景中,实体i为中心实体,利用其与邻居实体j之间的注意力系数对各邻居实体的时间感知表示进行加权处理,以对中心实体的实体表示进行更新。可以通过以下公式而实现:(6)其中,为更新后的实体i的实体表示。
66.在一些实施例中,若采用多组独立的注意力来进行加权求和,可以通过如下公式而实现:(7)
其中,对实体i和其邻居实体j来说,共有k组注意力系数,分别单独利用每组注意力系数加权求和后,对k组加权求和结果进行平均。
67.上述方案,通过构建时间超平面进行时间表示,通过将实体投影到时间超平面,以及基于邻居实体的表示而更新中心实体,将时间以及邻居结构信息融入实体表示中,提高实体表示的准确度。
68.请参阅图5,图5是本技术实体对齐方法另一实施例的流程示意图。
69.需要说明的是,本实施例中,实体对齐设备中可以预存有一对齐模型,实体对齐设备可以利用该对齐模型对第一知识图谱中包含的实体和第二知识图谱中包含的实体进行对齐。具体来说,实体对齐方法可以分为两个阶段,第一阶段为利用对齐模型进行训练,迭代实体的实体表示,具体可以包括以下步骤s510-步骤s550,第二阶段为利用迭代完成的实体表示进行实体对齐,具体可以包括以下步骤s560。
70.其中,对齐模型可以包括编码网络和解码网络,编码网络用于实现步骤s510-步骤s530,解码网络用于实现步骤s540-步骤s560。具体地,编码网络用于将关系结构与时间信息融入实体表示,编码网络可以为时间感知的图注意力网络(time-aware graph attention network)。
71.具体而言,该方法可以包括:步骤s510:基于第一知识图谱和第二知识图谱中包含的各知识中的时间,划分若干时间超平面。
72.步骤s520:基于实体初始的实体表示和实体的各目标时间超平面的平面表示,得到实体分别投影至各目标时间超平面的第一投影表示。
73.步骤s510和步骤s520的相关描述可以参考前述实施例中的相关内容,在此不做赘述。
74.步骤s530:基于实体及其邻居实体投影至各目标时间超平面的第一投影表示,得到实体经更新的实体表示。
75.具体来说,利用实体投影到各目标时间超平面的第一投影表示进行平均,得到实体的时间感知表示,利用中心实体和邻居实体之间的注意力系数,对邻居实体的时间感知表示进行加权求和,以更新中心实体的时间感知表示。
76.需要说明的是,对每个实体来说,在时间感知的图注意力网络中,基于邻居实体对其实体表示进行更新这一操作可以进行若干次。
77.在一些实施例中,在步骤s530之后,该实体对齐方法还可以包括:利用与目标关系相关的至少一个实体的实体表示和与目标关系相关的至少一个时间的时间表示,生成目标关系的关系表示。
78.其中,目标关系为目标知识中的关系,在一些实施例中,将第一知识图谱和第二知识图谱分别作为目标图谱,目标知识可以包括目标图谱中的所有知识,故此时,目标关系包括目标图谱中的所有关系。在目标图谱中,同一关系可能存在于多条知识中,与目标关系相关的实体为目标关系所在的知识中包含的实体,与目标关系相关的时间为目标关系所在的知识中包含的时间。时间表示为图谱中的各时间的各自的表示,初始的时间表示也可以是经随机初始化而得到的,时间表示和时间超平面的平面表示均为对时间信息进行的表示,时间表示为细粒度表示,平面表示为粗粒度表示。
79.在一具体的应用场景中,将与目标关系相关的至少一个实体表示的均值,与目标关系相关的至少一个时间的时间表示的均值之和,作为目标关系的关系表示。具体可以通过下式实现:(8)其中,为关系表示,表示与目标关系r相关的实体集合,为经时间感知的图注意力网络更新后的实体表示,表示与目标关系相关的时间集合,为时间表示,m和n分别表示集合和的大小。
80.步骤s540:利用经更新的实体表示,获取关于若干目标知识的结构损失以及获取关于若干目标实体对的对齐损失。
81.对齐模型的解码网络包括两个解码器,第一解码器用于实现打分函数,以用于得到结构损失,第二解码器用于实现距离函数,以用于得到对齐损失和用于进行对齐。
82.需要说明的是,对于一条知识来说,基于翻译模型的假设,将该知识投影到关联的时间超平面,投影后满足。基于上述假设,能够得到关于若干目标知识的结构损失,目标在于调整目标知识中头实体、尾实体和关系的实体表示以在投影后满足上述。
83.具体地,分别将第一知识图谱和第二知识图谱作为目标图谱,若干目标知识为目标图谱中的知识,若干目标知识可以包括目标图谱中的全部知识。每条目标知识对应有负样本知识,对于负样本知识来说,应当不满足上述假设,通过结构损失对目标知识和对应的负样本知识的学习,可以用于对实体表示进行调整。
84.其中,对一条目标知识来说,其对应的负样本知识是利用目标知识所在的目标图谱中的任意其他实体,替换目标知识中的头实体或者尾实体而得到。
85.在一些实施例中,也可以利用目标图谱中的任意两个其他实体,同时替换目标知识中的头实体和尾实体,或者,也可以利用目标图谱中的其他关系替换目标知识中的关系而得到对应的负样本知识。
86.进一步具体来说,待处理知识包括目标知识和其对应的负样本知识,对于每条待处理知识,利用其头实体、尾实体的实体表示和关系的关系表示,获得待处理知识中的头实体、尾实体和关系分别投影至待处理知识关联的时间超平面的第二投影表示。基于上述第二投影表示,得到待处理知识中头尾实体与关系之间的第一表示距离。基于各目标知识及其对应的负样本知识的第一表示距离之间的差异,得到结构损失。
87.其中,将头实体、尾实体投影至待处理知识关联的时间超平面得到第二投影表示,同样可以通过上述式1和式2来实现,其中,在利用式1和式2进行计算时,分别采用头实体和尾实体更新后的表示。将关系投影至待处理知识关联的时间超平面得到第二投影表示可以通过如下公式实现:(9)
其中,为关系r的关系表示,为关系r投影到待处理知识关联的时间超平面的第二投影表示。
88.在一具体的应用场景中,第一解码器实现的打分函数如下:(10)该公式可以用于计算待处理知识的第一表示距离,基于上述打分函数计算margin-based的结构损失,具体如下式:(11)其中,为超平面上存在的三元组集合,为超平面上不存在的三元组集合,为对目标知识进行打分得到的第一表示距离,为对目标知识对应的负样本知识进行打分得到的第一表示距离。对于每条目标知识和其对应的负样本知识分别进行计算,而后对若干目标知识进行加和,得到关于若干目标知识的结构损失。
89.需要说明的是,由于将第一知识图谱和第二知识图谱分别作为目标知识图谱,故对第一知识图谱中的若干目标知识可以计算得到第一结构损失,对第二目标知识图谱中的若干目标知识可以计算得到第二结构损失。
90.上述目标实体对包含两个预先确定具有对齐关系的实体,两实体分别来自于第一知识图谱和第二知识图谱。在理想情况下,目标实体对应具有相似的实体表示,故基于上述假设,能够得到关于若干目标实体对的对齐损失,目标在于调整实体表示以使具有对齐关系的实体对的实体表示趋近。
91.具体地,目标实体对存在对应的负样本实体对,负样本实体对不是相互对齐的,不满足上述两实体之间具有相似的实体表示,通过对齐损失对目标实体对和对应的负样本实体对的学习,可以对实体表示进行调整。
92.其中,对一目标实体对来说,包括分别来自第一知识图谱和第二知识图谱的两实体。其对应的负样本实体包含两个实体,同样分别来自第一知识图谱和第二知识图谱。负样本实体对可以通过对目标实体对中的一个实体,利用与该实体所属的知识图谱中的另一实体替换而得到,故负样本实体对中一个实体与目标实体对中的一个实体相同,另一个实体与目标实体对中的另一个实体不同且属于同一知识图谱。
93.进一步具体来说,待处理实体对包括目标实体对和对应的负样本实体对。对于各待处理实体对,基于待处理实体对中两个实体之间的实体表示的差异,获得待处理实体对的第二表示距离。基于各目标实体对和对应的负样本实体对的第二表示距离,得到对齐损失。
94.在一具体的应用场景中,第一知识图谱和第二知识图谱编码在不同的向量空间中,因此需要将第一知识图谱转化至第二知识图谱所在的向量空间中,第二解码器实现的距离函数如下:(12)
其中,和表示目标实体对,和分别为两实体的实体表示,该公式可以用于计算待处理实体对的第二表示距离,基于上述距离函数计算margin-based的对齐损失,具体如下式:(13)其中,为目标实体对集合,为负样本实体对集合,为目标实体对的第二表示距离,为负样本实体对的第二表示距离。对每一组目标实体对和对应的负样本实体对分别进行计算,而后对若干组进行加和,得到关于若干目标实体对的对齐损失。
95.步骤s550:基于结构损失和对齐损失,更新第一知识图谱和第二知识图谱中至少一个实体的实体表示。
96.具体来说,综合结构损失和对齐损失,从而得到最终的损失,用来更新第一知识图谱和第二知识图谱中至少一个实体的实体表示。
97.在一具体的应用场景中,可以通过如下公式得到最终的损失:(14)其中,结构损失可以包括第一知识图谱和第二知识图谱分别作为目标图谱而得到的第一结构损失和第二结构损失,为平衡系数,用于对结构损失和对齐损失进行加权平衡。
98.需要说明的是,最终的损失可以用来更新第一知识图谱和第二知识图谱中实体的实体表示、关系的关系表示和时间的时间表示,故相应地,由于时间超平面是对时间划分得到的,超平面的划分不改变,但由于时间表示的更新,时间超平面的平面表示也会跟随时间表示而更新。
99.可以理解的是,在实体对齐的第一阶段的过程中,由于数据集第一知识图谱和第二知识图谱不改变,基于图谱中的时间划分的时间超平面不会改变,故步骤s510可以仅执行一次。步骤s520-步骤s550可以重复执行若干次。示例性地,实体对齐设备执行步骤s520-步骤s530,正向传播对实体表示、关系表示等参数进行一次更新,实体对齐设备执行步骤s540-步骤s550,反向传播对实体表示、时间表示、关系表示等参数进行二次更新,完成一次训练,而后还可以返回步骤s520进行下一次训练,直到实体表示满足训练要求后停止训练。
100.步骤s560:基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐。
101.在一些实施例中,步骤s560可以通过如下步骤而实现:获取两个待对齐实体之间的实体表示的之间的相似度,基于两个待对齐实体对应的相似度,确定两个待对齐实体是否对齐,其中,两个待对齐实体中一者来自第一知识图谱,另一者来自第二知识图谱。
102.在一具体的应用场景中,利用第二编码器计算两实体表示之间的距离,该距离即可以用于表征两个待对齐实体之间的实体表示之间的相似度,距离越小,表示相似度越高。
若两实体表示之间的相似度满足一定要求,则可以确定两个待对齐实体是对齐的。
103.在一些实施例中,还可以利用其它相似度度量方法计算实体表示之间的相似度,例如,计算欧氏距离、余弦距离、马氏距离等。
104.在确定第一知识图谱和第二知识图谱中的所有实体最终的实体表示之后,第一知识图谱中的一个任意实体和第二知识图谱中的一个任意实体,均可以作为待对齐实体,依据两者实体表示之间的相似度判断两实体是否对齐。
105.需要说明的是,在利用时间超平面划分不同时域之后,在对待对齐实体进行对齐的过程中,待对齐实体的实体表示已经融入了其关联的时间信息。故实际上进行对齐时,并非是在两图谱之间进行对齐,而是依据时间信息在同一时域的内部进行对齐,大大缩小了对齐空间。
106.上述方案,通过粗细粒度对时间进行表示,以及基于邻居实体的表示而更新中心实体,将时间以及邻居结构信息融入实体表示中,提高实体表示的准确度;从而在进行对齐时,利用包含时间信息的实体表示进行对齐,仅在同一时域内部进行对齐,缩小了对齐空间,提高对齐效率和准确度。
107.请参阅图6,图6是本技术实体对齐装置一实施例的框架示意图。
108.本实施例中,实体对齐装置60包括划分模块61、表示模块62和对齐模块63。划分模块61用于基于第一知识图谱和第二知识图谱包含的各知识中的时间,划分若干时间超平面,每条知识基于知识中的时间与时间超平面关联;表示模块62用于对于第一知识图谱和第二知识图谱中的各实体,基于实体所在的知识所关联的时间超平面的平面表示和实体的邻居实体,确定实体的实体表示;对齐模块63用于基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐。
109.其中,划分模块61包括排列子模块和构建子模块,排列子模块用于将第一知识图谱和第二知识图谱中包含的时间进行排序,得到时间序列,构建子模块用于依据时间序列中的时间构建若干时间超平面。
110.其中,构建子模块用于依据时间序列中的时间构建若干时间超平面,具体包括:统计第一知识图谱和第二知识图谱中各时间出现的频次;依据频次之和满足预设频次要求的每组时间组,构建对应的一个时间超平面,其中每组时间组包括时间序列中连续的至少一个时间,不同组时间组包括的时间不同。
111.其中,表示模块62包括投影子模块和第一更新子模块,投影子模块用于将实体对应关联的至少一个时间超平面作为实体的目标时间超平面,基于实体初始的实体表示和实体的各目标时间超平面的平面表示,得到实体分别投影至各目标时间超平面的第一投影表示,第一更新子模块用于基于实体及其邻居实体投影至各目标时间超平面的第一投影表示,得到实体经更新的实体表示。
112.其中,第一更新子模块包括综合单元、确定单元和加权单元,其中,综合单元用于综合实体投影至各目标时间超平面的第一投影表示,得到实体的时间感知表示,以及,综合实体的各邻居实体投影至各目标时间超平面的第一投影表示,得到各邻居实体的时间感知表示;确定单元用于对于实体的各邻居实体,基于实体和邻居实体的时间感知表示,确定邻居实体的注意力系数;加权单元用于利用实体的各邻居实体的注意力系数,对各邻居实体的时间感知表示进行加权处理,得到实体经更新的实体表示。实体的时间感知表示为实体
投影至各目标时间超平面的第一投影表示的均值,邻居实体的时间感知表示为邻居实体投影至各目标时间超平面的第一投影表示的均值。
113.其中,确定单元用于对于实体的各邻居实体,基于实体和邻居实体的时间感知表示,确定邻居实体的注意力系数,具体包括:基于实体和邻居实体的时间感知表示,确定实体和邻居实体在时域上的相关系数;对邻居实体对应的相关系数进行归一化处理,得到邻居实体的注意力系数。
114.其中,表示模块62还包括损失子模块和第二更新子模块,损失子模块用于利用经更新的实体表示,获取关于若干目标知识的结构损失以及获取关于若干目标实体对的对齐损失,若干目标知识的结构损失是基于各目标知识中的头实体、尾实体和关系之间的表示关系确定的,若干目标知识为目标图谱中的知识,目标实体对所包含的两个实体是预先确定具有对齐关系且分别来自第一知识图谱和第二知识图谱。第二更新子模块用于基于结构损失和对齐损失,更新第一知识图谱和第二知识图谱中至少一个实体的实体表示。
115.其中,损失子模块包括投影单元、第一表示单元和第一损失单元,投影单元用于对于每条待处理知识,基于待处理知识中的头实体和尾实体经更新的实体表示和关系的关系表示,获得待处理知识中的头实体、尾实体和关系分别投影至待处理知识关联的时间超平面的第二投影表示,待处理知识包括目标知识及其对应的负样本知识,第一表示单元用于基于待处理知识中的头实体、尾实体和关系的第二投影表示,得到待处理知识中头尾实体与关系之间的第一表示距离,第一损失单元用于基于各目标知识及其对应的负样本知识的第一表示距离之间的差异,得到结构损失。
116.其中,损失子模块还包括第二表示单元和第二损失单元,第二表示单元用于对于各待处理实体对,基于待处理实体对中两个实体之间的实体表示的差异,获得待处理实体对的第二表示距离,待处理实体对包括目标实体对和对应的负样本实体对,负样本实体对中的一个实体与对应的目标实体对中的一个实体相同,负样本实体对中的另一个实体与对应目标实体对中的另一个实体不同且属于同一知识图谱,第二损失单元用于基于各目标实体对和对应的负样本实体对的第二标识距离,得到对齐损失。
117.其中,第一更新子模块还包括关系单元,用于将目标知识中的关系作为目标关系;利用与目标关系相关的至少一个实体的实体表示和与目标关系相关的至少一个时间的时间表示,生成目标关系的关系表示,与目标关系相关的实体、时间分别为目标图谱中与目标关系属于同一知识的实体、时间。
118.其中,利用与目标关系相关的至少一个实体的实体表示和与目标关系相关的至少一个时间的时间表示,生成目标关系的关系表示,具体包括:将与目标关系相关的至少一个实体的实体表示的均值,与目标关系相关的至少一个时间的时间表示的均值之和,作为目标关系的关系表示。
119.其中,对齐模块63用于基于各实体的实体表示,对第一知识图谱和第二知识图谱之间的实体进行对齐,具体包括:获取两个待对齐实体之间的实体表示之间的相似度,两个待对齐实体分别来自第一知识图谱和第二知识图谱;基于两个待对齐实体对应的相似度,确定两个待对齐实体是否对齐。
120.上述方案,通过构建时间超平面以表示实体关联的时间信息,并且基于邻居实体对实体的表示的影响,利用时间信息和邻居实体的实体表示来确定实体表示,使得实体表
示更为准确,从而有利于利用实体表示准确计算实体之间的相似度,进而提高实体对齐的准确性。
121.请参阅图7,图7是本技术实体对齐设备一实施例的框架示意图。
122.本实施例中,实体对齐设备70包括存储器71、处理器72,其中存储器71耦接处理器72。具体地,实体对齐设备70的各个组件可通过总线耦合在一起,或者实体对齐设备70的处理器72分别与其他组件一一连接。该实体对齐设备70可以为具有处理能力的任意设备,例如计算机、平板电脑、手机等。
123.存储器71用于存储处理器72执行的程序数据以及处理器72在处理过程中的数据等。例如,实体表示、时间感知表示等。其中,该存储器71包括非易失性存储部分,用于存储上述程序数据。
124.处理器72控制实体对齐设备70的操作,处理器72还可以称为cpu(central processing unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由多个成电路芯片共同实现。
125.处理器72通过调用存储器71存储的程序数据,用于执行指令以实现上述任一实体对齐方法。
126.请参阅图8,图8是本技术计算机可读存储介质一实施例的框架示意图。
127.本实施例中,该计算机可读存储介质80存储有处理器可运行的程序数据81,该程序数据能够被执行,用以实现上述任一实体对齐方法。
128.该计算机可读存储介质80具体可以为u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等可以存储程序数据的介质,或者也可以为存储有该程序数据的服务器,该服务器可将存储的程序数据发送给其他设备运行,或者也可以自运行该存储的程序数据。
129.在一些实施例中,计算机可读存储介质80还可以为如图7所示的存储器。
130.以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献