一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于实体属性相似度的知识图谱数据融合方法与流程

2021-12-01 00:48:00 来源:中国专利 TAG:


1.本发明涉及人工智能和知识图谱技术领域,尤其涉及一种基于实体属性相似度的知识图谱数据融合方法。


背景技术:

2.近年来,知识图谱作为一种结构化储存人类知识的方式,越发得到学术界和工业界的重视。在实际业务中,由于单个知识图谱往往规模较小,往往需要组合使用多个知识图谱。但是不同源的知识图谱往往具有重叠的知识,为了解决这个问题,研究者已经对知识图谱融合技术进行了大量研究,以求将不同知识图谱融合为一个统一、一致、简洁的形式。
3.知识图谱融合技术的第一步是预处理,包括数据清洗与后续步骤准备两方面。数据清洗是为了保证数据的质量;后续步骤准备包括配置准备和数据准备,前者是为了生成适合输入知识图谱的继承规则并计算出合适的(超)参数,后者则是采取分块(blocking)技术提升融合效率。接下来的步骤是匹配,包括本体匹配(ontology matching)和实体对齐(entity alignment),其分别用于消除本体与实体层面的异构性。其中,本体匹配侧重于发现本体层面的相似与等价关系,实体对齐侧重于发现真实世界中相同对象的不同实例。其中,实体对齐是知识图谱融合的核心技术,最近几年已涌现了大批研究成果,目前主流的技术是基于实体特征相似度的实体对齐技术,这类方法基于实体属性的相似度对实体进行两两对齐,利用实体相似度评分将实体对齐问题转换成一个分类问题,即对于任意一个实体对,将其分为匹配、不匹配两类。
4.在传统概率模型的基础上,很多机器学习方法也被应用到实体对齐领域中,极大地提升了对齐的准确率。一些研究利用决策树、svm、集成学习等机器学习方法改进传统的分类模型,另一些研究利用条件随机场等模型有监督的训练距离函数,使相似的实体聚集到一起,以改善分类的效果。
5.目前,基于实体特征相似度的实体对齐方法在通用知识图谱已经得到了广泛的应用。但是对于细分领域知识图谱融合任务,这些图谱数据少且没有统一的架构,因此往往具有异构性强,缺失值多的特点,不同图谱中的实体几乎没有完全对应的特征,很难直接对实体特征相似度进行计算。


技术实现要素:

6.针对目前细分领域知识图谱融合难以进行实体特征相似度计算的问题,本发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:
7.s1,获取要进行融合的多个知识图谱数据;
8.从若干个网络数据源中利用网络爬虫技术爬取数据文件,并从中提取知识图谱数据,对提取的知识图谱数据,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,并将提取的知识图谱数据转化为实体

属性的结构化数据集d,即:
9.d={e1,e2,...e
t
},
[0010][0011]
上式中,e1,...e
t
分别表示结构化数据集d中所包含的t个实体数据,t为结构化数据集d中的实体数据的数量,分别代表第i个实体的n个属性值。
[0012]
结构化数据集d中的每条实体数据的属性信息遵从同一范式,即存在映射1≤i≤t,1≤j≤n,a
j
表示所有实体的第j个统一属性值,表示第i个实体的第j个属性;对所有指向同一个实体的数据进行标注,得到用于训练和测试的数据,构建映射ρ,当且仅当e
i
,e
j
指向同一实体时,其满足ρ(e
i
)=ρ(e
j
),e
i
,e
j
分别表示结构化数据集d中的第i个实体数据和第j个实体数据。
[0013]
s2,利用词向量余弦相似度对实体属性进行去重;
[0014]
s21,利用word2vec算法,获得每个实体属性名称文本的词向量表示;
[0015]
s22,对实体属性名称文本进行分块;
[0016]
在获得了实体属性名称文本的词向量表示后,计算任意两个实体属性的欧式距离,再对实体属性进行聚类,其具体步骤为:
[0017]
s221,选择初始化的k个实体属性作为初始的聚类中心,初始的k个聚类中心分别用c1,...,c
k
表示;
[0018]
s222,对于第l个聚类中心c
l
,其所对应的第l个类别记为集合class
l
,对于任意一个实体属性的词向量表示,计算其到每个聚类中心的距离,并根据计算得到的距离,将实体属性划分到与其距离最小的聚类中心所对应的类别中;
[0019]
s223,对于每个聚类中心,将聚类中心更新为其对应类别中包含的所有实体属性的词向量表示的平均值,该过程表示为:x为该类别中包含的实体属性的词向量表示,|class
l
|表示集合class
l
中所包含的实体属性的数量。
[0020]
s224,重复步骤s222、s223的两步操作,直到达到终止条件后终止分块过程,终止条件为,经过一定轮次后,聚类中心没有发生变化。所述的一定轮次,通常为500轮。
[0021]
s23,对步骤s22分块后的属性数据,筛选出重复的属性数据,实现属性去重;
[0022]
s3,对实体名称进行统一;
[0023]
利用网络百科维护的共指页面,获取到实体的别名信息。在获得实体的别名信息后,遍历所有实体名称,将所有实体名称统一为实体常用名。所述的共指页面,是网络百科中进行维护的用以将表述不同,但实际内容一致的搜索请求重定向至同一页面的一种页面。
[0024]
s4,对实体属性值进行简化,其具体包括:
[0025]
s41,当实体属性值为文本属性值时,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号,再去除文本属性值中的冗余部分,以对文本属性值进行简化;
[0026]
s42,当实体属性值为数值属性值时,构建数值属性值的正则表达式,提取数值属性值的数值大小和单位信息,对单位信息进行换算统一。
[0027]
s5,针对不同实体属性值,采用相应的相似度函数进行相似度计算;
[0028]
步骤s4对实体属性值进行简化后,得到的实体属性分为三类,分别是数值属性、文
本属性和布尔值属性,针对这三类属性采用相应的相似度函数进行相似度计算。
[0029]
s51,计算数值属性相似度;
[0030]
对于第i个实体数据和第j个实体数据的第k个数值属性和其相似度的计算公式为:
[0031][0032]
其中,表示第i个实体数据和第j个实体数据的第k个数值属性的相似度。
[0033]
s52,计算文本属性相似度;文本属性相似度的计算方法包括基于词向量和字向量的方法和基于编辑距离的方法;
[0034]
所述的基于词向量和字向量的方法,先将实体属性的文本数据进行分词,再将每个词用一个预训练好的向量进行表示,整条文本数据的向量表示通过对其包含的所有词的向量表示求平均得到,通过对两条文本数据的向量表示求方向余弦,得到文本属性的相似度。
[0035]
所述的基于编辑距离的方法,是指将两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,作为文本属性的相似度。所述的所需的最少编辑操作次数,通过动态规划方法进行求解。levenstein距离和jaro

winkler距离是两种编辑距离的定义方式。
[0036]
假设两个实体属性的文本数据分别为s1,s2,词嵌入操作为emb,则其基于词向量和字向量方法的相似度s
12
定义为
[0037][0038]
s53,计算实体类别属性相似度;
[0039]
给定两组实体数据e
i
,e
j
,对于这两组实体数据的第k个类别属性和其相似度的计算公式为:
[0040][0041]
其中,表示两组实体数据e
i
,e
j
的第k个类别属性的相似度。
[0042]
s6,训练决策树模型,根据实体各个属性相似度,采用训练好的平衡样本权重的决策树模型作为匹配器模型,判断不同实体是否匹配,其具体步骤包括,
[0043]
s61,通过实体属性特征选择,从所有实体属性中筛选出跟分类结果的相关性超过一定阈值的实体属性特征。
[0044]
s62,从决策树模型的根节点出发,对于每一种属性特征,根据该属性特征的特性将一个标签集划分为两个。遍历每种特征对应的所有划分方式,对每种划分方式,分别计算其划分一个标签集后得到的两个标签集合的gini不纯度;gini不纯度用以衡量集合的混杂程度,对于一个包含了j个标签类别的集合g,其gini不纯度的计算公式为:
[0045][0046]
其中i
g
为集合g的gini不纯度,p
i
为第i个标签类别在集合g中出现的频率,且有1≤i≤j。划分方式的gini不纯度为其划分出的两个标签集合的gini不纯度,按照每个标签集合所包含的元素数量为权重,对所有标签集合进行加权求和后得的平均值。选取gini不纯度最小的划分方式作为对该实体属性特征的最佳划分。
[0047]
s63,选择最佳划分对应的实体属性特征作为子节点的节点特征,根据该节点特征对应的划分方式建立子节点。
[0048]
s64,对每个子节点使用步骤s62和s63中的方式,生成新的子节点,直到子节点的节点特征对应的最佳划分方式的gini不纯度大于某一阈值或者步骤s63中没有实体属性特征可选择为止,从而到达叶节点处,得到分类结果,并确保每个叶节点都对应一种分类结果。
[0049]
在利用决策树模型,根据属性相似度判断不同实体是否匹配时,数据集为s5步骤计算出的相似度数据,标签值为对步骤s1中获取知识图谱数据进行标注后得到的对齐数据。
[0050]
本发明的有益效果为:
[0051]
本发明应用多种特征工程方法对实体属性值清洗和扩充,然后采用决策树模型进行实体对齐,解决了细分领域知识图谱融合难以进行实体特征相似度计算的问题,速度快且准确率高。
附图说明
[0052]
图1为基于实体特征相似度的知识图谱融合技术流程图。
具体实施方式
[0053]
为了更好的了解本发明内容,这里给出一个实施例。
[0054]
本发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:
[0055]
s1,获取要进行融合的多个知识图谱;
[0056]
s2,对属性进行去重,包括:
[0057]
s21,获得每个属性文本的词向量表示
[0058]
s22,对属性进行分块
[0059]
s23,对上一步分块后的属性数据进行人工筛选
[0060]
s3,利用搜索引擎共指界面对实体名称进行统一;
[0061]
s4,对属性值进行简化,包括:
[0062]
s41,对于文本属性,分词并去除停用词
[0063]
s42,对于数值属性,采用正则表达式匹配的方法,提取出(数值,单位)的二元组,并利用单位换算的先验知识,将同种属性的单位统一。
[0064]
s5,针对不同属性,采用不同相似度计算方法进行相似度计算
[0065]
s51,计算文本属性相似度
[0066]
s52,计算数值属性相似度
[0067]
s53,计算类别属性相似度
[0068]
s6,训练决策树模型,根据属性相似度判断是否不同实体是否匹配。
[0069]
本部分以无人机细分领域的知识图谱融合为例,说明本发明的步骤,图1是基于实体特征相似度的知识图谱融合技术流程图。具体包括如下步骤:
[0070]
s1,获取要进行融合的多个知识图谱数据;
[0071]
从若干个网络数据源(具体可从维基百科、百度百科、微信公众号、armyrecognition网站、openkg网站)中利用网络爬虫技术爬取数据文件,并从中提取知识图谱,,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,其中实体、关系、实体的三元组表示为(e,r,e),实体、属性、属性值的三元组表示为(e,a,a),并将得到的知识图谱转化为实体

属性的结构化数据集d,即:
[0072]
d={e1,e2,...e
t
},
[0073][0074]
上式中,e1,...e
t
分别表示结构化数据集d中所包含的t个实体数据,t为数据集d中的实体的数量,分别代表第i个实体的n个属性值。
[0075]
结构化数据d中的每条数据的属性信息遵从同一范式(即所有实体都具有属性a1,...,a
n
,假如实体在知识图谱中没有对应属性,则在结构化数据d中以空缺值表示),即存在映射1≤i≤t,1≤j≤n,a
j
表示所有实体的第j个统一属性值,表示第i个实体的第j个属性;同时,对所有指向同一个实体的数据进行标注,得到用于训练和测试的数据,从而构建映射ρ,其满足ρ(e
i
)=ρ(e
j
),当且仅当e
i
,e
j
指向同一实体,e
i
,e
j
分别表示结构化数据集d中的第i个实体数据和第j个实体数据。
[0076]
s2,利用词向量余弦相似度对实体属性进行去重;
[0077]
由于不同知识图谱、同一知识图谱中不同实体的属性命名方式不同,不同属性名称可能对应同一种属性(例如无人机长度、机长、长度、机身全长都指向同一个属性),因此需要属性去重。
[0078]
s21,利用word2vec算法,获得每个属性名称文本的词向量表示;
[0079]
词向量技术是指将自然语言中的词汇映射到实数向量,同时实数向量能保留原词汇的一定语义信息。生成词向量的一种常用算法是word2vec算法,word2vec是一种基于神经网络的方法,可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。
[0080]
s22,对实体属性进行分块;
[0081]
在获得了属性名称文本的词向量表示后,计算任意两个实体属性的欧式距离,再对实体属性进行聚类,其具体步骤为:
[0082]
s221,选择初始化的k个实体属性作为初始的聚类中心,初始的k个聚类中心分别用c1,...,c
k
表示;
[0083]
s222,对于第l个聚类中心c
l
,其所对应的第l个类别记为集合class
l
,对于任意一个实体属性的词向量表示,计算其到每个聚类中心的距离,并根据计算得到的距离,将实体
属性划分到其距离最小的聚类中心所对应的类别中;
[0084]
s223,对于每个聚类中心,将聚类中心更新为其对应类别中包含的所有实体属性的词向量表示的平均值,该过程表示为:x为该类别中包含的实体属性的词向量表示,|class
l
|表示集合class
l
中所包含的元素的数量。
[0085]
s224,重复步骤s222、s223的两步操作,直到达到终止条件后终止分块过程,终止条件为,经过一定轮次后,聚类中心没有发生变化。所述的一定轮次,通常为500轮。
[0086]
记n为属性数量,k为聚类中心数量,直接对属性值进行两两比较去重,其复杂度为o(n2);使用基于词向量的k

means聚类算法将属性分为k类,可以认为只有同属一类的属性才有可能是相同的,这样去重的复杂度为可以看到采用分块技术大大降低了人工筛选的复杂度。
[0087]
s23,对步骤s22分块后的属性数据,筛选出重复的属性数据,实现属性去重;
[0088]
将属性进行去重后,选取其中最主要的10种属性用于下一步实体对齐操作。这10类分别为:名称、速度、机身宽度、机身长度、机身高度、描述、生产厂商、生产或装备国家、续航时间、航程。
[0089]
s3,对实体名称进行统一;
[0090]
实体名称是进行实体对齐的重要依据之一,同一实体往往会有不同的名称,进而影响相似度的计算。名称的不同一方面来自不同知识图谱命名习惯的不同(如彩虹七型无人机在另一个知识图谱中被称为彩虹

7),这类不同可以通过将文本转化为词向量加以解决(上例中“七型”和"

7"的词向量表示是相似的);另一方面,由于更复杂的原因,同一实体可能有文本上完全不同的名称(如彩虹七型无人机也被称为ch

7),即使将文本转化为词向量,也无法准确获得其相似度,这时就需要运用外部知识,如借助网络百科等页面中的数据进行实体名称统一,假如某实体名称为该页面提到的别名之一,就将其改为对应的常用名。
[0091]
利用网络百科(如维基百科,百度百科)维护的共指页面,获取到实体的别名信息,共指页面储存有实体的别名信息。在获得别名信息后,遍历所有实体名称,将所有实体名称统一为实体常用名。所述的共指页面,是网络百科中进行维护的用以将表述不同,但实际内容一致的搜索请求重定向至同一页面的一种页面。
[0092]
s4,对实体属性值进行简化,具体包括:
[0093]
s41,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号,再去除文本属性值中的冗余部分,以对文本属性值进行简化;
[0094]
以无人机文本属性值为例,世界主要军用无人机命名都遵循机型 代号的命名方式(例如ch

1长虹1号中型战术无人机中ch

1是代号,长虹1号是机型),但是原始数据中无人机名称往往具有冗余部分(例如中型战术无人机),直观上无人机的机型和代号是对无人机进行实体对齐的主要依据,因此基于正则表达式方法从名称中提取出机型和代号,作为两个新的属性;同时注意到名称冗余部分能提供的信息很少(例如无人机几乎会在每条数据的名称属性中出现),因此我们去除了名称中的冗余部分。
[0095]
s42,构建数值属性值的正则表达式,提取数值属性值的数值大小和单位信息,对单位信息进行换算统一。
[0096]
以无人机数值属性值为例,对于属性中的速度、机身宽度、机身长度、机身高度、续航时间、航程这几个属性,我们只关心其数值大小和单位,但在原始数据中这些属性经常以文本 数值的属性出现(例如长度为1.2米,我们只希望得到1.2米作为属性),因此我们基于正则表达式方法提取出数值大小和单位信息。同时,由于数值信息的单位往往不同(例如机身长度属性的单位可能是米、厘米、英尺等),我们基于单位换算的先验知识,对单位进行统一。
[0097]
s5,针对不同实体属性值,采用相应的相似度计算方法进行相似度计算;
[0098]
步骤s4对实体属性值进行简化后,得到的实体属性可以分为三类,分别是数值属性(速度、机身宽度、机身长度、机身高度、续航时间、航程),文本属性(名称、生产厂商、生产或装备国家、代号、机型)和布尔值属性(是否超音速),针对这三类属性需要采用不同的相似度函数进行计算。
[0099]
s51,计算数值属性相似度;
[0100]
对于第i个实体数据和第j个实体数据的第k个数值属性和其相似度的计算公式为:
[0101][0102]
其中,表示第i个实体数据和第j个实体数据的第k个数值属性的相似度。
[0103]
s52,计算文本属性相似度,文本属性相似度的计算方法包括基于词向量和字向量的方法和基于编辑距离的方法;
[0104]
所述的数值属性相似度和布尔值属性相似度的定义都是很直观的,但是文本属性并不能直观地得到相似度。计算文本相似度的方法大致可以分为两类,一类是基于词向量和字向量的方法,另一类是基于编辑距离的方法。
[0105]
所述的基于词向量和字向量的方法,先将文本数据进行分词,再将每个词用一个预训练好的向量进行表示,从而整条文本数据的向量表示用其包含的所有词的向量表示求平均得到。这种方法的优点在于每个词的向量表示具有一定语义信息,而且将文本进行向量表示后可以直接利用余弦相似度等方法计算距离,缺点在于分词得到的词汇并不一定能找到对应的向量表示,且词汇在预训练文本中的语义与文本数据中的语义也不能保证是相同的。
[0106]
所述的基于编辑距离的方法,是指将两个字符串之间,由一个字符串转成另一个字符串所需的最小编辑操作次数,作为文本属性的相似度。编辑距离,是指两个字符串之间,由一个字符串转成另一个字符串所需的编辑操作次数。所述的所需最小的编辑操作次数,通过动态规划进行求解。基于编辑距离的方法假设编辑距离较小的字串之间相似度较高。levenstein距离和jaro

winkler距离是两种编辑距离定义方式,其中jaro

winkler距离更加突出了前缀相同的重要性。这种方法的优点在于算法简单,缺点是不能捕捉文本的语义信息。
[0107]
为了确定最适合无人机领域实体对齐的文本相似度计算方法,我们对上述两种方法进行了实验。我们选用在维基百科上训练的300维字向量和词向量,并采用余弦相似度作
为向量相似度的比较方法。假设两个文本数据分别为s1,s2,词嵌入操作为emb,则其基于词向量和字向量方法的相似度s
12
定义为
[0108][0109]
注意到余弦相似度大于0而小于1,为了使两种方法的结果具有可比性,记s1,s2的编辑距离为dis(s1,s2),len为求字符串长度操作,我们对编辑距离作如下变换,将其也放缩到[0,1]区间:
[0110][0111]
s53,计算实体类别属性相似度;
[0112]
给定两组实体数据e
i
,e
j
,对于这两组实体数据的第k个类别属性和其相似度的计算公式为:
[0113][0114]
其中,表示两组实体数据e
i
,e
j
的第k个类别属性的相似度。
[0115]
s6,训练决策树模型,根据实体各个属性相似度,判断不同实体是否匹配;
[0116]
采用平衡样本权重的决策树作为匹配器模型。决策树是一种基于if

then

else规则的有监督学习算法。对决策树模型进行训练时,首先通过特征选择,筛选出跟分类结果具有最高相关性的特征,再从决策树模型的根节点出发,对决策树模型的节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;对每个子节点使用相同的方式生成新的子节点,直到信息增益小于某一阈值或者没有特征可以选择为止。利用决策树模型进行预测时,在决策树模型的内部节点处用某一属性值进行判断,根据判断结果决定进入哪个分支节点,直到到达叶节点处,得到分类结果。针对数据集样本不平衡(正例远远少于负例)的特点,在训练时对样本权重进行平衡,增加正样本的权重,减小负样本的权重。
[0117]
s61,通过特征选择,从所有实体属性中筛选出跟分类结果具有较高相关性的属性特征。
[0118]
s62,从决策树模型的根节点出发,对于每一种特征,根据该特征将一个标签集划分为两个。遍历每种特征对应的所有划分方式,对每种划分方式,分别计算其划分后得到的两个标签集合的gini不纯度;gini不纯度用以衡量集合的混杂程度,对于一个包含了j个类别的集合g,其gini不纯度的计算公式为:
[0119][0120]
其中i
g
为集合g的gini不纯度,p
i
为第i个类别在集合g中出现的频率,且有1≤i≤j。划分方式的gini不纯度为其划分出的两个标签集合gini不纯度,按照标签集合所包含的元素数量为权重,对所有标签集合进行加权求和后得的平均值。选取gini不纯度最小的划
分方式作为对该实体属性的最佳划分。
[0121]
s63,选择最佳划分对应的特征作为节点特征,根据该特征对应的划分方式建立子节点。
[0122]
s64,对每个子节点使用步骤s62中方式,生成新的子节点,直到子节点对应特征的最佳划分的gini不纯度大于于某一阈值或者步骤s63中没有特征可以选择为止,从而到达叶节点处,得到分类结果,并确保每个叶节点都对应一种分类结果。
[0123]
利用决策树模型进行预测时,对于一条新实体数据,从根节点开始,用该节点对应的特征,得到对实体属性的最佳划分,根据最佳划分决定预测值所进入的分支节点,直到到达叶节点处,得到分类结果。
[0124]
针对数据集样本不平衡(正例远远少于负例)的特点,在训练时对样本权重进行平衡,增加正样本的权重,减小负样本的权重。
[0125]
在利用决策树模型,根据属性相似度判断不同实体是否匹配时,数据集x为s5步骤计算出的相似度数据,标签值y为s1步骤人工标注的对齐数据,其格式如表1所示。
[0126]
表1训练数据集格式表
[0127][0128]
为了定量的评价我们所提出的知识图谱融合技术,我们设计了一个无人机实体对齐任务,我们从多个数据源提取知识图谱,手工提取出其中的对齐实体,从中按照1:10的比例随机选取正样本对(对齐实体)和负样本对(不对齐实体),采取5折交叉检验之后的f1值作为评价指标。
[0129]
表2不同方法技术指标展示
[0130]
编号文本相似度计算方法f1值1余弦相似度(字向量)0.76422余弦相似度(词向量)0.89243余弦相似度(词向量 字向量)0.78224levenstein距离0.85785jaro

winkler距离0.83476levenstein距离 余弦相似度(词向量 字向量)0.92247jaro

winkler距离 余弦相似度(词向量 字向量)0.89628jaro

winkler距离 余弦相似度(词向量)0.90059levenstein距离 余弦相似度(词向量)0.9410
[0131]
如表2所示,实验结果表明在使用jaro

winkler距离 词向量余弦相似度,levenstein距离 词向量余弦相似度 字向量余弦相似度,levenstein距离 词向量余弦相似度作为文本相似度计算方法时,均可以在5折交叉检验中达到超过0.9的平均f1值。
[0132]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员
来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献