一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于知识图谱补全的增量式多源实体解析方法与流程

2021-11-18 02:33:00 来源:中国专利 TAG:


1.本发明属于数据处理技术领域,具体涉及一种用于知识图谱补全的增量式多源实体解析方法。


背景技术:

2.知识图谱将许多实体及其属性和关系以及有关实体类型和关系类型的关联元数据物理地集成在类似图谱的结构中。知识图谱实体通常是从众多源中集成的,例如其他知识图谱或网页。初始知识图谱可以从单个源(例如,诸如dbpedia等预先存在的知识图谱)或多个源的静态集成来创建。知识图谱补全(或扩展)是指新实体和整个源的增量添加。添加新实体需要解决一些具有挑战性的任务,尤其是将新实体与知识图谱中已知的实体进行匹配和聚类的增量实体解析。
3.先前有关实体解析的大多数工作都是处理匹配来自一个或多个静态数据源的实体的静态实体解析。这种静态方法不足以将实体添加到使用中的知识图谱中,在该知识图谱中,大多数已经集成的实体在很大程度上不受新实体的影响,因此不必在每次更新时重新集成。多源实体的实体解析通常将匹配实体进行分组或聚类,然后可以使用这些簇来融合(合并)匹配实体的属性以获得对知识图谱的丰富实体描述。因此,增量实体解析需要为新实体更新这些实体簇。一个简单的方法是将一个新实体添加到最相似的现有集群中,或者在没有相似实体的情况下创建一个新集群。但是,这种方法通常对添加新实体的顺序有很强的依赖性。特别地,例如由于数据质量问题而导致的错误群集决策无法得到纠正,并且在添加新实体时可能导致进一步的错误。因此,总体实体解析质量可能比所有实体同时集成的批实体解析差很多。


技术实现要素:

4.为解决上述问题,本发明提出一种用于知识图谱补全的增量式多源实体解析方法。
5.本发明采用如下技术方案:
6.一种用于知识图谱补全的增量式多源实体解析方法,包括在增量式多源实体之间应用配对链接,导出相似度图谱;其中,所述相似度图谱用于将来自多个源的匹配实体进行分组,以形成实体集群;
7.采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。
8.进一步地,在增量式多源实体之间应用配对链接,导出相似度图谱的步骤中,包括步骤:
9.将源自现有源或源自新源的新实体作为输入工作流,输入已确定聚类的相似度图谱中进行迭代,输出已有的实体簇,新实体的组以及新创建的链接组成的分组相似图。
10.进一步地,所采用的聚类方法包括最大双向合并基方法和n

深度重新聚类法;其
中,所述最大双向合并基方法是通过判断,将新的增量式多源实体分配到相似的现有簇中,或形成新簇;所述n

深度重新聚类法是通过对现有聚类图谱进行重新聚类,以修复现有聚类,从而为新的增量式多源实体实现更好的聚类分配,其中n是用来控制被考虑重聚类的相似图的部分的参数。
11.进一步地,相似度图谱公式表示为g=(e,l);其中,e的顶点表示实体,l的边缘表示相似实体之间的链接的图;边缘具有指示相似度的相似度值(区间[0,1]中的实数)的属性;同一源的实体之间没有边缘。
[0012]
进一步地,聚类相似图谱cg是一个相似度图谱g,使得其所有实体都被聚类,相同的集群实体解析id被分配给同一簇的所有顶点。
[0013]
本发明涉及一种用于知识图谱补全的增量式多源实体解析方法,用于知识图谱补全对多源数据进行整合的增量实体解析,与以前的方法相比,目的是减少对添加新源和实体的顺序的依赖,为此考虑优化分配给实体集群的新实体集。本发明提出使用轻量级方法来修复实体簇,以纠正错误的簇,新方法集成在用于并行和可扩展的实体聚类的fam实体解析框架中,对实际工作负载的新方法进行详细评估显示了其有效性,特别是,修复方法优于其他的增量式方法,并且与批处理式实体解析相比,其质量达到了相同的水平,这表明其结果与添加新实体的顺序无关。
附图说明
[0014]
图1是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法的流程示意图;
[0015]
图2是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中增量实体解析的fam实体解析工作流程示意图;
[0016]
图3是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中分组相似度图谱样本示意图;
[0017]
图4是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中最大合并概念示意图;
[0018]
图5是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中链路输入示意图;
[0019]
图6是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中w/o新链路输入示意图;
[0020]
图7是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中新链路输入示意图;
[0021]
图8是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中融合聚类图谱的链路输入示意图;
[0022]
图9是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中融合聚类图谱的链路输出示意图;
[0023]
图10是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中最大双向合并示意图;
[0024]
图11是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中1


度聚类示意图;
[0025]
图12是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中图11的第二次增量输入后得到的结果示意图;
[0026]
图13是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中1

深度聚类输出示意图;
[0027]
图14是本发明提供的一种用于知识图谱补全的增量式多源实体解析方法中2

深度聚类输出示意图。
具体实施方式
[0028]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明做进一步的详细说明。应当理解,此外所描述的具体实施例仅用以解释本发明,但并不用于限定本发明。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都将属于本发明保护的范围。
[0029]
如图1所示,本发明提供了一种用于知识图谱补全的增量式多源实体解析方法,包括在增量式多源实体之间应用配对链接,导出相似度图谱;其中,所述相似度图谱用于将来自多个源的匹配实体进行分组,以形成实体集群;
[0030]
采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。
[0031]
进一步地,在增量式多源实体之间应用配对链接,导出相似度图谱的步骤中,包括步骤:
[0032]
将源自现有源或源自新源的新实体作为输入工作流,输入已确定聚类的相似度图谱中进行迭代,输出已有的实体簇,新实体的组以及新创建的链接组成的分组相似图。
[0033]
本发明提出了增量实体解析对fam实体解析的重要扩展。相应的工作流程如图2所示。该方法使用一个所谓的聚类相似图,即反映已确定聚类的相似度图。工作流的输入是源自现有源或源自新源的新实体的流,加上以前迭代中已经确定的聚类相似图。链接部分现在侧重于新实体,不在以前实体之间重新链接。我们还支持新实体之间的链接,在相似图中提供可能导致更好聚类结果的额外链接。链接的输出是由已有的簇和新实体的组以及新创建的链接组成的分组相似图组成。
[0034]
进一步地,所采用的聚类方法包括最大双向合并基方法和n

深度重新聚类法;其中,所述最大双向合并基方法是通过判断,将新的增量式多源实体分配到相似的现有簇中,或形成新簇;所述n

深度重新聚类法是通过对现有聚类图谱进行重新聚类,以修复现有聚类,从而为新的增量式多源实体实现更好的聚类分配,其中n是用来控制被考虑重聚类的相似图的部分的参数。
[0035]
增量聚类的输出是一个完全聚类的图。簇在融合组件中可选地进行融合,这样所有实体都由一个称为簇代表的单个实体来表示。融合可以提高链接效率,因为新实体仅需与簇代表进行比较,而不是与所有簇成员进行比较。另一方面,如果每个簇仅保留一个融合实体就会降低重聚簇的可能性。
[0036]
利用分布式执行框架apache flink实现了fam实体解析以及增量式实体链接和聚类的新方法。因此,所有匹配和聚类方法都可以在多台机器上并行执行。针对不同的数据集
和不同数量的工作机器对我们的方法进行评估。
[0037]
进一步地,相似度图谱公式表示为g=(e,l);其中,e的顶点表示实体,l的边缘表示相似实体之间的链接的图;边缘具有指示相似度的相似度值(区间[0,1]中的实数)的属性;同一源的实体之间没有边缘。
[0038]
分组相似度图是一个每个实体都可以与一个组或群集相关联的相似度图。群集实体具有其所属群集的群集id。分组相似图使我们可以将已经确定的群集与基础相似度图一起维护,以作为增量更改(例如添加新实体)的输入。分组相似度图还可以包括具有与其他实体的相似性链接的新实体。图3显示了具有四个组cg0,cg1,cg2,cg3和组g
new
以及新实体的分组相似性图。同一组的实体之间存在链接,即所谓的内部链接,而不同组的实体之间存在链接(内部链接),从而形成了组邻域。
[0039]
一个集群具有唯一的集群id,由一组用来表示同一真实世界对象的实体组成。在无重复源的假设下,我们要求源一致的簇,即簇中每个源至多有一个实体,使得所有簇成员来自不同的源。
[0040]
聚类相似图:聚类相似图cg是一个相似度图g,使得其所有实体都被聚类。相同的集群实体解析id被分配给同一簇的所有顶点。
[0041]
融合相似度图:融合相似度图是聚类相似度图,其中每个聚类仅由一个聚类代表表示。集群代表组合了原始集群成员的属性值,还记录了原始数据源的id作为出处信息。
[0042]
最大双向链路:来自源a的实体可能具有到源b的实体的多个链接。从这些链接中,具有最高相似性值的链接称为最大链路。如果一个链路是来自两侧的最大链路,则它是最大双向链路或强链路。在图4中,对于实体a1,到源b的最大链接是到实体b1的链接(相似度0.95)。对于b1,此链接也是最大的,因此它是最大双向链接。相比之下,c2和b1之间的链路仅是一侧(c2)的最大链接,而a1到b0之间的链接都不是任何一侧。
[0043]
n

深度近邻图:如果分组相似图中的一个组通过互连链接链路到其他组,则直接链接到该图的图称为1

深度近邻图。递归地,第n个深度l邻域中的1

深度邻域是(n 1)

深度邻域。
[0044]
增量实体解析限制了链接和类聚到新实体,而不是像批处理实体解析那样处理所有实体。同时,生成的链接和类聚质量应与批实体解析类似,这意味着添加实体的顺序在理想情况下应不影响质量。后一个要求是重新聚类的主要原因,因为错误的群集决策可能会影响进一步的群集决策,从而导致质量问题增加。
[0045]
增量实体解析包含链接和聚类的两个主要步骤。链接的输入是现有的聚集图和来自已知来源或来自新来源的一组新实体。为了说明,我们考虑一个运行中的示例,该示例包含来自四个来源的现有实体(如图5所示)和要集成的新实体(如图6所示)。与现实世界中的数据一样,实体属性在某种程度上是错误的。图5显示了聚类相似度图,该图表明先前的实体形成了四个名为cg0至cg3的聚类。颜色表示原始来源,每个簇每个源最多包含一个实体。
[0046]
对于新实体的链接,可以选择支持新实体之间的链接。虽然这引入了额外的计算,但是额外发现的链接可能会导致更好的集群。由于无重复源假设,如果所有新实体都来自同一源,则这种新输入链接是不适用的。为了限制比较的次数,可以应用阻塞密钥,并且只比较新实体与同一阻塞密钥的其他实体。对于运行示例,假定参数作为阻塞密钥(在配置中指定),在没有新输入链接的情况下,只将新实体与同阻塞密钥的先前实体进行比较。在新
输入链接的情况下,可将新的实体相互连接起来,例如用于阻塞密钥焓值。相似度在一个阈值以上(在配置中指定)的新实体之间的所有链接都将添加到相似度图中。
[0047]
聚类部分使用确定的分组相似度图和聚类配置作为输入。群集配置使用基方法之一或修复方法及其参数。输出是一个更新的集群图,其中包括了更新的集群中的新实体。
[0048]
当选择融合一个簇的所有实体来构建簇的代表时,以及当使用一个融合的相似图来代替一个簇的相似图时,所描述的过程是相似的。该图中实体数量的减少可以降低比较的数量,因此可以导致更高效的链接。图7显示了需要对新实体进行比较的运行示例的融合相似图。簇代表(融合实体)可以按属性包含原始实体的多个值。链接新实体时,我们可以选择仅链接到尚未包括同一源的实体的簇代表。例如,在图8中,不需要创建实体9和簇cg0之间的链接(用虚线表示),因为该簇已经包含一个相同源的实体。
[0049]
最大双向合并实体解析将新实体集成到已经存在的簇中,或为它们创建新的簇。该决定基于新实体与已聚类实体之间的最大链路(强链路)。在进行新输入链接的情况下,首先在链接的新实体之间进行预聚类以创建源一致的聚类,然后可能将其与现有聚类合并。没有新输入链接的情况可以看作是每个新实体形成一个单例集群的特殊情况。
[0050]
如果gg是由g
new
,cg
exist
和l
exist new
组成的分组相似度图,若一个新实体e
i
∈n和一个实体e
j
∈c之间存在一个最大双向链路l(e
i
,e
j
)∈l
exist new
,且两个簇n和c只有不同来源的实体,则最大双向方法将一个新簇n∈g
new
和一个已有簇c∈cg存在合并。因此,最大双向合并的实体解析为最大相似的现有簇分配一个新簇,只有在不违反源一致性的情况下才合并。对于图9中的示例,如果实体9和cg0的实体1之间的链接比与cg1的实体3的链接具有更高的相似性,则既不会将实体9分配给集群cg0,也不会分配给cg1。
[0051]
必须考虑对所选最大双向链接的进一步处理,最大双向链接只对固定的一对源保证最大实体相似度。因此,集群可能有多个引用不同源的实体的最大双向链接。因此,只要确保源一致性,就有可能合并两个以上的集群。对于图10中的示例,合并三个集群,包括cg6,cg7和cg3,因为从新实体11和12到现有实体7的链接都是最大双向链接,并且合并了所有关联簇(cg6,cg7和cg3)作为一个簇仍然保留了源一致性约束。当由于源一致性约束而无法合并两个以上的簇时,为每个现有簇cg
i
确定链接的新簇作为候选对象。这些候选簇根据链路相似度和聚类大小进行分类和处理,从而优先考虑合并到较高的相似性值和较大的候选聚类。
[0052]
图10给出了针对图9的分组相似度图的最大双向合并的算法。图10的左侧部分显示了对新实体进行预聚类后形成了簇cg4至cg7的结果。然后根据图10的中间部分所示,选取最大双向和可合并簇的链接(新簇cg4和cg5到簇cg0和cg2的链接会导致源不一致,从而被删除)。图10的右侧部分显示了最终的合并结果,其中包含六个而不是八个聚类。现有群集cg3链接到两个新群集cg6和cg7。假设两个链接具有相同的相似性值,则排序顺序将首先考虑较大的群集cg7并将其合并。然后考虑集群cg6并与cg3合并,因为保留了源一致性。图10的右半部分显示用6个簇代替8个簇表示最终的合并结果。现有的群集cg3与两个新的群集cg6和cg7相连。假设两个链接具有相同的相似度值,排序顺序将首先考虑更大的簇cg7并将其合并。然后考虑了群集cg6,并与cg3合并,因为源一致性被保留。
[0053]
对于融合后的簇,使用簇代表中的源信息,避免将新实体链接到包含同一源中已经有实体的簇。这导致了与最大双向方法对应的增量聚类结果。
[0054]
如果相应源中已经存在另一个实体,那么到目前为止描述的方法无法将新实体添加到现有集群中。这可能导致错误的集群决策,例如,如果之前添加的实体与其他集群成员的相似度小于新实体。n

深度重新聚类方案解决了这个问题,以获得更好的簇,并在很大程度上独立于添加新实体的顺序。同时,我们希望限制重新聚类的数量以保持良好的效率。
[0055]
该方法将g
new
中的新实体与现有聚类图cg存在的相邻重新聚类。参数n控制相邻簇及其实体重新考虑的深度,从而允许我们控制处理范围和关联开销。对于n=1,算法只重新评估与新实体直接相连的现有簇的实体。对于n=2,还将选择1

深度相邻的相邻元。使用静态聚类方案对分组的相似度图gg的选定部分g
new
和相邻元进行重新分组。
[0056]
算法1概述了此过程。在第1行中,确定直到深度n的邻域。第二行中,找到的相邻簇(包括它们的内部和相互连接)与新实体的子图g
new
的结合形成了要重新聚类的分组相似图的部分。在第3行中,应用静态聚类方案导致一组更新的簇。任何聚类算法都可以用于批量聚类。
[0057][0058]
图11说明了n=1时的算法。要重新聚类的输入部分由新图g
new
及其1

深度相邻簇(cg0至cg3)组成。输出(图6的右侧)表明,改变了前一个簇cg2,使得新的实体8被包含在同一个源中,而不是来自同一源的先前的实体6。
[0059]
图12显示了图11的输出为现有的聚类图和新实体的下一个增量(13、14和15)。通过执行1

深度重新聚类(1dr),将包含簇cg1和cg2以及新实体的一小部分图重新聚类。如图13所示,只修改了簇cg1,实体14和15创建了一个新的簇。对于相同的输入,与1深度重新聚类相比,选择n=2将结束对现有聚类图的较大部分的重新聚类。如图14所示,2

深度相邻簇cg4和1

深度相邻簇cg1和cg2被重新聚类修改。
[0060]
现实世界中的数据集成任务(例如知识图谱补全)需要高效且有效的增量方法来进行实体解析,而不是使用静态数据集上的批处理方法。我们为多源实体解析提出了几种新的增量方法,其中包括一种可以修复先前链接和簇决策的新方法。我们对来自不同领域的数据集的评估表明,增量方法比批处理实体解析快得多,并且效果相似。尤其是,引入的修复和重新聚类方法可以达到与批处理实体解析相同的质量,且速度仍要快得多。它的高
有效性也表明,与最大双向合并和以往修复方案等非修复方法相比,质量并不取决于新实体添加的顺序。
[0061]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献