一种数据实体识别方法、装置、计算机设备及存储介质与流程

2022-07-23 13:33:05 来源：中国专利 TAG：

1.本发明涉及计算机软件技术领域，特别涉及一种数据实体识别方法、装置、计算机设备及存储介质。

背景技术：

2.实体识别(er)，也称为重复数据删除，实体消解或记录链接，是指识别指向同一现实世界实体的关系中的元组的过程。作为一种提升数据质量的重要方法，实体识别受到研究人员的广泛关注。我们将相关技术背景分类如下。
3.基于学习(ml)的工作：例如基于深度学习的er方法、基于主动学习的er方法和基于迁移学习的er方法；
4.附加依赖项：例如，建立在单表(关系)上的唯一性约束、附加依赖项(md)和匹配规则；
5.机器学习与逻辑规则混合的方法：例如，通过使用附加依赖项和匹配规则来对数据进行预处理，最后使用ml对数据进行判别。
6.为了进一步提升消解质量，现有技术提出collective er方法。相较于传统er方法，collective er方法在消解过程通过链接其他关系，考虑了更多的他表信息从而提高了消解准确率。为了提高er效率，当前通常使用滑动窗口技术和数据划分技术。其中滑动窗口首先对表中的元组进行排序，然后使用滑动窗口机制确定工作集，er运算仅发生在对应于同一窗口的数据元祖。数据分块首先通过主键将相似实体聚类为“不相交”的数据块，然后仅在每个块内进行成对比较。
7.并行实体消解：并行er算法已经在mapreduce(一种编程模型，用于大规模数据集(大于1tb)的并行运算)或mpc(一种反馈控制策略)下进行了研究。
8.综上来看，现有的实体消解方法具有如下不足或限制：
9.虽然人们早就认识到更准确的er需要将跨多个表的信息集成到一起(collective er)，但现有的数据质量规则难以表达collective er，并且collective er的计算复杂性问题也尚未得到解决。效率方面，传统滑动窗口技术或者数据划分技术均不再适用于collective er，因为它们针对的是同构元组表，而collective er则适用于多个表(关系)。传统的er虽然能够链接其他关系但是并不能通过使用之前推导出的匹配来识别新的匹配，从而限制了er质量。因此，如何提高实体识别的准确性和效率是本领域技术人员需要解决的问题。

技术实现要素：

10.本发明实施例提供了一种数据实体识别方法、装置、计算机设备及存储介质，旨在提高对数据的实体识别效率和精度。
11.第一方面，本发明实施例提供了一种数据实体识别方法，包括：
12.通过数据的关系模式和属性构建数据集；
13.对所述数据集中的谓词进行合取，并根据合取的谓词和数据的关系模式建立匹配规则；
14.基于所述匹配规则，采用mqo技术生成查询计划；
15.利用所述查询计划对实体数据集合进行匹配计算。
16.第二方面，本发明实施例提供了一种数据实体识别装置，包括：
17.数据集构建单元，用于通过数据的关系模式和属性构建数据集；
18.规则建立单元，用于对所述数据集中的谓词进行合取，并根据合取的谓词和数据的关系模式建立匹配规则；
19.计划生成单元，用于基于所述匹配规则，采用mqo技术生成查询计划；
20.匹配计算单元，用于利用所述查询计划对实体数据集合进行匹配计算。
21.第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的数据实体识别方法。
22.第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的数据实体识别方法。
23.本发明实施例提供了一种本发明实施例提供了一种数据实体识别方法、装置、计算机设备及存储介质，该方法包括：通过数据的关系模式和属性构建数据集；对所述数据集中的谓词进行合取，并根据合取的谓词和数据的关系模式建立匹配规则；基于所述匹配规则，采用mqo技术生成查询计划；利用所述查询计划对实体数据集合进行匹配计算。本发明实施例提出了扩展匹配依赖(mrls)作为实体消解的规则模型，同时提出了一种适用于mrls的并行实体消解算法per，即使用mrls作为匹配规则，以此达到高的准确率和可解释性，同时使用hypercube和mqo方法相结合降低通信和计算成本。除此之外，本发明实施例还设计了匹配算法的专用数据结构以加速算法执行并降低内存占用。
附图说明
24.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
25.图1为本发明实施例提供的一种数据实体识别方法的流程示意图；
26.图2为本发明实施例提供的一种数据实体识别方法中查询计划示意图；
27.图3为本发明实施例提供的一种数据实体识别方法的实验数据示意图；
28.图4为本发明实施例提供的一种数据实体识别装置的示意性框图。
具体实施方式
29.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
30.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
31.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
32.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
33.下面请参见图1，图1为本发明实施例提供的一种数据实体识别方法的流程示意图，具体包括：步骤s101～s104。
34.s101、通过数据的关系模式和属性构建数据集；
35.s102、对所述数据集中的谓词进行合取，并根据合取的谓词和数据的关系模式建立匹配规则；
36.s103、基于所述匹配规则，采用mqo技术生成查询计划；
37.s104、利用所述查询计划对实体数据集合进行匹配计算。
38.本实施例中，首先根据数据的关系模式和属性构建一数据集，然后在该数据集上合取谓词，即通过在规则中嵌入ml谓词对匹配依赖(mds)规则进行了扩展，得到扩展匹配依赖(mrls)，即所述匹配规则。基于所述匹配规则，通过mqo技术生成相应的查询计划，并以此进行匹配计算。
39.本实施例提出了扩展匹配依赖(mrls)作为实体消解的规则模型，同时提出了一种适用于mrls的并行实体消解算法per，即使用mrls作为匹配规则，以此达到高的准确率和可解释性，同时使用hypercube和mqo方法相结合降低通信和计算成本。除此之外，本实施例还设计了匹配算法的专用数据结构以加速算法执行并降低内存占用。
40.在一实施例中，所述步骤s101包括：
41.按照下式获取数据的关系模式：
42.r＝(r1,
…ri
,
…rm
)
43.式中，ri表示关系模式(a1:τ1,
…ai
:τi,
…an
:τn)，ai表示属性类型τi；
44.将所述数据集d表示为d＝(d1,
…di
,
…dm
)，其中di表示一种关系模式ri下的一个关系。
45.本实施例中，假设有一种数据模式r＝(r1,
…
,rm)，其中ri表示一种关系模式(a1:τ1,
…
,an:τn)，ai表示一个属性类型(域)τi。同时，一个数据集d表示为(d1,
…
,dm)，其中di表示一种关系模式ri下的一个关系。本实施例为每一个ri特别指定一个属性id，为ri下代表独立实体的每一条数据提供一个唯一标识符。
46.在一实施例，所述数据实体识别方法还包括：
47.按照下式对所述数据集中的谓词p进行设置：
[0048][0049]
式中，r(t)表示r的一个关系原子，即t是关系模式r下的一个元组变量；当t被r(t)绑定，a是关系模式r中的一个属性时，t.a表示元组变量t的属性a；在t.a＝c中，c表示属性a的取值域中的一个常量；在t.a＝s.b中，a∈r和b∈r'拥有同样的类型；m表示用于实体消解
的ml分类器，和是两个等长的属性向量；表示用于实体消解的ml分类器；
[0050]
将所述匹配规则φ中的变量赋值函数h，并将匹配规则φ中的每个关系原子r(t)绑定的元组变量t实例化映射成数据集d中的元组；
[0051]
若p为r(t)，t.a＝c或t.a＝s.b时，则按照一阶逻辑的标准语义进行关系演算的结果为真；
[0052]
若p为则当ml分类器m在时预测结果为“匹配”；
[0053]
若谓词合取x中的所有谓词p均满足时，则将函数设置为
[0054]
本实施例中，数据模式r相关的谓词定义如下：
[0055][0056]
表达元组的关系演算方式如下所示：
[0057]
(1)r(t)表示r的一个关系原子，即t是关系模式r下的一个元组变量；
[0058]
(2)当t被r(t)绑定，a是关系模式r中的一个属性时，t.a表示元组变量t的属性a；
[0059]
(3)在t.a＝c中，c表示属性a的取值域中的一个常量；
[0060]
(4)在t.a＝s.b中，t.a和s.b是可比较的，假设指定了r(t)和r'(s)，a∈r和b∈r'拥有同样的类型，特殊的是，t.id＝s.id是id谓词，表示t和s对应的两个实是匹配的；
[0061]
(5)m表示用于实体消解的ml分类器，和是两个等长的属体性向量，对应位置上的每一对属性都是可比较的。
[0062]
直观上，可以是任何一个训练好的用于实体消解的ml分类器，或是任何一种语义相似性检查模型。称此类m为ml谓词，如果预测和为“匹配”，则返回为“真”，否则返回“假”。
[0063]
另外，假设有一个符合数据模式r的数据集d，d上定义了规则φ。φ的变量赋值函数h，将φ中的每个关系原子r(t)绑定的元组变量t实例化映射成d中的元组。当下列条件满足时，称h满足一个谓词p，写为
[0064]
(1)如果p是r(t)，t.a＝c或t.a＝s.b，那么当按一阶逻辑的标准语义进行关系演算的结果为真；
[0065]
(2)如果p是那么当ml分类器m在时预测结果为“匹配”。
[0066]
对于r上的谓词合取x，当x中的所有谓词p都满足时，写为当一个数据集d对于一个规则φ的所有映射h都满足，若则称d满足φ，记作若d满足mrls规则集合σ中的每一条规则φ，称d满足一个mrls规则集合σ，记作
[0067]
在一实施例中，所述步骤s102包括：
[0068]
按照下式建立匹配规则φ：
[0069]
x
→
l
[0070]
式中，x是r上谓词的合取，l是形式为t.id＝s.id或)的谓词，其中，t和s在x中与关系模式进行了绑定；
[0071]
分别将x和l设置为所述匹配规则φ的前提条件和结果。
[0072]
本实施例中，定义r上的mrls规则φ为：
[0073]
x
→
l
[0074]
在这里，x是r上谓词的合取，l是形式为t.id＝s.id或的谓词，其中t和s在x中与关系模式进行了绑定。本实施例分别将x和l称为规则φ的前提条件和结果。之前工作mds可以表示为mrls:x
→
l的一种特例，其x由两个关系原子r1(t1)和r2(t2)，相等原子t.a＝s.b，相似性检查组成，而l为t1.id＝t2.id。mrls通过支持(a)ml谓词(b)常数谓词t.a＝c和(c)跨越多个关系的协同实体消解规则来扩展mds，而mds最多在两种关系上进行定义。
[0075]
在一实施例中，所述步骤s103包括：
[0076]
获取所述数据集的查询语句；
[0077]
采用mqo技术将所述查询语句分解为多个子查询；
[0078]
在多个子查询中查找搜索公共子查询，以生成有向无环图的查询计划。
[0079]
本实施例中，针对迭代(deep)和多表(collective)实体消解规则设计了一个数据划分算法hypart，以同时减少分布式计算环境下的通信成本和计算成本。该算法扩展了hypercube(hc)算法并将其与多查询优化(mqo)算法进行结合。目标是利用数据划分(partitioning)来代替对多表规则进行数据分块(blocking)。
[0080]
给定一组mrls和数据d，直观上可以通过将hc算法应用于每个mrls来划分d。但是，这样需要多次访问数据集d(每个mrls遍历一回)，当d的规模很大时，需要付出较高成本。
[0081]
多重查询优化(mqo)
[0082]
为了减少哈希函数计算，本实施例采用了mqo技术。给定一个数据集d上的多个cq查询语句q1,
…
,qk，mqo将生成一个查询计划，并在计算所有查询结果q1(d),
…
,qk(d)时尽可能多地共享中间结果。这里的查询计划是一个dag(有向无环图)，由数据访问和cq查询语句中的自然连接操作组成。直观上，mqo先将q1,
…
,qk分解为较小的子查询，查找搜索公共子查询，并为这些查询构建一个查询计划qp，如图2所示，设置5个如下所示的匹配规则：
[0083]
(1)φ1＝customers(tc)∧customers(t’c
)∧tc.name＝t’c
.name∧tc.phone＝t’c
.phone∧tc.addr.
[0084]
该规则表明如果customers tc以及t’c
拥有同样的名字、电话以及地址，则tc以及t’c
被视为现实世界的同一个人。
[0085]
(2)φ2＝products(t
p
)∧products(t’p
)∧t
p
.name＝t’p
.nameλm(t
p
.desc,t’p
.desc)
→
t
p
.id＝t’c
.i.
[0086]
该规则表明如果两个产品t
p
，t’p
有相同的名称和相似的描述，则匹配规则能够识别他们。该规则使用ml模型m来检查长文本描述的相似性。
[0087]
(3)φ3＝customers(tc)∧customers(t’c
)∧shops(ts)∧shops(t’s
)∧m(ts.name,t’s
.name)∧ts.er.
[0088]
该规则表明如果两家店有相同的电子邮件和相似的名字，并且如果他们的主人有相同的电话号码，它们被规则判定为一对匹配。
[0089]
(4)φ4＝customers(tc)∧customers(t’c
)∧orders(to)∧orders(t’o
)∧products(t
p
)∧products(t’p
)
[0090]
该规则识别两个客户，如果他们有相同的地址和相似的名称，而且，如果他们从同一家商店使用相同的ip地址购买相同的产品。该规则既适用于deep er，也适用于collectiveer。
[0091]
(5)φ5＝customers(tc)∧customers(t’c
)∧orders(to)∧orders(t’o
)∧tc.cno＝to.buyer∧tc.cno.
[0092]
该规则解释了ml模型。
[0093]
在一实施例中，所述数据实体识别方法还包括：
[0094]
按照共享关系原子数量对匹配规则设置第一顺序or；
[0095]
按照共享哈希函数的匹配规则的数量对数据集的谓词上设置第二顺序o
p
，并根据所述第二顺序为不同变量分配哈希函数；
[0096]
在哈希函数上设置第三顺序oh，按照所述第三顺序对不同变量进行排序。
[0097]
本实施例中，采用mqo来改善hc的性能。具体来说，首先，使用mqo技术为σ中的mrls查询生成一个执行计划qp。然后，根据qp分配哈希函数，使具有公共子查询的不同规则共享相同的哈希函数。这并不是一个见问题，原因如下：(1)需要一个策略来分配哈希函数，以便尽可能多地复用其计算结果。(2)对于不同的规则，应用相同哈希函数的元组可能没有发送给同一个计算节点，这是因为(a)计算节点被组织成超立方体的形式，(b)不同规则中的相同哈希函数可能对应于超立方体的不同维度，从而对应不同位置(即计算节点)。这样会在计算节点间产生冗余的通信成本。
[0098]
为了解决这些问题，本实施例引入了三种偏序关系。(1)在规则上施加一种顺序or，使共享更多关系原子(即共享更多哈希函数)的规则排名越靠前，并按照这种顺序对规则应用hc划分。(2)在谓词上施加一种顺序o
p
，使共享相应哈希函数的规则数量越多的谓词排名更靠前，并根据这个顺序给不同变量分配哈希函数。(3)在哈希函数上施加一种顺序oh，并按照此顺序对不同的变量进行排序。这样就可以将应用相同哈希函数的不同规则的元组发送给同一个计算节点。
[0099]
在一实施例中，所述步骤s104包括：
[0100]
根据t.a＝s.b创建一倒排索引，设置d指向d1或d2中的元组t’，其中，t或s表示关系d1或d2的元组变量，d为d1的属性a和d2的属性b中的共同取值d，t’.a＝d或t’.b＝d；
[0101]
对于ml谓词设置倒排索引从n
p
指向使有效的元组对t和s；
[0102]
对于id谓词t.id＝s.id，设置倒排索引从n
p
指向元组对t和s；
[0103]
对id谓词和ml谓词设置依赖关系h，其中一条依赖关系表示为l1∧l2∧
…
∧ln→
l，l和li(i∈[1,n])是id谓词或ml谓词之一；
[0104]
对所述实体数据集合设置等价关系，针对数据集d中的每一元组，设置等价类
[t.id]eid包含所有元组s，其中t.id＝s.id；
[0105]
结合所述倒排索引、依赖关系和等价关系对所述实体数据结合进行匹配计算。
[0106]
本实施例中，使用构建的查询计划qp计算匹配实体的集合γ，为了加速这个过程，在计算时尽可能重复使用中间结果。结果复用具有以下挑战：(a)当d很大时，存储qp生成的所有中间结果的成本太高。(b)与分别回答多个cq查询[44]不同，γ的计算是迭代的，前面不满足的id谓词或ml谓词可能会在后续计算过程中生效，因此必须在每一轮重新计算这些结果可能会变化的谓词。(c)id谓词具有传递性，即若t1.id＝t2.id且t2.id＝t3.id，则有t1.id＝t3.id，因此需要能够高效推断这种传递性的方法。
[0107]
本实施例使用以下数据结构来解决上述问题。
[0108]
(1)并不存储所有中间结果，而是动态地维护一组与qp中的节点n
p
相关的谓词p的倒排索引。(a)考虑t.a＝s.b，其中t(或s)是关系d1(或d2)的元组变量。对于d1的属性a和d2的属性b中的每个共同取值d，我们创建一个倒排索引，从d指向d1(或d2)中的元组t’，其中t’.a＝d(或t’.b＝d)。类似地，处理t.a＝c。(b)对于ml谓词倒排索引从n
p
指向使有效的元组对t和s。(c)对于id谓词t.id＝s.id，倒排索引从n
p
指向元组对t和s，其中t.id＝s.id不在γ中，但在计算过程中得到了验证。
[0109]
(2)为了避免重复计算相同的元组变量赋值，在id谓词和ml谓词上维护一组依赖关系h，其中一条依赖关系表示成l1∧l2∧
…
∧ln→
l的形式，l和li(i∈[1,n])是id谓词或ml谓词之一。一条依赖关系表示当所有谓词l1,l2,
…
,ln都满足时，可以推断出谓词l是满足的。在这里不考虑谓词t.a＝s.b和t.a＝c，因为它们的结果在递归过程中不会改变。
[0110]
对h的大小设置了限制。(a)使用预先定义的常数k来约束h中的依赖数量，k由可用内存大小确定；(b)每当谓词l被满足时，从h中所有依赖关系l1∧l2∧
…
∧ln→
l，因为这些依赖将不会再被用到。
[0111]
定义了在γ上定义了一个等价关系eid，以适应id谓词的传递性。即对于d中的每个元组，定义了一个等价类[t.id]eid包含所有元组s，其中t.id＝s.id可以由γ推断得出。
[0112]
在一具体实施例中，对本发明实施例提供的数据实体识别方法进行实验测试，如图3所示，图3中，tfacc和tpch分别是不同数据集名称的缩写，dmatch则是本发明实施例提供的数据实体识别方法的别称，accuracy表示准确率，varying dup表示可变重复，实验结果支持以下结论：
[0113]
(1)mrls通过支持deep er和collective er，本技术在所有数据集上平均高于所有竞争对手。
[0114]
(2)本发明实施例提出的方法比基于ml和基于规则的准确率分别提高23％和38％
[0115]
(3)在真实数据集上，本发明实施例提出的方法击败了deep er和collective er：分别提高了21％和32％。
[0116]
(4)本技术在大型数据集上具有可扩展性；使用16个计算节点对具有8个表和1500万元组的数据进行er运算，dmatch只需505秒。实验结果表明，它比所有对比方法快4.35倍。
[0117]
(5)dmatch具有良好的并行扩展性；当计算节点的数量从4增加到32时，执行效率平均提高4.02倍。
[0118]
(6)mqo技术改进了dmatch的性能，使其性能平均提高了43.4％。
[0119]
图4为本发明实施例提供的一种数据实体识别装置400的示意性框图，该装置400包括：
[0120]
数据集构建单元401，用于通过数据的关系模式和属性构建数据集；
[0121]
规则建立单元402，用于对所述数据集中的谓词进行合取，并根据合取的谓词和数据的关系模式建立匹配规则；
[0122]
计划生成单元403，用于基于所述匹配规则，采用mqo技术生成查询计划；
[0123]
匹配计算单元404，用于利用所述查询计划对实体数据集合进行匹配计算。
[0124]
在一实施例中，所述数据集构建单元401包括：
[0125]
数据模式获取单元，用于按照下式获取数据的关系模式：
[0126]
r＝(r1,
…ri
,
…rm
)
[0127]
式中，ri表示关系模式(a1:τ1,
…ai
:τi,
…an
:τn)，ai表示属性类型τi；
[0128]
数据集表示单元，用于将所述数据集d表示为d＝(d1,
…di
,
…dm
)，其中di表示一种关系模式ri下的一个关系。
[0129]
在一实施例中，所述数据实体识别装置400还包括：
[0130]
谓词设置单元，用于按照下式对所述数据集中的谓词p进行设置：
[0131][0132]
式中，r(t)表示r的一个关系原子，即t是关系模式r下的一个元组变量；当t被r(t)绑定，a是关系模式r中的一个属性时，t.a表示元组变量t的属性a；在t.a＝c中，c表示属性a的取值域中的一个常量；在t.a＝s.b中，a∈r和b∈r'拥有同样的类型；m表示用于实体消解的ml分类器，和是两个等长的属性向量；表示用于实体消解的ml分类器；
[0133]
映射单元，用于将所述匹配规则φ中的变量赋值函数h，并将匹配规则φ中的每个关系原子r(t)绑定的元组变量t实例化映射成数据集d中的元组；
[0134]
演算单元，用于若p为r(t)，t.a＝c或t.a＝s.b时，则按照一阶逻辑的标准语义进行关系演算的结果为真；
[0135]
预测单元，用于若p为则当ml分类器m在时预测结果为“匹配”；
[0136]
函数设置单元，用于若谓词合取x中的所有谓词p均满足时，则将函数设置为
[0137]
在一实施例中，所述规则建立单元402包括：
[0138]
匹配规则建立单元，用于按照下式建立匹配规则φ：
[0139]
x
→
l
[0140]
式中，x是r上谓词的合取，l是形式为t.id＝s.id或)的谓词，其中，t和s在x中与关系模式进行了绑定；
[0141]
条件和结果设置单元，用于分别将x和l设置为所述匹配规则φ的前提条件和结果。
[0142]
在一实施例中，所述计划生成单元403包括：
[0143]
语句获取单元，用于获取所述数据集的查询语句；
[0144]
语句分解单元，用于采用mqo技术将所述查询语句分解为多个子查询；
[0145]
查找搜索单元，用于在多个子查询中查找搜索公共子查询，以生成有向无环图的查询计划。
[0146]
在一实施例中，所述数据实体识别装置400还包括：
[0147]
第一顺序设置单元，用于按照共享关系原子数量对匹配规则设置第一顺序or；
[0148]
第二顺序设置单元，用于按照共享哈希函数的匹配规则的数量对数据集的谓词上设置第二顺序o
p
，并根据所述第二顺序为不同变量分配哈希函数；
[0149]
第三顺序设置单元，用于在哈希函数上设置第三顺序oh，按照所述第三顺序对不同变量进行排序。
[0150]
在一实施例中，所述匹配计算单元404包括：
[0151]
索引创建单元，用于根据t.a＝s.b创建一倒排索引，设置d指向d1或d2中的元组t’，其中，t或s表示关系d1或d2的元组变量，d为d1的属性a和d2的属性b中的共同取值d，t’.a＝d或t’.b＝d；
[0152]
第一指向单元，用于对于ml谓词设置倒排索引从n
p
指向使有效的元组对t和s；
[0153]
第二指向单元，用于对于id谓词t.id＝s.id，设置倒排索引从n
p
指向元组对t和s；
[0154]
关系表示单元，用于对id谓词和ml谓词设置依赖关系h，其中一条依赖关系表示为l1∧l2∧
…
∧ln→
l，l和li(i∈[1,n])是id谓词或ml谓词之一；
[0155]
等价关系单元，用于对所述实体数据集合设置等价关系，针对数据集d中的每一元组，设置等价类[t.id]eid包含所有元组s，其中t.id＝s.id；
[0156]
结合计算单元，用于结合所述倒排索引、依赖关系和等价关系对所述实体数据结合进行匹配计算。
[0157]
由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。
[0158]
本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccess memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0159]
本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。
[0160]
说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以对本技术进行若干改进和修饰，这些改进和修饰也落入本技术权利要求的保护范围
内。
[0161]
还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于工业数据模型的异构数据存储方法、装置及设备与流程

一种数据实体识别方法、装置、计算机设备及存储介质与流程

相关文献

最热文献