中文通用概念图谱纠错装置的制作方法

2021-10-22 22:15:00 来源：中国专利 TAG：图谱知识纠错质量控制中文

1.本发明属于知识图谱质量控制领域，具体涉及一种中文通用概念知识图谱的纠错装置。

背景技术：

2.概念图谱是一类专注于实体与概念之间isa关系的知识图谱。概念图谱包括3种元素：实体、概念和isa关系。其中isa关系又可以细分为实体与概念之间的instanceof关系(例如，苹果是一种水果)以及概念与概念之间的subclass关系(例如，水果是一种食物)。概念图谱在文本分类、实体推荐和规则挖掘等任务中具有重要应用。但概念图谱的构建往往采用从互联网语料库中自动抽取isa关系的方法，难免被噪音干扰从而产生错误上下位关系，因此概念图谱纠错就是从千万级isa关系中移除错误的isa，提升概念图谱的准确率。
3.现有的技术中，概念图谱纠错方法可以分为两类：
4.1)基于embedding的方法。该方法首先从互联网中爬取大规模语料库，并应用webisa，patternsim等词汇句法规则抽取isa关系，并对应现有概念图谱，通过poincare embedding的方式计算概念图谱中isa关系的置信度，最终移除置信度较低的isa关系。
5.2)基于不兼容概念对的方法。该方法的核心思想是对于同属于一对冲突概念对的实体，至少有一个isa关系是错误的。例如在概念图谱中，既有(阿里影业isa公司)又有(阿里影业isa电影)，由于“公司”和“电影”是一对不兼容概念，因此至少有一个isa关系是错误的。该方法可以分为两个阶段，阶段1是构建不兼容概念对，阶段2是移除错误isa关系。其中不兼容概念对的构建的方法有杰拉德距离、余弦相似度、海明距离，移除错误isa关系有基于频度和基于属性kl散度的方法。
6.在上述概念图谱纠错的技术中，基于embedding的方法需要抽取大量语料，并使用词汇句法规则抽取isa关系，但由于爬取语料费时费力，且中文语法复杂，表达多样，缺少英文isa关系的抽取规则，此外通过embedding的方式移除的错误isa关系具有较低的准确度。而基于不兼容概念对的方法，阶段2移除错误isa关系中基于频度的方法由于中文概念图谱中的isa关系缺少对应的频度，因此难以依靠移除较低频度的isa关系实现错误isa关系的纠正；而基于属性kl散度的方法由于实体属性具有不同程度的重要性，对于部分实体不能有效区分哪个是错误isa关系，且由于大部分实体缺少属性信息，因此难以大规模地纠错。

技术实现要素：

7.为解决上述问题，提供一种能够在中文环境下对错误的isa关系进行高准确率的识别以及纠正的中文通用概念图谱纠错方法，本发明采用了如下技术方案：
8.本发明提供了一种中文通用概念图谱纠错装置，用于对中文通用的概念图谱中实体与概念之间的isa关系进行纠错，其特征在于，包括：概念图谱获取模块，用于获取概念图谱中所有的isa关系以及每个isa关系唯一对应的实体和概念；不兼容概念对构建模块，依次判断每两个概念是否兼容并基于所有不兼容的两个概念所共有的实体以及相应的isa关
系构建多组不兼容概念对，每一组不兼容概念对包含一个作为可疑实体的实体、作为待判定概念的两个概念以及作为待纠错isa关系的两个相应的isa关系；错误isa关系判定模块，依次基于每组不兼容概念对中的可疑实体以及待判定概念判定相应的两个待纠错isa关系中错误的一个；以及概念图谱纠错模块，用于在概念图谱中删除被判定错误的待纠错isa关系从而完成对概念图谱的纠错，其中，错误isa关系判定模块具有：百科词条判定部，获取可疑实体的百科词条的词条标签列表，并判定两个待判定概念是否同属于词条标签列表，若两个待判定概念中存在一个不属于词条标签列表，则进一步判定与不属于词条标签列表的待判定概念相对应的待纠错isa关系为错误的；以及半监督分类判定部，基于与待判定概念相对应的关键特征对可疑实体进行过滤，并基于预训练的bert分类器对剩余的可疑实体进行过滤从而判定出所有不兼容概念对中错误的待判定概念，进一步判定与错误的待判定概念相对应的待纠错isa关系为错误的。
9.本发明提供的中文通用概念图谱纠错装置，还可以具有这样的技术特征，其中，半监督分类判定部具有：关键特征过滤单元，基于与待判定概念相对应的关键特征对可疑实体进行过滤，若可疑实体具有一个待判定概念的关键特征且不具有另一个待判定概念的关键特征，则判定可疑实体所不具有的关键特征所对应的待判定概念为错误的，每个待判定概念所对应的关键特征为预先获取，该关键特征的获取方法为：在预先获取的训练集中对与两个待判定概念所对应的下位实体属性进行计数，分别取n个频数最高且非两个待判定概念共有的下位实体属性分别作为相应待判定概念的关键特征。
10.本发明提供的中文通用概念图谱纠错装置，还可以具有这样的技术特征，其中，半监督分类判定部还具有：bert分类判断单元，存储有一个预训练的bert分类器，用于剩余的可疑实体依次输入bert分类器并得到每个可疑实体的所属概念的概率分布，并基于所属概念的概率分布判断可疑实体所对应的两个待判定概念中错误的一个。
11.本发明提供的中文通用概念图谱纠错装置，还可以具有这样的技术特征，其中，bert分类器采用transformer的双向编码器架构，堆叠多层的transformer块提取序列中token与token的深度关系，每个transformer块中通过多头注意力机制强化各token之间的语义关联，经过前馈网络层后获得transformer层的输出。
12.本发明提供的中文通用概念图谱纠错装置，还可以具有这样的技术特征，其中，不兼容概念对构建模块通过使用minijaccard系数和概念属性分布相似度构建不兼容概念对，minijaccard系数为：式中，|c1|,|c2|分别表示概念c1,c2的下位实体数量，|c1∩c2|表示概念c1,c2共有的下位实体的数量，概念属性分布相似度cpd(c1,c2)为，式中，向量x,y分别是概念c1,c2的属性分布，概念c1,c2的兼容性表示为：的兼容性表示为：若兼容性p(c1,c2)低于预设的兼容性阈值，则不兼容概念对构建模块就基于概念c1,c2构建相应的不兼容概念对。
13.发明作用与效果
14.根据本发明的中文通用概念图谱纠错装置，由于通过不兼容概念对构建模块判定
概念图谱中各个概念之间的兼容性并构建出相应的多组不兼容概念对，因此可以快速地定位出概念图谱中所有可疑的上下位关系，使得错误isa关系判定模块可以依次对每组不兼容概念对进行判定并判定出错误的isa关系。其中，由于错误isa关系判定模块具有百科词条判定部以及半监督分类判定部，一方面，百科词条判定部可以通过检索可疑实体百科更新后的词条标签确定不兼容概念对中错误的isa关系，这种方式简单高效，可以快速识别少部分错误isa关系；另一方面，半监督分类判定部通过构建概念的关键特征识别部分可疑实体的上位概念从而确定错误的isa关系，并通过bert分类器对剩余部分的可疑实体进行识别从而确定错误的isa关系，可以精确地判定出不兼容概念对中错误的isa关系。因此，通过本发明的中文通用概念图谱纠错装置，可以对概念图谱中所有错误的不兼容概念对进行筛选以及纠错，实现消除概念图谱中错误的isa关系，从而形成高准确率的概念图谱，便于后续其他人员或是系统对该概念图谱进行有效地调用。
附图说明
15.图1是本发明实施例中中文通用概念图谱纠错装置的结构框图；
16.图2是本发明实施例中半监督分类判定部的半监督分类算法的流程图；以及
17.图3是本发明实施例中中文通用概念图谱纠错方法的流程图。
具体实施方式
18.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的中文通用概念图谱纠错方法作具体阐述。
19.<实施例>
20.本实施例中，中文通用概念图谱纠错装置100为一台预先存储有一个已经完成构建的概念图谱的计算机，用于对概念图谱中错误的isa关系进行自动纠错。
21.图1是本发明实施例中中文通用概念图谱纠错装置的结构框图。
22.如图1所示，中文通用概念图谱纠错装置100具体包括概念图谱获取模块101、不兼容概念对构建模块102、错误isa关系判定模块103、概念图谱纠错模块104以及用于控制上述各部的控制部105。
23.其中，控制部105存储有用于对中文通用概念图谱纠错装置100的各个组成部分的工作进行控制的计算机程序。
24.概念图谱获取模块101用于获取概念图谱中所有的isa关系以及每个isa关系唯一对应的实体和概念、
25.本实施例中，概念图谱通过isa关系表示一个实体以及一个概念之间的上下位关系(概念的下位是实体、实体的上位是概念)，实体、概念以及isa关系之间构成多个三元组(e，isa，c).
26.不兼容概念对构建模块102用于依次判断每两个概念是否兼容并基于所有不兼容的两个概念所共有的实体以及相应的isa关系构建多组不兼容概念对。
27.本实施例中，每个不兼容概念对包含一个作为可疑实体e的实体、作为待判定概念c1和c2的两个概念以及作为待纠错isa关系的两个相应的isa关系，即一组不兼容概念对包含两个三元组(e，isa，c1)与(e，isa，c2)。由于待判定概念c1和c2为不兼容概念，因此两个三
元组中必然存在一个错误的待纠错isa关系。例如，对于一对不兼容的概念“电影”与“公司”，存在实体“阿里影业”同属于这两个概念，说明必有一错误isa关系。
28.构建不兼容概念对的目的在于快速定位可疑上下位关系。通用概念图谱由于覆盖面广，往往具有数千万的isa关系，如何从数千万记录中确定错误上下位关系的位置，是第一步需考虑的问题。因此在本实施例中，不兼容概念对构建模块102采用minijaccard和概念属性分布相似度的f1值衡量两个概念之间的不兼容程度。具体地：
29.概念c1,c2的实体的重叠部分能够刻画概念对的相似性，用minijaccard来度量该相似度：
[0030][0031]
式中，|c1|,|c2|分别表示概念c1,c2的下位实体数量，|c1∩c2|表示概念c1,c2共有的下位实体的数量。
[0032]
概念c1,c2的实体属性的分布也能刻画概念对的相似性，概念的实体属性分布即下位实体的所有属性集合，概念属性分布相似度表示为cpd(c1,c2)，即：
[0033][0034]
式中，向量x,y分别是概念c1,c2的属性分布。
[0035]
概念c1,c2的兼容性表示为：
[0036][0037]
因此，通过对各个概念两两之间的兼容性进行计算后，不兼容概念对构建模块102就可以判断概念c
1,
c2的兼容性是否低于预设的兼容性阈值，进一步基于兼容性低于兼容性阈值的不兼容概念c1,c2构建相应的一组不兼容概念对。
[0038]
错误isa关系判定模块103用于依次基于每组不兼容概念对中的可疑实体以及待判定概念判定相应的两个待纠错isa关系中错误的一个。
[0039]
本实施例中，错误isa关系判定模块103的作用是确定错误的上下位关系，即对于同属于一对不兼容概念“电影”与“公司”的实体“阿里影业”，错误isa关系判定模块103需要判定出错误的isa关系(阿里影业，isa，电影)。为了保证判定isa关系的全面与准确，本实施例采用两种种判定方式实现错误上下位关系的发掘：百科更新支持、基于关键特征的半监督分类算法，相应地，错误isa关系判定模块103具有百科词条判定部31以及半监督分类判定部32。
[0040]
百科词条判定部31用于通过检索可疑实体百科更新后的词条标签确定不兼容上位词中错误的isa关系。
[0041]
概念图谱中的实体具有一个百科词条，词条中具有描述、属性与词条标签等信息，在概念图谱构建过程中，例如cn-probase，一个实体的上位词来源于描述的抽取、部分属性与词条标签。根据抽样发现，错误的上下位关系大部分来源于词条标签，由于概念图谱的构建时间较早，某些实体的词条标签已经经过人工修改，变得更加准确。因此首先检查实体的词条标签是否出现更新，以此获取部分错误上下位关系。
[0042]
具体地，百科词条判定部31会获取实体的百科词条的词条标签列表(例如可以通过爬虫爬取)，并判定两个待判定概念是否同属于词条标签列表，若两个待判定概念中存在一个不属于词条标签列表，则进一步判定与不属于词条标签列表的待判定概念相对应的待纠错isa关系为错误的。即，对于可疑实体e和待判定概念c1和c2，百科词条判定部31获取了可疑实体e的词条标签列表con_list，若概念c1属于con_list且概念c2不属于con_list，说明(e，isa，c2)是错误的上下位关系，应予删除，反之亦然。
[0043]
本实施例中，通过上述的百科更新支持(百科词条判定部31)可以快速判定少量错误isa关系，但大部分可疑实体的词条标签未发生变化，因此接下来还使用基于关键特征的半监督分类算法进行判定(半监督分类判定部32)。
[0044]
本实施例中，对于一对不兼容的待判定概念，如“电影”和“公司”，从概念图谱中各抽取两个概念的10000个下位实体组成训练集d。将同属一组不兼容概念对的可疑实体作为需判定的测试集a。
[0045]
图2是本发明实施例中半监督分类判定部的半监督分类算法的流程图。
[0046]
如图2所示，半监督分类判定部32通过基于关键特征的半监督分类算法依次判定出各组不兼容概念对中错误的待纠错isa关系，该半监督分类判定部32具有关键特征过滤单元32(a)以及bert分类判断单元32(b)以及isa关系判定部32(c)。
[0047]
关键特征过滤单元32(a)基于与待判定概念相对应的关键特征对可疑实体进行过滤。
[0048]
本实施例中，使用实体的属性作为可疑实体的特征，所谓关键特征即当一个实体拥有概念c1的关键特征时，则必然属于概念c1，例如对于实体“乔纳斯”，其对应的不兼容的待判定概念为“人物”和“游戏”，但由于实体“乔纳斯”具有属性“出生日期”，则实体必属于“人物”而非“游戏”。通过这种关键特征过滤的方式可以判定测试集a的部分错误isa关系，首先需要构建不兼容概念对的关键特征。
[0049]
该关键特征的获取方法为：在预先获取的训练集中对与两个待判定概念所对应的下位实体属性进行计数，分别取n个频数最高且非两个待判定概念共有的下位实体属性分别作为相应待判定概念的关键特征。
[0050]
例如，对于概念c1与概念c2，对训练集d中两个概念的下位实体属性进行计数，分别取10个频数最高且非两个概念共有的属性作为该概念的关键特征c1_list和c2_list。此时，关键特征过滤单元32(a)就可以根据该关键特征对可疑实体进行过滤，若可疑实体具有一个待判定概念的关键特征且不具有另一个待判定概念的关键特征，则判定可疑实体所不具有的关键特征所对应的待判定概念为错误的，即、若实体e具有概念c1的关键特征而无概念c2的关键特征说明实体e属于概念c1，(e，isa，c2)是错误的上下位关系，反之亦然。对于都有两个概念的关键特征或都无两个概念的关键特征的可疑实体，则不加过滤。
[0051]
通过上述关键特征过滤的方式可以过滤35％测试集a的可疑实体，且准确率为99％。
[0052]
bert分类判断单元32(b)存储有一个预训练的bert分类器，用于剩余的可疑实体依次输入bert分类器并得到每个可疑实体的所属概念的概率分布，并基于所属概念的概率分布判断可疑实体所对应的两个待判定概念中错误的一个。
[0053]
对于测试集a剩余65％的可疑实体，应用bert分类器对实体描述进行分类。实体描
述是一个实体的简要介绍，本实施例没有对全部测试集的可疑实体采用bert分类的原因是：大部分实体出现错误上位词是由于抽取时上位词往往是与实体相关的概念，例如实体“阿里影业”与概念“电影”相关，但非“电影”；“乔纳斯”与概念“游戏”相关，但非“游戏”，因此若简单地使用概念图谱中的训练数据训练文本分类器，不能有效地区分实体属于哪个概念，因为训练数据缺少与两个概念都相关的实体，即训练数据与测试数据的分布不一致，导致分类器在测试集上表现不佳。
[0054]
因此，半监督分类判定部32采用了基于关键特征的半监督分类算法。本实施例中，上述关键特征过滤单元32(a)通过使用关键特征的规则过滤方法确定了一部分可疑实体所对应的待判定概念，即、确定一部分测试集的标签(伪标签)，因此可以将这些加入训练集d组成训练集d
′
，再使用bert分类器在训练集d
′
上训练。
[0055]
bert作为一种预训练语言模型，具有强大的语义表示能力，bert训练具有两个阶段：预训练与微调。预训练阶段bert在大规模语料库中通过无监督预测任务学习语言的深度表示，微调阶段bert使用预训练后的参数实现对具体任务的精细化训练，适应于分类，匹配，抽取等子任务。
[0056]
本实施例中，bert采用transformer的双向编码器架构，堆叠多层的transformer块提取序列中token与token的深度关系，每个transformer块中通过多头注意力机制强化各token之间的语义关联，经过前馈网络层后获得transformer层的输出。预训练阶段bert具有两个任务：屏蔽语言模型(masked lm)与下一句预测(nsp)。为了训练一个深度的双向表示，bert采用随机屏蔽部分输入token，并让模型预测这些token作为masked lm任务的学习目标，具体来说，bert随机屏蔽每个序列中15％的token，其中这些token80％的时间被[mask]替换，10％的时间被一个随机token替换，剩余10％的时间保持不变。该输入通过transformer编码，利用整个序列的编码表示预测被屏蔽token。
[0057]
下一句预测任务预先从语料库中生成两个相邻或不相邻的句子，然后对这些语句对进行二元分类，判断句子2是否是句子1的下一个语句，该任务是是为了使bert理解两个句子之间的关系，其中对于非nsp的句子对的构造方式是从两篇不同的文档中随机采样一个句子，组成非nsp的训练样本。bert通过屏蔽语言模型与下一句预测两个预训练的任务，学习到自然语言的语义表示，便于下游任务的微调。
[0058]
本实施例中，利用微调bert在文本分类中的表现完成对错误上下位关系的判定，其中，bert的输入是一个实体的描述，输出是属于哪个上位词的概率分布，采用交叉熵作为分类任务的损失函数，adam优化器作为训练优化器，具体来说，由于测试集a具有与测试集b更相似的实体，训练bert分类器时对训练集d
′
中测试集a的损失分配更高的权重，使得分类器能更好地拟合测试集a中根据描述的实体分类，训练集d
′
的损失函数为：
[0059]
l
d
′
＝l
d
λl
a
[0060]
式中，λ是超参数，表示训练集d与伪标签测试集a的平衡。实验证明，λ＝1时，测试集b的准确率为87.6％，λ＝7时，测试集b的准确率为94.4％。
[0061]
在上述训练过程完成后，bert分类判断单元32(b)即可基于该训练完成的bert分类器对剩余的可疑实体进行过滤，并判断各个可疑实体所对应的两个待判定概念中错误的一个。
[0062]
isa关系判定部32(c)能够基于关键特征过滤单元32(a)以及bert分类判断单元32
(b)过滤出的与可疑实体相对应的错误的待判定概念，将相应的待纠错isa关系判定为错误的。
[0063]
概念图谱纠错模块104用于将被错误isa关系判定模块103判定为错误的待纠错isa关系从概念图谱中删除从而完成对概念图谱的纠错。
[0064]
图3是本发明实施例中中文通用概念图谱纠错方法的流程图。
[0065]
如图3所示，在用户启动中文通用概念图谱纠错装置100并对存储的(或输入的)概念图谱进行纠错处理时，具体的纠错过程如下：
[0066]
步骤s1，概念图谱获取模块101获取概念图谱中所有的isa关系以及相对应的实体和概念，然后进入步骤s2；
[0067]
步骤s2，不兼容概念对构建模块102依次计算每两个概念之间的兼容性并基于被判断为不兼容的两个概念构建不兼容概念对从而形成多组不兼容概念对，然后进入步骤s3；
[0068]
步骤s3，错误isa关系判定模块103依次判定每组不兼容概念对中错误的一个待判定概念，并判定相应的待纠错isa关系为错误的，然后进入步骤s4；
[0069]
步骤s4，概念图谱纠错模块104在概念图谱中删除被判定为错误的待纠错isa关系从而完成对概念图谱的纠错，然后进入结束状态。
[0070]
通过上述过程，即可对概念图谱中所有错误的isa关系进行筛选以及纠错，最后形成的高准确率的概念图谱可以存储在计算机中，从而便于其他程序或是用户对该概念图谱进行调用。
[0071]
实施例作用与效果
[0072]
根据本实施例提供的中文通用概念图谱纠错装置，由于通过不兼容概念对构建模块判定概念图谱中各个概念之间的兼容性并构建出相应的多组不兼容概念对，因此可以快速地定位出概念图谱中所有可疑的上下位关系，使得错误isa关系判定模块可以依次对每组不兼容概念对进行判定并判定出错误的isa关系。其中，由于错误isa关系判定模块具有百科词条判定部以及半监督分类判定部，一方面，百科词条判定部可以通过检索可疑实体百科更新后的词条标签确定不兼容概念对中错误的isa关系，这种方式简单高效，可以快速识别少部分错误isa关系；另一方面，半监督分类判定部通过构建概念的关键特征识别部分可疑实体的上位概念从而确定错误的isa关系，并通过bert分类器对剩余部分的可疑实体进行识别从而确定错误的isa关系，可以精确地判定出不兼容概念对中错误的isa关系。因此，通过本发明的中文通用概念图谱纠错装置，可以对概念图谱中所有错误的不兼容概念对进行筛选以及纠错，实现消除概念图谱中错误的isa关系，从而形成高准确率的概念图谱，便于后续其他人员或是系统对该概念图谱进行有效地调用。
[0073]
另外，实施例中，半监督分类判定部在通过构建关键特征识别可疑实体的上位概念后，还可以将该关键特征确定的上位概念作为可疑实体的伪标签加入训练集，并给予更高的损失权重，使训练样本与测试样本的分布更一致，从而实现训练bert分类器时在测试集上具有更高的准确率。基于关键特征的半监督分类算法，综合关键特征及bert分类器后获得的错误上位词的准确率为96.1％。
[0074]
上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：物体简笔画的自动生成方法及装置与流程
下一篇：物流件的包装状态检测方法以及装置与流程

中文通用概念图谱纠错装置的制作方法

相关文献

最热文献