一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种增强关联规则的隐患知识推理方法与流程

2022-03-13 19:55:37 来源:中国专利 TAG:


1.本发明涉及电网信息物理融合系统(cps)攻击识别领域,是一种电力cps恶性数据链识别方法。


背景技术:

2.知识图谱(knowledgegraph/base)最早由谷歌发布,其主要作用是提高搜索引擎返回答案的质量以及用户查询的效率。由于知识图谱包含了大量的结构化知识以及特殊的存储结构,使得它在许多自然语言处理应用中起着至关重要的作用,例如问答系统、实体链接等。近年来,一些大型的知识图谱,例如dbpeida,wikidata,yago,freebase等,受到了越来越多的关注。虽然这些知识图谱包含了数以千万计的实体以及数以亿计的三元组事实,但是与真实世界中存在的知识相比,它们仍然不够完善。因此,完善知识图谱(knowledge bases completion,kbc)成为当前的研究热点,它主要是指将新的实体、关系、实体属性及属性值加入到知识图谱中。目前,完善知识图谱的方法主要集中在两个方面:1)使用知识图谱内部知识推理完善知识图谱;2)从非结构化文本中抽取新的知识来完善知识图谱。
3.知识图谱以一种结构化的形式存储知识并且其本身包含了大量的知识,鉴于这种特性,使用知识图谱内部知识推理完善知识图谱成为目前完善知识图谱的主流方向之一。其主要有两种方法:1)利用表示学习的方式,将知识图谱中的实体和关系嵌入到一个低维的向量空间,然后利用一个评价指标计算三元组事实成立的概率;2)利用逻辑推理的方式,从知识图谱中学习类似rel1(e1,e2)^rel2(e2,e3)

rel3(e1,e3)形式的规则。然而,这些方法仅仅对知识图谱中存在的实体起作用,并不能增加新的实体信息。而且由于知识图谱存在错误的信息,基于知识图谱内部的知识图谱完善还可能造成错误传播等问题。
4.完善知识图谱需要从外部资源获取新知识。随着互联网的发展,网络上的文本信息急剧增加,如网络新闻、产品说明、用户评论等。这些信息包含了大量的碎片化知识,如何有效抽取这些碎片化的知识并将其与现有知识图谱进行整合是目前研究的一个热点。由于这些文本信息大都以非结构化自然语言的形式存在,计算机无法直接对其进行有效处理,因此如何理解并利用这些信息是一个非常具有挑战性的问题。现有的方法所抽取到的知识往往是非结构化文本中所包含知识的一小部分。例如,对于非结构化文本“lisa is widow of film director donen”,利用常识可以推理出lisa和donen的类型(人类)、性别,donen的职业(电影导演),lisa和donen的关系(配偶)以及donen已经去世了等知识。但仅仅将关系分类算法应用于该文本,则只能得到lisa和donen的关系以及donen的职业等一小部分知识。虽然一些研究也关注于联合抽取实体间的关系及实体的类型,但是这些方法所抽取的类型十分有限。
5.针对以上问题,本发明提出了一种基于非结构化文本增强关联规则的知识推理方法,用以完善知识图谱。该方法从非结构化文本表述中抽象出文本表述模式,并结合知识图谱已有的知识构建规则。规则的形式主要包含两种:一种形式的规则前件包含非结构化文本模式,后件包含三元组事实;另一种形式的规则前件包含非结构化文本模式及三元组事
实,后件包含三元组事实。使用该规则可以将非结构化文本中包含的三元组事实推理出来用以完善知识图谱。实验结果证明了本发明方法的有效性。


技术实现要素:

6.一种增强关联规则的隐患知识推理方法,其特征是,它包括以下步骤:
7.步骤1)关系文本的聚类,通过对关系文本相似度的计算,采用基于密度峰值的聚类算法完成关系文本的聚类。
8.(1.1)关系文本的收集,通过远程监督的方式来实现对相似文本的收集;
9.(1.2)文本模式建模,采用改进的bod(bod*)来对相似的文本建立一个统一的表达模式;
10.步骤2)通过非结构化关联规则来实现知识图谱与非结构化文本之间桥梁的搭建,使用这些规则可以直接从非结构化文本中推出新的三元组知识。
11.(2.1)非结构化文本增强的关联规则的构建,计算出每个规则的支持度和置信度,保留支持度和置信度大于预想值的规则;
12.(2.2)非结构化文本增强的关联规则的挖掘,采用了自顶向下的层次聚类算法来获得不同粒度的类簇。
13.(2.3)如果两个规则产生冲突,置信度最高的规则将被保留。
14.本发明提出了一种基于非结构化关联规则的知识推理方法,使用该方法产生的非结构化规则可以直接推理出非结构化文本中包含的三元组事实,实验结果表明了该方法的有效性。
附图说明
15.图1为一种增强关联规则的隐患知识推理方法流程图;
16.图2为bod*、bod、bow三种方法三元组推理p/r曲线图
具体实施方式
17.下面结合附图对一种增强关联规则的隐患知识推理方法作详细描述。
18.一种增强关联规则的隐患知识推理方法,包括如下步骤:
19.步骤1)关系文本的聚类,通过对关系文本相似度的计算,采用基于密度峰值的聚类算法完成关系文本的聚类。
20.(1.1)关系文本的收集,通过远程监督的方式来实现对相似文本的收集。
21.step 1:从wikidata中收集预先定义关系所对应的实体对(e1,e2)。
22.step 2:爬取e1对应的wikidata文章,匹配文章中包含实体对的句子。实体对的匹配主要包含完全匹配、同义词匹配、部分匹配以及人称代词匹配等。
23.step 3:对于每个句子,截取e1和e2前后的3个单词以及它们中间的单词作为关系文本。
24.(1.2)文本模式建模,采用改进的bod(bod*)来对相似的文本建立一个统一的表达模式。
25.一个类簇由语义和语法都相近的关系文本组成,为了将这些类簇放入到非结构化
关联规则中,需要将其表示为一个统一的文本模式。传统的词袋模型只使用了单词的词频信息,忽略了单词的位置。词语分布袋(bag of distribution,bod)模式可以用来表示一个类簇。该方法使用beta分布拟合单词在一个类簇的位置分布,再根据单词的频次排序,用高频单词的beta分布表示该类簇。但是bod仅仅对主语和宾语之间的单词进行建模,忽略了主语和宾语前后的单词,这可能会导致重要的信息丢失,因此本发明提出了一个改进的bod(bod*)来建模关系文本。
26.先计算类簇中每个单词出现在关系文本中的位置集合,再使每个单词的位置集合用一个高斯分布来拟合。一个类簇所对应的bod*模式可以表示为如下形式:
27.bod*(c)={(μi,σi,pi)|wi∈wc}
ꢀꢀꢀ
(1)
28.其中,c表示一个类簇,wc是c中出现过的所有单词,pi是wi出现在c中的频次,μi和σi是单词wi对应位置集合的均值和标准差。
29.通过上述方法,可以将一个类簇表示为bod*(c),因此初始化的关联规则(ptn,e1,e2)

f(e1,e2)可以转化为bod*(c)

f(e1,e2)。对于任意的非结构化文本s,它包含的实体对(e
1/
,e
2/
)已知,如果它能匹配到一个合适的bod*(c),那么该bod*(c)所对应的规则后件f(e1,e2)就可以赋值给实体对(e
1/
,e
2/
)。f的选择将在下一节进行讨论。
30.步骤2)通过非结构化关联规则来实现知识图谱与非结构化文本之间桥梁的搭建,使用这些规则可以直接从非结构化文本中推出新的三元组知识。
31.(2.1)非结构化文本增强的关联规则的构建,计算出每个规则的支持度和置信度,保留支持度和置信度大于预想值的规则。
32.由于每个类簇包含的是语法和语义都相似的关系文本,因此这些关系文本包含的实体可能拥有相同的三元组事实,该三元组事实由实体、实体在知识图谱中存在的属性及对应的属性值组成。所使用到的属性如表1所列。
33.表1 规则挖掘中使用的属性及其在wikidata中对应的id
[0034][0035]
需要注意的是,为了找到三元组事实之间的相似性,实体对被替换为e1和e2。对于支持度和置信度的计算,受到关联规则挖掘算法思想的启发,将类簇中的每个关系文本对应的三元组事实表示成一个事务(tranction)的形式。为了与定义的一阶规则和二阶规则对应,从事务集中挖掘频繁一项式和频繁二项式。
[0036]
针对每个类簇挖掘的频繁一项式f,规则bod*(c)

f将被加入到一阶规则集中。同
理,针对每个类簇挖掘的频繁二项式,规则bod*(c)^f
→f/
和bod*(c)^f
/

f将被加入到二阶规则集中。一阶规则bod*(c)

f对应的支持度与置信度的计算公式如下:
[0037][0038][0039]
其中,t是所有的事务集集合,t中包含一些三元组事实;表示f对应的属性必须存在于t中。
[0040]
二阶规则bod*(c)^f
→f/
对应的支持度与置信度的计算公式如下:
[0041][0042][0043]
(2.2)非结构化文本增强的关联规则的挖掘,采用了自顶向下的层次聚类算法来获得不同粒度的类簇。
[0044]
规则挖掘取决于其对应的支持度和置信度大小,一些规则的支持度和置信度可能在更细粒度的类簇中拥有较高的值。因此,为了挖掘更多、更细粒度的规则,本发明使用一个自顶向下的层次聚类算法以产生不同粒度的类簇。在不同粒度的类簇进行规则挖掘时,孩子类簇可以利用继承父亲类簇规则后件的形式形成新的规则。当出现重复后件时,保留一个即可。
[0045]
(2.3)如果两个规则产生冲突,置信度最高的规则将被保留。
[0046]
基于相同的bod*(c)可能会产生一些冲突的后件,比如bod*(c)

male(e1,gender)和bod*(c)

female(e1,gender)表示e1的性别既是男性又是女性,但该事实显然是不成立的。在实验中,如果两个规则存在冲突,则保留拥有更高置信度的规则。
[0047]
发明人计算了采用本发明提供增强关联规则的隐患知识推理方法,将表2实验数据集代入到训练好的模型中。
[0048]
实验中所涉及的关系是wikidata中包含实体对较多的关系,实体所对应的wikidata页面内容被作为自然语言文本资源。数据集被分为训练集和测试集,比率为7∶3。表2列出了更详细的数据,其中有效实体对是指至少有一个关系文本可以从wikidata文章中挖掘的实体对数量。随着聚类层次的加深,每个类簇包含的句子(事务)越来越少,这使得类簇表达能力不强,因此类簇深度不宜太深。所以,类簇深度被设置为3。
[0049]
表2 实验数据集
[0050][0051]
本发明的主要目的是推理出非结构化文本中包含的隐患事实,因此在实验中使用三元组推理来评估非结构化关联规则的性能。采用以下3种方法来推理三元组事实:
[0052]
(1)bod*(c)

f(e1,e2):该方法使用bod*作为规则的前件,式(6)用于计算m的规则类型:
[0053][0054]
其中,分别对应wi在bod*(c)中的概率、均值、标准差;t=0.5*(loc(w
i-1
) loc(wi));h=0.5*(loc(wi) loc(w
i 1
))。若bod*(c)中不包含wi,则
[0055]
(2)bod(c)

f(e1,e2):该方法使用bod作为规则的前件,式(7)用于计算m的规则类型:
[0056][0057]
其中,分别为使用beta分布拟合wi位置分布的参数。
[0058]
(3)bod(c)

f(e1,e2):使用传统的词袋模型作为规则的前件,利用该方式也可以得到与m最相近的规则。
[0059]
在方法(1)-(3)中,对于一阶规则,只需根据相应的公式就可得到关系文本m最符合的规则,再根据该规则的后件预测得出三元组事实。然而,对于二阶规则,因其前件包含了bod*(c)和f,所以还需判断f是否存在于知识图谱中才能找到最符合的规则。对于每一个预测的三元组事实,我们将规则的置信度赋给三元组事实,并将其作为该预测的置信度。
[0060]
规则的后件包含三元组事实,如果一个关系文本符合规则的前件,那么该关系文本包含的三元组事实可以被预测。图2描述了规则的前件分别使用bod*,bod,bow时预测三元组事实的结果。
[0061]
为了从多方面表现本发明方法的有效性,图2还描述了将三元组推理作为多标签分类时的预测结果。由于知识图谱的不完整性造成了一些实体对应的属性缺失,在图2中有两种方法被用来评估不能判断正确与否的三元组事实:忽略缺失属性的三元组事实和将缺失属性的三元事实看作错误预测(strict)。总的来说,相比其他的方法,bod*的性能最优。
虽然bow推理的三元组事实的数目与bod*相当,但是它的准确率不够突出。相比bod*而言,bod仅仅关注了主语和宾语之间的单词,丢失了一部分重要的信息,从而导致它的性能低于bod*。值得注意的是,虽然提出的方法没有复杂的训练阶段,对比基于深度学习的多标签分类,仍取得了更好的结果,这表明本发明提出的方法具有更好的泛化性能。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献