一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种知识图谱和事理图谱的融合方法、装置和系统

2022-04-30 06:20:54 来源:中国专利 TAG:


1.本发明涉及常识知识库构建技术领域,具体而言涉及一种知识图谱和事理图谱的融合方法、装置和系统。


背景技术:

2.随着人工智能和大数据的发展,知识图谱成为了人工智能的重要组成部分和大数据时代的产物。知识图谱以其强大的语义处理与开放互联能力,使web 3.0的“知识之网”远景成为了可能。知识图谱本质上是一种语义网络,描述现实世界中的实体或概念及其相互关系,其基本组成单位是“实体-关系-实体”或“实体-属性-属性值”三元组,实体间通过关系相互联结,构成网状的知识结构。提供了一种更好的组织、管理和理解互联网海量信息的能力。典型的应用场景包括智能语义搜索、移动个人助理以及个性化推荐等。
[0003]“事件”是人类社会活动的核心概念,挖掘事理逻辑演变规律对我们预测事情发展趋势、认识社会发展变化规律有重要的意义。事理图谱关注事件之间的状态的转变、关系的演化,它以事件为实体节点,将静态的知识和动态的逻辑规则紧密融合,形成一个逻辑链路网络,具备更为强大的知识更新和推理能力。因此事理图谱可应用在事件预测,发展模式的挖掘和决策性的知识推理等。
[0004]
将知识图谱和事理图谱融合,在实现技术上包含事件抽取、事件关系抽取、事件泛化、实体识别与实体链接等技术。ace会议评测任务定义事件由事件触发词和描述事件结构的元素构成,事件论元角色是在事件中担当某类角色的实体、值或时间、事件参与者以及事件相关的属性,值是一种非实体的事件参与者,例如,“检测时间”、“检测地点”。事件抽取把含有事件信息的非结构化文本以结构化的形式呈现出来。事件抽取的方法有基于模式匹配方法、基于机器学习的方法。基于机器学习的方法包括基于触发词的抽取、元素的识别。专利号为cn201911059404.7的发明中提出一种融合多类事理与实体知识的领域事件图谱构建方法和装置。该方法包括:对领域语料库进行事理关系抽取和实例事理元素抽取,形成实例事理逻辑知识库;构建具有层级性的抽象概念知识库;利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,将事件知识与实体知识融合,形成事理知识图谱;将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。该发明构建的领域事件图谱,能够综合静态实体性知识以及动作事件性知识两者的优点,可拓宽知识问答的应用范围,并可作为常识知识库扩充领域语言资源。该发明在构建事理逻辑知识库过程中,只针对语料库进行事理关系和实例事理元素抽取是不完善的。同一个事件在不同的上下文中会有不同的表述,当多个事件指向同一个自然事件时,则认为这些事件之间具有同指关系,对事件进行相似度计算,并将相似事件融合成同一表达,进一步保证知识库的质量是必要的。另外,进行事件类型体系识别也是事件抽取的核心任务。事件泛化是构建事理图谱的关键步骤,目前的一些泛化方法忽视了事件组成的结构特征和动态变化,没有充分考虑到事件句中名词性实体词成分的泛化方法,未能充分考虑运
用知识图谱体系对名词性实体词成分进行泛化。此外,将获得的节点事件以及关系数据运用图数据库技术图谱可视化,事理图谱是一个概率有向图,知识逻辑发生的不确定性使得边上存在转移概率,标注事件的转移概率,也是事理图谱构建的重要步骤。


技术实现要素:

[0005]
本发明针对现有技术中的不足,提供一种知识图谱和事理图谱的融合方法、装置和系统,能够综合静态实体性知识以及动态事件性知识的特点,形成一个动静结合的全局知识库,可以拓宽知识管理的应用范围,推动融合图谱在领域的应用和迭代发展,丰富了知识内涵,并为领域知识库扩充语料资源,使得机器智能水平更高,更加接近于人类的可解释认知智能。
[0006]
为实现上述目的,本发明采用以下技术方案:
[0007]
第一方面,本发明实施例提出了一种知识图谱和事理图谱的融合方法,所述融合方法包括以下步骤:
[0008]
s1,从数据源获取各种类型的源数据,对源数据进行数据清洗与预处理,获得结构化数据,形成不同类型的语料库;
[0009]
s2,利用事件抽取技术进行事件抽取,再依次进行事件关系抽取、事件相似度计算和事件泛化处理以形成事理逻辑知识库;事件关系包括以下五种逻辑关系:顺承关系、因果关系、上下位关系、条件关系、反转关系;
[0010]
s3,构建上下位概念体系,该上下位概念体系同时关注概念的上下位关系和与此相关的同级概念;构建本体,本体用于识别、描述相关领域的概念并从不同层次的形式化模式上明确概念和概念间的关系;将上下位概念体系与本体整合构成了一个完整的抽象知识图谱;
[0011]
s4,利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中的下位词进行匹配泛化成上位概念,并利用可视化工具构建事理图谱;
[0012]
s5,通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的抽象知识图谱中,实现抽象知识图谱与事理图谱的深度融合,形成新的融合图谱。
[0013]
进一步地,步骤s1中,数据源包括新闻媒体、社交媒体和自媒体。
[0014]
进一步地,步骤s2中,利用事件抽取技术进行事件抽取的过程包括以下步骤:
[0015]
s21,基于序列元素分类与依存句法分析融合的方法识别触发词并分类,构建“触发词
‑ꢀ
事件类型”对应关系表,选取每个事件类型中的种子触发词基于word2vec的方法进行扩充,对扩充结果筛选过滤后得到每个事件类别对应的触发词;将含有触发词的句子定义为候选事件句,并根据扩充后的“触发词-事件类型”对应关系表识别事件类型;
[0016]
s22,抽取事件元素并进行角色标注,角色包括事件时间、事件主客体、事件极性与事件时态。
[0017]
进一步地,步骤s22中,抽取事件元素并进行角色标注的过程包括以下步骤:
[0018]
s221,抽取事件时间:
[0019]
运用iob标注形式来标注训练集里面的时间信息,对训练分类器进行分类,找到序列中表示时间的词语;判断找到的时间词是否出现在预设好的描述时间的词典里;将文本中描述的时间点,对应到现实世界的时间点;通过人工设定的时间表达模板形成事件时间
表达;
[0020]
s222,抽取事件主客体:
[0021]
找到一个事件句中的事件词,根据依存句法分析,获取与该事件词存在核心关系的关系类别词以及存在并列关系的词,均标注为事件词;
[0022]
以事件词为起点,找到与事件词产生主谓关系和动宾关系的不同部分,分别对其依存分析句子结构;将与事件词产生主谓关系的那部分联合修饰部分定中修饰关系、并列关系、联合关系进行组合,作为事件主体;
[0023]
将与事件词产生动宾关系的部分联合定中修饰关系、状中关系、动补关系进行组合作为事件客体;
[0024]
s223,抽取事件极性:
[0025]
指定事件可能存在的极性状态,包括表肯定语气的肯定副词、表否定语气的否定副词以及不确定的可能副词;针对不同的极态构建极性库并采用频繁模式挖掘以及句法分析,找到与事件主客体的修饰关系;将待抽取的文本与极性库中的极态词进行匹配,加入已分类的极性库中,进一步确定事件的极性;
[0026]
s224,抽取事件时态:
[0027]
构建时态词典并制定确定时态规则;将待抽取的文本与时态词典中的时态词进行匹配,加入已分类的时态词典库中;事件发生的时态包含过去、现在、将来、其他四种时态。
[0028]
进一步地,步骤s2中,所述事件泛化的过程包括以下步骤:
[0029]
采用扎根理论的方法将语料进行事件发生句的概念化、抽取独立范畴之间的潜在联合关系,进行整理和重组,包括以下子步骤:
[0030]
运用选择式编码方法选择核心类;将事件之间的逻辑关系创建一条明确的故事线;通过译码范式模型连接主要与次要概念类;在面向的层级扩展派系类型;通过数据验证各派系中概念类间的关系;填满可能需要发展的类;对比各独立的逻辑链,如因果、顺承链之间的合理性,将能够相容的事件泛化为一个抽象的高层次事件,将有关系的事件链相互结合;
[0031]
对事理逻辑知识库中的事件组成元素分为名词性的实体词和动词性的事件词,分别进行词性标注;对实体词匹配上下位概念体系中的下位词语,将其对应到体系中的上位概念,完成名词性实体词的抽象;对谓词事件词计算语义相似度,将语义相似度高的谓词事件词合并为同一谓词事件词类,对该类的事件词利用构建的泛化框架进行泛化,得到更为抽象的动词上位概念。
[0032]
进一步地,步骤s3中,将上下位概念体系与本体整合构成了一个完整的抽象知识图谱的过程包括以下步骤:
[0033]
s31,以hownet为体系架构的基本组件,结合无监督学习的领域词汇挖掘方法,进行候选短语生成,高频得到n个字/词序列,再运用统计特征计算方法pmi和c-value计算候选词汇得到统计特征,形成上下位概念体系;
[0034]
s32,对不同的情感词的极性以及对应的权重或强度进行标记,采用基于依存语义、基于窗口的情感计算规则,完成相关句子、篇章级别的情感判定以及系列度情感对提取任务,形成语义情感词典;对文本语料进行同义反义词挖掘,形成语义关系词典;
[0035]
将语义情感词典和语义关系词典进行联合汇总,得到最终的语义词典,进行上位
抽象,形成上下位概念体系;
[0036]
s33,通过迭代向上抽象的方式获取结构路径的可用性,得到某个词的抽象路径,通过这种抽象结构,完成不同层级的概念聚合以及概念扩展;
[0037]
s34,构建有限的义原集合,利用它来存储描述具象概念之间以及属性之间的下位关系;
[0038]
s35,将步骤s33中的上位概念的抽象词库与步骤s34中的具象概念的义原集合进行结合,每一个词语的上下位概念及其描述形成一个三元组,进而形成上下位概念体系;
[0039]
s36,对不同知识库概念进行整合:从wikidata构建的知识库中抽取概念知识,并通过对齐关系的形式合并到conceptnet知识库中,尽可能保留边的类别关系;将visual genome 和framenet融合时,允许异质结点的存在,显式或隐式一个共用的对应,进行同义词标注,数据源间不同实体间的关系,用同一边的类型来表达;
[0040]
s37,将概念知识抽象成了不同的分类体系,将不同的分类体系融合构建上下位概念体系,得到较为精确的概念层级体系效果,将融合后的树节点置为概念;
[0041]
s38,在步骤s37生成的概念词语的基础上,将概念及抽象概念的内涵和外延定义本体;本体构建是建立一个面向具体应用领域的本体模型,明确领域内的概念及相互关系;从上述现有数据出发,通过对数据的相似度和上下位分析,获得较为直观的类别和层次,运用开放源码软件本体构建protege工具,形成知识的本体框架体系,得到概念之间的相互关系;
[0042]
s39将所述上下位概念体系对概念、概念属性的层级性和概括性表达结合本体对概念关系的明确定义,形成抽象知识图谱。
[0043]
进一步地,步骤s32中,对文本语料进行同义反义词挖掘,形成语义关系词典的过程包括以下步骤:
[0044]
s321,从文本中提取mention词,直接使用分词的方法,选取一些特定分词结果做同义、反义词挖掘;
[0045]
s321,对于文本语料中出现的新词或不同语言表述,结合pattern挖掘、ner或名词性短语抽取方式获取候选词;
[0046]
s321,将人工枚举方式构建的有限同义反义词表作为种子数据,获取所有种子词和候选词的特征,分别从局部特征考虑字、词级别特征;从全局特征考虑目标词所在段落、句子的语义特征;
[0047]
s321,基于步骤s322中获得的候选词与目标同义词集合的分布差异的角度进行建模,形成一部语义关系词典。
[0048]
进一步地,步骤s4中,利用可视化工具构建事理图谱的过程包括以下步骤:
[0049]
对通过一系列自然语言处理技术构建的事理逻辑知识库,利用可视化技术neo4j图数据库可视化,最终形成具有抽象形式的事理图谱;完整的事理图谱结构有三个层次:基础网络、抽象网络和推理网络;
[0050]
所述事理图谱的构建过程包括以下步骤:
[0051]
将得到的所有节点事件数据和事件关系数据分别存储到neo4j图数据库中,neo4j图数据库将数据存储在节点和关系中,经过可视化操作,查看已存入的事件数据信息及其形成的可视化图谱;
[0052]
将事理图谱形式化描述为:eeg=(v,e),其中v={v1,v2,v3,...,v
p
}是节点集,节点表示事件;e={l1,l2,l3,...,lq}是边集,边表示事件之间的逻辑关系,每条边是一条有向边vi→
vj,w(vi|vj)是权重,表示在vi发生的条件下vj发生的可能性;
[0053]
通过以下公式计算权重:
[0054][0055]
其中,count(vi,vj)表示(vi,vj)出现在事理图谱中的频率。
[0056]
进一步地,步骤s5中,通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的抽象知识图谱中,实现抽象知识图谱与事理图谱的深度融合,形成新的融合图谱的过程包括以下步骤:
[0057]
s51,事理图谱中的事件节点存在着关联知识图谱中实体的知识三元组,识别需要链接的事件实体;
[0058]
s52,通过实体链接将步骤s51中事件实体与知识图谱中的实体节点对齐,以此搭建一条边,通过一条边将两者结合,边表示关联实体,实现从事件-实体的联通;通过逻辑关系将单个事件整体指向下一个事件整体,使事件中的实体进行关联,结合实体之间的关联,进一步进行拓展、查询,实现整体图谱的联动。
[0059]
第二方面,本发明实施例提出了一种知识图谱和事理图谱的融合装置,所述融合装置包括:
[0060]
语料库构建层,用于从数据源获取各种类型的源数据,对源数据进行数据清洗与预处理,获得结构化数据,形成不同类型的语料库;
[0061]
事理逻辑知识库构建层,用于对语料库运用事件抽取技术进行事件抽取、事件逻辑关系抽取、事件相似度计算和事件泛化形成事理逻辑知识库;
[0062]
抽象知识图谱构建层,用于构建具有同级和层级的上下位概念体系,与本体整合构成一个完整的抽象知识图谱;
[0063]
事理图谱构建层,用于利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中的下位词进行匹配泛化成上位概念,并利用可视化工具构建事理图谱。
[0064]
图谱融合层,用于通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的抽象知识图谱中,实现抽象知识图谱与事理图谱的深度融合,形成新的融合图谱。
[0065]
第三方面,本发明实施例提出了一种知识图谱和事理图谱的融合系统,所述融合系统包括:存储器、处理器及在所述处理器上运行的知识图谱和事理图谱的融合方法的程序,所述程序被处理器执行时实现如前所述的方法的步骤。
[0066]
本发明的有益效果是:
[0067]
本发明公开了一种知识图谱和事理图谱的融合方法,该方法包括:对文本语料库进行事件抽取、事件关系抽取,事件相似度计算、事件泛化过程形成事理逻辑知识库;构建上下位概念体系和本体形成抽象知识图谱;利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中下位词进行匹配泛化成上位概念,并利用可视化工具构建事理图谱;通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的知识图谱中,实现知识图谱与事理图谱的深度融合,形成新融合图谱。本发明所构建的融合图谱,能够综合静态实体性知识以及动态事件性知识的特点,形成一个动静结合的全局知识库,可以拓宽
知识管理的应用范围,推动融合图谱在领域的应用和迭代发展,丰富了知识内涵,并为领域知识库扩充语料资源,使得机器智能水平更高,更加接近于人类的可解释认知智能。
附图说明
[0068]
图1是本发明的融合知识图谱和事理图谱的框架结构图。
[0069]
图2是本发明的事理逻辑知识库构建框架图。
[0070]
图3本发明的事理图谱构建流程图。
[0071]
图4是本发明的抽象知识图谱构建框架图。
具体实施方式
[0072]
现在结合附图对本发明作进一步详细的说明。
[0073]
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
[0074]
实施例一
[0075]
本实施例提及一种融合知识图谱和事理图谱的框架结构图,该融合方法包括以下步骤:
[0076]
s1,从数据源获取各种类型的源数据,对源数据进行数据清洗与预处理,获得结构化数据,形成不同类型的语料库。
[0077]
s2,利用事件抽取技术进行事件抽取,再依次进行事件关系抽取、事件相似度计算和事件泛化处理以形成事理逻辑知识库;事件关系包括以下五种逻辑关系:顺承关系、因果关系、上下位关系、条件关系、反转关系。
[0078]
s3,构建上下位概念体系,该上下位概念体系同时关注概念的上下位关系和与此相关的同级概念;构建本体,本体用于识别、描述相关领域的概念并从不同层次的形式化模式上明确概念和概念间的关系;将上下位概念体系与本体整合构成了一个完整的抽象知识图谱。
[0079]
s4,利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中的下位词进行匹配泛化成上位概念,并利用可视化工具构建事理图谱。
[0080]
s5,通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的抽象知识图谱中,实现抽象知识图谱与事理图谱的深度融合,形成新的融合图谱。
[0081]
本发明在实施过程中主要包括事理逻辑知识库、事理图谱、抽象知识图谱构建、知识图谱和事理图谱的融合四个步骤,流程如图1所示,具体包含以下步骤:
[0082]
一、事理逻辑知识库
[0083]
图2为事理逻辑知识库构建框架图,包括事件(元素、触发词)抽取、事件关系抽取、事件相似度、事件泛化等步骤。
[0084]
1.事理图谱的概念
[0085]
事理图谱(event evolution graph,缩写eeg)本质是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上是一个有向有环图,节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。
[0086]
2.事件抽取
[0087]
事件抽取任务的核心构成包括:事件类型体系识别、事件元素抽取。
[0088]
2.1事件类型体系识别
[0089]
(2.1.1)所述事件类型识别,通常是识别触发词进而判断事件类型。抽取方法是基于序列元素分类与依存句法分析融合的方法识别触发词并分类,构建“触发词-事件类型”对应关系表,选取每个事件类型中的种子触发词基于word2vec的方法进行扩充,对扩充结果筛选过滤后得到每个事件类别对应的触发词。
[0090]
(2.1.2)获取候选事件,将含有触发词的句子定义为候选事件句,并根据1)中扩充后的“触发词-事件类型”对应关系表识别事件类型。
[0091]
2.2事件元素抽取
[0092]
所述事件元素(时间、主客体、极性、时态)并进行角色标注。事件元素抽取包括:事件时间、事件主客体、事件极性、时态的抽取。
[0093]
(2.2.1)事件时间抽取,
[0094]
所述事件时间抽取,指将文本中描述的事件发生的时间点,对应到现实世界的时间点。
[0095]
具体抽取方法:运用序列标注任务进行有监督分类的方法,具体的使用iob标注形式来标注训练集里面的时间信息,对训练分类器进行分类,找到序列中表示时间的词语。他通常是这个词前后的词或同一个窗口里的词,以及这个词和同窗口里的词的基本短语组块;判断这个时间词是否出现在预设好的描述时间的词典里。将文本中描述的时间点,对应到现实世界的时间点。通过人工设定的时间表达模板,如:month,day,year。形成事件时间表达。
[0096]
(2.2.2)事件主客体抽取
[0097]
事件主客体抽取,从文本中抽取事件对应的主客体。所述事件主客体抽取,包括:事件主体,指围绕事件词的实施者;事件客体,指围绕事件词的接受者。一般事件的主体类型为人名或公司、机构名称等。由于语言表达存在句法结构,比如主谓宾、动宾结构等,根据这些结构可以分析出多个词之间关系,基于依存规则,对句子进行分词、词性标注、依存分析句子结构。例如“李明、张红等年轻学者也参加了学术会议”中,每个词都依存于一个其他的词,其中“参加”是句子的根节点,依存于根。“年轻”依存于“学者”,依存关系为定中关系;“张红”依存于“李明”,依存关系为并列关系。具体抽取方法为:
[0098]
(201)找到一个事件句中的事件词,该词一般为动词或者动词短语,根据依存句法分析,获取与该词存在核心关系的关系类别词,把该词标注为事件词,继续找到与该词存在并列关系的词,把这个词也作为事件词。
[0099]
(202)以事件词为起点,找到与事件词产生主谓关系和动宾关系的不同部分,分别对其依存分析句子结构,每一部分可能会产生定中修饰关系、并列关系。将与事件词产生主谓关系的那部分联合修饰部分定中修饰关系、并列关系、联合关系进行组合,作为事件主体。
[0100]
(203)将与事件词产生动宾关系的部分联合定中修饰关系、状中关系、动补关系进行组合作为事件客体。
[0101]
(2.2.3)事件极性、时态的抽取
jaccard系数只关心事件之间共同具有的特征是否一致,系数值越大说明相似度越高,并且具有共同的特征,则把事件认为是相似事件。
[0113]
(5.2)余弦相似度方法思想是因果逻辑事件对可表示为空间向量模型,将因果事件表示成固定维度向量:若夹角越小,两个向量越相似,从而两个事件越相似。
[0114]
6.事件泛化
[0115]
所述事件泛化,是从文本中抽取到具体事件间的逻辑关系,但低层次的具体事件是非常稀疏的,导致抽取出的两个事件对中包含相同事件的可能性很小,所以很难将事件对连接成稠密的网络。因此,需要对抽取出的具体事件进行泛化,从具体事件间的事理逻辑上升到抽象事件间的事理逻辑,从而发现更为一般的事理逻辑规律,对抽取出的事件进行泛化后构建含抽象事件的事理图谱。具体泛化方法包含:
[0116]
6.1扎根理论的方法将语料进行事件发生句的概念化、抽取独立范畴之间的潜在联合关系,进行整理和重组。运用选择式编码方法,在选择核心类后,主要包含5个步骤:
[0117]
(6.1.1)将事件之间的逻辑关系创建一条明确的故事线;2)通过译码范式模型连接主要与次要概念类;3)在面向的层级扩展派系类型;4)通过数据验证各派系中概念类间的关系; 5)填满可能需要发展的类。对比各独立的逻辑链,如因果、顺承链之间的合理性,将能够相容的事件泛化为一个抽象的高层次事件,将有关系的事件链相互结合。
[0118]
(6.1.2)对事理逻辑知识库中的事件组成元素分为名词性的实体词和动词性的事件词,分别进行词性标注。对实体词匹配上下位概念体系中的下位词语,将其对应到体系中的上位概念,完成名词性实体词的抽象。对谓词事件词计算语义相似度,将语义相似度高的谓词事件词合并为同一谓词事件词类,对该类的事件词利用构建的泛化框架进行泛化,得到更为抽象的动词上位概念。
[0119]
二、抽象知识图谱
[0120]
所述抽象知识图谱,是上下位概念体系对概念、概念属性的层级性和概括性表达结合本体对概念关系的明确定义形成的常识知识库。百科中对概念的描述是非结构化的,为了人类能更清晰的理解其概念信息,需要一个更为抽象的描述加以解释,就需要一个上下位概念体系作为基础知识支撑,它不仅关注该概念的上位关系还关注与此相关的同级概念。上位概念通常采用非结构化的形式存在于文本中。例如,“西兰花和马铃薯同为蔬菜”。可以运用描述性抽取算法,包括基于语法规则模板的提取方法;基于bio标签的主体及主体描述序列标签识别方法,对该解释进行识别,得到《西兰花,属于,蔬菜》的描述性三元组。通过对概念的上位抽象,得到与“西兰花”相关的一些其他种类;“西兰花”是一种“蔬菜”,通过“蔬菜”这一抽象概念,得到了诸如“马铃薯”、“番茄”等其他蔬菜。结合抽象概念并联合概念自身的描述性解释信息,能够加深我们对“西兰花”清晰的认识。知识体系具有很高的抽象性及概括性,概括性是把抽象出来的部分事物的本质属性连接起来,形成更加完整的知识体系。上下位知识体系是将抽象、概括能力形式化的重要手段,通过直接地构建概念、概念属性的方式。本体构建是建立一个面向具体应用领域的本体模型,明确领域内的概念相互关系。上一步骤已经产生了大量上下位概念,在概念词语的基础上,概念及概念的内涵和外
延可以定义本体。在具体实施上,遵循图4所示的流程,包含以下步骤:
[0121]
1)基于中文版wordnet的hownet。该知识库构建起了几百个具有层级体系的概念,并对超过6万个汉语词语进行了义项的刻画和组织。以hownet为体系架构的基本组件,结合无监督学习的领域词汇挖掘方法,进行候选短语生成,高频得n-gram(连续得n个字/词序列),在运用统计特征计算方法pmi(点互信息),c-value计算候选词汇得统计特征,可以形成一个较大规模的上下位概念体系。
[0122]
2)语义词典
[0123]
201)语义情感词典。情感词典可形成语义情感词典,对不同的情感词的极性以及对应的权重或强度进行标记,采用基于依存语义、基于窗口的情感计算规则,完成相关句子、篇章级别的情感判定以及系列度情感对提取任务。
[0124]
202)语义关系词典。形如framenet中描述的同义、反义的关系对文本语料进行同义反义词挖掘,形成一部语义关系词典。
[0125]
2021)从文本中提取mention词,直接使用分词的方法,选取一些特定分词结果做同义、反义词挖掘。
[0126]
2022)对于文本语料中出现的新词或不同语言表述,则基于1)的方法结合pattern挖掘、 ner或名词性短语抽取等方式获取候选词。
[0127]
2023)将人工枚举方式构建的有限同义反义词表作为种子数据,获取所有种子词和候选词的特征,分别从局部特征考虑字、词级别特征;从全局特征考虑目标词所在段落、句子的语义特征。
[0128]
2024)基于2)中获得的候选词与目标同义词集合的分布差异的角度进行建模,形成一部语义关系词典。
[0129]
将所述两种方法得到的词典进行联合汇总,得到最终的语义词典,进行上位抽象,形成上下位概念体系。
[0130]
3)抽象词库。作为知识图谱中的知识本体描述词汇以及语义推理上的重要资源。抽象性决定了在对具体实例的描述偏向于上层的类型,提供了较好的结构层次性和可用性,通过迭代向上抽象的方式获取结构路径的可用性,得到某个词的抽象路径,通过这种抽象结构,完成不同层级的概念聚合以及概念扩展。
[0131]
4)义原集合。义原是最基本的、不易于再分割的意义的最小单位,它可以是多种属性、具象概念的集合体,可以构建成一个有限的义原集合,利用它来存储描述具象概念之间以及属性之间的下位关系。
[0132]
将所述3)上位概念的抽象词库与4)具象概念的义原集合进行结合,每一个词语的上下位概念及其描述形成一个三元组,进而形成上下位概念体系。
[0133]
5)不同知识库概念进行整合。从wikidata构建的知识库中抽取概念知识,并通过对齐关系的形式合并到conceptnet知识库中,尽可能保留边的类别关系。将visual genome和 framenet融合时,允许异质结点的存在,显式或隐式一个共用的对应,进行同义词标注,数据源间不同实体间的关系,可用同一边的类型来表达。
[0134]
6)百度、互动以及维基百科三大百科集中于刻画概念,将概念知识抽象成了不同的分类体系,如树、图概念体系结构。将不同的体系融合构建上下位概念体系时,可以得到较为精确的概念层级体系效果,将融合后的树节点置为“概念”。
[0135]
7)本体构建
[0136]
上一步骤已经产生了大量抽象概念,在概念词语的基础上,概念及抽象概念的内涵和外延可以定义本体。本体构建是建立一个面向具体应用领域的本体模型,明确领域内的概念及相互关系。从上述现有数据出发,通过对数据的相似度和上下位分析,获得较为直观的类别和层次,运用开放源码软件本体构建protege工具中众多的插件和功能,按照一定的逻辑规则,形成一个知识的本体框架体系,得到概念之间的相互关系。
[0137]
将所述上下位概念体系对概念、概念属性的层级性和概括性表达结合本体对概念关系的明确定义,形成的知识库称为“抽象知识图谱”。
[0138]
三.事理图谱
[0139]
所述事理图谱,是指对通过一系列自然语言处理技术构建的事理逻辑知识库,利用可视化技术neo4j图数据库可视化,形成具有抽象形式的事理图谱。一个完整的事理图谱结构有三个层次:基础网络、抽象网络和推理网络。图谱构建具体方法是:
[0140]
将前述步骤得到的所有节点事件数据和事件关系数据分别存储到neo4j图数据库中,neo4j图数据库将数据存储在节点和关系中,经过可视化操作,可以查看已存入的事件数据信息及其形成的可视化图谱。事理图谱是一个有向有环图,其形式化描述:eeg=(v,e),其中v={v1,v2,v3,...,v
p
}是节点集,节点表示事件;e={l1,l2,l3,...,lq}是边集,边表示事件之间的因果,顺承等逻辑关系,每条边是一条有向边vi→
vj,w(vi|vj)是权重,表示在vi发生的条件下vj发生的可能性,并可以通过以下公式计算:
[0141][0142]
其中,count(vi,vj)表示(vi,vj)出现在事理图谱中的频率。
[0143]
四.图谱融合
[0144]
4.1融合图谱的方法
[0145]
所述融合图谱的构建,是指知识图谱与事理图谱的融合,形成一个动静结合的全局知识库,新融合图谱打开了事件与实体之间联系的通路,形成了事件、实体信息网络,融合的过程包括以下步骤:
[0146]
(4.1.1)实体识别。事理图谱中的事件节点存在着关联知识图谱中实体的一些知识三元组,识别需要链接的事件实体。
[0147]
(4.1.2)实体链接。通过实体链接将1)中事件实体与知识图谱中的实体节点对齐,以此搭建一条边,通过一条边将两者结合,边表示关联实体,实现从事件-实体的联通,这样才能实现从逻辑到实体的一个融合效应。而知识图谱中包含大量的实体属性信息,事理与知识融合后的新知识形式图谱,事理关系的复杂性会使得事理关系进一步扩展,事件可能是接续发生的,单个事件整体需通过逻辑关系指向下一个事件整体,将事件中的实体进行关联,结合实体之间的关联,可以进一步进行拓展、查询,从而实现整体图谱的联动。
[0148]
实施例二
[0149]
本实施例提出了一种知识图谱和事理图谱的融合装置,所述融合装置包括以下模块:
[0150]
(1)语料库构建层,用于从数据源获取各种类型的源数据,对源数据进行数据清洗与预处理,获得结构化数据,形成不同类型的语料库。
[0151]
(2)事理逻辑知识库构建层,用于对语料库运用事件抽取技术进行事件抽取、事件逻辑关系抽取、事件相似度计算和事件泛化形成事理逻辑知识库。
[0152]
(3)抽象知识图谱构建层,用于构建具有同级和层级的上下位概念体系,与本体整合构成一个完整的抽象知识图谱。
[0153]
(4)事理图谱构建层,用于利用实体识别将事理逻辑知识库中具象事件实体词与上下位概念体系中的下位词进行匹配泛化成上位概念,并利用可视化工具构建事理图谱。
[0154]
(5)图谱融合层,用于通过实体识别和实体链接技术将事理图谱中的事件实体链接到相应的抽象知识图谱中,实现抽象知识图谱与事理图谱的深度融合,形成新的融合图谱。
[0155]
通过本发明实施例二的融合装置,通过建立整个应用的数据包含关系确定传输对象,达到融合知识图谱和事理图谱目标。本发明实施例所提供的融合装置可执行本发明任意实施例所提供的知识图谱和事理图谱的融合方法,具备执行方法相应的功能模块和有益效果。
[0156]
实施例三
[0157]
本技术实施例提供了一种电子设备,包括处理器、存储器、输入装置和输出装置;电子设备中,处理器的数量可以一个或多个;电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接。
[0158]
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的检测方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现本发明实施例所提供的知识图谱和事理图谱的融合方法。
[0159]
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0160]
输入装置可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置可包括显示屏等显示设备。
[0161]
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献