一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向领域知识图谱构建的文本五元组数据抽取方法

2022-08-14 01:55:45 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,尤其涉及一种面向领域知识图谱构建的文本五元组数据抽取方法。


背景技术:

2.随着大数据时代的到来,海量的数据充斥着我们的生活,如何从庞杂的数据中筛选出重要信息,并加以高效地利用是重要的研究方向。
3.知识图谱是近年来文本分析和知识组合领域的研究热点,是一种以语义网络为基础的海量知识管理和服务模式,通过知识图谱技术对海量数据进行挖掘、抽取、清洗、融合、关联和推理,将无序数据变为知识网络,用图的形式反映现实中实体及实体间的关系,能够以更加直观的形式展示知识网络。知识图谱融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义web、数据挖掘与机器学习等多项技术,可广泛支持知识检索、智能问答、决策支持等智能应用。
4.从覆盖范围而言,知识图谱可分为通用性知识图谱和领域知识图谱。通用型知识图谱并不限定具体领域或边界,一般不具备规范的本体结构,其表现形态相当于一个百科类的知识库,更为强调知识的广度和覆盖面,通常采用自底向上的方式构建,并运用较多的自动化构建技术。通用型知识图谱主要应用于互联网搜索、推荐、开放域知识问答等业务场景。
5.领域型知识图谱又可称为行业知识图谱,主要面向特定的领域、行业或学科,通常有内部数据、互联网数据和行业数据库等数据来源,主要应用于辅助分析、决策支持和行业问答等业务场景,在医学、教育、金融、公安、法律、政务民生服务等领域已有较多应用。领域型知识图谱对专业性与准确度的要求较高,通常采用自顶向下的方式进行构建,一般有严格的本体结构和扩展规则。
6.知识图谱以结构化的形式组织客观世界的知识,具备富含语义信息的特点,在越来越多的垂直领域中被应用。在专业领域中,知识图谱可与问答系统相结合,既能提高专业知识的获取效率,服务于领域专家,又可降低专业知识的初级门槛,面向普罗大众。
7.然而在以往传统方法的构建知识图谱时,大都使用三元组数据进行构建,即两个实体和实体之间的关系。三元组抽取可以从海量文本中获取结构化信息,从而描述客观世界中的概念、实体间的复杂关系,提供了一种更好的组织、管理和海量理解互联网海量信息的能力。用三元组构建的知识图谱可以起到知识串联的功能,但是对于一些特定领域知识图谱下的运用,使用三元组构建并不能满足需求。比如使用三元组构建的知识图谱在进行知识检索时,只能使用实体或者关系的具体名称进行检索。
8.从非结构化文本中提取关系三元组是构建大规模知识图谱的关键,经过数据融合后的五元组成为智能问答、信息检索、推荐系统等上层人工智能应用的重要数据基础。五元组相比于三元组增加了两个实体的属性,以关系数据库cypher为例,将两个实体属性一并存入cypher用来构建知识图谱,可实现使用属性搜索来找到某一类特定关系的知识。从而
拓展了知识图谱在各个领域中的使用场景。从而更加深层次的利用知识图谱中的信息。
9.目前,现有技术中还没有一种有效的针对文本数据的五元组数据提取方法。


技术实现要素:

10.本发明的实施例提供了一种面向领域知识图谱构建的文本五元组数据抽取方法,以实现有效地构建文本数据的知识图谱。
11.为了实现上述目的,本发明采取了如下技术方案。
12.一种面向领域知识图谱构建的文本五元组数据抽取方法,包括:
13.从数据库中选取用于模型训练的文本数据,利用选取的文本数据对实体抽取模型和实体关系抽取模式进行训练,得到训练好的实体抽取模型和实体关系抽取模式;
14.利用训练好的实体抽取模型对待处理的文本数据进行实体和实体属性进行提取,使用关系抽取模型对抽取出实体的数据进行关系抽取,得到实体对之间关系;
15.将实体对、实体对属性以及实体对之间关系构成所述待处理的文本数据的五元组数据。
16.优选地,所述的从数据库中选取用于模型训练的文本数据,包括;
17.从数据库中选取用于模型训练的一定数量的文本数据,通过bmeo数据标注方式对每个文本数据中的实体、实体属性和实体类型进行标注,b表示实体的开头,m表示实体的中间,e表示实体的结尾,o表示不属于任何类型;
18.对文本数据中存在关系的实体进行关系标注,构成{entity1;relation;entity2}三元组的形式,entity1表示实体1,entity2表示实体2,relation表示entity1和entity2之间的关系。
19.优选地,所述的利用选取的文本数据对实体抽取模型和实体关系抽取模式进行训练,得到训练好的实体抽取模型和实体关系抽取模式,包括;
20.使用标注的实体数据对实体抽取模型进行训练,得到训练好的bi-lstm crf模型的实体抽取模型;
21.对标注的关系数据进行处理,根据标注的关系数据、实体属性和实体类型生成没有关系的实体组合,将这类没有关系的实体组合定义为none,利用标注的关系数据和没有关系的实体组合对关系抽取模型进行训练,得到训练好的bi-gru模型的实体关系抽取模式。
22.优选地,所述的利用训练好的实体抽取模型对待处理的文本数据进行实体和实体属性进行提取,使用关系抽取模型对抽取出实体的数据进行关系抽取,得到实体对之间关系,包括;
23.使用训练好的实体抽取模型对待处理的文本数据进行实体抽取,同时将每个实体的属性进行提取,得到每条文本数据中的实体及实体对应的属性{entity,property};
24.将提取出的每条文本数据的所有实体进行排列组合,找出所有可能实体间的关系,根据实体对应的属性将每条文本数据中有关系的实体和没有关系的实体进行组合,得到所有实体组合,使用训练好的关系抽取模型对所述所有实体组合进行关系抽取,得到每条文本数据中所有实体对组合之间的关系{entity1,relation,entity2}。
25.优选地,所述的将实体对、实体对属性以及实体对之间关系构成所述待处理的文
本数据的五元组数据,包括;
26.将提取出的所述待处理的文本数据的两个实体和两个实体之间的关系,以及两个实体的属性构成所述待处理的文本数据的五元组数据组:{entity1,property1,relation,entity2,property2}。
27.由上述本发明的实施例提供的技术方案可以看出,本发明方法在进行关系模型训练时,采用充分排列组合的数据对关系抽取模型进行训练,同时将上一步进行实体抽取的全部充分排列组合的实体对输入进关系抽取模型来抽取关系,增加训练数据量的同时可以提高模型训练的准确率,为构建大规模知识图谱奠基。
28.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
29.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1为本发明实施例提供的一种面向领域知识图谱构建的文本五元组数据抽取方法的实现原理图。
31.图2为本发明实施例提供的一种程序使用输入样例图。
32.图3为本发明实施例提供的一种程序使用输出样例图。
33.图4为本发明实施例提供的一种输出五元组结果传入neo4j数据库图。
具体实施方式
34.下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
35.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
36.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
37.为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
38.本发明实施例提供了一种构建五元组的方法的实现原理如图1所示,包括数据准备、模型训练、知识抽取步骤。以下将就具体数据实例进行详细步骤介绍:
39.步骤s10:从数据库中选取用于模型训练的文本数据,对文本数据进行实体和关系标注。
40.从数据库中选取用于模型训练的文本数据,通过bmeo(b-begin,开始;m-middle,中间;e-end,结束;o-odd,单个)数据标注方式对每个文本数据中的实体和实体类型进行标注。b表示实体的开头,m表示实体的中间,e表示实体的结尾,o表示不属于任何类型。标注的实体类型包括时间、人物、地点和歌曲等实体类型。
41.准备用于关系抽取模型的关系抽取语料。对文本数据中存在关系的实体进行实体和关系标注,构成{entity1;relation;entity2}三元组的形式。例如,有关系的实体对可以为:{"1903年2月4日","出生日期","郭静唐"},标注的关系包括民族、出生日期、出生地、作曲、所属专辑等关系类型。
42.步骤s20:利用标注的实体数据对实体抽取模型进行训练。实体抽取模型使用bi-lstm crf模型。
43.对关系标注数据进行处理。在进行关系抽取模型训练时,除标注的正确关系数据外,要生成没有关系的实体组合,一同对关系抽取模型进行训练。将这类实体对之间的关系定为none。
44.例如在本数据集的一条数据中有三个实体{"1903年2月4日","周巷","郭静唐"},有"1903年2月4日","郭静唐"构成关系{"1903年2月4日","出生日期","郭静唐"};"周巷","郭静唐"构成关系{"周巷","出生地","郭静唐"}。在进行关系模型的训练时,要同时生成该条数据中心没有关系的实体之间的组合,并将其关系定义为none:{"周巷",none,"1903年2月4日"};{"1903年2月4日",none,"郭静唐"};{"郭静唐",none,"1903年2月4日"};{"周巷",none,"郭静唐"};{"郭静唐",none,"周巷"}。即将标注的关系实体交换顺序的实体对的关系定为none,将每条数据没有标注关系的实体进行组合,关系为none。
45.步骤s30:利用标注的关系数据对关系抽取模型进行训练。
46.关系抽取模型使用bi-gru模型。
47.实体抽取。使用训练好的实体抽取模型对数据进行实体抽取。实体抽取的同时会获取每一个实体的属性,同时将每个实体的属性进行提取,抽取后可得到每条数据中的实体及其对应的属性。例如,在本数据中的一条数据中,可获取的实体、实体属性有:{"梁子","人物"};{"非洲十年","图书作品"};{"中信出版社","出版社"}。
48.实体抽取数据处理。对原始数据进行抽取之后,每条数据之间会有多个实体,在进行关系抽取之前,所有实体进行排列组合,进而找出所有可能实体间的关系。将每条数据中有关系的实体以及没有关系的实体进行组合。例如,对上一步骤中抽取的实体进行组合:
49.{"梁子","中信出版社"};{"梁子","非洲十年"};{"中信出版社","非洲十年"};{"中信出版社","梁子"};{"非洲十年","梁子"};{"中信出版社","非洲十年"}。
50.关系抽取。使用训练好的关系抽取模型对上一步处理好的数据进行关系抽取。可得到该条数据中所有实体对组合之间的关系:{"梁子",none,"中信出版社"};{"梁子","作者","非洲十年"};{"中信出版社","出版社","非洲十年"};{"中信出版社",none,"梁子"};{"非洲十年",none,"梁子"};{"非洲十年",none,"中信出版社"}。
51.步骤s40、五元组构建。步骤s30中抽取出的关系加入步骤s10中两个实体的类型构成五元组:{"梁子","人物","作者","非洲十年","图书作品"},{"中信出版社","出版社","出版社","非洲十年","图书作品"}。
52.本发明开发了一个五元组抽取程序。程序的具体功能实现一段话中五元组的抽取。程序同时连接neo4j数据库,将五元组存储到数据库中,构建知识图谱。方便后续对数据库中知识图谱的使用。下面将对方法在程序中的使用做详细介绍。
53.首先程序输入是一段文字,如图2所示,我们以百度百科文本数据为例,将数据输入,点击抽取五元组:{entity1,property1,relation,entity2,property2},程序会将输入的文本传入服务器,部署在服务器上的算法进行五元组抽取,然后将抽取的五元组返回到界面,返回结果如图3所示。用户可检查返回的五元组结果,在右侧点击想要传输的五元组,然后点击添加五元组按钮,程序会将所选的五元组发送到服务器,服务器在连接neo4j数据库将五元组保存到数据库中。
54.五元组传输到neo4j中的结果如图4所示。
55.综上所述,本发明实施例在进行实体抽取后,将实体抽取的实体属性抽取,与两个实体以及实体间的关系组合,来构建五元组,使用五元组构建的知识图谱。在以往使用三元组来构建领域知识图谱时,在利用知识图谱做知识问答查询的时候,查询内容只能是实体关键字,而用五元组来构建知识图谱,在知识问答时可以查询实体属性,即定位某一类实体,大大扩展了知识图谱在特定领域的用途。
56.本发明构建的这一套管道式实体关系抽取方案,在进行关系模型训练时,采用充分排列组合的数据对关系抽取模型进行训练,同时将上一步进行实体抽取的全部充分排列组合的实体对输入进关系抽取模型来抽取关系,增加训练数据量的同时可以提高模型训练的准确率,为构建大规模知识图谱奠基。
57.本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
58.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
59.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
60.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献