一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于油气管道的知识图谱构建方法及处理器与流程

2022-05-06 07:19:34 来源:中国专利 TAG:


1.本技术涉及油气管道技术领域,具体涉及一种基于油气管道的知识图谱构建方法、处理器、装置及存储介质。


背景技术:

2.知识图谱从图形上描述了现实世界中的概念和实体之间的复杂关系,让计算机通过一种人类更容易接受的认知世界的方式去传达信息、组织、管理信息,也让人们更好的理解知识。知识图谱作为大数据时代知识工程领域中知识表示的一种方式,通过概念、实体、实体属性以及实体之间的语义关系对知识进行图形化、结构化的表示,不仅能够让机器“理解”和“解释”客观现象和事实,而且其深度知识推理能力和逐步扩展的认知能力,帮助相关行业从业者对特定的问题进行分析、推理、辅助决策。知识图谱从“关系”的角度研究和解决问题,其强大的语义功能使知识图谱在数据分析、语义搜索、智能推荐、自然人机交互以及决策支持方面凸显其无法比拟的优势。目前,知识图谱已经在金融、医疗、交通、教育、电商电网等领域得到了广泛实践应用。
3.油气管道行业作为知识密集型行业,通过多年的发展,从管道设计、施工到运营维护整个生命周期内已经积累了包含经验、规范、公理、工作流程、常识、计算公式等大量的知识,并构成了完整的行业知识体系。目前,油气管道行业的知识类型主要包括结构化、半结构化以及非结构化三种,尤以非结构化类型居多。并且在现有技术中,从大量非结构化数据中抽取实体间的关系构建知识图谱的方法存在大多以半自动或人工方式构建,不能实现自动抽取;很多实体以及实体之间潜在的关系没有被完全挖掘的问题。


技术实现要素:

4.本技术实施例的目的是为了克服现有技术中未构建有效的油气管道领域的知识图谱的问题,提供一种基于油气管道的知识图谱构建方法、处理器、装置及存储介质。
5.为了实现上述目的,本技术第一方面提供一种基于油气管道的知识图谱构建方法,包括:
6.获取油气管道所在领域的文本数据;
7.对文本数据进行预处理,并对预处理后的文本数据进行标注,以构建油气管道的标注数据语料库;
8.将标注数据语料库包含的语句输入至实体识别学习模型,以通过实体识别学习模型提取语句中包含的实体;
9.将实体输入至实体关系抽取模型中,以通过实体关系抽取模型确定实体之间的实体关系;
10.根据实体和实体关系构建基于油气管道的知识图谱。
11.在本技术的一个实施例中,在获取油气管道所在领域的文本数据之前,构建基于油气管道全生命周期业务的领域本体;根据领域本体对预处理后的文本数据进行标注。
12.在本技术的一个实施例中,构建油气管道领域的资源库,资源库包括油气管道领域内的多个词汇、术语和规则模板中的至少一者;按照油气管道全生命周期的各个阶段对资源库中的数据进行归纳和整理,以构建基础文本集;根据油气管道业务内容和特点,对基础文本集中的资源进行分类;对基础文本集中的资源进行分词,确定每个分类下所包括的词语,以得到基础词库;根据预设的油气管道领域的语义类型及语义关系集,对基础词库包含的词语进行标注,以构建油气管道的基础语义概念集。
13.在本技术的一个实施例中,使用mysql存储用户信息、知识图谱的图谱信息以及领域本体的数据;使用mongodb存储实体和实体关系;使用图数据库neo4j存储知识图谱的图结构;使用elasticsearch存储文本索引数据。
14.在本技术的一个实施例中,还包括对实体关系抽取模型训练的步骤,包括:获取多个油气管道所在领域的文本数据作为样本数据;对样本数据进行预处理;将预处理后的样本数据输入至实体关系抽取模型;通过实体关系抽取模型对输入的样本数据包含的语句进行分割,以得到每个语句的多个分词以及每个分词的词特征和词的类型特征向量;将词特征和词的类型特征向量进行拼接融合,以得到每个语句的词嵌入表示;将每个语句的词嵌入表示作为实体关系抽取模型的卷积层的输入数据,并获取卷积层输出的每个语句的局部特征;将每个语句的局部特征作为实体关系抽取模型的池化层的输入数据,通过池化层确定每个语句的全局特征;对全局特征进行分类,并将分类后的全局特征作为实体关系抽取模型的全连接层的输入数据;获取全连接层输出的针对每对实体的预测实体关系;根据预先标注的实体关系与预测实体关系确定实体关系抽取模型的预测准确率;在预测准确率达到预设阈值的情况下,确定实体关系抽取模型训练完毕。
15.在本技术的一个实施例中,油气管道领域的管理系统、生产系统、科研管理系统以及标准查询系统的至少一者中所包含的业务数据;外部系统中包含的油气管道领域内的期刊和文献数据;网页中所包括的油气管道领域内的数据。
16.在本技术的一个实施例中,实体识别学习模型为双向长短时期记忆网络,实体关系抽取模型为cnn神经网络。
17.本技术第二方面提供了一种处理器,被配置成执行上述任意实施例中的基于油气管道的知识图谱构建方法。
18.本技术第三方面提供了一种基于油气管道的知识图谱构建装置,包括上述的处理器。
19.本技术第四方面提供了一种存储介质,该机器可读存储介质上存储有指令,该指令在被上述处理器执行时使得上述处理器执行上述任意一个实施例中的基于油气管道的知识图谱构建方法。
20.上述技术方案中,通过获取油气管道所在领域的文本数据,将文本数据进行处理,对处理过后的文本数据进行实体以及实体关系进行抽取,并根据抽取的实体以及实体关系构建油气管道的知识图谱,从而可以更好地支持知识检索、决策支持等智能管网应用,促进油气管道领域的知识共享。
21.本技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
22.附图是用来提供对本技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本技术实施例,但并不构成对本技术实施例的限制。在附图中:
23.图1示意性示出了根据本技术一实施例的基于油气管道的知识图谱构建方法的流程示意图;
24.图2示意性示出了根据本技术一实施例的具体的油气管道知识图谱可视化的例子;
25.图3示意性示出了根据本技术实施例的计算机设备的内部结构图。
具体实施方式
26.以下结合附图对本技术的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本技术,并不用于限制本技术。
27.需要说明,若本技术实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
28.另外,若本技术实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。
29.如图1示意性示出了根据本技术实施例的基于油气管道的知识图谱构建方法的流程示意图,如图1所示,在本技术一实施例中,提供了一种基于油气管道的知识图谱构建方法,包括以下步骤:
30.步骤101,获取油气管道所在领域的文本数据。
31.在一个实施例中,文本数据包括以下数据中的至少一者:油气管道领域的管理系统、生产系统、科研管理系统以及标准查询系统的至少一者中所包含的业务数据;外部系统中包含的油气管道领域内的期刊和文献数据;网页中所包括的油气管道领域内的数据。
32.油气管道知识图谱需要基于海量、多源、异构的油气管道领域的数据进行构建,多源主要指数据来源多样化,异构主要指数据结构上的差异性。处理器可以获取油气管道所在领域的文本数据。其中,油气管道的所在领域的文本数据可以来源于完整性管理系统、生产系统、科研管理系统、标准查询系统等业务系统有关油气管道的业务数据;油气管道行业中外部系统中包含的油气管道领域内的期刊和文献数据;以及与油气管道领域相关的网页中包括的油气管道领域内的数据。也就是说,处理器可以获取油气管道所在领域内的所有相关,可查询到的文本数据。
33.在一个实施例中,在获取油气管道所在领域的文本数据之前,构建基于油气管道全生命周期业务的领域本体;根据领域本体对预处理后的文本数据进行标注。
34.处理器在获取油气管道所在领域的文本数据之前,可以基于油气管道全生命周期
业务构建油气管道的领域本体。在处理器构建完油气管道的领域本体后,可以根据领域本体对预处理后的文本数据进行标注。
35.在一个实施例中,构建基于油气管道全生命周期业务的领域本体包括:构建油气管道领域的资源库,资源库包括油气管道领域内的多个词汇、术语和规则模板中的至少一者;按照油气管道全生命周期的各个阶段对资源库中的数据进行归纳和整理,以构建基础文本集;根据油气管道业务内容和特点,对基础文本集中的资源进行分类;对基础文本集中的资源进行分词,确定每个分类下所包括的词语,以得到基础词库;根据预设的油气管道领域的语义类型及语义关系集,对基础词库包含的词语进行标注,以构建油气管道的基础语义概念集。
36.处理器在构建基于油气管道全生命周期业务的领域本体时,可以首先对油气管道领域的文献资源进行处理。处理器可以获取油气管道领域的词汇、术语、规则模板等相关文献资料,然后将获取的相关文献资料作为油气管道领域的资源库。并且将资源库中的数据按照油气管道全生命周期的各个阶段进行归纳、整理,从而构建油气领域相关的基础文本集。
37.根据油气管道全生命周期的各个阶段构建油气领域相关的基础文本集后,处理器可以根据油气管道全生命周期各个阶段的业务内容和特点,对基础文本集进行分类。例如,处理器可以将油气管道领域知识分为规划、设计、施工、运营维护、废弃处置等五大类,处理器可以列出每类的概念定义,并根据基础文本集内包括的内容对分出的类别逐层分解。
38.处理器可以根据分好的类别对基础文本集进行分词,其中,处理器可以采用汉语分词系统对油气管道的基础文本集进行分词,从而确定每个类别下包括的词语,以得到油气管道领域的基础词库。确定了油气管道领域的基础词库后,处理器可以根据预先设置的语义类型和语义关系集对基础词库中包含的词语进行定义并标注,从而构建油气管道的基础语义概念集。其中,语义类型和语义关系可以由油气管道领域的专家进行设置,并保存至处理器中,以使处理器可以根据预先设置的语义类型和语义关系集定义并标注油气管道领域的概念语义类型和语义关系。
39.步骤102,对文本数据进行预处理,并对预处理后的文本数据进行标注,以构建油气管道的标注数据语料库。
40.处理器可以对获得的油气管道所在领域的文本数据进行预处理,例如,将获得的油气管道所在领域的文本数据进行数据电子化,并将电子化后的油气管道领域文本数据作为标注对象。在处理器获得了油气管道预处理后的文本数据后,可以对预处理后的文本数据进行标注,
41.处理器可以以构建的油气管道领域本体作为标注依据,对油气管道领域的文本数据进行类型标注和语义标注,构建油气管道标注数据语料库。技术人员也可以根据处理器构建的油气管道领域本体手动,或者结合处理器半自动的对文本数据进行类型标注和语义标注,以构建油气管道领域的标注数据语料库。
42.步骤103,将标注数据语料库包含的语句输入至实体识别学习模型,以通过实体识别学习模型提取语句中包含的实体。
43.处理器在构建了油气管道领域的标注数据语料库后,可以将标注数据语料库包含的语句输入至实体识别学习模型。实体识别学习模型可以将语句中的实体进行抽取。
44.在一个实施例中,实体识别学习模型为双向长短时期记忆网络,实体关系抽取模型为cnn神经网络。
45.处理器将标注数据预料库包含的语句输入实体识别模型,实体识别模型在接收到输入的标注数据语料库包含的语句后,可以从中提取特征,并采用双向长短时期记忆网络来提取语句中每个字符的特征,从而有效的利用上下文信息,对语句中的实体进行识别。实体识别模型具有双向网络结构,一个方向向前传播,另一个方向向后传播。通过拼接向量将两者连接起来,得到模型的输出特征。将得到的特征输出送至条件随机场中进行训练,从而实现实体识别。实体关系抽取模型是采用cnn神经网络进行提取。
46.步骤104,将实体输入至实体关系抽取模型中,以通过实体关系抽取模型确定实体之间的实体关系。
47.在处理器通过实体识别模型将语句中的实体进行抽取后。可以将获得的实体输入至实体关系抽取模型中,从而通过实体关系抽取模型确定实体之间的实体关系。在使用实体关系抽取模型之前,处理器可以对实体关系抽取模型进行训练。
48.在一个实施例中,获取多个油气管道所在领域的文本数据作为样本数据;对样本数据进行预处理;将预处理后的样本数据输入至实体关系抽取模型;通过实体关系抽取模型对输入的样本数据包含的语句进行分割,以得到每个语句的多个分词以及每个分词的词特征和词的类型特征向量;将词特征和词的类型特征向量进行拼接融合,以得到每个语句的词嵌入表示;将每个语句的词嵌入表示作为实体关系抽取模型的卷积层的输入数据,并获取卷积层输出的每个语句的局部特征;将每个语句的局部特征作为实体关系抽取模型的池化层的输入数据,通过池化层确定每个语句的全局特征;对全局特征进行分类,并将分类后的全局特征作为实体关系抽取模型的全连接层的输入数据;获取全连接层输出的针对每对实体的预测实体关系;根据预先标注的实体关系与预测实体关系确定实体关系抽取模型的预测准确率;在预测准确率达到预设阈值的情况下,确定实体关系抽取模型训练完毕。
49.处理器可以获取多个油气管道的所在领域的文本数据作为样本数据,其中,文本数据可以来源于完整性管理系统、生产系统、科研管理系统、标准查询系统等业务系统有关油气管道的业务数据或者油气管道行业中外部系统中包含的油气管道领域内的期刊和文献数据。获得样本数据后,可以对样本数据进行预处理。也就是说,将获得的样本数据电子化后作为标注对象,以构建的油气管道领域本体作为标注依据进行类型标注和语义标注,构建油气管道标注数据语料库。其中,数据语料库中包含的句子包含实体和实体关系信息。
50.处理器可以将预处理后的样本数据输入至实体关系抽取模型,也就是讲经过语料库预处理的包含实体和实体关系的语句输入至实体关系抽取模型。实体关系抽取模型在接收到预处理后的样本数据后,可以对样本数据中包含的语句进行分割,以得到每个语句的多个分词,并针对每一个分词确定该分词的词特征和词的类型特征向量。处理器在获得了多个分词以及每个分词的词特征和词的类型特征向量后,可以将词特征和词的类型特征向量进行拼接融合,以得到每个语句的词嵌入表示。并将每个词语的词嵌入表示作为实体关系抽取模型的卷积层的输入数据,输入实体关系抽取模型的卷积层后可以通过卷积层输出每个语句的局部特征。将输出的每个语句的局部特征作为关系抽取模型的池化层的输入数据,输入至关系抽取模型的池化层后可以通过对其进行最大池化来确定每个语句的全局特征。通过池化层来获取每个句子的全局特征可以减少输出的维数,并且在一定程度上可以
保留每个句子最显著的特征。
51.处理器在获得了每个语句的全局特征后,可以对全局特征进行分类,并将分类后的全局特征作为输入数据输入实体关系抽取模型的全连接层。全连接层可以输出针对每对实体的预测实体关系,例如,采用softmax分类器在输出时获得特定的关系类型。处理器获得了实体关系抽取模型输出的预测实体关系后,可以根据预先标注的实体关系与预测实体关系进行对比,从而确定预测实体关系的准确率。当实体关系抽取模型输出的预设实体关系的准确率达到处理器设置的预设阈值的情况下,处理器可以确定此时实体关系抽取模型训练完毕。
52.步骤105,根据实体和实体关系构建基于油气管道的知识图谱。
53.处理器可以根据实体识别学习模型确定油气管道所在领域的标注数据语料库中的实体,并通过训练完毕的实体关系抽取模型对获取的实体的关系进行确定,从而根据得到实体和实体关系构建基于油气管道领域的知识图谱。
54.在一个实施例中,使用mysql存储用户信息、知识图谱的图谱信息以及领域本体的数据;使用mongodb存储实体和实体关系;使用图数据库neo4j存储知识图谱的图结构;使用elasticsearch存储文本索引数据。
55.处理器对于关系型数据库,可以使用mysql即关系型数据库管理系统存储用户信息、油气管道的知识图谱以及油气管道的领域本体的数据。对于文件数据库,可以使用基于mongodb即分布式文件存储的数据库存储实体层的信息,包括实体和实体关系。将构建的油气管道的知识图谱的图结构使用图数据库neo4j存储;将油气管道的知识图谱的文本索引数据通过elasticsearch存储。
56.在一个实施例中,提供了一种处理器,被配置成执行上述的基于油气管道的知识图谱构建方法。
57.油气管道知识图谱需要基于海量、多源、异构的油气管道领域的数据进行构建,多源主要指数据来源多样化,异构主要指数据结构上的差异性。
58.处理器可以基于油气管道全生命周期业务构建油气管道的领域本体。处理器在构建基于油气管道全生命周期业务的领域本体时,可以首先对油气管道领域的文献资源进行处理。处理器可以获取油气管道领域的词汇、术语、规则模板等相关文献资料,然后将获取的相关文献资料作为油气管道领域的资源库。并且将资源库中的数据按照油气管道全生命周期的各个阶段进行归纳、整理,从而构建油气领域相关的基础文本集。油气领域相关的基础文本集构建完成后,处理器可以根据油气管道全生命周期各个阶段的业务内容和特点,对基础文本集进行分类。例如,处理器可以将油气管道领域知识分为规划、设计、施工、运营维护、废弃处置等五大类。分类完成后,处理器可以确定每一个类别的概念并进行逐层分解。
59.处理器可以根据分好的类别对基础文本集进行分词。其中,处理器可以采用汉语分词系统对油气管道的基础文本集进行分词,从而确定每个类别下包括的词语,以得到油气管道领域的基础词库。确定了油气管道领域的基础词库后,处理器可以根据预先设置的语义类型和语义关系集对基础词库中包含的词语进行定义并标注,从而构建油气管道的基础语义概念集。其中,语义类型和语义关系可以由油气管道领域的专家进行设置,并保存至处理器中,以使处理器可以根据预先设置的语义类型和语义关系集定义并标注油气管道领
域的概念语义类型和语义关系。从而可以构建油气管道的领域本体。
60.处理器成功构建油气管道的领域本体后,处理器可以获取油气管道所在领域的文本数据,文本数据可以来源于完整性管理系统、生产系统、科研管理系统、标准查询系统等业务系统有关油气管道的业务数据;油气管道行业中外部系统中包含的油气管道领域内的期刊和文献数据;以及与油气管道领域相关的网页中包括的油气管道领域内的数据。也就是说,处理器可以获取油气管道所在领域内的所有相关,可查询到的文本数据,并且文本数据可以包括结构化、半结构化以及非结构化三种类型。并可以对获得的油气管道所在领域的文本数据进行预处理,例如,将获得的油气管道所在领域的文本数据进行数据电子化,并将电子化后的油气管道领域文本数据作为标注对象。
61.在处理器构建完油气管道的领域本体后,可以根据领域本体对预处理后的文本数据进行标注。处理器可以以构建的油气管道领域本体作为标注依据,对油气管道领域的文本数据进行类型标注和语义标注,构建油气管道标注数据语料库。技术人员也可以根据处理器构建的油气管道领域本体手动,或者结合处理器半自动的对文本数据进行类型标注和语义标注,以构建油气管道领域的标注数据语料库。
62.处理器在构建了油气管道领域的标注数据语料库后,可以将标注数据语料库包含的语句输入至实体识别学习模型。实体识别模型在接收到输入的标注数据语料库包含的语句后,可以从中提取特征,并采用双向长短时期记忆网络来提取语句中每个字符的特征,从而有效的利用上下文信息,对语句中的实体进行识别。从而通过实体识别学习模型将语句中的实体进行抽取。
63.在处理器通过实体识别模型将语句中的实体进行抽取后。可以将获得的实体输入至实体关系抽取模型中,实体关系抽取模型是采用cnn神经网络进行提取实体之间的实体关系。
64.处理器可以根据实体识别学习模型确定油气管道所在领域的标注数据语料库中的实体,并通过训练完毕的实体关系抽取模型对获取的实体的关系进行确定,从而根据得到实体和实体关系构建基于油气管道领域的知识图谱。
65.进一步地,处理器在构建完油气管道知识图谱后,可以通过油气管道知识图谱将存储到文件数据库以及图数据库中的知识提取出来,并进行可视化展示,如图2所示,通过油气管道知识图谱将油气管道地质灾害相关数据进行可视化。
66.处理器在通过实体关系抽取模型对实体的关系进行抽取前,需要对实体关系抽取模型进行训练。在对实体关系抽取模型进行训练时,处理器可以获取多个油气管道的所在领域的文本数据作为样本数据,其中,文本数据可以来源于完整性管理系统、生产系统、科研管理系统、标准查询系统等业务系统有关油气管道的业务数据或者油气管道行业中外部系统中包含的油气管道领域内的期刊和文献数据。获得样本数据后,可以对样本数据进行预处理。也就是说,将获得的样本数据电子化后作为标注对象,以构建的油气管道领域本体作为标注依据进行类型标注和语义标注,构建油气管道标注数据语料库。其中,数据语料库中包含的句子包含实体和实体关系信息。
67.处理器可以将预处理后的样本数据输入至实体关系抽取模型,也就是讲经过语料库预处理的包含实体和实体关系的语句输入至实体关系抽取模型。实体关系抽取模型在接收到预处理后的样本数据后,可以对样本数据中包含的语句进行分割,以得到每个语句的
多个分词,并针对每一个分词确定该分词的词特征和词的类型特征向量。处理器在获得了多个分词以及每个分词的词特征和词的类型特征向量后,可以将词特征和词的类型特征向量进行拼接融合,以得到每个语句的词嵌入表示。并将每个词语的词嵌入表示作为实体关系抽取模型的卷积层的输入数据,输入实体关系抽取模型的卷积层后可以通过卷积层输出每个语句的局部特征。将输出的每个语句的局部特征作为关系抽取模型的池化层的输入数据,输入至关系抽取模型的池化层后可以通过对其进行最大池化来确定每个语句的全局特征。通过池化层来获取每个句子的全局特征可以减少输出的维数,并且在一定程度上可以保留每个句子最显著的特征。
68.处理器在获得了每个语句的全局特征后,可以对全局特征进行分类,并将分类后的全局特征作为输入数据输入实体关系抽取模型的全连接层。全连接层可以输出针对每对实体的预测实体关系,例如,采用softmax分类器在输出时获得特定的关系类型。处理器获得了实体关系抽取模型输出的预测实体关系后,可以根据预先标注的实体关系与预测实体关系进行对比,从而确定预测实体关系的准确率。当实体关系抽取模型输出的预设实体关系的准确率达到处理器设置的预设阈值的情况下,处理器可以确定此时实体关系抽取模型训练完毕,从而使用训练完毕的实体关系抽取模型对实体进行抽取。
69.上述技术方案中,通过获取油气管道所在领域的文本数据,将文本数据进行处理,对处理过后的文本数据进行实体以及实体关系进行抽取,并根据抽取的实体以及实体关系构建油气管道的知识图谱。从而可以更好地支持知识检索、决策支持等智能管网应用,促进油气管道领域的知识共享。进一步地,通过机器学习与特征融合结合的方式训练实体识别和实体关系提取模型,解决了需从大量非结构化数据中自动抽取实体间的关系构建知识图谱的难题。还可以通过油气管道知识图谱将存储到文件数据库以及图数据库中的知识提取出来,并进行可视化展示。
70.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现基于油气管道的知识图谱构建方法。
71.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
72.本技术实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述基于油气管道的知识图谱构建方法。
73.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器a01、网络接口a02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器a01用于提供计算和控制能力。该计算机设备的存储器包括内存储器a03和非易失性存储介质a04。该非易失性存储介质a04存储有操作系统b01、计算机程序b02和数据库(图中未示出)。该内存储器a03为非易失性存储介质a04中的操作系统b01和计算机程序b02的运行提供环境。该计算机设备的数据库用于存储获取的海量的多源异构的油气管道领域的相关数据。该计算机设备的网络接口a02用于与外部的终端通过网络连接通信。该计算机程序b02被处理器a01执行时以实现一种基于油气管道的知识图谱构建方法。
74.本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结
构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
75.本技术实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取油气管道所在领域的文本数据;对文本数据进行预处理,并对预处理后的文本数据进行标注,以构建油气管道的标注数据语料库;将标注数据语料库包含的语句输入至实体识别学习模型,以通过实体识别学习模型提取语句中包含的实体;将实体输入至实体关系抽取模型中,以通过实体关系抽取模型确定实体之间的实体关系;根据实体和实体关系构建基于油气管道的知识图谱。
76.在一个实施例中,在获取油气管道所在领域的文本数据之前,构建基于油气管道全生命周期业务的领域本体;根据领域本体对预处理后的文本数据进行标注。
77.在一个实施例中,构建油气管道领域的资源库,资源库包括油气管道领域内的多个词汇、术语和规则模板中的至少一者;按照油气管道全生命周期的各个阶段对资源库中的数据进行归纳和整理,以构建基础文本集;根据油气管道业务内容和特点,对基础文本集中的资源进行分类;对基础文本集中的资源进行分词,确定每个分类下所包括的词语,以得到基础词库;根据预设的油气管道领域的语义类型及语义关系集,对基础词库包含的词语进行标注,以构建油气管道的基础语义概念集。
78.在一个实施例中,使用mysql存储用户信息、知识图谱的图谱信息以及领域本体的数据;使用mongodb存储实体和实体关系;使用图数据库neo4j存储知识图谱的图结构;使用elasticsearch存储文本索引数据。
79.在一个实施例中,还包括对实体关系抽取模型训练的步骤,包括:获取多个油气管道所在领域的文本数据作为样本数据;对样本数据进行预处理;将预处理后的样本数据输入至实体关系抽取模型;通过实体关系抽取模型对输入的样本数据包含的语句进行分割,以得到每个语句的多个分词以及每个分词的词特征和词的类型特征向量;将词特征和词的类型特征向量进行拼接融合,以得到每个语句的词嵌入表示;将每个语句的词嵌入表示作为实体关系抽取模型的卷积层的输入数据,并获取卷积层输出的每个语句的局部特征;将每个语句的局部特征作为实体关系抽取模型的池化层的输入数据,通过池化层确定每个语句的全局特征;对全局特征进行分类,并将分类后的全局特征作为实体关系抽取模型的全连接层的输入数据;获取全连接层输出的针对每对实体的预测实体关系;根据预先标注的实体关系与预测实体关系确定实体关系抽取模型的预测准确率;在预测准确率达到预设阈值的情况下,确定实体关系抽取模型训练完毕。
80.在一个实施例中,油气管道领域的管理系统、生产系统、科研管理系统以及标准查询系统的至少一者中所包含的业务数据;外部系统中包含的油气管道领域内的期刊和文献数据;网页中所包括的油气管道领域内的数据。
81.在一个实施例中,实体识别学习模型为双向长短时期记忆网络,实体关系抽取模型为cnn神经网络。
82.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
83.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
84.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
85.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
86.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
87.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
88.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
89.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
90.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献