基于图数据库GDB的知识图谱构建方法、装置及设备与流程

2022-03-26 10:14:24 来源：中国专利 TAG：

基于图数据库gdb的知识图谱构建方法、装置及设备
技术领域
1.本发明属于知识图谱的技术领域，尤其涉及一种基于图数据库gdb的知识图谱构建方法、装置及设备。

背景技术：

2.知识图谱，是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱，形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
3.而行业知识图谱是面向特定领域的知识图谱。资源行业的资源数据十分丰富，知识众多，知识图谱的本体schema设计是后续知识推理、挖掘的基础。目前，针对资源行业的知识图谱构建，通常都是将其它行业的知识图谱本体直接移植过来用于建立资源行业的知识图谱。
4.但是实际上，由于不同行业涉及的业务不同，知识数据是存在很大差异的，导致这种方式构建得到的知识图谱所表达的知识数据之间的联系不够准确，也会影响基于知识图谱进行知识路径分析的准确性。
5.传统的基于neo4j的知识图谱构建方法，通过关系数据库，在关系数据的数据上性能较好，支持可视化；但是，其知识查询耗时长，不支持分布式，运维成本高，在企业级的服务上部署成本较高。

技术实现要素：

6.本发明的目的是提供一种基于图数据库gdb的知识图谱构建方法、装置及设备，在原有lac工具的基础上新增了bert finetune增量训练功能，支持分布式部署，运维成本低，支持可视化，查询效率更高。
7.为解决上述问题，本发明的技术方案为：
8.一种基于图数据库gdb的知识图谱构建方法，包括：
9.获取目标行业数据，对数据进行清洗；
10.根据当前业务场景需求，设计知识scheme；
11.根据所述知识scheme，使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型，并通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，实现知识的抽取和存储；
12.基于所述知识的抽取和存储，连接图数据库gdb，构建目标行业的知识图谱。
13.根据本发明一实施例，所述使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型进一步包括：
14.基于lac工具，构建当前业务相关的训练数据集，对训练数据集进行数据清洗；
15.构建bert finetune模型，基于所述训练数据集，对目标数据进行增量训练，得到训练好的实体识别模型。
16.根据本发明一实施例，所述构建bert finetune模型进一步包括：
17.所述bert finetune模型包括词向量层、特征提取层、全连接层及解码层，所述词向量层用于将输入语句分割成词向量；所述特征提取层用于通过双向的gru，对词向量提取特征；所述全连接层用于连接所述特征提取层与所述解码层；所述解码层用于解码输出目标标签序列。
18.根据本发明一实施例，所述实现知识的抽取和存储进一步包括：
19.根据实体识别模型识别得到的关键字，对相应语句进行分类，根据语句的类别，构建cypher语句的问题和答案模板。
20.一种基于图数据库gdb的知识图谱构建装置，包括：
21.数据获取模块，用于获取目标行业数据，对数据进行清洗；
22.scheme设计模块，用于根据当前业务场景需求，设计知识scheme；
23.知识抽取模块，用于根据所述知识scheme，使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型，并通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，实现知识的抽取和存储；
24.图谱构建模块，用于基于所述知识的抽取和存储，连接图数据库gdb，构建目标行业的知识图谱。
25.根据本发明一实施例，所述知识抽取模块包括实体识别单元及模型训练单元；
26.所述实体识别单元采用lac模型实现分词、词性标注及专名识别，所述模型训练单元采用bert finetune算法对所述lac模型进行当前业务的增量训练，得到训练好的实体识别模型。
27.一种基于图数据库gdb的知识图谱构建设备，包括：
28.存储器和处理器，所述存储器中存储有指令，所述存储器和所述处理器通过线路互连；
29.所述处理器调用所述存储器中的所述指令，实现本发明一实施例中的基于图数据库gdb的知识图谱构建方法。
30.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明一实施例中的基于图数据库gdb的知识图谱构建方法。
31.本发明由于采用以上技术方案，使其与现有技术相比具有以下的优点和积极效果：
32.本发明一实施例中的基于图数据库gdb的知识图谱构建方法，针对传统的基于neo4j的知识图谱构建方法知识查询耗时长，不支持分布式，运维成本高，在企业级的服务上部署成本较高的问题，通过当前业务场景需求，设计知识scheme；根据知识scheme，使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型，并通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，实现知识的抽取和存储；基于知识的抽取和存储，连接图数据库gdb，构建目标行业的知识图谱。该方法支持分布式部署，运维成本低，支持可视化，查询效率更高。
附图说明
33.图1为本发明一实施例中的基于图数据库gdb的知识图谱构建方法流图；
34.图2为本发明一实施例中的基于概率模型的序列标准示意图；
35.图3为本发明一实施例中的bert finetune训练模型示意图；
36.图4为本发明一实施例中的基于图数据库gdb的知识图谱构建装置框图；
37.图5为本发明一实施例中的基于图数据库gdb的知识图谱构建设备示意图。
具体实施方式
38.以下结合附图和具体实施例对本发明提出的一种基于图数据库gdb的知识图谱构建方法、装置及设备作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。
39.实施例一
40.图数据库gdb支持属性图，高度兼gremlin图查询语言，实现了高度优化的图引擎计算层和存储层，通过云盘多副本保障数据超高可靠。gdb支持acid事务，默认提供read committed的事务隔离级别。图数据库gdb支持高可用版。当出现故障时，系统将会基于主备故障的各种异常情况迅速将故障转移，保障业务连续性，提供了丰富的数据库运维管理能力，包括备份恢复、自动升级、监控告警、故障切换等，大幅降低运维成本。
41.本发明采用基于图数据库gdb的知识图谱存储方式，以属性图为基本的表示形式，其实体和关系可以包含属性，这就意味着更容易表达现实的业务场景，可支持高效的图查询和搜索。
42.本实施例针对传统的基于neo4j的知识图谱构建方法知识查询耗时长，不支持分布式，运维成本高，在企业级的服务上部署成本较高的问题，提供了一种基于图数据库gdb的知识图谱构建方法，在原有lac工具的基础上新增了bert finetune增量训练功能，支持分布式部署，运维成本低，支持可视化，查询效率更高。
43.请参看图1，该基于图数据库gdb的知识图谱构建方法包括以下步骤：
44.s1：获取目标行业数据，对数据进行清洗；
45.s2：根据当前业务场景需求，设计知识scheme；
46.s3：根据知识scheme，使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型，并通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，实现知识的抽取和存储；
47.s4：基于知识的抽取和存储，连接图数据库gdb，构建目标行业的知识图谱。
48.在步骤s1中，将python爬虫获取的数据以及自身业务积累的数据，通过相关规则和模版对数据进行清洗，通过删除缺失值，均值填补等方法进行数据补全。
49.在步骤s2中，知识scheme设计，根据目前业务场景需求，确定收集的数据中，哪部分作为本体，哪部分作为属性，哪部分是本体与本体之间的关系。
50.图谱的设计不仅要对业务有很深的理解、也需要对未来业务可能的变化有一定预估，从而设计出最贴近现状并且性能高效的系统。在知识图谱设计的问题上，首先要思考下面几个问题1.需要哪些实体、关系和属性？2.哪些属性可以做为实体，哪些实体可以作为属性？3.哪些信息不需要放在知识图谱中？
51.基于这些常见的问题，从以往的设计经验中抽象出了一系列的设计原则。这些设计原则就类似于传统数据库设计中的范式，来引导相关人员设计出更合理的知识图谱系统，同时保证系统的高效性。
52.以简单的例子来说明其中的一些原则。首先是，业务原则，它的含义是一切要从业务逻辑出发，并且通过观察知识图谱的设计也很容易推测其背后业务的逻辑，而且设计时也要想好未来业务可能的变化。
53.然后是，效率原则，效率原则让知识图谱尽量轻量化、并决定哪些数据放在知识图谱，哪些数据不需要放在知识图谱。举一个简单的类比，在经典的计算机存储系统中，经常会谈论到内存和硬盘，内存作为高效的访问载体，作为所有程序运行的关键。这种存储上的层次结构设计源于数据的局部性-locality，也就是说经常被访问到的数据集中在某一个区块上，所以这部分数据可以放到内存中来提升访问的效率。类似的逻辑也可以应用到知识图谱的设计上：把常用的信息存放在知识图谱中，把那些访问频率不高，对关系分析无关紧要的信息放在传统的关系型数据库当中。效率原则的核心在于把知识图谱设计成小而轻的存储载体。
54.在步骤s3中，根据知识scheme，使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型，并通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，实现知识的抽取和存储。
55.命名实体识别(named entity recognition，简称ner)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
56.lac全称lexical analysis of chinese，是百度自然语言处理部研发的一款联合的词法分析工具，实现中文分词、词性标注、专名识别等功能，具有效率高，调用边界，支持移动端等特性。lac是基于crf模型的基础上构建的语法分析工具。
57.crf，英文全称为conditional random field，中文名为条件随机场，是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫(markov)随机场。较为简单的条件随机场是定义在线性链上的条件随机场，称为线性链条件随机场(linear chain conditional random field)，线性链条件随机场可以用于序列标注等问题。
58.而本文需要解决的命名实体识别(ner)任务正好可通过序列标注方法解决。这时，在条件概率模型p(y|x)中，y是输出变量，表示标记序列(或状态序列)，x是输入变量，表示需要标注的观测序列，请参看图2。机器学习时，利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型p(y|x)；预测时，对于给定的输入序列x，求出条件概率p(y|x)最大的输出序列y。
59.设p(y|x)为线性链条件随机场，在随机变量x取值为x的条件下，随机变量y取值为y的条件概率具有如下形式：
60.61.即线性链条件随机场的解码问题，给定条件随机场p(y|x)和输入序列x，得到条件概率最大输出序列，从而实现预测出实体对应的类别。
62.构建lac的训练数据集合，数据格式如图所示：
63.王者荣耀/n资质/n申请/vn要求/n
64.退款/v的/u钱/n去/v了/u哪里/r
65.为什么/v提现/vn失败/v
66.训练数据主要是比心自身业务相关词的句子，如大神资质，大神分，比心豆，魅力值，星钻等等。数据清洗整理后，导入数据，重新编写bert finetune来进行模型增量训练。
67.bert预训练模型在海量数据上进行多目标学习，最终得到embedding包含丰富的信息。将我们新加入的数据，作为训练集，要用到pretrained bert model。没有涉及masked layer和next prediction layer。重新进行模型训练，节省训练时间和gpu资源。
68.bert finetune流程：
69.1.数据收集，清洗，准备好bert finetune需要的训练数据。
70.2.在已有的中文预训练模型基础上，增加少量的神经网络的层数，完成特定的任务，比如序列标注等。训练过程中的模型参数与预训练的模型参数保持一致。隐藏层维度256，词向量维度128，优化器sgd，基础学习率1e-3，词向量层学习率5e-3，batchsize250。
71.3.训练得到新的模型(即实体识别模型)。加载新的模型用以实体识别。模型应用于实体识别的准确率和召回率都在96％以上，相比之前单独使用lac工具，82％的准确率有了很大提升。
72.新模型结构以及数据传输方式，如图3所示：
73.新模型包括：character embedding(即词向量层)，bi-gru(即特征提取层)，full connection(即全连接层)，crf decoding(即解码层)四部分。其中，character embedding：将输入的语句embedding成为词向量；bi-gru：通过双向的gru提取特征；full connection：bi-gru和crf之间的连接层；crf decoding：解码最终的标签序列。
74.通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，在实际应用中，cypher shell需要java运行环境，使用前安装java 8。
75.在neo4j官网下载cypher shell。请使用4.0.5及以下版本。用如下命令启动cypher shell并连接到gdb。将${your_gdb_endpoint}改为图数据库gdb实例地址，形式为“域名:端口”。内网和外网的地址、端口请在图数据库控制台的基本信息页面查看。将${username}改为您的图数据库gdb实例的用户名。将${password}改为您的图数据库gdb实例的密码。在cypher shell提示符后，输入并测试cypher查询语句，每条查询语句应以英文分号(；)结尾。
76.根据实体识别模型识别得到的关键字，对相应语句进行分类，根据语句的类别，构建cypher语句的问题和答案模板。在实际应用中，可根据输入的问题，对问题进行实体识别，问句解析，根据实体识别得到的关键词，对问句进行分类。根据不同问句的问题分类，构建cypher语句的问题和答案模版。
77.在步骤s4中，基于知识的抽取和存储，连接图数据库gdb，构建目标行业的知识图谱。在实际应用中，图数据库gdb兼容py2neo引擎，可在py2neo引擎输入gdb的端口、域名、实例名和密码，通过python主程序构建知识图谱。
78.综上，本实施例提供了一种新的实体识别的方法，应用于知识图谱的构建过程中。实体识别过程中使用了lac语法分析工具，由于原有的百度lac工具不具备增量训练的功能，通过改进，在原有lac工具的基础上引入了bert finetune增量训练功能，提高了模型实体识别的准确率，并且没有影响实体识别的计算速度。与传统的知识图谱(在neo4j上进行构建的)构建方法相比，本方法在图数据库gdb构建知识图谱，在降低运维成本的同时，提高了知识图谱的查询速率。
79.实施例二
80.本实施例提供了一种基于图数据库gdb的知识图谱构建装置，请参看图4，该装置包括：
81.数据获取模块1，用于获取目标行业数据，对数据进行清洗；
82.scheme设计模块2，用于根据当前业务场景需求，设计知识scheme；
83.知识抽取模块3，用于根据知识scheme，使用lac工具，对当前业务相关的词进行增量训练，得到实体识别模型，并通过cypher语句筛选出构建知识图谱所需的本体、属性和关系，实现知识的抽取和存储；
84.图谱构建模块4，用于基于知识的抽取和存储，连接图数据库gdb，构建目标行业的知识图谱。
85.其中，知识抽取模块3包括实体识别单元及模型训练单元，该实体识别单元采用lac模型实现分词、词性标注及专名识别，模型训练单元采用bert finetune算法对lac模型进行当前业务的增量训练，得到训练好的实体识别模型。
86.该基于图数据库gdb的知识图谱构建装置是与上述实施例一的基于图数据库gdb的知识图谱构建方法相对应的虚拟装置，其数据获取模块1、scheme设计模块2、知识抽取模块3和图谱构建模块4的功能及实现方法均如上述实施例一所述，在此不再赘述。
87.实施例三
88.本实施例提供了一种基于图数据库gdb的知识图谱构建设备。请参看图5，该基于图数据库gdb的知识图谱构建设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于图数据库gdb的知识图谱构建设备500中的一系列指令操作。
89.进一步地，处理器510可以设置为与存储介质530通信，在基于图数据库gdb的知识图谱构建设备500上执行存储介质530中的一系列指令操作。
90.基于图数据库gdb的知识图谱构建设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如windows serve、vista等等。
91.本领域技术人员可以理解，图5示出的基于图数据库gdb的知识图谱构建设备结构并不构成对基于图数据库gdb的知识图谱构建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
92.本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性
计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质。该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行实施例一中的基于图数据库gdb的知识图谱构建方法的步骤。
93.实施例二中的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件的形式体现出来，该计算机软件存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
94.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置及设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
95.上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式。即使对本发明作出各种变化，倘若这些变化属于本发明权利要求及其等同技术的范围之内，则仍落入在本发明的保护范围之中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：生产异常的根因定位方法、装置、设备、介质及产品与流程

基于图数据库GDB的知识图谱构建方法、装置及设备与流程

相关文献

最热文献