一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于水利行业标准的知识图谱自动化构建方法和系统

2022-05-18 02:34:13 来源:中国专利 TAG:


1.本发明涉及知识图谱构建,特别是一种基于水利行业标准的知识图谱自动化构建方法和系统。


背景技术:

2.知识图谱的概念是google在2012年提出的,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。知识图谱本质上就是一张巨大的语义网络图,由结点和边组成,结点表示表示实体,边表示实体与实体之间的关系,这是最直观、最易于理解的知识表示和实现知识推理的框架,也奠定了第三代人工智能研究的基础。
3.近年来,各种各样的知识图谱,无论是通用知识图谱还是领域知识图谱,均被大量构建并应用于各行各业。在水利领域,随着水利信息化的推进,必然要求智能化程度的题号,而知识图谱作为人工智能的基石,在水利领域也将发挥越来越重要的作用。知识图谱构建对于知识图谱的应用十分重要,如何高效快速准确的建立起知识图谱,成为知识图谱领域一个重要的课题。对于水利领域,大量的水利数据存放在水利领域关系型数据库中,这些数据库分散在全国各个地方的水利机构,由于国家各种水利工程的不断建设,水利对象和对象之间的关系一直处于动态变化之中。因此,通过一种方式可以自动的、高效、可定制化的抽取这些数据库中的数据对于水利领域知识图谱的构建至关重要。
4.知识图谱除了用三元组的形式进行表示,还可以通过向量进行表示,这种表示形式在链接预测和图谱补全方面发挥着越来越重要的作用,知识图谱的向量表示是知识图谱和深度学习结合的重要途经。知识图谱嵌入模型是将知识图谱向量化表示的重要途经,但是这种模型的有效性基于大量的训练样本。在水利领域,存在大量的少样本的水利对象,这些对象构成的三元组不超过十个,但是这些对象对于管理决策有着不小影响,因此需要一种方法对这些少样本水利对象进行补全。
5.当今时代是一个图的时代,图数据库越来越受欢迎,灵活性是图数据库越来越受欢迎的的一个强大动力,近些年来,越来越多的图数据库进入市场,但是绝大多数图数据库使用两种主流的图数据模型:属性图和rdf图。属性图的一个重要特点是它对象和对象之间的关系即便url相同,也代表不同的谓语,可以定制化这些谓语,这对于水利领域是至关重要的,但是它不支持标准化查询语言,对于结点和关系的插入都要该表图结构。rdf图所有的资源都被描述为结点,url为唯一标识符,支持查询语言,对于结点和关系的增加都非常灵活,但是对象和对象间的相同关系都只存在一个,没有办法定制独立的谓语。因此,结合这两种方法的优点对于存储水利领域知识图谱数据至关重要。


技术实现要素:

6.发明目的:本发明的目的是提供一种高效、准确、定制化的基于水利行业标准的知识图谱自动化构建方法和系统。
7.技术方案:本发明所述的一种基于水利行业标准的知识图谱自动化构建方法,包
括以下步骤:
8.(1)构建水利对象数据库映射图谱模块;
9.(1.1)构建水利领域知识图谱的概念层,通过概念层指导映射图谱的构建,所述概念层包括水利对象概念和水利对象之间的关系;
10.(1.2)根据不同水利对象的特征和水利对象间的关系,构建出通用的覆盖全部水利对象和水利对象之间关系的映射规则,映射规则以图数据的形式存放到图谱数据库中,形成映射图谱;
11.(1.3)构建定制化映射规则的接口,生成定制化的水利领域知识图谱,所述接口能动态修改映射图谱中的映射规则,所述映射规则包括水利对象的属性、对象之间关系、对象所属概念。
12.(2)构建数据转化模块,使用映射图谱中的规则,将水利对象数据库中的数据转化为图谱数据,并将图谱数据存储到图数据库中;
13.(2.1)使用步骤(1)中构建的映射图谱中的映射规则,生成可以查询关系型数据库的查询语句,根据查询结果和映射图谱中的转化规则,将关系型数据转化为图谱数据;
14.(2.2)使用映射规则,将生成的图谱数据转化为图数据库操作语句,图谱数据存储到图数据库中。
15.(3)构建知识图谱存储模块,该模块结合当前两类主流图数据模型属性图和rdf图的优点,进行三元组的存储;
16.(3.1)使用属性图的方式,对水利对象间的关系进行实例化,并且对关系打标签,生成每个对象间特有的关系实例;
17.(3.2)将以属性图组织的知识图谱转化为rdf图的形式,将数据存储到知识图类型的图数据库中。
18.(4)构建水利知识图谱补全模块,包括图谱向量表示和元学习模型,元学习模型利用图谱向量表示进行图谱补全;
19.(4.1)使用transe模型和深度学习神经网络词嵌入技术,将生成的图谱数据中的实体和关系全部编码成极坐标中的词向量的形式,用于图谱补全;
20.(4.2)构建元学习模型,使用图谱的向量表示形式,通过支持集中的数据对查询集中需要补全的数据进行链接预测,对现有的水利领域知识图谱进行补全;所述元学习模型包括关系元学习器和嵌入学习器,关系元学习器通过支持集中头尾实体向量生成关系元,嵌入学习器通过实体嵌入和关系元来计算支持集和查询集中三元组的真值。
21.(5)构建水利知识图谱可视化模块,包括查询模块和响应模块。将查询到的信息在浏览器可视化展示和下载。
22.(5.1)构建查询模块,所述查询模块分为全局查询可视化模块和局部查询可视化模块,全局查询可视化模块用于将图数据库中的全部三元组进行可视化,局部查询可视化模块可以根据输入的知识图谱数据库查询需求可视化查询到的数据;
23.(5.2)构建响应模块,所述响应模块将查询模块中的查询请求转化为图数据查询语言,对图数据库进行查询,然后将查询到的数据进行转义,向前端传递可以可视化的数据集;
24.(5.3)构建数据集下载模块,所述据集下载模块能将查询模块可视化的数据集进
行下载。
25.一种基于水利行业标准的知识图谱自动化构建系统,包括以下模块:
26.水利对象数据库映射图谱模块:该模块包括中华人民共和国水利部发布的水利行业标准水利对象基础数据库表结构中所有表的映射图谱和定制化映射规则功能,这些映射图谱用于数据转换;
27.数据转化模块:该模块的功能是使用映射图谱中的规则,将水利对象数据库中的数据转化为图谱数据,并将图谱数据存储到图数据库中;
28.知识图谱存储模块:该模块的功能是结合当前两类主流图数据模型属性图和rdf图的优点,进行三元组的存储;
29.水利知识图谱补全模块:包括图谱向量表示和元学习模型,该模块的功能是元学习模型利用图谱向量表示进行图谱补全;
30.水利知识图谱可视化模块:包括查询模块和响应模块,该模块的功能是将查询到的信息在浏览器可视化展示和下载。
31.一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于水利行业标准的知识图谱自动化构建方法。
32.一种计算机设备,包括储存器、处理器及存储在存储器上并可再处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于水利行业标准的知识图谱自动化构建方法。
33.有益效果:与现有技术相比,本发明具有如下优点:
34.1、本发明实现了基于水利行业标准的知识图谱自动化构建系统,通过映射图谱,高效、准确、可定制化地将关系型数据转化为图谱数据;
35.2、本发明结合两种图数据模型的优点,对生成的三元组进行存储。同时使用元关系学习模型对知识图谱进行补全,完善现有图谱,并且系统实现了对图谱数据进行可视化和数据集的下载。
附图说明
36.图1为本发明所述方法的框架示意图;
37.图2为本发明所述系统的功能模块划分和关联关系示意图。
具体实施方式
38.下面结合附图对本发明的技术方案作进一步说明。
39.如图1所示,一种基于水利行业标准的知识图谱自动化构建方法,本实施例以将水利部水利对象基础数据库中的数据转化为知识图谱数据为例,具体如下:
40.s1:构建水利对象数据库映射图谱模块,通过水利对象基础数据库构建映射图谱,构建定制化映射规则的功能,这些映射图谱用于数据转换。
41.s2:构建数据转化模块,使用映射图谱中的规则,将水利对象数据库中的关系型数据转化为图谱数据,并将数据存储到图数据库中。
42.s3:构建知识图谱存储模块,该模块结合当前两类主流图数据模型属性图和rdf图的优点,进行三元组的存储。
43.s4:构建水利知识图谱补全模块,包括图谱向量表示和元学习模型,同时引入语义分层技术,元学习模型利用图谱向量表示进行图谱补全。
44.s5:构建水利知识图谱可视化模块,包括查询模块和响应模块。将查询到的信息在浏览器可视化展示和下载。
45.其中,在s1中,构建水利对象数据库映射图谱模块包括以下步骤:
46.s1.1、构建水利领域知识图谱的概念层,概念层通过prot
égé
进行构建,通过咨询水利行业专家和查阅相关文献资料,构建出用于指导映射图谱和知识图谱实例层构建的水利知识图谱概念层,并且将概念层存放到映射图谱库和水利对象知识图谱库中。图数据库使用的是jenatdb,查询工具采用jena fuseki;
47.s1.2、通过水利领域知识图谱的概念层和水利部颁发的水利行业标准——水利对象基础数据库表结构及标识符,构建出通用的覆盖全部水利对象和水利对象之间关系的映射规则,映射规则以图数据的形式存放到图谱数据库jenatdb中,形成映射图谱。构建过程首先构建映射模板,放到图数据库中,然后根据系统的前端页面针对水利对象数据库标准的每一张表构建出和表相关的映射规则,然后将映射规则存放到jenatdb,存放过程根据规则自动融合对象和对象之间的关系,使用时这些规则可以自由组合,生成所需的定制化的水利领域知识图谱;
48.s1.3、构建定制化映射规则的前端交互接口,由于需求不同,通用的映射规则不一定满足所有的需求,根据水利对象或水利对象之间的关系通过sparql语句查询映射图谱,筛选出需要修改的映射规则,然后在前端进行修改,可以通过这种方式生成可定制化的水利领域知识图谱。
49.其中,在s2中,构建数据转化模块具体包括以下步骤:
50.s2.1、首先,根据转化需求生成查询规则的图数据查询语言,使用jena fuseki查询工具通过图数据查询语言查询出映射图谱中的映射规则。其次,通过映射规则生成可以查询关系型数据库的查询语句,支持mysql、oracle等所有主流数据库。然后根据映射规则将查询出的结果生成三元组;
51.s2.2、使用映射规则,将生成的三元组转化为图数据库操作语句,将三元组保存到图数据库中,这里使用的图数据库是jenatdb,并且使得新生成的三元组和图数据库中原有的水利图谱概念层与原有的图谱数据进行融合。
52.其中,在s3中,构建知识图谱存储模块具体包括以下步骤:
53.s3.1、图数据存储使用的是jenatdb,这种数据库满足了水利领域知识图谱存储的绝大多数需求,但是在水利领域,这种rdf图的数据模型有些重要的需求无法满足,比如雨量站监测某写区域的降雨量,由于一个区域被多个雨量站监测,一个雨量站也会监测多个区域,在rdf图数据模型中,监测这个关系也是一个结点,虽然三元组中的主语或者宾语不同,但是存储时,谓语确实同一个,这样导致无法标识某个雨量站对某个区域影响因子的大小,所以在存储水利领域知识图谱时,引入了属性图数据模型的思想,对水利对象间的关系进行实例化,并且对关系打标签。为了提高存储效率,在映射规则中对是否实例化关系进行标注;
54.s3.2、将以属性图组织的知识图谱用rdf进行重写,将数据存储到jenatdb。
55.其中,在s4中构建知识图谱补全模块,具体包括以下步骤:
56.s4.1、将图谱数据库中的所有实体和关系进行one-hot编码,然后使用深度学习神经网络和transe模型对编码进行降维,为了丰富少样本数据,引入语义分层,生成50维的知识图谱词向量;
57.s4.2、构建元学习模型,为了解决水利领域中实体的少样本问题,在元学习模型的基础之上,引入了语义分层。元学习模型分为关系元学习器和嵌入学习器。元学习模型根据支持集中的三元组,首先将头实体和为实体的向量进行拼接输入神经网络,得到50维的向量,然后将支持集和学习到的向量输入到嵌入学习器中,在嵌入学习器中,主要使用引入了语义分层的transe模型,使用它的损失函数,计算出梯度元,然后用梯度元修正计算出的50维向量,同时将查询集的三元组输入到嵌入学习器中,然后得到尾实体,对水利行业知识图谱进行补全。
58.其中,在s5中构建水利领域知识图谱可视化模块,具体包括以下步骤:
59.s5.1、构建查询模块,查询模块分为全局查询模块和局部查询模块,在全局查询模块中,可以将全部实例层或全部概念层进行可视化;在局部查询模块中,首先查询出水利对象知识图谱中对象的种类,然后选择相应对象进行可视化;
60.s5.2、构建响应模块,响应模块和查询模块通过http协议进行交互,交互数据的格式为json格式,响应模块接受查询模块的查询需求,将查询转义,转化成图数据查询语言。对于全局查询,主要使用图的广度优先遍历算法,对于局部查询,主要是将查询需求转化为sparql查询语句。对于查询结果,响应模块封装图数据,将图数据转化成json格式的数据,传递给查询模块和下载模块进行可视化和下载;
61.s5.3、构建下载模块,下载模块可以下载响应模块返回的json数据。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献