一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向建设工程领域的知识图谱构建方法及系统与流程

2022-04-30 13:42:36 来源:中国专利 TAG:


1.本发明属于数据挖掘技术领域,尤其涉及一种面向建设工程领域的知识图谱构建方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.自然语言分析和知识图谱技术为非结构化大数据分析提供了一个分析、整理和查询方法,是互联网搜索引擎的主要支撑和实现技术,也支撑了多个行业的非结构化大数据整理和分析,但是在建筑行业还少有使用,主要原因有以下几点:1.建筑行业的数字化、信息化程度相对其他行业落后很多,无法支撑起培训知识图谱所需要的数据;2.基础建筑行业的非结构化数据来源广、信息不规范,导致已有的自然语言分析技术无法被直接应用。


技术实现要素:

4.为克服上述现有技术的不足,本发明提供了一种面向建设工程领域的知识图谱构建方法及系统。能够针对建设工程领域的多种规范文件,进行结构化组织,从而便于相关人员进行查询。
5.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
6.一种面向建设工程领域的知识图谱构建方法,包括以下步骤:
7.获取建设工程相关规范文件,并按照条款进行分解;
8.根据预设实体类别,对规范文件的每个条款分别进行实体抽取;
9.依次针对属于相同条款的实体,以及属于同一规范文件中的实体逐级建立关联,得到建筑工程领域知识图谱。
10.进一步地,对规范文件的每个条款分别进行实体抽取包括:
11.对于规范文件中的每个条款,进行分词和剔除停用词处理;
12.对于剩余分词,结合给定语料,基于机器学习进行实体抽取。
13.进一步地,所述方法还包括:对所述知识图谱进行可视化。
14.进一步地,所述可视化包括多级导航模式,其中,第一级导航模式用于以层级结构形式显示所述知识图谱的分类体系,其他级别导航模式用于针对上一级指定实体,显示与该实体相关联的知识图谱。
15.一个或多个实施例提供了一种基于知识图谱的建设工程领域规范检索方法,所述知识图谱基于所述方法构建得到;所述方法包括:
16.接收待查询语句,根据预设建筑工程领域词典,得到主题关键词;
17.根据主题关键词,基于知识图谱,查询相关规范条款。
18.进一步地,查询相关规范条款包括:
19.抽取建筑工程领域知识图谱中的所有实体,对每个实体构建n-gram到实体的倒排
索引表;
20.对每个主题关键词构建n-gram,基于倒排索引表得到相应候选实体列表;
21.对每个主题关键词,分别计算其与相应候选实体之间的相似度,将相似度最高的候选实体作为映射到知识图谱中的实体。
22.一个或多个实施例提供了一种基于知识图谱的建设工程领域规范检索系统,包括:
23.结构化处理模块,用于获取建设工程相关规范文件,并按照条款进行分解;
24.实体抽取模块,用于根据预设实体类别,对规范文件的每个条款分别进行实体抽取;
25.知识图谱构建模块,用于依次针对属于相同条款的实体,以及属于同一规范文件中的实体逐级建立关联,得到建筑工程领域知识图谱。
26.一个或多个实施例提供了一种基于知识图谱的建设工程领域规范检索系统,包括:
27.查询语句分析模块,用于接收待查询语句,根据预设建筑工程领域词典,得到主题关键词;
28.条款查询模块,用于根据主题关键词,基于知识图谱,查询相关规范条款。
29.一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法。
30.一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述方法。
31.以上一个或多个技术方案存在以下有益效果:
32.提供了一种专门面向建设工程领域的知识图谱的构建方法,能够对建设工程相关的规范进行结构化组织。并且以条款为基本粒度进行实体的提取,能够构建具有更加细粒度知识的知识图谱,有助于后续相关人员对所需知识进行快速理解。
33.基于该知识图谱,还提供了一种基于倒排索引和相似度相结合的检索方法,依次根据实体的概率模型,以及实体的文本相似度进行两次匹配,从而更准确地将待查询对象与知识图谱中的实体建立关联,提高检索准确度。
附图说明
34.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
35.图1为本发明实施例一中所述面向建设工程领域的知识图谱构建方法的流程图;
36.图2为本发明实施例二中基于所述知识图谱的规范检索方法流程图。
具体实施方式
37.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
38.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根
据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
39.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
40.实施例一
41.本实施例公开了一种面向建设工程领域的知识图谱构建方法,包括以下步骤:
42.步骤1:获取建设工程相关规范文件。
43.所述规范文件主要是国家或地方政府针对建设工程安全生产方面制定的法律、法规、标准、规范等,从技术和管理等方面为安全生产提供了规范引导和制度保证。建设工程的相关规范文件根据发布机构和作用范围可以划分为6类:法律、行政法规、部门规章、国家标准、行业标准、地方法规。
44.步骤2:对所述规范文件进行结构化。
45.具体地,将规范文件按照条款分解,得到以条款为单位的结构化文件。
46.步骤3:根据预设实体类别,基于自然语言处理技术,从规范文件的每个条款分别进行实体抽取。
47.具体地,对于规范文件中的每个条款,分别进行分词,并剔除停用词,对于剩余分词,结合给定语料,基于机器学习进行实体抽取。
48.从规范条款中抽取更加详细的知识元,通过语义网建模,能够形成更细粒度的知识单元,从而支持多种粒度级别的知识检索、知识推理和知识问答等智能应用。本实施例中,根据建筑工程领域相关的分类体系,确定实体类型。
49.步骤4:依次针对属于相同条款的实体,以及属于同一规范文件中的实体逐级建立关联,得到建筑工程领域知识图谱。
50.知识图谱在实体之间建立了联系,借助于知识图谱中的关联能够有针对性地引导用户获取所需。
51.步骤5:对所述知识图谱进行可视化。所述可视化包括多级导航模式,第一级导航模式为默认模式,用于以层级结构形式显示所述知识图谱的概念分类体系,例如施工任务下一级包括专项工程、土建工程、系统工程和综合性工程,施工环境下一级包括地质水文、周边道路、周边建筑、周边管线和其他环境,等等。第二级导航为基于第一级导航模式中指定实体所展开的知识图谱。其他级别导航模式均为针对上一级指定实体,显示与该实体相关联的知识图谱。用户可以自主选择和扩展感兴趣的实体,具有很强的灵活性和适用性,并且,用户能够充分了解实体之间的结构关系。
52.如根据组织角色类型选定“施工单位”,根据已有关系路径将能够依次定位到组织角色“施工单位”——术语词汇“建筑施工企业”——规范条款“主席令第46号(2019)第三十九条”——标准规范“主席令第46号(2019)(中华人民共和国建筑法)”。对于每一实体类别,可分别查看其属性信息,如:术语的解释、规范条款的条文内容、标准规范的生效日期等。
53.本发明通过对建设工程中用到的规范、法规、标准等文档进行自然语言分析,构建了灵活可扩展的知识图谱,如后期可提供检索系统模块、本体推理模块、本体编辑模块和本体知识库模块;检索系统模块用于获取用户的查询指令,对查询指令进行解析,匹配知识图谱中相应实体,从而得到检索结果。本体推理模块包括语义推理单元,用于接收语音识别单
元获得的文本信息,实现语义推理;本体编辑模块包括本体编辑工具单元,实现建筑工程领域本体及主体关系的编辑;本体知识库模块,可用于建设建筑工程领域本体知识库,并形成推理规则库和实例库。
54.自然语言分析,是一种集知识采集、知识管理、语义推理于一体的基于自然语言处理机制,使得建筑工程更加高效智能。建立起建筑行业的专业字典和知识体系,并创建专业所需的知识图谱,来支持信息查询和文档分类等功能。
55.实施例二
56.基于实施例一构建的建筑工程领域知识图谱,本实施例提供了一种规范查询方法,包括以下步骤:
57.步骤1:接收待查询语句,根据预设建筑工程领域词典,自左至右逐词扫描,根据词典辨认每个单词的词义和用法。
58.步骤2:根据语义规则和推理规则获取输入句的含义,得到主题关键词。
59.对待查询语句中的单词进行识别,得到指向建筑工程领域实体的相关词汇,作为查询所用主题关键词。
60.步骤3:根据主题关键词,基于知识图谱,查询相关规范条款。
61.通过语义匹配的方法将识别的实体映射到知识图谱中的实体,得到相关规范条款。所述步骤3具体包括:抽取建筑工程领域知识图谱中的所有实体,对每个实体构建n-gram(n=1,2,

,10)到实体的倒排索引表;对每个主题关键词构建n-gram,基于倒排索引表得到相应候选实体列表;对每个主题关键词,分别计算其与相应候选实体之间的相似度,将相似度最高的候选实体作为映射到知识图谱中的实体。
62.根据映射到的一个或多个实体,从知识图谱中获取相关规范条款。
63.步骤4:针对查询得到的规范条款,结合语句生成规则,组织应答输出。
64.实施例三
65.本实施例提供了一种基于知识图谱的建设工程领域规范检索系统,包括:
66.结构化处理模块,用于获取建设工程相关规范文件,并按照条款进行分解;
67.实体抽取模块,用于根据预设实体类别,对规范文件的每个条款分别进行实体抽取;
68.知识图谱构建模块,用于依次针对属于相同条款的实体,以及属于同一规范文件中的实体逐级建立关联,得到建筑工程领域知识图谱。
69.实施例四
70.本实施例提供了一种基于知识图谱的建设工程领域规范检索系统,包括:
71.查询语句获取模块,用于接收待查询语句,自左至右逐词扫描,根据词典辨认每个单词的词义和用法;根据句法规则确定短语和句子的组合;
72.语句含义解析模块,用于根据语义规则和推理规则获取输入句的含义,得到主题关键词;
73.知识查询模块,用于根据主题关键词,基于知识图谱,查询相关规范条款;
74.查询结果输出模块,用于针对查询得到的规范条款,结合语句生成规则,组织应答输出。
75.目前已建成的书面理解系统应用了各种不同的语法理论和分析方法,如生成语
法、系统语法、格语法、语义语法等等,以此来完成各类知识的存储,包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。
76.(二)信息抽取模块:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
77.(三)知识融合模块:在获得新知识之后,需要对其进行整合,知识融合一般分为两步:本体对齐、实体匹配,且两者的基本流程相类似,在数据预处理阶段,原始数据的质量会直接影响到最终链接的结果,不同的数据集对同一实体的描述方式往往是不相同的,对这些数据进行归一化是提高后续链接精确度的重要步骤,通过以上方法以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
78.(四)知识计算模块:对于经过融合的新知识,需要经过质量评估,质量评估是通过数学计算产生的评估手段,是一种建立在统计理论基础上的计算机程序,网络从不同知识体系深入捕获知识图谱间的内聚关系,深入学习复杂图谱中的内在逻辑。每个子网络都经过一个全连接层以调整各神经元在输出向量中的权重,级联后经过输出层预测得到相关质量评估结果。
79.实施例五
80.本实施例的目的是提供一种电子设备。
81.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一或二中所述的方法。
82.实施例六
83.本实施例的目的是提供一种计算机可读存储介质。
84.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一或二中所述的方法。
85.以上一个或多个实施例提供了一种专门面向建设工程领域的知识图谱的构建方法,能够对建设工程相关的规范进行结构化组织。并且以条款为基本粒度进行实体的提取,能够构建具有更加细粒度知识的知识图谱,有助于后续相关人员对所需知识进行快速理解。此外,基于该知识图谱,还提供了一种基于倒排索引和相似度相结合的检索方法,依次根据实体的概率模型,以及实体的文本相似度进行两次匹配,从而更准确地将待查询对象与知识图谱中的实体建立关联,提高检索准确度。
86.本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
87.上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献