一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

化学品安全知识图谱的构建方法、构建系统和存储介质与流程

2021-10-19 22:01:00 来源:中国专利 TAG:化学品 构建 图谱 安全知识 方法


1.本发明涉及化学品安全领域,具体涉及化学品安全知识图谱的构建方法、构建系统和存储介质。


背景技术:

2.知识图谱是一种图结构数据库,其特点是融合不同来源、不同类型、不同结构的数据,提取出本体后,通过本体之间的关系关联成图。其本质是将领域内的数据体系化、关系化,再通过图形的方式实现可视化。知识图谱可用于呈现知识资源,挖掘、分析、构建和显示知识之间的关联关系。目前知识图谱的应用主要集中在搜索引擎和智能问答领域,在专业领域应用较少。
3.在化学品安全领域,化学品种类庞杂,化学反应千变万化,化学品管理法规繁多,化工企业量大面广,化学品事故频发,而传统的关系型数据库不便于化学品安全知识体系内容的融合与扩充,也无法为化学品安全从业人员提供高质量的数据支撑。因此,构建化学品安全知识图谱,整合多源异构数据,深度挖掘数据之间的关系将起到重要作用。


技术实现要素:

4.本发明的目的是为了克服现有技术中缺少化学品安全知识图谱的问题,本发明第一方面提供一种化学品安全知识图谱的构建方法,该方法能够辅助化学从业人员开展对化学品安全更有针对性的监管。
5.本发明第二方面提供一种化学品安全知识图谱的构建系统。
6.本发明第三方面提供一种存储介质。
7.为了实现上述目的,本发明一方面提供一种化学品安全知识图谱的构建方法,包括以下步骤:
8.s1:收集化学品安全领域数据库中的数据,构建化学品安全知识词典;
9.s2:获取化学品安全领域的多源异构数据,得到化学品安全知识图谱所需的数据源;
10.s3:基于所述化学品安全知识词典从所述数据源中提取实体以及实体的属性和属性值,其中,所述实体包括多个子实体;
11.s4:分析、建立不同所述子实体之间的关联关系;
12.s5:根据所述关联关系建立化学品安全知识图谱。
13.优选条件下,对获取到的所述多源异构数据进行数据清洗、数据去重、数据标注,并对所述多源异构数据进行分类别、分层次、多维度的加工处理得到所述构建数据。
14.优选条件下,在步骤s2中,所述多源异构数据的获取途径包括:获取现有化学品安全数据库的数据;获取化学品安全领域的文献类数据;获取化学品安全领域相关网页内容。
15.优选条件下,在步骤s3中,提取实体的方法为:基于所述化学品安全知识词典对所述数据源中的数据进行字符串识别,将识别后的词汇作为实体。
16.优选条件下,在步骤s3中,所述实体包括化学品子实体、企业子实体、重大危险源子实体和事故子实体。
17.优选条件下,在步骤s3中,所述化学品子实体的属性包括:化学品中文名称、cas号、沸点等;和/或
18.所述企业子实体的属性包括:企业名称、法人、地址等;和/或
19.所述重大危险源子实体的属性包括:重大危险源名称、重大危险源等级、r值等;和/或
20.所述事故子实体的属性包括:事故名称、事故发生时间、事故地点等。
21.优选条件下,在步骤s4中,所述关联关系包括:化学品子实体与企业子实体的关联关系、化学品子实体与重大危险源子实体的关联关系、化学品子实体与事故子实体的关联关系、企业子实体与重大危险源子实体的关联关系、企业子实体与事故子实体的关联关系。
22.优选条件下,在步骤s5中,所述化学品安全知识图谱的建立方法为:利用步骤s4得到的实体间关系数据构造知识图谱,在知识图谱中以各实体作为节点,以所述子实体之间的关联关系作为知识图谱的边,通过可扩展标记语言xml存储化学品子实体节点、企业子实体节点、重大危险源子实体节点和事故子实体节点以及它们的关系边所表示的知识,得到化学品安全知识图谱。
23.本发明第二方面提供一种学品安全领域知识图谱的构建系统,所述构建系统包括处理器,所述处理器用于执行所述的构建方法。
24.本发明第三方面提供一种存储介质,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行所述的构建方法。
25.通过上述技术方案,本发明具有以下技术效果:
26.本发明通过构建化学品安全知识图谱,梳理多源异构的数据,打通了不同数据库之间的壁垒,为公众和企业提供了一个化学品安全数据的便捷查询平台,使从业人员能够发现和探究化学品、企业、重大危险源、事故之间更深度的关联关系,进而辅助化学品安全从业人员开展对化学品安全更有针对性的监管,具有广阔的应用前景。
附图说明
27.图1是根据本发明一种实施方式的化学品安全知识图谱的构建方法的流程图;
28.图2是根据本发明一实施方式的化学品安全知识图谱的构建系统的结构框图。
具体实施方式
29.在本文中所披露的范围的端点和任何值都不限于该精确的范围或值,这些范围或值应当理解为包含接近这些范围或值的值。对于数值范围来说,各个范围的端点值之间、各个范围的端点值和单独的点值之间,以及单独的点值之间可以彼此组合而得到一个或多个新的数值范围,这些数值范围应被视为在本文中具体公开。
30.图1是根据本发明一种实施方式的化学品安全知识图谱的构建方法的流程图,如图1所示,本发明提供了一种化学品安全知识图谱的构建方法,包括以下步骤:
31.s1:收集化学品安全领域数据库中的数据,构建化学品安全知识词典;
32.s2:获取化学品安全领域的多源异构数据,得到化学品安全知识图谱所需的数据
源;
33.s3:基于所述化学品安全知识词典从所述数据源中提取实体以及实体的属性和属性值,其中,所述实体包括多个子实体;
34.s4:分析、建立不同所述子实体之间的关联关系;
35.s5:根据所述关联关系建立化学品安全知识图谱。
36.在本发明在步骤s2中,所述多源异构数据的获取途径包括:获取现有化学品安全数据库的数据;获取化学品安全领域的文献类数据;获取化学品安全领域相关网页内容,例如可以从新闻网站、政府公告、法律法规、工商网站、化学品安全数据网站、百科网站等获取数据源。
37.本发明中,所述数据源可以是非结构化的文本数据,例如法律文书、事故新闻等,也可以是列表的形式,如化学品目录、企业目录等。
38.优选条件下,本发明对获取到的所述多源异构数据进行数据清洗、数据去重、数据标注,并对所述多源异构数据进行分类别、分层次、多维度的加工处理得到所述构建数据。
39.在本发明步骤s3中,提取实体的方法为:基于所述化学品安全知识词典对所述数据源中的数据进行字符串识别,将识别后的词汇作为实体。本发明中,所述实体包括化学品子实体、企业子实体、重大危险源子实体和事故子实体,所述化学品子实体的属性包括:化学品中文名称、cas号、沸点等;所述企业子实体的属性包括:企业名称、法人、地址等;所述重大危险源子实体的属性包括:重大危险源名称、重大危险源等级、r值等;所述事故子实体的属性包括:事故名称、事故发生时间、事故地点等。
40.为了获得更丰富和准确的化学品安全知识图谱构建数据,进一步优选的,在所述步骤s3中,在数据源中对实体以及实体的属性值进行循环提取,其中循环提取包括对已有数据的循环识别和对实时数据的循环识别,实时数据是指网络、期刊等实时更新的数据。
41.对已有数据的循环识别的方法为:对需要识别的数据进行分条,再对分条后的每一条数据进行逐条提取实体和实体的属性。例如,在由100条数据构成的数据源中提取(乙醇,别名,酒精)这个属性三元组,应当从第一条数据到第100条数据中逐条提取实体及其属性值,即虽然在第1条数据中提取了“乙醇”这个实体,也在第100条数据中提取了(乙醇,别名,酒精)这个属性三元组,那么在前2-99条数据中,凡是涉及“酒精”这个关键词的属性,只有通过循环识别才能提取出来,这里循环识别的终点为每一条数据都被完全提取。
42.对实时数据的循环识别的方法为:对实时数据(网络数据或期刊数据)进行有针对性的定期爬取。例如:对于“a企业”这个实体,系统定期以a企业的企业名称作为关键词进行爬取工作,当该企业发生某起事故时,系统会爬取事故数据,并且提取事故实体b。通过定期爬取和补充,化学品安全知识图谱系统才能成为有成长性的系统。
43.由于不同类别的子实体具有不同的属性,因此,可以将某个子实体的一个具有唯一性的属性进行合并、去重和对齐。例如,对于化学品子实体,其属性“cas号”具有格式统一的特点,且具有唯一性。因此,对化学品子实体进行“属性—属性值”的提取后,将“cas号”作为化学品子实体识别属性,进行去过滤、去重及对齐。在此基础上,将“中文名称”作为关键属性,对不具有识别属性的实体进行过滤和对齐。
44.例如,通过步骤s3提取到化学品子实体一{cas号:64-17-5;中文名称:乙醇},化学品子实体{cas号:64-17-5;中文名称:无水酒精},化学品子实体{中文名称:乙醇;沸点:
78.3℃}。首先进行子实体过滤,将具有识别属性(cas号)的化学品子实体一和化学品子实体二作为两个实体放入化学品子实体库中,化学品子实体三因为没有识别属性“cas号”(也可以认为识别属性值为空),放入待识别库中;其次,以化学品子实体一为基准,将实体库中的其他化学品子实体与其进行比较。因为化学品子实体二具有与化学品子实体一相同的识别属性值(64-17-5),故将化学品子实体一和化学品子实体二进行合并,得到的化学品子实体四{cas号:64-17-5;中文名称:乙醇、无水酒精}。将化学品子实体四放入实体库中,同时,删除化学品子实体一和化学品子实体二。最后,以关键属性“中文名称”为基准,将化学品子实体三与化学品子实体库中的实体进行比对后,将化学品子实体三与所述化学品子实体四进行合并得到化学品子实体{cas号:64-17-5;中文名称:乙醇、无水酒精;沸点:78.3℃}。
45.在化学品安全领域,相同类别的子实体间不构成关联关系。因此,在本发明步骤s4中,所述关联关系指不同类别实体间的关系,进一步的,所述关联关系包括:化学品子实体与企业子实体的关联关系、化学品子实体与重大危险源子实体的关联关系、化学品子实体与事故子实体的关联关系、企业子实体与重大危险源子实体的关联关系、企业子实体与事故子实体的关联关系。例如,化学品子实体与企业子实体的关联关系关系分为三种类型:

企业进口化学品(简称为:进口);

企业使用该化学品做为生产原料(简称为:原料)、

企业生产该化学品(简称为:产品)。
46.在本发明步骤s5中,所述化学品安全知识图谱的建立方法为:利用步骤s4得到的实体间关系数据构造知识图谱;在知识图谱中以各实体作为节点,以所述子实体之间的关联关系作为知识图谱的边,通过可扩展标记语言xml存储化学品子实体节点、企业子实体节点、重大危险源子实体节点和事故子实体节点以及它们的关系边所表示的知识得到化学品安全知识图谱。
47.在本发明的一个优选实施方式中,在构建可视化化学品安全知识图谱时,为了区分相同实体之间的不同相关关系,可以将两点之间的连线替换为箭头。例如,在表示化学品子实体与企业子实体的关联关系中,进口的表示方法为由化学品子实体指向企业子实体;原料的表示方法为由化学品子实体指向企业子实体;产品的表示方法为由企业子实体指向化学品子实体;化学品子实体与重大危险源子实体关联关系的表示方法为由化学品子实体指向重大危险源子实体;化学品子实体与事故子实体相关关系的表示方法为由化学品子实体指向事故子实体;重大危险源子实体与企业子实体相关关系的表示方法为由重大危险源子实体指向企业子实体;企业子实体与事故子实体相关关系的表示方法为由企业子实体指向事故子实体。
48.图2是根据本发明另一实施方式的化学品安全知识图谱的构建系统的结构框图,如图2所示,本发明还提供一种学品安全领域知识图谱的构建系统,所述构建系统包括处理器,所述处理器用于执行所述的构建方法。
49.更具体的,所述构建系统包括:
50.化学品安全知识词典构建单元10,用于收集化学品安全领域数据库中的数据,构建化学品安全知识词典;
51.数据集构建单元20,用于获取化学品安全领域的多源异构数据,得到构建化学品安全知识图谱所需的数据源;
52.实体识别单元30,用于根据所述化学品安全知识词典对所述数据源进行实体识
别;
53.反应关系建立单元40,用于对所述实体识别单元30形成的各个实体建立反应关系;
54.化学品安全知识图谱构建单元50,用于根据所述各个实体之间的反应关系构建化学反应知识图谱;
55.具体的,所述实体识别单元30包括:
56.化学品子实体识别单元31,用于对所述数据集中的化学品进行实体识别,得到化学品子实体;
57.企业子实体识别单元32,用于对所述数据集中的企业进行实体识别,得到化学品子实体;
58.重大危险源子实体识别单元33,用于对所述数据集中的重大危险源反应进行实体识别,得到重大危险源子实体。
59.事故子实体识别单元34,用于对所述数据集中的事故进行实体识别,得到事故子实体。
60.本发明还提供一种存储介质,所述存储介质存储有指令,所述指令用于被机器读取以使得所述机器执行所述的构建方法。
61.以上详细描述了本发明的优选实施方式,但是,本发明并不限于此。在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,包括各个技术特征以任何其它的合适方式进行组合,这些简单变型和组合同样应当视为本发明所公开的内容,均属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜