一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种知识图谱构建方法、装置、存储介质及电子设备与流程

2022-11-19 09:07:34 来源:中国专利 TAG:


1.本发明涉及药物发现技术领域,特别涉及一种知识图谱构建方法、装置、存储介质及电子设备。


背景技术:

2.知识图谱技术已经在搜索、电商、社交等领域得到广泛应用,其被认为在一定程度上也可以大大提高药物研发的效率。疾病的发生是一个复杂的过程,其中涉及到化学,生物,病理,药学等多个学科交叉的内容,药学知识图谱将基因,疾病,药物,副作用,病理,等作为实体并将其中实体和实体之间连接起来形成一个巨大的网络,从而展示各个实体间的关系,并从现有的关系中发现潜在的关系。
3.药学知识图谱涉及多种实体和关系,每种实体和关系都来源于不同的数据库,怎么将这么多种类和这么大数量级别的数据整合在一起是一个复杂的过程。
4.因此,亟需一种知识图谱的构建方法可以把若干庞大药学数据库中的数据整个在一起。


技术实现要素:

5.有鉴于此,本发明提供了一种知识图谱构建方法、装置、存储介质及电子设备,主要目的在于解决目前存在知识图谱创建过程中,各数据库中的数据难以整合在一起的问题。
6.为解决上述问题,本技术提供一种知识图谱构建方法,包括:
7.获取各药学数据库对应的若干药学有关的文本数据;
8.从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
9.至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;
10.基于各所述目标医疗实体关系构建知识图谱。
11.可选的,所述第一医疗实体关系包括:化合物与化合物的关系、化合物与靶点蛋白质的关系、靶点蛋白质与疾病的关系、化合物与疾病的关系、化合物与副作用的关系、基因与基因的关系、基因与通路的关系、基因与疾病的关系、疾病与症状的关系中的一种或几种。
12.可选的,所述方法还包括:获得若干第二医疗实体关系,具体包括:
13.基于目标疾病,获得与所述目标疾病有关的各病理实体;
14.基于各所述病理实体的描述语句,获得与所述病理实体对应的若干描述词汇;
15.基于各所述描述词汇,遍历预定的文献获得包含所述描述词汇和基因实体的描述语句,以得到各所述第二医疗实体关系,其中所述第二医疗实体关系包括:若干病理实体和基因实体的关系;
16.所述至少对各所述第一医疗实体关系进行整合,得到目标实体关系,具体包括:
17.分别对各所述第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系。
18.可选的,所述从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的第一医疗实体关系,具体包括:
19.基于待构建的医疗实体关系,从与所述待构建的医疗实体关系对应的药学数据库中获取与所述待构建的医疗实体关系有关的文本数据;所述待构建医疗实体关系为第一医疗实体与第二医疗实体的映射关系;
20.在各所述文本数据中对第一医疗实体、第二医疗实体以及第一医疗实体与第二医疗实体的关系进行信息提取,获得各所述文本数据对应的初始医疗实体关系;
21.对各所述初始医疗实体关系进行去重处理,得到所述第一医疗实体关系。
22.可选的,所述分别对各所述第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系,具体包括:
23.获取同一目标医疗实体在各个非目标数据库中的第一序列号值;
24.获取所述目标医疗实体在目标数据库的第二序列号值;
25.基于所述第二序列号值更新所述第一序列号值,并对更新序列号后的各所述第一实体关系和各所述第二医疗实体关系进行重组,得到所述目标实体关系。
26.可选的,所述基于各所述描述词汇,遍历预定的文献获得包含所述描述词汇和基因实体的描述语句,以得到各所述第二医疗实体关系,具体包括:
27.基于所述描述词汇,采用预设的自然语言处理技术从预定的文献中获取描述词汇与基因实体的描述语句;
28.对所述描述词汇与基因实体的描述语句进行审核,得到各所述病理实体与所述基因实体对应的第二实体关系。
29.为解决上述问题,本技术提供一种知识图谱构建装置,包括:
30.获取模块:用于获取各药学数据库对应的若干药学有关的文本数据;
31.提取模块:用于从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
32.整合模块:用于至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;
33.构建模块:用于基于各所述目标医疗实体关系构建知识图谱。
34.可选的,所述提取模块具体用于提取所述第一医疗实体关系,所述第一医疗实体关系包括:药物与药物的关系、药物与靶点的关系、靶点与疾病的关系、药物与疾病的关系、药物与副作用的关系、基因与基因的关系、基因与通路的关系、基因与疾病的关系、疾病与症状的关系中的一种或几种。
35.为解决上述问题,本技术提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述知识图谱构建方法的步骤。
36.为解决上述问题,本技术提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述所述知识图谱构建方法的步骤。
37.本技术中的知识图谱的构建方法,通过获取各药学数据库对应的若干药学有关的
文本数据;从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;基于各所述目标医疗实体关系构建知识图谱。通过将各个数据库中的数据进行整合,通过将各数据库中的相同实体的序列号进行统一,将各个药学数据库中的相同实体关系整合在一起,得到一个知识体系全面的药学知识图谱,并且提高了知识图谱构建的效率。
38.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
39.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
40.图1为本技术实施例一种知识图谱构建方法的流程图;
41.图2为本技术又一实施例一种知识图谱构建方法的流程图;
42.图3为为本技术又一实施例一种知识图谱构建装置结构框图。
具体实施方式
43.此处参考附图描述本技术的各种方案以及特征。
44.应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本技术的范围和精神内的其他修改。
45.包含在说明书中并构成说明书的一部分的附图示出了本技术的实施例,并且与上面给出的对本技术的大致描述以及下面给出的对实施例的详细描述一起用于解释本技术的原理。
46.通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本技术的这些和其它特性将会变得显而易见。
47.还应当理解,尽管已经参照一些具体实例对本技术进行了描述,但本领域技术人员能够确定地实现本技术的很多其它等效形式。
48.当结合附图时,鉴于以下详细说明,本技术的上述和其他方面、特征和优势将变得更为显而易见。
49.此后参照附图描述本技术的具体实施例;然而,应当理解,所申请的实施例仅仅是本技术的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本技术模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本技术。
50.本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本技术的相同或不同实施例中的一个或多个。
51.本技术实施例提供一种知识图谱构建方法,如图1所示,包括:
52.步骤s101:获取各药学数据库对应的若干药学有关的文本数据;
53.本步骤在具体实施过程中,首先基于待构建的医疗实体关系,选择与所述待构建医疗实体关系对应的药学数据库,将所述药学数据库中的初始文本数据进行下载,得到与各所述药学数据库对应的各初始文本数据。对下载下来的初始文本数据进行处理,得到与各所述初始文本数据对应的结构化文本数据。所述结构化文本数据中包含各医疗实体名称、各医疗实体关系、各医疗实体序列号等信息,删除与构建知识图谱不相关的信息,得到各所述药学有关的文本数据。
54.步骤s102:从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
55.本步骤在具体实施过程中,基于待构建的医疗实体关系,从与所述待构建的医疗实体关系对应的药学数据库中获取与所述待构建的医疗实体关系有关的文本数据;所述待构建医疗实体关系为第一医疗实体与第二医疗实体的映射关系;在各所述文本数据中对第一医疗实体、第二医疗实体以及第一医疗实体与第二医疗实体的关系进行信息提取,获得各所述文本数据对应的初始医疗实体关系;对各所述初始医疗实体关系进行去重处理,得到所述第一医疗实体关系。所述第一医疗实体的关系包括:化合物与化合物的关系、化合物与靶点蛋白质的关系、靶点蛋白质与疾病的关系、化合物与疾病的关系、化合物与副作用的关系、基因与基因的关系、基因与通路的关系、基因与疾病的关系、疾病与症状的关系等。
56.步骤s103:至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;
57.本步骤在具体实施过程中,同一实体在不同数据库中的名称、序列号都是不相同的,为了将庞大的数据整合在一起,将代表相同实体或者相同实体关系的数据整合在一起,就要对实体序列号进行一个统一。具体的,获取同一目标医疗实体在各个非目标数据库中的第一序列号值;获取所述目标医疗实体在目标数据库的第二序列号值;基于所述第二序列号值更新所述第一序列号值,并对更新序列号后的各所述第一实体关系和各所述第二医疗实体关系进行重组,得到所述目标实体关系。例如:化合物这个实体在各数据库中的名称和序列号各不相同,为了实现化合物实体的统一,可以先基于一种用来识别化合物的文本inchikey来确定在不同数据库中的化合物是否为同一化合物,当各数据库中的化合物的inchikey结构是相同的,则可以确定两个数据库中具有相同inchikey结构的化合物是同一化合物,先确定同一个化合物实体在非目标数据库中的第一序列号值,其中非目标数据库包括:chembl数据库,drugbank数据库,mesh数据库,bindingdb数据库等,然后确定所述化合物实体在目标数据库的第二序列号值,其中所述目标数据库可以为有机小分子生物活性数据库pubchem数据库;又例如:对基因序列号的整合,首先获取同一基因医疗实体在各个非目标数据库中的第一序列号值;其中所述非目标数据库包括:ensemble数据库、mesh数据库、uniprot数据库、omim数据库等然后,获取所述基因医疗实体在目标数据库的第二序列号值;其中,所述目标数据库可以为美国国家生物技术信息中心(ncbi)数据库;然后基于所述第二序列号值更新所述第一序列号值,并对更新序列号后的各所述第一实体关系和各所述第二医疗实体关系进行重组,得到所述目标实体关系。
58.步骤s104:基于各所述目标医疗实体关系构建知识图谱。
59.本步骤在具体实施过程中,依据所述目标医疗实体关系构建知识图谱,将所述各目标医疗实体关系储存在目标数据库中,当接收客户端输入的实体名称时,查找目标数据
库中的包含所述实体名称的各医疗实体关系,获取点击当前医疗实体操作指令后,显示当前被点击的医疗实体的具体信息,以及包含所述当前医疗实体的各医疗实体关系,然后可以对各种医疗实体或者各医疗实体关系进行查询。
60.本技术中的知识图谱的构建方法,通过获取各药学数据库对应的若干药学有关的文本数据;从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;基于各所述目标医疗实体关系构建知识图谱。通过将各个数据库中的数据进行整合,通过将各数据库中的相同实体的序列号进行统一,将各个药学数据库中的相同实体关系整合在一起,得到一个知识体系全面的药学知识图谱,并且提高了知识图谱构建的效率。
61.本技术的又一实施例,提供一种知识图谱的构建方法,如图2所示,包括:
62.步骤s201:获取各药学数据库对应的若干药学有关的文本数据;
63.本步骤在具体实施过程中,首先基于待构建的医疗实体关系,选择与所述待构建医疗实体关系对应的药学数据库,将所述药学数据库中的数据进行下载,得到与所述药学数据库对应的各文本数据。例如:获得化合物与化合物的关系、化合物与靶点蛋白质的关系时,对drugbank数据库中的数据进行下载得到与所述drugbank数据库对应的若干文本数据;获取化合物与基因的关系、化合物与疾病的关系时对chemb数据库中的数据进行下载得到与所述chemb数据库对应的若干文本数据;获取化合物与基因的关系时对bindingdb数据库中的数据进行下载得到与所述bindingdb数据库对应的若干文本数据;获取基因与疾病的关系对uniprot数据库中的数据进行下载,得到与所述uniprot数据库对应的若干文本数据;获取化合物和副作用的关系时对sider数据库中的数据进行下载得到与所述sider数据库对应的若干文本数据;获取基因和基因的关系时对string数据库中的数据进行下载得到与所述string数据库对应的若干文本数据;获取化合物和基因的关系、化合物和疾病的关系、基因和疾病的关系时对ctd数据库中的数据进行下载得到与所述ctd数据库对应的若干文本数据;获取基因和通路的关系时对reactom数据库中的数据进行下载得到与所述reactom数据库对应的若干文本数据;获取疾病和基因的关系时对omim数据库中的数据进行下载得到与所述omim数据库对应的若干文本数据;获取疾病和症状的关系时对hpo数据库中的数据进行下载得到与所述hpo数据库对应的若干文本数据。
64.步骤s202:从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
65.本步骤在具体实施过程中,基于待构建的医疗实体关系,从与所述待构建的医疗实体关系对应的药学数据库中获取与所述待构建的医疗实体关系有关的文本数据;具体的,例如:待构建的医疗实体关系为基因医疗实体与基因医疗实体的关系,则选择所述基因医疗实体与基因医疗实体的关系型数据库string数据库对应的文本数据;又例如:待构建的医疗实体关系为基因医疗实体与通路医疗实体的关系,则选择所述基因医疗实体与通路医疗实体的关系型数据库reactom数据库对应的文本数据等等;
66.所述待构建医疗实体关系为第一医疗实体与第二医疗实体的映射关系;在各所述文本数据中对第一医疗实体、第二医疗实体以及第一医疗实体与第二医疗实体的关系进行信息提取,获得各所述文本数据对应的初始医疗实体关系;具体的,例如:待构建的医疗实体关系为化合物和化合物的医疗实体关系时,查找化合物与化合物关系数据库的文本数
据,比如查找drugbank数据库对应的各文本数据,得到所述化合物医疗实体和化合物医疗实体的关系,所述化合物医疗实体和化合物医疗实体的关系为化合物医疗实体a与化合物医疗实体b的关系、化合物医疗实体a与化合物医疗实体c的关系、化合物医疗实体b与化合物医疗实体c的关系、化合物医疗实体e与化合物医疗实体f的关系等等;又例如:待构建的医疗实体关系为基因与疾病的医疗实体关系时,查找基因与疾病关系数据库的文本数据,比如查找uniprot数据库对应的各文本数据,获得所述基因医疗实体和疾病医疗实体的关系,所述基因医疗实体和疾病医疗实体的关系包括:基因医疗实体a和疾病医疗实体b的关系、基因医疗实体a和疾病医疗实体c的关系、基因医疗实体b和疾病医疗实体e的关系、基因医疗实体f和疾病医疗实体g的关系等等。
67.对各所述初始医疗实体关系进行去重处理,得到所述第一医疗实体关系。具体的,例如同一个化合物和同一个靶点蛋白质之间的关系在chembl数据库中出现的次数有多次,经过获取得到的关系是多条的,需要对重复的数据进行处理,重复的数据只保留一条,同样的,同一个化合物和同一个靶点蛋白质之间的关系在bindingdb数据库中出现的次数也是多次,经过获取得到的关系是多条的,需要对重复的数据进行处理,重复的数据只保留一条。
68.所述第一医疗实体的关系包括:化合物与化合物的关系、化合物与靶点蛋白质的关系、靶点蛋白质与疾病的关系、化合物与疾病的关系、化合物与副作用的关系、基因与基因的关系、基因与通路的关系、基因与疾病的关系、疾病与症状的关系等。所述化合物与化合物的关系为相互作用,例如化合物a与化合物b的关系为:化合物a与化合物b的关系是相互作用;化合物和靶点蛋白质的关系为转运体或者梅的关系;例如靶点蛋白质a是化合物b的酶,靶点蛋白质c是化合物e的转运体等关系;靶点蛋白质与疾病的关系为有关或者无关;化合物与疾病的关系是有关或者无关;化合物与副作用的关系是,化合物可以引起哪些副作用,例如化合物a可以引起副作用是腹泻,化合物b可以引起副作用是低热,化合物c可以引起的副作用是头晕等;基因与基因的关系为有关或者无关;基因与疾病的关系为有关或者无关;疾病与病症的关系为疾病会引起哪些病症,例如:肠胃炎可以引起的病症为,发热、胃疼、腹泻等等。
69.步骤s203:获得若干第二医疗实体关系;
70.本步骤在具体实施过程中,首先基于目标疾病构建与所述目标疾病对应的病理医疗实体字典,所述病理医疗实体字典包括与目标疾病对应的各病理实体,以及与所述病理实体对应的描述词汇,各所述描述词汇的获取是在各所述病理实体的描述性语句中进行摘取的,然后基于各所述描述词汇,采用预设的自然语言处理技术遍历预定的文献获得包含所述描述词汇和基因实体的描述语句,所述预设的自然语言处理技术可以采用nlp技术,然后对所述描述词汇与基因实体的描述语句进行审核,审核的过程可以采用人工进行审核,人工去除其中少量的识别错误的信息,得到各所述病理实体与所述基因实体对应的第二实体关系;具体的,基于所述描述词汇遍历预定的文献时,当所述描述词汇与基因实体的描述语句在各文献中出现的概率超过预设概率阈值时,证明所述病理实体与所述基因实体有关,即得到所述第二医疗实体关系,所述预设概率阈值可以根据实际需要而设定。
71.步骤s204:获取同一目标医疗实体在各个非目标数据库中的第一序列号值;
72.本步骤在具体实施过程中,同一目标医疗实体在各个非目标数据库中的第一序列
号值各不相同,例如:化合物a在chembl数据库中的id为chembl1231,化合物a在drugban数据库中的id为db01062等等;化合物a在chembl数据库中的id为chembl45,化合物a在drugban数据库中的id为db01065等等;基因c在omim数据库中的id为100640,基因c在ensembl数据库中的序列号为ensg000001650092;基因d在omim数据库中的id为100660,基因d在ensembl数据库中的序列号为ensg00000108602;疾病e在mesh数据库中的id为c535474,疾病e在omim数据库中的id为607541;疾病f在mesh数据库中的id为c535476,疾病f在omim数据库中的id为608470等等。
73.步骤s205:获取所述目标医疗实体在目标数据库的第二序列号值;
74.本步骤在具体实施过程中,例如:化合物医疗实体可以选择pubchem作为目标数据库,如上所述化合物a在pubchem数据库中的id为4634,化合物b在pubchem数据库中的id为896;基因医疗实体可以选择ncb作为目标数据库,如上所述基因c在ncbi数据库中的序列号为216,基因d在ncbi数据库中的id为218;疾病医疗实体可以选择disease ontology数据库作为目标数据库,疾病e在disease ontology数据库中的id为0060444;疾病f在disease ontology数据库中的id为0060453。
75.步骤s206:基于所述第二序列号值更新所述第一序列号值,并对更新序列号后的各所述第一实体关系和各所述第二医疗实体关系进行重组,得到所述目标实体关系;
76.本步骤在具体实施过程中,所述基于所述第二序列号值更新所述第一序列号值,具体的,例如如上所述的化合物a在chembl数据库中的id为chembl1231,化合物a在drugban数据库中的id为db01062,化合物a在pubchem数据库中的id为4634,利用目标数据库pubchem数据库中的id4634更新chembl数据库中的id和drugban数据库中的id,将化合物a的id都更新成4634;又例如基因c在omim数据库中的id为100640、基因c在ensembl数据库中的序列号为ensg000001650092、基因c在ncbi数据库中的序列号为216,利用目标数据库ncbi数据库中的序列号216对基因c在ensembl数据库中的序列号和基因c在omim数据库中的序列号进行更新生成统一的序列号216;又例如:疾病e在mesh数据库中的id为c535474、疾病e在omim数据库中的id为607541,疾病e在disease ontology数据库中的id为0060444,利用目标数据库disease ontology数据库中的序列号为0060444对疾病e在omim数据库中的id和疾病e在mesh数据库中的id进行更新,生成统一的序列号0060444等等。
77.然后对更新序列号后的各所述第一实体关系和各所述第二医疗实体关系进行重组,得到所述目标实体关系。具体的,将更新好序列号的各个实体关系进行重组,将相同实体关系组合在一起,得到目标实体关系。
78.步骤s207:基于各所述目标医疗实体关系构建知识图谱。
79.本步骤在具体实施过程中,依据所述目标医疗实体关系构建知识图谱,将所述各目标医疗实体关系储存在目标数据库中,当接收客户端输入的实体名称时,查找目标数据库中的包含所述实体名称的各医疗实体关系,获取点击当前医疗实体操作指令后,显示当前被点击的医疗实体的具体信息,以及包含所述当前医疗实体的各医疗实体关系,然后可以对各种医疗实体或者各医疗实体关系进行查询。
80.本技术中的知识图谱的构建方法,通过获取各药学数据库对应的若干药学有关的文本数据;从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;针对目标疾病进行分析获得若干第二医疗实体关系,分别对各所述
第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系;基于各所述目标医疗实体关系构建知识图谱。通过将各个数据库中的数据进行整合,通将各数据库中的相同实体的序列号进行统一,将各个药学数据库中的相同实体关系整合在一起,得到一个知识体系全面的药学知识图谱,提高了知识图谱构建的效率。
81.本技术的又一实施例,提供一种知识图谱构建装置,如图3所示,包括:
82.获取模块1:用于获取各药学数据库对应的若干药学有关的文本数据;
83.提取模块2:用于从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
84.整合模块3:用于至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;
85.构建模块4:用于基于各所述目标医疗实体关系构建知识图谱。
86.在具体实施过程中,所述提取模块2具体用于所述第一医疗实体关系包括:化合物与化合物的关系、化合物与靶点蛋白质的关系、靶点蛋白质与疾病的关系、化合物与疾病的关系、化合物与副作用的关系、基因与基因的关系、基因与通路的关系、基因与疾病的关系、疾病与症状的关系中的一种或几种。
87.在具体实施过程中,所述知识图谱构建装置还包括:第二医疗实体关系获得模块,所述第二医疗实体获得模块具体用于:基于目标疾病,获得与所述目标疾病有关的各病理实体;基于各所述病理实体的描述语句,获得与所述病理实体对应的若干描述词汇;基于各所述描述词汇,遍历预定的文献获得包含所述描述词汇和基因实体的描述语句,以得到各所述第二医疗实体关系,其中所述第二医疗实体关系包括:若干病理实体和基因实体的关系;所述至少对各所述第一医疗实体关系进行整合,得到目标实体关系,具体包括:分别对各所述第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系。
88.在具体实施过程中,所述提取模块2具体用于:基于待构建的医疗实体关系,从与所述待构建的医疗实体关系对应的药学数据库中获取与所述待构建的医疗实体关系有关的文本数据;所述待构建医疗实体关系为第一医疗实体与第二医疗实体的映射关系;在各所述文本数据中对第一医疗实体、第二医疗实体以及第一医疗实体与第二医疗实体的关系进行信息提取,获得各所述文本数据对应的初始医疗实体关系;对各所述初始医疗实体关系进行去重处理,得到所述第一医疗实体关系。
89.在具体实施过程中,所述整合模块3具体用于获取同一目标医疗实体在各个非目标数据库中的第一序列号值;获取所述目标医疗实体在目标数据库的第二序列号值;基于所述第二序列号值更新所述第一序列号值,并对更新序列号后的各所述第一实体关系和各所述第二医疗实体关系进行重组,得到所述目标实体关系。
90.在具体实施过程中,所述第二医疗实体关系获取模块还用于:基于所述描述词汇,采用预设的自然语言处理技术从预定的文献中获取描述词汇与基因实体的描述语句;对所述描述词汇与基因实体的描述语句进行审核,得到各所述病理实体与所述基因实体对应的第二实体关系。
91.本技术中的知识图谱的构建方法,通过获取各药学数据库对应的若干药学有关的文本数据;从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;针对目标疾病进行分析获得若干第二医疗实体关系,分别对各所述
第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系;基于各所述目标医疗实体关系构建知识图谱。通过将各个数据库中的数据进行整合,通将各数据库中的相同实体的序列号进行统一,将各个药学数据库中的相同实体关系整合在一起,得到一个知识体系全面的药学知识图谱,提高了知识图谱构建的效率。
92.本技术另一实施例提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
93.步骤一、获取各药学数据库对应的若干药学有关的文本数据;
94.步骤二、从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
95.步骤三、至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;
96.步骤四、基于各所述目标医疗实体关系构建知识图谱。
97.上述方法步骤的具体实施过程可参见上述任意知识图谱构建方法的实施例,本实施例在此不再重复赘述。
98.本技术中的知识图谱的构建方法,通过获取各药学数据库对应的若干药学有关的文本数据;从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;针对目标疾病进行分析获得若干第二医疗实体关系,分别对各所述第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系;基于各所述目标医疗实体关系构建知识图谱。通过将各个数据库中的数据进行整合,通将各数据库中的相同实体的序列号进行统一,将各个药学数据库中的相同实体关系整合在一起,得到一个知识体系全面的药学知识图谱,提高了知识图谱构建的效率。
99.本技术另一实施例提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现如下方法步骤:
100.步骤一、获取各药学数据库对应的若干药学有关的文本数据;
101.步骤二、从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;
102.步骤三、至少对各所述第一医疗实体关系进行整合,得到目标医疗实体关系;
103.步骤四、基于各所述目标医疗实体关系构建知识图谱。
104.上述方法步骤的具体实施过程可参见上述任意知识图谱构建方法的实施例,本实施例在此不再重复赘述。
105.本技术中的知识图谱的构建方法,通过获取各药学数据库对应的若干药学有关的文本数据;从各所述文本数据中进行医疗实体关系提取,获得与各所述文本数据对应的若干第一医疗实体关系;针对目标疾病进行分析获得若干第二医疗实体关系,分别对各所述第一医疗实体关系和各所述第二医疗实体关系进行整合,得到目标医疗实体关系;基于各所述目标医疗实体关系构建知识图谱。通过将各个数据库中的数据进行整合,通将各数据库中的相同实体的序列号进行统一,将各个药学数据库中的相同实体关系整合在一起,得到一个知识体系全面的药学知识图谱,提高了知识图谱构建的效率。
106.以上实施例仅为本技术的示例性实施例,不用于限制本技术,本技术的保护范围由权利要求书限定。本领域技术人员可以在本技术的实质和保护范围内,对本技术做出各种修改或等同替换,这种修改或等同替换也应视为落在本技术的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献