一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向突发公共卫生事件的中医诊疗知识图谱构建方法

2022-11-30 21:45:46 来源:中国专利 TAG:


1.本发明涉及一种面向突发公共卫生事件的中医诊疗知识图谱构建方法,具体上,涉及一种基于中医术语文本数据结构化与术语自动分层分类、多源数据融合、本体自动化等智能手段的突发公共卫生事件中医诊疗知识图谱自动构建与知识推理方法。


背景技术:

2.医疗信息化加速推进的背景下,海量的多源异构医疗数据不断堆积,一方面为医疗决策提供了大量的数据资源,另一方面也增加了有价值的数据的检索与获取难度,造成数据和信息过载,影响了医疗决策效率。
3.在这一背景下,知识图谱被大量应用于医疗领域,以促进医疗救治效率和能力的提升。但多源异构数据也是知识图谱构建中的一大挑战,特别是在以新冠肺炎疫情为代表的重大突发公共卫生事件背景下,各区域、不同医疗决策主体产生的大量医疗数据存在不一致、非结构化、互操作性不强等问题,且在中医领域更加突出。虽然国家中医药管理局及时发布了《中医临床诊疗术语》(简称中医术语),以推动中医知识标准化和提升不同的决策系统直接的互操作性,但该术语体系数据量大,且以文本数据形式描述。
4.在知识图谱的构建过程中,自然语言处理、文本挖掘、本体等是常用技术。其中,自然语言处理和文本挖掘用于识别、提取具有自然语言特征的文本数据中的概念、实体及其之间的关系。本体主要作为载体和实现方法,为众多医疗领域知识图谱的实现提供支持。但目前为止,大量的医疗知识图谱主要侧重于知识的可视化,为用户提供知识服务,面向突发公共卫生事件这一特定领域的医疗知识系统仍然缺乏,尤其缺乏具备智能辅助诊疗功能的知识图谱。因此,亟需结合突发公共卫生事件医疗数据多源异构的特征,整合多种智能手段,提供一种包含多源数据融合、数据自动填充、知识推理规则设计与知识可视化的知识图谱构建方法。


技术实现要素:

5.针对现有技术存在的缺陷,本发明的目的是提供一种面向突发公共卫生事件的中医诊疗知识图谱构建方法,将围绕病例症状的多源数据进行融合和知识表示,基于症状——证候——治法——药物的诊疗逻辑进行知识推理规则,并借助图数据库实现知识可视化,促进中医知识在突发公共卫生事件医疗救治中的利用。
6.为了实现上述目标,本发明采用如下技术方案:
7.一种面向突发公共卫生事件的中医诊疗知识图谱构建方法,包括以下步骤:
8.s1:获取病例数据、中医临床诊疗术语、中草药数据;
9.s2:对数据进行预处理、识别并整合病例症状、对中医术语文本进行结构化处理和术语自动分层分类;
10.s3:设计知识图谱的概念模型;
11.s4:基于提取的概念及其关系、概念模型构建知识图谱。
12.进一步地,所述步骤2包括如下步骤:
13.s2.1:从多源数据中提取病例症状,并整合症状;其中,采用bilstm-crf模型识别病例文本数据中的症状字符,与字典格式病例数据和文献中指明的症状合并;
14.s2.2:根据段落和空行标志将中医术语文本分割,每个独立的文本块对应一个术语;将文本块中的句子作为字段,以最大的文本块字段数为所有文本块的字段长度,统一文本块长度,对术语文本块进行表格存储,完成术语文本数据的结构化;
15.s2.3:根据文本块中术语分类号的长度对分类号进行分层,通过分类号与其上下层分类号的关系判断该术语为类或实例,确定分类号对应术语的类型、父类,完成中医术语的分层分类。
16.进一步地,所述步骤2.3包括以下步骤:
17.s2.3.1:对于每一个文本块,统计其唯一的术语分类号的长度,将分类号长度作为其层数;
18.s2.3.2:根据层数对分类号进行分级,一级分类号对应的术语被作为顶层类;将末级分类号作为实例,在上一级分类号集合中查找去掉末位的该分类号,确定末级分类号的父类;对非一级和末级的分类号,其层数为l,首先检测其是否存在于下一级即l 1层分类号的前l位中,确定其属于类还是实例,如果存在,断定该分类号对应的术语存在子术语,将其作为概念类,否则作为实例;
19.s2.3.3:根据术语分级分类逻辑确定中医术语的类型和层级关系。
20.进一步地,所述步骤3中知识图谱概念模型的设计包括如下步骤:
21.s3.1:面向病例中医诊疗,基于病例症状,通过s2提取的主要概念确定中医诊疗知识图谱中的主要概念术语和基本层次关系;
22.s3.2:结合诊疗逻辑确定不同概念之间的基本关系,绘制概念模型图。
23.进一步地,所述步骤4中知识图谱的自动构建主要包括如下步骤:
24.s4.1:基于概念模型,采用owlready2自动构建本体,创建症状、证候、治法、中医顶层概念类;
25.s4.2:根据rdflib本体自动化策略进行知识图谱的自动构建和三元组批量填充;
26.s4.3:基于“症状——证候——治法——中药”逻辑设计知识推理规则,根据病例症状进行症状与证候、治法、中药的匹配;
27.s4.4:通过图数据库neo4j存储和可视化知识图谱。
28.与现有技术相比,本发明有以下有益效果:
29.本发明提出了一种高效的突发公共卫生事件中医诊疗知识图谱构建方法,能够对类似于国家中医药管理局发布的大量中医术语文本数据进行结构化转换和术语自动分层分类,从文本数据在提取中医术语的类别和层次关系,形成中医知识概念体系,解决了多源异构数据的融合和知识化问题,以病例症状为基本线索,通过知识推理和知识可视化,解决了医务工作者难以快速从多源数据中获取医疗知识的问题,为医务工作者进行病理诊断和对症治疗提供医疗知识和治法、中草药等治疗方案,有助于中医临床经验和知识在突发公共卫生事件医疗救治中的利用,进而促进突发公共卫生事件医疗救治能力的提升,并为智能辅助诊疗系统的研发与设计提供了参考方案。
附图说明
30.为了更清楚地说明本发明提出的技术方案及其实现效果,以下附图被用于促进对相关技术流程和实施结果的理解。
31.图1是本发明的基本方法流程图;
32.图2是本发明构建的知识图谱的基本概念模型图;
33.图3是本发明构建的知识图谱基本概念层次关系;
34.图4是本发明构建的知识图谱围绕病例症状的实体关系示例图。
具体实施方式
35.以下将结合实施例来说明本发明的具体实施方式,以此说明本发明如何通过智能技术手段解决多源异构数据背景下的医疗知识图谱构建问题和达到技术效果的实现过程。本发明以新冠肺炎为例,以中医术语为主要数据源,融合部分新冠肺炎主要症状、中医百科全书(etcm)中的中草药数据,设计算法实现数据融合和知识表示。
36.实施例一:
37.如图1所示,一种面向突发公共卫生事件的中医诊疗知识图谱构建方法,包括以下步骤:
38.s1:获取病例数据、中医临床诊疗术语、中草药数据;
39.s2:对数据进行预处理、识别并整合病例症状、对中医术语文本进行结构化处理和术语自动分层分类:
40.s2.1:从多源数据中提取病例症状,并整合症状;其中,采用bilstm-crf模型识别病例文本数据中的症状字符,与字典格式病例数据和文献中指明的症状合并;
41.s2.2:根据段落和空行标志将中医术语文本分割,每个独立的文本块对应一个术语;将文本块中的句子作为字段,以最大的文本块字段数为所有文本块的字段长度,统一文本块长度,对术语文本块进行表格存储,完成术语文本数据的结构化;
42.s2.3:根据文本块中术语分类号的长度对分类号进行分层,通过分类号与其上下层分类号的关系判断该术语为类或实例,确定分类号对应术语的类型、父类,完成中医术语的分层分类;
43.所述步骤2.3包括以下步骤:
44.s2.3.1:对于每一个文本块,统计其唯一的术语分类号的长度,将分类号长度作为其层数;
45.s2.3.2:根据层数对分类号进行分级,一级分类号对应的术语被作为顶层类;将末级分类号作为实例,在上一级分类号集合中查找去掉末位的该分类号,确定末级分类号的父类;对非一级和末级的分类号,其层数为l,首先检测其是否存在于下一级即l 1层分类号的前l位中,确定其属于类还是实例,如果存在,断定该分类号对应的术语存在子术语,将其作为概念类,否则作为实例;
46.s2.3.3:根据术语分级分类逻辑确定中医术语的类型和层级关系;
47.s3:设计知识图谱的概念模型:
48.s3.1:面向病例中医诊疗,基于病例症状,通过s2提取的主要概念确定中医诊疗知识图谱中的主要概念术语和基本层次关系;
49.s3.2:结合诊疗逻辑确定不同概念之间的基本关系,绘制概念模型图;
50.s4:基于提取的概念及其关系、概念模型自动构建知识图谱:
51.s4.1:基于概念模型,采用owlready2自动构建本体,创建症状、证候、治法、中医顶层概念类;
52.s4.2:根据rdflib本体自动化策略进行知识图谱的自动构建和三元组批量填充;
53.s4.3:基于“症状——证候——治法——中药”逻辑设计知识推理规则,根据病例症状进行症状与证候、治法、中药的匹配;
54.s4.4:通过图数据库neo4j存储和可视化知识图谱。
55.本实施例面向突发公共卫生事件的中医诊疗知识图谱构建方法,将围绕病例症状的多源数据进行融合和知识表示,基于症状——证候——治法——药物的诊疗逻辑进行知识推理规则,并借助图数据库实现知识可视化,促进中医知识在突发公共卫生事件医疗救治中的利用。
56.实施例二:
57.本实施例与实施例基本相同,特别之处在于:
58.如图1所示,一种面向突发公共卫生事件的中医诊疗知识图谱构建方法,具体步骤如下:
59.s1:获取确诊病例基本数据、中医术语文本数据、中医百科全书(etcm)中草药数据。
60.作为本发明的实施例,相关病例数据来源于两个地区(深圳市、山东省)政府数据开放平台、卫生健康委员会官网(甘肃省)和相关研究论文中提到的病例症状,包括文本数据和json字典数据;中医术语来源于中国国家中医药管理局发布的《中医临床诊疗术语》,为文本数据;中草药数据来源于中医百科全书(etcm),为表格数据。
61.通过段落标志和空行对中医术语文本进行分割,每一个文本块描述一个术语,根据文本块包含的最大句子数,将文本块分割为字段,统一文本块的字段数,将文本数据结构化。
62.s2:对数据进行预处理、识别并整合病例症状、对中医术语文本进行结构化处理和术语自动分层分类。
63.s2.1:病例症状识别。对于文本形式的病例数据,将数据划分为训练集、验证集和测试集,对训练集和验证集中的病例症状词进行字符级标注,训练bilstm-crf模型并验证模型,根据模型效果对文本数据中的病例症状进行识别提取;对于字典格式的病例数据,通过症状键值对提取症状信息;研究论文中的症状词汇被直接引用;将不同来源的病例症状数据进行整合和去重。
64.s2.2:中医术语的自动分类与层次关系提取。
65.中医术语及术语其相关描述是本发明知识图谱构建的核心知识元素。首先,根据术语文本中的段落和空行标记,将文本分割为针对不同术语的文本块,每个文本块都由若干句子组成,这些句子分别描述了对应术语的名称、英文名、别名、简介、注释等内容,每一个句子被当作1个属性字段,将文本中的文本块最大字段数作为所有文本块的字段数,统一文本块长度,对无字段值的字段以“0”值填充。被统一长度的文本块被对应到统一的字段,实现结构化处理,存入表格。
66.其次,对结构化的中医术语,根据其分类号反映的层数,对术语分类号进行分层归类,在其上一级分类号集合中寻找其父类,并在其下一级分类号集合中检测其是否有对应的子集或示例,由此确定术语的类型和上下层级关系,形成中医术语的基本概念体系。
67.s2.3:中草药数据预处理。
68.对收集的中草药数据,只保留草药名称和适应症字段,对适应症字段进行处理,只保留功效相关信息。
69.s3:结合新冠肺炎特征,从中医术语中确定术语范围,设计中医术语自动分类算法,将术语文本数据根据其段落结构和分类号进行自动分类和结构化转换。设计知识图谱的基本概念模型,概念模型图如图2所示。
70.s3.1:根据文本段落和空行标记,将术语文本切分为独立的文本块,每个文本块记录着一个中医术语的基本信息。
71.s3.2:基于每个文本块对应的术语分类号进行术语自动分层分类。其中,每个文本块对应于一个术语的描述,其中包括唯一标识术语的分类号(如:4.1.3.3.15)。
72.s3.2.1:根据术语分类号来确定其层数l,根据l将术语分类号归为不同的集合,对应于l层的第i个术语分类号被记为应于l层的第i个术语分类号被记为
73.s3.2.2:根据术语分类号来确定其上一层术语分类号,作为父类;
74.s3.2.3:根据术语分类号检查其是否存在于其后一层分类号的前l位的集合中,判断其属于类(class)还是实例个体(instance)。算法的输入为代表中医术语的术语分类号输出为术语分类号对应的术语的类型(类或实例)和层次关系(subclassof、instanceof),如图3所示。术语自动分类公式如下:
[0075][0076][0077][0078][0079][0080]
s,s'∈s;i,j,k∈[1,len(s)](6)
[0081]
公式(1-6)中,s表示全部中医术语的集合;
[0082]
n表示中医术语的最大层数,通过全部术语分类号的统计获取;
[0083]
i、j和k表示s中任意的不同术语的序号;
[0084]
l表示术语的层数;
[0085]
s表示l层的任意一个术语,其分类号(number)为t
l
是l层的分类号集合;
[0086]
s'表示l-1层的任意一个术语,其分类号为t
l-1
是l-1层的分类号集合;
[0087]
是术语分类号的前l-1位;
[0088]
t
l 1
是l 1层的术语分类号集合,δ是t
l 1
中分类号的前l位的集合;
[0089]
len(s)是统计获取中医术语的总数。
[0090]
s4:知识图谱的自动构建。
[0091]
s4.1:根据准备好的数据和提取的概念、关系,以本体为载体和实现方法,采用本体编辑与检索开源工具owlready2自动构建围绕新冠肺炎病例症状的中医诊疗知识图谱,自动构建顶层类和基本关系、属性,如图4所示。
[0092]
s4.2:通过本体编辑与检索开源工具rdflib设计本体自动化策略,对病例症状、结构化的中医术语及其属性和关系、中草药及其功效以三元组形式批量填充到知识图谱中。
[0093]
s4.3:通过swrl(semantic web rule language,语义网规则语言)设计知识推理规则,根据症状名称、证候简介、治法简介、中药功效名称等描述信息中的字符串匹配思想匹配症状——证候、证候——治法、治法——中药,以症状为线索,通过中医知识推理将病例与证候、治法、中草药关联。
[0094]
s4.4:运用neo4j可视化并存储知识,通过cypher查询提取与病例症状相关的证候、治法和中草药,实现知识服务和辅助决策。
[0095]
本实施例面向突发公共卫生事件的中医诊疗知识图谱构建方法,包括获取医疗数据;提取并整合病例主要症状;中医术语文本的结构化和分级分类;设计知识图谱概念模型;基于本体自动构建和三元组批量填充完成知识图谱自动构建;通过知识推理和知识可视化生成基于症状的中医诊疗知识等步骤。本发明提出的知识图谱构建方法以新冠肺炎为例,对基于病例症状的多源数据进行整合和知识化,解决了突发公共卫生事件医疗决策中数据的多源异构问题,为突发公共卫生事件医疗救治提供中医诊疗知识和辅助医疗决策支持,提高医疗救治效率,为智能辅助医疗决策系统的研发与应用提供参考。
[0096]
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献