一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于伤寒论的知识图谱构建方法和装置

2022-09-04 05:31:19 来源:中国专利 TAG:


1.本技术涉及中医及计算机信息技术领域,特别是涉及一种基于伤寒论的知识图谱构建方法和装置。


背景技术:

2.知识图谱技术是支撑人工智能发展的关键技术之一,它以结构化的形式描述客观世界中概念、实体及其关系,将互联网信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
3.近年来,随着智慧医疗、精准医疗的提出和实践,以及知识图谱技术的发展,构建廉价、高效、精准的医疗诊断系统和决策支持系统成为可能,医学知识图谱已经凸显出越来越重要的应用价值。知识图谱在中医药领域的应用,目前主要集中在中医药知识的表示与融合,以及浅层次的知识推理等方面。
4.阮彤等人与上海曙光医院合作构建了包括疾病库、证库、症状库、中草药库和方剂库的中医药知识图谱,并基于该知识图谱进行中医药问答和辅助开药。该系统目前在数据的自动抽取与标注方面,人工干预较多。在知识融合和质量评估方面,也较依赖人工专家的干预,知识推理能力有待提高。于彤等人以中医养生领域本体为骨架,搜集整理中医养生相关的知识资源,构建中医养生知识图谱。此外,中国中医科学院中医药信息研究所通过知识服务平台向公众开放中医医案知识图谱、中医养生知识图谱、中医经方知识图谱、中医美容知识图谱等中医药知识图谱。这些知识图谱均是在现有的领域本体基础上进行扩充来实现的,从页面交互的效果看,能够以可视化的方式向用户提供知识搜索服务,但还不能实现比较复杂的用户查询和知识推理。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种基于伤寒论的知识图谱构建方法和装置。
6.一种基于伤寒论的知识图谱构建方法,所述方法包括:
7.对伤寒论原文进行分析和挖掘,从理、法、方三个方面,建立病、证、症、法、方的概念体系,并根据所述概念体系确定病、证、症、法、方之间的关系,并根据病、证、症、法、方之间的关系构建伤寒论概念关系描述框架。
8.根据所述伤寒论概念关系描述框架,参考预定技术规范,对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树;所述概念层次结构树包括概念节点、语义关系以及概念节点与语义关系之间的约束规则。
9.根据所述概念节点、所述语义关系以及所述约束规则,对伤寒论原文进行实体提取、实体属性提取以及实体关系提取,得到知识三元组集合。
10.对所述知识三元组集合进行知识融合,得到知识融合后的知识三元组集合和伤寒论同义词库。
11.将所述知识三元组集合采用neo4j图数据库进行存储,完成伤寒论知识图谱构建。
12.一种基于伤寒论的知识图谱构建装置,所述装置包括:
13.伤寒论概念关系描述框架构建模块,用于对伤寒论原文进行分析和挖掘,从理、法、方三个方面,建立病、证、症、法、方的概念体系,并根据所述概念体系确定病、证、症、法、方之间的关系,并根据病、证、症、法、方之间的关系构建伤寒论概念关系描述框架。
14.伤寒论知识图谱的模式层构建模块,用于根据所述伤寒论概念关系描述框架,参考预定技术规范,对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树;所述概念层次结构树包括概念节点、语义关系以及概念节点与语义关系之间的约束规则。
15.伤寒论知识图谱的数据层构建模块,用于根据所述概念节点、所述语义关系以及所述约束规则,对伤寒论原文进行实体提取、实体属性提取以及实体关系提取,得到知识三元组集合;对所述知识三元组集合进行知识融合,得到知识融合后的知识三元组集合和伤寒论同义词库;将所述知识三元组集合采用neo4j图数据库进行存储,完成伤寒论知识图谱构建。
16.上述一种基于伤寒论的知识图谱构建方法和装置,所述方法对伤寒论原文进行分析和挖掘,构建病、证、症、法、方的概念体系,并根据概念体系确定的病、证、症、法、方之间的关系建伤寒论概念关系描述框架;根据伤寒论概念关系描述框架,参考预定技术规范,对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树;并根据概念层次结构树,对伤寒论原文进行实体提取、实体属性提取以及实体关系提取和知识融合,将知识融合后得到的知识三元组集合采用neo4j图数据库进行存储,完成伤寒论知识图谱构建。应用该方法能够实现伤寒论知识体系的数字化,能够清晰、高效的获取“病-证-症-法-方”之间的联系,有助于伤寒论学习者更好、更快的掌握伤寒论知识体系。
附图说明
17.图1为一个实施例中基于伤寒论的知识图谱构建方法的流程示意图;
18.图2为一个实施例中《伤寒论》病的分类;
19.图3为一个实施例中六经病证概念层次结构;
20.图4为另一个实施例中六经病变证概念层次结构;
21.图5为另一个实施例中《伤寒论》治则治法分类结构;
22.图6为另一个实施例中《伤寒论》知识图谱(部分)示例;
23.图7为另一个实施例中基于伤寒论的知识图谱构建方法的流程示意图;
24.图8为另一个实施例中步骤104的流程示意图;
25.图9为另一个实施例中步骤200的流程示意图;
26.图10为另一个实施例中《伤寒论》太阳病证知识图谱;
27.图11为另一个实施例中《伤寒论》“恶寒”症状知识图谱;
28.图12为另一个实施例中《伤寒论》表郁轻证医案知识图谱;
29.图13为另一个实施例中基于伤寒论的知识图谱构建装置的结构框图。
具体实施方式
30.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
31.《伤寒论》全书论述了伤寒、中风、温病、风温等内容,但从主要内容来看,着重阐述人体感受风寒之邪所发生的疾病,以及合病与并病的辨证规律。全书共10卷22篇,可以分为三个部分,即前4篇、中间10篇、后8篇。前4篇主要谈及正常脉象和病理脉象的特点与鉴别方法,概述外感热病和时令对人体的影响,以及外邪引起的痉湿暍病;中间10篇主要论述六经病证及其变证,是历代医家重点学习和研究的部分,也是当代高等中医药院校《伤寒论》课程内容的来源;后8篇分类阐述治法的可与不可,其内容大多散见于中间10篇。
32.在一个实施例中,如图1所示,提供了一种基于伤寒论的知识图谱构建方法,该方法应包括以下步骤:
33.步骤100:对伤寒论原文进行分析和挖掘,从理、法、方三个方面,建立病、证、症、法、方的概念体系,并根据概念体系确定病、证、症、法、方之间的关系,并根据病、证、症、法、方之间的关系构建伤寒论概念关系描述框架。
34.具体的,本方法涉及的伤寒论原文是《伤寒论》中间10篇(共398条经文)。由于中间10 篇的不少条文涉及到脉象、季节与节气、汗吐下等法的可与不可,因此在对这些条文的知识表示和形式化过程中,也会参考其他12篇的内容。
35.本方法数据来源主要是以明代赵开美翻刻本为底本校注而成的《伤寒论校注》(刘渡舟主编,人民卫生出版社出版)、全国中医药行业高等教育规划教材《伤寒论选读(新世纪第4版)》,以及国家中医药管理局2009年颁发的国家标准《中医临床诊疗术语(修订版)》(分为疾病、证候、治法等3部分)中涉及《伤寒论》的术语及其解释。
36.《伤寒论》病的概念分类:包括外感病和杂病,其中,外感病又可分为伤寒病和温热病(包括风温)两类。《伤寒论》主要论述伤寒病的诊治规律,也即论述人体感受风寒邪气所引起的外感热病,包括六经病、霍乱、阴阳易和差后劳复。《伤寒论》病的分类如图2所示。
37.六经是后世医家对太阳、阳明、少阳、太阴、少阴、厥阴的简称。在六经辨证中,三阴三阳是病理性概念,包含病位、病性、病势等三个方面的内容,它实际上是一个病证的概括,表1是郝万山教授总结的六经病三阴三阳的含义。因此,本发明在构建《伤寒论》知识体系数字化的过程中,针对每一经病将包含其病位、病性、病势等知识。
38.表1六经病辨证要点
[0039][0040]
《伤寒论》证的概念分类:从利于数字化处理的角度出发,将六经病本兼证与六经病变证分属于不同的概念分类体系,并对规划教材《伤寒论选读(新世纪第4版)》的概念分类方法进行了取舍,从而将六经病本证、兼证归入系统辨证类,将六经病证的变证、霍乱病
证、阴阳易证、差后劳复证、类似证等归入非系统证类。此外,由于现代临床以辩证为准,判断六经病证中的合病、并病或是两感没有太大临床意义,因此将这三种情况统称为“六经病并发证”,具体分类如图3和图4所示。
[0041]
《伤寒论》症的概念分类:为了消除中医症状术语理解上的歧义,便于中医症状的数字化处理和基于症状的数字辨证方法的构建,本文参考规划教材《中医诊断学(新世纪第4版)》诊法部分的知识框架,以及朱文锋先生所著《证素辨证学》中的临床证候(本书将“证候”定义为证的外候,指特定证所表现的、具有内在联系的症状、体征等全部证据)分类方法,从望、闻、问、切等四个方面将《伤寒论》原文所涉及的症状分为4大类和21小类,如表2所示。
[0042]
表2《伤寒论》症状分类
[0043][0044][0045]
在表2“症状举例”一栏中,症状后面括号中的术语为其同义词。虽然《伤寒论》条文中的症状没有涉及舌象,不过考虑到本文所构建的数字辨证模型是面向现代临床应用,舌象作为了解病情和辨证论治的重要依据,故仍然予以保留。
[0046]
《伤寒论》治则治法概念分类:《伤寒论》在《黄帝内经》的基础上,继承和发展了多种中医治则。在治法上,发展了基本治法、常用疗法和组合疗法,其中基本治法包括汗、吐、下、和、温、清、补、消等方法;常用疗法包括药物疗法、艾灸疗法、针刺疗法、饮食疗法等;组合疗法包括药针并用、药灸并用、针灸并用、药食并用等组合疗法。为此,依据图5所示的治则治法分类结构为《伤寒论》中涉及治疗的条文赋予某一治则类别、治法类别和疗法类别。
[0047]
《伤寒论》方之概念分类:按照刘渡舟先生所著《新编伤寒论类方》的分类方法,将所有经方分为18大类,并对每一方剂设定“适应证”和“相关条文”两个属性,以增进“从方以知证,从证而知辨”的效果。表3为112方具体分类方法。
[0048]
表3经方分类
[0049][0050][0051]
病、证、症、法、方之间的关系包括:病-病关系、病-证关系、病-症关系、证-症关系、证-法关系、证-方关系、法-方关系。
[0052]
《伤寒论》概念关系描述框架是依据“病-病”关系、“病-证”关系、“病-症”关系、“证-症”关系、“证-法”关系、“证-方”关系、“法-方”关系等七大类关系来构建的。
[0053]
步骤102:根据伤寒论概念关系描述框架,参考预定技术规范,对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树;概念层次结构树包括概念节点、语义关系以及概念节点与语义关系之间的约束规则。
[0054]
概念层次结构树:具有代表性的概念节点25个、27种语义关系、44条概念节点与语义关系之间的主要约束规则。
[0055]
概念层次结构树(concept hierarchy tree)是数据库中备属性值和概念依据抽象程度不同而构成的一个层次结构,是属性的一种概括语义描述。树中高层概念是底层概念的概括,树根是该属性的可能属性值的最一般描述,树叶是该属性的可能属性值。
[0056]
步骤104:根据概念节点、语义关系以及约束规则,对伤寒论原文进行实体提取、实体属性提取以及实体关系提取,得到知识三元组集合。
[0057]
具体的,根据概念节点、语义关系以及约束规则,采用“人工标注 机器抽取 专家审核”的方式对伤寒论原文进行实体提取、实体属性提取以及实体关系提取,得到知识三元组集合。
[0058]
步骤106:对知识三元组集合进行知识融合,得到知识融合后的知识三元组集合和
伤寒论同义词库。
[0059]
对知识三元组集合进行知识融合是采用人工方式来完成实体对齐的。
[0060]
步骤108:将知识三元组集合采用neo4j图数据库进行存储,完成伤寒论知识图谱构建。
[0061]
具体的,由于知识图谱由数据层和模式层构成,在这里概念层次结构树就是知识图谱的模式层,知识融合后的知识三元组集合就是知识图谱数据层的数据。
[0062]
知识图谱在形式上可以把知识图谱表示为模式图gs、数据图gd、二者之间的关系r,也即: g=《gs,gd,r》。模式图gs=《ns,es》,其中:ns代表知识图谱中概念的节点集合,es代表知识图谱中概念之间语义关系的边集合。数据图gd=《nd,ed》,其中:nd代表知识图谱中实例(即实体)和字符串(用来表示实例的属性值)的节点集合,ed代表知识图谱中实例之间语义关系的边集合。数据图gd和模式图gs之间的关系r由rdf:type构成,以表示实例与所属概念之间的从属关系。图6为《伤寒论》知识图谱(部分)示例。
[0063]
上述基于伤寒论的知识图谱构建方法中,所述方法对伤寒论原文进行分析和挖掘,构建病、证、症、法、方的概念体系,并根据概念体系确定的病、证、症、法、方之间的关系建伤寒论概念关系描述框架;根据伤寒论概念关系描述框架,参考预定技术规范,对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树;并根据概念层次结构树,对伤寒论原文进行实体提取、实体属性提取以及实体关系提取和知识融合,将知识融合后得到的知识三元组集合采用neo4j图数据库进行存储,完成伤寒论知识图谱构建。应用该方法能够实现伤寒论知识体系的数字化,能够清晰、高效的获取“病-证-症-法-方”之间的联系,有助于伤寒论学习者更好、更快的掌握伤寒论知识体系。
[0064]
在其中一个实施例中,如图7所示,该方法还包括:
[0065]
步骤110:根据概念节点、语义关系以及约束规则,对伤寒名家医案进行实体提取、实体属性提取以及实体关系提取,得到伤寒名家医案的知识三元组。
[0066]
伤寒名家医案的知识提取方法与对伤寒论原文进行知识提取的方法相同。
[0067]
步骤112:根据同义词库将伤寒名家医案的知识三元组中的实体名映射到规范实体,并采用统计的方法来计算实体相似度;实体相似度是字符相似度和语义相似度的加权和。
[0068]
对于来自于伤寒名家医案的知识,我们采用规则与统计相混合的方式实现实体对齐,并将相似实体提交给中医经方专家审核以保证知识融合的质量。首先借助于同义词库将三元组中的实体名映射到规范实体,然后基于统计的方法来计算实体相似度实现实体对齐,包括字符相似度计算和语义相似度计算两个方面。实体相似度计算方法,如公式(1)所示:
[0069]
sim(a,b)=(1-a)*j(a,b) a*sims(a,b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0070]
其中,sim(a,b)为实体a与实体b的相似度,j(a,b)为字符相似度,sims(a,b)为语义相似度,a为权值,作为优选,权值a=0.8。
[0071]
步骤114:将实体相似度最高且大于预设阈值的实体作为候选对齐实体提交给中医经方专家审核;如果审核通过,则合并两个实体的属性和关系,并将该实体与伤寒论的病-证-症
‑ꢀ
法-方知识图谱中的规范实体之间建立同义关系;如果审核不通过,将该实体作为新实体加入伤寒论的病-证-症-法-方知识图谱。作为优选,预设阈值为0.8。
[0072]
在其中一个实施例中,步骤112中的字符相似度是采用两个实体字符串之间的jaccard距离来计算的,字符相似度的表达式为:
[0073][0074]
其中,||为求取字符数,|a∩b|为实体a与实体b的字符交集,|a∪b|为实体a与实体b 的字符并集。
[0075]
语义相似度是采用两个实体之间的余弦相似度来计算,语义相似度的表达式为:
[0076][0077]
其中,sims(a,b)为实体a和实体b的语义相似度,(x1,x2,

,xn)为实体a的向量表示, (y1,y2,

,yn)为实体b的向量表示。
[0078]
在其中一个实施例中,步骤100包括:对伤寒论原文进行分析和挖掘,从理、法、方三个方面,建立病、证、症、法、方的概念分类体系,并将病、证、症、法、方五个方面收集的相关词汇作为标准术语,并添加进术语词典;根据病、证、症、法、方的概念分类体系,采用概念关系和属性关系定义病、证、症、法、方之间的关系,病、证、症、法、方之间的关系包括:病-病关系、病-证关系、病-症关系、证-症关系、证-法关系、证-方关系、法-方关系;概念关系是采用三元组《概念a,关系r,概念b》的形式进行表示的,其中关系r的类型包括:一对一、一对多、多对多;属性关系是采用三元组《概念a,属性b,属性值c》 的形式进行表示的,其中属性值的类型为数字或字符串,属性值包括:名称、持续时间、严重程度、病位、病性;根据病-病关系、病-证关系、病-症关系、证-症关系、证-法关系、证
‑ꢀ
方关系、法-方关系,构建伤寒论概念关系描述框架。
[0079]
具体的,本实施例总共定义了27种概念关系和36种属性关系。术语词典还包括2006版中医基础理论术语国家标准中的内容。
[0080]“病-病”关系:总体上分为“传经”关系和“并发”关系。六经病中邪气由此经进入彼经,称之为传经。将合病、并病、两感等三种情况的“病-病”关系称之为“并发”关系。
[0081]“病-证”关系是一对多关系,病与证之间是概念包含关系。如:太阳病分为太阳病经证和太阳病腑证,太阳病经证又可分为中风表虚证、伤寒表实证、表郁轻证等。
[0082]“病-症”关系是多对多关系。因为一个症状可能出现在多个经病的提纲证中,一个经病包含多个症状。
[0083]“证-症”关系细分为“主症”关系和“兼症”关系,它们均是多对多关系。
[0084]“证-法”关系是多对多关系。对于具体某一病证,可能需要采用多种治疗方法,另一方面,一种治疗方法可以应用到多个病证。
[0085]“证-方”关系是多对一关系。对于某一具体病证,其所对应的方剂是确定的。另一方面,一个方剂具有多个适应证,可以运用到多个病证。
[0086]“法-方”关系是一对多关系。对于某一具体方剂,其所对应的治法是确定的。另一方面,一种治法可以对应多种方剂。
[0087]
除了概念之间的关系以外,还需考虑经病与时间(发作持续时间、节气、季节)之间的联系,症状的轻重、强弱、缓急等量化属性。表4以太阳中风证为例,展示了证类概念的关系描述框架。
[0088]
表4《伤寒论》证类概念关系描述框架(以太阳中风证为例)
[0089][0090]
需要指出的是,上述案例中的太阳中风证表示一个病证概念,包含多个实体(即具体的病证)。为了区别这些病证,并为每一医案给出确定的辨证结果,本文遵循教材《伤寒论选读(新世纪第4版)》的规定,以汤证来命名这些具体的病证,也就是采用“病证概念 方证”(比如,太阳中风证 桂枝汤证)的方式来给出辨证结果。
[0091]
在其中一个实施例中,如图8所示,步骤104具体包括:
[0092]
步骤200:在中医经方专家指导下,根据概念节点、语义关系以及约束规则,参考预选的现有伤寒论编著,对伤寒论原文及进行知识形式的转换,得到多个知识表格;知识表格中的每一个单元格内容均有明确范围,并且对于同义词以及症状的类型也以特殊字符予以标记。
[0093]
步骤202:在知识表格的每一单元格中,借助特殊字符,利用nlpir-ictclas汉语分词系统实现中文分词,完成病、证、症、法、方五个方面的实体抽取。
[0094]
步骤204:根据语义关系和约束规则,为知识表格每一单元格赋予特定的实体类型,以及单元格之间特定的关系类型,得到知识表格规则。
[0095]
步骤206:基于术语词典和知识表格规则,从所有知识表格中抽取知识三元组集合,完成病、证、症、法、方五个方面的实体关系抽取。
[0096]
具体的,由于这些《伤寒论》知识表格中的每一个单元格内容均有明确范围,并且对于同义词以及症状的类型也以特殊字符予以标记,因此我们采用基于词典和规则的实体与关系同步提取方法。
[0097]
《伤寒论》知识表格每一单元格赋予特定的实体类型,以及单元格之间特定的关系类型,具体含义如表5和表6所示。
[0098]
表5《伤寒论》知识表格实体与属性表示方法
[0099][0100]
在表5中,斜体字为固定内容,指代特定含义,cell01~cell07所指代的单元格内容由病、证、症、法、方等五个方面的知识组成。
[0101]
表6《伤寒论》知识单元格蕴含关系列表
[0102][0103][0104]
基于所构建的《伤寒论》术语词典和上述知识表格规则,从318个《伤寒论》原文知识表格抽取得到3142个三元组,完成《伤寒论》中病、证、症、法、方等五个方面的关系抽取。
[0105]
在其中一个实施例中,如图9所示,步骤200具体包括:
[0106]
步骤300:针对伤寒论中涉及辨病与辨证的所有经文,当每条经文中只涉及1个诊
断结论时,从原病证、治疗史、现病证、病因病机、辨证结果、治疗方案以及方案编码方面进行知识抽取,得到伤寒论经文对应的知识表格;知识表格中的现病证、治疗方案中知识类型中的每一术语,均为其指明所属概念节点。
[0107]
例如,《伤寒论》原文12条,“太阳中风,阳浮而阴弱。阳浮者,热自发;阴弱者,汗自出。啬啬恶寒,淅淅恶风,翕翕发热,鼻鸣干呕者,桂枝汤主之”。该条原文只有一个诊断结果,因此无需拆分。本文将按照表7的方式对原文12条进行知识抽取。
[0108]
表7《伤寒论》原文知识抽取示例一
[0109][0110]
在表7中的现病证、治疗方案等知识类型中的每一术语,均为其指明所属语义类型。知识抽取过程中所涉及的疾病、证候、症状、治法、疗法、方剂等实体的命名规范按照如下方式处理:
[0111]
(a)疾病名、证候名:以国家标准《中医病证分类与代码》(2020年修订版)和《中医临床诊疗术语》(2020年修订版)为准;
[0112]
(b)症状名:以黎敬波教授所著《中医临床常见症状术语规范(修订)》为准;
[0113]
(c)治法名、疗法名:以全国中医药行业高等教育规划教材《伤寒论选读(新世纪第4版)》为准;
[0114]
(d)方剂名:以明代赵开美翻刻宋版《伤寒论》为准。
[0115]
在以上国家标准和著作没有定义相关术语的情况下,则以全国中医药行业高等教育规划教材《伤寒论选读(新世纪第4版)》、《伤寒论校注》(1991年,人民卫生出版社)为准。
[0116]
此外,对于上述规定下存在多个同义词的情况,则将其存放在同义词表当中,比如原著第12条原文涉及的“阳浮而阴弱”、“中风表虚证”等,皆存入同义词表。
[0117]
关于“方案编码”的规定,由于《伤寒论》原文中使用某种方剂时出现诸如“主之”、“宜”、“却与”、“可与”、“不可”、“不得”等词语,代表四种不同层次的含义(前三种含义代表可用,程度逐层递减,第四种含义表示禁用),因此在表8的知识类型中采用“方案编码”来予以表示这四种不同层次的含义。为此,当原文中出现
“×××
汤主之”字样,则该字段值为1;若为“宜”,则该字段值为2;若为“却与”、“可与”等,则该字段值为3;若为“不可”、“不得”,则该字段值为4。
[0118]
步骤302:当每条经文中涉及多个诊断结论时,将该条经文拆分成多条经文,使得拆分后的经文中只包含一个诊断结论,按照只涉及一个诊断结论的经文的知识提取方法进行提取,得到伤寒论条文对应的知识表格。
[0119]
例如,《伤寒论》原文15条,“太阳病,下之后,其气上冲者,可与桂枝汤,方用前法。若不上冲者,不得与之”。由于该条原文存在两种病证情况下的不同治疗方法,因此首先将该条原文拆分成编号为“15-1”和编号为“15-2”的两条经文,然后按照表8和表9的方式进行
知识抽取。
[0120]
编号为“15-1”的经文内容为:“太阳病,下之后,其气上冲者,可与桂枝汤”,对其进行知识抽取的方法如表8所示。
[0121]
表8《伤寒论》原文知识抽取示例二
[0122]
序号知识类型知识内容1原病证太阳病(病)2治疗史下法(治法 误治)3现病证自觉有气上逆(主症)4病因病机误用下法,表邪不解,徒伤里气,但正气充足5辨证结果太阳中风证 桂枝汤证6治疗方案汗法(治法),桂枝汤(方剂)7方案编码3
[0123]
编号为“15-2”的经文内容为:“太阳病,下之后,其气不上冲者,不得与桂枝汤”,对其进行知识抽取的方法如表9所示。
[0124]
表9《伤寒论》原文知识抽取示例三
[0125][0126][0127]
步骤304:对知识抽取过程中所涉及的疾病实体、证候实体、症状实体、治法实体、疗法实体以及方剂实体分别按照对应的预设准则进行的命名规范。
[0128]
具体的,病名和证名的规范化,参考国家标准《中医病证分类与代码》(2020年修订版)、《中医临床诊疗术语》(2020年修订版)、《伤寒论选读(新世纪第4版)》、《伤寒论校注》,从《伤寒论》原文中提取15种病名和299种证名(包含形如“太阳中风证 桂枝汤证”的证名),并将这些国家标准、著作、现代中医临床中出现的常见同义词一并纳入,具体内容参见表10 和表11。
[0129]
表10《伤寒论》病名规范表
[0130][0131]
表11《伤寒论》证名规范表(部分)
[0132][0133]
症状名称的规范化,依据《中医临床常见症状术语规范(修订)》设定症状的首选术语,只有在该部著作中没有涉及的症状名称的情况下,则以全国中医药行业高等教育规划教材《伤寒论选读(新世纪第4版)》中的名词为准。
[0134]
治法名称和疗法名称的规范化,以《伤寒论选读(新世纪第4版)》和《伤寒论校注》中的治法和疗法分类结构和命名方法来规范治法和疗法,关于具体框架和命名规范参见图5。
[0135]
方剂名称的规范化以《伤寒论》原文中的方剂名称作为命名规范,同时按照刘渡舟先生所著《新编伤寒论类方》的分类方法,将所有经方分为18大类,并对每一方剂实体设定“适应证”和“相关条文”两个属性。关于方剂分类方法和名称规范参见表3。
[0136]
在其中一个实施例中,预定技术规范为tcmls-sn技术规范;步骤102包括:根据伤寒论概念关系描述框架,参考tcmls-sn技术规范,采用人工标注 机器抽取 专家审核的方式对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树。
[0137]
在其中一个实施例中,概念层次结构树的概念节点包括:阴阳理论、六经、神、七情、病因病机、疾病、证候、症状、治则、治法、疗法、食物、方剂、中药、腧穴、经络、脏腑、人体基本物质、形体官窍、体质、检查、检查结果、人物、地理名称、中医医案;语义关系包括:上下位、等价、位于、包含、由
……
组成、先于
……
发生、与
……
同时发生、相表里、使用、现象表达、主症、兼症、脉症、必要症、治疗、并发、引起、影响、误治、禁用、传变、含义扩展、是
……

病证、是
……
治疗史、是
……
现病证、是
……
辨证结果、是
……
治疗方案;约束规则用由头概念、语义关系、尾概念组成的三元组表示,概念层次结构树包括44种约束规则。约束规则如表12所示。
[0138]
表12《伤寒论》知识体系约束规则表
[0139]
[0140][0141][0142]
在其中一个实施例中,方法还包括:接收查询指令,并返回与查询指令对应的回复信息,其中,查询指令包括伤寒论知识结构查询、伤寒论特定知识关联性查询、伤寒论医案
查询。
[0143]
具体的,通过在程序中嵌入neo4j所提供的cypher查询语句,可以获取以病、证、症、法、方为中心的关系总和,实现伤寒论知识结构查询,并进行显示;可以获取《伤寒论》“病-证
‑ꢀ
症-法-方”知识体系当中特定知识之间的关系网络,实现伤寒论特定知识关联性查询;还可以进行医案查询。图10所示的太阳病证的概念层次结构为太阳病证的知识查询结果,图11所示的症状“恶寒”为中心的知识图谱为“恶寒”的特定知识关联性查询结果,图12所示《伤寒论》表郁轻证医案知识图谱为与表郁轻证相关的医案查询结果。
[0144]
在一个实施例中,基于概念层次结构树所确立的语义和关系,以及数据预处理、知识抽取和知识融合,针对《伤寒论》原著中间10篇涉及到辨病、辨证与治疗的条文和328份伤寒名家医案,构建了《伤寒论》“病-证-症-法-方”知识图谱,包含6469个实体和10911个关系三元组。表13、表14分别展示了neo4j存储的实体和关系的统计结果。
[0145]
表13 neo4j图数据库存储各类实体的统计结果
[0146]
实体类型中文含义数量实体类型中文含义数量disease tcm疾病15formula方剂112pattern证候299tcm case中医医案604symptom症状561others其他4866therapeutic methods治法12
ꢀꢀꢀ
[0147]
表14 neo4j图数据库存储关系三元组的统计结果
[0148][0149]
应该理解的是,虽然图1、7、8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1、7、8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0150]
在一个实施例中,如图13所示,提供了一种基于伤寒论的知识图谱构建装置,包括:伤寒论概念关系描述框架构建模块、伤寒论知识图谱的模式层构建模块和伤寒论知识图谱的数据层构建模块,其中:
[0151]
伤寒论概念关系描述框架构建模块,用于对伤寒论原文进行分析和挖掘,从理、
法、方三个方面,建立病、证、症、法、方的概念体系,并根据概念体系确定病、证、症、法、方之间的关系,并根据病、证、症、法、方之间的关系构建伤寒论概念关系描述框架。
[0152]
伤寒论知识图谱的模式层构建模块,用于根据伤寒论概念关系描述框架,参考预定技术规范,对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树;概念层次结构树包括概念节点、语义关系以及概念节点与语义关系之间的约束规则。
[0153]
伤寒论知识图谱的数据层构建模块,用于根据概念节点、语义关系以及约束规则,对伤寒论原文进行实体提取、实体属性提取以及实体关系提取,得到知识三元组集合;对知识三元组集合进行知识融合,得到知识融合后的知识三元组集合和伤寒论同义词库;将知识三元组集合采用neo4j图数据库进行存储,完成伤寒论知识图谱构建。
[0154]
在其中一个实施例中,该装置还包括基于伤寒名家医案对知识图谱更新模块,用于根据概念节点、语义关系以及约束规则,对伤寒名家医案进行实体提取、实体属性提取以及实体关系提取,得到伤寒名家医案的知识三元组;根据同义词库将伤寒名家医案的知识三元组中的实体名映射到规范实体,并采用统计的方法来计算实体相似度;实体相似度是字符相似度和语义相似度的加权和;将实体相似度最高且大于预设阈值的实体作为候选对齐实体提交给中医经方专家审核;如果审核通过,则合并两个实体的属性和关系,并将该实体与伤寒论的病-证-症-法-方知识图谱中的规范实体之间建立同义关系;如果审核不通过,将该实体作为新实体加入伤寒论的病-证-症-法-方知识图谱。
[0155]
在其中一个实施例中,基于伤寒名家医案对知识图谱更新模块中的字符相似度是采用两个实体字符串之间的jaccard距离来计算,字符相似度采用公式(2)计算;语义相似度是采用两个实体之间的余弦相似度来计算的,语义相似度采用公式(3)计算。
[0156]
在其中一个实施例中,伤寒论概念关系描述框架构建模块,还用于对伤寒论原文进行分析和挖掘,从理、法、方三个方面,建立病、证、症、法、方的概念分类体系,并将病、证、症、法、方五个方面收集的相关词汇作为标准术语,并添加进术语词典;根据病、证、症、法、方的概念分类体系,采用概念关系和属性关系定义病、证、症、法、方之间的关系,病、证、症、法、方之间的关系包括:病-病关系、病-证关系、病-症关系、证-症关系、证-法关系、证-方关系、法-方关系;概念关系是采用三元组《概念a,关系r,概念b》的形式进行表示的,其中关系r的类型包括:一对一、一对多、多对多;属性关系是采用三元组《概念a,属性b,属性值c》的形式进行表示的,其中属性值的类型为数字或字符串,属性值包括:名称、持续时间、严重程度、病位、病性;根据病-病关系、病-证关系、病-症关系、证-症关系、证-法关系、证-方关系、法-方关系,构建伤寒论概念关系描述框架。
[0157]
在其中一个实施例中,根据概念节点、语义关系以及约束规则;伤寒论知识图谱的数据层构建模块还包括
[0158]
数据预处理模块,用于在中医经方专家指导下,根据概念节点、语义关系以及约束规则,参考预选的现有伤寒论编著,对伤寒论原文及进行知识形式的转换,得到多个知识表格;知识表格中的每一个单元格内容均有明确范围,并且对于同义词以及症状的类型也以特殊字符予以标记。
[0159]
实体抽取模块,用于在知识表格的每一单元格中,借助特殊字符,利用nlpir-ictclas 汉语分词系统实现中文分词,完成病、证、症、法、方五个方面的实体抽取。
[0160]
实体关系抽取模块,用于根据语义关系和约束规则,为知识表格每一单元格赋予
特定的实体类型,以及单元格之间特定的关系类型,得到知识表格规则;基于术语词典和知识表格规则,从所有知识表格中抽取知识三元组集合,完成病、证、症、法、方五个方面的实体关系抽取。
[0161]
在其中一个实施例中,数据预处理模块,还用于针对伤寒论中涉及辨病与辨证的所有经文,当每条经文中只涉及1个诊断结论时,从原病证、治疗史、现病证、病因病机、辨证结果、治疗方案以及方案编码方面进行知识抽取,得到伤寒论经文对应的知识表格;知识表格中的现病证、治疗方案中知识类型中的每一术语,均为其指明所属概念节点;当每条经文中涉及多个诊断结论时,将该条经文拆分成多条经文,使得拆分后的经文中只包含一个诊断结论,按照只涉及1个诊断结论是的知识提取方法进行提取,得到伤寒论条文对应的知识表格;对知识抽取过程中所涉及的疾病实体、证候实体、症状实体、治法实体、疗法实体以及方剂实体分别按照对应的预设准则进行的命名规范。
[0162]
在其中一个实施例中,预定技术规范为tcmls-sn技术规范;伤寒论知识图谱的模式层构建模块,还用于根据伤寒论概念关系描述框架,参考tcmls-sn技术规范,采用人工标注 机器抽取 专家审核的方式对伤寒论原文进行知识提取,按照上下位关系构建一棵概念层次结构树。
[0163]
在其中一个实施例中,装置中的概念层次结构树的概念节点包括:阴阳理论、六经、神、七情、病因病机、疾病、证候、症状、治则、治法、疗法、食物、方剂、中药、腧穴、经络、脏腑、人体基本物质、形体官窍、体质、检查、检查结果、人物、地理名称、中医医案;语义关系包括:上下位、等价、位于、包含、由
……
组成、先于
……
发生、与
……
同时发生、相表里、使用、现象表达、主症、兼症、脉症、必要症、治疗、并发、引起、影响、误治、禁用、传变、含义扩展、是
……
原病证、是
……
治疗史、是
……
现病证、是
……
辨证结果、是
……
治疗方案;约束规则用由头概念、语义关系、尾概念组成的三元组表示,概念层次结构树包括44种约束规则。
[0164]
在其中一个实施例中,装置还包括:接收查询指令,并返回与查询指令对应的回复信息,其中,查询指令包括伤寒论知识结构查询、伤寒论特定知识关联性查询、伤寒论医案查询。
[0165]
关于基于伤寒论的知识图谱构建装置的具体限定可以参见上文中对于基于伤寒论的知识图谱构建方法的限定,在此不再赘述。上述基于伤寒论的知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0166]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0167]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献