一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于节点相似度的医学术语归一化方法及系统与流程

2022-12-31 17:07:35 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,具体地说是基于节点相似度的医学术语归一化方法及系统。


背景技术:

2.在医学领域中,常用专业术语包括医院部门及科室名称、诊断和治疗常用词汇、常见疾病名称、常见手术名称、常用药物名称、常用临床医学术语、常做实验室检查和检验等,不同类别的各个不同名称或相同名称的医学术语都可能存在不同的属性关系,如适应人群、适应证、使用药物、应做的检验和检查等,任何一个属性条件的增加、删除、修改,都有可能引起实体词的变化。根据这些属性条件及类别标签,才能将不同实体词进行合理准确的分类及判定。
3.现阶段,随着医疗机构信息化不断深入,各种基于实际应用的医学术语名词标准的需求日益增加。伴随着医学的发展,各个专项领域的区分更加细致化,各家医疗机构、科室之间的信息交流、共享、整合和利用因数据结构和表达方式的不同而无法达成一致。且由于地域差异性和严重的口语化,导致存在多词同义或一词多义现象,对之后进行医学信息研究和分析工作有很大影响。目前,医学领域术语归一化工作进展缓慢,多为医学专业人员进行人工对比处理,需要耗费大量人力和精力,时间长效率低,且由于地域广泛及地域差异性的影响,导致沟通交流困难,很难达成一套统一的术语归一化体系。
4.如何有效解决实体间共指消解与实体消歧的问题,快速准确完成医学术语归一化是目前亟待解决的技术问题。


技术实现要素:

5.本发明的技术任务是针对以上不足,提供基于节点相似度的医学术语归一化方法及系统,来解决如何有效解决实体间共指消解与实体消歧的问题,快速准确完成医学术语归一化的技术问题。
6.第一方面,本发明一种基于节点相似度的医学术语归一化方法,其特征在于,包括如下步骤:
7.获取医学术语归一词作为实体归一词,并对每个实体归一词标注实体类型;
8.对于每个实体归一词,获取所述实体归一词的所有实体属性以及每个实体属性对应的属性类型,将所述实体归一词以及对应的实体属性、属性类型、实体类型以及实体归一词与实体属性之间关系类型作为一个词组,将每个实体归一词对应的词组作为一条知识构建知识库;
9.对于要进行归一化的目标实体,获取所述目标实体对应的实体属性以及目标实体和与其对应实体属性之间关系类型,计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度;
10.选取与目标实体属性的节点相似度大于阈值的归一化词实体作为匹配归一化实
体,如果所述匹配归一化实体为多个,通过人工判定的方式选择一个实体归一词作为所述目标实体对应的归一词实体。
11.作为优选,如果目标实体对应的实体类型已知,从知识库中筛选出与所述目标实体同一个实体类型的实体归一词,基于筛选出的实体归一词、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度。
12.作为优选,如果实体归一词对应实体属性的数量多于阈值,基于实体归一词和与其对应实体属性之间关系类型、选取与目标实体和与其对应实体属性之间关系类型相同的实体属性,基于选取实体属性、计算目标实体的实体属性与实体归一词的实体属性之间的节点相似度;
13.如果目标实体对应实体属性的数量多于阈值,选取在知识库中占比为前列的n个实体属性作为目标实体的实体属性,基于选取的实体属性、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度。
14.作为优选,如果目标实体的实体属性与知识库中每个归一词实体的实体属性之间的节点相似度均为零,判定知识库中不存在目标实体的归一词,对所述目标实体进行人工校验后,将所述目标实体以及对应的实体类型、实体属性、属性类别以及目标实体和与其对应实体属性之间关系类型作为一个词组,将所述词组作为一条新的知识更新至知识库。
15.作为优选,通过如下方法计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度:基于实体属性的属性值以及实体属性的属性类型,将目标实体的实体属性与实体归一词的实体属性逐个进行匹配,将属性值与属性类型均相同的实体属性作为匹配的实体属性;
16.对应的,节点相似度计算公式为:
17.ji=s0∩si/s0∪si=s0∩si/(s0 si-s0∩si)
18.其中,ji表示目标实体与第i个归一词实体的节点相似度值,s0表示目标实体的实体属性集合,si表示第i个归一词实体的实体属性集合。
19.第二方面,本发明一种基于节点相似度的医学术语归一化系统,用于通过如第一方面任一项所述的基于节点相似度的医学术语归一化方法对目标实体进行归一化,所述系统包括:
20.数据采集模块,所述数据采集模块用于获取医学术语归一词作为实体归一词,并对每个实体归一词标注实体类型;
21.知识库构建模块,对于每个实体归一词,获取所述实体归一词的所有实体属性以及每个实体属性对应的属性类型,将所述实体归一词以及对应的实体属性、属性类型、实体类型以及实体归一词与实体属性之间关系类型作为一个词组,将每个实体归一词对应的词组作为一条知识构建知识库;
22.归一化实体匹配模块,对于要进行归一化的目标实体,所述归一化实体匹配模块用于获取所述目标实体对应的实体属性以及目标实体和与其对应实体属性之间关系类型,计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度;
23.归一化实体选择模块,所述归一化实体选择模块用于选取与目标实体属性的节点相似度大于阈值的归一化词实体作为匹配归一化实体,如果所述匹配归一化实体为多个,通过人工判定的方式选择一个实体归一词作为所述目标实体对应的归一词实体。
24.作为优选,如果目标实体对应的实体类型已知,所述归一化实体匹配模块用于从知识库中筛选出与所述目标实体同一个实体类型的实体归一词,基于筛选出的实体归一词、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度。
25.作为优选,如果实体归一词对应实体属性的数量多于阈值,所述归一化实体匹配模块用于执行:基于实体归一词和与其对应实体属性之间关系类型、选取与目标实体和与其对应实体属性之间关系类型相同的实体属性,基于选取实体属性、计算目标实体的实体属性与实体归一词的实体属性之间的节点相似度;
26.如果目标实体对应实体属性的数量多于阈值,所述归一化实体匹配模块用于执行:选取在知识库中占比为前列的n个实体属性作为目标实体的实体属性,基于选取的实体属性、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度。
27.作为优选,如果目标实体的实体属性与知识库中每个归一词实体的实体属性之间的节点相似度均为零,所述归一化实体匹配模块用于执行:判定知识库中不存在目标实体的归一词,对所述目标实体进行人工校验后,调用知识库构建模块;
28.对应的,所述知识库构建模块用于执行:将所述目标实体以及对应的实体类型、实体属性、属性类别以及目标实体和与其对应实体属性之间关系类型作为一个词组,将所述词组作为一条新的知识更新至知识库。
29.作为优选,所述归一化实体匹配模块通过如下方法计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度:基于实体属性的属性值以及实体属性的属性类型,将目标实体的实体属性与实体归一词的实体属性逐个进行匹配,将属性值与属性类型均相同的实体属性作为匹配的实体属性;
30.其中,节点相似度计算公式为:
31.ji=s0∩si/s0∪si=s0∩si/(s0 si-s0∩si)
32.其中,ji表示目标实体与第i个归一词实体的节点相似度值,s0表示目标实体的实体属性集合,si表示第i个归一词实体的实体属性集合。
33.本发明的基于节点相似度的医学术语归一化方法及系统具有以下优点:
34.1、建立知识库,通过知识库将归一词实体与其对应的实体属性对齐,然后根据各个属性值数量进行属性参数调优,再基于节点相似度计算将目标实体属性组与归一词实体属性组进行对比,选取节点相似度最高的实体词作为目标实体的归一词,提高了归一化准确率;
35.2、对于已知类型的目标实体,从知识库中筛选出与目标实体同一个类型的实体归一词,对于筛选出的归一词,再分别计算目标实体属性集合与归一词实体属性集合的节点相似度,根据实体类型有选择的选取疾病、药物、手术、检验检查等某一具体类别进行目标实体归一化,相比广泛无目的的搜索,精确了归一化的范围,提高效率和准确率,快速完成术语实体归一化的任务目标。
附图说明
36.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
37.下面结合附图对本发明进一步说明。
38.图1为实施例1基于节点相似度的医学术语归一化方法的流程框图;
39.图2为实施例1基于节点相似度的医学术语归一化方法的案例流程框图。
具体实施方式
40.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
41.本发明实施例提供基于节点相似度的医学术语归一化方法及系统,用于解决如何有效解决实体间共指消解与实体消歧的问题,快速准确完成医学术语归一化的技术问题。
42.实施例1:
43.本发明一种基于节点相似度的医学术语归一化方法,包括医学术语归一词采集、知识库构建、归一词匹配以及基于匹配结果的归一词选取四个步骤,上述四个步骤如图1所示,具体如下。
44.s100、获取医学术语归一词作为实体归一词,并对每个实体归一词标注实体类型。
45.本实施例步骤s100为医学术语归一词采集。采集国家发行的标准数据集、期刊、国家发行的医学相关知识文档或文献等权威知识获取相关知识数据,进行数据结构化处理,目前知识库中已加入了《疾病分类与代码(修订版)》全国1.3版、疾病分类与代码国家临床版2.0、常用临床医学名词、医疗机构临床检验项目目录(2014年版)、全国医疗卫生机构业务科室分类与代码、手术国家标准3.0、国家药监局、临床医学路径、中医证候名称与分类代码、中医病症分类与代码、医保目录等18项知识来源进行术语标准词的规整。
46.本实施例中,将疾病作为实体,例如实体归一词(疾病名称)为普通感冒,对应的实体属性包括比赛、流鼻涕、打喷嚏、发烧和头痛;实体归一词(疾病名称)为肺炎,对应的实体属性包括鼻塞、流鼻涕、打喷嚏、发烧、全身乏力、腹泻、呕吐。
47.s200、对于每个实体归一词,获取所述实体归一词的所有实体属性以及每个实体属性对应的属性类型,将所述实体归一词以及对应的实体属性、属性类型、实体类型以及实体归一词与实体属性之间关系类型作为一个词组,将每个实体归一词对应的词组作为一条知识构建知识库。
48.本实施例步骤s200为知识库构建。每个实体归一词对应有多个实体属性,每个实体归一词对应的多个实体属性形成实体属性集合,每个实体属性对应有属性类别。对于每个实体归一词,实体与实体属性之间的关系类型包括症状、用药以及适应人群等。
49.该步骤将实体名称及其属性以“实体名称-类型标签-关系类型-实体属性-类型标签”元组的形式进行数据存储,其中“实体名称”为起始实体,“实体属性”为终止实体即实体归一词的属性之一,如下表所示。
50.表1术语关系表
[0051][0052][0053]
s300、对于要进行归一化的目标实体,获取所述目标实体对应的实体属性以及目标实体和与其对应实体属性之间关系类型,计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度。
[0054]
步骤300为归一词匹配。该步骤中基于实体属性的属性值以及实体属性的属性类型,将目标实体的实体属性与实体归一词的实体属性逐个进行匹配,将属性值与属性类型均相同的实体属性作为匹配的实体属性。对应的,节点相似度计算公式为:
[0055]
ji=s0∩si/s0∪si=s0∩si/(s0 si-s0∩si)
[0056]
其中,ji表示目标实体与第i个归一词实体的节点相似度值,s0表示目标实体的实体属性集合,si表示第i个归一词实体的实体属性集合。
[0057]
在上述计算过程中,如果目标实体对应的实体类型已知,从知识库中筛选出与所述目标实体同一个实体类型的实体归一词,基于筛选出的实体归一词、计算目标实体的实
体属性与所述实体归一词的实体属性之间的节点相似度。
[0058]
如果实体归一词对应实体属性的数量多于阈值,基于实体归一词和与其对应实体属性之间关系类型、选取与目标实体和与其对应实体属性之间关系类型相同的实体属性,基于选取实体属性、计算目标实体的实体属性与实体归一词的实体属性之间的节点相似度。
[0059]
如果目标实体对应实体属性的数量多于阈值,选取在知识库中占比为前列的n个实体属性作为目标实体的实体属性,基于选取的实体属性、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度。
[0060]
如果目标实体的实体属性与知识库中每个归一词实体的实体属性之间的节点相似度均为零,判定知识库中不存在目标实体的归一词,对所述目标实体进行人工校验后,将所述目标实体以及对应的实体类型、实体属性、属性类别以及目标实体和与其对应实体属性之间关系类型作为一个词组,将所述词组作为一条新的知识更新至知识库。
[0061]
s400、选取与目标实体属性的节点相似度大于阈值的归一化词实体作为匹配归一化实体,如果所述匹配归一化实体为多个,通过人工判定的方式选择一个实体归一词作为所述目标实体对应的归一词实体。
[0062]
如图2案例中所示,以“冠心病”为目标实体,“高血压”为归一词实体x1,“冠状动脉粥样硬化性心脏病”为归一词实体x2为例:
[0063]
确定目标实体x0的属性集合s0:
[0064]
x0:冠心病
[0065]
s0:{“症状”:“胸痛”,“症状”:“胸闷”,“症状”:“胸部压迫”,“用药”:“阿司匹林”,“用药”:“acel”,“用药”:“β阻滞剂”}
[0066]
确定每个归一词实体x1,x2的属性集合s1,s2
[0067]
x1:高血压
[0068]
s1:{“症状”:“血压升高”,“症状”:“胸闷”,“症状”:“头晕”,“用药”:“利尿剂”,“用药”:“acel”,“用药”:“β阻滞剂”}
[0069]
x2:冠状动脉粥样硬化性心脏病
[0070]
s2:{“症状”:“胸痛”,“症状”:“胸闷”,“相关检查”:“心电图”,“用药”:“阿司匹林”,“用药”:“acel”,“用药”:“β阻滞剂”}
[0071]
分别计算目标实体属性集合s0与归一词实体属性集合s1,s2的交集为第一集合t11,t12;目标实体属性集合s0与归一词实体属性集合s1,s2的并集(s0 si-t1i)为第二集合t21,t22;
[0072]
s0与s1的交集:t11:{“症状”:“胸痛”,“用药”:“acel”,“用药”:“β阻滞剂”}
[0073]
t11=s0∩s1=3
[0074]
s0与s2的交集:t12:{“症状”:“胸痛”,“症状”:“胸闷”,“用药”:“阿司匹林”,“用药”:“acel”,“用药”:“β阻滞剂”}
[0075]
t12=s0∩s2=5
[0076]
s0与s1的并集:t21:{“症状”:“胸痛”,“症状”:“胸闷”,“症状”:“胸部压迫”,“用药”:“阿司匹林”,“用药”:“acel”,“用药”:“β阻滞剂”,“症状”:“血压升高”,“症状”:“头晕”,“用药”:“利尿剂”}
实体属性-类型标签”元组的形式进行数据存储,其中“实体名称”为起始实体,“实体属性”为终止实体即实体归一词的属性之一。
[0094]
对于要进行归一化的目标实体,归一化实体匹配模块用于获取所述目标实体对应的实体属性以及目标实体和与其对应实体属性之间关系类型,计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度。
[0095]
本实施例中,归一化实体匹配模块通过如下方法计算所述目标实体的实体属性与知识库中各个归一词实体的实体属性之间的节点相似度:基于实体属性的属性值以及实体属性的属性类型,将目标实体的实体属性与实体归一词的实体属性逐个进行匹配,将属性值与属性类型均相同的实体属性作为匹配的实体属性;
[0096]
其中,节点相似度计算公式为:
[0097]
ji=s0∩si/s0∪si=s0∩si/(s0 si-s0∩si)
[0098]
其中,ji表示目标实体与第i个归一词实体的节点相似度值,s0表示目标实体的实体属性集合,si表示第i个归一词实体的实体属性集合。
[0099]
在计算过程中,该归一化实体匹配模块执行如下:
[0100]
如果目标实体对应的实体类型已知,所述归一化实体匹配模块用于从知识库中筛选出与所述目标实体同一个实体类型的实体归一词,基于筛选出的实体归一词、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度;
[0101]
如果实体归一词对应实体属性的数量多于阈值,所述归一化实体匹配模块用于执行:基于实体归一词和与其对应实体属性之间关系类型、选取与目标实体和与其对应实体属性之间关系类型相同的实体属性,基于选取实体属性、计算目标实体的实体属性与实体归一词的实体属性之间的节点相似度;
[0102]
如果目标实体对应实体属性的数量多于阈值,所述归一化实体匹配模块用于执行:选取在知识库中占比为前列的n个实体属性作为目标实体的实体属性,基于选取的实体属性、计算目标实体的实体属性与所述实体归一词的实体属性之间的节点相似度;
[0103]
如果目标实体的实体属性与知识库中每个归一词实体的实体属性之间的节点相似度均为零,所述归一化实体匹配模块用于执行:判定知识库中不存在目标实体的归一词,对所述目标实体进行人工校验后,调用知识库构建模块。
[0104]
对应的,所述知识库构建模块用于执行:将所述目标实体以及对应的实体类型、实体属性、属性类别以及目标实体和与其对应实体属性之间关系类型作为一个词组,将所述词组作为一条新的知识更新至知识库。
[0105]
归一化实体选择模块用于选取与目标实体属性的节点相似度大于阈值的归一化词实体作为匹配归一化实体,如果所述匹配归一化实体为多个,通过人工判定的方式选择一个实体归一词作为所述目标实体对应的归一词实体。
[0106]
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献