一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

医学术语标准化方法及系统与流程

2021-11-03 14:43:00 来源:中国专利 TAG:


1.本发明涉及自然语言处理领域,尤其涉及一种医学术语标准化方法及系统。


背景技术:

2.无论中英文,自然语言处理在医学领域中一直面临医学词汇专业性强,术语丰富,多词多义的问题。由于医学体系的不同,在指称同一事物的时候,不同的临床医生和医疗卫生机构往往会采用不同的临床术语。现有的权威医学术语标有snomed ct(英文临床医学术语),umls(统一医学语言系统),icd10(国际疾病分类第10次修订本),icd11(国际疾病分类第11次修订本)等。snomed ct(英文临床医学术语)拥有概念350k和临床描述术语1.12m条,umls(统一医学语言系统)汇集了上百部已有的健康和生物医学术语标准,集成了包含300多万概念,1400多万概念名称的超级叙词表。为了医学技术发展和医学信息的统一,全面统一的医学术语系统对于临床医学信息的标准化和电子化起着十分重要的作用。
3.常用的标准化或者名词对齐方法是基于匹配的。基于匹配的方法一般是抽取医学术语的统计特征和表示特征。
4.1、统计特征的抽取方法是通过贡献矩阵,词频,文档频率,tf

idf,贝叶斯等方法实现。
5.2、表示的特征可以通过神经网络去计算医学术语的词向量或者语义向量来得到。
6.在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
7.由于医学术语具有专业性强,多词多义;并且临床症状的结果也力求不能出错,严肃性高,并且需要对医护人员和患者有一定的可解释性,单纯的基于匹配的方法并不能满足以上这些特征。
8.1、基于匹配的方法本身的算法精度是很难满足临床医学中的数据要求;标准化的时候频频出错,在医学诊断报告中是不可接受的。
9.2、由于标准化的结果是基于匹配的,导致医护人员看到标准化的结果时,有可能不知道标准化的结果是否正确,为什么正确或者为什么错误。基于匹配的标准化一定会缺乏结果的解释性,而在临床医学中可解释性对医护人员和患者很重要。


技术实现要素:

10.为了至少解决现有技术中医学词汇专业性强、术语丰富、多词多义而导致标准化匹配时不准确,并且缺乏匹配结果的解释性,对于医护人员和患者造成困扰的问题。
11.第一方面,本发明实施例提供一种医学术语标准化方法,包括:
12.识别步骤:将待标准化的医学用语文本输入至命名实体识别模型,输出识别结果,所述识别结果包括整体医学分类结果和细粒度分类结果;
13.对齐步骤:利用具有医学类别和层级结构信息的知识图谱,将所述识别结果与所述知识图谱中的标准化的术语名称进行对齐处理;
14.生成步骤:利用所述对齐处理结果生成标准化的医学用语。
15.第二方面,本发明实施例提供一种医学术语标准化系统,包括:
16.识别程序模块:用于将待标准化的医学用语文本输入至命名实体识别模型,输出识别结果,所述识别结果包括整体医学分类结果和细粒度分类结果;
17.对齐程序模块:用于利用具有医学类别和层级结构信息的知识图谱,将所述识别结果与所述知识图谱中的标准化的术语名称进行对齐处理;
18.生成程序模块:用于利用所述对齐处理结果生成标准化的医学用语。
19.第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的医学术语标准化方法的步骤。
20.第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的医学术语标准化方法的步骤。
21.本发明实施例的有益效果在于:利用医学知识和标准的疾病分类,使用命名实体识别技术将医学术语进行细粒度化的拆分,再利用知识图谱技术将医学术语组织成为图谱的形式。用细粒度化的医学知识去表示和解释复杂的医学术语,并且根据图谱中上下级的分类能很好的区分相似但是不相同的疾病或症状,提升医学用语标准化的准确率,并且得到的标准化结果具备可解释。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是本发明一实施例提供的一种医学术语标准化方法的流程图;
24.图2是本发明一实施例提供的一种医学术语标准化方法的整体流程图;
25.图3是本发明一实施例提供的一种医学术语标准化系统的结构示意图。
具体实施方式
26.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.如图1所示为本发明一实施例提供的一种医学术语标准化方法的流程图,包括如下步骤:
28.s11:识别步骤:将待标准化的医学用语文本输入至命名实体识别模型,输出识别结果,所述识别结果包括整体医学分类结果和细粒度分类结果;
29.s12:对齐步骤:利用具有医学类别和层级结构信息的知识图谱,将所述识别结果与所述知识图谱中的标准化的术语名称进行对齐处理;
30.s13:生成步骤:利用所述对齐处理结果生成标准化的医学用语。
31.一般业内人员会从词语匹配的方式去尝试解决标准化的问题,遇到上述错误等问题时,只要添加对应的专业术语就可以修改。但是这种方法不具备知识性和解释性,而且面临穷举不完的情况。在本实施方式中,将医学术语知识解析和图谱化的方式去解决这些问题,将专业和标准的医学知识嵌入到知识图谱中,并利用细粒度化的知识图谱将这些医学知识组织起来。
32.对于步骤s11,本方法在收到医学用语时,首先会将待标准化的医学用语文本输入至命名实体识别模型,来判断出医学用语的识别结果,其中,既包含了医学分类结果和细粒度分类的结果。
33.本方法的命名实体识别模型中的类别是参照国际疾病分类标准进行训练的,如果医学进步,分类有所变化,可以基于新的分类重新训练。例如,据国际疾病分类标准icd

11中的类别和常见医学术语预料进行命名实体识别。与常见的命名实体识别是对整个术语进行识别不同,本模型是识别术语的整体结果和细粒度分类结果。如,常见的命名实体识别为会将“上唇沟恶性肿瘤”分类为疾病;本方法的命名实体识别模型会分类为:“整体:疾病,部位:上唇沟,性状:恶性,疾病:肿瘤”。这样就能完整的获取一个术语内包括的所有信息。
34.其中,作为一种实施方式,所述命名实体识别模型由带有基准整体医学分类结果和基准细粒度分类结果的医学术语训练语料训练,包括:
35.将所述医学术语训练语料输入至所述命名实体识别模型,得到预测整体医学分类结果和预测细粒度分类结果;
36.基于所述基准整体医学分类结果和基准细粒度分类结果与所述预测整体医学分类结果和预测细粒度分类结果的误差对所述命名实体识别模型训练,以使所述预测整体医学分类结果和预测细粒度分类结果趋近于所述基准整体医学分类结果和基准细粒度分类结果。
37.在本实施方式中,在训练命名实体识别模型时,准备好医学术语训练语料,其中,医学术语训练语料可以是日常常见所整理的医学术语语料,并且,这些语料还带有对应的基准整体医学分类结果和基准细粒度分类结果,这些结果可以是人工确定。
38.准备好相应的训练语料之后,就可以进行命名实体识别模型的训练,利用预测结果与基准结果的误差对命名实体识别模型训练,使命名实体识别模型的预测结果逐步趋近于准备好的基准的结果,这样命名实体识别模型就训练完成。
39.对于步骤s12,简单的举例,如果医学用语输入的为“小腹很疼”,在步骤s11中利用命名实体识别模型得到了,“整体:疾病,部位:小腹,性状:疼”。由于“小腹”这个词语有些口语化,在医疗临床中还是需要避免口语化的词语。利用知识图谱对标准化的术语名称对识别结果进行对齐处理,例如,小腹对齐到标准的医学部位“下腹部”。
40.作为一种实施方式,所述知识图谱由从疾病分类标准以及疾病资料抽取的医学类别和层级结构信息构建。
41.在本实施方式中,疾病分类标准可以参考国际疾病分类(icd)(如果医学进步,带来分类标准的更新,可以使用更新后的标准进行分类,在此不做限定)。
42.例如,按照icd

11的分类进行分类,总共制作28类,人体部位,疾病名称等。对应这28类,获取对应这些类别的疾病资料,例如病学书籍等。这个知识图谱是具有图结构和层级结构的,如“下腹部”属于“腹部”,“腹部”属于“躯干”,“脑胶质母细胞瘤”属于“脑胶质瘤”,

脑胶质瘤”是位于脑部的关联。这样知识图谱就构建完成。
43.对于步骤s13,如待标准化的临床医学文本为:“小腹很疼”,那么标准化的结果就是“下腹部疼痛”。这样,就得到了更加标准化的医学文本,从而帮助医护人员明确病情。
44.通过该实施方式可以看出,本方法利用医学知识和标准的疾病分类,先使用命名实体识别技术将医学术语进行细粒度化的拆分,再利用知识图谱技术将医学术语组织成为图谱的形式。用细粒度化的医学知识去表示和解释复杂的医学术语,并且根据图谱中上下级的分类能很好的区分相似但是不相同的疾病或症状。提升医学用语标准化的准确率。
45.例如:“上唇沟恶性肿瘤”和“下唇沟良性肿瘤”会被拆分为“部位:上唇沟,性状:恶性,疾病:肿瘤”和“部位:下唇沟,性状:恶性,疾病:肿瘤”。之后根据医学知识图谱的链接知道“上唇沟”和“下唇沟”是同属于唇部的不同身体部位,“恶性”和“良性”是肿瘤完全不同的2种形状。通过这种方式,能准确的识别“上唇沟恶性肿瘤”和“下唇沟良性肿瘤”不是一个可以互相标准化的结果,并且能给出是因为部位和性状不同的解释。
46.作为一种实施方式,在所述生成步骤之后,所述方法还包括:
47.输出步骤:输出标准化的医学用语以及所述对齐步骤中的推理过程。
48.在本实施方式中,制作标准化的报告,并且输出推理的结果作为标准化的依据。如“下边牙龈流脓”标准化为“下部牙龈溃疡”,并且将“下边
”→“
下部”、“流脓
”→“
溃疡”的过程进行展示。提示方位是下部;部位是牙龈;疾病是溃疡。如果遇到不能标准化或者只能部分标准化的临床文本,也能给出没法标准化的原因,有助于医护人员对临床文本进行理解,同时理解推理过程,如果标准化出错,也便于医护人员编辑。
49.作为一种实施方式,接收医护人员和/或患者对所述推理过程的修改,基于修改后的推理过程重新确定对齐处理结果,以生成修改后的标准化的医学用语。
50.在本实施方式中,医护人员编辑修改后,可以基于医护人员修改的内容重新推理,将错误推理的内容修改正确,从而生成正确的标准化医学用语。
51.作为一种实施方式,所述医学用语包括:医护人员的临床医学术语和/或患者的病症表述。
52.在本实施方式中,医学用语不但可以帮助医护人员,同时还可以帮助患者。例如,普通人在生病疼痛时,只能说出症状,但说不清具体要挂什么号,例如,手疼可以分很多种,“骨头疼”“关节疼”“手上的肉麻的疼”。前两种通常会挂骨科,而“麻的疼”可能与颈椎的神经科有关。这时,本方法的标准化应用到病患的病症表述,明确区分出病症对应的医学术语,从而根据标准化的病症引导患者挂号,可以解决电子病历、挂号的导诊辅诊、医疗检查等问题,进一步提升本方法的应用场景。
53.总体来说,本方法的整体流程如图2所示:
54.1、获取参考的医学知识作为标准化的依据:国际疾病分类标准icd

11中的类别和《传染病学》等书出版籍。这样所有的医学知识都是国家卫健委要求的标准,并且具备专业性和权威性。
55.2、对参考知识进行信息抽取,抽取其中的医学类别和层级信息。
56.3、根据参考的医学知识制作知识图谱,按照icd

11的分类进行分类,总共制作28类,人体部位,疾病名称等。这个知识图谱是具有图结构和层级结构的,如“下腹部”属于“腹部”,“腹部”属于“躯干”,“脑胶质母细胞瘤”属于“脑胶质瘤”,“脑胶质瘤”是位于脑部的关
联。
57.4、根据国际疾病分类标准icd

11中的类别和常见医学术语预料进行命名实体识别。与常见的命名实体识别是对整个术语进行识别不同,我们的模型是识别术语的整体结果和细粒度分类结果。如,常见的命名实体识别为会将“上唇沟恶性肿瘤”分类为疾病;我们的模型会分类为,“整体:疾病,部位:上唇沟,性状:恶性,疾病:肿瘤”。这样就能完整的获取一个术语内包括的所有信息。
58.5、将需要标准化的临床医学文本导入到模型,根据识别结果,文本会被细粒度的识别为部位,疾病,症状,性质,时间,病因等分类
59.6、根据细粒度化的识别结果,将带标准化的文本与标准化的疾病名称进行对齐,如小腹对齐到标准的医学部位“下腹部”,如果临床的部位并不存在或者写错了,就会在最后的标准化结果作出解释。如待标准化的临床医学文本为:“小腹很疼”,那么标准化的结果就是“下腹部疼痛”60.7、制作标准化的报告,并且输出推理的结果作为标准化的依据。如“下边牙龈流脓”标准化为“下部牙龈溃疡”,并且是知道方位是下部;部位是牙龈;疾病是溃疡。如果遇到不能标准化或者只能部分标准化的临床文本,也能给出没法标准化的原因,有助于医护人员对临床文本进行编辑。
61.8、将标准化的结果存入电子病历或文档。
62.现有业内基于匹配的方法是将医学文本当做普通的自然语言文本进行处理,这种方法忽略了医学文本的专业性,知识性等特点,往往效果不好。
63.医学知识图谱往往难以构建,一个主要原因就是缺乏医学知识,英文的医学标准又难以使用。本方法通过对国家标准和专业数据的信息抽取,构建了标准化的医学分类和层级化图谱。这个图谱不仅能够应用与医学术语标准化任务,其他如电子病历,导诊辅诊,医疗检查等都可以利用标准化后的知识。
64.基于匹配的方法哪怕可以通过迭代的方法提高一些精度,一旦出现错误是不可解释的。医护人员或患者面对错误的标准化结果,是很难理解为什么匹配错误;甚至面对不常见的医学术语,会出现不确定标准化的结果是否正确的情况。
65.基于细粒度知识图谱的标准化结果,会告诉医护人员或患者标准化的推理逻辑。遇到无法标准化或部分标准化的情况,也会给出原因,方便进行临床文本的编辑和修改。
66.基于细粒度知识图谱的标准化具有知识性和专业性,可以根据更复杂的医学场景和领域产生跨学科的合作。
67.如图3所示为本发明一实施例提供的一种医学术语标准化系统的结构示意图,该系统可执行上述任意实施例所述的医学术语标准化方法,并配置在终端中。
68.本实施例提供的一种医学术语标准化系统10包括:识别程序模块11,对齐程序模块12和生成程序模块13。
69.其中,识别程序模块11用于将待标准化的医学用语文本输入至命名实体识别模型,输出识别结果,所述识别结果包括整体医学分类结果和细粒度分类结果;对齐程序模块12用于利用具有医学类别和层级结构信息的知识图谱,将所述识别结果与所述知识图谱中的标准化的术语名称进行对齐处理;生成程序模块13用于利用所述对齐处理结果生成标准化的医学用语。
70.在所述对齐程序模块之后,所述系统还包括:
71.输出程序模块:用于输出标准化的医学用语以及所述对齐步骤中的推理过程。
72.本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的医学术语标准化方法;
73.作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
74.识别步骤:将待标准化的医学用语文本输入至命名实体识别模型,输出识别结果,所述识别结果包括整体医学分类结果和细粒度分类结果;
75.对齐步骤:利用具有医学类别和层级结构信息的知识图谱,将所述识别结果与所述知识图谱中的标准化的术语名称进行对齐处理;
76.生成步骤:利用所述对齐处理结果生成标准化的医学用语。
77.作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的医学术语标准化方法。
78.非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
79.本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的医学术语标准化方法的步骤。
80.本技术实施例的电子设备以多种形式存在,包括但不限于:
81.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
82.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如平板电脑。
83.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
84.(4)其他具有数据处理功能的电子装置。
85.在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
86.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
87.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
88.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献