一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

病例结构化模型训练方法、装置和病例结构化方法与流程

2022-10-12 23:53:13 来源:中国专利 TAG:


1.本发明涉及精准医疗技术领域,尤其涉及病例结构化模型训练方法、装置和病例结构化方法。


背景技术:

2.病例结构化是将无结构的病例文本数据转化为便于人与机器理解与处理的结构化数据。对于临床辅助决策、门诊分类、药品研发、智慧医疗与健康等领域具有重要价值。医疗事件信息抽取是病例结构化的核心,将分散在病例文本中的医疗事件信息以结构化、时间线的方式进行提取与展示是病例结构化的重要工作。
3.目前,病例结构化的方法以命名实体识别(ner)为核心,基于识别出的实体进行组合实现结构化。这种方式存在两个比较显著的缺陷:(1)病例中涉及大量不同类型的事件,如主诉事件、住院事件、手术事件、用药事件等,不同类型的事件需要设计不同类型的组合算法,需要大量的医学专家知识和算法实现;(2)不同类型的事件结构知识无法实现迁移学习:将不同类型的事件分开处理,模型无法共享不同事件类型的知识信息,导致所需要的标注数据也更多。


技术实现要素:

4.为了解决现有技术中存在的问题,本发明提供了如下技术方案。
5.本发明第一方面提供了一种病例结构化模型的训练方法,包括:获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述医疗事件类型各自对应的医疗事件模板;根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
6.优选地,所述根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型,包括:将所述病例文本训练数据和各个所述医疗事件模板输入预设的bart预训练语言模型,以使该bart预训练语言模型依次进行元素识别和元素组合,以在所述病例文本训练数据中抽取各个类型的医疗事件并将所述医疗事件转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。
7.优选地,所述获取已标注标签的病例文本训练数据,包括:从接收到的病例文本中提取文本块,和/或,根据选择的医疗事件类型,并基于该医疗事件类型的医疗事件模板,利用词典和规则生成病例文本并从病例文本中提取文本块;对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据。
8.优选地,所述从病例文本中提取文本块包括:基于medbert bilstm crf模型从所述病例文本中提取得到文本块。
9.优选地,在所述从接收到的病例文本中提取文本块之前,还包括:
接收病例文本,和/或,接收病例文本图片并对该病例文本图片进行文本识别,得到对应的病例文本。
10.优选地,各个所述医疗事件类型包括:就诊事件、主诉事件、现病史事件、既往史事件、个人史事件、婚姻史事件、生育史事件、月经史事件、家族史事件和过敏史事件中的任意组合。
11.优选地,所述的病例结构化模型的训练方法还包括:基于待应用所述病例结构化模型的目标医院对应的医疗术语别名训练数据,采用bert esim模型对所述病例结构化数据进行医疗术语归一化训练。
12.优选地,所述的病例结构化模型的训练方法还包括:对所述病例结构化数据进行可视化校验,并将校验结果作为所述病例结构化模型下一轮训练的训练数据。
13.本发明第二方面提供了一种病例结构化方法,包括:获取病例文本;将所述病例文本输入到病例结构化模型中,以使该病例结构化模型输出所述病例文本所属的医疗事件类型及病例结构化数据;所述病例结构化模型预先基于第一方面所述的病例结构化模型的训练方法训练得到。
14.本发明第三方面提供了一种病例结构化模型的训练装置,包括:训练数据获取模块,用于获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述事件类型各自对应的医疗事件模板;模型训练模块,用于根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
15.本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的病例结构化模型的训练方法,或者,实现如第二方面所述的病例结构化方法。
16.本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的病例结构化模型的训练方法,或者,执行如第二方面所述的病例结构化方法。
17.本发明的有益效果是:本发明提供的病例结构化模型训练方法、装置和病例结构化方法。其是基于端到端事件的抽取病例结构化方法,在医疗事件模板的指导下从病例文本中进行多种类型医疗事件抽取。该方法能够根据不同病例数据灵活地进行事件模板的设计,避免了新的医疗事件类型抽取所需要的大规模数据标注与模型训练。通过采用统一的框架实现不同类型的医疗事件的抽取,如手术事件、住院事件等,很好地满足了病例文本中蕴含的丰富类型医疗事件的建模与抽取,也很好地满足了应用场景的实际需求。采用本发明的方法还能够共享不同类型的事件之间的共性,以实现迁移学习,降低对标注数据的依赖。因此,本发明可以很好地解决医疗病例结构化中多类型事件抽取的核心挑战。
附图说明
18.图1为本发明所述病例结构化模型的训练方法流程示意图;图2为本发明所述medbert bilstm crf模型的架构示意图;图3为本发明所述病例结构化模型的训练方法流程示意图;图4为本发明所述医疗事件序列化和结构化流程示意图;图5为本发明所述病例结构化模型的训练装置功能模块示意图。
具体实施方式
19.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
20.本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
21.处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
22.存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。
23.显示屏用于显示各个应用程序的用户界面。
24.除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
25.实施例一如图1所示,本发明实施例提供了一种病例结构化模型的训练方法,包括:s101,获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述医疗事件类型各自对应的医疗事件模板;s102,根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
26.可以理解的是,所述病例结构化模型是指经模型训练后的bart预训练语言模型,即在根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型之后,能够使得该bart预训练语言模型输出病例文本所属的医疗事件类型及病例结构化数据,进而成为一种病例结构化模型。
27.在s101中,训练数据为已标注标签的病例文本,可以按照如下两种方式之一或者组合获得该训练数据:一种方式是根据已有的病例文本获得,具体为:接收病例文本;从接收到的病例文本中提取文本块,对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据。在一份病例中,可能包括多个模块,比如包括就诊信息、主诉、现病史、既往史、个人史、婚育史、家族史等模块。不同的模块对应不同的医疗事件,因此,在一份病例中,可能包括多
种类型的医疗事件,比如就诊事件、主诉事件、现病史事件、既往史事件、个人史事件、婚姻史事件、生育史事件、月经史事件、家族史事件和过敏史事件中的任意组合。在获取训练数据时,将病例文本中的文本块提取出来后,根据各文本块对应的医疗事件类型对其进行标注。对于包括多个文本块的病例文本,对应包括多个标注有医疗事件类型的文本块。在使用该病例文本对模型进行训练时,该包括多个标注有医疗事件类型的文本块的病例文本作为一个训练样本数据同时输入到模型中。虽然各医疗事件的类型不同,但是各类型的医疗事件中可能包括相同的元素,因此,在模型训练过程中,不同类型医疗事件之间可以共享相同元素,以实现迁移学习,从而降低了对标注数据的依赖。
28.在本发明的一个优选实施例中,在所述从接收到的病例文本中提取文本块之前,还可以包括:接收病例文本,和/或,接收病例文本图片并对该病例文本图片进行文本识别,得到对应的病例文本。如果病例文本为纯文本形式,则可以直接提取文本块;如果病例文本为图片格式,则可以对图片进行文本识别,得到对应的病例文本后再从中提取文本块。
29.在实际应用过程中,纯文本形式的电子病例较难获得,大部分情况是相关工作人员事先利用拍摄设备将病例文本实物拍摄成图片,并输入病例文本图片。因此,大部分情况可以获得病例文本图片。因此,本发明中,为了进一步提升应用范围,既能够支持病例文本,又能够支持病例文本图片,利用文字识别系统将病例文本图片转换为病例文本。具体地,本发明中基于crnn实现文字识别。通过采集真实的病例文本图片和大规模自动合成相结合的方式,构建一个大规模的病例文本图片文字识别数据集,基于该数据集训练模型,得到一个在医疗领域具有较好识别能力的crnn模型。
30.另一种方式是通过生成病例文本获得训练数据,具体为:首先选择医疗事件类型,然后根据选择的医疗事件类型,并基于该医疗事件类型的医疗事件模板,利用词典和规则生成病例文本并从病例文本中提取文本块;最后对所述文本块进行医疗事件类型的标注,以得到对应的病例文本训练数据。作为一个实施例比如,选择主诉事件,然后基于主诉事件模板从身体部位词典、症状词典、程度词典、时间词典中随机挑选“背部”、“疼痛”、“轻微”、“2天”作为主诉事件的元素词,利用规则生成主诉事件文本“患者背部轻微疼痛,持续2天”。其中规则是根据事件所包含的元素类型随机的在词表中选择术语,组成事件以及对应的文本信息。按照这种方式,可生成大规模的不同类型的医疗事件,以形成大规模的病例文本,并根据医疗事件的类型对病例文本中的各医疗事件进行标注,已得到对应的病例文本训练数据。
31.在本发明的一个优选实施例中,可以基于medbert bilstm crf模型从所述病例文本中提取得到文本块。
32.其中,medbert bilstm crf模型的架构可如图2所示。图2中,medbert为在医疗数据上训练的大规模预训练语言模型;bilstm为双向长短时记忆网络,主要用于建模序列中词的上下文信息,得到上下文相关的词汇表示;crf为条件随机场,主要用于序列标注任务,可以很好地建模序列之间的关系,比如m标签之前应该是m或者b标签;labels是每个字符对应的标签,其中
“‑”
之前的为序列标签,b为一个词汇的开头、m为词汇的中间的字、e为词汇结尾的字,o为单独的字,
“‑”
后面的为词汇类型标签,如“zhusu”对应的类型为主诉。
33.另外,在步骤s101中,各个医疗事件类型都有对应的医疗事件模板,在医疗事件模板中包括了该类事件的事件元素,作为一个实施例比如主诉事件的事件元素可如下表所
示。
34.在步骤s102中,根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型,以使该bart预训练语言模型用于输出病例文本所属的医疗事件类型及病例结构化数据。即将所述病例文本训练数据和各个所述医疗事件模板输入预设的bart预训练语言模型,以使该bart预训练语言模型依次进行元素识别和元素组合,以在所述病例文本训练数据中抽取各个类型的医疗事件并将所述医疗事件转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。
35.其中,每个病例文本训练数据可能包括多种标注有类型的医疗事件,bart预训练语言模型对训练数据中的各类医疗事件进行元素识别,其中不同类型的事件可以共享很多元素信息,如住院事件、主诉事件、手术事件通常可以共享一部分元素,如时间、医院、疾病、症状等。本发明通过共享元素识别的标注数据和能力,以降低对标注数据的规模依赖。元素识别后,基于各类医疗事件模板对识别的元素进行组合,生成对应的各类医疗事件,实现对各类型医疗事件的抽取。采用该方法,可以使得元素识别和元素组合两部分的信息相互增强,以达到最优的抽取效果。抽取到医疗事件后,将其先转化为序列模式数据,而后将所述序列模式数据进行结构化转化,得到对应的病例结构化数据。其过程可如图3所示。图3中,“事件schema”可理解为事件模板。模型训练的整体数据流为:输入文本数据,输出为序列化的事件表示,然后通过一个后结构化模块,转化为结构化的表示形式。通过将事件文本数据转化为序列模式数据,形成序列到序列的生成任务,降低了模型学习的难度。本发明实施例中,序列模式数据与事件文本数据之间可以通过规则直接进行转化。将事件文本“主诉:背部轻微疼痛,持续2天”直接转化为序列模式数据{"主诉":{"症状":"疼痛","部位":"背部","程度":"轻微","持续时间":"2天"}},这种方式可以将事件抽取人为的转化为文本到文本的生成模型。图3中,事件分类采用transformer textcnn的模型实现,其中transformer使用的是medbart的编码器得到的字符的表示,将该表示作为textcnn的输入,进行多分类。事件模板表示是通过学习到的模板的表示,是将结构化的模板转化为序列形
式,并学习其整体表示,并用该表示指导事件的生成。
36.通过执行上述步骤s101和s102,完成了对病例结构化模型的训练,使其能够实现从病例中抽取医疗事件。但是不同医院、医生对相同疾病的描述可能不同。例如“1型糖尿病”和“胰岛素依赖型糖尿病”是对相同疾病的不同描述。为了能够更好地服务于后续的模型应用,本发明提供的模型训练方法通过术语归一化模型实现医疗术语的归一。即本发明提供的病例结构化模型的训练方法,还包括:基于待应用所述病例结构化模型的目标医院对应的医疗术语别名训练数据,采用bert esim模型对所述病例结构化数据进行医疗术语归一化训练。
37.在本发明的一个优选实施例中,病例结构化模型的训练方法还包括:对所述病例结构化数据进行可视化校验,并将校验结果作为所述病例结构化模型下一轮训练的训练数据。以使得病例结构化模型通过数据积累不断进行演化升级。
38.实施例二如图4所示,本发明实施例提供了一种病例结构化方法,包括:s401,获取病例文本;s402,将所述病例文本输入到病例结构化模型中,以使该病例结构化模型输出所述病例文本所属的医疗事件类型及病例结构化数据;所述病例结构化模型预先基于实施例一所述的病例结构化模型的训练方法训练得到。在此不再赘述。
39.采用本发明提供的方法,可以使用相同的端到端的模型实现对病例中不同类型事件的抽取,并且通过不同事件之间相同元素数据的共享实现模型的内部迁移,进而减少对数据的依赖,详细描述如下:(1)模型统一:通过一个端到端的模型实现不同类型事件的抽取,并且通过将事件转化为文本的方式,实现标注数据格式的统一化,避免了不同事件类型的异构性;(2)知识迁移:不同类型事件中包含大量相同元素,通过建模为文本到文本的生成任务,可以打破由于异构导致的知识共享困难的问题,能够更好地实现相同元素信息在不同事件之间的共享;(3)采用端到端的方式进行事件生成,避免人工设计规则的方式进行事件抽取;(4)多模态支持:支持文本和图片两种异构数据的病例数据;(5)支持多种编码:通过术语归一化模块可以实现对非标准术语名到标注术语名的转化,并且可以通过标注术语名称直接映射到icd-10、omaha等术语编码体系中。
40.实施例三如图5所示,本发明还包括和前述实施例一所述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种病例结构化模型的训练装置,包括:训练数据获取模块501,用于获取已标注标签的病例文本训练数据,其中,所述标签包括各个医疗事件分别对应的医疗事件类型,以及,获取各个所述事件类型各自对应的医疗事件模板;模型训练模块502,用于根据所述病例文本训练数据和各个所述医疗事件模板训练bart预训练语言模型,以得到用于输出病例文本所属的医疗事件类型及病例结构化数据的病例结构化模型。
41.该装置可通过上述实施例一提供的病例结构化模型的训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
42.本发明还提供了一种存储器,存储有多条指令,所述指令用于实现实施例一所述的病例结构化模型的训练方法,或者,实现实施例二所述的病例结构化方法。
43.本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的病例结构化模型的训练方法,或者,执行如实施例二所述的病例结构化方法。
44.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献