一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

病历文本中疾病实体和症状实体阴阳性的判别方法及装置与流程

2022-03-23 08:26:38 来源:中国专利 TAG:


1.本发明书一个或多个实施例涉及医疗诊断技术领域,尤其涉及一种病历文本中疾病实体和症状实体阴阳性的判断方法及装置。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
3.病历,是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程中所形成的资料的总和。而随着智能化时代的到来,疾病的诊疗也已经逐步开启了智能化时代,即利用现有的技术资料,以及患者的实际病情和相关数据,对患者的疾病进行辅助性的预测或辅助性的预诊断,从而为医护人员提供一定的帮助。
4.现有的阴阳性判断方法首先需要先构建阴阳性的不同出现情况的文本模板,然后通过关键词匹配和模板匹配的方式,对出现疾病和症状描述的文本片段进行判断,以模板匹配的结果来判断当前的疾病或者症状的描述的阴阳性。
5.目前识别文本中存在的疾病或者症状所需要的词表需要具有一定经验的专业人员进行搜索整理、构建较大的词典,并定期维护更新,耗时耗力。同时,判断阴阳性的文本模板也需要同样、甚至更大规模的整理和维护,且再出现模板之外的表达时不能正确做出判断,输出的结果完全依赖于词典和模板资源。


技术实现要素:

6.本说明书一个或多个实施例描述了一种病历文本中疾病实体和症状实体阴阳性的判断方法、装置及系统,可以准确地识别目标医疗文本中的疾病和症状信息,并做出符合上下文语境的阴阳性判断。
7.本说明书一个或多个实施例提供的技术方案如下:
8.第一方面,本发明提供了病历文本中疾病实体和症状实体阴阳性的判断方法,所述判断方法包括:
9.获取目标病历文本中疾病实体和症状实体及对应的上下文信息;
10.基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。
11.在一个示例中,所述获取目标病历文本中疾病实体和症状实体及对应的上下文信息,包括以下步骤:
12.获得实体识别模型;
13.获得时间段切分模型;
14.利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和
症状实体及对应的上下文信息。
15.在一个示例中,所述获得实体识别模型,包括以下步骤:
16.收集病历文本,并标注所述病历文本中的疾病实体和症状实体;
17.将标注后的病历文本数据转换为bio的标注形式;
18.将bio标注形式的病历文本数据预训练得到的字向量初始化输入向量;
19.根据所述初始化的输入向量,使用基于lstm单元的双向循环神经网络训练,得到实体识别模型。
20.在一个示例中,所述获得时间段切分模型,包括以下步骤:
21.对病历文本中的时间段进行划分处理;
22.将处理后的病历文本样本数据转换为bio的标注形式;
23.将bio标注形式的病历文本数据预训练得到的字向量初始化输入向量;
24.根据所述初始化的输入向量,使用基于lstm单元的双向循环神经网络训练训练,得到时间段切分模型。
25.在一个示例中,所述利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息,包括以下步骤:
26.使用所述实体识别模型对目标病历文本进行预测,获得疾病实体和症状实体;
27.使用时间段切分模型对所述目标病历文本进行切分,将预测连续的时间段开头部分和时间段中间部分作为一个时间段中的文本内容;所述目标病历文本由不同的时间段的文本组成;
28.在所述目标病历文本中搜索所述疾病实体和症状实体;其中,所述疾病实体和症状实体分别存在于对应文本中;
29.将疾病实体及其对应文本和症状实体及其对应文本作为文本对,分别作为疾病实体及其对应的上下文信息和症状实体及其对应的上下文信息。
30.在一个示例中,基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性,包括以下步骤:
31.对所述疾病实体及其对应上下文信息和症状实体及其对应的上下文信息进行标注,获得疾病实体和症状实体的阴阳性信息,构建判断疾病实体和症状实体阴阳性的训练数据;所述标注的标签包括阳性、阴性和无法判断;
32.利用病历文本,获得预训练语言模型;
33.利用所述预训练语言模型,对构建的训练数据进行精调,获得目标病历文本中疾病实体和症状实体的阴阳性结果。
34.在一个示例中,所述利用所述预训练语言模型,对构建的训练数据进行精调,获得目标病历文本中疾病实体和症状实体的阴阳性结果,包括以下步骤:
35.标注后的训练数据由w和p拼接构成输入u=[u1,

,un],并在源端输入的序列前添加标签[cls];其中,w和p分别表示实体和上下文信息;
[0036]
定义trm()为bert
bio
中的编码计算单元,每个字经过该编码单元得到编码表示,由以下公式计算:
[0037][0038]
bert
bio
取模型第一个[cls]的隐层向量表示经过一层全连接线性变换:
[0039][0040]
通过softmax给出目标医疗文本的概率分布:
[0041]
prob=softmax(c)
[0042]
将最大概率作为实体的阴阳性识别结果。
[0043]
第二方面,本发明提供了病历文本中疾病实体和症状实体阴阳性的判断装置,所述判断装置包括:
[0044]
获取模块,用于获取目标病历文本中疾病实体和症状实体及对应的上下文信息;
[0045]
判断模块,用于基于所述疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。
[0046]
在一个示例中,所述获取模块包括:
[0047]
第一获取单元,用于获得实体识别模型;
[0048]
第二获取单元,用于获得时间段切分模型;
[0049]
第三获取单元,用于利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息。
[0050]
第三方面,本发明提供了病历文本中疾病实体和症状实体阴阳性的判断系统,该系统包括至少一个处理器和存储器;
[0051]
所述存储器,用于存储一个或多个程序指令;
[0052]
所述处理器,用于运行一个或多个程序指令,用以执行如第一方面中一个或多个所述的方法。
[0053]
第四方面,本发明提供了一种芯片,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如第一方面中一个或多个所述的方法。
[0054]
第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如第三方面所述的系统执行,以实现如第一方面中一个或多个所述的方法。
[0055]
本发明实施例提供的技术方案,可以避免依靠模板和词典方法受限于模板和词典规模、不能处理未预先定义情况的问题,同时也可以通过增加语料、更新训练两个阶段的模型来持续地提升判断的精确度。
附图说明
[0056]
图1为本发明实施例提供的病历文本中疾病实体和症状实体阴阳性的判断方法流程示意图;
[0057]
图2为获取目标病历文本中疾病实体和症状实体及对应的上下文信息的流程示意图;
[0058]
图3为获得实体识别模型的流程示意图;
[0059]
图4为获得时间段切分模型的流程示意图;
[0060]
图5为利用实体识别模型和时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息的流程示意图;
[0061]
图6为基于疾病实体和症状实体及对应的上下文信息,判断目标病历文本中疾病
实体和症状实体的阴阳性的流程示意图;
[0062]
图7为本发明实施例提供的病历文本中疾病实体和症状实体阴阳性的判断装置结构示意图;
[0063]
图8为获取模块的结构示意图;
[0064]
图9为本发明实施例提供的病历文本中疾病实体和症状实体阴阳性的判断系统的结构示意图。
具体实施方式
[0065]
下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
[0066]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0067]
本发明提供通过两阶段的方法分别实现医疗文本中疾病、症状及其上下文的识别和对其阴阳性的分类。其中,第一阶段利用序列标注模型分别获取医疗文本中的实体信息和上下文信息;在第二个阶段中,利用在医疗文本上训练得到的大规模预训练语言模型,对第一阶段中得到的疾病实体和症状实体与其相应的上下文构建得到的文本进行分类,从而判断出疾病或诊断的阴阳性。
[0068]
这里需要说明的两点是:
[0069]
(1)本技术中需要进行疾病实体和症状实体阴阳性判断的医疗文本称之为目标医疗文本或待判断医疗文本。其他地方提到的医疗文本,比如用于模型训练的医疗文本直接称之为医疗文本。
[0070]
(2)本发明中的序列标注模型包括实体识别模型和时间段切分模型,用来分别获取医疗文本中的疾病实体和症状实体,及其上下文信息,在下面的描述中会对其进行介绍:
[0071]
图1示出了病历文本中疾病实体和症状实体阴阳性的判断方法流程示意图,如图1所述,该判断方法包括步骤s10和步骤s20:
[0072]
步骤s10,获取目标病历文本中疾病实体和症状实体及对应的上下文信息。
[0073]
在一个示例中,如图2所示,该过程主要通过以下3个步骤实现s101-s103:
[0074]
步骤s101,获得实体识别模型。
[0075]
在一个示例中,获得实体识别模型的具体过程如图3所示,包括以下4
[0076]
个步骤s1011-s1014:
[0077]
s1011,收集病历文本,并标注所述病历文本中的疾病实体和症状实体。
[0078]
s1012,将标注后的病历文本数据转换为bio的标注形式。
[0079]
在这里需要说明的是,bio是用于序列标注问题的一种标签标注法,一般就称为bio标注或者bio格式的标注。b表示标签开头的字符,i表示标签中除了开头之外的其他字符,o表示非标签字符。可以用中文的起始,非起始,其他来代替。
[0080]
s1013,将bio标注形式的病历文本数据预训练得到的字向量初始化输入向量。
[0081]
s1014,根据所述初始化的输入向量,使用基于lstm单元的双向循环神经网络训练,得到实体识别模型。
[0082]
步骤s102,获得时间段切分模型。
[0083]
在一个示例中,获得时间段切分模型的具体过程如图4所示,包括以下4个步骤s1021-s1024:
[0084]
s1021,对病历文本中的时间段进行划分处理。
[0085]
s1022,将处理后的病历文本样本数据转换为bio的标注形式。
[0086]
s1023,将bio标注形式的病历文本数据预训练得到的字向量初始化输入向量。
[0087]
s1024,根据所述初始化的输入向量,使用基于lstm单元的双向循环神经网络训练训练,得到时间段切分模型。
[0088]
步骤s103,利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息。
[0089]
在一个示例中,如图5所示,该过程通过以下步骤实现s1031-s1034:
[0090]
s1031,使用所述实体识别模型对目标病历文本进行预测,获得疾病实体和症状实体。
[0091]
s1032,使用时间段切分模型对所述目标病历文本进行切分,将预测连续的时间段开头部分和时间段中间部分作为一个时间段中的文本内容;所述目标病历文本由不同的时间段的文本组成。
[0092]
s1033,在所述目标病历文本中搜索所述疾病实体和症状实体;其中,所述疾病实体和症状实体分别存在于对应文本中。
[0093]
s1034,将疾病实体及其对应文本和症状实体及其对应文本作为文本对,分别作为疾病实体及其对应的上下文信息和症状实体及其对应的上下文信息。
[0094]
s20,基于所述疾病实体和症状实体信息及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。
[0095]
在一个示例中,如图6所示,该过程通过以下步骤实现s201-s203:
[0096]
s201,对所述疾病实体及其对应上下文信息和症状实体及其对应的上下文信息进行标注,获得疾病实体和症状实体的阴阳性信息,构建判断疾病实体和症状实体阴阳性的训练数据;所述标注的标签包括阳性、阴性和无法判断。
[0097]
s202,利用病历文本,获得预训练语言模型。
[0098]
s203,利用所述预训练语言模型,对构建的训练数据进行精调,获得目标病历文本中疾病实体和症状实体的阴阳性结果。
[0099]
在一个示例中,该过程通过以下步骤实现:
[0100]
标注后的训练数据由w和p拼接构成输入u=[u1,

,un],并在源端输入的序列前添加标签[cls];其中,w和p分别表示实体和上下文信息;
[0101]
定义trm()为bert
bio
中的编码计算单元,每个字经过该编码单元得到编码表示,由以下公式计算:
[0102][0103]
其中,u
t
是输入向量u的每一项,trm是“bert
bio
中的编码计算单元”,是编码计算结果。
[0104]
bert
bio
取模型第一个[cls]的隐层向量表示经过一层全连接线性变换:
[0105][0106]
通过softmax给出目标医疗文本的概率分布:
[0107]
prob=softmax(c)
[0108]
将最大概率作为实体的阴阳性识别结果。
[0109]
下面通过一具体实施过程,来详细介绍上述的过程,包括第1步-第4步:
[0110]
第1步:使用实体标注信息的病历文本训练用于实体识别的序列标注模型。
[0111]
第1.1步:收集病历文本数据,由具有专业知识的标注人员对文本中的疾病和症状实体进行标注。
[0112]
第1.2步:将第1.1步中得到的数据转换为bio的标注形式。
[0113]
这里x为病历文本,x=[x1,

,xn],xi表示每一个字符;y为标注结果,y=[y1,

,yn],yi由b
sym
,i
sym
,b
dis
,i
dis
和o组成,分别表示症状开头字符,症状中间字符,疾病开头字符,疾病中间字符和非疾病症状字符。
[0114]
第1.3步:用1.2中的数据训练一个序列标注模型ner
bio
,即实体识别模型。
[0115]
第1.3.1步:使用大规模医疗文本预训练得到的字向量初始化输入向量:
[0116]hi
=f
emb
(xi)
[0117]
其中,f
emb
表示一种编码(emb)的方法(f),hi表示xi经过f编码后的结果表示。
[0118]
第1.3.2步:使用基于lstm单元的双向循环神经网络训练序列标注模型ner
bio

[0119]
si=bilstm
bio
(hi)
[0120]
第2步:使用大规模病历文本训练用于时间段切分的序列标注模型,即时间段切分模型:
[0121]
第2.1步:由具有专业知识的标注人员对病历文本中的时间段进行划分。
[0122]
第2.2步:将第2.1步中得到的数据转换为bio的标注形式。这里x为病历文本,x=[x1,

,xn],xi表示每一个字符;y为标注结果,y=[y1,

,yn],yi由b
part
,i
part
和o组成,分别表示时间段开头字符,时间段中间字符,和非时间段描述字符。
[0123]
第2.3步:用2.2中的数据训练一个序列标注模型ner
split
:
[0124]
第2.3.1步:使用医疗文本预训练得到的字向量初始化输入向量:
[0125]hi
=f
emb
(xi)
[0126]
第2.3.2步:使用基于lstm单元的双向循环神经网络训练序列标注模型ner
split

[0127]
si=bilstm
split
(hi)
[0128]
第3步:通过第1,2步中训练得到的模型,构建判断阴阳性的训练数据。
[0129]
第3.1步:使用第1步得到的模型ner
bio
从目标病历长文本进行预测,从而获取疾病实体和症状实体,分别用w
dis
和w
sym
表示。
[0130]
第3.2步:使用第2步得到序列标注模型ner
split
对目标病历文本进行切分,将预测连续的b
part
,i
part
作为一个时间段中的文本内容。这样,目标病历文本x由不同的时间段的文本组成:x=[p1,

,pn];其中,pn的意思是目标病历文本一共切分为n段part(p),分别是第一个part(p1),第二个part(p2),
……
,第n个part(pn)
[0131]
第3.3步:在目标病历文本中搜索第3.1中的疾病实体w
dis
和症状实体w
sym
,疾病实体w
dis
和症状实体w
sym
分别存在于文本pi和文本pj。
[0132]
第3.4步:将w
dis
和文本pi,w
sym
和文本pj作为文本对,表示实体和其对应的上下文信
息,并由具有专业知识的人员进行标注,得到症状或疾病实体的阴阳性信息,标注的标签有present、absent和unknown,分别表示阳性、阴性和无法判断。
[0133]
第4步:使用在大规模医疗文本中预训练得到的语言模型,对第3步中构建的训练数据进行精调。
[0134]
第4.1步:标注后的训练数据由w和p拼接构成输入u=[u1,

,un],w和p分别表示实体和上下文信息,在源端输入的序列前添加标签[cls]。
[0135]
第4.2步:定义trm()为bert
bio
中的编码计算单元,每个字经过该编码单元得到编码表示,可由以下公式计算:
[0136][0137]
其中,u
t
是4.1中u的每一项,trm是“bert
bio
中的编码计算单元”,是编码计算结果。
[0138]
第4.3步:对于实体的阴阳性判别任务,bert
bio
直接取模型第一个[cls]的隐层向量表示经过一层全连接线性变换,如下所示:
[0139][0140]
第4.4步:通过softmax给出目标医疗文本(正确或存在错误)的概率分布:
[0141]
prob=softmax(c)
[0142]
第4.5步:选择概率大的作为判别结果,最终得到实体的阴阳性识别结果。
[0143]
本发明提供的方法,具有如下优点:
[0144]
可以避免依靠模板和词典方法受限于模板和词典规模、不能处理未预先定义情况的问题,同时也可以通过增加语料、更新训练两个阶段的模型来持续地提升判断的精确度。
[0145]
与上述实施例方法对应的,本发明还提供了一种病历文本中疾病实体和症状实体阴阳性的判断装置,图7是装置结构示意图,如图7所示,该装置包括获取模块1和判断模块2,其中,
[0146]
获取模块1,用于获取目标病历文本中疾病实体和症状实体及对应的上下文信息。
[0147]
在一个示例中,图8是获取模块的结构示意图,如图8所示,获取模块1包括第一获取单元11、第二获取单元12和第三获取单元13:
[0148]
第一获取单元11,用于获得实体识别模型。
[0149]
第二获取单元12,用于获得时间段切分模型。
[0150]
第三获取单元13,用于利用所述实体识别模型和所述时间段切分模型,获得目标病历文本中疾病实体和症状实体及对应的上下文信息。
[0151]
判断模块2,用于基于所述疾病实体和症状实体信息及对应的上下文信息,判断目标病历文本中疾病实体和症状实体的阴阳性。
[0152]
本发明实施例提供的装置中各部件所执行的功能均已在上述方法中做了详细介绍,因此这里不做过多赘述。
[0153]
与上述实施例相对应的,本发明实施例还提供了一种病历文本中疾病实体和症状实体阴阳性的判断系统,具体如图9所示,该系统包括至少一个处理器91和存储器92;
[0154]
存储器91,用于存储一个或多个程序指令;
[0155]
处理器92,用于运行一个或多个程序指令,执行如上述实施例所介绍的病历文本
中疾病实体和症状实体阴阳性的判断方法中的任一方法步骤。
[0156]
与上述实施例相对应的,本发明实施例还提供了一种芯片,该芯片与上述系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如上述实施例所介绍的病历文本中疾病实体和症状实体阴阳性的判断方法。
[0157]
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包括一个或多个程序,其中,一个或多个程序指令用于被病历文本中疾病实体和症状实体阴阳性的判断系统执行如上介绍的病历文本中疾病实体和症状实体阴阳性的判断方法。
[0158]
本技术提供的方案,通过两个阶段可以较为准确地识别医疗文本中的症状和疾病信息,并做出符合上下文语境的阴阳性判断。
[0159]
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0160]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0161]
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献