基于ALBERT模型融合的医疗命名实体识别系统及其方法与流程

2022-02-21 08:31:57 来源：中国专利 TAG：

基于albert模型融合的医疗命名实体识别系统及其方法
技术领域
1.本发明涉及一种基于albert模型融合的医疗命名实体识别系统及其方法。

背景技术：

2.目前，人工智能技术高速发展，迫切需要利用现有的技术真正的解决人类社会现实生活中的问题，才能真正从技术之中获益。电子病历产生于临床治疗过程，其中命名实体和实体关系反映了患者健康状况，包含大量与患者健康状况密切相关的医疗知识，因而对其识别和抽取是信息抽取和自然语言处理研究在医疗领域的重要扩展。评判一个命名实体是否被正确识别包括两个方面：实体的边界是否正确，实体的类型是否标注正确。主要错误类型包括文本正确，类型可能错误；反之，文本边界错误，而其包含的主要实体词和词类标记可能正确。英语中的命名实体具有比较明显的形态标志，如人名、地名等实体中的每个词的第一个字母要大写等，所以实体边界识别相对汉语来说比较容易，任务的重点是确定实体的类型。与英语相比，汉语命名实体识别任务更加复杂，由于分词等因素影响其难度较大；并且目前的命名实体无论是英文或者中文语境中都是在通用语料库上进行，对于一些专业领域基本上没有应用，例如医疗领域。
3.命名实体识别的主要技术方法分为：基于规则和词典的方法、基于统计的方法、二者混合的方法等。基于规则的方法多采用语言学专家手工构造规则模板，选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法，以模式和字符串相匹配为主要手段，这类系统大多依赖于词典和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法。
4.基于统计的方法利用人工标注的语料进行训练，标注语料时不需要广博的语言学知识，并且可以在较短时间内完成。基于统计机器学习的方法主要包括：隐马尔可夫模型(hidden markov model，hmm)、最大熵(maximum entropy，me)、支持向量机(support vector machine，svm)、条件随机场(conditional random fields，crf)等。

技术实现要素：

5.本发明的目的是克服现有技术存在的不足，提供一种基于albert模型融合的医疗命名实体识别系统及其方法。
6.本发明的目的通过以下技术方案来实现：
7.基于albert模型融合的医疗命名实体识别系统，特点是：包含数据预处理模块、文本编码模块、模型建模模块、实体提取模块以及词典构建模块，所述数据预处理模块，对用户问句分词、实体标注、词典构建；
8.所述文本编码模块，将文本转化为可理解的数据类型和计算单元；
9.所述模型建模模块，根据任务构建模型的框架；
10.所述实体提取模块，对经过构建模型的运算已经特征提取之后的信息进行实体提取并进行分类；
11.所述词典构建模块，构建医疗病历的命名实体语料词典。
12.进一步地，上述的基于albert模型融合的医疗命名实体识别系统，其中，所述数据预处理模块包含中文分词模块、实体标注模块和数据清洗模块；所述中文分词模块，用于电子病历中文本中文分词，将文本中的词语进行切分，采用分词工具，得到一串词汇序列；所述实体标注模块，用于实体标注，采用实体标注的工具将切分好的词语标注实体标签，以便在实体分类时依据实体标签判断实体的类型；所述数据清洗模块，对实体标注后的数据进行重新检查其标注的正确性和有效性，剔除实体标注错误的数据。
13.进一步地，上述的基于albert模型融合的医疗命名实体识别系统，其中，所述文本编码模块，将数据预处理模块处理后的文本数据进行数学化，并将高位向量映射到欧式空间的高维空间中，采用独热编码，将文本编码成可理解和处理的编码序列。
14.进一步地，上述的基于albert模型融合的医疗命名实体识别系统，其中，所述模型建模模块包含预训练模块和特征提取模块；所述预训练模块，词向量在进入特征提取之前，将独热编码后的文本序列采用albert预训练模型训练生成上下文相关的词向量；所述特征提取模块，预训练模型生成的上下文相关的词向量进行运算，从词向量提取实体类别和实体边界的特征。
15.进一步地，上述的基于albert模型融合的医疗命名实体识别系统，其中，所述实体提取模块，将经过预训练模块和特征提取模块后的数据进行实体提取，利用条件随机场将一个序列经过运算映射成另外一个序列，在命名实体识别中，经过条件随机场得到的序列即为命名实体的标签，标签包含实体边界和实体类别信息。
16.进一步地，上述的基于albert模型融合的医疗命名实体识别系统，其中，所述词典构建模块，包含公开数据集和网络爬取符合要求的数据，词典构建保持实体类别数量的相对平衡。
17.本发明基于albert模型融合的医疗命名实体识别方法，包括以下步骤：
18.首先，将电子病历的文本进行数据预处理；
19.然后，将数据预处理之后的文本数据进行独热编码后进入alebrt预训练模块进行训练，生成上下文相关的词向量；
20.之后，将词向量输入到特征提取模块进行特征提取，提取到实体边界特征和类别特征，特征在数学上的表示均是高维向量；
21.其次，将特征向量输入实体提取模型，提取文本的实体；实体提取模型输入每一个实体类别的概率，概率最高的类别即是最终的输出结果；
22.最后，将实体和实体类别输出，作为最终输出，作为医生诊断依据。
23.更进一步地，上述的基于albert模型融合的医疗命名实体识别方法，其中，由数据预处理模块，对电子病历文本进行中文分词以及命名实体标注；由文本编码模块，对文本序列进行独热编码；由模型建模模块，将词向量输入预训练模型形成上下文相关的词向量，然后再进入信息提取模块进行词向量的信息提取；由实体提取模块，将提取的特征转化成实体序列；由词典模块，从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。
24.更进一步地，上述的基于albert模型融合的医疗命名实体识别方法，其中，由数据预处理模块的中文分词模块，对电子病历中文本中文分词，将文本中的词语进行切分出，采
用分词工具，得到一串词汇序列；数据预处理模块的实体标注模块，对实体标注，采用实体标注的工具将切分好的词语标注实体标签，以便在实体分类时依据实体标签判断实体的类型；
25.由文本编码模块，将文本编码成可理解和处理的编码序列；
26.所述模型建模模块的预训练模块，根据编码之后的文本序列使用albert预训练模型训练生成上下文相关的词向量；模型建模模块的特征提取模块根据预训练模型生成的上下文相关的词向量进行运算，从词向量提取实体类别和实体边界的特征；
27.特征提取模块采用bilstm，其采用记忆门，遗忘门来计算词向量，并对文本序列的前后词信息及其特征进行捕捉，以此来学习实体的边界和长距离的依赖关系，记忆门和遗忘门的计算如下：
28.计算遗忘门，为减少计算量，需遗忘部分的信息，其输入为上一个时刻的词向量h
t-1
，当前时刻的输入词向量为x
t
，wf为该层权重矩阵用于去除部分冗余信息，bf为该层的偏差矩阵，σ为激活函数，最后输出是遗忘门的值f
t
，即为遗忘部分信息之后的词向量，将其代入公式(4)；
29.f
t
＝σ(wf·
[h
t-1
,x
t
] bf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0030]
计算记忆门，除了遗忘门还需要对重要的信息进行保留，输入为前一时刻的词向量h
t-1
，当前时刻的输入词向量x
t
，wf为该层权重矩阵，然后输出记忆门的值i
t
，当前神经网络单元中存储的词向量其存储的是当前时刻的需要保留记忆的词向量，然后将其代入公式(4)
[0031]it
＝σ(wf·
[h
t-1
,x
t
] bi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0032][0033]
计算当前时刻临时状态的里存储的词向量，输入为记忆门的词向量i
t
和遗忘门的值f
t
作为系数，当前神经网络单元中存储的词向量上一刻神经网络单元里存储的词向量c
t-1
，并作矩阵乘法，输出为当前神经网络单元状态里的词向量为c
t
；
[0034][0035]
计算输出门和当前时刻的词向量，输入前一时刻的词向量h
t-1
，当前时刻的输入词x
t
，当前时刻的词向量c
t
，wo为该层权重矩阵，bo为该层的偏差矩阵，然后用tanh函数进行运算；则有输出门的词向量值o
t
，隐藏层的词向量为h
t
；
[0036]ot
＝σ(wo·
[h
t-1
,x
t
] bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0037]ht
＝o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0038]
这样计算n轮，得到与句子长度相同的词向量序列{h0，h1...，h
n-1
}；所得词向量序列然后输入进实体提取模块进行实体的提取；
[0039]
实体提取模块，将经过预训练模块训练和特征提取模块之后的数据进行实体提取，包括实体边界和实体类别，采用条件随机场算法进行实体提取；
[0040]
词典构建模块，包括公开电子病历数据集和经过网络爬虫收集并经过处理之后的数据。
[0041]
本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：
[0042]
①
基于预训练模型提出基于albert模型融合的医疗命名实体识别系统，将电子医
疗病历文本进行数据预处理，中文分词模块对文本进行分词，实体标注模块对文本进行标注，再对一些错误和无用的数据进行剔除；通过数据预处理模块对电子病历进行数据清洗，有效减少了模型训练时间成本；
[0043]
②
新型的模型融合模式，取代传统的单纯基于词典和单纯使用统计方法；本发明创新性的解决了医疗领域的电子病历领域命名实体识别问题，相比于现有技术在通用数据集上有更高的实体识别准确率；
[0044]
③
针对具有极高应用价值的医疗领域开展实际研究并完善电子病历语料库，具有开拓性，提高实体识别的准确率。
[0045]
本发明的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书中所特别指出的结构来实现和获得。
附图说明
[0046]
图1：本发明系统的架构原理示意图；
[0047]
图2：本发明的流程示意图；
[0048]
图3：数据预处理模块的架构原理示意图；
[0049]
图4：文本编码模块的架构原理示意图；
[0050]
图5：模型建模模块的架构原理示意图。
具体实施方式
[0051]
为了对本发明的技术特征、目的和效果有更加清楚的理解，现详细说明具体实施方案。
[0052]
如图1所示，基于albert模型融合的医疗命名实体识别系统，包含数据预处理模块1、文本编码模块2、模型建模模块3、实体提取模块4以及词典构建模块5，数据预处理模块1，对用户问句分词、实体标注、词典构建；
[0053]
文本编码模块2，将文本转化为可理解的数据类型和计算单元；
[0054]
模型建模模块3，根据任务构建模型的框架；
[0055]
实体提取模块4，对经过构建模型的运算已经特征提取之后的信息进行实体提取并进行分类；
[0056]
词典构建模块5，构建医疗病历的命名实体语料词典。
[0057]
如图3，数据预处理模块1包含中文分词模块101、实体标注模块102和数据清洗模块103；中文分词模块101，用于电子病历中文本中文分词，将文本中的词语进行切分，采用分词工具，得到一串词汇序列；所述实体标注模块102，用于实体标注，采用实体标注的工具将切分好的词语标注实体标签，以便在实体分类时依据实体标签判断实体的类型；数据清洗模块103，对实体标注后的数据进行重新检查其标注的正确性和有效性，剔除实体标注错误的数据。
[0058]
如图4，文本编码模块2，将数据预处理模块1处理后的文本数据进行数学化，并将高位向量映射到欧式空间的高维空间中，采用独热编码，将文本编码成可理解和处理的编码序列。
[0059]
如图5，模型建模模块3包含预训练模块301和特征提取模块302；所述预训练模块301，词向量在进入特征提取之前，将独热编码后的文本序列采用albert预训练模型训练生成上下文相关的词向量；所述特征提取模块302，预训练模型生成的上下文相关的词向量进行运算，从词向量提取实体类别和实体边界的特征。
[0060]
实体提取模块4，将经过预训练模块301和特征提取模块302后的数据进行实体提取，利用条件随机场将一个序列经过运算映射成另外一个序列，在命名实体识别中，经过条件随机场得到的序列即为命名实体的标签，标签包含实体边界和实体类别信息。
[0061]
词典构建模块5，包含公开数据集和网络爬取符合要求的数据，词典构建保持实体类别数量的相对平衡。
[0062]
本发明基于albert模型融合的医疗命名实体识别方法，首先，将电子病历的文本进行数据预处理；
[0063]
然后，将数据预处理之后的文本数据进行独热编码后进入alebrt预训练模块进行训练，生成上下文相关的词向量；
[0064]
之后，将词向量输入到特征提取模块进行特征提取，提取到实体边界特征和类别特征，特征在数学上的表示均是高维向量；
[0065]
其次，将特征向量输入实体提取模型，提取文本的实体；实体提取模型输入每一个实体类别的概率，概率最高的类别即是最终的输出结果；
[0066]
最后，将实体和实体类别输出，作为最终输出，作为医生诊断依据。
[0067]
如图2所示，由数据预处理模块1，对电子病历文本进行中文分词以及命名实体标注；由文本编码模块2，对文本序列进行独热编码；由模型建模模块3，将词向量输入预训练模型形成上下文相关的词向量，然后再进入信息提取模块进行词向量的信息提取；由实体提取模块4，将提取的特征转化成实体序列；由词典模块5，从网络上爬取相关信息和相关公开数据集提供最初的电子病历文本数据。
[0068]
由数据预处理模块1的中文分词模块101，对电子病历中文本中文分词，将文本中的词语进行切分出，采用分词工具，得到一串词汇序列；数据预处理模块1的实体标注模块102，对实体标注，采用实体标注的工具将切分好的词语标注实体标签，以便在实体分类时依据实体标签判断实体的类型；
[0069]
由文本编码模块2，将文本编码成可理解和处理的编码序列；
[0070]
模型建模模块3的预训练模块301，根据编码之后的文本序列使用albert预训练模型训练生成上下文相关的词向量；模型建模模块3的特征提取模块302根据预训练模型生成的上下文相关的词向量进行运算，从词向量提取实体类别和实体边界的特征；
[0071]
特征提取模块302采用bilstm，其采用记忆门，遗忘门来计算词向量，并对文本序列的前后词信息及其特征进行捕捉，以此来学习实体的边界和长距离的依赖关系，记忆门和遗忘门的计算如下：
[0072]
计算遗忘门，为减少计算量，需遗忘部分的信息，其输入为上一个时刻的词向量h
t-1
，当前时刻的输入词向量为x
t
，wf为该层权重矩阵用于去除部分冗余信息，bf为该层的偏差矩阵，σ为激活函数，最后输出是遗忘门的值f
t
，即为遗忘部分信息之后的词向量，将其代入公式(4)；
[0073]ft
＝σ(wf·
[h
t-1
,x
t
] bf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0074]
计算记忆门，除了遗忘门还需要对重要的信息进行保留，输入为前一时刻的词向量h
t-1
，当前时刻的输入词向量x
t
，wf为该层权重矩阵，然后输出记忆门的值i
t
，当前神经网络单元中存储的词向量其存储的是当前时刻的需要保留记忆的词向量，然后将其代入公式(4)
[0075]it
＝σ(wf·
[h
t-1
,x
t
] bi)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0076][0077]
计算当前时刻临时状态的里存储的词向量，输入为记忆门的词向量i
t
和遗忘门的值f
t
作为系数，当前神经网络单元中存储的词向量c
tt
，上一刻神经网络单元里存储的词向量c
t-1
，并作矩阵乘法，输出为当前神经网络单元状态里的词向量为c
t
；
[0078][0079]
计算输出门和当前时刻的词向量，输入前一时刻的词向量h
t-1
，当前时刻的输入词x
t
，当前时刻的词向量c
t
，wo为该层权重矩阵，bo为该层的偏差矩阵，然后用tanh函数进行运算；则有输出门的词向量值o
t
，隐藏层的词向量为h
t
；
[0080]ot
＝σ(wo·
[h
t-1
,x
t
] bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0081]ht
＝o
t
*tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0082]
这样计算n轮，得到与句子长度相同的词向量序列{h0，h1...，h
n-1
}；所得词向量序列然后输入进实体提取模块4进行实体的提取；
[0083]
实体提取模块4，将经过预训练模块301训练和特征提取模块302之后的数据进行实体提取，包括实体边界和实体类别，采用条件随机场算法进行实体提取；
[0084]
词典构建模块5，包括公开电子病历数据集和经过网络爬虫收集并经过处理之后的数据。
[0085]
具体应用时，将电子病历的文本进行数据预处理，对文本数据进行分词，分词之后进行实体打标签，再进行数据清洗，去除一些错误和无用的数据；将文本输入文本编码模块进行独热编码之后再输入alebrt预训练模型进行训练生成上下文相关的词向量；其次将词向量输入到特征提取模块，即bilstm，进行特征提取，取到实体边界特征和类别特征；最后将特征输入实体提取模型，即条件随机场，提取文本的实体(疾病与诊断，药物等)，根据实体所属类别来进行实体分类；并将实体和实体类别输出，作为最终输出，给医生作为诊断依据。
[0086]
综上所述，本发明基于预训练模型提出基于albert模型融合的医疗命名实体识别系统，将电子医疗病历文本进行数据预处理，中文分词模块对文本进行分词，实体标注模块对文本进行标注，再对一些错误和无用的数据进行剔除；通过数据预处理模块对电子病历进行数据清洗，有效减少了模型训练时间成本；新型的模型融合模式，取代传统的单纯基于词典和单纯使用统计方法；本发明创新性的解决了医疗领域的电子病历领域命名实体识别问题，相比于现有技术在通用数据集上有更高的实体识别准确率；针对具有极高应用价值的医疗领域开展实际研究并完善电子病历语料库，具有开拓性，提高实体识别的准确率。
[0087]
需要说明的是：以上所述仅为本发明的优选实施方式，并非用以限定本发明的权利范围；同时以上的描述，对于相关技术领域的专门人士应可明了及实施，因此其它未脱离本发明所揭示的精神下所完成的等效改变或修饰，均应包含在申请专利范围中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种在线报修的方法、系统、数据采集终端及存储介质与流程

基于ALBERT模型融合的医疗命名实体识别系统及其方法与流程

相关文献

最热文献