一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种医学文本命名实体识别方法与流程

2022-03-23 08:06:39 来源:中国专利 TAG:

1.本发明涉及文本智能识别技术领域,具体涉及一种医学文本命名实体识别方法。


背景技术:

2.医学文本的命名实体识别,指的是将诸如医学临床诊疗指南文本、医学教科书文本、临床电子病历文本、医学研究文献文本等等医学文本中的指代特定概念的文字部分,例如疾病诊断、症状体征、异常结构、药品耗材等等给识别出来,配合后续的技术可应用在医学知识图谱构建、临床病历质控、医保病历查核、临床辅助诊断等等下游应用领域。所以医学文本命名实体识别的模型的准确度,直接决定了这些医学领域的下游应用的准确性。
3.现今,准确度比较高的医学文本命名实体识别模型大多都是通过预训练语言模型配合条件随机场方法,但是经过大量的文献的研究显示,传统的条件随机场方法并不能对命名实体识别的效果形成明显的准确度提升,其原因在于,条件随机场针对标签序列进行序列层级归一化的方法,极大地提升了标签空间的稀疏程度,且在推理本身就正确的样本持续训练学习的过程中,使用one-hot标签不断继续降低损失函数的结果,不符合标签天然的概率分布,不利于模型的训练过程,导致采用条件随机场的命名实体识别模型的最终训练准确度的下降。另一方面,预训练的语言模型在命名实体识别的训练数据集上fine-tune的过程中,模型的预训练部分存有大量的学习到的模式知识,而针对命名实体识别任务追加的部分则没有任何的知识,由于模型训练过程学习率统一,较高的学习率会导致模型的预训练部分出现模式遗忘,而较低的学习率又会导致追加的部分陷入局部极小,而又由于追加部分并没有经过预训练,其最合适的学习率天然与预训练部分不同,会导致出现不可避免的准确度下降。
4.另外,在推理效率方面,传统的命名实体识别方法需要最后采用维特比解码来避免出现不合法的标签结果,而维特比算法其运行效率并不高,在大量文本处理的场景下,会拖慢处理速度。


技术实现要素:

5.本发明为了克服以上技术的不足,提供了一种提高医学文本命名实体识别准确度和推理速度的方法。
6.本发明克服其技术问题所采用的技术方案是:
7.一种医学文本命名实体识别方法,包括如下步骤:
8.a)建立由一个神经网络构成的医学文本命名实体识别模型;
9.b)预训练语言模型,将预训练好的语言模型的参数表示为集合p1′

10.c)将医学文本命名实体识别模型的可训练参数表示为集合{p1,p2},集合中p1子集合为预训练语言模型部分对应在医学文本命名实体识别模型中的可训练参数,p2子集合为医学文本命名实体识别模型中除p1以外的其他的所有可训练参数;
11.d)定义条件随机场模块,将条件随机场中的转移矩阵表示为k,将矩阵k中第j类实
体的y标签转移到第n类实体的z标签的数字表示为标签结构为bio标签,y的取值为bio标签中的b标签或i标签,z的取值为bio标签中的b标签或i标签;
12.e)随机初始化p1子集合与p2子集合,将矩阵k中满足j≠n且z取值为bio标签中的i标签的的数字赋值为ζ,其他部分数字赋值为0;
13.f)将医学文本输入到医学文本命名实体识别模型中,得到模型输出表示为w

,将医学文本对应的标签序列表示为l,将w

与l输入条件随机场模块后输出得到loss值;
14.g)将矩阵w

沿列做argmax计算,将argmax计算结果转换为bio标签序列,将得到的bio标签序列表示为
15.h)通过公式计算得到最终的损失函数,利用最终的损失函数调整医学文本命名实体识别模型中的可训练参数,直到early-stop,得到调整完毕的医学文本命名实体识别模型,式中λ为变量,γ为固定参数,为参数集合p1′
与p1中所有参数的差的绝对值的平均数;
16.i)将待识别实体的医学文本输入到调整完毕的医学文本命名实体识别模型,得到模型的输出矩阵w

,对矩阵w

沿列做argmax计算,将argmax计算结果转换为bio标签序列,得到bio标签序列即为最终的命名实体识别的结果。
17.进一步的,步骤a)中神经网络为lstm网络或gru网络或transformer网络。
18.进一步的,步骤b)中使用bert、elmo、albert或roberta方法预训练语言模型。
19.进一步的,步骤d)中j和n取值为正整数。
20.进一步的,步骤e)中ζ取值为5。
21.进一步的,步骤f)中w

为一个m行x列的矩阵,m为医学文本中字的个数,x为bio标签的个数。
22.进一步的,步骤h)中当与l不相等时,λ等于a,a为固定参数,a取值为1,当与l相等时,λ等于b,b为固定参数,b取值为0.001,γ取值为0.1。
23.进一步的,步骤i)中w

为一个m行x列的矩阵,m为医学文本中字的个数,x为bio标签的个数。
24.本发明的有益效果是:采用了loss函数里面对预训练语言模型进行l1回归的方式去学习,平衡了预训练部分与配合命名实体识别增加部分的参数学习,提升了模型训练效果的同时,也提升了命名实体识别的效果。在训练过程中创新性采用了反向修改条件随机场中转移矩阵的方法,形成了对不合法标签的惩罚,使得医学文本命名实体识别模型能够被动的掌握避免出现不合法标签的方法,所以在解码过程中仅仅使用argmax运算就可以进行解码,摆脱了对维特比算法的依赖,提高了医学命名实体识别的推理速度,提升了大数据量下的医学文本命名实体识别场景的实时性。
具体实施方式
25.下面对本发明做进一步说明。
26.一种医学文本命名实体识别方法,包括如下步骤:
27.a)建立由一个神经网络构成的医学文本命名实体识别模型。医学文本命名实体识别模型能够输入医学文本数据,得到对应的输出。
28.b)预训练语言模型,将预训练好的语言模型的参数表示为集合p1′

29.c)将医学文本命名实体识别模型的可训练参数表示为集合{p1,p2},集合中p1子集合为预训练语言模型部分对应在医学文本命名实体识别模型中的可训练参数,p2子集合为医学文本命名实体识别模型中除p1以外的其他的所有可训练参数。
30.d)定义条件随机场模块,将条件随机场中的转移矩阵表示为k,将矩阵k中第j类实体的y标签转移到第n类实体的z标签的数字表示为标签结构为bio标签,y的取值为bio标签中的b标签或i标签,z的取值为bio标签中的b标签或i标签。
31.e)随机初始化p1子集合与p2子集合,将矩阵k中满足j≠n且z取值为bio标签中的i标签的的数字赋值为ζ,其他部分数字赋值为0,训练过程中矩阵k中的值不发生变化。
32.f)将医学文本输入到医学文本命名实体识别模型中,得到模型输出表示为w

,将医学文本对应的标签序列表示为l,将w

与l输入条件随机场模块后输出得到loss值。
33.g)将矩阵w

沿列做argmax计算,将argmax计算结果转换为bio标签序列,将得到的bio标签序列表示为
34.h)通过公式计算得到最终的损失函数,利用最终的损失函数调整医学文本命名实体识别模型中的可训练参数,直到early-stop,得到调整完毕的医学文本命名实体识别模型,式中λ为变量,γ为固定参数,为参数集合p1′
与p1中所有参数的差的绝对值的平均数。
35.i)将待识别实体的医学文本输入到调整完毕的医学文本命名实体识别模型,得到模型的输出矩阵w

,对矩阵w

沿列做argmax计算,将argmax计算结果转换为bio标签序列,得到bio标签序列即为最终的命名实体识别的结果。
36.该方法仅对于推理效果不佳的样本采用较大的loss权重,进行高强度的one-hot标签的学习,而对于推理已经准确的模型,则采取非常低的loss权重,进行保持性学习。平衡了难学样本与易学样本的学习过程的同时,间接降低了条件随机场序列空间的稀疏性约束,尤其是降低了已学会的样本的约束程度,使得约束状态相比较传统方法更接近天然概率分布状态,最终提升了医学文本命名实体识别的效果。同时在融合预训练语言模型的时候,并没有直接加载预训练语言模型的参数进行初始化,而是采用了loss函数里面对预训练语言模型进行l1回归的方式去学习,平衡了预训练部分与配合命名实体识别增加部分的参数学习,提升了模型训练效果的同时,也提升了命名实体识别的效果。在训练过程中创新
性采用了反向修改条件随机场中转移矩阵的方法,形成了对不合法标签的惩罚,使得医学文本命名实体识别模型能够被动的掌握避免出现不合法标签的方法,所以在解码过程中仅仅使用argmax运算就可以进行解码,摆脱了对维特比算法的依赖,提高了医学命名实体识别的推理速度,提升了大数据量下的医学文本命名实体识别场景的实时性。
37.优选的,步骤a)中神经网络为lstm网络或gru网络或transformer网络,并在输出端串联映射到命名实体识别标签mlp组成。
38.优选的,步骤b)中使用bert、elmo、albert或roberta方法预训练语言模型。
39.优选的,步骤d)中j和n取值为正整数。
40.优选的,步骤e)中ζ取值为5。
41.进一步的,步骤f)中w

为一个m行x列的矩阵,m为医学文本中字的个数,x为bio标签的个数。
42.优选的,步骤h)中当与l不相等时,λ等于a,a为固定参数,a取值为1,当与l相等时,λ等于b,b为固定参数,b取值为0.001,γ取值为0.1。
43.进一步的,步骤i)中w

为一个m行x列的矩阵,m为医学文本中字的个数,x为bio标签的个数。
44.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献