一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于融合注意力的医疗命名实体识别建模方法与流程

2021-10-24 07:00:00 来源:中国专利 TAG:自然语言 建模 注意力 实体 命名

技术特征:
1.基于融合注意力的医疗命名实体识别建模方法,其特征在于,包括:步骤1:将医疗文本语句s进行中文分词并索引:将医疗文本语句s与词典进行匹配得到词语序列w1,w2,...,w
n
,w
i
为词语序列中第i个词语,i=1,2,...,n;第i个词语的第k个字符以t(i,k)进行索引,k为字符在词语中所处位置;所述医疗文本语句s=c1,c2,...,c
m
,c
j
为医疗文本语句s的第j个字符,j=1,2,...,m;索引以b作为开始且以e作为结束的词语通过进行表示,其中b表示词语开始字符的索引,e表示词语结束字符的索引;步骤2:利用前向lstm和反向lstm通过拼接得到bi

lstm模型;所述前向lstm的为:为:为:其中,和分别为输入门、遗忘门和输出门;为新的候选细胞信息;和b
c
分别为要学习的模型权重参数和偏置项;σ为sigmoid函数;

为哈达玛乘积;为字符c
j
的嵌入表示,e
c
表示字符嵌入查询表;为字符c
j
对应的隐藏状态,为字符c
j
对应的字符细胞状态;为前一字符c
j
‑1对应的隐藏状态,为前一字符c
j
‑1对应的字符细胞状态;引入词语信息后的字符细胞状态由以下步骤得到:由以下步骤得到:由以下步骤得到:其中,和为和经过归一化之后得到;为引入的附加门结构,用于控制所有以索引为e的字符结尾的词语细胞对尾字符细胞的贡献,的贡献,和b
l
分别为要学习的模型权重参数和偏
置项;词语细胞状态由以下步骤得到:由以下步骤得到:其中,为输入门,为遗忘门;为新的候选词语细胞信息;和b
w
分别为要学习的模型权重参数和偏置项;为词语首字符对应的隐藏状态;为词语的嵌入表示,e
w
表示由步骤1所述词典转化得到的词嵌入查询表;反向lstm与前向lstm类同;将上述方法分别用于医疗文本语句s,得到和两组向量,然后将两组向量进行拼接,s中每个字符对应的最终隐藏向量计算公式如下:步骤3:通过注意力机制给步骤2的输出分配与其对应的权重α
tj
,特征向量以及与其对应的权重α
tj
进行加权求和后得到新的输出向量c
t
,具体为:特征向量对应的权重α
tj
由以下步骤得到:由以下步骤得到:其中,e
tj
用于度量第j个源端字符与第t个目标端字符的匹配程度;s
t
‑1为第t时刻隐藏层状态;w
a
和u
a
为权重矩阵;步骤4:通过条件随机场crf对步骤3输出的特征向量c={c1,c2,...,c
m
}进行解码,得到输入医疗文本语句s的医疗实体类型的标注,具体为:p(y|c)=crf(c,y);其中,y为输入医疗文本语句s所有可能的输出标签序列,p(y|c)为可能的输出标签序列y的条件概率;预测时,通过动态规划的维特比算法(viterbi algorithm)在输入序列上找到得分最高的标注序列,得到输入医疗文本语句s的医疗实体类型的标注y
*
,y
*
=arg max p(y|c)。

技术总结
基于融合注意力的医疗命名实体识别建模方法,包括步骤:将医疗文本语句进行中文分词并索引;利用前向LSTM和反向LSTM通过拼接得到Bi


技术研发人员:李天瑞 邬萌 贾真 杜圣东 滕飞
受保护的技术使用者:西南交通大学
技术研发日:2021.08.10
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜