一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的医疗文本主题分割方法和装置与流程

2022-10-26 12:49:06 来源:中国专利 TAG:

技术特征:
1.一种基于深度学习的医疗文本主题分割方法,其特征在于,包括:步骤s1,对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注,以建立医疗领域的语料库,所述原始病程文本数据包含多个电子病程文本;步骤s2,对建立的语料库进行训练,无监督得到词向量模型,并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量;步骤s3,对得到的低维稠密向量提取时序特征,并进行语料库中词语相应主题段落序列的标注的学习,得到医疗文本主题分割模型;步骤s4,将待分割医疗文本输入到所述词向量模型中,将待分割医疗文本中的每个词语映射为低维稠密向量,并将得到的低维稠密向量输入到所述医疗文本主题分割模型中,输出对待分割医疗文本的主题段落序列的预测结果。2.根据权利要求1所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述步骤s1包括:将所述原始病程文本数据中的每个电子病程文本按内容分割为主题段落序列,并对主题段落序列中每个主题段落的词语使用相应主题标签进行标注;对进行主题标签标注后的原始病程文本数据进行清洗,并使用中文分词模型将每个电子病程文本分成词语的线性序列;使用序列标注体系对每个电子病程文本的所有词语位置进行标签标注,用于区分每个词语在相应主题段落的位置,从而形成医疗领域的语料库。3.根据权利要求2所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述主题段落序列包括入院主诉、既往史、鉴别诊断、诊断、现病史、诊断依据、体格检查、专科检查、诊疗计划和辅助检查中的至少一个主题段落。4.根据权利要求2所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述中文分词模型为jieba分词组件。5.根据权利要求3所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述对每个电子病程文本的所有词语位置进行标签标注包括:在每个电子病程文本中,用b标记每个主题段落开头的词语,用i标记每个主题段落中间的词语,用e标记每个主题段落结尾的词语。6.根据权利要求1所述的基于深度学习的医疗文本主题分割方法,其特征在于,在步骤s2中,利用fasttext模型对建立的语料库进行训练。7.根据权利要求5所述的基于深度学习的医疗文本主题分割方法,其特征在于,所述步骤s3包括:对得到的低维稠密向量,利用bilstm网络提取段落间序列关系和长距离的依赖关系,输出标签向量;利用crf网络学习所有低维稠密向量相应主题段落序列的标注之间的转移规则,并基于标签向量输出最优的标签路径,得到医疗文本主题分割模型。8.根据权利要求7所述的基于深度学习的医疗文本主题分割方法,其特征在于,在利用crf网络学习转移规则时,在初始化转移矩阵的时候,基于先验知识,将不可能转移的边界设为负值进行限制,使模型更快收敛。
9.根据权利要求1所述的基于深度学习的医疗文本主题分割方法,其特征在于,在所述步骤s4之后还包括:对所述主题段落序列的预测结果进行检验和修订,并输出经过检验和修订的主题段落序列的预测结果。10.一种基于深度学习的医疗文本主题分割装置,其特征在于,包括:数据预处理模块,用于对来自多家医院的各个病区的原始病程文本数据进行中文分词以及主题段落序列的标签标注,以建立医疗领域的语料库,所述原始病程文本数据包含多个电子病程文本;文本编码模块,用于对建立的语料库进行训练,无监督得到词向量模型,并使用所述词向量模型将所述语料库中的每一个词语映射为低维稠密向量;主题分割模型生成模块,用于对得到的低维稠密向量提取时序特征,并进行语料库中词语相应主题段落序列的标注的学习,得到医疗文本主题分割模型;主题分割模块,用于将待分割医疗文本输入到所述词向量模型中,将待分割医疗文本中的每个词语映射为低维稠密向量,并将得到的低维稠密向量输入到所述医疗文本主题分割模型中,输出对待分割医疗文本的主题段落序列的预测结果。

技术总结
本发明公开了一种基于深度学习的医疗文本主题分割方法和装置,涉及机器学习技术领域。方法包括:基于来自多家医院中的原始病程文本数据建立医疗领域的语料库;对建立的语料库进行无监督训练得到词向量模型,并将语料库中的每一个词语映射为低维稠密向量;对得到的低维稠密向量提取时序特征,并进行语料库中词语主题段落序列的标注的学习,得到医疗文本主题分割模型;将待分割医疗文本依次输入到词向量模型和医疗文本主题分割模型中,输出主题段落序列的预测结果。本发明可以在存在较多噪音和较少标注数据的医疗文本数据集上,训练得到一个病程文本领域特定的轻量深度学习模型,通过该学习模型同时对病程文本完成高效率的文本分割和主题标注。本分割和主题标注。本分割和主题标注。


技术研发人员:李修明 张弛
受保护的技术使用者:翼健(上海)信息科技有限公司
技术研发日:2022.08.31
技术公布日:2022/10/25
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献