一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于病历的医学实体和关系联合提取方法和装置与流程

2022-06-08 14:34:21 来源:中国专利 TAG:

技术特征:
1.一种基于病历的医学实体和关系联合提取方法,其特征在于,包括:对病历文本进行语义分割,得到多个待识别文本;对所述多个待识别文本中的分词分别进行序列组合,得到所述多个待识别文本的待识别词序列;所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成;利用实体关系联合抽取模型,对任一待识别文本的待识别词序列进行医学实体识别,得到多个医学实体以及所述多个医学实体的实体类型,并在确定任一待识别文本的两个医学实体中的头实体和尾实体后,基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系;其中,所述待确认实体关系为预设医学关系中的一种,所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同,所述最近尾实体距离为所述头实体与最近尾实体间的距离,所述尾实体间隔为所述尾实体与所述最近尾实体间的距离,所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医学实体。2.根据权利要求1所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系,具体包括:基于所述头实体和尾实体的实体表示、所述两个医学实体的上下文表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系;其中,所述上下文表示是基于所述两个医学实体所在的待识别文本中所有分词的语义表示确定的。3.根据权利要求2所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述上下文表示是基于如下步骤确定的:基于所述两个医学实体所在的待识别文本中所有分词与所述头实体和所述尾实体之间的关联性,确定所述两个医学实体所在的待识别文本中每一分词的融合权重;基于所述两个医学实体所在的待识别文本中每一分词的融合权重,对所述每一分词的语义表示进行融合,得到所述上下文表示。4.根据权利要求2所述的基于病历的医学实体和关系联合提取方法,其特征在于,任一待识别文本中所有分词的语义表示是对所述任一待识别文本进行字切分,并进行去除重复字、修改错别字、增补缺失字的至少一种操作后,对每个字进行语义提取得到的。5.根据权利要求1所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述确定任一待识别文本的两个医学实体中的头实体和尾实体,具体包括:确定所述两个医学实体各自对应的同类实体的数量;其中,任一医学实体对应的同类实体为所述任一待识别文本中实体类型与所述任一医学实体的实体类型相同的医学实体;基于所述两个医学实体各自对应的同类实体的数量,确定头实体和尾实体。6.根据权利要求1所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述对任一待识别文本的待识别词序列进行医学实体识别,具体包括:基于任一待识别词序列的首字或尾字,利用预设医学词典,确定所述任一待识别词序列是否语义完整;当所述任一待识别词序列语义完整时,对所述任一待识别词序列进行医学实体识别。
7.根据权利要求6所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述当所述任一待识别词序列语义完整时,对所述任一待识别词序列进行医学实体识别,具体包括:当所述任一待识别词序列语义完整且所述任一待识别词序列的长度不超过预设阈值时,对所述任一待识别词序列进行医学实体识别。8.根据权利要求1至7任一项所述的基于病历的医学实体和关系联合提取方法,其特征在于,对任一待识别词序列进行医学实体识别,具体包括:对所述任一待识别词序列中包含的所有分词的语义表示进行融合,得到所述任一待识别词序列的序列表示;基于所述任一待识别词序列的序列表示和所述任一待识别词序列所在待识别文本的全文语义表示,确定所述任一待识别词序列是否为医学实体,以及当所述任一待识别词序列为医学实体时的实体类型。9.根据权利要求1至7任一项所述的基于病历的医学实体和关系联合提取方法,其特征在于,所述对病历文本进行语义分割,得到多个待识别文本,具体包括:基于所述病历文本中的病历关键词和段落分隔符进行语义分割,得到多个待识别文本;所述待识别文本中包含一个或多个对应相同病历关键词的段落。10.一种基于病历的医学实体和关系联合提取装置,其特征在于,包括:文本分割单元,用于对病历文本进行语义分割,得到多个待识别文本;序列划分单元,用于对所述多个待识别文本中的分词分别进行序列组合,得到所述多个待识别文本的待识别词序列;所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成;实体关系联合抽取单元,用于利用实体关系联合抽取模型,对任一待识别文本的待识别词序列进行医学实体识别,得到多个医学实体以及所述多个医学实体的实体类型,并在确定任一待识别文本的两个医学实体中的头实体和尾实体后,基于所述头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔,确定所述两个医学实体之间是否存在待确认实体关系;其中,所述待确认实体关系为预设医学关系中的一种,所述待确认实体关系中包含的实体类型与所述两个医学实体的实体类型相同,所述最近尾实体距离为所述头实体与最近尾实体间的距离,所述尾实体间隔为所述尾实体与所述最近尾实体间的距离,所述最近尾实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的实体。

技术总结
本发明提供一种基于病历的医学实体和关系联合提取方法和装置,其中方法包括:对病历文本进行语义分割,得到多个待识别文本;对多个待识别文本中的分词分别进行序列组合,得到多个待识别文本的待识别词序列;待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成;利用实体关系联合抽取模型,对任一待识别文本的待识别词序列进行医学实体识别,得到多个医学实体以及多个医学实体的实体类型,并在确定待识别文本的两个医学实体中的头实体和尾实体后,基于头实体和尾实体的实体表示、最近尾实体距离和尾实体间隔,确定两个医学实体之间是否存在待确认实体关系。本发明提高了医学关系抽取的准确性、嵌套实体识别的全面性和模型效率。全面性和模型效率。全面性和模型效率。


技术研发人员:秦晓宏 华宗楠
受保护的技术使用者:上海柯林布瑞信息技术有限公司
技术研发日:2022.05.10
技术公布日:2022/6/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献