技术特征:
1.一种结构化医疗数据生成方法,其特征在于,包括:接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;结合多个第一医疗命名实体从所述多个词语中识别多个第二医疗命名实体;基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。2.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,根据隐式马尔科夫模型对所述待处理医疗文本进行分词。3.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,从所述多个词语中识别出多个第二医疗命名实体包括:基于所述多个第一医疗命名实体对所述多个词语进行精确匹配,以从所述多个词语中识别出第一部分所述第二医疗命名实体;以及基于预设规则对所述多个词语进行模糊匹配,以从所述多个词语中识别出第二部分所述第二医疗命名实体。4.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,建立所述多个第二医疗命名实体之间的逻辑关系包括:基于所述多个第一医疗命名实体之间的逻辑关系判断多个所述第二医疗命名实体之间是否可能存在逻辑关系;在判断多个所述第二医疗命名实体之间可能存在逻辑关系时,结合自然语言实体关系确认所述逻辑关系是否确实存在。5.根据权利要求4所述的结构化医疗数据生成方法,其特征在于,结合自然语言实体关系确认所述逻辑关系是否确实存在包括:基于人工先验知识、数据统计以及条件随机场crf算法中的一种或多种确认所述逻辑关系是否确实存在。6.根据权利要求3所述的结构化医疗数据生成方法,其特征在于,所述预设规则包括正则表达式。7.根据权利要求1所述的结构化医疗数据生成方法,其特征在于,对所述待处理医疗文本进行分词,得到多个词语,包括:结合已知医疗命名实体和常规文本常规词频对所述待处理医疗文本进行分词,得到多个词语;其中,所述已知医疗命名实体来自医疗知识图谱,所述医疗知识图谱包括医疗命名实体词表和医疗命名实体分类间关系逻辑表。8.根据权利要求7所述的结构化医疗数据生成方法,其特征在于,所述医疗命名实体词表由医疗命名实体和所对应分类组成,用于召回文本中医疗命名实体;所述医疗命名实体间关系逻辑表通过医疗命名实体间关系构成,用于召回文本中医疗命名实体中潜在的逻辑关系。9.一种医疗数据特征的提取方法,其特征在于,包括:接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;结合多个第一医疗命名实体从所述多个词语中召回多个第二医疗命名实体;
基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系,对所述多个第二医疗命名实体之间的逻辑关系进行召回;结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系,生成所述待处理医疗文本的医疗数据特征。10.一种结构化医疗数据生成装置,其特征在于,包括:文本接收模块,用于接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;实体识别模块,用于结合多个第一医疗命名实体从所述多个词语中识别多个第二医疗命名实体;关系识别模块,用于基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;数据生成模块,用于结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。
技术总结
本公开是关于一种结构化医疗数据生成方法及装置,该方法包括:接收待处理医疗文本,并对所述待处理医疗文本进行分词,得到多个词语;结合多个第一医疗命名实体从所述多个词语中识别出多个第二医疗命名实体;基于所述多个第一医疗命名实体之间的逻辑关系以及自然语言实体关系建立所述多个第二医疗命名实体之间的逻辑关系;结合所述第二医疗命名实体以及所述第二医疗命名实体之间的逻辑关系生成结构化医疗数据。该方法通过结合医疗命名实体以及医疗命名实体之间的逻辑关系生成结构化医疗数据,实现对海量医疗文本进行数据结构化,提高了处理速度,同时提高了准确率。同时提高了准确率。同时提高了准确率。
技术研发人员:康波 陈成 稽可睿
受保护的技术使用者:医渡云(北京)技术有限公司
技术研发日:2016.09.28
技术公布日:2022/7/29
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。