一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种术后风险预测自然语言数据增强模型及方法

2022-04-14 04:37:25 来源:中国专利 TAG:

技术特征:
1.一种术后风险预测自然语言数据增强模型,其特征在于,所述模型包括:离散化层,被配置为,将围术期下的表格数据的连续型特征转化为分类型特征;列嵌入层,被配置为,将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征转换为分类型特征向量,获得向量嵌入 ,其中指代离散型特征向量和分类型特征向量,的范围属于1到m n,m为连续型特征数量,n为离散型特征数量;文本嵌入层,被配置为,基于术前诊断文本上下文来确定词嵌入;并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;特征交互层,被配置为,通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。2.根据权利要求1所述的模型,其特征在于,所述三个向量矩阵均由查询向量、键向量和值向量组成。3.根据权利要求1所述的模型,其特征在于,所述离散化层,被配置为,根据数值特征的最大值和最小值将连续型特征转化为分类型特征。4.根据权利要求1所述的模型,其特征在于,所述文本嵌入层,被配置为,基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。5.根据权利要求1所述的模型,其特征在于,所述模型还包括多层感知机,所述多层感知机被配置为,根据所述语义向量来得到术后风险的预测结果。6.一种术后风险预测自然语言数据增强方法,其特征在于,所述方法包括:将围术期下的表格数据的连续型特征转化为分类型特征;将围术期下的表格数据的离散型特征转换为离散型特征向量,以及将所述分类型特征转换为分类型特征向量,获得向量嵌入,其中 指代离散型特征向量和分类型特征向量, 的范围属于1到m n,m为连续型特征数量,n为离散型特征数量;基于术前诊断文本上下文来确定词嵌入,并将所述词嵌入通过一个平均池化的方式,得到一个完整的句子嵌入;通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;将输入的向量映射成三个向量矩阵,并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重,得到一个语义向量。7.据权利要求6所述的方法,其特征在于,所述三个向量矩阵均由由查询向量、键向量和值向量组成。8.根据权利要求6所述的方法,其特征在于,所述将连续型特征转化为分类型特征,具体包括:根据数值特征的最大值和最小值将连续型特征转化为分类型特征。
9.根据权利要求6所述的方法,其特征在于,所述基于术前诊断文本上下文来确定词嵌入,具体包括:基于术前诊断文本,并利用预训练模型获取基于上下文语义的词嵌入,所述预训练模型的语料库根据实际的临床记录数据来调整更新。10.根据权利要求6所述的方法,其特征在于,在得到一个语义向量后,还包括步骤,根据所述语义向量来得到术后风险的预测结果。

技术总结
本发明公开了一种术后风险预测自然语言数据增强模型及方法,将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,本发明首次地将自然语言数据纳入到了对术后风险预测的任务中来。来。来。


技术研发人员:郝学超 王亚强 杨潇 朱涛 舒红平
受保护的技术使用者:成都信息工程大学
技术研发日:2022.03.16
技术公布日:2022/4/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献