一种小样本弱标注条件下的医疗事件识别方法及系统与流程

2021-11-25 03:01:00 来源：中国专利 TAG：

技术特征：
1.一种小样本弱标注条件下的医疗事件识别方法，其特征在于，该方法包括：步骤一，医疗事件库构建和数据标注：基于专家知识定义和构建医疗事件库，所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素；基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注，生成医疗要素识别模型的训练数据；步骤二，医疗要素和事件元学习，包括以下子步骤：2.1选择并采样各领域公开的中文事件和要素标注语料作为训练集，多轮采样得到对应的训练
‑
支持集和训练
‑
查询集；2.2基于训练
‑
支持集，构建对应事件和要素的原型表示；2.3根据要素和事件的原型表示，计算训练
‑
查询集样本与原型表示的距离相似度分数，根据真实结果和识别结果计算元学习模型的损失，更新元学习模型参数；2.4将小样本医疗要素和事件数据集作为测试集，采样得到对应的测试
‑
支持集和测试
‑
查询集，将训练得到的元学习模型在测试
‑
支持集上进一步训练得到医疗要素和事件元学习模型；步骤三，医疗要素识别，包括以下子步骤：3.1训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；3.2对远程监督方法标注得到的医疗要素片段，基于获得的字符级语义向量表示，计算医疗要素片段的特征表示；3.3根据医疗要素片段的特征表示，利用语义相似度对医疗要素片段进行分类；对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段，构建负采样样本，利用医疗要素和事件元学习模型得到医疗要素类别的权重；3.4基于医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数；步骤四，医疗事件识别，包括以下子步骤：4.1基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征，结合专家对医疗事件类别中的医疗要素类别的打分情况，获得各类医疗事件的医疗要素重要度分数；4.2基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段，结合医疗要素重要度分数，获得各类医疗事件的概率分布；4.3利用医疗要素和事件元学习模型，计算中文电子病历文本和各类医疗事件的距离相似度分数，与步骤4.2中各类医疗事件的概率分布结合，计算得到对应的医疗事件类别。2.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤一中，所述医疗事件库的数据来自小样本医疗要素和事件数据集和外部医学资源；所述医疗事件类别包括：个人基本信息事件、家族疾病事件、既往疾病事件、用药事件、过敏事件、手术事件、症状事件、治疗事件、诊断事件。3.根据权利要求2所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤一中，首先构建医疗要素库，构建过程如下：a)将小样本医疗要素和事件数据集中出现两次以上的医疗要素按照对应的医疗要素类别，加入到对应类别的医疗要素库；b)筛选和处理部分公开的高质量外部医学资源，加入到对应的医疗要素库中；
然后构建医疗事件库：对小样本医疗要素和事件数据集中标注的小样本医疗事件及医疗要素类别进行统计，对于每一个标注的事件和要素，建立对应关系，并进行存储记录。4.根据权利要求3所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤一中，利用远程监督方法标注医疗要素，具体为：a)对中文电子病历文本进行无效字符清洗、大小写转换、标点符号转换、切句处理；b)对于中文电子病历文本，使用医疗要素库进行匹配；对于不属于疾病、药物、症状、手术、诱因、治疗、诊断这七类的医疗要素，使用基于规则的方式进行标注和提取，不使用匹配到医疗要素库的方法标注；c)统计医疗要素库中医疗要素的最大片段长度，在利用远程监督方法进行标注时规定片段的最大长度为，采用片段标注的方式对匹配得到的医疗要素片段文本进行标注，其他未匹配为医疗要素的文本片段标注为负样本；将标注得到的样本记为，其中样本片段分别表示样本片段在文本中的起始位置和结束位置，为样本对应的类别。5.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤2.2中，基于训练
‑
支持集，构建对应事件和要素的原型表示，具体为：将各个类别样本的语义向量投影到高维度的特征空间中，将各样本的特征按维度进行加和求平均，作为类别的原型表示。6.根据权利要求5所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤2.3中，距离相似度分数包括bregman散度和余弦相似度分数两部分；bregman散度计算公式如下：其中为欧式距离计算函数，为要素或事件样本的特征表示，为类别的原型表示；余弦相似度分数计算公式如下：其中为类别的特征表示，是训练参数；计算样本属于类别的距离相似度分数：其中为训练参数；计算样本预测为类别的概率：其中为训练
‑
查询集中的任一类别；根据训练
‑
查询集中样本类别的真实结果和识别结果，计算元学习模型的损失，并使用
adam算法进行反向传播更新参数，元学习模型的损失函数如下：。7.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤三中，利用远程监督方法标注的医疗要素，训练医疗要素识别模型，具体为：输入的中文电子病历文本记为，是输入的文本长度；通过远程监督方法标注得到的样本记为，其中样本片段，分别表示样本片段在文本中的起始位置和结束位置，为样本对应的类别；使用序列编码器模型得到文本的字符级语义向量表示；在医疗要素识别时，对于文本，通过序列编码器模型获得每个字符的语义向量；对于样本，计算样本片段的特征表示：其中表示向量拼接，表示向量对应位置元素点乘运算；样本片段的特征表示经过非线性变换，计算并输出样本属于各类别的概率分布：其中为训练参数，输出维度为样本类别数设为，即：其中表示样本片段属于类别的概率。8.根据权利要求7所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤三中，设所有样本集合为，设医疗要素识别模型在训练过程中预测的所有非医疗要素片段数量为，随机采样个样本，构成负采样样本集合，其中；将负采样样本集合送入医疗要素和事件元学习模型，得到负采样样本属于各类别医疗要素的概率，将该概率值作为权重：其中为预测的样本类别，设共类医疗要素，构造全局损失函数为：使用损失函数经过梯度反向传播更新医疗要素识别模型参数。9.根据权利要求1所述的一种小样本弱标注条件下的医疗事件识别方法，其特征在于，所述步骤四中，对于构建好的医疗事件库，计算医疗要素类别在医疗事件类别
中的重要度分数：其中为医疗要素类别在医疗事件类别中的共现性分数，为医疗要素类别与医疗事件类别的相关性分数；将医疗要素作为医疗事件的基本维度，多位专家同时对医疗要素打分，设专家对于医疗事件类别中的医疗要素类别打分为，规定分数为整数且同一专家对各个医疗要素的打分必须不同，分数的取值范围为，其中为医疗事件类别中医疗要素类别总数，计算最终的医疗事件类别中医疗要素类别的归一化专家得分：其中为专家数；计算医疗要素类别在医疗事件类别中的最终重要度分数：设输入的中文电子病历文本记为，是输入的文本长度，通过医疗要素识别模型预测得到的医疗要素记为，为文本中医疗要素数量，设共有医疗事件类别η个；结合医疗要素重要度分数计算文本属于医疗事件类别的概率分布：将中文电子病历文本送入医疗要素和事件元学习模型中，计算文本和各类医疗事件的距离相似度分数，将距离相似度分数与医疗事件的概率分布结合，得到文本属于医疗事件类别的得分：取得分最高的医疗事件类别作为最终文本的医疗事件：。10.一种小样本弱标注条件下的医疗事件识别系统，其特征在于，该系统包括：医疗事件库构建和数据标注模块：基于专家知识定义和构建医疗事件库，所述医疗事件库中包括医疗事件类别及每种类别对应的医疗要素；基于医疗事件库利用远程监督方法对中文电子病历文本进行医疗要素标注，生成医疗要素识别模型的训练数据；医疗要素和事件元学习模块：选择并采样各领域公开的中文事件和要素标注语料作为
训练集，多轮采样得到对应的训练
‑
支持集和训练
‑
查询集；基于训练
‑
支持集构建对应事件和要素的原型表示；计算训练
‑
查询集样本与原型表示的距离相似度分数，根据真实结果和识别结果计算元学习模型的损失，更新元学习模型参数；将小样本医疗要素和事件数据集作为测试集，采样得到对应的测试
‑
支持集和测试
‑
查询集，将训练得到的元学习模型在测试
‑
支持集上进一步训练得到医疗要素和事件元学习模型；医疗要素识别模块：训练中文电子病历文本的序列编码器模型，获取文本的字符级语义向量表示；对远程监督方法标注得到的医疗要素片段，计算医疗要素片段的特征表示；利用语义相似度对医疗要素片段进行分类；对于医疗要素识别模型在训练过程中预测的所有非医疗要素片段，构建负采样样本，利用医疗要素和事件元学习模型得到医疗要素类别的权重，计算医疗要素和负采样样本在医疗要素识别模型中的损失，更新医疗要素识别模型参数；医疗事件识别模块：基于医疗事件库计算每类医疗事件中医疗要素的共现性和事件相关性特征，结合专家对医疗事件类别中的医疗要素类别的打分情况，获得各类医疗事件的医疗要素重要度分数；基于医疗要素识别模型输出的中文电子病历文本中存在的医疗要素片段，获得各类医疗事件概率分布；利用医疗要素和事件元学习模型计算中文电子病历文本和各类医疗事件的距离相似度分数，与各类医疗事件概率分布结合，得到对应的医疗事件类别。

技术总结
本发明公开了一种小样本弱标注条件下的医疗事件识别方法及系统，本发明构建了医疗事件库，利用远程监督方法实现了在小样本弱标注条件下对医疗要素的自动标注；从多个维度构建医疗要素和事件元学习模型，解决小样本弱标注条件下，医疗事件识别模型泛化性差、标注数据不足的问题；利用医疗要素和事件元学习模型进行负采样，将未标注医疗要素控制在一个较低的范围，降低远程监督方法引起的漏标问题，提升医疗要素识别模型性能；基于医疗事件库和专家知识计算医疗要素重要度，利用医疗要素重要度与医疗要素和事件元学习模型对医疗事件进行分类识别，解决了医疗事件触发词难以定义的问题。题。题。

技术研发人员：李劲松李玉格杨宗峰史黎鑫辛然田雨周天舒
受保护的技术使用者：之江实验室
技术研发日：2021.10.26
技术公布日：2021/11/24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：工控设备的检测数据处理方法和系统与流程

一种小样本弱标注条件下的医疗事件识别方法及系统与流程

相关文献

最热文献