一种基于深度强化学习的问诊方法及系统

2022-06-11 22:24:00 来源：中国专利 TAG：

技术特征：
1.一种基于深度强化学习的问诊方法，其特征在于：其包括：根据患者自诉及历史问诊数据提取到症状文本，并根据预设的标准症状词典进行归一化从而得到标准化症状文本，将其输入问诊模型中的症状问询模块，所述症状问询模块利用医疗知识库，根据得到的标准化症状文本通过深度强化学习进行关联推理，向患者进行下一步的症状询问，用以得到更多症状信息；重复上述过程，直至诊断模型判定已得到了足够的信息或无法从患者处得到更多信息时结束症状询问并通过问诊模型中的诊断模块做出最终诊断；其中，所述问诊模型对问诊对话的症状文本进行编码并聚合得到症状文本集合表示；根据症状文本集合表示，输出在目前已知信息条件下的疾病预测概率分布，通过深度神经网络架构对症状集合表示进行实时诊断预测；所述问诊模型基于历史问诊数据进行深度强化学习训练，所述问诊模型还包括症状问询模块和疾病诊断模块，所述症状问询模块将问诊过程视为序列决策问题进行建模，使用基于价值函数的无模型强化学习方法q-learning进行解决，所述疾病诊断模块将实时诊断视为分类问题进行建模，使用梯度提升决策树进行解决。2.根据权利要求1所述的基于深度强化学习的问诊方法，其特征在于：所述问诊模型包括：基于上下文的文本表示模型将症状文本序列的每个字向其他字进行注意力交互，通过改良的transformer编码器对症状文本进行编码获得症状文本表示，通过拼接聚合或平均聚合将所有症状文本表示向量进行聚合，将各个症状信息融合得到整个症状集合的向量表示，通过注意力机制学习整个症状文本集合的表示。3.根据权利要求2所述的基于深度强化学习的问诊方法，其特征在于：所述问诊模型采用如下方法进行训练：设计病人模拟器的输入输出规则，从问诊记录数据集中采样得到当前病人记录并与对话策略模型交互，得到模拟问诊对话数据，对问诊模型进行学习；采用实时诊断概率分布对病人模拟器反馈的奖励函数进行加权指导，提升模型对于候选症状的召回能力。4.根据权利要求3所述的基于深度强化学习的问诊方法，其特征在于：对所述症状文本集合，采用两阶段预训练-微调方法，引入预训练语料中学习的信息，并在目标数据集上进行二次预训练，融入更多症状文本信息；针对症状询问，采用奖励函数，在给定轮数下，实现最大化症状召回率；所述奖励函数为常数奖励函数、归一化奖励函数、先验条件概率奖励函数或实时诊断奖励函数；所述实时诊断奖励函数为对疾病进行实时诊断，使用该次动作前后目标疾病上实时诊断概率之差进行加权。5.基于深度强化学习的问诊系统，其特征在于：其包括：症状询问模块，根据患者自诉及历史问诊数据提取到症状文本，并根据预设的标准症状词典进行归一化从而得到标准化症状文本，将其输入问诊模型中的症状问询模块，所述症状问询模块利用医疗知识库，根据得到的标准化症状文本通过深度强化学习进行关联推理，向患者进行下一步的症状询问，用以得到更多症状信息；重复上述过程，直至诊断模型判定已得到了足够的信息或无法从患者处得到更多信息时结束症状询问并通过问诊模型中的诊断模块做出最终诊断；
编码模块，对问诊对话的症状文本进行编码，然后通过聚合得到症状文本集合；疾病诊断模块，根据症状文本集合表示，输出当前疾病概率分布，进行实时诊断预测；神经网络训练模块，所述问诊模型基于历史问诊对话数据进行深度强化学习训练，所述症状问询模块将问诊过程视为序列决策问题进行建模，使用基于价值函数的无模型强化学习方法q-learning进行解决，所述疾病诊断模块将实时诊断视为分类问题进行建模，使用梯度提升决策树进行解决。6.根据权利要求5所述的基于深度强化学习的问诊系统，其特征在于：所述编码模块包括：文本表示模块，通过基于上下文的文本表示模型将症状文本序列的每个字向其他字进行注意力交互，通过改良的transformer编码端对症状文本进行编码；表示聚合模块，通过获得的症状文本表示，通过拼接聚合或平均聚合将所有症状文本表示向量进行聚合，将各个症状信息融合得到整个症状集合的表示，然后通过注意力机制学习整个症状文本集合的表示。7.根据权利要求5所述的基于深度强化学习的问诊系统，其特征在于：所述神经网络训练模块包括：病人模拟器，从数据集中采样得到当前病人记录并与对话策略模型交互，得到对话数据；所述神经网络训练模块设计病人模拟器的输入输出规则，从问诊记录数据集中采样得到当前病人记录并与对话策略模型交互，得到模拟问诊对话数据，对问诊模型进行学习；采用实时诊断概率分布对病人模拟器反馈的奖励函数进行加权指导，提升模型对于候选症状的召回能力。8.根据权利要求5所述的基于深度强化学习的问诊系统，其特征在于：对所述症状文本集合，采用两阶段预训练-微调方法，引入预训练语料中学习的信息，并在目标数据集上进行二次预训练，融入更多症状文本信息；所述症状询问模块采用奖励函数，在给定轮数下，实现最大化症状召回率；所述奖励函数为常数奖励函数、归一化奖励函数、先验条件概率奖励函数或实时诊断奖励函数；所述实时诊断奖励函数为对疾病进行实时诊断，使用该次动作前后目标疾病上实时诊断概率之差进行加权。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1~4任意一项所述的基于深度强化学习的问诊方法。10.一种设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1~4任意一项所述的基于深度强化学习的问诊方法。

技术总结
本发明提供了一种基于深度强化学习的问诊方法及系统，其中方法包括：根据患者自诉及历史问诊数据提取到症状文本，并根据预设的标准症状词典进行归一化从而得到标准化症状文本，将其输入问诊模型中的症状问询模块，该模块利用医疗知识库，根据得到的标准化症状文本通过深度强化学习进行关联推理，向患者进行下一步的症状询问，用以得到更多症状信息；重复上述过程，直至诊断模型判定已得到了足够的信息或无法从患者处得到更多信息时结束症状询问并通过问诊模型中的诊断模块做出最终诊断。本发明的技术方案解耦了三个功能，降低了学习难度，使得症状询问充分、询问轮次充足、症状召回率高。回率高。回率高。

技术研发人员：汤步洲黄孝炜
受保护的技术使用者：哈尔滨工业大学（深圳）
技术研发日：2022.02.21
技术公布日：2022/6/10

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度强化学习的问诊方法及系统

相关文献

最热文献