一种基于深度强化学习的问诊方法及系统

2022-06-11 22:24:00 来源：中国专利 TAG：

1.本发明属于智能诊断技术领域，尤其涉及一种基于深度强化学习的问诊方法。

背景技术：

2.在医疗领域，由于医疗资源有限，医疗资源压力过大，以及患者对大医院的盲目信任等原因，长期存在挂号难就医难的问题。具体表现为，大医院三甲医院门庭若市，而小医院门可罗雀，使得有限的医疗资源没有得到最大的利用。
3.随着信息技术的发展，为了减少医疗资源压力、承担初步筛查导诊责任，远程线上问诊应运而生。通过远程线上问诊，患者可以足不出户就在互联网上与远方的医生以文本、音频、视频的形式进行交流，得到诊断服务。这种服务一定程度上减缓了不同地域之间医疗资源不平衡的现状，医生可以通过与患者远程线上会诊来判断患者病情轻重，推荐病人小病去小医院、大病去大医院，最大限度利用好公共医疗资源，起到合理规划医疗资源的效果。
4.然而，远程线上问诊本身没有提升医疗资源总量，提供远程线上问诊服务的医生只是将自己的休息时间或是工作时间放在了线上问诊上，医生的总数并没有发生改变。随着信息技术的发展，为了减轻远程线上问诊服务中医生所耗费的精力，研究者们开始探索通过设计对话系统代替远程线上问诊的医生，提供线上问诊服务。这种为了线上诊断设计的对话系统被称为自动诊断系统，旨在以自然语言对话的形式与用户进行交互，获得用户身体状态与检验检查信息，最终做出诊断，属于任务型对话系统在自动诊断任务上的应用。现有的线上问诊系统模型表示层没有充分提取文本信息，表征能力不足，存在症状询问不充分的问题。目前主流基于强化学习的问诊策略中，动作空间始终是症状集合与疾病集合的并集，模型需要同时学习症状预测功能、疾病诊断功能和症状预测到疾病诊断的切换功能，三个功能耦合过深使得奖励函数的设置变得困难，直接导致现有模型存在症状询问不充分、询问轮次过少、症状召回率低的问题。

技术实现要素：

5.针对以上技术问题，本发明公开了一种基于深度强化学习的问诊方法及系统，解决了现有模型存在症状询问不充分、询问轮次过少、症状召回率低的问题。
6.对此，本发明采用的技术方案为：
7.一种基于深度强化学习的问诊方法，其包括：
8.根据患者自诉及历史问诊数据提取到症状文本，并根据预设的标准症状词典进行归一化从而得到标准化症状文本，将其输入问诊模型中的症状问询模块，所述症状问询模块利用医疗知识库，根据得到的标准化症状文本通过深度强化学习进行关联推理，向患者进行下一步的症状询问，用以得到更多症状信息；重复上述过程，直至诊断模型判定已得到了足够的信息或无法从患者处得到更多信息时结束症状询问并通过问诊模型中的诊断模块做出最终诊断；
当前疾病，某些症状的预测效果会比其他症状的预测效果更高。首先在数据集上预统计症状与疾病间的先验条件概率，在环境反馈奖励时使用条件概率对奖励进行加权，鼓励对话策略模型优先探索更优可能推断出疾病的症状。
24.实时诊断奖励函数：使用症状条件概率提供指导的策略没有考虑其他已知症状对疾病预测的影响。因此考虑整个已知症状集合对疾病共同的贡献，通过对疾病进行实时诊断，使用该次动作前后目标疾病上实时诊断概率之差进行加权。
25.本发明还公开了一种基于深度强化学习的问诊系统，其包括：
26.症状询问模块，根据患者自诉及历史问诊数据提取到症状文本，并根据预设的标准症状词典进行归一化从而得到标准化症状文本，将其输入问诊模型中的症状问询模块，所述症状问询模块利用医疗知识库，根据得到的标准化症状文本通过深度强化学习进行关联推理，向患者进行下一步的症状询问，用以得到更多症状信息；重复上述过程，直至诊断模型判定已得到了足够的信息或无法从患者处得到更多信息时结束症状询问并通过问诊模型中的诊断模块做出最终诊断；
27.编码模块，对问诊对话的症状文本进行编码，然后通过聚合得到症状文本集合；
28.疾病诊断模块，根据症状文本集合表示，输出当前疾病概率分布，进行实时诊断预测；
29.神经网络训练模块，所述问诊模型基于历史问诊对话数据进行深度强化学习训练，所述症状问询模块将问诊过程视为序列决策问题进行建模，使用基于价值函数的无模型强化学习方法q-learning进行解决，所述疾病诊断模块将实时诊断视为分类问题进行建模，使用梯度提升决策树进行解决。
30.作为本发明的进一步改进，所述编码模块包括：
31.文本表示模块，通过基于上下文的文本表示模型将症状文本序列的每个字向其他字进行注意力交互，通过改良的transformer编码端对症状文本进行编码；
32.表示聚合模块，通过获得的症状文本表示，通过拼接聚合或平均聚合将所有症状文本表示向量进行聚合，将各个症状信息融合得到整个症状集合的表示，然后通过注意力机制学习整个症状文本集合的表示。
33.作为本发明的进一步改进，所述神经网络训练模块包括：
34.病人模拟器，从数据集中采样得到当前病人记录并与对话策略模型交互，得到对话数据；
35.所述神经网络训练模块设计病人模拟器的输入输出规则，从问诊记录数据集中采样得到当前病人记录并与对话策略模型交互，得到模拟问诊对话数据，对问诊模型进行学习；
36.采用实时诊断概率分布对病人模拟器反馈的奖励函数进行加权指导，提升模型对于候选症状的召回能力。
37.作为本发明的进一步改进，对所述症状文本集合，采用两阶段预训练-微调方法，引入预训练语料中学习的信息，并在目标数据集上进行二次预训练，融入更多症状文本信息。
38.作为本发明的进一步改进，所述症状询问模块采用奖励函数，在给定轮数下，实现最大化症状召回率；
39.所述奖励函数为常数奖励函数、归一化奖励函数、先验条件概率奖励函数或实时诊断奖励函数；
40.所述实时诊断奖励函数为对疾病进行实时诊断，使用该次动作前后目标疾病上实时诊断概率之差进行加权。
41.本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如上任意一项所述的基于深度强化学习的问诊方法。
42.本发明还公开了一种设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上任意一项所述的基于深度强化学习的问诊方法。
43.与现有技术相比，本发明的有益效果为：
44.第一，采用本发明的技术方案，解耦了症状预测功能、疾病诊断功能和症状预测到疾病诊断的切换功能，降低了学习难度，使得症状询问充分、询问轮次充足、症状召回率高。
45.第二，采用本发明的技术方案，通过将动作空间拆分为症状空间和疾病空间，将问诊过程划分为症状问询部分和疾病诊断部分的管道结构，其中症状问询部分建模为序列决策问题，使用基于价值函数的无模型强化学习进行学习，其中疾病诊断部分建模为分类问题，使用梯度提升决策树进行学习，另一方面使用实时诊断信息对症状询问模型进行指导，利用问询到的症状关于目标疾病的预测概率提升值来对强化学习奖励函数进行约束，解决了症状询问不充分的问题，是的症状询问更加充分。
46.第三，采用本发明的技术方案，通过引入基于上下文的文本表示模型对症状文本进行表示，并使用二次预训练-微调策略，在模型结构方面增强模型表征能力；另一方面新增了实时诊断辅助任务，与症状预测主任务一同构成多任务学习范式，利用在辅助任务上学习得到的文本表示对主任务文本表示进行增强，解决了现有方法的模型表示层没有充分提取文本信息，表征能力不足的问题，本发明的技术方案可以充分提取文本信息，提高了表征能力。
附图说明
47.图1是本发明实施例的一种基于深度强化学习的问诊方法的诊断策略示意图。
48.图2是本发明实施例的对话诊断任务数据示意图。
49.图3为本发明实施例的诊断指导的症状问询策略图。
50.图4为本发明实施例的面向集合文本的表示模型图。
51.图5为本发明实施例的二次预训练-微调训练策略示意图。
52.图6为本发明实施例的多任务学习模型结构图。
53.图7是本发明实施例与对比例的dbsi的方法在mdd数据集上症状召回率对比图。
具体实施方式
54.下面对本发明的较优的实施例作进一步的详细说明。
55.一种基于深度强化学习的问诊方法，其包括：
息，并在目标数据集上进行二次预训练，融入更多症状文本信息。
87.所述症状询问模块采用奖励函数，在给定轮数下，实现最大化症状召回率；
88.所述奖励函数为常数奖励函数、归一化奖励函数、先验条件概率奖励函数或实时诊断奖励函数；
89.所述实时诊断奖励函数为对疾病进行实时诊断，使用该次动作前后目标疾病上实时诊断概率之差进行加权。
90.具体到实施实例上，如图2所示，本实施例所使用数据为医院真实问诊数据，通过实体识别和实体标准化得到规范化数据，对话策略模型输入对话状态，输出下一步动作。
91.如图1所示，本实施例的症状问询与疾病判别分离的管道结构，症状询问部分旨在询问更多更具判别信息的症状，对话策略模型通过不断向患者询问症状获取信息，被建模成序列决策问题。疾病判别部分旨在做出尽可能正确的诊断，对话策略模型根据已有的信息做出诊断，被建模成分类问题。
92.如图3所示，本实施例的诊断指导的症状问询策略包括：
93.症状询问诊断模型：在症状问询模块以外维护一个疾病分类器，该症状分类器输入已知症状集合，输出当前疾病概率概率分布。
94.诊断结果指导的奖励函数：使用该次动作前后目标疾病概率之差作为权重对奖励进行加权，使用疾病判别结果来对症状询问模型进行指导。在该种奖励函数下，模型为了最大化奖励和，需要优先探索最有可能提升目标疾病概率分布的症状进行询问，鼓励模型优先询问对目标症状预测效果明显的症状。
95.如图4所示，本实施例中，文本表示模块的目的是将在大规模预训练语料中学习得到的症状文本信息融入症状表示中。表示聚合模块的目的是将各个症状信息融合得到整个症状集合的表示。
96.如图5所示，两阶段预训练-微调方法包括：
97.步骤1预训练：在大规模预训练语料上进行mask language model任务预训练，学习预料中的文本信息。
98.步骤2二次预训练：预训练模型在目标数据集上先进行二次预训练任务，使得表示层适应目标领域文本。
99.步骤3微调：预训练模型在目标数据集上进行目标任务训练。
100.如图6所示，为多任务学习损失图，采用分层共享机制，症状询问诊断模型共享表示层，针对实时诊断辅助任务，模型通过共享表示层得到疾病判别概率分布，然后将疾病判别概率分布与共享表示层共同送入症状选择模块，得到当前症状选择概率分布。
101.本实施例的问诊过程可以划分为“症状问询部分和疾病诊断部分的管道结构”，对于疾病诊断功能可以单独训练，从原始模型中剥离出来，同时对于症状预测到疾病诊断的切换功能提出了启发式方法与将切换动作作为模型可以进行动作的动作学习方法，经实验验证得出动作学习方法更优。该方法解耦了症状预测、疾病诊断和症状预测到疾病诊断的切换三个功能，降低学习难度，提升了症状询问的召回率。如图7所示，以现有技术的dqn方法作为对比，可见本实施例的技术方案dbsi在相同症状询问轮次下较大地提升了症状召回率。而且，本实施例的方法使用的症状文本表示由在大规模语料上训练的预训练模型经二次预训练-微调得到，且文本表示关注到所有症状文本间无顺序关系，属于集合结构，
噪音小。
102.下面为本实施例的方法选取的对话策略与现有技术的其他方法进行对比的实验结果表，如表1所示。
103.表1实施例与对比例的实验对比结果
[0104][0105]
其中，表中第一列的各个方法的说明如下：
[0106]
dqn：该方法由wei等人提出，将整个问诊过程建模为mdp，使用无模型强化学习算法dqn进行预测。
[0107]
krdqn：该方法由liang等人提出，与专利cn109817329a所提出方法相同，在dqn基础上提出知识路由和关系改善模块，使用条件概率和历史问诊信息来对 dqn结果进行修正。
[0108]
graph-dqn：该方法由zhao等人提出，在dqn基础上融合症状与疾病间结构信息，构建了症状疾病图，使用gcn对图的结构信息进行提取，对症状疾病表示进行了增强。
[0109]
pg-mi-gan：该方法由zhou等人提出，提出了基于生成对抗受限的策略梯度法，同时使用互信息增强的奖励函数。
[0110]
dbsi：本发明实施例所提出基于实时诊断指导的两阶段对话策略，通过将整个端到端任务根据先验信息划分为症状问询与疾病判别两个阶段，并使用实时诊断信息对症状问询进行指导。
[0111]
redbsi：本发明所提出方法，通过使用预训练-微调策略引入集合文本表示模型，增强文本表示。同时引入多任务学习，将实时疾病判别任务作为辅助任务进行预测，对文本表示进行指导。
[0112]
在表1实验结果中，不同方法的平均对话轮次不同，因此其所能问询的症状数量不同，在不同召回数量下比较召回率具有一定误差。为了进一步评价本专利提出的管道结构在提升症状召回率上的有效性，分析了不同对话轮次下，本专利所提出管道结构与传统端到端结构在症状召回率的区别。将症状询问模块对话轮次t设置为1到 10，通过对症状询问模块的症状概率分布按照轮数进行掩码，控制症状问询轮数进行实验。
[0113]
如图7所示，实验表现出两种方法下的症状召回率随着对话轮次t的增大而逐渐增大的趋势，同时dbsi模型相比于dqn模型更能有效提升症状召回率。对话轮次t从 1开始，本专利所提方法下症状召回率就大于基准线方法，随着t的增大，本专利所提方法下症状召回率始终大于基准线方法，由此得出本专利所提方法对症状召回有较大提升。同时观察到随着对话轮数的增加，召回率折线的增加速度逐渐降低，达到该方法召回率上限。
[0114]
本实施例的技术方案，在原有的问诊策略基础上，提出根据目前主流模型的优缺点，公开了一种新的症状问询和疾病判别两阶段结构，将对话诊断过程进行划分，将症状
问询和疾病判别拆分开，使得症状问询模块专注于寻找更多用户症状，得到更多判断依据，疾病判别模块专注于根据现有信息对用户做出诊断。并引入了实时诊断指导方法，增大了对目标疾病判别性强的症状被询问的概率，提升了症状召回率。同时针对现有仅用布尔表示作为输入的模型表示层存在表达能力弱的问题，提出了一种基于表示增强的对话策略，从模型结构和辅助任务两方面提升了增强表示层表达能力。
[0115]
本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如上任意一项所述的基于深度强化学习的问诊方法。
[0116]
本发明还公开了一种设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上任意一项所述的基于深度强化学习的问诊方法。
[0117]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度强化学习的问诊方法及系统

相关文献

最热文献