置信预测方法和诊断推荐方法及装置、设备和介质与流程

2022-11-23 15:41:26 来源：中国专利 TAG：

1.本技术涉及数据挖掘技术领域，特别是涉及一种置信预测方法和诊断推荐方法及装置、设备和介质。

背景技术：

2.如今，可视化技术是研究深度学习黑盒模型可解释性的重要途径之一，也是最直观可以看到模型的参数变化的方法，但是神经网络模型的可视化结果大多使用户难以理解，同时也缺少对可视化结果的一个统一的评价标准，缺乏普适性，从而降低可信度。
3.目前，一般采用网络模型进行诊断结果预测，但是网络模型的预测结果和得到预测结果的理由使用户难以理解，并且用户难以对预测结果的标准进行评价。有鉴于此，如何提高置信预测的准确性成为亟待解决的问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种置信预测方法和诊断推荐方法及装置、设备和介质，能够提高置信预测的准确性。
5.为了解决上述技术问题，本技术第一方面提供了一种置信预测方法，包括：基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征，且描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到；再基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和各候选文本特征进行第二预测，得到第二分值；基于第一分值和第二分值，融合得到描述文本的置信分值，且置信分值表征描述文本作为参考以诊断病历文本的可信程度。
6.为了解决上述技术问题，本技术第二方面提供了一种诊断推荐方法，包括：获取病历文本和各候选疾病的知识库，且候选疾病的知识库包括候选疾病的若干描述文本；再基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值，且置信分值基于上述第一方面中的置信预测方法预测得到；并基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断。
7.为了解决上述技术问题，本技术第三方面提供了一种置信预测装置，包括编码模块、预测模块和融合模块；其中，编码模块用于基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征，且描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到；预测模块用于基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和各候选文本特征进行第二预测，得到第二分值；融合模块用于基于第一分值和第二分值，融合得到描述文本的置信分值，且置信分值表征描述文本作为参考以诊断病历文本的可信程度。
8.为了解决上述技术问题，本技术第四方面提供了一种诊断推荐装置，包括获取模
块、预测模块和选择模块；其中，获取模块用于获取病历文本和各候选疾病的知识库，且候选疾病的知识库包括候选疾病的若干描述文本；预测模块用于基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值，且置信分值基于上述第三方面中的置信预测装置预测得到；选择模块用于基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断。
9.为了解决上述技术问题，本技术第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的置信预测方法，或上述第二方面中的诊断推荐方法。
10.为了解决上述技术问题，本技术第六方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的置信预测方法，或上述第二方面中的诊断推荐方法。
11.上述方案，通过基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征，且描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到；再基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和各候选文本特征进行第二预测，得到第二分值；在此基础上，基于第一分值和第二分值，融合得到描述文本的置信分值，且置信分值表征描述文本作为参考以诊断病历文本的可信程度，一方面通过对描述文本和病历文本分别进行编码，并基于编码结果分别进行不同级别的预测，即基于描述文本特征和病历文本特征进行第一预测，并基于各子文本特征和各候选文本特征进行第二预测，对应得到第一分值和第二分值，有助于提高对描述文本和病历文本的预测结果准确率；另一方面通过对第一分值和第二分值融合进而得到描述文本的置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度。故此，能够提高置信预测的准确性。此外，通过准确预测候选疾病其描述文本作为参考以诊断病历文本的置信分值，也有利于在后续诊断推荐过程中，提升诊断推荐的可解释性。
12.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本技术。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本技术的实施例，并与说明书一起用于说明本技术的技术方案。
14.图1是本技术置信预测方法一实施例的流程示意图；
15.图2是本技术置信预测方法一实施例的框架示意图；
16.图3是本技术诊断推荐方法一实施例的流程示意图；
17.图4是本技术置信预测装置一实施例的框架示意图；
18.图5是本技术诊断推荐装置一实施例的框架示意图；
19.图6是本技术电子设备一实施例的框架示意图；
20.图7是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.下面结合说明书附图，对本技术实施例的方案进行详细说明。
22.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
23.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括a、b、c中的至少一种，可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。“若干”表示至少一个。本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
24.请参阅图1，图1是本技术置信预测方法一实施例的流程示意图。
25.具体而言，可以包括如下步骤：
26.步骤s11：基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征。
27.本公开实施例中，描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到，且各时间步对病历文本编码得到的候选文本特征均包含之前候选文本特征的信息。示例性地，在若干时间步分别对病历文本编码得到的候选文本特征为(x1,x2,
…
,xn)，则x2包含x1的文本特征信息，xn包含(x1,x2,
…
,x
n-1
)的文本特征信息。
28.在一个实施场景中，在对候选疾病的描述文本进行编码之前，可以先获取候选疾病的描述文本，候选疾病的描述文本可以基于医学指南获取，也可以是通过外部知识图谱获取，当然，还可以通过医学书本或样本病历文本获取。候选疾病的描述文本可以根据实际情况进行确定，在此不做具体限定。此外，候选疾病可以对应多个描述文本，示例性地，候选疾病为急性胆囊炎，对应的描述文本可以包括：急性胆囊炎是一种常见的急性消化道疾病，常由胆囊管梗阻和细菌感染引起，常伴有上腹部疼痛、恶心、呕吐等症状，还可以包括：急性胆囊炎是由于胆囊管阻塞和细菌侵袭而引起的胆囊炎症；其典型临床特征为右上腹阵发性绞痛，伴有明显的触痛和腹肌强直。候选疾病的描述文本的数量可以根据实际情况进行确定，在此不做具体限定。
29.在一个实施场景中，基于候选疾病的描述文本进行编码，得到描述文本特征，具体地，可以先对描述文本进行划分，得到若干子文本，再基于若干子文本进行编码，得到若干子文本的子文本特征，并进一步对若干子文本特征进行融合，得到描述文本特征。
30.在一个实施场景中，为了获取子文本特征，可以基于预设长度对描述文本进行划分，得到若干子文本，再基于若干子文本进行编码，得到若干子文本对应的字符编码特征，将子文本对应的字符编码特征直接确定为子文本特征。预设长度可以设置为4字符、5字符、10字符等，预设长度可以根据实际情况进行确定，在此不做具体限定。
31.在另一个实施场景中，为了进一步提高子文本特征的准确性，可以先基于描述文本进行编码，得到描述文本中各字符的字符编码特征，示例性地，候选疾病为急性胆囊炎，对应的描述文本包括两条，一是急性胆囊炎是一种常见的急性消化道疾病，常由胆囊管梗
阻和细菌感染引起，常伴有上腹部疼痛、恶心、呕吐等症状，二是急性胆囊炎是由于胆囊管阻塞和细菌侵袭而引起的胆囊炎症；其典型临床特征为右上腹阵发性绞痛，伴有明显的触痛和腹肌强直。可以先基于预训练好的bert系列模型，如xlnet、span bert等网络模型对描述文本进行编码，得到描述文本中各字符的字符编码特征，具体可以表示为：
32.g
′m＝bert(gm)
33.g
′m＝(g
′
m，1
，g
′
m，2
，...，g
′
m，m
)
34.gm＝(g
m，1
，g
m，2
，...，g
m，m
)
35.其中，m表示描述文本数量，m表示描述文本的长度，此时，输入急性胆囊炎的两条描述文本，则输入维度为[2，m]，gm表示第m条描述文本的文本内容，g
′m表示对描述文本进行编码之后，得到的字符编码特征，则对应维度为[2，m，q]，q为当前模型的维度，g
m，m
表示第m条描述文本中第m字符，g
′
m，m
表示第m条描述文本中第m字符的字符编码特征。此外，还基于预设滑窗在描述文本进行划分，得到若干子文本，并基于子文本中字符的字符编码特征进行特征提取，得到子文本的子文本特征，在此过程中，可以利用深度学习网络对描述文本进行划分，并基于子文本中字符的字符编码特征进行特征提取，深度学习网络包括但不限于cnn(convolution neural network，卷积神经网络)、rnn(recurrent neural network，循环神经网络)。具体可以表示如下：
[0036]cm，i
＝w
·g′
m，i：i h-1
b
[0037]
其中，深度学习网络通过一个卷积矩阵w来完成且w∈ru×
(h
×
q)
，u表示卷积核个数，h表示滑动窗口的长度，q是字符编码特征的维度，通过卷积矩阵对若干子文本的字符编码特征进行提取，得到卷积表示c
m，i
，即子文本的子文本特征，且c
m，i
∈rm×u，u表示卷积核个数，m表示描述文本的长度，每个滑窗输出的向量维度为[h，q]，g
′
m，i：i h-1
表示第i个滑动窗口下的子文本中各字符的字符编码特征，m表示描述文本的数量，b∈ru是偏置向量，u表示卷积核个数。上述方式，通过对描述文本进行编码，获取描述文本中各字符的字符编码特征，进而学习到描述文本的语义信息，并基于预设滑窗在描述文本进行划分，可以自主的控制子文本的长度，在此基础上，对子文本中字符的字符编码特征进行特征提取，确定子文本的子文本特征，进一步提高子文本特征的准确性。
[0038]
在一个具体实施场景中，可以直接将若干子文本特征进行拼接，得到描述文本特征。
[0039]
在另一个具体实施场景中，为了提高描述文本特征的准确性，可以基于若干子文本的子文本特征进行自注意力处理，得到各子文本特征的第二权重，具体可以通过一层多头注意力机制学习cnn每个滑动窗口之间的注意力信息，可以计算如下：
[0040][0041]
其中，α
mi
表示第m条描述文本中第i个预设滑窗中子文本对应的第二权重，表示各子文本特征的第二权重之和，wa表示线性变换过程。在得到各子文本特征的第二权重之后，基于各子文本特征的第二权重分别对各子文本特征进行加权，得到描述文本特征，具体计算如下：
[0042][0043]
其中，α
mi
表示第m条描述文本中第i个预设滑窗中子文本对应的第二权重，c
m，i
表示第m条描述文本中第i个预设滑窗中子文本的子文本特征，am表示第m条描述文本的描述文本特征。上述方式，通过对若干子文本的子文本特征进行自注意力处理，进一步获取若干子文本特征之间的关联性，再对各子文本特征进行加权，进而可以使各子文本之间的关联性更强，尽可能地提高通过各子文本进行融合得到的描述文本特征的准确性。
[0044]
在一个实施场景中，基于病历文本进行编码，得到病历文本特征，具体地，可以在若干时间步分别对病历文本编码得到候选文本特征，并基于候选文本特征进行选择得到病历文本特征。此外，病历文本特征可以包含患者病情的自述、患者就诊检查检验记录和报告单以及医生对患者病情的描述和治疗等，即病历文本可以是对患者就诊过程中产生的所有基本信息的详细记录。
[0045]
在一个具体实施场景中，可以先基于预训练好的bert系列模型，如xlnet、span bert等网络模型对病历文本进行编码，得到病历文本中各字符的字符编码特征，并通过神经网络模型对各字符的字符编码特征进行处理，得到病历文本特征，神经网络模型可以包括但不限于lstm、gru(gate recurrent unit，循环神经网络)等。具体计算如下：
[0046]
t＝lstm(bert(x1，x2，...，xn))
[0047]
其中，(x1，x2，...，xn)表示病历文本序列，xi表示病历文本中第i个字符，且i不大于n，n为病历文本中字符数，t包含若干时间步分别对病历文本编码得到的候选文本特征，且t可以进一步表示为：
[0048]
t＝(t1，t2，...，tn)∈rn×q[0049]
其中，ti表示第i个时间步对病历文本编码得到的候选文本特征，且i不大于n，n为病历文本中字符数，q为候选文本特征的维度。需要说明的是，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到。示例性地，患者信息包括主诉：阵发性右上腹痛伴恶心呕吐1天；疾病史：阵发性右上腹痛伴恶心呕吐1天，不发热，无腹泻；检查：高压135mmhg，低压85mmhg，胆囊区压痛等，将患者信息中主诉、疾病史、检查直接拼接，得到病历文本，将病历文本输入bert模型中，得到病历文本各字符的字符编码特征，再将各字符的字符编码特征输入lstm进行处理，得到若干时间步分别对病历文本进行编码得到的候选文本特征，且病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到。
[0050]
步骤s12：基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和各候选文本特征进行第二预测，得到第二分值。
[0051]
在一个实施场景中，在基于描述文本特征和病历文本特征进行第一预测，得到第一分值之前，还要确定病历文本特征。需要说明的是，由于病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到，因此，病历文本特征可以选择任意时间步对病历文本编码得到的候选文本特征，当然，为了包含所有病历文本信息，可以选择最后一个时间步对病历文本编码得到的候选文本特征作为病历文本特征。病历文本特征可以根据实际情况进行选择，在此不做具体限定。
[0052]
在一个具体实施场景中，为了得到第一分值，可以将描述文本特征和病历文本特
征组合成复合特征，进而通过复合特征进行映射，即将复合特征映射至[0，1]之间，并复合特征映射结果直接确定为第一分值。
[0053]
在另一个具体实施场景中，还可以通过将描述文本特征和病历文本特征进行拼接，进而得到第一融合特征，示例性地，可以将描述文本特征和病历文本特征输入到一层transformer block中得到第一融合特征，具体计算如下：
[0054]zs
＝transformer(concat(t，am))
[0055]
其中，concat表示向量拼接操作，t为病历文本特征，am为描述文本特征，zs为第一融合特征，此时，第一融合特征的维度为[1，2q]，[1，q]表示病历文本特征的维度。在得到第一融合特征之后，可以基于第一融合特征进行映射，得到第一分值，示例性地，可以通过sigmoid函数对第一融合特征进行映射，具体计算如下：
[0056]
s1＝sigmoid(zsw1)
[0057]
其中，s1表示第一分值，zs表示第一融合特征，w1表示线性变换的权重矩阵，其维度为[2q，1]。上述方式，通过对描述文本特征和病历文本特征进行融合，得到第一融合特征，提高文本特征融合的简单性和高效性，进一步提高置信预测的效率。
[0058]
在一个实施场景中，为了得到第二分值，可以将各子文本特征和各候选文本特征直接拼接，得到拼接特征，再基于拼接特征进行池化处理，最后对池化处理得到的文本特征进行映射，得到第二分值。
[0059]
在另一个实施场景中，为了进一步提高第二分值的准确性，可以先基于各子文本特征和各候选文本特征进行相关度量，得到度量结果。示例性地，可以通过cross-attention层对各子文本特征和各候选文本特征两者之间进行相关度量，具体计算如下：
[0060][0061]
其中，s
ij
为度量结果，具体表示第i个候选文本特征和第j个子文本特征之间的度量结果，tanh表示双曲正切计算，w2表示线性变换的权重矩阵。需要说明的是，度量结果包括子文本特征和候选文本特征之间的相关度。在得到度量结果之后，可以基于度量结果将各子文本特征进行融合，得到与若干时间步分别对应的第二融合特征，再基于与若干时间步分别对应的第二融合特征进行映射，得到第二分值。上述方式，通过计算各子文本特征和各候选文本特征进行相关度量，进而确定子文本特征和候选文本特征之间的相关度，再对各子文本特征进行融合，并进一步对融合结果进行映射，进而提高第二分值的准确性。
[0062]
在一个具体实施场景中，可以对于各时间步，将时间步对应的候选文本特征分别与各子文本特征之间的相关度进行归一化，得到时间步下各子文本特征的第一权重。示例性地，可以获取各子文本特征和各候选文本特征之间的度量结果，并对所有度量结果进行融合得到融合度量结果，再基于各度量结果与融合度量结果之间的比值，确定第一权重，具体如下：
[0063][0064]
其中，α
ij
为第一权重，即表示第i个候选文本特征和第j个子文本特征之间进行归一化处理，得到的第一权重，m表示子文本的长度。在得到时间步对应的候选文本特征分别与各子文本特征之间第一权重之后，利用时间步下各子文本特征的第一权重分别对各子文
本特征进行加权，得到与时间步对应的第二融合特征，计算如下：
[0065][0066]
其中，pi表示第i个时间步对应的第二融合特征，α
ij
表示第一权重，c
m，j
表示第m条描述文本对应的第j个子文本的子文本特征，m为子文本的数量。上述方式，通过将候选文本特征分别与各子文本特征之间的相关度进行归一化处理，进而提高第一权重的计算效率，进一步提高第二融合特征的获取速率，最终提高置信预测的实施效率。
[0067]
在一个具体实施场景中，对若干时间步分别对应的第二融合特征进行池化处理之前，可以先通过神经网络模型对若干时间步分别对应的第二融合特征进行处理，神经网络模型可以包括但不限于lstm、gru等。通过神经网路模型可以学习到各候选文本特征对各子文本特征的相关性，得到相关特征，具体计算如下：
[0068]
p
′
＝lstm(p)
[0069]
p
′
＝(p
′1，p
′2，...，p
′n)
[0070]
p＝(p1，p2，...，pn)
[0071]
其中，p
′
表示相关特征，p表示各时间步分别对应的第二融合特征，n表示p的长度。在得到相关特征之后，基于与若干时间步分别对应的第二融合特征进行池化处理，得到池化文本特征，并基于池化文本特征进行映射，得到第二分值。示例性地，可以通过最大池化的方式将相关特征进行降采样处理，并对降采样处理的结果进行sigmoid映射，具体表示如下：
[0072]
s2＝sigmoid(maxpooling(p
′
))
[0073]
其中，s2表示第二分值，maxpooling表示最大池化处理，p
′
表示相关特征。上述方式，通过基于若干时间步分别对应的第二融合特征进行池化处理，能够尽可能地减少计算量，进而提高获取第二分值的简单性和高效性，进一步提高置信预测的效率和准确性。
[0074]
步骤s13：基于第一分值和第二分值，融合得到描述文本的置信分值。
[0075]
本公开实施例中，置信分值表征描述文本作为参考以诊断病历文本的可信程度，即置信分值越高，则描述文本作为参考以诊断病历文本的可信程度越高。
[0076]
在一个实施场景中，可以对s1和s2进行平均，进而得到描述文本的置信分值，也可以对s1和s2进行加权求和处理，进而将加权求和处理结果作为置信分值，具体表达式如下：
[0077]
s＝λs1 (1-λ)s2[0078]
其中，s表示置信分值，s1表示第一分值，s2表示第二分值，λ为加权系数，加权系数可以根据测试得到，也可以根据实际情况进行设置，在此不做具体限定。进一步地，通过描述文本的置信分值表征描述文本作为参考以诊断病历文本的可信程度，示例性地，候选疾病为肺炎，对应描述文本为肺炎首发症状为呼吸急促及呼吸困难，或有意识障碍、嗜睡、脱水、食欲减退等，该描述文本对应的置信分值为0.8，则描述文本作为参考以诊断病历文本的可信程度可以为80％。
[0079]
上述方案，通过基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征，且描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码
得到的候选文本特征选择得到；再基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和各候选文本特征进行第二预测，得到第二分值；在此基础上，基于第一分值和第二分值，融合得到描述文本的置信分值，且置信分值表征描述文本作为参考以诊断病历文本的可信程度，一方面通过对描述文本和病历文本分别进行编码，并基于编码结果分别进行不同级别的预测，即基于描述文本特征和病历文本特征进行第一预测，并基于各子文本特征和各候选文本特征进行第二预测，对应得到第一分值和第二分值，有助于提高对描述文本和病历文本的预测结果准确率；另一方面通过对第一分值和第二分值融合进而得到描述文本的置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度。故此，能够提高置信预测的准确性。此外，通过准确预测候选疾病其描述文本作为参考以诊断病历文本的置信分值，也有利于在后续诊断推荐过程中，提升诊断推荐的可解释性。
[0080]
请参阅图2，图2是本技术置信预测方法一实施例的框架示意图，先获取候选疾病的描述文本和病历文本，然后对病历文本和描述文本进行编码，分别得到病历文本和描述文本中各字符的字符编码特征，示例性地，可以使用bert模型得到各字符的字符编码特征。在此基础上，将各字符的字符编码特征输入rnn或lstm网络中，得到在若干时间步候选文本特征，表示为tn(n＝1,2,...n)，n为病历文本的长度，且可以在若干时间步分别对病历文本编码得到的候选文本特征选择得到病历文本特征，表示为t；并将描述文本中各字符的字符编码特征输入cnn网络中进行处理，在此过程中，通过卷积矩阵对描述文本中各字符的字符编码特征进行卷积运算，得到子文本的子文本特征c
m,m
，m可以用于表征描述文本的位置信息，m表示描述文本的字符数量，再通过多头注意力层，将若干子文本特征进行融合，得到描述文本特征am。进一步地，将描述文本特征am和病历文本特征tn进行拼接(tn为最后一时间步的候选文本特征)，然后基于拼接结果进行sigmoid函数映射，得到第一分值s1，并通过注意力层对各子文本特征和各候选文本特征进行处理，得到各时间步对应的第二融合特征，具体地，通过cross-attention层获取各子文本特征和各候选文本特征之间的注意力相关性，再计算病例文本序列对每个滑动窗口下的描述文本的注意力得分，再通过对注意力得分加权求和得到各时间步对应的第二融合特征，再通过最大池化层对各时间步对应的第二融合特征进行聚合压缩，并经过sigmoid函数进行映射，得到第二分值s2。最后，将第一分值和第二分值进行融合，得到置信分值s，再根据置信分值与预设阈值进行比较，若置信分值大于预设阈值，则描述文本作为参考以诊断病历文本的可信程度越高，并且可以进一步将置信分值大于预设阈值所对应的描述文本输出，作为参考以诊断病历文本。
[0081]
上述方案，通过基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征，且描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到；再基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和各候选文本特征进行第二预测，得到第二分值；在此基础上，基于第一分值和第二分值，融合得到描述文本的置信分值，且置信分值表征描述文本作为参考以诊断病历文本的可信程度，一方面通过对描述文本和病历文本分别进行编码，并基于编码结果分别进行不同级别的预测，即基于描述文本特征和病历文本特征进行第一预测，并基于各子文本特征和各候选文本特征进行第二预测，对应得到第一分值和第二分值，
有助于提高对描述文本和病历文本的预测结果准确率；另一方面通过对第一分值和第二分值融合进而得到描述文本的置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度。故此，能够提高置信预测的准确性。此外，通过准确预测候选疾病其描述文本作为参考以诊断病历文本的置信分值，也有利于在后续诊断推荐过程中，提升诊断推荐的可解释性。
[0082]
请参阅图3，图3是本技术诊断推荐方法一实施例的框架示意图。
[0083]
具体而言，可以包括如下步骤：
[0084]
步骤s31：获取病历文本和各候选疾病的知识库。
[0085]
在一个实施场景中，病历文本的获取方式可以参照前述公开实施例中病历文本的获取方式，在此不再赘述。
[0086]
在一个实施场景中，候选疾病的知识库包括候选疾病的若干描述文本，描述文本的获取方式可以参照前述公开实施例中描述文本的获取方式，在此不再赘述。
[0087]
步骤s32：基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值。
[0088]
在一个实施场景中，置信分值的获取方式可以参照前述公开实施例中描述文本的置信分值的获取方式，在此不再赘述。
[0089]
步骤s33：基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断。
[0090]
在一个实施场景中，基于各描述文本的置信分值，选择最高置信分值对应的候选疾病，作为病历文本的推荐诊断。示例性地，候选疾病为肺炎，对应描述文本的置信分值为0.8，候选疾病为急性胆囊炎，对应描述文本的置信分值为0.9，则选择急性胆囊炎作为病历文本的推荐诊断。
[0091]
在另一个实施场景中，将置信分值不低于预设阈值的描述文本，作为目标文本，并基于各目标文本分别对应的候选疾病进行统计，确定病历文本的推荐诊断。预设阈值可以设置为0.8、0.9等，预设阈值可以根据实际情况进行确定，在此不做具体限定。示例性地，预设阈值为0.85，描述文本包括五条，一是肺炎首发症状为呼吸急促及呼吸困难，或有意识障碍、嗜睡、脱水、食欲减退等，候选疾病为肺炎，对应的置信分值为0.8；二是肺炎(pneumonia)是一种影响肺部的急性呼吸道感染，当健康的人呼吸时会充满空气。患肺炎时，肺泡充满了脓和液体，使呼吸产生疼痛并限制吸氧量，候选疾病为肺炎，对应的置信分值为0.9；三是肺炎通常是受到病毒或细菌感染而引发的，偶尔会由其他微生物感染引起，另外药品影响或者是自体免疫性疾病也会造成肺炎，候选疾病为肺炎，对应的置信分值为0.8；四是急性胆囊炎是一种常见的急性消化道疾病，常由胆囊管梗阻和细菌感染引起，常伴有上腹部疼痛、恶心、呕吐等症状，候选疾病为急性胆囊炎，对应的置信分值为0.95；五是急性胆囊炎是由于胆囊管阻塞和细菌侵袭而引起的胆囊炎症；其典型临床特征为右上腹阵发性绞痛，伴有明显的触痛和腹肌强直，候选疾病为急性胆囊炎，对应的置信分值为0.9。进一步地，将各描述文本的置信分值与预设阈值进行比较，得到目标文本，目标文本包括三条，一是肺炎(pneumonia)是一种影响肺部的急性呼吸道感染，当健康的人呼吸时会充满空气。患肺炎时，肺泡充满了脓和液体，使呼吸产生疼痛并限制吸氧量，候选疾病为肺炎，对应的置信分值为0.9；二是急性胆囊炎是一种常见的急性消化道疾病，常由胆囊管梗阻和细菌
感染引起，常伴有上腹部疼痛、恶心、呕吐等症状，候选疾病为急性胆囊炎，对应的置信分值为0.95；三是急性胆囊炎是由于胆囊管阻塞和细菌侵袭而引起的胆囊炎症；其典型临床特征为右上腹阵发性绞痛，伴有明显的触痛和腹肌强直，候选疾病为急性胆囊炎，对应的置信分值为0.9。因此，经过计算可确定候选疾病为急性胆囊炎对应的目标文本数量为2，候选疾病为肺炎对应的目标文本数量为1，因而确定急性胆囊炎为病历文本的推荐诊断。
[0092]
上述方案，通过获取病历文本和各候选疾病的知识库，且候选疾病的知识库包括候选疾病的若干描述文本；并基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值；在此基础上，基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断，一方面通过疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值，在此过程中，通过置信预测方法预测得到置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度，因此，能够提高置信预测的准确性，另一方面基于各描述文本的置信分值，确定病历文本的诊断推荐，即在提高置信预测准确性的基础上，进一步提高诊断推荐的准确率。
[0093]
在一个实施场景中，可以通过诊断推荐模型确定病历文本的推荐诊断，诊断推荐模型包括获取网络，预测网络和选择网络，获取网络可以获取病历文本和各候选疾病的知识库，且候选疾病的知识库包括候选疾病的若干描述文本，预测网络基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值；选择网络基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断。需要说明的是，在使用诊断推荐模型之前，先对诊断推荐模型进行训练，先获取样本病历文本和样本候选疾病的知识库，且样本病历文本标注有表征样本病历文本标注的诊断结果，然后基于诊断推荐模型预测得到样本病历文本的推荐诊断，基于样本病历文本的标注信息和预测得到样本病历文本的推荐诊断，调整诊断推荐模型的网络参数。
[0094]
上述方案，通过获取病历文本和各候选疾病的知识库，且候选疾病的知识库包括候选疾病的若干描述文本；并基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值；在此基础上，基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断，一方面通过疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值，在此过程中，通过置信预测方法预测得到置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度，因此，能够提高置信预测的准确性，另一方面基于各描述文本的置信分值，确定病历文本的诊断推荐，即在提高置信预测准确性的基础上，进一步提高诊断推荐的准确率。
[0095]
本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0096]
请参阅图4，图4是本技术置信预测装置一实施例的框架示意图。置信预测装置40包括编码模块41、预测模块42和融合模块43。其中，编码模块41用于基于候选疾病的描述文本进行编码，得到描述文本特征，并基于病历文本进行编码，得到病历文本特征，且描述文本特征由若干子文本的子文本特征融合得到，若干子文本从描述文本划分得到，病历文本特征从在若干时间步分别对病历文本编码得到的候选文本特征选择得到；预测模块42用于基于描述文本特征和病历文本特征进行第一预测，得到第一分值，并基于各子文本特征和
各候选文本特征进行第二预测，得到第二分值；融合模块43用于基于第一分值和第二分值，融合得到描述文本的置信分值，且置信分值表征描述文本作为参考以诊断病历文本的可信程度。
[0097]
上述方案，一方面通过对描述文本和病历文本分别进行编码，并基于编码结果分别进行不同级别的预测，即基于描述文本特征和病历文本特征进行第一预测，并基于各子文本特征和各候选文本特征进行第二预测，对应得到第一分值和第二分值，有助于提高对描述文本和病历文本的预测结果准确率；另一方面通过对第一分值和第二分值融合进而得到描述文本的置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度。故此，能够提高置信预测的准确性。此外，通过准确预测候选疾病其描述文本作为参考以诊断病历文本的置信分值，也有利于在后续诊断推荐过程中，提升诊断推荐的可解释性。
[0098]
在一些公开实施例中，预测模块42包括第一融合子模块，第一融合子模块用于基于描述文本特征和病历文本特征进行融合，得到第一融合特征；预测模块42还包括第一映射子模块，第一映射子模块用于基于第一融合特征进行映射，得到第一分值。
[0099]
因此，通过对描述文本特征和病历文本特征进行融合，得到第一融合特征，提高文本特征融合的简单性和高效性，进一步提高置信预测的效率。
[0100]
在一些公开实施例中，预测模块42包括相关度量子模块，相关度量子模块用于基于各子文本特征和各候选文本特征进行相关度量，得到度量结果，且度量结果包括子文本特征和候选文本特征之间的相关度；预测模块42包括第二融合子模块，第二融合子模块用于基于度量结果将各子文本特征进行融合，得到与若干时间步分别对应的第二融合特征；预测模块42还包括第二映射子模块，第二映射子模块用于基于与若干时间步分别对应的第二融合特征进行映射，得到第二分值。
[0101]
因此，通过计算各子文本特征和各候选文本特征进行相关度量，进而确定子文本特征和候选文本特征之间的相关度，再对各子文本特征进行融合，并进一步对融合结果进行映射，进而提高第二分值的准确性。
[0102]
在一些公开实施例中，第二融合子模块包括加权单元，加权单元用于对于各时间步，将时间步对应的候选文本特征分别与各子文本特征之间的相关度进行归一化，得到时间步下各子文本特征的第一权重，并利用时间步下各子文本特征的第一权重分别对各子文本特征进行加权，得到与时间步对应的第二融合特征。
[0103]
因此，通过将候选文本特征分别与各子文本特征之间的相关度进行归一化处理，进而提高第一权重的计算效率，进一步提高第二融合特征的获取速率，最终提高置信预测的实施效率。
[0104]
在一些公开实施例中，第二映射子模块包括池化单元，池化单元用于基于与若干时间步分别对应的第二融合特征进行池化处理，得到池化文本特征；第二映射子模块还包括映射单元，映射单元用于基于池化文本特征进行映射，得到第二分值。
[0105]
因此，通过基于若干时间步分别对应的第二融合特征进行池化处理，能够尽可能地减少计算量，进而提高获取第二分值的简单性和高效性，进一步提高置信预测的效率和准确性。
[0106]
在一些公开实施例中，编码模块41包括编码子模块，编码子模块用于基于描述文
本进行编码，得到描述文本中各字符的字符编码特征，并基于预设滑窗在描述文本进行划分，得到若干子文本；编码模块41还包括提取子模块，提取子模块用于基于子文本中字符的字符编码特征进行特征提取，得到子文本的子文本特征。
[0107]
因此，通过对描述文本进行编码，获取描述文本中各字符的字符编码特征，进而学习到描述文本的语义信息，并基于预设滑窗在描述文本进行划分，可以自主的控制子文本的长度，在此基础上，对子文本中字符的字符编码特征进行特征提取，确定子文本的子文本特征，进一步提高子文本特征的准确性。
[0108]
在一些公开实施例中，编码模块41包括处理子模块，处理子模块用于基于若干子文本的子文本特征进行自注意力处理，得到各子文本特征的第二权重；编码模块41还包括加权子模块，加权子模块用于基于各子文本特征的第二权重分别对各子文本特征进行加权，得到描述文本特征。
[0109]
因此，通过对若干子文本的子文本特征进行自注意力处理，进一步获取若干子文本特征之间的关联性，再对各子文本特征进行加权，进而可以使各子文本之间的关联性更强，尽可能地提高通过各子文本进行融合得到的描述文本特征的准确性。
[0110]
请参阅图5，图5是本技术诊断推荐装置一实施例的框架示意图。诊断推荐装置50包括获取模块51、预测模块52和选择模块53。其中，获取模块51用于获取病历文本和各候选疾病的知识库，且候选疾病的知识库包括候选疾病的若干描述文本；预测模块52用于基于疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值，且置信分值基于前述的置信预测装置预测得到；选择模块53用于基于各描述文本的置信分值，选择至少一个候选疾病作为病历文本的推荐诊断。
[0111]
上述方案，一方面通过疾病文本分别与各描述文本进行相关预测，得到各描述文本的置信分值，在此过程中，通过置信预测方法预测得到置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度，因此，能够提高置信预测的准确性，另一方面基于各描述文本的置信分值，确定病历文本的诊断推荐，即在提高置信预测准确性的基础上，进一步提高诊断推荐的准确率。
[0112]
在一些公开实施例中，选择模块53包括选择子模块，选择子模块用于基于各描述文本的置信分值，选择最高置信分值对应的候选疾病，作为病历文本的推荐诊断；选择模块53还包括确定子模块，确定子模块用于将置信分值不低于预设阈值的描述文本，作为目标文本，并基于各目标文本分别对应的候选疾病进行统计，确定病历文本的推荐诊断。
[0113]
请参阅图6，图6是本技术电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，存储器61中存储有程序指令，处理器62用于执行程序指令以实现上述任一置信预测方法实施例中的步骤，或任一诊断推荐方法实施例中的步骤。具体地，电子设备60可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
[0114]
具体而言，处理器62用于控制其自身以及存储器61以实现上述任一置信预测方法实施例中的步骤，或任一诊断推荐方法实施例中的步骤。处理器62还可以称为cpu(central processing unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列
(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。
[0115]
上述方案，一方面通过对描述文本和病历文本分别进行编码，并基于编码结果分别进行不同级别的预测，即基于描述文本特征和病历文本特征进行第一预测，并基于各子文本特征和各候选文本特征进行第二预测，对应得到第一分值和第二分值，有助于提高对描述文本和病历文本的预测结果准确率；另一方面通过对第一分值和第二分值融合进而得到描述文本的置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度。故此，能够提高置信预测的准确性。此外，通过准确预测候选疾病其描述文本作为参考以诊断病历文本的置信分值，也有利于在后续诊断推荐过程中，提升诊断推荐的可解释性。
[0116]
请参阅图7，图7是本技术计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令71，程序指令71用于实现上述任一置信预测方法实施例中的步骤，或任一诊断推荐方法实施例中的步骤。
[0117]
上述方案，一方面通过对描述文本和病历文本分别进行编码，并基于编码结果分别进行不同级别的预测，即基于描述文本特征和病历文本特征进行第一预测，并基于各子文本特征和各候选文本特征进行第二预测，对应得到第一分值和第二分值，有助于提高对描述文本和病历文本的预测结果准确率；另一方面通过对第一分值和第二分值融合进而得到描述文本的置信分值，有助于提高置信分值的准确性，而置信分值表征描述文本作为参考以诊断病历文本的可信程度。故此，能够提高置信预测的准确性。此外，通过准确预测候选疾病其描述文本作为参考以诊断病历文本的置信分值，也有利于在后续诊断推荐过程中，提升诊断推荐的可解释性。
[0118]
在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
[0119]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
[0120]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
[0121]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0122]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0123]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0124]
若本技术技术方案涉及个人信息，应用本技术技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本技术技术方案涉及敏感个人信息，应用本技术技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种简易的ICU收治患者评估工具及使用方法与流程

置信预测方法和诊断推荐方法及装置、设备和介质与流程

相关文献

最热文献