基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置

2023-09-23 15:33:49 来源：中国专利 TAG：

1.本技术涉及数据补全技术领域，尤其涉及一种基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置。

背景技术：

2.多模态数据是医疗领域中常见的数据类型，包括但不限于图像、文本、音频、表格等模态。由于医疗数据收集设备故障，数据收集外界环境不稳定，数据隐私保护等原因，多模态医疗数据中存在着大量的缺失值，影响后续多模态智能解析的效果。针对医疗数据的缺失值进行准确且可靠的填补是解决这一问题的方法之一。
3.目前针对缺失数据补全问题，国内外学者已经做出了一些工作，但这些工作还存在局限性，例如，公开号为cn111581189a的专利，公开了“一种空气质量检测数据缺失的补全方法及补全装置”，补全效果相比于其它公开方法提高30％，但其需要为每个“源模态-目标模态”训练一个模态映射模型，导致资源消耗较大，且没有充分挖掘不同模态数据间的关联关系。本发明所提出的一种基于数据关联性挖掘的多模态医疗缺失数据补全方法，所采用的生成器模型通过设计联合自编码器挖掘数据关联性，利用已有数据的信息来预测缺失值，同时避免训练冗余映射模型。

技术实现要素：

4.鉴于此，本技术实施例提供一种基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置，以克服上述现有技术存在的问题。
5.根据本技术实施例的第一方面，提供一种基于数据关联性挖掘的多模态医疗缺失数据补全方法，包括：
6.s1：根据原始多模态医疗缺失数据，利用掩码矩阵描述其缺失情况，构建多模态数据矩阵；
7.s2：构建基于数据关联性挖掘的生成器模型，所述生成器模型由一个多模态联合自编码器和一个目标视图解码器组成，采用所述联合自编码器同时处理不同模态的数据，通过所述解码器将多模态联合特征映射到目标模态的特征空间中；
8.s3：采用掩码能量散度对抗损失函数，构建基于掩码能量的掩码能量判别器模型；
9.s4：将所述多模态数据矩阵输入到所述生成器模型中进行计算，生成目标模态数据，再计算所述目标模态数据的加权重构损失函数和掩码能量散度对抗损失函数，将这两种损失函数进行加权，更新所述生成器模型的参数；
10.s5：将所述多模态数据矩阵输入到所述判别器模型中，再次计算s4中的掩码能量散度对抗损失函数，更新所述判别器模型的参数；
11.s6：重复执行s4和s5，直至达到最大迭代次数，完成所述生成器模型和所述判别器模型的博弈优化训练过程；
12.s7：将待补全的多模态医疗缺失数据，输入到训练好的生成器模型中，进行缺失数
据补全。
13.可选的，所述基于数据关联性挖掘的生成器模型和掩码能量判别器模型均为由多种激活函数组成的深层神经网络结构。
14.可选的，将所述多模态数据矩阵输入到所述生成器模型中进行计算，生成目标模态数据，再计算所述目标模态数据的加权重构损失函数和掩码能量散度对抗损失函数，将这两种损失函数进行加权，更新所述生成器模型的参数，包括：
15.s41，采样两个不同批次样本p和q及其缺失矩阵m
p
和mq；
16.s42，将样本p及其缺失矩阵m
p
，样本q及其缺失矩阵mq输入到生成器模型g中，所述生成器模型g通过注意力机制挖掘数据模态间的关联关系，重构样本第t个模态的数据和
17.s43，根据所述数据和计算生成器模型g的损失函数lg，所述损失函数lg包括：加权重构损失函数lr和判别器模型d的掩码能量散度对抗损失函数la；
18.s44，生成器模型g通过最小化其损失函数lg进行模型训练，得到当前最优生成器模型参数。
19.可选的，所述数据和分别表示为：
[0020][0021]
可选的，所述损失函数lg表示为：
[0022]
lg＝la(p
t
,q
t
) φ
·
[lr(p
t
) lr(q
t
)](2)
[0023]
其中超参数φ用以权衡加权重构损失函数lr和掩码能量散度对抗损失函数la之间的权重。
[0024]
可选的，所述加权重构损失函数lr的计算公式为：
[0025][0026]
其中超参数φ用以权衡加权重构损失函数lr和掩码能量散度对抗损失函数la之间的权重，同理计算得到lr(q
t
)。
[0027]
可选的，所述掩码能量散度对抗损失函数la的计算公式为：
[0028][0029]
其中，b表示数据批次大小，和表示生成器模型g生成的重构矩阵p
t
和q
t
的经验度量，和表示目标模态数据矩阵p
t
和q
t
的经验度量，δ表示狄拉克分布，∈m表示经验度量上的掩码能量散度，计算方式如下所示：
[0030][0031]
其中，otm表示掩码最优传输度量，计算方式如下所示：
[0032][0033]
其中λ是超参数，其中λ是超参数，是来自于集合是来自于集合的传输计划矩阵，表示和的弗罗比尼乌斯内积，表示掩码成本矩阵，计算方式如下所示：
[0034][0035]
根据本技术实施例的第二方面，提供一种基于数据关联性挖掘的多模态医疗缺失数据补全装置，包括：
[0036]
第一构建模块，用于根据原始多模态医疗缺失数据，利用掩码矩阵描述其缺失情况，构建多模态数据矩阵；
[0037]
第二构建模块，用于构建基于数据关联性挖掘的生成器模型，所述生成器模型由一个多模态联合自编码器和一个目标视图解码器组成，采用所述联合自编码器同时处理不同模态的数据，通过所述解码器将多模态联合特征映射到目标模态的特征空间中；
[0038]
第三构建模块，用于采用掩码能量散度对抗损失函数，构建基于掩码能量的掩码能量判别器模型；
[0039]
第一计算模块，用于将所述多模态数据矩阵输入到所述生成器模型中进行计算，生成目标模态数据，再计算所述目标模态数据的加权重构损失函数和掩码能量散度对抗损失函数，将这两种损失函数进行加权，更新所述生成器模型的参数；
[0040]
第二计算模块，用于将所述多模态数据矩阵输入到所述判别器模型中，再次计算第一计算模块中的掩码能量散度对抗损失函数，更新所述判别器模型的参数；
[0041]
训练模块，用于重复执行第一计算模块和第二计算模块，直至达到最大迭代次数，完成所述生成器模型和所述判别器模型的博弈优化训练过程；
[0042]
补全模块，用于将待补全的多模态医疗缺失数据，输入到训练好的生成器模型中，进行缺失数据补全。
[0043]
根据本技术实施例的第三方面，提供一种电子设备，包括：
[0044]
一个或多个处理器；
[0045]
存储器，用于存储一个或多个程序；
[0046]
当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。
[0047]
根据本技术实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。
[0048]
本技术的实施例提供的技术方案可以包括以下有益效果：
[0049]
由上述实施例可知，本技术与现有技术相比，采用基于数据关联性挖掘的生成器模型，同时利用多个模态的可观测数据，对目标模态进行补全，克服了“源模态-目标模态”补全模式的计算冗余问题；采用基于掩码能量的掩码能量判别器模型，克服了博弈优化训练中的梯度消失问题，提升训练过程稳定性和模型数据补全效果。本发明所提出的基于数据关联性挖掘的多模态医疗缺失数据补全方法的补全精度较目前最优的公开方法提升约6.90％，且具有更低的模型复杂度，在医疗多模态智能解析领域中具有广泛的应用潜力。
[0050]
应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
[0051]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
[0052]
图1是根据一示例性实施例示出的一种基于数据关联性挖掘的多模态医疗缺失数据补全方法的流程图。
[0053]
图2是根据一示例性实施例示出的模型整体架构图。
[0054]
图3是根据一示例性实施例示出的一种基于数据关联性挖掘的多模态医疗缺失数据补全装置的框图。
具体实施方式
[0055]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
[0056]
在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0057]
应当理解，尽管在本技术可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0058]
图1是根据一示例性实施例示出的一种基于数据关联性挖掘的多模态医疗缺失数据补全方法的流程图，图2是根据一示例性实施例示出的模型整体架构图，该方法可以包括以下步骤：
[0059]
s1：根据原始多模态医疗缺失数据，利用掩码矩阵描述其缺失情况，构建多模态数
据矩阵；
[0060]
s2：构建基于数据关联性挖掘的生成器模型，所述生成器模型由一个多模态联合自编码器和一个目标视图解码器组成，采用所述联合自编码器同时处理不同模态的数据，通过所述解码器将多模态联合特征映射到目标模态的特征空间中；
[0061]
s3：采用掩码能量散度对抗损失函数，构建基于掩码能量的掩码能量判别器模型；
[0062]
s4：将所述多模态数据矩阵输入到所述生成器模型中进行计算，生成目标模态数据，再计算所述目标模态数据的加权重构损失函数和掩码能量散度对抗损失函数，将这两种损失函数进行加权，更新所述生成器模型的参数；
[0063]
s5：将所述多模态数据矩阵输入到所述判别器模型中，再次计算s4中的掩码能量散度对抗损失函数，更新所述判别器模型的参数；
[0064]
s6：重复执行s4和s5，直至达到最大迭代次数，完成所述生成器模型和所述判别器模型的博弈优化训练过程；
[0065]
s7：将待补全的多模态医疗缺失数据，输入到训练好的生成器模型中，进行缺失数据补全。
[0066]
由上述实施例可知，本技术采用基于数据关联性挖掘的生成器模型，同时利用多个模态的可观测数据，对目标模态进行补全；采用基于掩码能量的掩码能量判别器模型，与所述生成器模型结合，利用所述多模态数据矩阵执行博弈训练过程，以优化所述生成器模型的数据补全效果，并使用训练完成得到的生成器模型补全多模态医疗缺失数据。
[0067]
s1：根据原始多模态医疗缺失数据，利用掩码矩阵描述其缺失情况，构建多模态医疗缺失数据矩阵；具体地包括：
[0068]
步骤s101：获取存在数据缺失问题的多模态医疗数据矩阵x，进一步地，x具有含v个模态的n个样本：
[0069]
x＝{x1,
…
,xv}＝{x1,x2,
…
,xn} (1)
[0070]
步骤s102：根据获取的多模态医疗数据矩阵x，计算得到对应数据x中数据缺失状态的缺失矩阵m，其中若数据矩阵x的特征存在则其在缺失矩阵m中对应位置的缺失状态为1，若数据矩阵x的特征缺失则其在缺失矩阵m中对应位置的缺失状态为0。
[0071]
通过计算所述缺失矩阵m，能清晰的指明所述多模态医疗缺失数据矩阵的缺失情况，从而明确需要补全的数据部分，以及模型可以观测利用的数据部分。
[0072]
由于收集设备受干扰、存储设备故障、数据隐私问题等因素，导致多模态医疗数据的部分模态或特征出现缺失，例如，x光图像缺失或部分特征缺失，心电图信号出现缺失或部分特征缺失，呼吸音信号出现缺失或部分特征缺失。
[0073]
s2：构建基于数据关联性挖掘的生成器模型，所述生成器模型由一个多模态联合自编码器和一个目标模态解码器组成，采用所述联合自编码器同时处理不同模态的数据，通过所述解码器将多模态联合特征映射到目标模态的特征空间中；
[0074]
具体地，所述生成器模型采用的多模态联合自编码器使用不同类型的神经嵌入网络来处理不同模态数据，例如使用卷积神经网络嵌入图像数据；
[0075]
所述生成器模型采用跨模态自注意力模块挖掘不同模态数据的关联性，得到不同模态数据在同一特征空间的联合表达；
[0076]
所述生成器模型的目标模态解码器使用对应类型神经网络，例如使用转置卷积网
络重构图像数据，将所述联合表达映射到目标模态的特征空间中；
[0077]
这种设计方案能同时利用所有可观测的多模态数据进行数据挖掘，从而避免为每对“源模态-目标模态”训练不同的自编码器模型，降低了模型的复杂度。
[0078]
s3：采用掩码能量散度对抗损失函数，构建基于掩码能量的掩码能量判别器模型；
[0079]
具体地，所述判别器模型对输入的重构目标模态数据和缺失矩阵进行计算，得到掩码能量散度∈m，以便后续计算掩码能量散度对抗损失函数；
[0080]
所述掩码能量散度将可微掩码最优传输度量和无偏估计能量散度相结合，从而得到具备高度辨别能力的不完整数据分布度量，从而解决博弈优化训练过程中梯度消失的问题，提升博弈优化训练效果。
[0081]
所述基于数据关联性挖掘的生成器模型和掩码能量判别器模型均为由多种激活函数组成的深层神经网络结构。
[0082]
s4：将所述多模态医疗缺失数据矩阵输入到所述生成器模型中进行计算，生成目标模态数据，再计算所述目标模态数据的加权重构损失函数和掩码能量散度对抗损失函数，将这两种损失函数进行加权，更新所述生成器模型的参数；具体包括：
[0083]
s41，采样两个不同批次样本p和q及其缺失矩阵m
p
和mq；具体包括：
[0084]
s401：从多模态医疗缺失数据矩阵中，随机采样b个样本，构成批次样本p和描述p缺失情况的缺失矩阵m
p
；
[0085]
s402：从多模态医疗缺失数据矩阵中，随机采样b个样本，构成批次样本q和描述q缺失情况的缺失矩阵mq；
[0086]
其中，b为控制批次样本个数的超参数，缺失矩阵描述样本中不同模态数据的缺失情况，随机采样保证了模型不偏向于拟合特定的某种数据分布，从而提升模型泛化能力。
[0087]
s42，将批次样本p及其缺失矩阵m
p
，批次样本q及其缺失矩阵mq输入到生成器模型g中，所述生成器模型g通过注意力机制挖掘数据模态间的关联关系，重构样本第t个模态的数据和具体包括：
[0088]
s421：将样本批次p中的样本输入到所述生成器模型g中；
[0089]
s422：所述生成器模型g的多模态联合自编码器对不同模态数据进行嵌入，使用跨模态注意力机制挖掘不同模态数据间的关联关系；
[0090]
s423：所述生成器模型g通过目标模态解码器得到样本各模态的重构数据；
[0091]
s424：重复s421、s422和s423，直至样本批次p中的所有样本被处理，得到样本批次p的重构数据
[0092]
s425：对样本批次q执行上述步骤，得到样本批次q的重构数据
[0093]
其中所述数据和分别表示为：
[0094][0095]
s43，根据所述数据和计算生成器模型g的损失函数lg，所述损失函数lg包括：加权重构损失函数lr和判别器模型d的掩码能量散度对抗损失函数la；具体包括：
[0096]
s431：计算和p
t
之间的重构损失函数
[0097]
s432：计算和q
t
之间的重构损失函数
[0098]
s433：利用s3所述判别器模型，计算掩码能量散度对抗损失函数la；
[0099]
s433：计算所述生成器模型g的损失函数lg；
[0100]
其中所述损失函数lg表示为：
[0101]
lg＝la(p
t
,q
t
) φ
·
[lr(p
t
) lr(q
t
)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0102]
其中超参数φ用以权衡加权重构损失函数lr和掩码能量散度对抗损失函数la之间的权重。
[0103]
所述加权重构损失函数lr的计算公式为：
[0104][0105]
其中超参数φ用以权衡加权重构损失函数lr和掩码能量散度对抗损失函数la之间的权重，同理计算得到lr(q
t
)；
[0106]
所述掩码能量散度对抗损失函数la的计算公式为：
[0107][0108]
其中，b表示数据批次大小，和表示生成器模型g生成的重构矩阵p
t
和q
t
的经验度量，和表示目标模态数据矩阵p
t
和q
t
的经验度量，δ表示狄拉克分布，∈m表示经验度量上的掩码能量散度，计算方式如下所示：
[0109][0110]
其中，otm表示掩码最优传输度量，计算方式如下所示：
[0111][0112]
其中λ是超参数，其中λ是超参数，是来自于集合是来自于集合的传输计划矩阵，表示和的弗罗比尼乌斯内积，表示掩码成本矩阵，计算方式如下所示：
[0113][0114]
所述重构损失函数促进生成器模型得到的重构多模态数据与原始多模态数据之间的分布具有一致性；所述掩码能量散度对抗损失函数用于判别生成器模型得到的重构多模态数据的质量；二者加权取和，能促进生成器模型挖掘不同模态数据的关联关系，并生成
高质量的重构数据。
[0115]
s44，生成器模型g通过最小化其损失函数lg进行模型训练，得到当前最优生成器模型参数；具体包括：
[0116]
s441：固定判别器模型d的模型参数；
[0117]
s442：以最小化所述损失函数lg为目标，更新生成器模型g的模型参数。
[0118]
s5：将所述多模态数据矩阵输入到所述判别器模型中，再次计算s4中的掩码能量散度对抗损失函数，更新所述判别器模型的参数；具体包括：
[0119]
s51：固定生成器模型g的模型参数；
[0120]
s52：将所述多模态数据矩阵输入到所述判别器模型g中，计算s4中的掩码能量散度对抗损失函数；
[0121]
s53：以最小化所述掩码能量散度对抗损失函数为目标，更新判别器模型d的模型参数。
[0122]
s6：重复执行s4和s5，直至达到最大迭代次数，完成所述生成器模型和所述判别器模型的博弈优化训练过程；具体包括：
[0123]
s61：设置最大迭代次数k；
[0124]
s62：执行步骤s4，控制判别器模型，对生成器模型进行优化；
[0125]
s63：执行步骤s5，控制生成器模型，对判别器模型进行优化；
[0126]
s64：重复顺序执行步骤s62和步骤s63共k次，完成对生成器模型和对判别器模型的博弈优化训练过程。
[0127]
s7：将待补全的多模态医疗缺失数据，输入到训练好的生成器模型中，进行缺失数据补全；具体包括：
[0128]
s71：准备好待补全的多模态医疗缺失数据x，以及描述其缺失情况的缺失矩阵m
x
，其中x包括v个不同模态的数据；
[0129]
s72：将x和m
x
输入到训练好的生成器模型g中，得到重构多模态医疗数据
[0130]
s73：根据多模态医疗缺失数据x和重构多模态医疗数据计算得到补全的多模态医疗数据具体如下：
[0131][0132]
与前述的基于数据关联性挖掘的多模态医疗缺失数据补全方法的实施例相对应，本技术还提供了基于数据关联性挖掘的多模态医疗缺失数据补全装置的实施例。
[0133]
图3是根据一示例性实施例示出的一种基于数据关联性挖掘的多模态医疗缺失数据补全装置框图。参照图3，该装置包括：
[0134]
第一构建模块1，用于根据原始多模态医疗缺失数据，利用掩码矩阵描述其缺失情况，构建多模态数据矩阵；
[0135]
第二构建模块2，用于构建基于数据关联性挖掘的生成器模型，所述生成器模型由一个多模态联合自编码器和一个目标视图解码器组成，采用所述联合自编码器同时处理不同模态的数据，通过所述解码器将多模态联合特征映射到目标模态的特征空间中；
[0136]
第三构建模块3，用于采用掩码能量散度对抗损失函数，构建基于掩码能量的掩码能量判别器模型；
[0137]
第一计算模块4，用于将所述多模态数据矩阵输入到所述生成器模型中进行计算，生成目标模态数据，再计算所述目标模态数据的加权重构损失函数和掩码能量散度对抗损失函数，将这两种损失函数进行加权，更新所述生成器模型的参数；
[0138]
第二计算模块5，用于将所述多模态数据矩阵输入到所述判别器模型中，再次计算第一计算模块中的掩码能量散度对抗损失函数，更新所述判别器模型的参数；
[0139]
训练模块6，用于重复执行第一计算模块和第二计算模块，直至达到最大迭代次数，完成所述生成器模型和所述判别器模型的博弈优化训练过程；
[0140]
补全模块7，用于将待补全的多模态医疗缺失数据，输入到训练好的生成器模型中，进行缺失数据补全。
[0141]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0142]
对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0143]
相应的，本技术还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于数据关联性挖掘的多模态医疗缺失数据补全方法。
[0144]
相应的，本技术还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于数据关联性挖掘的多模态医疗缺失数据补全方法。
[0145]
本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由权利要求指出。
[0146]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

基于数据关联性挖掘的多模态医疗缺失数据补全方法及装置

最热文献