一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于注意力机制和MRI多模态融合的脑肿瘤检测方法与流程

2022-03-02 04:06:39 来源:中国专利 TAG:

一种基于注意力机制和mri多模态融合的脑肿瘤检测方法
技术领域
1.本发明涉及到深度学习,医学图像处理领域,是计算机和医学的交叉领域。 基于多模态卷积神经网络,结合目前所遇到的挑战,适当改进神经网络,并独立 设计新的注意力模块来进一步完善其分割结果,该注意力模块是基于图像通道 的,可以在像素点级别完成注意力加权。最终目的是将大脑mri图像中的肿瘤 和其他病变区域分割出来。


背景技术:

2.图像分割,是用像素级掩模覆盖目标轮廓的过程,由于病变区域的形状是无 规则的,而医生在诊断时,必须要对疾病的位置有尽可能准确地判断,否则,健 康的组织会被当成疾病区域来实施手术,这会使病人出现生命危险,因此图像分 割相比目标检测来说意义更大。通常经验丰富的医生可以准确地判断影像中的病 变位置,但现实问题是医院每天都在产生大量的影像,医生的数量和精力又不太 充足,因此就迫切需要计算机来快速识别图像中的病变区域,供医生参考。如今 深度学习在自然图像分析领域的发展已经比较完善,这些研究表明,计算机完全 有能力在短期内学会医生的诊断经验,并用于分析医学图像。
3.mri医学成像技术,常用于观察大脑、脊髓等软组织。扫描完成后,首先 会生成155层2d-slice,然后再沿着深度轴将它们整合成3d图像,这样才能反 映大脑的立体结构。由mri生成的3d图像序列[t1,t2,t1c,flair],也被称为多 模态图像序列。虽然mri图像包含了软组织的众多细节特征,有些图像确实能 较清晰地呈现肿瘤区域,但经过研究人们发现,起源于脑部的疾病,通常还伴随 着其他的附加症状;比如神经胶质瘤在生长的过程中,必然会压迫周围组织,导 致水肿现象,而被肿瘤包围的组织区域,因为长期供血不足,往往导致坏死等症 状,所以病变区域应该是这些症状的总和,而并非肿瘤本身。正是由于mri图 像的复杂性,再加上医生的精力是有限的,所以才需要计算机辅助,用于脑肿瘤 的诊断;而计算机分割mri图像,也应该能较为准确地区分出每一种病变类型 的位置和轮廓信息,才能辅助医生进行诊断。基于此,经过研究,设计出此模型, 专用于改善分割不精准的问题。
[0004]
大脑病变类型有多种,因此分割mri图像中的脑肿瘤,从计算机的角度看, 其本质是像素点的多分类问题,即分辨出图像中每个像素点所归属的类别。图像 分类最初基于cnn来实现,fcn将它的全连接层替换成反卷积层,使其能用于 分割。此后为了提高性能,很多模型基于fcn做了改进。segnet增加了多个反 卷积层,并添加池化索引连接。vgg使用多个小卷积核替代原有大卷积核,保 持感受野的同时减少参数量。unet改进segnet,将下采样特征图直接传递给解 码器,以恢复编码时丢失的细节特征。densenet参考resnet,设计出密集连接, 使每一层都有指向其它层的残差连接,加强了特征重用。mask-rcnn先用目标 检测框截取图像,后将裁剪图做上采样,避免了无关区域的干扰。
[0005]
mri图像是由多个2d扫描层组成的3d图像,每一个扫描层也可以理解为 2d横切面,因此如何处理3d-mri图像是首要问题。现有的模型大体有两种思 路,一是用大小不同的3d卷积核直接处理3d图像,比如deepmedic;二是采 用2d切分重组法,用2d卷积网络按时间顺序处理源3d图像的每一层2d横切 面,生成分割图像后,再重组成3d结构,这种方法适
合于大多数成熟的2d卷 积网络,比如unet、attention-unet等。3d卷积核本身参数量就比较大,而且这 仅仅是一个通道的数量,若用它提取源3d mri图像,并将特征分散存储到多个 通道,整体的数据量将非常庞大,内存和显存都将无法支撑。因此,这种情况下, 无论是3d-mri还是3d-ct图像,都需要将它们切分成多个小立方体,再输入 到3d卷积网络中,但这样会破坏源3d图像的2d横切面结构。既然mri图像 的多数特征都分布在2d横切面上,那么选择2d切分重组法则是处理3d-mri 图像的更好选择,也更符合mri图像的生成原理。
[0006]
此外,mri设备通常会从四个角度去扫描大脑,它们分别是基本结构t1、 组织含水量t2、组织供血量t1c,以及组织的结合水含量flair。不同模态反映 的信息不同,如果不将它们融合起来,则会严重影响分割的精确度。因此需要在 unet的基础上做进一步的改进,目前主流的方法是,将编码器设计为多分支卷 积架构,并在网络深层次做融合,比如multi path dense unet,以及ivd-net, 后者相比前者,增加了密集连接,他们都适合多模态mri图像的分割。
[0007]
虽然大多数特征都分布在2d横切面上,但也需要基于序列的模型来捕捉这 些2d图像之间的关联。随着深度学习的发展,起源于transformer的注意力机 制,逐渐用于图像分割。比如autofocus用注意力机制自动聚焦与图像每个区域 相关的全局最佳尺度;ozan oktay等人将attention gate嵌入到unet解码器,以 专注目标区域的特征恢复,抑制不相关区域;danet将注意力机制用于图像上, 从通道和位置两个方面提升分割效果,之后该思想被广泛应用;canet将danet 注意力块嵌入unet编解码器之间,用于恢复医学图像中的树状细节特征;ashishsinha等人使用danet分析resnet每一级特征层与所有特征层加和之间的联系, 即捕获了长距离依赖,又捕获通道特征依赖。上述模型给带来很多启发。另一方 面,与注意力类似的1
×
1卷积,最初用于调整通道间的特征分布,以替代全连 接层用于分类;因此self-attention和1
×
1卷积的本质有所不同,本文的注意力 模块结合了两者的优点。
[0008]
衡量模型分割性能好坏的重要指标,正是它能否把绝大多数像素点进行正确 地分类。现有的分割网络,无论模型基于2d还是3d,都能将病变区域的大体 轮廓分割出来,除了需要考虑2d图像之间的联系,在卷积方面,仍然有一些需 要改进的地方,比如在t1、t1c图像中,大多数轮廓都不太清晰,特别是水肿 区域,而这种现象也导致网络在提取特征时,容易出现过量分割的问题。此外, 坏死区域和肿瘤区域,在mri图像上可区分性也不是很大,这两个区域分割错 乱的现象也是比较常见,针对这些问题提出,用hdc卷积块替换multi-unet原 有的部分下采样分支,以扩大其感受野,提取更多的特征,这些特征组合起来, 可以改变原本的分布。


技术实现要素:

[0009]
本发明的目的是,对基于多模态的卷积神经网络做出改进,使其能从2d横 切面和3d深度轴空间上都捕捉到之前没有考虑的特征,从而提升分割的准确度。 为实现上述目的,本发明基于多模态卷积神经网络multi-unet,对其部分编码器 分支进行改进,并在它后面添加注意力模块,共同改善脑肿瘤的分割效果,整个 模型的结构如图1所示,它具体包含以下三个关键结构。
[0010]
关键结构一:基于multi-unet模型,将编码器的普通卷积块,替换成混合空 洞卷
积块hybrid dilated convolution block(简称hdc-block),用于扩大感受 野,提取到边界轮廓之外的更多细节,并将改进后的模型命名为hdc-munet。
[0011]
关键结构二:参考inception模型的多分支编码器结构,自主设计多分支输 出卷积块multi-branch output convolution block(简称mb-outconv),用1
×
1 和3
×
3卷积核同时处理hdc-munet生成的分割图,此后将特征归纳整理,生 成可用于分类的原始分割图origin-segment。
[0012]
关键结构三:参考transformer里面的self-attention模型,自主设计一个基 于通道的注意力模块channel-basedattention-block(简称cb-attention),捕获 原始分割图各个通道之间的像素点关联,并对通道做注意力加权。下面将结合数 据的预处理,以及上述关键结构,来说明本发明的具体阶段设计。
[0013]
本发明采用的技术方案为一种基于注意力机制和mri多模态融合的脑肿瘤 检测方法,该脑肿瘤检测方法包括如下步骤
[0014]
s1:关键输入数据的预处理。
[0015]
由于每个样本由四个3d-mri图像组成,因此整体维度是(4,155,240,240), 分别表示模态、深度、长和宽。一个3d-mri图像可以看做由155层2d图像组 成的序列,之前提到,这些2d图像也被称为2d横切面,在图1中有所体现, 因此第二维度也称为时间序列维度。从时间序列维度来考虑,距离相近的两个 2d横切面之间,具有较强的特征关联度,为了减少无用的计算,首先在时间维 度把3d-mri切分成维度为(4,temp,240,240)的多个3d-slice(temp《《155),此后 按时间顺序将3d-slice的每一层2d横切面逐个传入hdc-munet来处理。其中 n是hdc-munet第一个卷积层的输出通道数,若取值太小则无法充分提取特征, 若取值太大,容易导致特征冗余,甚至过拟合。
[0016]
由于brats数据集的标签分布不均衡,导致某些情况下,模型难以收敛到全 局最优值,使用中值平衡策略来解决此问题,其基本原理是,将交叉熵损失的每 个类别权重,重定义为下述公式。
[0017][0018]
其中freq(c)是属于类别c的像素数量,占所有类别像素数量的比重,即当 前像素类型出现的频率。上述处理方法是经过科学验证的,在ivd-net、 lstm-munet也都有采用。
[0019]
s2:改进multi-unet并生成hdc-munet结构。
[0020]
由于t1图像只反映基本结构,因此它对细节的区分不太好,存在边界模糊 的现象。另外,随着肿瘤的生长,一是周围的软组织被挤压,造成组织水肿;二 是肿瘤的生长,会充分争夺营养,导致其包围的软组织坏死。但即使组织已经水 肿或坏死,他们的供血量也没有太大的变化,因此在t1c图像上,两种病变的差 异也不太明显。若用普通3
×
3卷积块去扫描t1、t1c图像,由于感受野较小, 模糊边界经过卷积后,特征区分度仍然不太大,这就需要较长的训练次数,才能 达到较为精确的分割效果。此外,这种差异不太明显,但标签不同的像素点,使 模型很容易将坏死和肿瘤区域混淆,阻碍准确率的提升,针对这种问题,观察到 在模糊边界周围存在一些差异较为明显的像素点,因此扩大感知域,即可捕捉到 更多的像素点。
[0021]
空洞卷积,可以在不增加卷积核大小的前提下扩大感受野,更适合分割较大 的物
体,或者是边界较为模糊的物体。因此,用混合空洞卷积块(hdc-block) 来替换原有t1、t1c下采样分支里面的普通卷积块,该模块如图2所示。在 hdc-block中,第一个3
×
3卷积核不使用空洞卷积,保持原有的扩张率为1, 用于全面提取细节特征;第二个3
×
3卷积核使用扩张率为2的空洞卷积,将感 受野由3
×
3扩展到5
×
5大小。如果继续向前追溯,输出特征图中的一个像素值, 对应的输入感受野由5
×
5扩大到7
×
7大小。此外由于t2和flair模态本身就反 映了含水量,因此这两种图像的水肿区域边界则较为明显,无需使用空洞卷积扩 大感受野。
[0022]
s3:生成可供注意力加权的原始分割图。
[0023]
图1还展示了多分支输出卷积块mb-outconv的结构图,它由1
×
1和3
×
3 卷积并行组成,在图1中有体现,它与munet的串行卷积块有不同流程结构。1
ꢀ×
1卷积和3
×
3卷积的感受野不同,功能也就有明显的差异。其中1
×
1卷积的 作用是特征的重分布与整合,它类似于线性加权的过程,可以对n个通道的特 征进行整合,以压缩通道的数量。3
×
3卷积的作用是特征的提取和归纳,因为 它的感受野适中,可以全方位地扫描图像,用于提取有用的特征并做融合。
[0024]
hdc-munet输出的特征图(temp,n,240,240),包含n个内部通道,但图像分 割的本质是像素点的分类,每个像素点都有c种分类可能性,因此还需要把特 征图的通道数由n转变为最后的类别数量c,这也是mb-outconv卷积块的作 用。为了同时考虑两种卷积的优点,将3
×
3卷积和1
×
1卷积并行处理 hdc-munet的输出特征图,并将他们生成的特征图相加,以生成维度为 (temp,c,240,240)的原始分割图origin-segment,其中c是最终的病变类型数。该 原始分割图是长度为temp的图像时间序列[os1,os2,...,os
temp
],其下标是当前分 割图os所处的时间片,公式表示如下。
[0025]
[os1,os2,...,os
temp
]=mboutconv{hdcmunet([img1,img2,...,img
temp
])}
[0026]
多分支输出卷积块的思想来源于google提出的inception多分支架构。由于 s3的cb-attention需要计算origin-segment的每两个时间片之间的关联度,然 后对origin-segment做注意力加权,因此将它作为cb-attention的输入。
[0027]
s4:用注意力机制,进一步改善分割效果。
[0028]
对于每个3d-slice,只看其中一个模态,其维度是(temp,240,240),那么两个 空间距离较近的2d横切面之间必然拥有较强的关联度,所以捕捉这种2d横切 面图像之间的像素点关联则是非常重要的。3d mri图像的每一层横切面也可以 看做一个通道,为此提出了基于图像通道的注意力模块cb-attention专用于解决 此问题,整个模块图3所示。cb-attention的思想来源于self-attention,它使用 基于点乘的注意力机制,因为基于点乘相比基于加法来说,效率更高。
[0029]
首先需要明确,注意力模块的输入图像是原始分割图origin-segment,它来 源于3d-slice输入,是其每一层2d横切面图像按时间顺序依次经过了 hdc-munet、mb-outconv的分割处理才得到,它的维度是(temp,c,240,240)。 下面要计算origin-segment中的第i(1≤i≤temp)个元素osegi与其他元素的注意 力权重。令queryi=osegi,其他的图像作为key,具体以公式表示如下。
[0030]
[key1,key2,...,key
i-1
]=[oseg1,oseg2,...,oseg
i-1
];
[0031]
[keyi,key
i 1
,...,key
temp-1
]=[oseg
i 1
,oseg
i 2
,...,oseg
temp
]
[0032]
当key的下标小于i时,keyi=osegi,反之则有keyi=oseg
i 1
的对应关系。
[0033]
下面执行query和key的点乘操作,得到temp-1个关联度矩阵。
[0034][0035]
......
[0036][0037][0038]
......
[0039][0040]
在时间通道上拼接起来,得到三维的关联度矩阵relevmatrix。
[0041][0042]
计算query和key之间的关联度。从某种意义上讲,获取注意力权值,也 是特殊的分类问题,因为分析通道之间的关联度,就相当于分析这些key属于 query类型的概率。为了能找出与query关联度最大的key,使用1
×1×
1卷积 处理relevmatrix,将其通道数由c融合成1,该3d卷积核用于对通道进行线性 组合,以调整其特征分布,用于分类过程。它类似于全连接层,但参数量比全连 接层小很多,而且能直接处理图像数据,因此用它实现该过程。
[0043]
经过上述调整,特征图已经能反映query和key之间的像素点关联度,为 了能得到注意力权重,将全局平均池化,直接作用于relevmatrix的每个时间通 道上,将特征图转化为一个数值。此后用softmax将全局平均池化的结果转化为 0~1之间的概率值,整体公式如下。
[0044]
weight
x
=avgpooling{conv1×1×1(relevmatrix
x
)}
[0045][0046]
其中概率最大的时间步所对应的通道max-key,就是与query关联度最大的 通道。最后执行注意力加权。将max-key与它所对应的注意力权重max-weight 做点乘,然后直接和query相加得到attenquery,完成对像素点的注意力加权过 程,公式表示如下。
[0047][0048]
经过注意力加权,attenquery反映了maxkey与query在像素级融合的结果, 这改变了源query的部分像素值。将视野扩展到整个原始分割图origin-segment 上,经过注意力加权,它变成了新的注意力分割图attention-segment,其维度仍 然是(temp,c,240,240)。虽然attention-segment已经较为完善,但它的像素点仍 然是灰度值,并不能反映每
个像素点的分类情况,而且它的通道数仍然是c。因 此最后还需要把attention-segment的通道数转化为1,以此来完成对像素点的分 类过程,具体描述如下。
[0049]
考虑attention-segment中的某个时间片,它的维度是(c,240,240),设二维平 面上某个像素点为pixel(a),它的平面坐标为(x,y)。在attention-segment中,与 pixel(a)直接相关的其他像素点,只能是(x,y,0),(x,y,1),......,(x,y,c)这几个坐标 点。因为图像分割是像素点的分类问题,针对像素点(x,y),按照标准的分类法, 先将坐标序列(x,y,0),(x,y,1),......,(x,y,c)经过log-softmax处理,得到c个概率 值,分别为(p0,p1,......,pc);然后用交叉熵损失函数计算(p0,p1,......,pc)与真实标 签yi的之间的损失。其他的像素点也是这种处理方法。
[0050]
注意力模块的最后一步,是生成最终分割图final-segment。这一步主要是 通过扫描attention-segment的c个通道来实现。若2d平面上某个像素值(x,y), 在第ch个通道上的数值(x,y,ch)最大(ch∈(0,c)),则表示该位置的像素应该被分 类为ch。添加cb-attention的目的是为了进一步调整这些通道的像素分布,使 这些属于病变类型ch的像素点,尽可能准确地分布到通道ch上面,进一步提升 准确度。
[0051]
最后,纵观整个过程,即从输入3d-slice图像开始,到输出final-segment 分割图为止。将这之间的数据名称、数据维度变化,以及所经过的模型组件名称, 在图4所示的流程图中详细展示出来,其中t表示时间片temp,c表示最终的 分类个数,即病变类型的数量。
附图说明
[0052]
图1:整个模型的结构图。
[0053]
图2:hdc-block混合空洞卷积块图。
[0054]
图3:cb-attention模块图。
[0055]
图4:数据格式变化流程图。
[0056]
图5:计算评估指标所参考的区域图。
[0057]
图6:实际分割图与基础模型的比较结果。
具体实施方式
[0058]
以下结合附图和实施例对本发明进行详细说明。
[0059]
一种基于注意力机制和mri多模态融合的脑肿瘤检测方法,该方法包括如 下步骤,
[0060]
步骤s1:数据集介绍。
[0061]
为了验证模型的性能,选择brats2015作为数据集。整个数据集包含274个 样本,其中有220个样本是hgg病例,医学称为高级别胶质瘤,是低分化型的 恶性肿瘤;剩下54个样本是lgg病例,医学称为低级别胶质瘤,这些是分化性 能较好的良性肿瘤。数据集中的每个样本,包含5个3d volume,每个3d volume 由155层2d图像组成。前四个3d图像是mri扫描结果[t1,t2,t1c,flair],分 别表示基本结构、组织含水量、组织供血量、组织结合水含量。最后一个3d图 像是标签label,即人工标注的实际分割图。在本场景中,label的每个像素值都 只有[0,1,2,3,4]五种可能性,表示五种不同的病变类型。其他场景,统一概括为c 中分类可能性,即每个像素值有[0,1,......,c]种可能性。
[0062]
步骤s2:确定评估指标和区域。
[0063]
图5表示计算评估指标时,需要参考的区域,其中t1表示真实疾病区域, p1表示预测疾病区域,t0表示真实健康区域,p0表示预测健康区域。在这四种 区域之上,分别执行iou,dice,sensitivity,ppv这四个评估指标,可以全方位反 映模型的分割性能,下面逐个介绍。
[0064]
iou是交并比,给定预测图与真实图像,iou可以测量两个图像上,同一个 目标部位的重叠度。重叠度从0~1,越高表示预测越精准。
[0065][0066]
dice用于衡量两个集合分布之间的相似度,给定预测图与真实图,dice可 以从像素级测量两个图像的整体相似度,其值域为0~1,表示从最差到最好。
[0067][0068]
敏感度sensitivity,表示真正的肿瘤区域中,有多少被预测为肿瘤区域。
[0069][0070]
阳性预测率ppv,用于表示预测为肿瘤的区域中,有多少是真正的肿瘤区域。
[0071][0072]
对肿瘤区域进行分割,其本质是像素点的多分类过程。比如,处理的就是五 分类问题,每个像素值会有[0,1,2,3,4]这五种可能性,分别代表健康区域、坏死、 水肿、肿瘤、增强肿瘤。在验证和测试时,将[0,1,2,3,4]划分为下述三种组合方 式。用iou、dice、sensitivity、ppv分别对它们进行测试。
[0073]
[1,2,3,4]表示整个病变区域,即entire lesionarea
[0074]
[1,3,4]表示整个肿瘤区域,即entire tumorarea
[0075]
[3,4]表示核心肿瘤区域,即core tumorarea
[0076]
此外,为了测试在每一种病变类型上的分割性能,还单独对01234进行了 测试,也是使用上述评估指标。
[0077]
步骤s3:训练和测试模型。
[0078]
为了让模型同时学习不同肿瘤的特征,将hgg和lgg样本混合起来训练。 在这274个样本中,选取224个样本作为训练集,20个样本作为验证集,30个 样本作为测试集。需要说明的是,训练集、验证集、测试集完全都是随机选取, 不存在因为数据分布规律差不多,而导致模型的测试结果偏高的情况。在训练过 程中,为了实时检查当前epoch的训练情况是否最优,每完成一轮epoch训练, 都要将模型在验证集上测试一遍,并获取它在[1,2,3,4]区域上的dice验证结果。 若dice结果比之前的更优,则保存当前模型,并立即更新全局最优dice,否则 不更新模型与dice。在训练阶段,若训练epoch增加,但验证损失在逐渐上升, 表示模型逐渐走向过拟合状态,在这种情况下,再看dice是否有突破性的提升, 若基
本不变则立即停止训练。
[0079]
使用的训练服务器,有四个nvidia geforce rtx2080ti显卡,每个gpu可 以容纳的batchsize为2,因此将batchsize设置为8。若只有一个或两个2080ti, 也可以正常训练此模型,但需要将训练batchsize减少到2或4。如果gpu算力 低于2080ti,还需要减少hdc-munet的内部通道数n,才能正常训练此模型, 但这样大概率会降低分割性能。此外,服务器的cpu性能也要强大,至少是 i9-9900k级别以上的,内存96gb,才可以支撑起batchsize为8的模型进行训练。
[0080]
训练模型,是为了通过反向传播更新所有的参数,使所有的参数都能尽可能 准确地完成任务,因此选择合适的优化器很重要,由于adam效率更高,同时考 虑了一阶二阶动量,对梯度的伸缩具有鲁棒性,因此选择它。除此之外,通过控 制变量法,对其他超参数来说,得出了其最佳选择,比如内部通道数n、learningrate分别是32、1e-4。经过训练,模型在iou、dice、ppv指标上表现良好,均 优于现有的unet、attention-unet、vnet等经典模型。
[0081]
步骤s4:输出分割图。
[0082]
为了直观展示本发明对分割效果的改善,将基础模型,以及的模型所输出的 分割图在图6中展示,其中红色、绿色、蓝色、黄色,分别表示标签1,2,3,4,即 坏死、水肿、肿瘤、增强肿瘤类型。第f列是的模型的分割效果,最后一列是真 实标签,前面6列是基础模型的分割图。可以直观看出,的发明从整体上,可以 改善分割效果,对噪音和错误分割有一定的抑制作用。
[0083]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而 且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发 明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性 的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要 求的等同要件的含义和范围内的所有变化囊括在本发明内;不应将权利要求中的 任何附图标记视为限制所涉及的权利要求。
[0084]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方 式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领 域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组 合,形成本领域技术人员可以理解的其他实施方式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献