一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种乳腺超声视频病变分割方法

2022-04-16 12:19:53 来源:中国专利 TAG:


1.本发明属于计算机辅助诊断技术领域,涉及一种乳腺超声视频病变分割方法。


背景技术:

2.乳腺癌是女性三大恶性肿瘤之一,已成为当前社会的重大公共卫生问题,全球乳腺癌发病率自上世纪70年代末开始一直呈上升趋势。据国家癌症中心和卫生部疾病预防控制局2020年公布的癌症发病数据显示:乳腺癌超过人类发病率最高的肺癌,成为目前女性发病与死亡占比最高的癌症。乳腺癌的治疗效果取决于乳腺肿瘤的早期诊断和治疗,早期原位癌的治愈率为95%,而晚期的乳腺癌则很难治愈。超声检查凭借其无创、无辐射、成像速度快、敏感性强、检查价格相对较低、操作简单便捷等优势被作为乳腺癌首选影像学检查和术前评估方法。近年来机器学习尤其是深度学习被应用于乳腺超声图像病变分割的研究中。实际上,超声成像扫查过程是动态的,如果能综合连续帧图像的信息,能克服仅利用单帧图像分割结果易受超声图像模糊的边界和背景噪声的干扰的问题,进而提高分割的准确度。
3.为了获得基于深度学习的视频病变分割模型,通常需要在收集的超声视频数据集中标注所有帧的像素级病变掩码,然后训练基于视频数据的病变分割模型。由于超声视频只能由合格的有经验的专家进行标注,而且超声视频标注耗时和昂贵。因此,大多数有关乳腺超声病变分割的文献都在处理静态超声图像,而没有处理超声视频。
4.乳腺超声病灶区域通常因人、因病而异,没有固定的形态及纹理特征;而且病变区域通常很小,精确的病变分割比较困难。而且由于乳腺超声图像存在严重噪声、乳腺病灶和脂肪难以区分等特点,现有的基于超声图像的病变分割方法,仅仅利用单帧图像中的信息,而且大多针对手动从整幅图像中剪切出的病变区域即预处理后的图像进行分割,对于超声实时成像过程获取的整幅图像进行自动病变分割精度有待提高。


技术实现要素:

5.本发明的目的是一种乳腺超声视频病变分割方法,该方法通过有效的建模视频连续帧的特征,来实现对于超声实时成像过程获取的整幅图像中病变的精确分割。
6.本发明所采用的技术方案是,一种乳腺超声视频病变分割方法,具体包括如下步骤:
7.步骤1,通过主干网络进行视频连续帧的特征提取,通过提取每一帧的特征并将所有的特征图拼接在一起得到连续帧的特征图;
8.步骤2,将步骤1所得的特征图经过transformer模块依次进行编码和解码,得到按照原始视频帧序列的顺序输出的学习到的实例查询;
9.步骤3,对步骤2学习到的实例查询通过fc预测类别,通过mlp分别预测包围盒和分割掩码向量,得到固定大小的按照原始视频帧序列的顺序输出的目标实例的类别、包围盒、分割掩码向量,使得网络能对类别、包围盒、分割掩码统一进行预测;
10.步骤4,对步骤3所得结果进行实例序列匹配并进行损失函数计算。
11.本发明的特点还在于:
12.步骤1的具体过程为:
13.假设初始视频剪辑的t帧分辨率为h0×
w0,表示为主干网络选用resnet50或者resnet100,为每一帧生成一个较低分辨率的特征图,通过提取每一帧的特征并将所有的特征图拼接在一起得到连续帧的特征图
14.步骤2中,transformer模块包括transformer编码器e和transformer解码器d。
15.步骤2的编码过程为:首先应用1
×
1卷积,将主干网络提取到的特征图的维度从c减少到d,从而产生新的特征图为了形成一个可以输入到transformer编码器的剪辑级特征序列,将f1的空间和时间维度展平为一维,从而得到大小为d
×
(t
×h×
w)的二维特征图;时间顺序始终与初始输入的顺序一致;transformer编码器由k个transformer编码层构成;将f1输入transformer编码器的k个transformer编码层,通过迭代优化特征图fk。
16.步骤2的编码过程为:每个所述transformer编码层ek(
·
)包括一个多头自注意力模块和一个全连接前馈网络。
17.步骤2中,为了体现视频连续帧在x、y维度、和时间维度t的特征,使用固定位置编码信息来补充上述特征,对于每个维度的坐标,独立使用不同频率的d/3正弦和余弦函数:
[0018][0019]
其中,pos

pos’是对应维度中的位置,d可以被3整除,因为三个维度的位置编码连接起来形成最终的d通道位置编码。
[0020]
transformer解码器d的解码过程为:假设模型每帧解码n个实例,那么对于t帧,实例查询总数为n=n
·
t;首先,随机初始化一组可学习的实例查询然后初始对象查询q0与k个transformer解码器层中的细化特征图fk交互,来获得实例感知查询嵌入与transformer编码器层相比,每个transformer解码器层dk(
·
)都有一个额外的多头交叉注意层,并且具有与输入特征相同的维度,因此,以编码器e的输出和n个实例查询q作为输入,通过模型学习,transformer解码器d输出n个实例特征qk,
[0021]
步骤3中,直接对transformer解码器d的输出qk,同时预测出类别、包围盒、分割掩码向量。
[0022]
步骤3中,分类分支是一个fc层,用于预测类别置信度定位分支是一个隐藏层大小为256的多层感知mlp,预测归一化的包围盒中心、宽和高;掩码分支也是一个隐藏层大小为1024的多层感知mlp,预测掩码向量nk是每个掩码向量的维度;为了使得网络能对类别、包围盒、分割掩码统一进行预测分割,掩码压缩编码模块利用离散余弦变换将实例的掩码压缩成一维的固定长度nk的分割掩码向量。
[0023]
步骤4中,transformer解码器d的输出qk为n个固定长度的序列,为了使得在不同帧的预测序列中相同的实例的相对位置保持不变,即为了找到每帧中实例对应的ground truth,利用实例序列匹配策略,解码器得到每帧中的n个实例,因此实例序列的数量也是n;用表示预测的实例序列,y表示实例序列的gt集;假设n大于视频剪辑中的实例数,将y视为一组用填充的大小为n的集合;为了找到两个集合之间的二分图匹配,搜索具有最低损失的n个元素σ∈sn的排列:
[0024][0025]
其中,l
match
为成对匹配的gt yi与索引值为σ(i)的实例序列预测之间的损失;利用包围盒的归一化中心坐标、高度和宽度以及预测类标签,添加了一个“背景”类来表示没有检测到对象,将gt集合的每个元素i看作如下公式(3):
[0026]
yi={(ci,ci,

,ci),(b
i,0
,b
i,1
,

,b
i,t
)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
[0027]
其中,ci是此实例的目标类标签,可能是而b
i,t
∈[0,1]是一个向量,t表示输入帧的数量,因此,对于索引为σ(i)的实例的预测,将类别ci的概率表示为:
[0028][0029]
将预测的包围盒序列表示为:
[0030]b(σ(i))
={b
(σ(i),0)
,

,b
(σ(i),t)
},
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5);
[0031]
然后定义匹配损失:
[0032][0033]
其中,
[0034]
损失是类预测的负对数似然、实例序列的框损失和掩码向量损失的线性组合:
[0035][0036]
其中,并且是方程中计算的最优分配;
[0037]
其中:
[0038][0039]
本发明的有益效果是:本发明与静态超声图像病变分割方法相比,本发明的优点是利用所提出的多任务视频实例分割模型,通过集合预测的方法,来有效的建模视频连续帧的特征和病变实例虽时间变化的对应关系,进而提高对于超声实时成像过程获取的整幅图像中病变的分割精度。
附图说明
[0040]
图1是本发明一种乳腺超声视频病变分割方法的流程图。
具体实施方式
[0041]
下面结合附图和具体实施方式对本发明进行详细说明。
[0042]
本发明一种乳腺超声视频病变分割方法,将视频中的病变分割作为一个视频实例分割问题来解决,通过有效的建模连续帧的特征,来实现对于超声实时成像过程获取的整幅图像中病变的精确分割。整个架构由四部分组成,主干网络,transformer模块,类别、包围盒、分割掩码向量并行回归网络,实例序列匹配和分割掩码压缩编码模块。输入一个乳腺超声视频序列,网络输出该视频序列对应的每帧的病变掩码(mask),实现无任何后处理的端到端实例分割。主干网络进行视频连续帧的特征提取,通过提取每一帧的特征并将所有的特征图拼接在一起得到连续帧的特征图。transformer模块包括transformer编码器和transformer解码器,transformer编码器,通过自注意力机制建模特征图之间的长距离依赖,给定一组固定的学习对象查询集,transformer解码器计算查询对象和全局图像上下文之间的关系,得到按照原始视频帧序列的顺序输出的学习到的实例的查询。类别、包围盒、分割掩码向量并行回归网络,对学习到的实例的查询通过fc预测类别,通过mlp分别预测包围盒和分割掩码向量,得到固定大小的按照原始视频帧序列的顺序输出的目标实例的类别、包围盒、分割掩码向量。transformer解码器输出的每帧中的预测序列是无序的,实例序列匹配利用匈牙利算法找到每帧中实例对应的ground truth(gt)从而监督训练。分割掩码压缩编码模块利用离散余弦变换将实例的掩码压缩成一维的固定长度的分割掩码向量,使得网络能对类别、包围盒、分割掩码统一进行预测。
[0043]
本发明一种乳腺超声视频病变分割方法,流程如图1所示,具体过程如下:
[0044]
步骤1,主干网络提取输入视频剪辑的原始像素级特征序列。假设初始视频剪辑的t帧分辨率为h0×
w0,表示为主干网络可选用resnet50或者resnet100,为每一帧生成一个较低分辨率的特征图,通过提取每一帧的特征并将所有的特征图拼接在一起得到连续帧的特征图hxw为拼接后的图像分辨率;c为特征图维度。
[0045]
步骤2,transformer模块包括transformer编码器e和transformer解码器d,transformer编码器,通过自注意力机制建模特征图之间的长距离依赖,给定一组固定的学习对象查询集,transformer解码器计算查询对象和全局图像上下文之间的关系,得到按照原始视频帧序列的顺序输出的学习到的实例的查询。
[0046]
首先应用1
×
1卷积,将主干网络提取到的特征图的维度从c减少到d(d<c),从而产生新的特征图为了形成一个可以输入到transformer编码器的剪辑级特征序列,将f1的空间和时间维度展平为一维,从而得到大小为d
×
(t
×h×
w)的二维特征图。时间顺序始终与初始输入的顺序一致。transformer编码器由k个transformer编码层构成。将f1输入transformer编码器的k个transformer编码层,通过迭代的优化特征图fk。每个transformer编码层ek(
·
)由一个多头自注意力模块(mhsa)和一个全连接前馈网络(ffn)组成。
[0047]
为了体现视频连续帧在x、y维度、和时间维度t的特征,使用固定位置编码信息来补充这些特征。对于每个维度的坐标,独立使用不同频率的d/3正弦和余弦函数:
[0048]
[0049]
其中,pos

pos’是对应维度中的位置。d可以被3整除,因为三个维度的位置编码应该连接起来形成最终的d通道位置编码。这些编码被添加到每个注意力层的输入中。
[0050]
transformer解码器d旨在解码可以表示每帧实例的最代表性的特征,称为实例级特征。参考vistr[1],给定固定数量的可学习的输入嵌入来从编码器得到的特征中生成查询实例特征,称为实例查询。假设模型每帧解码n个实例,那么对于t帧,实例查询总数为n=n
·
t。首先,随机初始化一组可学习的实例查询然后初始对象查询q0与k个transformer解码器层中的细化特征图fk交互,来获得实例感知查询嵌入与transformer编码器层相比,每个transformer解码器层dk(
·
)都有一个额外的多头交叉注意层。,并且具有与输入特征相同的维度。这样,以编码器e的输出和n个实例查询q作为输入,通过模型学习,transformer解码器d输出n个实例特征qk,整体预测遵循输入帧顺序,不同帧的实例预测顺序相同。因此,可以通过直接链接相应索引的项来实现对不同帧中实例的跟踪。
[0051]
步骤3,类别、包围盒、分割掩码向量并行回归网络;
[0052]
为了利用多任务学习的思想实现端到端的模型训练,参考solq[2],直接对transformer解码器d的输出qk,同时预测出类别、包围盒、分割掩码向量。分类分支是一个全连接(fc)层,用于预测类别置信度定位分支是一个隐藏层大小为256的多层感知(mlp),预测归一化的包围盒中心、宽和高。与定位分支类似,掩码分支也是一个隐藏层大小为1024的多层感知(mlp),预测掩码向量nk是每个掩码向量的维度。为了使得网络能对类别、包围盒、分割掩码统一进行预测分割,掩码压缩编码模块利用离散余弦变换将实例的掩码压缩成一维的固定长度nk的分割掩码向量。
[0053]
步骤4,实例序列匹配策略和损失函数;transformer解码器d的输出qk为n个固定长度的序列,为了使得在不同帧的预测序列中相同的实例的相对位置保持不变,即为了找到每帧中实例对应的ground truth,利用实例序列匹配策略。解码器得到每帧中的n个实例,因此实例序列的数量也是n。用表示预测的实例序列,y表示实例序列的gt集。假设n大于视频剪辑中的实例数,将y视为一组用填充的大小为n的集合。为了找到两个集合之间的二分图匹配,搜索具有最低损失的n个元素σ∈sn的排列:
[0054][0055]
其中,l
match
为成对匹配的gt yi与索引值为σ(i)的实例序列预测之间的损失。通过匈牙利算法有效地计算最佳分配。
[0056]
由于直接计算掩码序列相似度的计算量很大,利用包围盒的归一化中心坐标、高度和宽度以及预测类标签,添加了一个“背景”类来表示没有检测到对象,来计算预测值中序列与gt集中的序列的相似度。给定对象预测序列的n=n
·
t个包围盒(边界框)预测,可以将每个实例的n个框序列通过它们的索引关联起来。匹配损失需要将类别预测以及预测框和真实框的相似性考虑在内。gt集合的每个元素i可以看作:
[0057]
yi={(ci,ci,

,ci),(b
i,0
,b
i,1
,

,b
i,t
)}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);
[0058]
其中,ci是此实例的目标类标签(可能是),而b
i,t
∈[0,1]是一个向量,它定义了真实框中心坐标及其在第t帧中的相对高度和宽度。t表示输入帧的数量。因此,对于索引为σ(i)的实例的预测,将类别ci的概率表示为:
[0059][0060]
将预测的包围盒序列表示为:
[0061]b(σ(i))
={b
(σ(i),0)
,

,b
(σ(i),t)
},
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5);
[0062]
然后定义匹配损失:
[0063][0064]
其中,基于上述准则,可以通过匈牙利算法找到序列的一对一匹配。给定最佳分配,可以计算损失函数,即上一步中匹配的所有对的匈牙利损失。损失是类预测的负对数似然、实例序列的框损失和掩码向量损失的线性组合:
[0065][0066]
这里,并且是方程中计算的最优分配。匈牙利损失用于训练整个框架。边界框损失定义为序列级别l1损失和广义iou损失的线性组合:
[0067][0068]
本发明一种乳腺超声视频病变分割方法存在如下特点:
[0069]
1.将乳腺超声视频中的病变分割作为一个视频实例分割问题来解决,利用vistr中集合预测的方法,通过有效的建模视频连续帧的特征和病变实例虽时间变化的对应关系,来提高分割精度。
[0070]
2.利用多任务学习的思想实现端到端的视频实例分割模型的训练,直接对transformer解码器的输出,并行预测出类别、包围盒、分割掩码向量。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献