一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于混合注意的语义增强哈希医学图像检索方法与流程

2022-02-19 07:16:18 来源:中国专利 TAG:


1.本发明属于医学图像检索领域,特别是涉及一种基于混合注意的语义增强哈希医学图像检索方法。


背景技术:

2.随着射线成像技术的快速发展,医疗数据逐渐电子化,医学图像的数量急剧增加。为了更好地辅助医疗诊断和评估,在大规模医学图像中挖掘有用信息非常关键。因此,医学图像检索引起了广泛注意。
3.医学图像检索可以分为两类:基于文本的医学图像检索和基于内容的医学图像检索。基于文本的医学图像检索出现在医学图像检索的早期,它避免了医学图像可视化元素的分析,从名称、大小、类型等方面索引医学图像,常常基于关键字查询医学图像。但是基于文本的医学图像检索依靠高度主观的人工标注,而且文本不能完全表达医学图像中丰富的语义内容。基于内容的医学图像检索旨在直接从医学图像中提取低维视觉特征和高维语义特征,从而形成特征向量,作为索引和匹配检索所需图像的客观依据。然而,现有的基于内容的医学图像检索方法大多只学习医学图像的相对关系来提取深层特征,而忽略了医学图像和标签的类别级语义,导致出现高级语义信息利用不足的问题,最终影响检索性能。


技术实现要素:

4.本发明针对现有技术的不足,提供一种基于基于混合注意的语义增强哈希医学图像检索方法。首先将数据集划分为训练集和测试检索集,从训练集中随机选择图像组成医学三元组,然后构建整体网络模型,将医学三元组样本作为网络模型的输入,最后训练整体网络模型,并使用训练好的网络得到检索结果。
5.为了达到上述目的,本发明提供的技术方案是一种基于基于混合注意的语义增强哈希医学图像检索方法,包括以下步骤:
6.步骤1,将数据集划分为训练集和测试检索集;
7.步骤2,随机选择图像组成医学三元组;
8.步骤3,构建整体网络模型,将医学三元组样本作为网络模型的输入;
9.步骤4,训练整体网络模型;
10.步骤5,使用训练好的网络得到检索结果。
11.而且,所述步骤1中使用3个数据集,分别是胸部x光图像数据集covid

19radiography、covid

19胸部x射线图像的组合精选数据集curatedx

ray和皮肤镜图像数据集ham10000,对于每个数据集,选用70%的数据作为训练集,剩余30%作为测试和检索集,同一个数据集中的医学图像为同类医学图像,不同数据集中的医学图像为不同类医学图像。
12.而且,所述步骤2中给定m个训练图像构成训练集i={i1,i2,...,i
m
},从训练集中随机选择两幅同类医学图像作为锚点图像q
i
和正例图像p
i
,然后随机选择一幅与q
i
、p
i
不同
类的医学图像作为负例图像n
i
,构成医学三元组t={q
i
,p
i
,n
i
}
i∈{1,...,m}
。三元组中锚点图像q
i
和正例图像p
i
相似,和负例图像n
i
不相似。在构建医学三元组样本单元时,选择样本数量比较少的医学图像作为稀有图像,并将其作为普通样本的负例图像,以此实现训练阶段对稀有图像的复用,克服医学图像检索领域的样本不平衡问题。
13.而且,所述步骤3中对于每一个三元组,三张医学图像同时输入权重共享的孪生神经网络,该孪生神经网络由卷积块、密集块、卷积块和一个用于哈希码输出的全连接层组成;在卷积块和密集块之间加上一个通道注意模块,密集块和卷积块之间加上一个空间注意模块,构成混合注意机制;通过通道注意模块和空间注意模块获取感兴趣区域信息,能够同时获得通道间的依赖和空间域的显著特征,进而更有效地关注医学图像的差异。
14.一张医学图像首先通过第一个卷积块得到特征图x∈r
c
×
h
×
w
,其中h和w分别表示特征图的高和宽,c表示通道的数量。接着通过通道注意模块,利用平均池化和最大池化操作压缩输入的特征图。通道注意模块内包括两个连续卷积层,第一个1
×
1卷积用于将池化操作后的特征投影到参数较少的隐藏层,并利用relu函数作为激活函数;第二个1
×
1卷积旨在恢复通道数,并利用sigmoid函数作为激活函数。然后将平均池化向量和最大池化向量逐元素相加,利用sigmoid函数进行加权操作,最后乘以特征图x。
15.通道注意模块可表示为:
[0016][0017][0018]
式中,m
c
(x)是一维通道注意图,大小为c
×1×
1;conv1×1代表滤波器大小为1
×
1的卷积操作;σ表示sigmoid函数;avgpool(
·
)是平均池化函数;maxpool(
·
)是最大池化函数。
[0019]
为了充分利用特征图并加强特征图的传递,将特征图输入到由四个密集层组成的密集块中。每个密集层的输出将传递到每个后续层,以实现创建从早期层到后期层的短路径。空间注意模块是通道注意模块的补充,它重点关注样本信息量最大的部分。令y∈r
c
×
h
×
w
表示从最后一个密集层提取到的特征图,其中h和w分别表示特征图的高和宽,c表示通道的数量,则空间注意模块可表示为:
[0020]
m
s
(y)=σ(conv7×7([avgpool(x);maxpool(x)]))
ꢀꢀ
(3)
[0021][0022]
式中,m
s
(y)是一个二维空间注意图,大小是1
×
h
×
w;conv7×7代表滤波器大小为7
×
7的卷积操作;σ表示sigmoid函数;avgpool(
·
)是平均池化函数;maxpool(
·
)是最大池化函数。
[0023]
最后深度嵌入被映射到哈希码生成层,受语义增强损失、正则化损失和三元组交叉熵损失的约束。
[0024]
而且,所述步骤4中基于混合注意力机制和孪生神经网络,通过优化整体损失函数来训练模型,整体损失函数包括哈希三元组、语义增强项和量化项。
[0025]
哈希函数可以将医学实例映射为紧凑的哈希码,同时保留原始空间中匹配医学图像和标签的语义信息,由于离散哈希码的汉明距离在深度学习网络中不便于优化,本发明使用由线性层输出的深度嵌入的欧几里德距离代替哈希码的汉明距离;为了捕捉哈希空间
中的相对相关性,医学图像的基本三元组项可以表示为:
[0026][0027]
式中,||
·
||2表示二范式向量,用来测量距离;和表示尚未离散化的k位深度嵌入;δ表示边缘阈值。
[0028]
类别级语义有助于区分不同类别的相似哈希码,为了捕捉医学图像的类别级语义,使用匹配的图像和真实标签来约束哈希码的学习过程。
[0029]
语义增强项可以表示为:
[0030][0031]
式中,表示交叉熵损失函数,和分别表示q
i
、p
i
、n
i
的标签信息。
[0032]
由于三元组损失的计算是基于没有离散化的深度嵌入,将会导致量化误差,受迭代量化的启发,使用量化项以减少深度嵌入和哈希码之间的量化误差。
[0033]
量化项可以表示为:
[0034][0035]
式中,||
·
||2表示二范式向量,用来测量距离;和表示尚未离散化的k位深度嵌入,和分别表示q
i
、p
i
、n
i
的k位哈希码。
[0036]
考虑上述三个部分,总体损失函数可以表示为:
[0037]
l
total
=l
tri
α
×
l
se
β
×
l
qu
ꢀꢀ
(8)
[0038]
式中,α和β表示控制损失项权重的超参数。
[0039]
训练整体网络模型时,医学三元组图像的大小调整为256
×
256,并在每轮训练中随机采样作为网络的输入,将三元组损失的边缘阈值δ设置为0.5,总体损失函数的参数α和β分别设置为1和0.8,该网络利用adam函数优化损失,学习率为0.001,评估哈希码位数从8,16,32,48到64的性能和最相似图像从5,10,15,20,25到30的性能,训练100个轮次或直到损失不再降低,得到训练好的模型。
[0040]
而且,所述步骤5中使用训练好的网络计算测试数据集中样本图像的平均命中率(mhr)、平均平均精度(map)和平均倒数排名(mrr),以此三个指标评价检索性能。其中,命中率(hr)用于测量返回列表中有多少图像与查询图像相似;在返回列表中,平均精度(ap)将与查询图像相似的图像的排名位置做平均运算,从而测量排名质量;倒数排名(rr)指在返回列表中第一个相似图像排序的倒数位置。
[0041]
与现有技术相比,本发明具有如下优点:1)本发明利用通道注意模块和空间注意模块构成混合注意机制,能高效提取感兴趣区域(roi)信息;2)利用类别级语义信息来约束哈希码的学习过程,有助于区分不同类别的相似哈希码;3)当深度嵌入映射至离散哈希码时,利用量化损失项减少深度嵌入和哈希码之间的量化误差,能够进一步提升医学图像检索的精度。
附图说明
[0042]
图1为本发明实施例的流程图。
[0043]
图2为本发明实施例的网络结构图。
[0044]
图3为本发明提出的方法与其他方法在不同数据集上的检索性能结果对比图,其中图3(a)为在covid

19radiography数据集上使用不同哈希位的前10个map医学检索性能,图3(b)为在curated x

ray数据集上使用不同哈希位的前10个map医学检索性能,图3(c)为在ham10000数据集上使用不同哈希位的前10个map医学检索性能。
[0045]
图4为本发明提出的方法与其他方法在不同数据集上不同检索点数的检索性能结果对比图,其中图4(a)为在covid

19radiography数据集上不同检索点数的48位哈希码的医学检索性能,图4(b)为在curated x

ray数据集上不同检索点数的48位哈希码的医学检索性能,图4(c)为在ham10000数据集上不同检索点数的48位哈希码的医学检索性能。
[0046]
图5为本发明提出的方法在curated x

ray数据集和ham10000数据集上检索图像返回的前10幅相似图像,其中图5(a)为在curated x

ray数据集上检索图像返回的前10幅相似图像,图5(b)为在ham10000数据集上检索图像返回的前10幅相似图像,错误的图像由下方不同的名称标注。
具体实施方式
[0047]
本发明提供一种基于基于混合注意的语义增强哈希医学图像检索方法,首先将数据集划分为训练集和测试检索集,从训练集中随机选择图像组成医学三元组,然后构建整体网络模型,将医学三元组样本作为网络模型的输入,最后训练整体网络模型,并使用训练好的网络得到检索结果。
[0048]
下面结合附图和实施例对本发明的技术方案作进一步说明。
[0049]
如图1所示,本发明实施例的流程包括以下步骤:
[0050]
步骤1,将数据集划分为训练集和测试检索集。
[0051]
使用三个数据集,分别是胸部x光图像数据集covid

19radiography、covid

19胸部x射线图像的组合精选数据集curatedx

ray和皮肤镜图像数据集ham10000。对于每个数据集,选用70%的数据作为训练集,剩余30%作为测试和检索集,同一个数据集中的医学图像为同类医学图像,不同数据集中的医学图像为不同类医学图像。
[0052]
步骤2,随机选择图像组成医学三元组。
[0053]
给定m个训练图像构成训练集i={i1,i2,...,i
m
},从训练集中随机选择两幅同类医学图像作为锚点图像q
i
和正例图像p
i
,然后随机选择一幅与q
i
、p
i
不同类的医学图像作为负例图像n
i
,构成医学三元组t={q
i
,p
i
,n
i
}
i∈{1,...,m}
。三元组中锚点图像q
i
和正例图像p
i
相似,和负例图像n
i
不相似。在构建医学三元组样本单元时,选择样本数量比较少的医学图像作为稀有图像,并将其作为普通样本的负例图像,以此实现训练阶段对稀有图像的复用,克服医学图像检索领域的样本不平衡问题。
[0054]
步骤3,构建整体网络模型,将医学三元组样本作为网络模型的输入。
[0055]
对于每一个三元组,三张医学图像同时输入权重共享的孪生神经网络。如图2所示,该孪生神经网络由卷积块、密集块、卷积块和一个用于哈希码输出的全连接层组成。在卷积块和密集块之间加上一个通道注意模块,密集块和卷积块之间加上一个空间注意模
块,构成混合注意机制。通过通道注意模块和空间注意模块获取感兴趣区域(roi)信息,能够同时获得通道间的依赖和空间域的显著特征,进而更有效地关注医学图像的差异。
[0056]
一张医学图像首先通过第一个卷积块得到特征图x∈r
c
×
h
×
w
,其中h和w分别表示特征图的高和宽,c表示通道的数量。接着通过通道注意模块,利用平均池化和最大池化操作压缩输入的特征图。通道注意模块内包括两个连续卷积层,第一个1
×
1卷积用于将池化操作后的特征投影到参数较少的隐藏层,并利用relu函数作为激活函数;第二个1
×
1卷积旨在恢复通道数,并利用sigmoid函数作为激活函数。然后将平均池化向量和最大池化向量逐元素相加,利用sigmoid函数进行加权操作,最后乘以特征图x。
[0057]
通道注意模块可表示为:
[0058][0059][0060]
式中,m
c
(x)是一维通道注意图,大小为c
×1×
1;conv1×1代表滤波器大小为1
×
1的卷积操作;σ表示sigmoid函数;avgpool(
·
)是平均池化函数;maxpool(
·
)是最大池化函数。
[0061]
为了充分利用特征图并加强特征图的传递,将特征图输入到由四个密集层组成的密集块中。每个密集层的输出将传递到每个后续层,以实现创建从早期层到后期层的短路径。空间注意模块是通道注意模块的补充,它重点关注样本信息量最大的部分。令y∈r
c
×
h
×
w
表示从最后一个密集层提取到的特征图,其中h和w分别表示特征图的高和宽,c表示通道的数量,则空间注意模块可表示为:
[0062]
m
s
(y)=σ(conv7×7([avgpool(x);maxpool(x)]))
ꢀꢀ
(3)
[0063][0064]
式中,m
s
(y)是一个二维空间注意图,大小是1
×
h
×
w;conv7×7代表滤波器大小为7
×
7的卷积操作;σ表示sigmoid函数;avgpool(
·
)是平均池化函数;maxpool(
·
)是最大池化函数。
[0065]
最后深度嵌入被映射到哈希码生成层,受语义增强损失、正则化损失和三元组交叉熵损失的约束。
[0066]
步骤4,训练整体网络模型。
[0067]
基于混合注意力机制和孪生神经网络,通过优化整体损失函数来训练模型,整体损失函数包括哈希三元组、语义增强项和量化项。
[0068]
哈希函数可以将医学实例映射为紧凑的哈希码,同时保留原始空间中匹配医学图像和标签的语义信息。由于离散哈希码的汉明距离在深度学习网络中不便于优化,本发明使用由线性层输出的深度嵌入的欧几里德距离代替哈希码的汉明距离。为了捕捉哈希空间中的相对相关性,医学图像的基本三元组项可以表示为:
[0069][0070]
式中,||
·
||2表示二范式向量,用来测量距离;和表示尚未离散化的k位深度嵌入;δ表示边缘阈值。
[0071]
类别级语义有助于区分不同类别的相似哈希码,为了捕捉医学图像的类别级语义,使用匹配的图像和真实标签来约束哈希码的学习过程。
[0072]
语义增强项可以表示为:
[0073][0074]
式中,表示交叉熵损失函数,和分别表示q
i
、p
i
、n
i
的标签信息。
[0075]
由于三元组损失的计算是基于没有离散化的深度嵌入,将会导致量化误差,受迭代量化的启发,使用量化项以减少深度嵌入和哈希码之间的量化误差。
[0076]
量化项可以表示为:
[0077][0078]
式中,||
·
||2表示二范式向量,用来测量距离;和表示尚未离散化的k位深度嵌入,和分别表示q
i
、p
i
、n
i
的k位哈希码。
[0079]
考虑上述三个部分,总体损失函数可以表示为:
[0080]
l
total
=l
tri
α
×
l
se
β
×
l
qu
ꢀꢀ
(8)
[0081]
式中,α和β表示控制损失项权重的超参数。
[0082]
训练整体网络模型时,医学三元组图像的大小调整为256
×
256,并在每轮训练中随机采样作为网络的输入。将三元组损失的边缘阈值δ设置为0.5,总体损失函数的参数α和β分别设置为1和0.8。该网络利用adam函数优化损失,学习率为0.001。评估哈希码位数从8,16,32,48到64的性能和最相似图像从5,10,15,20,25到30的性能。训练100个轮次或直到损失不再降低,得到训练好的模型。
[0083]
步骤5,使用训练好的网络得到检索结果。
[0084]
使用训练好的网络计算测试数据集中样本图像的平均命中率(mhr)、平均平均精度(map)和平均倒数排名(mrr),以此三个指标评价检索性能。其中,命中率(hr)用于测量返回列表中有多少图像与查询图像相似;在返回列表中,平均精度(ap)将与查询图像相似的图像的排名位置做平均运算,从而测量排名质量;倒数排名(rr)指在返回列表中第一个相似图像排序的倒数位置。
[0085]
为了评估本发明方法的有效性,首先进行消融实验:第一,利用本发明方法没有通道注意模块的条件下来提取特征(hase

c);第二,利用本发明方法没有语义增强损失的条件下来学习哈希函数(hase

s);第三,利用本发明方法不考虑量化项的条件下执行学习哈希函数(hase

q);最后,实施本发明方法(hase)。然后将本发明方法与ash,ath,dhn,dpsh,dsh,dtsh和idhn等先进的方法进行检索性能的比较。
[0086]
表1
[0087][0088]
表1是本发明与hase

c、hase

s、hase

q在covid

19radiography数据集上针对不同哈希位的比较实验结果。通过对比结果可以看出本发明提出的方法在covid

19radiography数据集上针对不同哈希位的前10个检索结果的平均精度指标最高。
[0089]
表2
[0090][0091][0092]
表2是本发明与其他方法在covid

19radiography数据集、curated x

ray数据集和ham10000数据集上,通过指标mhr@10、map@10和mrr@10比较实验结果。通过对比结果可以看出本发明提出的方法在三个数据集上的前10个检索结果的平均精度指标最高。
[0093]
具体实施时,以上流程可采用计算机软件技术实现自动运行流程。
[0094]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献