一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于残差密集网络和梯度损失的红外光与可见光图像融合方法与流程

2021-11-03 13:01:00 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,具体涉及一种基于残差密集网络和梯度损失的红外光与可见光图像融合方法。


背景技术:

2.图像融合在计算机视觉中占有举足轻重的地位,它从不同的输入图像中提取关键信息,将它们合成在一起,并输出具有更好视觉效果的融合图像。红外光与可见光图像融合是图像融合的一个重要分支。红外传感器可以对物体进行全天候监测,并通过物体发出的热辐射产生红外图像,在各种环境下对物体的轮廓具有优异的性能。然而,红外图像的纹理细节较差,分辨率较低。可见光图像具有丰富的纹理信息和较高的空间分辨率,能够反映被检测对象的真实环境,适应人类视觉系统。但在恶劣天气或环境下,其目标检测性能大大降低。因此,融合图像兼具红外图像和可见光图像的优点,广泛应用于各领域中,如:自动驾驶领域、监控领域和显著性检测领域。
3.红外和可见图像融合的困难在于如何从两幅源图像中提取各自突出的特征,以及如何设计合适的融合方法,以生成融合了两者重要信息的融合图像。在这方面,已经提出了很多方法,分为两个分支:传统的融合方法和基于深度学习的方法。
4.传统的图像融合方法使用多尺度变换(mst)、稀疏表示(sr)、混合模型和其他方法。这些方法能够准确提取特征信息,但需要复杂的矩阵运算,边缘模糊问题仍然存在。在最近的研究中,基于深度学习的方法:deepfuse、sesf fuse和attention fgan可以改进传统方法的缺点,但也有一些局限性。首先,深度学习网络通常直接从前一卷积层提取特征映射,忽略全局信息,导致融合结果质量低下。其次,一些方法没有采用端到端模型,而是采用带融合策略的编码器

解码器模型。过于简单的融合机制可能会使图像边缘不清晰。最后,损失函数的设计也会影响网络训练的结果。如果没有为网络训练选择合适的损失函数,损失函数的值收敛速度可能会减慢,训练速度可能会降低。


技术实现要素:

5.针对现有技术存在上述问题,本技术提供一种基于残差密集网络和梯度损失的红外光与可见光图像融合方法,其将浅层特征信息和深层特征信息结合起来以生成效果很好的融合图像。
6.为实现上述目的,本技术的技术方案为:一种基于残差密集网络和梯度损失的红外光与可见光图像融合方法,包括:
7.将红外光图像和可见光图像放入预先训练好的vgg

16网络中进行参数提取,对提取到的特征图值进行标准化和归一化处理得到权重块;
8.再将红外光图像和可见光图像放入网络模型中进行端到端的无监督学习,生成融合图像模型;
9.训练所述融合图像模型,在训练过程中利用损失函数不断进行反向传播迭代,更新学习内容,所述损失函数是基于所述权重块优化梯度;
10.通过训练后的融合图像模型进行图像融合任务。
11.进一步的,将红外光图像和可见光图像放入预先训练好的vgg

16网络中进行参数提取,具体为:
12.将红外光图像和可见光图像分别放入预先训练好的vgg

16网络中提取特征图,设定每个图像在最大池化层前提取n个特征图;对提取到的每个特征图进行信息量化,公式如下:
[0013][0014]
其中,i
a
表示输入图像种类,即为红外光图像i
r
或为可见光图像i
v
;n表示特征图数量;表示提取到的特征图值;代表拉普拉斯算子,公式采用第二范数形式进行计算,h、w和c分别表示图像的长、宽和通道数。
[0015]
进一步的,使用softmax函数对提取到的特征图值进行标准化和归一化处理得到两个权重块,获取权重块的公式如下:
[0016][0017]
其中,和是可调节自适应的权重块,m是一个用来衡量权重块的超参数;最终结果会保持在0到1之间,并且它们的和是1。
[0018]
进一步的,所述网络模型包括特征提取器、残差密集块、深度特征提取器和特征重组器,所述特征提取器包括两个相同的卷积层,所述残差密集块为多个,所述深度特征提取器包括两个卷积核大小不同的卷积层,所述特征重组器包括一个卷积层,每个卷积层前都设置有填充层。
[0019]
进一步的,所述残差密集块的前三层由卷基层和激活层构成,第四层为卷积层。
[0020]
更进一步的,所述损失函数定义如下:
[0021]
l=l
s
λl
g
[0022]
其中,s代表结构,g代表梯度;l
s
控制融合结果的整体感觉和视觉感知,l
g
的作用则为突出图像边缘细节,λ是一个调整损失函数值的超参数。
[0023]
更进一步的,结构损失函数l
s
包括ssim和mse两部分;所述ssim衡量输入图像和融合图像间的结构相似性,所述mse表示了两幅图像的均方误差;
[0024]
损失函数l
ssim
计算公式如下:
[0025][0026]
其中,ssim具体计算公式为:
[0027]
[0028]
其中,μ代表平均值,σ代表标准差,c1、c2和c3是用来保持矩阵稳定的参数;
[0029]
所述mse计算公式为:
[0030][0031]
其中,p代表图像的像素值;损失函数l
mse
被定义为:
[0032][0033]
所以结构损失函数ls具体为:
[0034]
l
s
=l
ssim
αl
mse
[0035]
其中,α是适用于转换损失函数的超参数。
[0036]
更进一步的,梯度损失函数l
g
能够增强融合结果的边缘锐度,ω和l
g
相互配合来展现效果更好的边缘细节:
[0037][0038]
其中,f代表菲波那切范数,所以l
g
被定义为:
[0039][0040]
本发明由于采用以上技术方案,能够取得如下的技术效果:本技术可以在现有的公开红外光和可见光图像数据集上进行融合操作,融合出来的结果可以有效的提取红外光图像边缘信息和可见光图像纹理细节,二者进行结合后形成更符合人眼视觉效果的融合图像。
附图说明
[0041]
图1为红外光与可见光图像融合方法流程图;
[0042]
图2为网络模型架构图;
[0043]
图3为残差密集块架构图;
[0044]
图4为本专利和其他先进的融合方法间的定性比较图。
具体实施方式
[0045]
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
[0046]
实施例1
[0047]
如图1所示,本实施例提供一种基于残差密集网络和梯度损失的红外光与可见光图像融合方法,具体步骤如下:
[0048]
步骤1:将红外光图像和可见光图像放入预先训练好的vgg

16网络中进行参数提取,对提取到的特征图值进行标准化和归一化处理得到权重块;
[0049]
具体的,当源图像被输入到网络时,源图像也被传到特定的提取器,用于提取特征
图和计算特征值,目的是用来生成需要在训练过程中使用的参数。设定每个源图像在vgg

16网络5个最大池化层前提取5个特征图。提取后,开始计算特征图中所包含的信息,它们的梯度用于计算,以便与损失函数中的梯度损失很好地配合。在深度学习框架下,梯度的计算和存储也变得更加高效。因此,它也适用于卷积神经网络中,对提取到的特征图进行信息量化,公式如下:
[0050][0051]
其中,l
a
表示输入图像种类,即为红外光图像i
r
或为可见光图像i
v
。n表示提取到的特征图数量,这里把它设定为5。表示提取到的特征图值。代表拉普拉斯算子,公式采用第二范数形式进行计算,h、w和c分别表示图像的长、宽和通道数。最后,使用softmax函数对提取到的特征图值进行标准化和归一化处理得到两个权重块,在训练过程中放入损失函数中去优化梯度,计算权重块的公式如下:
[0052][0053]
其中,和是可调节自适应的权重块,m是一个用来衡量权重块的超参数,以便计算。最终结果会保持在0到1之间,并且它们的和是1。
[0054]
步骤2:再将红外光图像和可见光图像放入网络模型中进行端到端的无监督学习,生成融合图像模型;
[0055]
具体的,本专利充分利用卷积核残差信息,建立了网络模型,其包括特征提取器、残差密集块、深度特征提取器和特征重组器。如图2所示,融合图像通过网络结合而成,所以本方法提出的网络是一个端到端的网络架构,不需要融合策略的。所有卷积核的内核大小和步长被设定为3x3和1,除了在深度特征提取器中的一个卷积核被设定为1x1。在每个卷积核之前,都放置一个填充层来防止图像产生边缘伪影。为了减少信息的丢失,无需池化层。
[0056]
在特征提取器中,第一个卷积层对输入图像进行了浅层特征提取,然后将提取的信息传递到下一个卷积层中。如图3所示,在残差密集块中,不仅局限于对于卷积神经网络更深层更优先的训练,而且还会很好地利用残差信息来对网络进行训练。卷积增强特征的传播,在深度特征提取器中,引入1x1的卷积层来整合先前层提取到的信息,并用3x3的卷积层提取其他深层次的信息来进行融合和残差学习。在特征重组器中,对所有信息进行整合重构,生成融合图像。
[0057]
步骤3:训练所述融合图像模型,在训练过程中利用损失函数不断进行反向传播迭代,更新学习内容,所述损失函数是基于所述权重块优化梯度;
[0058]
具体的,损失函数由两部分组成,整体定义如下:
[0059]
l=l
s
λl
g
[0060]
其中,s代表结构,g代表梯度。l
s
控制融合结果的整体感觉和视觉感知,l
g
的作用则为突出图像边缘细节,λ是一个调整损失函数值的超参数。
[0061]
结构损失函数l
s
由ssim和mse两部分组成。ssim可以衡量输入图像和融合图像间的结构相似性,它对光线、对比度失真和相关性损失非常敏感。l
ssim
计算公式如下:
[0062][0063]
ssim具体计算公式为:
[0064][0065]
其中,μ代表平均值,σ代表标准差,c1、c2和c3是用来保持矩阵稳定的参数。
[0066]
mse表示了两幅图像的均方误差,被计算为:
[0067][0068]
其中,p代表图像的像素值。l
mse
被定义为:
[0069][0070]
所以结构损失函数ls被计算为:
[0071]
l
s
=l
ssi
m αl
mse
[0072]
其中,α是适用于转换损失函数的超参数。
[0073]
l
g
可以增强融合结果的边缘锐度,ω和l
g
相互配合来展现效果更好的边缘细节:
[0074][0075]
其中,f代表菲波那切范数,所以l
g
被定义为:
[0076][0077]
步骤4:通过训练后的融合图像模型进行图像融合任务。
[0078]
如图4所示,融合图像显著的位置使用方框标记并在右下角进行放大便于查看。与其他九种方法相比,本专利有三个显著的优点。首先,本专利的结果可以保存更多的细节。它得益于残差密集块的部分,它充分利用了每个卷积层的信息。使用本专利提出的方法可以更生动地看到图中两个人的形状,桶的轮廓也比其他方法更清晰。此外,本专利方法包含了更多的边缘纹理。图中的男式外套和栏杆上的条纹,云和窗的边缘,由于使用了梯度损失函数,体现得更为明显。最后,本方法的整体视觉效果看起来更友好。无论图像信息或对比度如何,性能都会更好。这是由于网络的前两个卷积层提取图像的全局特征,最后一个卷积层融合和重建图像的全局特征和细节特征。
[0079]
表1为本专利的定量分析平均值
[0080][0081][0082]
除了定性分析,还在tno数据集上进行了了定量分析,采用熵、差异性总和、图像相似性和相关系数四个图像度量指标来进行评测。
[0083]
如表1所示,最好的结果都用黑色加粗字体标明。从信息论的角度上来看,熵可以度量融合图像中包含的信息量。熵的值越大,图像包含的信息越多。但随着信息量的增加,融合图像中的噪声信息也随之增加,这可能就会导致图像整体效果失真。所以尽管使用本专利生成的图像熵的值不是最好的,但是这并不影响图像表现的效果。差异性总和计算的是从源图像传输到融合图像的信息量,本专利拥有表现良好的差异性总和代表使用本专利方法生成的融合图像有着丰富的纹理细节。图像相似性意在测量输入图像和输出图像之间的相似性,包括光、相关损失和失真对比度。如果它的值趋近于1,则意味着融合图像和源图像之间越相似,生成的融合图像效果越好。本专利与其他方法相比有着很好的结构相似性。相关系数测量的是源图像和融合图像之间的线性相关水平,本专利有着较高的相关系数水平代表本专利方法可以给融合图像提供很好的表现。
[0084]
在本专利中,提出了一个新的端到端深度学习框架来解决可见光和红外光图像融合任务。从源图像中提取的权重块可以调整损失函数和网络结构之间的平衡,使输出结果清晰,反映纹理细节。为了保存尽可能多的特征信息,引入残差密集块网络来生成表现友好的图像。为了使融合结果的边缘纹理表现明显,使用设计的梯度损失与权重值能很好地协调。在对tno数据集进行定性和定量分析后,表明本专利提出的方法能够有效地融合红外光和可见光图像。
[0085]
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献