基于编解码结构的深度分层去雾网络

2022-08-10 15:18:33 来源：中国专利 TAG：

1.本发明涉及一种基于编解码结构的深度分层去雾网络，属于图像处理技术领域。

背景技术：

2.雾的形成是因为大气中存在浑浊介质，如漂浮的灰尘、微粒、水滴，大气光照射时遇到这些悬浮颗粒物会发生散射现象。在这种环境中拍摄图像，拍摄物体的反射光在到达成像设备的过程中一直退化，这种退化是空间可变的，散射量取决于场景点与摄像机之间的距离，同时反射光与观察者直接接收到的光线叠加后，最终造成观察者获取到的图像有颜色失真、纹理模糊和细节信息大量丢失的问题。
3.因为图像是人们了解信息、观察世界、分享见闻的一个重要媒介，低质量的雾霾图像通常会起到严重的干扰作用。在目标检测、卫星遥感、图像分类等高级计算机视觉任务中，我们需要了解到图像所拍摄到的精确环境信息，而雾霾的存在往往会将一些潜在信息隐藏，从而影响到后续研究的准确性和精确度。因此在过去的十年里，克服因雾霾所导致的图像退化问题，从有雾图像中恢复清晰的图像一直是一项具有现实意义但同时也很有挑战性的任务。
4.然而，模糊图像中雾霾的分布是十分复杂的，不同图像区域的雾霾浓度并不一致，图像中的场景对象由于雾霾的遮挡，原有的颜色、细节与结构被破坏，想要重建高质量的无雾图像并不容易。近年来，单图去雾算法受到了国内外学者的广泛关注，很多有效的去雾模型被提出，其中基于物理模型的单图去雾算法和基于端到端的单图去雾算法取得了显著成效。
5.基于物理模型的去雾算法从数学角度描述雾图成像原理，通过估计模型中的未知参数，推演雾天模糊图像的降质过程，最后恢复出无雾的干净图像。该类算法主要分为两种，一种是通过各种先验知识来对大气散射模型施加约束，从而估计出图像对应的传输映射、全局大气光等参数。另一种是通过搭建神经网络模型来估计出有雾图像的传输图等信息，从而重建无雾图像，其摆脱了对先验知识的依赖，更准确地估计出了大气散射模型中的传输映射。基于物理模型的去雾算法使单图去雾变得更简单、更有效，但是一方面基于观察得到的先验知识只是一种统计信息，无论对先验的依赖有多强，在这些先验不成立的情况下，去雾效果就显得不尽人意，适用范围有很大的局限性。另一方面，很多深度学习算法中会将全局大气光当作是一个常量来简化模型，这样并不能够准确恢复出真实的无雾图像，会导致去雾模型不够健壮，不利于推广。
6.另一种基于深度学习的去雾算法则是直接以端到端的方式来重建清晰图像，该类方法可以在一定程度上避免大气散射模型的弱点，将探索合适的手工先验问题简化为构建合适的神经网络结构的问题。基于大规模的成对数据集直接学习模糊图像与无雾图像之间的映射关系，从而直接输入模糊有雾图像，就能生成对应的无雾清晰图像。因为这种端到端的去雾算法并不依赖于大气散射物理模型，对不均匀的雾霾图像也能够处理得很好，更具普适性。基于端到端的去雾算法的技术难点主要来源于两个方面，一是获取大规模真实数
据集并不现实，因此构建的网络模型不仅要求能够学习雾霾图像的分布规律，还需要有很好的泛化能力，使其适用于其他真实雾图；二是网络模型运行效率问题，想要完美平衡内存参数与去雾性能并不是一件容易的事情，如何构建简单高效的去雾网络值得深思。

技术实现要素：

7.技术问题：随着卷积神经网络在图像处理领域崭露头角，越来越多的学者将其引入单图去雾任务中，然而目前的去雾算法依然存在以下两个问题：
8.第一，使用深度学习思想解决单图去雾问题，需要构建大规模成对的数据样本进行训练，获取成对的真实数据是极其困难的，目前的去雾算法主要是在合成数据集上训练，能够很好地去除合成图像中的雾霾，然而真实世界的雾图中雾霾分布非常复杂且不均匀，当这些去雾算法应用于真实雾图时，往往会丢失原始图像的纹理细节和颜色信息，且去雾后的图像还有很多的雾霾残留。
9.第二，为了在真实数据集上获得良好的去雾性能，很多去雾算法通过增加网络的深度获得更多的潜在信息，进行网络训练的过程中会产生巨大的计算开销，降低内存效率，减慢了去雾模型的运行速度，没有在网络参数与模型性能之间取得很好的平衡。
10.技术方案：针对当前图像去雾任务中存在的问题，本发明提出了一种基于编解码结构的深度分层去雾网络，旨在减少网络参数的情况下尽可能提取雾霾图像各个空间区域的有效特征，包括如下步骤：
11.步骤1，构建分层网络模型
12.构建一种基于空间金字塔匹配的卷积神经网络分层结构，共计n层，第一层网络输入原始的分辨率的有雾图像，有雾图像表示为i
gazy
，之后，每一层网络的输入图像都是上一层网络输入图像的基础上做进一步分割，分割成多个互不重叠的区块，作为下一层网络的输入图像；以图像分割方式减少网络运算，每层网络输入的分块图像的块数为2
i-1
，i是层数，将第i层的第j个图像块表示为
13.每一层网络均包括一对编码器和解码器，编码器表示为ei，解码器表示为di，i是层数，每层网络的编码器的结构相同，共享权重参数，降低了网络的训练复杂度。同样，每层网络的解码器的结构也相同；提取输入有雾图像的局部特征，由粗到精地重建无雾干净图像。降低了计算成本。网络底层是细粒度图像块，上层是粗粒度图像块，信息流自下而上传播，可以共享下层网络提取到的特征信息，进而提升网络的去雾性能。
14.步骤2，每层编码器和解码器学习每层输入图像的特征，重建清晰图像后通过跳跃连接反馈到上层网络；
15.网络的工作流程是从第底层最先开始，信息流自下而上传播，
16.第n层的编码器提取该层输入分块图像的局部特征，得到相应块数的特征图输出，通过将特征图两两合并的方式，将图像块数减半，馈送到解码器中重建清晰图像，此时输出清晰图像的图像块数与上一层网络输入的图像块数相同，并送到上一层网络，与上一层网络的输入分块图像一起做为该层解码器的输入；
17.并且将第n层中两两合并后的特征图输入到n-1层中，上层解码器网络共享下层编码器网络所提取的局部细节特征，从而进一步重建更加清晰的无雾图像。
18.依次计算n-2、n-3
……
2，1层的输出，最终重建的清晰图像，也是第一层网络输出的图像；步骤3，选取数据集图像，将数据集图像分为训练集和测试集，通过数据集图像对网络模型进行训练，得到训练后的网络模型；
19.训练集为o-haze&i-haze真实数据集。测试集为o-haze、i-haze和nh-haze测试集。
20.进一步的，步骤2包括如下步骤：
21.步骤2.1，第n层的2
n-1
个输入图像块进入编码器网络，得到输出特征图，如下：
[0022][0023]
式中，f
3,j
是输入图像块经编码器处理后所输出的2
n-1
个特征映射，然后在空间意义上将上下相邻的两个特征图进行合并，将2
n-1
个特征图压缩为2
n-2
个新的特征图，与第n-1层的特征图尺寸一致，表示如下：
[0024][0025]
表示串联操作，串联后的特征f
′
n,j
被馈送到解码器网络dn中，则第n层网络的重建图像为：
[0026]in，j
＝dn(f
′
n，j
)，j∈[1，2
n-2
]
[0027]
此时，第n层输出的是2
n-2
个图像块，与第n-1层尺度一致，利用跳跃连接将其馈送到第n-1层网络，则第n-1层编码器e
n-1
的输入是和i
n,j
相加的结果，j∈[1,2
n-2
]，如下：
[0028][0029]
在得到第n-1层编码器e
n-1
的特征输出f
n-1,j
后，将其与第n层解码器dn的特征输入f
′
n,j
相加，进一步利用下层网络所提取的丰富局部信息，表达式如下：
[0030][0031]
同理，将第n-1层相邻的两个特征映射沿空间维度连接，以组成尺度更大的图像块，表达式为：
[0032][0033]
将f
′
n-1,j
输入到解码器d
n-1
中，得到第n-1层的重建图像i
n-1,j
:
[0034]
t
n-1，j
＝d
n-1
(f
′
n-1，j
)，j∈[1，2
n-3
]
[0035]
同样的，依次计算n-2、n-3
……
2，1层的输出，最终重建的清晰图像，也是第一层网络输出的图像表示为：
[0036][0037]
特征信息流自下而上传播，具有局部感受野的细粒度特征信息辅助上层网络生成进一步的粗粒度特征信息，直至最终重建原始分辨率的清晰图像。
[0038]
进一步的，每层的编码器都包含3个卷积层和6个残差通道注意力块；其中一个卷积层后面连接两个残差通道注意力块。编码器解码器通过引入残差通道注意力块捕获特征图各个通道间的依赖关系，合理分配网络资源，进一步提高了卷积神经网络的学习能力与鉴别能力。在保留输入图像低频信息的同时，专注学习高频信息。并且考虑到不同通道之间的相互依赖，使用通道注意力机制为各个通道自适应地分配权重，提高了卷积神经网络的
表征能力。
[0039]
进一步的，每层的编码器都包含1个卷积层、2个和6个残差通道注意力块，具体连接方式为，2个残差通道注意力块、一个反卷积层、2个残差通道注意力块、一个反卷积层、2个残差通道注意力块和1个卷积层依次连接。
[0040]
进一步的，使用重建损失、感知损失和正则化损失训练网络，具体如下：
[0041]
重建损失：
[0042]
通过衡量参考图像与预测图像之间的像素距离来帮助重建清晰的图像，避免失真。
[0043]
感知损失：
[0044]
式中，c、h、w分别对应特征图的通道数、高度和宽度。φ表示vgg预训练网络第四层卷积层中提取的特征图。感知损失通过计算参考图像与预测图像之间的特征差异，使得预测图像的细节和纹理尽量接近于参考图像，提高重建图像的视觉效果。
[0045]
正则化损失：
[0046]
旨在降低图像中相邻像素间的差异，以避免图像上的噪声对输出结果产生较大影响，帮助重建图像变得更加平滑
[0047]
总损失函数：l＝λrlr λ
p
l
p
λ
tv
l
tv
[0048]
通过对重建损失、感知损失和正则化损失加权求和，得到最终的损失函数，其中，它们的权重参数分别为：λr＝1，λ
p
＝6e-3
，λ
tv
＝2e-8
。
[0049]
进一步的，网络模型为3层，第一层是原始分辨率的输入有雾图像，第二层将原始分辨率输入有雾图像垂直切分，第三层在第二层的基础上水平切分，将输入图像分割为4个小区块。从第一层到第三层对应着从粗到细的图像区块，分别为1、2、4块。
[0050]
有益效果：经实验证明，本发明与其他模型相比，取得了优越的去雾性能。在定量比较实验中，本发明在所有测试集上都获得了最好的去雾性能，其中在o-haze测试集上，本发明比griddehazenet的峰值信噪比值高0.18％；在i-haze测试集上，本发明比epdn的峰值信噪比值高19.33％；在nh-haze测试集上，本发明相较于ffa-net，psnr值提升了0.69％。在定性比较实验中，本发明也呈现了良好的视觉效果，成功重建了图像的纹理、边缘和颜色信息。在真实图像测试集中，本发明能够最大程度上去除图像中的雾霾，明显优于其他去雾算法。因此，本发明中分层网络结构和残差通道注意力块的设计是合理的，能够对单图去雾任务产生积极影响，帮助重建高质量的无雾干净图像。
附图说明
[0051]
图1是整体网络结构图。
[0052]
图2是编码器解码器结构图。
[0053]
图3是残差通道注意力块结构图。
[0054]
图4是本发明与现有技术的视觉比较结果图。
[0055]
图5是本发明与现有技术的定量比较结果表格图。
具体实施方式
[0056]
本发明的基于编解码结构的深度分层去雾网络，具体包括如下步骤：
[0057]
步骤1：构建分层网络结构
[0058]
如图1所示，将网络设为3层，第一层是原始分辨率的输入模糊图像，第二层将原始分辨率输入图像垂直切分，第三层在第二层的基础上水平切分，将输入图像分割为4个小区块。从第一层到第三层对应着从粗到细的图像区块，分别为1、2、4块。
[0059]
将输入模糊图像表示为i
hazy
，干净的重建图像表示为i，将第i层的第j个图像块表示为在网络的第一层中，输入图像未经切割，表示为i
hazy
；第二层，输入图像垂直切分后，图像块从左至右，依次表示为和第三层，和在一起水平切割，图像块自上而下、从左至右表示为：和
[0060]
网络中的每一层都有一对编码器和解码器，编码器表示为ei，解码器表示为di，i是层数，取值为1，2，3。分层图像块网络将原始输入图像分割成多个互不重叠的区块，作为每一层的输入。最低级别的编码器提取输入图像的局部特征，得到相应块数的特征图输出，通过将特征图两两合并的方式，将图像块数减半，馈送到解码器中重建清晰图像，此时输出清晰图像的图像块数与上一层网络输入的图像块数相同。网络第三层是最精细的网络层，其重建清晰图像后通过跳跃连接反馈到上层网络，上层网络基于最精细的图像特征进一步完善全局结构，以生成最终的无雾图像。
[0061]
网络的整个工作流程是从第三层最先开始，信息流自下而上传播。首先，第三层的4个输入图像块进入编码器网络，得到输出特征图，如下：
[0062][0063]
式中，f
3,j
是输入图像块经编码器处理后所输出的4个特征映射，然后在空间意义上将上下相邻的两个特征图进行合并，将4个特征图压缩为2个新的特征图，与第二层的特征图尺寸一致，表示如下：
[0064][0065]
表示串联操作，串联后的特征f
′
3,j
被馈送到解码器网络d3中，则第三层网络的重建图像为：
[0066]i3，j
＝d3(f
′
3，j
)，j∈[1，2]
[0067]
此时，第三层输出的是两个图像块，与第二层尺度一致，利用跳跃连接将其馈送到第二层网络，则第二层编码器e2的输入是和i
3,j
相加的结果，j取1和2，如下：
[0068][0069]
在得到第二层编码器e2的特征输出f
2,j
后，将其与第三层解码器d3的特征输入f
′
3,j
相加，进一步利用下层网络所提取的丰富局部信息，表达式如下：
[0070][0071]
同理，将第二层左右相邻的两个特征映射和沿空间维度连接，以组成尺度
更大的图像块，表达式为：
[0072][0073]
将f
′2输入到解码器d2中，得到第二层的重建图像i2:
[0074]
i2＝d2(f
′2)
[0075]
同样地，第二层解码器的输出与原始图像分辨率一致，仅包含一个图像块，通过跳跃连接添加到第一层的输入，并通过编码器e1得到输出特征图，如下：
[0076]
f1＝e1(l
hazy
i2)
[0077]
重复之前的操作，将第二层网络的特征图与第一层网络的特征输出相连接，共享局部特征，则解码器d1的特征输入为：
[0078][0079]
最终重建的清晰图像表示为：
[0080][0081]
以上则是分层去雾网络的工作流程。其中，特征信息流自下而上传播，具有局部感受野的细粒度特征信息辅助上层网络生成进一步的粗粒度特征信息，直至最终重建原始分辨率的清晰图像。
[0082]
步骤2：编码器解码器设计
[0083]
如图2所示，编码器由卷积层和残差通道注意力块构成，解码器由残差通道注意力块和反卷积层构成。反卷积又称转置卷积，是一种上采样方式，其与卷积层互为逆过程，卷积层的前向传播过程对应着反卷积层的反向传播过程，目的是为了将缩放的特征图还原到原始尺寸，重建清晰图像。
[0084]
残差通道注意力块(residual channel attention block,rcab)的网络结构如图3所示，其在残差块的基础上，添加了通道注意力机制，对不同通道给予不同权重，引导有限资源的合理分配。单图去雾作为一种图像恢复任务，重点在于恢复图像中被雾霾掩盖的区域的纹理和细节，因此高频信息的获取是非常重要的，但是网络层数越多，越容易丢失丰富的低频信息，低频信息是图像中像素缓慢变化的部分，揭示了图像的亮度、颜色和对比度等信息。通过在网络中使用残差块，可以使得网络保留浅层模块提取的低频信息，聚焦于深层网络中的高频细节，同时降低了计算复杂度，简化了训练。
[0085]
因为卷积层统一处理特征图的每个通道，忽略了不同通道之间的依赖关系，导致网络的输出不能获取到更多的上下文信息。在残差块中加入通道注意力机制解决了这一问题，将各个通道区别对待，给每个通道分配合理权重，进一步提高了卷积神经网络的学习能力与鉴别能力。
[0086]
步骤3：选择合适的损失函数
[0087]
使用重建损失函数(l1损失函数)，通过衡量参考图像与预测图像之间的像素距离来帮助重建清晰的图像，避免失真。如下：
[0088][0089]
7.使用感知损失函数，计算参考图像与预测图像之间的特征差异，使得预测图像
的细节和纹理尽量接近于参考图像，提高重建图像的视觉效果。c、h、w分别对应特征图的通道数、高度和宽度。φ表示vgg预训练网络第四层卷积层中提取的特征图。如下：
[0090][0091]
使用正则化损失函数(全变分损失)，降低图像中相邻像素间的差异，以避免图像上的噪声对输出结果产生较大影响，帮助重建图像变得更加平滑。如下：
[0092][0093]
整体的损失函数设置为：
[0094]
l＝λrlr λ
p
l
p
λ
tv
l
tv
[0095]
通过对重建损失、感知损失和正则化损失加权求和，得到最终的损失函数，其中，它们的权重参数分别为：λr＝1，λ
p
＝6e-3
，λ
tv
＝2e-8
。
[0096]
步骤4：选取数据集图像，将数据集图像分为训练集和测试集，通过数据集图像对网络模型进行训练，得到训练后的网络模型。
[0097]
使用真实数据集上训练本发明的去雾网络，选用o-haze&i-haze数据集，包含7000对256
×
256的图像。测试集包含o-haze、i-haze和nh-haze。
[0098]
本发明基于pytorch 1.10.0框架实现，所有实验均在nvidia rtx 3080gpu上进行，一共迭代了3000次，使用adam优化器训练去雾模型，始学习率设置为0.0001，每1000次迭代，学习率衰减为原来的0.1。
[0099]
步骤5：选择合适的图像评价指标，测试网络模型性能，并与其他去雾模型进行比较，验证去雾模型的有效性。
[0100]
使用定量比较和定性比较评估本发明的去雾效果，图5给出了本发明与现有技术的定量比较结果，使用峰值信噪比psnr和结构相似性ssim作为质量评价指标，可以看出本发明收获了最好的去雾性能。
[0101]
图4给出了本发明与现有技术的定性比较结果，可以看出本发明成功去除了雾霾，高质量地还原了图像的颜色信息和对比度。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种针对无人机端的轻量级目标检测方法

基于编解码结构的深度分层去雾网络

相关文献

最热文献