一种SwinUnet低照度图像增强方法与流程

2021-12-15 02:33:00 来源：中国专利 TAG：

一种swin unet低照度图像增强方法
技术领域
1.本发明属于图像处理技术领域，具体属于rgb真彩色图像恢复技术，涉及一种swin unet低照度图像增强方法。

背景技术：

2.随着人们对照片质量的追求以及视频监控领域对于低照度图像质量需求的提高，低照度图像增强技术一直是研究者们关注的焦点。在低照度条件下拍摄的图像通常对比度低、噪声大，严重影响了人们对图像信息的获取以及后续的图像研究任务。目前，虽然通过调整摄像机的曝光时间或采用红外摄像头监控器能够解决低照度问题，但摄像机购置成本价高，并对操作者有一定的技术基础，因此当前对于低照度图像提升往往依赖于算法来实现低照度图像的去模糊与清晰化。
3.低照度图像提升算法主要分为基于传统理论算法和基于深度学习算法两大类，基于传统理论算法主要包含基于直方图均衡化(he)理论和retinex理论。he图像增强是以累计分布函数为基础的直方图修改方法，将图像直方图调整为均衡分布以拉伸图像动态范围，从而提高图像对比度。该类方法操作简单、效率高，但生成的图像易受伪影影响、真实感不强。而基于retinex理论方法试图通过将输入图像分解为反射分量和照明分量来照亮图像，反射分量是场景的固有属性，而照明分量受环境照度的影响；基于retinex理论方法通常增强微光图像的照明分量，以近似对应的正常光图像。模型中的参数需人工设定，无法自适应处理图像的多样性，并且针对较高噪声的图像处理效果较差，存在局部细节曝光不足或曝光过度等情况；基于深度学习算法主要采用数据驱动方式，对于给定的低照度图像数据集，学习样本数据的内在规律和表示层次。尽管，基于深度学习的方法一定程度上弥补了传统方法的不足，对某一类图像集取得较好的增强效果，但是大多数深度学习微光增强方法严重依赖于数据集质量，且多假定暗光区域没有噪声，或者不考虑噪声在不同照明区域的分布。实际上，以上先验知识与真实图像存在偏差，且完备的现实图像数据集获取难度大，这些都导致现有深度学习模型不能有效地抑制真实图像噪声，难以产生令人满意的视觉质量。

技术实现要素：

4.本发明的目的是提供一种swin unet低照度图像增强方法，解决了现有技术中存在的低照度图像低可见度、低对比度、噪声污染和颜色扭曲的问题。
5.本发明所采用的技术方案是，一种swin unet低照度图像增强方法，按照以下步骤具体实施：
6.步骤1、构建预处理模块，该预处理模块的输入为原始低照度图像，大小为h*w*3；该预处理模块的输出是特征图i1，大小为h/4*w/4*96；
7.步骤2、构建swin unet模块，该swin unet模块的输入数据是步骤1输出的特征图i1，大小为h/4*w/4*96；该swin unet模块的输出是提取后的特征图i2，大小为h/4*w/4*96；
8.步骤3、构建恢复模块，该恢复模块的输入数据是步骤2输出的特征图i2，大小为h/4*w/4*96；该恢复模块的输出是增强后高质量无噪声的输出图像，大小为h*w*3。
9.本发明的有益效果是，能够有效的将低照度图像恢复到正常光照条件下获取的图像，并保持图像的纹理细节以及颜色信息等。
附图说明
10.图1是本发明方法的流程框图；
11.图2是本发明方法中构建的预处理模块的结构流程图；
12.图3是本发明方法中构建的编码器的结构流程图；
13.图4是本发明方法中构建的swinblock模块的结构流程图；
14.图5是本发明方法中构建的解码器的结构流程图；
15.图6是本发明方法中构建的恢复模块的结构流程图。
16.具体实施例方式
17.下面结合附图和具体实施例方式对本发明进行详细说明。
18.本发明主要基于swin模型与u型框架结合而提出一种低照度图像增强方法。在过去的十年里，随着深度学习的快速发展，以u型框架为基础的深度神经网络往往取得更加先进的性能，充分证明了u型框架在深度神经网络中的优势。同时transformer模型能够学习到明确的全局和远程语义信息交互的独特优势，以swin transformer为视觉骨干，在图像分类、目标检测和语义分割等方面都取得了最先进的性能。本发明通过将swin transformer模型与u型框架结合，结合两者的优点用于低照度图像提升。
19.参照图1，本发明的方法利用swin unet的低照度图像增强网络(以下简称网络)实施，该网络由预处理模块、swin unet模块以及恢复模块组成。预处理模块由patch partition和linear embedding组成，patch partition主要作用是对输入图像进行尺寸压缩，将输入图像的尺寸压缩为原始尺寸的1/4，linear embedding主要作用是将图像特征映射到不同的维度，本发明实施例中的linear embedding映射层数设置为96。swin unet模块由编码器和解码器组成，编码器的主要作用是提取图像语义信息，解码器的主要作用是从提取的语义信息中恢复高分辨率图像特征。恢复模块由patch expanding和linear组成，patch expanding的主要作用是恢复图像特征尺寸，保证与原始输入图像具有相同的尺寸，linear主要作用是将图像特征映射到不同的维度，本发明实施例中的linear embedding映射层数设置为3。
20.本发明的整体思路为：利用上述的预处理模块、swin unet模块和恢复模块，首先，预处理模块对输入图像进行patch partition以及linear embedding操作，减少输入图像的低照度图像尺寸并增维；然后，利用swin unet模块提取图像特征并从高级语义信息中恢复高分辨率图像特征；最后，恢复模块对高分辨率图像特征调整特征尺寸并降维，并输出增强结果。
21.本发明的方法，利用上述的网络框架，按照以下步骤具体实施：
22.步骤1、构建预处理模块，该预处理模块的输入为原始低照度图像，大小为h*w*3；该预处理模块的输出是特征图i1，大小为h/4*w/4*96。
23.参照图2，预处理模块主要作用就是对原始低照度图像进行数据预处理，预处理模
块的结构依次为：原始低照度图像(input_image)作为输入图像
→
patch partition层(conv 4*4*48)
→
linear embedding层(linear h/4*w/4*96)
→
输出特征图i1(output_feature)；
24.其中，patch partition层为卷积运算，卷积核大小为4*4，卷积步长为4，特征映射总数为48个；linear embedding层为线性运算进行特征映射，卷积核大小为h/4*w/4，特征映射总数为96个。
25.步骤2、构建swin unet模块，该swin unet模块的输入数据是步骤1输出的特征图i1，大小为h/4*w/4*96；该swinunet模块的输出是提取后的特征图i2，大小为h/4*w/4*96。
26.swin unet模块主要由编码器和解码器组成，其中编码器中包含了swin block和down sample；解码器中包含了swinblock和up sample。
27.参照图3，编码器的输入数据是步骤1输出的特征图i1，大小为h/4*w/4*96；编码器的输出的是提取的特征图i1
‑
1，大小为h/16*w/16*256。
28.编码器的结构依次为：步骤1输出的特征图i1(input_feature)作为输入数据
→
第一个swin block层
→
第一个down sample层
→
第二个swin block层
→
第二个down sample层
→
第三个swin block层
→
输出特征图i1
‑
1(output_feature)；
29.其中，三个swin block层均为单个swin transformer模块；两个down sample层均为卷积运算，卷积核大小均为3*3，卷积步长均为2，特征映射总数分别为128、256个；
30.单个swin transformer模块采用现有技术，其内部具体结构参照论文(https://arxiv.org/pdf/2103.14030.pdf liu,et al，swin transformer:hierarchical vision transformer using shifted windows)。
31.参照图4，以第一个swinblock层为例，单个swin transformer模块的结构依次为：步骤1输出的特征图i1(input_feature)作为输入数据
→
ln正则化层
→
w
‑
msa子模块(即窗口多头自注意力层)或者sw
‑
msa子模块(即移位窗口多头自注意力层)
→
残差连接层
→
ln正则化层
→
前馈网络
→
残差连接层
→
输出的特征图i1
‑1‑
1；该swinblock模型共循环2次，奇数层与偶数层依次间隔连接，其中奇数层采用的是w
‑
msa子模块(窗口多头自注意力层)，偶数层采用的是sw
‑
msa子模块(移位窗口多头自注意力层)；
32.其中，ln正则化层主要作用是进行ln正则化处理，对输入数据进行归一化处理，将其归到0到1之间，从而保证输入层数据分布是一样的；残差连接层主要是进行残差连接，解决梯度消失和权重矩阵退化问题；前馈网络由两层前馈神经网络组成，第一层前馈网络先把输入向量从d
model
维度映射到4*d
model
维度，激活函数为relu函数，第二层前馈网络再从4*d
model
维度映射回d
model
维度，不使用激活函数，前馈网络的表达式如下式(1)：
33.ffn(x)＝max(0,xw1 b1)w2 b2ꢀꢀꢀ
(1)
34.w
‑
msa子模块首先对输入特征进行窗口划分，本发明实施例中设置的划分窗口大小为7*7，在每个划分的小窗口上进行多头自注意力计算。w
‑
msa子模块将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并映射到原输入空间中得到最终的注意力向量作为输出，w
‑
msa子模块的表达式如下式(2)：
35.multihead(q,k,v)＝concat(head1,...,head
h
)w036.head
i
＝attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀ
(2)
37.其中，q,k,v分别为w
‑
msa子模块的输入，即查询向量、键向量、值向量，w
iq
为不同子空间中q的映射矩阵，w
ik
为不同子空间中k的映射矩阵，w
iv
为不同子空间中v的映射矩阵，本步骤实施例中设置的子空间的个数h为8，在一个单独子空间上的注意力向量的计算方式依次为：先将查询向量q和键向量k点乘，再除以键向量k的维度的平方根得到查询向量q的分数矩阵，最后通过softmax函数将分数矩阵归一化得到权重矩阵，再乘以值向量v即得到一个子空间的注意力向量，表达式如下式(3)：
[0038][0039]
w
‑
msa子模块通过将输入特征映射到不同的子空间再计算注意力向量来捕获特征在不同子空间上的依赖关系，最终得到的注意力向量能更立体更全面的捕获特征之间的依赖关系。
[0040]
sw
‑
msa子模块是在图像特征输入之前，将图像特征进行尺寸为半个窗口大小的像素位移操作，然后再进行w
‑
msa子模块操作。即形成和w
‑
msa子模块所划分同一位置的窗口里面包含的图像特征信息不同，即解决了不同窗口之间信息间交互的问题，具体操作流程如下：
[0041]
将步骤1输出的特征图i1各循环上移和循环左移半个窗口的大小，在移位的基础上再按照w
‑
msa子模块切分窗口，就会得到和w
‑
msa不同的窗口内容；然后运行w
‑
msa子模块，在运行结束后将得到的特征图i1
‑1‑
2再各循环下移和循环右移半个窗口的大小，复原回原来的位置。
[0042]
参照图5，解码器的输入数据是编码器的输出特征图i1
‑
1，大小为h/16*w/16*256；解码器的输出的是提取的特征图i2，大小为h/4*w/4*96。
[0043]
解码器的结构依次为：编码器输出的特征图i1
‑
1(input_feature)作为输入数据
→
第一个up sample层
→
第一个swin block层
→
第二个up sample层
→
第二个swinblock层
→
输出特征图i2(output_feature)。
[0044]
其中，两个up sample层均为反卷积运算，反卷积核大小均为3*3，卷积步长均为2，特征映射总数分别为128、96个；两个swin block层均为单个swin transformer模块。
[0045]
步骤3、构建恢复模块，该恢复模块的输入数据是步骤2输出的特征图i2，大小为h/4*w/4*96；该恢复模块的输出是增强后高质量无噪声的输出图像，大小为h*w*3。
[0046]
参照图6，恢复模块主要作用就是将swin unet模块提取得到的图像特征恢复至原始输入的微光图像尺寸，输出的是增强后高质量无噪声的彩色图像，恢复模块的结构依次为：步骤2输出的特征图i2作为输入(input_feature)
→
patch expanding层(进行rearrange operation运算)
→
linear层(linear，h*w*3)
→
输出图像(output_image)，即成。
[0047]
其中，patch expanding层为rearrange operation运算，将输入特征的分辨率扩大到输入分辨率的4倍，将特征维数降低到输入维数的1/16；linear层为线性运算进行特征映射，卷积核大小为h*w，特征映射总数为3个。
[0048]
在训练基于swinunet的低照度图像增强网络时，考虑到l1损失函数在目标轮廓的对比度、均匀区域的平滑效果方面表现较好，同时ssim损失函数引入结构约束能够很好地
恢复图像的结构和局部细节，感知损失函数能够约束真实图像和预测图像之间的差异，保持图像感知和细节的保真度。感知颜色损失旨在测量欧几里得空间中两幅图像之间的色差，促使网络生成与参考图像相似的颜色。本步骤中，将l1 ssim损失函数感知损失函数感知颜色损失函数组合在一起作为基于swinunet的低照度图像增强网络的总损失函数，表示为下式(4)：
[0049]
l
total
＝(1
‑
λ
s
‑
λ
p
)l1 λ
s
l
ssim
λ
p
l
perc
λ
c
l
colour
ꢀꢀꢀ
(4)
[0050]
式中，l1表示像素级别的l1范数损失，l
ssim
表示结构相似性损失，l
perc
表示感知损失，l
colour
表示感知颜色损失函数；λ
s
、λ
p
、λ
c
是相对应的系数，取值区间为[0,1]，优选λ
s
＝0.2、λ
p
＝0.1、λ
c
＝0.1；
[0051]
其中，l1范数损失公式为i
gt
代表真实图像，i
h
代表预测图像，l代表非零常数，取10
‑6；
[0052]
ssim结构相似性损失公式为μ
x
、μ
y
分别代表图像x、y的像素平均值；σ
xy
代表图像x、y乘积的标准差；分别代表图像x、y的方差；n代表图像样本总数，c1、c2为常量；
[0053]
感知损失函数公式为i
gt
代表真实图像，i
h
代表预测图像，c
j
代表通道，h
j
和w
j
分别代表第j特征图的高度和宽度，代表在预先训练的vgg16模型中第j卷积层获得的特征图。
[0054]
感知颜色损失函数公式为l
colour
＝δe(i
gt
,i
h
)，i
gt
代表真实图像，i
h
代表预测图像，δe代表ciede2000颜色色差计算。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种SwinUnet低照度图像增强方法与流程

相关文献

最热文献