基于注意力机制的多尺度神经网络红外图像彩色化方法

2022-06-05 04:46:28 来源：中国专利 TAG：

1.本发明属于计算机视觉技术领域，具体涉及一种基于注意力机制的多尺度神经网络红外图像彩色化方法。

背景技术：

2.红外图像彩色化是计算机视觉领域一个备受关注的研究问题，在安防监控、无人系统、军用装备等各类系统中具有广泛的应用前景。特别地，如何实现高质量、高分辨率、多细节的彩色红外图像是该技术亟待突破的挑战。近年来，基于深度学习技术的人工智能发展迅速，在目标检测、图像分类、语音识别等领域取得了突破性进展。红外图像彩色化作为计算机视觉的应用热点之一，同样得益于深度神经网络技术的不断创新，彩色化效果得到显著提升。
3.常见的可见光灰度图像彩色化方法一般采用生成对抗网络实现彩色化功能。其生成器一般由u-net网络结构或者编解码网络结构(encoder-decoder)构成，这种结合了多尺度信息的生成器相比平坦网络可以获取更丰富的全局和局部信息。这样的网络设计在可见光灰度图像彩色化问题上取得了很好的结果。但由于红外图像和可见光图像在成像原理上的差异，直接将可见光图像彩色化方法用于红外图像彩色化中，会产生较为模糊的边缘以及细节信息，导致成像质量较差。

技术实现要素：

4.本发明的目的在于提供一种基于注意力机制的多尺度神经网络红外图像彩色化方法，以获得高质量的彩色红外图像。本发明提出的网络结构以多尺度网络作为骨干，设计创新的注意力机制与特征连结方法，以增强网络的特征提取与利用能力。此外，本发明提出了一种针对红外图像彩色化网络的复合损失函数，有效地将像素损失、边缘损失和感知损失结合起来。基于网络结构和损失函数上的创新，本发明在红外图像着色结果上达到了目前最好的效果。
5.为达到上述目的，本发明采用如下技术方案来实现的：
6.基于注意力机制的多尺度神经网络红外图像彩色化方法，包括以下步骤：
7.1)从数据库中获取成对的红外图像和彩色图像，进行图像预处理后分为训练集和测试集；
8.2)构建基于注意力机制的多尺度神经网络模型，将训练集输入该基于注意力机制的多尺度神经网络模型进行训练；
9.3)将测试集输入训练好的基于注意力机制的多尺度神经网络模型进行测试，得到基于注意力机制的多尺度神经网络模型的新能和客观指标评估；
10.4)将待处理的红外图像输入测试通过的基于注意力机制的多尺度神经网络模型，则输出彩色化图像。
11.本发明进一步的改进在于，步骤2)的具体实现方法如下：
12.所述基于注意力机制的多尺度神经网络模型是从输入端到输出端的映射函数f(xn×h×w；θ)，θ＝{θ1，θ2，...，θn}，θ1表示第一层的参数，n表示多尺度神经网络的总层数，xn×h×w表示输入图像，n，h，w分别为输入图像的维度，高度和宽度，损失函数为：
[0013][0014]
其中，x，y分别表示输入红外图像和对应的彩色图，l
pixel
，l
edge
，l
perceptual
分别为像素损失、边缘损失和感知损失，x
′
，y
′
分别表示利用拉普拉斯边缘算子得到的红外图像边缘图和对应的彩色图边缘图，ti(x)和ti(y)分别表示红外图像和彩色图通过预训练的vgg19模型得到的特征图，∈为常数；
[0015]
基于注意力机制的多尺度神经网络模型的训练是以取得损失函数l(x，y)的最优值来估计映射函数f中的参数θ的最优值θ
′
；
[0016]
取得损失函数l(x，y)的最优值来估计映射函数f中的参数θ的最优值θ
′
具体为：
[0017][0018]
其中，l和i分别是卷积层的索引和迭代次数，η是学习率，是在第i次迭代时损失函数l(x，y)对第1层的偏导数，经过多尺度神经网络模型中参数多次的迭代更新，损失函数达到最小，此时模型中的参数就是映射函数f中参数θ的最优值θ
′
；
[0019]
所述基于注意力机制的多尺度神经网络模型包括特征提取和特征融合，特征提取包括多个卷积操作以对输入图像进行下采样并使得通道维度加大，同时对图像特征进行提取得到特征图像，公式为：
[0020][0021]
其中，n，h，w分别为输入图像的维度，高度和宽度；表示通过特征提取得到的图像，n
′
，w
′
，h
′
表示输出图像的维度，高度和宽度；θ1表示特征提取过程中的参数；
[0022]
特征融合是对特征图像进行上采样并逐步使得通道的维度减少，最后生成一个三维的彩色化图像，公式为：
[0023][0024]
其中，θ2为在特征融合中的参数，y1为生成的彩色化图像，wo，ho分别表示输出图像的高度和宽度。
[0025]
本发明进一步的改进在于，∈＝10-3
。
[0026]
本发明进一步的改进在于，通过使用自适应矩估计的梯度优化方法，提高基于注意力机制的多尺度神经网路的收敛速度，给定超参数0≤β1，β2≤1，给定时间步为t，动量v
t
即小批量随机梯度g
t
的指数移动平均：
[0027]mt
＝η[β1m
t-1
(1-β1)g
t
]
[0028][0029]
其中，η表示学习率，m
t
和v
t
分别表示梯度的一阶矩和二阶矩，在迭代的阶段，m
t
和v
t
的偏移矫正公式为：
[0030][0031][0032]
并根据如上的公式对各个参数μ
t
进行更新：
[0033][0034]
其中β1，β2和∈为预设的参数，μ表示模型中的参数，μ
t
为第t个步长中μ的值，m
′
t
和v
′
t
分别为经过偏移矫正后的梯度的一阶矩和二阶矩的估计值。
[0035]
本发明进一步的改进在于，基于注意力机制的多尺度神经网络中的注意力机制，包括如下：
[0036]
通道注意力机制：
[0037][0038][0039]
其中，σ表示sigmoid激活函数，f为通道注意力模块的输入，表示点乘操作，maxpool为最大池化操作，为最大池化层的输出，为最大池化层的输出，是两个权重矩阵的参数；
[0040]
空间注意力机制：
[0041][0042]
mc(f)＝σ(f7×7(avgpool(f)，maxpool(f)))
[0043]
其中f7×7为卷积核大小的卷积操作，为空间注意力模型的输出。
[0044]
本发明进一步的改进在于，步骤3)的具体实现方法如下：
[0045]
进行测试得到的基于注意力机制的多尺度神经网络模型的性能和客观指标评价，包括如下：
[0046][0047][0048]
其中μ
x
，μy分别表示图像x和y的均值和方差，分别表示图像x和y的标准差，σ
xy
表示图像x和y的协方差，c1和c2为常数。
[0049]
与现有技术相比，本发明至少具有如下有益的技术效果：
[0050]
本发明提供的基于注意力机制的多尺度神经网络红外图像彩色化方法，利用注意力机制等适于红外图像特征的创新设计，有效解决了已有技术存在的特征提取能力不足、视觉感知质量不高等问题。
[0051]
进一步，本发明提出的针对红外处理的注意力机制可以从多层级的特征图中提取多尺度的上下文信息，并且借助于高分辨率的特征信息，能够在上采样过程中有效保留更多的细节纹理，提高网络的处理精度。
[0052]
进一步，本发明提出针对红外图像彩色化的复合损失函数，利用边缘损失和感知损失在保证红外图像彩色化质量的基础上提高结构信息质量和视觉感知效果。
附图说明
[0053]
图1为本发明基于注意力机制的多尺度神经网络红外图像彩色化方法的整体框架；
[0054]
图2为本发明注意力模块的示意图；
[0055]
图3为本发明下采样卷积模块的示意图；
[0056]
图4为本发明上采样卷积模块的示意图；
[0057]
图5为本发明残差卷积模块的示意图；
[0058]
图6为本发明多核感知模块的示意图。
具体实施方式
[0059]
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0060]
本发明提供的基于注意力机制与多尺度神经网络的红外图像彩色化方法，其主要创新点在网络结构和损失函数两方面：
[0061]
1)网络结构：首先，在多尺度网络中每一层对应的编码(encoder)、解码(decoder)卷积层后添加由通道注意力和空间注意力组成的注意力模块来增强网络的特征提取能力。通道注意力用于使彩色化网络专注于特征图(feature maps)的某一层，空间注意力则使网络专注于特征图中的某一区域，二者是不同维度上的注意力机制。通道注意力和空间注意力的有效结合可以大幅提高彩色化网络的特征提取能力。其次，在多尺度网络结构中，跳级连结是常见的特征图融合方法，这样的跳级连结可以加速网络收敛。本发明在跳级连结中对于前级的特征图先进行提炼处理，再与后级的特征图完成连结操作。该设计的原因在于：较低层级中，由于特征图只经过了少量的卷积层，这些特征图包含的信息远少于较高层级。如先将较低层级中的特征图优先通过注意力机制和若干卷积层进行提炼处理，可以有效提高网络的彩色化能力。最后，考虑到多尺度网络具有在不同分辨率尺度下的特征提取能力并生成相应分辨率的高质量彩色化结果，本发明设计的红外图像彩色化网络在训练阶段将同时输出多种分辨率尺度的彩色化输出。
[0062]
2)损失函数：本发明使用的损失函数由像素损失l
pixel
、边缘损失l
edge
以及感知损失l
perceptual
三部分组成。首先，像素损失l
pixel
由视觉任务中常用的l1损失函数计算，在训练前期还是训练后期均能提供有价值的梯度信息。其次，本发明提出了一种新颖的边缘损失l
edge
，首先利用拉普拉斯边缘算子提取生成的彩色化图像和基准图像的边缘信息，随后用charbonnier损失函数来计算二者之间的差异，能够在不破坏原始红外图像内容的基础上有效增强彩色化图像的结构信息。最后，本发明采用预训练的vgg19模型作为特征提取工具来计算感知损失l
perceptual
，使彩色化图像与基准图像在高维度特征空间里具有更高的一致性，从而提升彩色化图像的视觉感知质量。
[0063]
其中，网络结构中，在多层级网络的下采样阶段，利用最大池化代替卷积操作。考虑到红外图像像素值普遍偏低，卷积操作是某一区域内像素值的加权和，而最大池化返回某一区域内像素的最大值。在像素值普遍偏低的情况下，最大值往往代表着最具有信息的部分，与卷积相比最大池化有着更好特征提取能力。
[0064]
网络结构中，传统的多尺度网络通常会最大化下采样次数，以更好的采集到多层级信息，导致更多的参数量和更长的训练时间。本发明提出的多层级网络只对输入图进行了两次的下采样操作，对比目前最优的彩色化网络有20％～30％的参数量减少和25％左右的速度提升。
[0065]
在空间注意力机制中，采用最大池化进行特征的提取。空间注意力机制一般采用最大池化和平均池化来进行特征的提取，然而平均池化对于红外图像的特征提取能力有限，反而会导致模型复杂度的增加。单独使用基于最大池化的空间注意力机制即可在红外图像彩色化应用中取得较好的处理效果。
[0066]
在损失函数中，添加边缘损失以增强彩色化红外图像的结构信息；添加感知损失增强彩色化红外图像的视觉感质量。
[0067]
实施例
[0068]
参考图1-5，本发明提出的基于注意力机制的红外图像着色方法主要包括特征提取、特征融合和生成着色图像等三个步骤：
[0069]
1)图1是本发明的整体框架示意图。完成红外图像着色任务的神经网络模型输入是红外图像i
in
，输出是着色图像i
out
。在训练过程中，输入红外图像与真实彩色图像是对准的。该网络将学习一个函数(模型)f满足下列关系：
[0070]
f(i
in
)＝i
out
[0071]
具体地，网络首先经过三次下采样卷积模块从原始输入红外图像i
in
中提取四个不同分辨率的高维特征信息f1，f2、f3和f4，然后通过注意力模块将f1、f2、f3和f4改善后与上采样模块中对应分辨率的高维特征信息连结起来，最终利用连结后的高维特征信息预测出着色图像。如图1所示，本发明的整体模型主要包括特征提取f1、特征融合f2和生成彩色图像f3等三个模块。
[0072]
2)特征提取f1：f1采用一系列下采样卷积模块学习i
in
的高维特征表示f1、f2、f3和f4，可表达为f1，f2，f3，f4＝f1(i
in
)。首先，输入红外图像的大小1
×h×
w，经过一个预处理模块后得到一个大小为64
×h×
w的特征图f1；此后该特征图经过一个下采样卷积模块后，得到第一个高维特征信息f2，其大小为128
×
h/2
×
w/2；接着f2经过第二个下采样卷积模块得到f3，其大小为256
×
h/4
×
w/4；最终，f3通过第三个下采样卷积模块得到f4，大小为512
×
h/8×
w/8。每个特征提取过程的运算如下：
[0073]
f1＝g
pre
(i
in
)
[0074]
f2＝g1(f1)
[0075]
f3＝g2(f2)
[0076]
f4＝g3(f3)
[0077]
其中g
pre
表示预处理卷积操作，g1、g2和g3表示第一、二和三个下采样卷积模块。
[0078]
3)特征融合f2：基于注意力机制的特征过程可表示如下：
[0079]fout
＝g
att
(f)，f∈f1，f2，f3，f4[0080]
其中，f
out
表示特征融合的输出。特征融合具体过程为：将特征提取阶段产生的特征图f1、f2、f3和f4作为输入，通过注意力模块和多核感知模块对特征图进行改善后输出与输入同大小的特征图。具体过程为，对于特征图f1，首先经过两组注意力模块对特征图进行改善，再经过多核感知模块提取出更丰富的细节信息，最后经过两组注意力模块得到输出f
1_out
；对于f
2_out
、f
3_out
和f
4_out
，为了减少参数量并加速训练，只通过注意力模块对其进行改善，特别地，相应的注意力模块的个数为4、2和1。
[0081]
4)生成彩色图像f3：改善后的特征图f
1_out
、f
2_out
、f
3_out
和f
4_out
有着不同的分辨率，为了融合其中的信息，依次从低分辨率的特征图逐步上采样到高分辨率，具体步骤如下。首先，特征图f
4_out
通过上采样卷积模块生成与f
3_out
同尺寸的特征图并与f
3_out
连结起来生成特征图f
3_final
；此后连接起来的总特征图经过上采样卷积模块生成与f
2_out
同尺寸的特征图并与f
2_out
连结起来生成特征图f
2_final
；最终f
2_out
通过上采样卷积模块生成与f
1_out
同尺寸的特征图并与f
1_out
连结起来生成特征图f
1_final
，f
1_final
通过输出模块生成最终的着色图像i
out
。
[0082]
虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种智能点餐方法、装置、系统及存储介质与流程

基于注意力机制的多尺度神经网络红外图像彩色化方法

相关文献

最热文献