一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于线性注意力机制的低照度图像增强模型

2022-07-06 08:34:14 来源:中国专利 TAG:


1.本发明涉及计算机视觉,低照度图像处理领域,具体是一种基于线性注意力机制的低照度图像增强模型。


背景技术:

2.日常生活中经常需要在低光条件下捕捉图像,例如在夜间或昏暗的室内房间。在此环境下拍摄的图像往往会出现能见度差、对比度低、噪声大等多种问题。虽然自动曝光机制(如 iso、快门、闪光灯等)可以增强图像亮度,但同时也会产生其他的影响(如模糊、过饱和度等)。这将对人类视觉体验和下游视觉任务产生负面影响,例如物体检测、视觉识别,视频监控等。因为这些任务的大多数解决方案都是针对曝光良好的图像设计的,因此,需要一种能有效提高微光图像质量的方法。
3.随着低照度图像增强与低照度图像识别技术的发展,该领域的各研究人员正在不断的进行技术方法的更新中,但在现如今的研究方法仍存在大量空缺,并且还存在很多问题有待改善:如在低照度图像增强过程中,依然会出现细节不够丰富,语义信息保留不足以及失真伪影等的情况;在低照度图像识别中,难以从低质量的图片中获取足够的可识别信息,且大多数都是分两个模型完成导致工作量大,缺少低照度图像识别的信息。由于环境或技术限制而导致质量下降的低光图像存在各种问题,例如曝光不足和高 iso 噪点。或者需求的网络参数过大,整体复杂度过大等结果,这些图像容易出现特征和对比度下降的情况,这会损害低级感知质量并降低依赖准确语义信息的高级计算机视觉任务。
4.基于深度学习的方法在图像处理的诸多任务中表现出了优异的效果。在计算机视觉领域,基于注意力机制的方法可以更加关注当前任务的有意义的语义信息,另外可以更好的不同位置的空间信息更好的学习二维空间权重。但是基于深度学习的方法也存在泛化能力缺乏,并可能带来新的问题,例如复杂度高,难以处理高分辨率图像等问题。因此,开发更通用的算法以获得更好的图像质量是必要的。


技术实现要素:

5.本发明提出一种基于线性注意力机制的低照度图像增强模型,其特征在于:通过引入线性阵列自注意力,它可以直接从特征图中推断出 3-d 全局注意力权重,然后对这些特征图进行细化,使卷积运算能够通过细化特征图来建立长程依赖关系,从而提高卷积神经网络的性能,可以捕获更丰富的高级特征以提升模型性能,并减少了参数量,降低了复杂度和成本。
6.本方法采用的技术方案包含以下步骤:步骤1:首先设计一个可以进行端到端训练的卷积神经网络;步骤2:通过kaiming网络参数初始化方法初始化步骤1的卷积神经网络;步骤3:线性注意力将特征图编码为分别沿垂直和水平方向的两个二维特征编码;步骤4:使用自注意力机制构建全局表示;
步骤5:由多层感知器(mlp)和 sigmoid 激活函数生成 3-d 全局注意力权重;步骤6:将得到的算法进行评估,并输出对应的测试结果;进一步地,在步骤2中,为了关注对低光照图像有主要作用的特征,该网络嵌入了空间注意力模块和通道注意力模块,并在网络连接中使用残差连接和密集连接。
7.本发明提出的基于线性注意力机制的低照度图像增强模型,相对于传统低照度图像增强模型有以下优点。
8.(1)将自注意力机制结合到深度网络模型中,提高了深度学习对图像细节、边缘轮廓的学习能力,场景多样,图像内容具有广泛性,该方法能够自适应地改善图像的质量。
9.(2)本发明提出的注意力机制使卷积运算能够通过细化特征图来建立长程依赖关系,从而提高卷积神经网络的性能。
10.(3)本发明具有更少的参数量,降低了成本,提高了网络的通用性。
附图说明
11.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
12.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
13.图1为本发明提出的基于线性注意力机制的低照度图像增强模型网络示意图。
14.图2为残差模块示意图。
15.图3为使用本发明实施例提供的图像增强方法对原始图像进行增强后输出的图像。
具体实施方式
16.结合附图及实施例,对本发明所述的方法作详细阐述。应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
17.记自注意力模块输入为前一个隐藏层中的卷积特征图,将其维度变为,其中c是通道数,。首先使用两个卷积对输入执行和运算后,表示将具有不同权重矩阵的图像特征相乘而获得的两个特征空间,其中;将两个张量转换为矩阵形式,然后将的转置与相乘得到的结果进行softmax运算,得到注意力图::用来表示模型合成区域j的图像内容区域i的相关性,两个位置的特征表示越相似,它们之间的相关性越强。同时,将全局信息和局部信息整合到一起,将x输入到
卷积进行线性变换得到特征图,然后将注意力图β和h(x)相乘得到自注意力特征图,记为,并将其形状变为,得到:最后,得到注意力层的输出为:为了兼顾领域信息和远距离特征相关性,引入初始化为参数,并可以通过逐步的学习来更新其权重参数,让网络首先关注领域信息,之后再关联到全局其他位置的特征。因此自注意力模块具有关联全局信息,建立长远依赖关系能力。
18.基于线性自注意力机制的低照度图像增强模型网络示意图如图1所示。该方法总的流程如下。
19.它可以被看作是一个独立的计算单元,以增强卷积神经网络的表达能力,并且可以集成到任何其他网络中作为一个即插即用模块。
20.对于给定的特征图f∈rc×h×w,lasa可以直接推断出具有全局信息的3-d权重f
attention
∈rc×h×w来细化特征图。
21.细化后的特征图可以计算为:f

=f
·fattention
,其中
·
表示逐元素乘法,c,h,分别表示特征图的通道数、高度和宽度。对于线性注意力,我们首先将特征图f∈rc×h×w沿纵横轴编码为一对二维特征编码f
x
∈rc×1×w,fy∈rc×h×1,可以表示为:为:接下来,我们使用矩阵变换操作来变换大小特征图f
x
∈rc×w×1和fy∈rc×1×h到f
x
∈r1×c×w,fy∈r1×c×h。
22.我们将特征图f
x
∈r1×c×w,fy∈r1×c×h沿着通道维度进行拼接,得到一个新的特征图f
xy
∈r1×c×
(h w)
。 f
xy
∈r1×c×
(h w)
的通道数将扩大到原来的三倍,然后在通道维度上分为q、k、v三部分。全局关系计算特征图的值,可以表示为:在计算出特征图的全局关系后,我们采用残差学习策略来促进梯度流动。最后,注意力权重计算为:其中 mlp 是一个多层感知器,σ 是一个 sigmoid 函数。
23.损失函数包含如下:
图像内容函数定义由预先训练vgg-19网络的conv5_2层提取的高级特征。
[0024]24.为多尺度结构性损失函数,其中m代表不同尺度的图像,和代表预测图像和标准图像的平均值,和代表预测图像和标准图像的标准差,是两幅图像之间的协方差。α和βm代表两者之间的权重系数items,c1和c2是两个常量。
[0025]
其中d(x,y)是l1距离,是来自vgg模型的第i个隐藏特征。
[0026]
l
mix
是整体损失函数,其中λ1λ2λ3,是用于权衡损失函数l
mix
重要性的权重系数。
[0027]
为了测试步骤4所得网络的泛化能力,使用测试集对其进行验证。本发明使用峰值信噪比 (peak signal to noise ratio ,psnr)和结构相似性(structural similarity , ssim)作为评价指标。psnr是一种评价图像的客观标准,经常作为信号重建质量的测量方法,用于度量峰值信号和背景噪音之间的平均能量之比,其单位为db,数值越大表示失真越小。给定一组图像i和图像o,其psnr为:其中mse为两张图像的均方误差,maxi为i的最大像素值。
[0028]
由于psnr是基于对应像素点间的误差对图像质量进行评价,并未考虑到人眼的视觉特性,即人眼对空间频率较低的对比差异敏感度较高,人眼对亮度对比差异的敏感度较色度高,人眼对一个区域的感知结果会受到其周围邻近区域的影响,导致经常出现评价结果与人的主观感受不一致的情况。ssim作为一种全参考的图像质量评价指标,分别从亮度、对比度和结构三个方面度量图像的相似性,能从总体上与人的视觉感受保持一致。ssim的定义如下:其中 和分别为的均值和方差;和分别为o的均值和方差;为i和o的协方差;,,和为固定值,分别为0.01和0.03;l为像素值的范围。
[0029]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献