一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于金字塔融合注意力网络的图像超分辨率方法

2022-08-21 13:55:59 来源:中国专利 TAG:


1.本发明属于深度学习、计算机视觉和计算机图像处理技术领域,涉及单张图像超分辨率,为一种基于金字塔融合注意力网络的图像超分辨率方法。


背景技术:

2.图像超分辨率(single image super-resolution,sisr)作为计算机视觉领域一项长期存在的基本任务之一,近年来越来越受到广泛的关注。该任务旨在通过一定的技术手段,将低分辨率图像(low resolution,lr)恢复为高分辨率图像(high resolution,hr),从而获得更清晰的图像细节。在现实场景下,受成像设备能力、网络带宽及存储成本等多方面的影响,往往无法直接获取分辨率较高的图像。因此,从低分辨率图像中重建高分辨率图像在这些情况下显得尤为重要。图像超分辨率在军事、医学、安防、卫星成像、hdtv等多个领域都有着十分广阔的应用前景,具有十分重要的研究价值。然而,由于从lr图像到hr图像的解空间存在一对多映射,因此sisr任务是高度不适定的。
3.近年来,深度学习技术在多个领域都取得了优于传统技术的效果。自从alexnet在2010 年的imagenet竞赛中大放异彩,基于深度学习的方法在计算机视觉的各个领域都得到了广泛的应用。而图像超分辨率任务作为计算机视觉中的一项长期存在底层视觉任务,同样深受其影响。dong等学者在2015年首次将卷积神经网络(concolutional neural network,cnn)引入该领域,提出了srcnn。该模型首先将lr图像上采样相应尺度,继而使用3层卷积搭建的网络将图像映射到hr图像域。与传统算法相比,srcnn取得更优的效果。在此之后,基于cnn的方法在该领域取得了长足的发展。
4.为了进一步提升网络的性能,多数模型在cnn的基础上使用了注意力机制。注意力机制试图模仿人类视觉系统捕捉信息的能力,从而使得网络更关注于显著区域特征,同时降低对无关特征的关注度。传统的注意力机制主要基于两方面的考虑:1.沿通道域计算相关性,为每个通道计算其权重,平等对待通道内的特征。2.沿空间域计算相关性,为通道内的每个像素点计算相关性,不同通道内的同一坐标位置的相关性相同。在此基础上,大量的注意力机制被提出。


技术实现要素:

5.本发明要解决的问题是:现有的多数注意力机制只注重沿通道域或空间域捕捉固有的特征相关性,平等的对待了相应维度内的特征,而这阻碍了注意力机制的能力;在图像超分的整个网络架构中存在多个模块,中间模块的输出即为中间特征,现有的大多数方法都未能充分利用中间特征,而这些特征对于重建空间上下文细节有着重要意义,因此导致性能相对较弱。
6.本发明的技术方案为:一种基于金字塔融合注意力网络的单张图像超分辨率方法,构建一个图像超分网络pfan从给定的低分辨图像中恢复高分辨图像,图像超分网络由依次设置的浅层特征提取模块、堆叠的特征提取基本组bg、上采样模块和重建模块四个部
分组成,包括以下流程:
7.1)浅层特征提取模块使用一层卷积对低分辨率图像i
lr
提取浅层特征f0:
8.f0=h0(i
lr
)
9.其中h0(
·
)表示卷积函数;
10.2)使用堆叠的特征提取基本组bg进行深层次特征提取:
11.fd=h
bg-d
(f
d-1
)=h
bg-d
(h
bg-(d-1)
(
…hbg-1
(f0)

))
12.其中h
bg-d
(
·
)表示第d个bg模块,f
d-1
表示第(d-1)个bg模块的输出;
13.3)使用亚像素卷积作为上采样模块提升分辨率,并同时融合深层特征fd和浅层特征f0:
14.f

=h

(fd f0)
15.其中h

(
·
)表示上采样模块,f

表示上采样后的特征;
16.4)使用一层卷积对上采样的结果f

进行特征重建:
17.i
sr
=hr(f

)
18.最终金字塔融合注意力网络的输出结果i
sr
即为重建的高分辨率图像;
19.其中特征提取基本组bg由n个金字塔融合注意力模块pfab和一个渐进式后向融合模块 pbfm组成,金字塔融合注意力模块pfab由一个基础残差块plain rb和一个金字塔融合注意力网络pfa组成,pfa采用金字塔结构,基础残差块plain rb的输出在输入pfa后先经过卷积及池化,之后使用堆叠的标准残差块rb来建模像素之间的关系,金字塔中间层接收来自对应的上下层rb的输出作为输入,金字塔各个层的输出被上采样到相同尺寸后级联起来,并送入一层卷积层和一层sigmoid层,从而获得注意力掩码,将注意力掩码与当前pfab模块的特征图进行像素级乘积操作后,即获得当前pfab的输出;n个pfab依次串联,同时对于两个相邻pfab的输出在通道域上使用渐进式后向融合模块pbfm进行级联操作,每次级联操作后的特征送入一个基于对比度的通道注意力cca模块以进一步增强关键信息,使用一个1
×
1的卷积层对cca模块增强后的特征的通道域的特征进行融合,其中pfabn的输出结果bn与pfab
n-1
的输出结果b
n-1
直接级联,然后经过cca模块和1
×
1卷积得到对应pfab
n-1
的融合输出b

n-1
,对于pfabi,i=1,

,n-1,相邻pfabi的级联为bi与b

i 1
级联,表示为:
20.b
′i=hf(concat(bi b

i 1
))
21.b
′1为最终渐进式后向融合模块pbfm的输出,记第j个bg模块的输出特征为fj,则fj由 b
′1与f
j-1
进行像素级加和得到。
22.本发明通过引入一种新颖的金字塔融合注意力机制来从给定的低分辨图像中恢复高分辨图像。本发明的堆叠的特征提取基本组bg能够有效利用中间特征,金字塔融合注意力模块pfab通过对像素之间的关系进行建模,能够更好地增强网络的判别能力,从而更好地恢复高频信息,首先采用金字塔融合结构,每层金字塔使用残差块进行堆叠,同时使用降采样操作和多尺度融合策略来确保完整的感受野并掌握更多的上下文细节信息。此外,本发明还提出了一种渐进式后向融合策略,以深层特征指导浅层特征进行特征融合,更好地利用了网络中间层特征。
23.本发明提出了一种基于金字塔融合注意力网络的图像超分网络pfan,用于构建更强大的特征表示,同时增强网络的判别能力。其中,本发明提出了一个金字塔融合注意力网络pfa,并以此构建金字塔融合注意力模块pfab。pfa采用多个残差模块rb来提取中间特征,
同时使用带有降采样操作和多尺度融合策略的金字塔结构来重新校准获得的特征信息。这样的设计有以下三个主要优点:首先,金字塔底层结构维持特征图大小,以学习像素间的相关性。与通道注意力或空间注意力相比,这样的设计能使得网络在处理不同类型的信息时更加灵活;其次,更高层金字塔结构具有更大的感受野,能够以相对较小的开销获取更多的全局上下文信息;第三,相邻金字塔层之间的特征融合会提供跨多分辨率的信息交换,以便更好地应用多尺度信息。因此,上述金字塔融合注意力模块可以预测更为准确的注意力掩码。除此之外,为了充分应用每个pfab产生的分层特征,本发明进一步提出了一个渐进式向后融合模块pbfm来对各个中间层特征进行融合,以生成更具判别能力的特征,最终将多个pfab和一个pbfm结合起来,组成一个特征提取基本组bg,并使用多个bg及全局跳跃连接来构建最终的pfan。一般来讲,当模型的参数量越大,模型的表达能力则越强,因此模型取得的效果越好。然而充分发挥所有参数的能力是十分困难的,因此在一定参数量前提下如何设计网络结构从而达到更好的性能尤为重要。与前人的方法相比,本发明所提出的pfan使用更少的参数量(11.9m)达到了优越的性能。
24.本发明的基于金字塔融合注意力网络的单张图像超分辨率方法相较于现有方法的优点在于:
25.1.提出了一种基于金字塔融合注意力网络的图像超分网络pfan,用于大模型单张图像超分辨任务。在基于不同退化模型的公开数据集上进行了充分的实验,实验结果表明了pfan 的有效性,在定量指标和视觉结果方面均优于现有的最新最先进方法。
26.2.提出了一种像素级注意力机制pfa,使用金字塔融合结构自适应地获取像素间的相关性,同时允许跨多分辨率的信息交换并提供更大更完整的感受野。这种设计使得网络能够产生更为准确的注意力掩码,从而获取更多的像素级和全局性信息。
27.3.提出了一种渐进式后向融合模块pbfm,以充分利用多个中间层特征,从而获取更多上下文信息,以便更好地进行图像恢复。
附图说明
28.图1为本发明方法的流程图。
29.图2为本发明的基于金字塔融合注意力网络的单张图像超分辨率网络的基本架构示意图。
30.图3为本发明中的金字塔融合注意力模块的结构示意图。
31.图4为本发明中的基础残差块的结构示意图。
32.图5为本发明中的标准残差块的结构示意图。
33.图6为本发明中的特征提取基本组的结构示意图。
具体实施方式
34.本发明提供了一种基于金字塔融合注意力网络的单张图像超分辨率方法。近期的多数方法利用注意力机制来关注高频信息。然而,这些方法只考虑通道或空间之间的相互依存关系,导致了对通道或空间特征的平等处理,从而阻碍了注意力机制的能力。本发明提出了一种基于金字塔融合注意力网络的图像超分网络pfan,用于构建更强大的特征表示,同时增强网络的判别能力。具体来说,通过引入一种新颖的金字塔融合注意力机制pfa来从
给定的低分辨图像 lr中恢复高分辨图像hr。pfa模块通过对像素之间的关系进行建模,以更好地增强网络的判别能力,从而更好地恢复高频信息。pfa采用金字塔融合结构,每层金字塔使用引入了bn 层的标准残差块进行堆叠,同时使用降采样操作和多尺度融合策略来确保完整的感受野并掌握更多的上下文细节信息。除了利用像素之间的特征相关性外,本发明还提出了一种渐进式后向融合策略pbfm,以充分利用中间金字塔融合注意力模块pfab产生的分层特征。
35.本发明的图像超分网络pfan训练时使用mae函数计算输出图像与高分辨率真实图像之间的误差,并以此计算图像超分网络各个参数的梯度,并进行参数更新,网络使用adam优化器进行训练。下面结合附图和具体实施方式对本发明做进一步详细描述。
36.步骤1:数据增广。为了更好地应用公共数据集的能力,本发明在模型训练前,首先将训练数据集通过随机水平翻转、随机旋转90
°
、180
°
或270
°
的策略进行数据增强,并将其裁剪为48
×
48的图像块,从而增强网络训练的泛化能力。
37.步骤2:单张图像超分辨率网络模型构建与监督训练。网络模型构建的基本框架如图2所示,包括四个关键部分:浅层特征提取模块、堆叠的特征提取基本组bgs、上采样模块和重建模块。整体结构可公式化为以下流程:
38.(1)浅层特征提取模块使用一层卷积对低分辨率图像i
lr
提取浅层特征f0:
39.f0=h0(i
lr
)#(1)
40.其中h0(
·
)表示卷积函数。
41.(2)使用堆叠的特征提取基本组进行深层次特征提取。
42.fd=h
bg,d
(f
d-1
)=h
bg,d
(h
bg,(d-1)
(
…hbg,1
(f0)

))#(2)
43.h
bg,d
(
·
)表示第d个bg模块的操作,f
d-1
表示第(d-1)个bg模块的输出,fd为堆叠的最后一个bg模块的输出。
44.(3)使用亚像素卷积作为上采样模块提升分辨率,并通过全局跳跃同时融合深层特征和浅层特征。
45.f

=h

(fd f0)#(3)
46.其中h

(
·
)表示上采样模块,f

表示上采样后的特征。
47.(4)使用一层卷积进行最后的特征重建。
48.i
sr
=hr(f

)#(4)
49.最终金字塔融合注意力网络的输出结果i
sr
即为重建的高分辨率图像。
50.特征提取基本组bg由多个金字塔融合注意力模块pfab和一个渐进式后向融合模块 pbfm组成,以第2个bg模块为例:
51.f
2,1
=h
pfab,1
(f1)
52.f
2,2
=h
pfab,2
(f
2,1
) #(5)
[0053][0054]f2,n
=h
pfab,n
(f
2,(n-1)
)
[0055]
f2=h
pbfm
(f
2,1
,f
2,2
,

,f
2,n
) f1#(6)
[0056]
其中h
pfab,i
(
·
)表示第2个bg模块的第i个pfab模块,共n个pfab模块,f
2,i
表示第2个 bg模块的第i个pfab模块的输出,h
pbfm
(
·
)表示pbfm模块,f2为第2个bg模块的输出,由pbfm的融合结果和第一个bg模块的输出f1进行像素级加和得到。
channel attention) 模块可参见论文《lightweight image super-resolution with information multi-distillation network》 (arxiv:1909.11856[eess.iv]),再使用一个1
×
1的卷积层对cca模块增强后的特征的通道域的特征进行融合。对于n个pfab,pfabn的输出结果bn与pfab
n-1
的输出结果b
n-1
直接级联,然后经过cca模块和1
×
1卷积得到对应pfab
n-1
的融合输出b

n-1
,对于pfabi,i=1,

,n-1,相邻pfabi的级联为bi与b

i 1
级联,表示为:
[0061]b′i=hf(concat(bi b

i 1
))
[0062]b′1为最终渐进式后向融合模块pbfm的输出。
[0063]
在上述渐进融合步骤之后,还采用了一个激活函数层(relu)来保持网络的非线性。同样的,在对所有pfab融合操作之后使用跳跃连接(skip-connection)来充分利用浅层特征,并最终产生当前bg模块的输出特征,记第j个bg模块的输出特征为fj,则fj由b
′1与f
j-1
进行像素级加和得到。
[0064]
对于本步骤的监督训练过程,本发明使用adam优化器,优化器参数设置为β1=0.9、β2 =0.99和∈=10-8
。初始学习率设置为10-4
,然后每200个epoch减半。
[0065]
步骤3:测试。对于训练好的网络模型,固定其参数,并将低分辨率测试图像送入网络模型中,得到对应的高分辨率图像。
[0066]
本发明提出了一种全新的金字塔融合注意力网络pfan。现有注意力机制仅沿通道维度或空间维度计算相关性,平等对待了对应维度内部的特征,因此,本发明提出了一种金字塔融合注意力机制pfa,在像素粒度下对相关性进行建模,并利用金字塔结构保证感受野,同时获取全局性和像素级信息,提升了网络恢复高频信息的能力。除此之外,本发明还提出了一种渐进式后向融合模块(pbfm),以深层特征指导浅层特征进行特征融合,更好地利用了网络中间层特征。在公开数据集set5和set14上,本发明取得了领先的成绩,在set5上获得psnr=38.32, ssim=0.9617,在set14上获得psnr=34.21db,ssim=0.9224。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献