一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度先验的盲图像去模糊方法

2022-04-30 14:40:52 来源:中国专利 TAG:


1.本发明涉及图像去模糊领域,更具体地说,涉及一种基于深度先验的盲图像去模糊方法。


背景技术:

2.在图像获取过程中,由于受到大气湍流、成像设备与目标之间相对运动、成像设备聚焦不准等因素的影响,获取的图像会有一定程度的模糊。在交通监控、生物医学、天文观测、遥感遥测等众多领域,清晰图像能够提供更多有用的信息。为了满足各个应用领域对清晰图像的需求,一般从硬件和软件两个方面入手。通过改善硬件的方式存在成本高、技术难度大、易受环境影响等问题,而图像去模糊技术是指从算法层面,通过图像处理手段利用模糊图像复原出清晰图像。
3.图像去模糊通过对图像降质过程的建模,求解图像降质过程的逆过程,估计潜在的清晰图像。根据模糊核是否已知,图像去模糊方法可以分为非盲图像去模糊和盲图像去模糊。盲图像去模糊方法是指在降质模型或降质参数未知的情况下同时估计出原始的清晰图像和模糊核,具有严重的病态性,需要引入图像的先验信息来约束可行解的空间。现有的盲图像去模糊方法大致可以分为两类:基于最优化模型的方法和基于深度学习的方法。基于最优化模型的盲图像去模糊方法对自然图像的统计特性进行数学建模。前期的工作主要利用图像梯度先验。由于清晰图像的梯度通常服从拖尾分布(heavy-tailed distribution),levin等利用混合高斯模型近似建模拖尾分布。perrone等使用投影交替最小化策略求解去模糊的目标函数能够有效避免平凡解的产生。图像梯度是图像相邻像素间的关系,而图像块先验能够表示更大的图像结构。michaeli等将跨尺度相似图像块之间的相似性作为正则约束项估计模糊核。pan等将暗通道先验以正则项的形式引入去模糊目标函数。基于最优化模型的盲图像去模糊方法利用手工设计的先验构建图像先验模型,通常难以建模复杂的图像特征。基于深度学习(deep learning)的方法通过深度神经网络(deep neural network,dnn)自适应地学习清晰图像的特征,可分为监督学习和非监督学习的方法。监督学习的盲图像去模糊方法需要使用成对的模糊/清晰图像数据集训练网络,学习模糊图像到清晰图像的映射,当待复原图像与训练数据集的特征差异较大时,无法保证网络的重建质量。非监督学习的盲图像去模糊方法无需数据集训练网络,自监督学习是一种常用的非监督学习方法,以模糊图像为监督信号,无需模糊核或清晰图像真值。ren等提出的selfdeblur模型利用dip-net估计清晰图像,利用全连接网络估计模糊核,同时更新两个网络的参数估计模糊核与清晰图像。
4.自然图像先验为图像复原提供有效的附加信息,约束图像复原问题可行解的空间。传统先验对自然图像的统计特性进行数学建模,但是数学表达式难以表示复杂的自然图像先验。近年来,研究学者提出利用深度网络建模图像先验信息,这种由深度网络所表示的先验信息称为深度先验。深度先验通过深度网络自适应学习清晰图像的特性或模糊图像到清晰图像的映射关系,无需显式地用数学模型表达先验。深度先验可分为显式和隐式建
模两类。一类使用数据集训练网络,学习图像某种潜在的先验信息;另一类利用网络结构建模图像的先验信息。
5.本发明公开了一种基于深度先验的盲图像去模糊算法,将网络模型与数学模型相结合,联合建模清晰图像和模糊核,采用自监督学习的方法端到端地复原清晰图像。本发明利用dip-net隐式地建模图像平滑性先验约束来估计清晰图像,通过求解模糊核最小化问题的精确解估计模糊核,加速模型收敛;同时利用复原的清晰图像和模糊核计算损失函数并更新网络参数,交替迭代估计清晰图像和模糊核。与传统模型的方法相比,本发明无需利用图像金字塔模型由粗到细估计模糊核;与监督学习的盲图像去模糊方法相比,本发明以模糊图像作为自监督信号,无需模糊核或清晰图像真值,没有训练过程。与selfdeblur相比,本发明求解关于模糊核最优化问题的精确解,可以直接求得当前估计图像的最优模糊核,加速模型收敛,并有效降低模型复杂度;同时,本发明通过求解模糊核最优化问题直接求得二维表示的模糊核,加快网络迭代。本发明公开的方法能够准确估计出清晰图像与模糊核,同时有效抑制复原图像中存在的噪声。


技术实现要素:

6.有鉴于此,本发明实施例提供了一种基于深度先验的盲图像去模糊方法,以复原出原始的清晰图像。
7.为了实现上述目的,本发明实施例提供了如下方案:
8.一种基于深度先验的盲图像去模糊方法,其特征在于,包含以下4个步骤:
9.步骤1.构建图像生成网络模型,并初始化网络参数
10.本发明使用图像生成网络dip-net实现随机向量z到清晰图像x的映射x=f(z;θ),利用网络本身抑制噪声,隐式地建模平滑性约束先验项。dip-net具有u型编解码结构,包含五组下采样和上采样卷积结构,每一组卷积操作均通过跨层连接将下采样层的特征与对应相同维数的上采样层特征进行融合,跨层连接的通道数固定为16。网络输入z为区间(0,1)上均匀分布的随机向量,即z~u(0,1),其尺寸与模糊图像一致,通道数一般设置为8或16,本发明设置为8。
11.本发明的参数设置包括学习率η、网络输入随机向量z、模糊核尺寸s、模糊核正则化参数λh、最大迭代次数k。随机初始化图像生成网络参数θ0,即可得清晰图像的初始估计x0=f(z;θ0),以降质图像作为自监督信号,利用梯度下降法更新参数θ
*
使损失函数收敛。
12.步骤2.估计模糊核
13.固定网络参数θ
k-1
,x
k-1
=f(z;θ
k-1
),用下式估计模糊核hk:
[0014][0015]
式中,表示傅里叶变换,表示傅里叶变换的复共轭,表示傅里叶逆变换,为图像沿水平方向和垂直方向的偏导数,λh为模糊核正则化参数。
[0016]
步骤3.估计清晰图像
[0017]
步骤3.1计算损失函数:
[0018]
固定当前模糊核的估计hk,给定θ
k-1
,更新θk。本发明使用dip-net生成清晰图像,因
此网络的损失函数为:
[0019][0020]
上式为均方误差损失函数,也可以使用其他连续可导函数作为网络的损失函数。
[0021]
步骤3.2更新图像生成网络参数:
[0022]
计算损失函数关于网络参数的梯度,利用梯度下降法更新θk:
[0023][0024]
式中,η表示学习率。本发明使用adam梯度下降法更新参数。
[0025]
步骤3.3生成清晰图像:利用更新参数后的图像生成网络生成清晰图像xk=f(z;θk)。
[0026]
步骤4.判断收敛,输出模糊核与清晰图像的估计
[0027]
通过步骤2和步骤3,完成对目标函数的一次迭代求解,获得模糊核的估计hk,并将清晰图像的估计x
k-1
更新为xk。如果此时算法收敛或达到最大迭代次数,则停止迭代,输出最终的模糊核与清晰图像估计;否则,令k=k 1,然后重复步骤2和步骤3。
[0028]
优选的,所述模糊核正则化参数λh的初始值为2
×
10-5

[0029]
优选的,所述图像生成网络中输入数据通道数固定为8。
[0030]
优选的,所述学习率衰减系数为0.5。
[0031]
本发明公开了一种基于深度先验的盲图像去模糊算法,端到端地复原清晰图像。本发明将网络模型与数学模型相结合,联合建模清晰图像和模糊核。利用深度卷积神经网络dip-net隐式地建模图像平滑性先验约束来估计清晰图像,通过求解模糊核最小化问题的精确解估计模糊核;交替迭代更新模糊核与清晰图像,利用复原的清晰图像和模糊核计算损失函数并更新网络参数。本发明无需利用图像金字塔模型由粗到细估计模糊核,同时以模糊图像作为自监督信号,无需模糊核或清晰图像真值,没有训练过程。本发明公开的方法能够准确估计出清晰图像与模糊核,同时有效抑制复原图像中存在的噪声。
附图说明
[0032]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]
图1为本发明实施例所提供的盲图像去模糊的示意图;
[0034]
图2为本发明实施例所提供的基于深度先验的盲图像去模糊方法结构的示意图;
[0035]
图3为本发明实施例所提供的基于深度先验的盲图像去模糊方法的流程图;
[0036]
图4为本发明实施例所提供的图像生成网络的示意图;
[0037]
图5为本发明实施例所提供的图像生成与网络参数更新过程的示意图;
[0038]
图6为本发明实施例所提供的在lai数据集上各种方法的平均psnr和ssim比较;
[0039]
图7为本发明实施例所提供的在levin数据集上各种方法的平均psnr、ssim、er和运行时间比较;
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
在图像去模糊问题中,均匀模糊图像的降质过程可以表示为如下卷积形式:
[0042]
y=h*x n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)式中,y为模糊图像,h为模糊核,x为清晰图像,n为噪声,*为二维卷积操作。在卷积模型下,盲图像去模糊方法即研究如何从模糊图像y中同时估计出模糊核h和清晰图像x,如图1所示。
[0043]
本发明使用图像生成网络估计清晰图像,并引入模糊核h的正则化约束项作为模糊核先验,目标函数可表示为:
[0044][0045]
式中,y为模糊图像,f(z;θ)为网络输入为z、网络参数为θ的图像生成网络,h为模糊核,λh为模糊核正则化参数。目标函数中前一项为数据保真项,保证重建图像符合降质模型;后一项为模糊核h的正则化约束项,使用范数对其约束,使其满足凸优化条件,能够快速收敛到全局最优解,并对其进行稀疏处理,以保证运动模糊核的稀疏性。
[0046]
图2为本发明公开的基于深度先验的盲图像去模糊方法的整体结构,本发明将网络模型与数学模型结合,通过交替求解式(2)所示的最优化问题同时估计清晰图像和模糊核。利用dip-net估计清晰图像,计算损失函数更新网络参数θ的过程就是图像更新的过程,根据模糊核最小化问题的最优性条件估计模糊核,交替迭代更新清晰图像与模糊核。
[0047]
本发明实施例公开了一种基于深度先验的盲图像去模糊的方法,以复原出原始的清晰图像。参见图3,上述方法包括以下4个步骤。
[0048]
步骤1.构建图像生成网络模型,并初始化网络参数
[0049]
图像生成网络dip-net实现随机向量z到清晰图像x的映射x=f(z;θ)。dip-net旨在解决图像去噪问题,网络以有噪图像作为监督信号,计算损失函数更新网络参数,在随机向量拟合有噪图像的过程中,会优先生成无噪清晰图像。
[0050]
本发明使用的图像生成网络dip-net具有u型编解码结构,其具体结构如图4所示,包含五组下采样和上采样卷积结构,每一组卷积操作均通过跨层连接将下采样层的特征与对应相同维数的上采样层特征进行融合,跨层连接的通道数固定为16。网络输入z为区间(0,1)上均匀分布的随机向量,即z~u(0,1),其尺寸与模糊图像一致,通道数一般设置为8或16,本发明设置为8。selfdeblur仅对模糊图像的亮度通道进行去模糊,网络输出为单通道的灰度图,彩色图像合成时会发生图像颜色失真。本发明对模糊图像的rgb通道同时进行复原,模型的输出通道数为3,网络直接生成彩色图像,无需合成过程。图中输入向量尺寸为8
×
271
×
271,从第一组卷积层至第六组卷积层,特征图尺寸从271
×
271下降至9
×
9,每一层的特征通道数固定为128。
[0051]
本发明方法的参数设置包括学习率η、网络输入随机向量z、模糊核尺寸s、模糊核正则化参数λh、最大迭代次数k。随机初始化图像生成网络参数θ0,即可得清晰图像的初始估计x0=f(z;θ0),以降质图像作为自监督信号,利用梯度下降法更新参数θ
*
使损失函数收敛。
[0052]
本发明采用交替求解的方式求解式(2)中的网络参数θ与模糊核h,即先固定估计清晰图像的网络参数θ
k-1
,求解模糊核hk,再固定模糊核的估计hk,求解估计清晰图像的网络参数θk,直到收敛或达到最大迭代次数。
[0053]
步骤2.估计模糊核
[0054]
对模糊核进行更新,即固定网络参数θ
k-1
,估计模糊核hk,此时最优化问题可以表述为:
[0055][0056]
本发明在频域直接求解模糊核h的精确解,来加快目标函数的求解速度。由于傅里叶运算固有的周期性会造成振荡现象,因此利用图像的偏导数建模数据保真项。令x
k-1
=f(z;θ
k-1
),式(3)可写为:
[0057][0058]
式中,为梯度算子,为图像沿水平方向和垂直方向的偏导数。式(4)是关于h的二次函数,存在闭合解。计算式(4)中目标函数关于h的导数并令其为0:
[0059][0060]
整理可得:
[0061][0062]
式中,^为反转操作。根据卷积定理可知,空域中图像的卷积等效于傅里叶变换的频域乘积,将式(6)转换到频域求解:
[0063][0064]
式中,表示傅里叶变换,表示傅里叶变换的复共轭。根据式(7)求得模糊核的闭合解为:
[0065][0066]
式中,表示傅里叶逆变换。
[0067]
步骤3.估计清晰图像
[0068]
非盲图像去模糊问题通常可以建模为如下的最优化问题:
[0069][0070]
式中,y为模糊图像,h为模糊核,x为清晰图像,r(x)为平滑性函数,λ
x
为正则项系数。目标函数中前一项为数据保真项,保证重建图像符合降质模型;后一项为平滑性先验约束项,抑制噪声放大。
[0071]
dip-net通过图像生成网络f(z;θ),利用网络本身抑制噪声,等效于隐式地建模式(9)中平滑性约束先验项r(x),网络损失函数为:
[0072][0073]
式中,θ为网络参数,z为网络输入,x
*
=f(z;θ
*
)为网络生成的清晰图像,θ
*
为求解的最优网络参数。
[0074]
dip-net是一种自监督学习方法,无需图像真值与训练过程。其本质上是一种正则化方法,对于每一幅图像都需要估计网络参数,参数更新过程实际上是最优化问题的求解过程。由于图像复原过程是图像降质过程的逆过程,在逆过程中通常会放大噪声,而dip-net具有的平滑性约束能够抑制噪声放大,因此可以应用于多种图像逆问题的求解。
[0075]
步骤3.1计算损失函数:
[0076]
对清晰图像进行估计,即固定当前模糊核的估计hk,给定θ
k-1
,更新θk,此时目标函数简化为:
[0077][0078]
本发明使用dip-net生成清晰图像,式(11)中的目标函数即为网络的损失函数:
[0079][0080]
式(12)为均方误差损失函数,也可以使用其他连续可导函数作为网络的损失函数。
[0081]
步骤3.2更新图像生成网络参数:
[0082]
计算式(12)的损失函数关于网络参数的梯度,利用梯度下降法更新θk,
[0083][0084]
式中,η表示学习率。图5给出了图像生成与网络参数更新的过程。在图像估计过程中,给定输入向量z和初始网络参数θ0。在第k次迭代时,利用网络前一次生成的清晰图像x
k-1
=f(z;θ
k-1
)与模糊图像y计算损失函数关于网络参数的梯度,反向传播更新网络参数θk,根据当前估计的网络参数θk生成清晰图像xk=f(z;θk),重复以上过程,直至损失函数收敛或达到最大迭代次数。
[0085]
本发明使用adam梯度下降法更新网络参数,adam算法使用动量vk和rmsprop算法中的二阶动量sk。为了简化数学表达式,令梯度初始化v0=s0=0,给定超参数0≤β1<1,第k次迭代的动量vk表示为梯度g
k-1
的指数加权移动平均:
[0086]
vk=β1v
k-1
(1-β1)g
k-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0087]
给定超参数0≤β2<1,sk表示为梯度平方项g
k-1
⊙gk-1
的指数加权移动平均:
[0088]
sk=β2s
k-1
(1-β2)g
k-1
⊙gk-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0089]
式中,

表示逐元素相乘。由于v0和s0中的元素均初始化为零,在第k次迭代时,动量vk表示为:
[0090][0091]
将之前每一次迭代的梯度权值相加,可得,
[0092][0093]
当k较小时,每一次迭代的梯度权值之和会比较小。为了消除这样的影响,对于第k次迭代,将vk除以使过去每次迭代的梯度权值之和为1,称为偏差修正。在adam算法中,对变量vk和sk均作偏差修正:
[0094][0095][0096]
adam算法使用偏差修正后的变量v
′k和s
′k以及学习率η更新梯度g

k-1

[0097][0098]
式中,η为学习率,adam中自变量每个元素具有不同的学习率;∈为常数,用于避免式(20)中出现分母为0的情况。在第k次迭代中使用g

k-1
更新网络参数,
[0099]
θk=θ
k-1-g

k-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
[0100]
步骤3.3生成清晰图像:利用更新参数后的图像生成网络生成清晰图像xk=f(z;θk)。
[0101]
步骤4.判断收敛,输出模糊核与清晰图像的估计
[0102]
通过步骤2和步骤3,完成对目标函数的一次迭代求解,获得模糊核的估计hk,并将清晰图像的估计x
k-1
更新为xk。如果此时算法收敛或达到最大迭代次数,则停止迭代,输出最终的模糊核与清晰图像估计;否则,令k=k 1,然后重复步骤2和步骤3。
[0103]
优选的,设置模糊核正则化参数λh的初始值为2
×
10-5
,图像生成网络中输入数据通道数固定为8,学习率衰减系数为0.5。
[0104]
本发明在lai数据集和levin数据集上验证所公开的方法。lai数据集的模拟模糊图像集包含25幅清晰图像和4个不同尺寸的模糊核,通过清晰图像与模糊核的卷积运算生成共100幅模糊图像。lai数据集中的模糊图像可分为人造物(manmade)、自然(natural)、人(people/face)、饱和(saturated)和文字(text)五类,每类包含20幅模糊图像。levin等对平面上打印的图像成像,在成像过程中固定成像装置,在曝光期间手动控制相机的运动状态,使获取的图像产生运动模糊,同时记录相机的运动轨迹,将其作为模糊核真值。levin数据集包括4幅清晰图像和8个模糊核,共32幅模糊图像。
[0105]
本发明使用峰值信噪比psnr、结构相似性ssim以及误差比er作为定量评价指标。psnr等效于计算复原的清晰图像与真值图像之间的均方误差,ssim从亮度、对比度和结构性三个因素度量复原图像与真值图像的相似度,其结果在[0,1]之间,两个指标越高表示图像重建质量越好。er是模糊核评价指标,计算使用真实模糊核h与估计模糊核h
*
复原的图像与真值图像之差的比值:
[0106][0107]
当使用真实模糊核进行图像复原时er值为1,er值越小说明估计的模糊核越接近
真实模糊核。
[0108]
michaeli等、perrone等、levin等、pan等和ren等方法为目前普遍认可的图像去模糊方法,其中,michaeli等、perrone等、levin等以及pan等均为基于最优化模型的盲去模糊方法,需要结合非盲图像去模糊方法进行图像复原。而ren等和本发明方法无需构建图像金字塔,并能够直接估计出模糊核和清晰图像,不需要借助非盲去模糊方法。图6给出了各个算法在lai模拟图像数据集中不同类别图像上的平均psnr和ssim。可以看出,本发明方法在manmade、natural、saturated和text类别图像上的平均psnr和ssim达到最大值,在people/face类别的图像上,本发明方法的平均psnr/ssim高于michaeli等、perrone等以及pan等方法。图7列出了各种图像去模糊算法在levin数据集上的平均psnr、ssim、er和运行时间,可以看出本发明方法的平均psnr和ssim均达到最高,平均er更接近1,且相比于pan等和ren等方法有效降低了算法运行时间。
[0109]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本发明所示的这些实施例,而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献