一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

量化参数自适应的卷积神经网络环路滤波器及其构建方法

2022-06-08 16:55:30 来源:中国专利 TAG:


1.本发明属于神经网络环路滤波器技术领域,具体为一种对量化参数自适应的卷积神经网络环路滤波器及其构建方法。


背景技术:

2.基于神经网络的环路滤波器在近些年取得了极大的成功。其可以有效地去除比如块效应,振铃,吉布斯效应等图像/视频编解码过程中常见的人工印记。但是,其相比于传统的后处理模块往往拥有显著更高的复杂度。神经网络滤波器的泛化能力也一直存在优化空间,在单一数据集上训练的模型可能难以用于其他数据集。对于编码器而言,使用不同的量化参数意味着在重建的图像/视频上会出现不同的量化噪声。而对每一个量化噪声都训练一个模型在真实部署和调用模型会占用大量的训练资源和存储资源,从而导致了这种方法的不切实际。就这个问题,本发明设计了一种新的神经网络滤波器,依赖于所设计的fqam和sqam机制,其可以在不同量化参数上都具有显著优秀的滤波能力。


技术实现要素:

3.本发明的目的在于提出一种滤波能力强的对量化参数自适应的卷积神经网络环路滤波器及其构建方法。
4.本发明提供的对量化参数自适应的卷积神经网络环路滤波器,通过将量化参数qp引入到卷积神经网络中,以提升卷积神经网络对不同的qp的泛化能力,具体的引入方式为:
5.(1)fqam(frequency qp adaptive mechanism),即频域qp自适应机制。将卷积神经网络的每一层特征看成是提取的特定的频率信息,每一层特征通过乘以一个和qp相关的系数,以实现对该层特征的衰减或是增强;当qp变化的时候,每一层的特征也会随着qp的变化而衰减或是增强,从而实现对qp信息完整地吸收;
6.(2)sqam(spatial qp adaptive mechanism),即空域qp自适应机制。使用卷积和qp信息产生在空域上的注意力。注意力可以对不同区域产生不同的权重,通过此权重作用在原始的特征上,实现对原始特征自适应的衰减或者增强。这种增强不但依赖于卷积,也依赖于qp信息。使得模型提升在空域上的qp自适应能力;
7.(3)在fqam和sqam的基础之上,构建卷积神经网络环路滤波器,如图1所示;其可以对不同量化噪声的图像都有效地去除量化噪声。具体而言,该结构包含两个输入的张量和一个输出的张量。输入的张量分别为输入图片和量化参数qp,图片的尺寸和色彩空间格式并不限定。对于输出的张量而言,其表示了滤波器增强后得到的图片,其尺寸大小保持和输入图片一致。模型的中间由卷积网络、fqam、sqam构成。具体而言,图片输入后会引出一条直连边接到输出上,此外,其也会经过首个octave卷积网络得到分离的两路特征信息,分别记为高频和低频的信息,接着经过若干个(比如,网络的数量设置为24个)残差网络结构,每一个残差网络结构依次包含octave卷积网络、fqam、octave卷积网络、fsqam得到输出,残差网络的内部亦包含一个直连边来帮助训练过程中的梯度反向传播。结构输入的另一个张量qp
就是用于这里的fqam和fsqam的qp信息指导,以帮助模型适应对不同qp信息的变化。由于octave卷积的影响,卷积特征不断地在高频和低频之间相互流动,使得信息得到了充分的学习和利用。在结束了堆叠的残差网络得到输出后,最终包含一个octave卷积网络使得张量变换回到原始的图像尺寸上,这个张量接着回加回到输入的图片上得到最终增强的图片。
8.本发明提供的对量化参数自适应的卷积神经网络环路滤波器构建方法,通过将量化参数qp引入到卷积神经网络中,以提升卷积神经网络对不同的qp的泛化能力,具体步骤如下。
9.(一)构建fqam(频域qp自适应机制)
10.从频域的角度出发,构建模卷积神经网络模型,并将量化参数qp融入其中;首先考虑一个简单的滤波模型:
[0011][0012]
其中,w是滤波器参数,y是滤波器的输入,即失真图像,为滤波器的输出,即重建图像。自然地,我们使用傅里叶变换得到其在频域上的等式,即时域卷积等于频域乘法:
[0013][0014]
f(.)表示傅里叶变换;假设这个滤波器具有较好的滤波性能,则重建图像近似等于原始图像,即在频域上:
[0015][0016]
为了应对变化的qp,需要将其推广到一般的情况,即希望修改后的滤波器可以在较广泛的量化噪声输入的情况都具备较好的性能。把这里修改后的滤波器参数记为w

,量化噪声改变情况记为ε。此时的重建图像发生了变换,由原先的变为了
[0017][0018]
也对等式(4)进行傅里叶变换,得到其频域形式的公式:
[0019][0020]
我们希望可以求得这样的w

,使得w

所重建出来的与原始输入x之间的损失最低。为了方便求解,这里使用均方误差。原始输入x和重建之间的均方误差可以写为:
[0021][0022]
由帕斯瓦尔定理,时域上的失真和频域上的失真是相同的,于是,公式(6)的l也可以写为频域形式,可以得到如下的展开式:
[0023][0024]
对式(7)求关于f(w

)的偏导,可以求得,使得导数为零的f(w

)可以表示成如下的式子:
[0025]
[0026]
其中,第一项表示公式(1)的在频域形式的原始滤波器,第二项是根据对噪声进行修改得到的,称之为噪声影响因子。可以通过这里的噪声影响因子去改变原始滤波器。需要对这个式子进行简化:
[0027][0028]
考虑某一个特定的频域,滤波器的强度和原始信号的强度事实上是可以认为不变的。所以此式可以被近似为kif(ni),而我们知道f(ni)是正比于qstep2的,所以可以使用可训练的参数θi来表示这里的倍数关系,把qstep2引入到模型中:
[0029][0030]
考虑到这样做的复杂度过于高,本发明采用一种简化的策略,直接近似认为卷积层即表示了对频域的选择,从而可以把计算从特征的平方阶次降低到特征阶次。此时滤波器操作的时域形式可以写为:
[0031][0032]
于是,推导出了fqam的算法,其中,w为原始的滤波参数,分母上的1 θqstep2表示衰减系数,随着qp的变化,qstep也会变化,将变化的qstep作为输入,来影响模型的滤波性能。其直观工作图可参考图2。
[0033]
(二)构建sqam(空域qp自适应机制)
[0034]
fqam只能在通道级别进行和qp相关的衰减和增强。本发明提出空域上的sqam作为一个补充,以提升fqam在空域上的能力。实现不同的区域对qp的响应也产生区别。
[0035]
sqam的推导过程:
[0036]
首先将输入图像y

的空域特征提取出来,这里可以采用maxpool和avgpool操作[1],即最大值池化和均值池化操作:
[0037]
s(y

)={maxpool(y

);avgpool(y

)},
ꢀꢀꢀ
(12)
[0038]
在提取出y

的空域特征s(y

)后,将这个特征经过一个fqam以实现对qp信息的融合。这里融合的输出用一个sigmoid激活函数,实现对输出的限幅:
[0039][0040]
融合输出,可以作为空域的强度信息,因此使用元素级别的点乘,将这个强度信息乘回到原始输入的y

上,最终输出sqam的重建像素直观参考图可参见图3。
[0041][0042]
(三)基于fqam和sqam设计对量化参数自适应的卷积神经网络环路滤波器
[0043]
如图1所示,一个神经网络滤波器由多层卷积堆叠得到。记第i层的输出为yi,使用函数f(
·
)来表示连续两层之间的变化关系,如公式(15)所示:
[0044]yi 1
=f(yi,qp),
ꢀꢀꢀ
(15)
[0045]
每一层的特征由高频信息和低频信息两部分构成,用公式(16)的记号来表
示每一层的特征:
[0046][0047]
使用倍频程卷积和fqam和sqam对每一层进行变换,如公式(17)和(18)所示:
[0048][0049][0050]
其中,lrelu表示leakyrelu激活函数[2];模型的可训练参数θ可以表示为和的集合:
[0051][0052]
在实验中,qstep2被用下面的式子进行替代:
[0053]
qstep2=2
(qp-32)/3

ꢀꢀꢀ
(20)
[0054]
从而,完成了卷积神经网络中的每一层之间的转换,进而完成了整个模型。由此,便可以实现使得卷积神经网络对不同量化参数自适应。
附图说明
[0055]
图1为本发明方法示意图。
[0056]
图2为fqam示意图。
[0057]
图3为sqam示意图。
具体实施方式
[0058]
这一部分将介绍如何使用所设计的量化参数自适应的卷积神经网络环路滤波器。将滤波器作为补充模块放在编码器的末端,给其输入qp和带有损失的失真图像,其可以输出滤波后的图像。
[0059]
对于模型的实现细节,模型的输入是qp,而公式中需要用到的则是qstep的平方,这里在模型中需要对其进行转化。转化公式参考公式(20),因为qstep^2乘上了一个可训练的参数,这一步使得不同的qstep的乘以同一个常数,不影响模型的性能,因此我们做了归一化处理,使用2
(qp-32)/3
来表示qstep^2。其次,因为式子中a和b均大于0,所以其近似的可训练参数也应当是大于0。对公式(19)中的参数施加约束使其恒大于0。这里有两种方法,第一是可以通过重参数技巧k=exp(k),第二种则是直接对参数进行截断的方法。这里采用第二种方法。参数选取方面,所设计的神经网络滤波器中间卷积层的α取0.25,leakyrelu的参数选取为0.2。模型特征层的数量设置为64,所以中间卷积层包含48张原始尺寸图和16张下采样特征以提取低频信息。块的数量设置为24以获得强大的特征提取能力。考虑到sqam相比于fqam用到了卷积层,需要占用较多的计算资源。因此如图所示,在一个block结束的时候才使用fsqam,而在内部使用fqam。
[0060]
关于将神经网络融入到一般的视频编解码器,比如vtm中。vtm内嵌的环路滤波器
sao和alf会引入额外的码率来改善画质,所以将cnn-filter放在了db和sao之间,从而给sao和alf提供更高画质的重建像素,从而可以减少sao和alf消耗的比特数。本发明设计的模型可以用于不同的qp。我们只使用了i帧的亮度分量对模型进行训练,对色度分量,神经网络也具有较好的泛化能力。
[0061]
参考文献
[0062]
[1]https://en.wikipedia.org/wiki/convolutional_neural_network#pooling_layer
[0063]
[2]https://en.wikipedia.org/wiki/rectifier_(neural_networks)。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献