一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种利用GAN的基于帧间信息的噪声去除方法

2022-12-06 20:22:29 来源:中国专利 TAG:

一种利用gan的基于帧间信息的噪声去除方法
技术领域
1.本发明涉及视频编码领域中的视频质量提升方法的研究,尤其是涉及一种利用gan的基于帧间信息的噪声去除方法。


背景技术:

2.图像质量提升任务主要细分为去噪、超分辨率、去模糊等,许多新方法也通过实验被证明有效。早期,有学者提出基于group的稀疏图像恢复方法。一种基于深度学习的单图像超分辨率srcnn的方法,利用较少的卷积层实现超分辨率,并且速度较快;同期,相似的图像去噪网络arcnn应用于jpeg图像;又在其原超分辨率网络基础上提出快速超分辨率网络fsrcnn,通过取消双三次插值,同时改变特征提取与非线性映射模块来加速图像超分,用以满足日渐增长的实时图像超分辨率的要求。一种残差网络的深度学习方法(residue learning)对图像特征学习产生重要的影响,基于其残差结构,随着网络加深也不会出现梯度消失,同时准确率也不断提升,这是由于在前向传播过程中不断将先前的数据保留加入每层卷积结果后作为下一层的输入,使得梯度得以保留。vdsr是一种基于对残差信息学习的神经网络来达到图像超分辨率的目的,通过直接将插值图片经过long shortcut加到输出端,来使网络学习高分辨率与插值后的低分辨率图像的残差值,降低网络训练难度,这种方法尽管简单,但是效果却很明显。srgan将生成对抗网络应用于图像超分辨率领域,其将loss函数加入vgg预训练模型来计算真实图像与生成图像的损失差距,在传统损失函数基础上取得一定效果提升。一种对hevc帧内编码帧的后处理深度学习方法(vrcnn)通过借鉴arcnn的思路,采用多尺寸卷积核来对hevc压缩后图像进行特征提取,由于多尺寸卷积核的存在可以提取到更大感受野的信息,不同于arcnn的是,其采用多尺寸卷积核的输出在维度上的结合,在深度不变的同时,使得提取的特征增多,减小训练难度,同时使用long shortcut来训练残差图像使得训练相对容易。一种更有效的去噪网络dncnn通过训练单一去噪模型例如高斯噪声可以实现多任务的处理,例如:盲高斯去噪、sisr或jepg去块。一种通过相同大小卷积核分别进行标准卷积和膨胀卷积的方式dcsr来增加感受野的深度学习方法实现单图像超分辨率。基于视频连续相关性的特点,stmc采用光流估计网络进行视频帧运动估计,提出了一种端对端训练的连续帧超分辨率,利用先前帧和当前帧的低质量运动估计信息同前一高质量运动估计信息的结合得到当前帧高质量运动估计信息进而实现质量提升。专注于通道的图像超分辨率网络rcan利用卷积层不仅对图像特征图进行学习,同时也给每个通道上的特征图添加乘子(channel statistics)来改变(rescale)特征图数据大小。一种综合densenet和resnet结构的生成对抗网络esrgan来实现图像超分辨率。结合cu大小进行噪声去除并采用基于分割块(partition-aware)的自适应性变换神经网络(asn)利用了不同ctu下不同的cu划分情况,针对性地对不同大小的cu块进行质量提升。基于空时域特性的神经网络stmc利用前后帧与当前帧的相关性以层层递进的运动补偿来实现当前帧的超分辨率。通过改进stmc的输入帧即通过高质量帧获取网络来使得当前帧的运动补偿帧为领域内的pqf,多帧质量增强网络mfqe获得更佳的当前帧质量增强效果。这些方
法使图像在psnr等客观评价指标上有所提升。


技术实现要素:

3.随着互联网信息的数据量以及终端间传输的数据量日渐增多,如何在有限的带宽下传输数据成为一个值得关注的问题。我们日常生活中也接触到越来越多的视频数据,据估计,到2022年全球的视频传输将占到整个互联网传输的80%。现今,超清视频已成为人们日常观看的基本要求,且4k乃至8k视频不断增多,这就产生了对高效的视频编解码技术的强烈需求。但高压缩率带来的结果却是高失真,所以许多相关研究主要针对失真图像帧的质量提升。
4.通过观察我们了解到,现今针对hevc压缩伪影去除的方法要么效果不尽如人意,要么就利用解码端完全解码后的视频进行后处理,即需要全序列完全解码后的信息或至少一个很大领域部分的信息,而没有强调一种基于码流传输顺序的质量增强手段,也就是在本帧解码完成后就进行处理而并不需要当前帧之后的帧信息,具有一定实时性。在本发明中,我们利用生成对抗网络的特性来提取相邻帧的信息,并且通过其中的质量增强网络生成更少压缩伪影的高质量图像,生成器包含一个运动补偿网络和一个质量增强部分,判别器则包括两个子判别器,并运用平均真实度判别器实现对生成图像和原始图像的具体判别。具体包括以下步骤:
5.(1)生成高质量图像网络;
6.(2)生成器中包含一个利用相邻先前帧对当前帧进行运动补偿的神经网络,网络包含下采样分别为8倍,4倍和2倍的从粗糙到细致的三层运动估计与补偿网络,其各部分可表示为:
[0007][0008][0009][0010]
该网络的总表达式可表示为:
[0011][0012]
本发明中的生成器在运动补偿网络后还包含一个质量增强网络,其利用运动补偿网络得到的当前帧和hevc解码得到的当前帧作为输入,先经过一个特征提取部分,该部分又包含两个连接状况相同的并联子提取层,其中利用一个多尺度卷积层来使得不同大小的压缩伪影都能被感知,还利用了膨胀卷积的手段使得在增大感知面积的同时又缩小参数量,使得网络后期训练阶段能实现更快收敛;该部分所有卷积层均采用convolution-relu的结构,前层和后层为三个并联的卷积层;之后为一个非固定卷积核数量特征映射层,采用残差学习的方式,将非固定的卷积核数量策略应用于每个残差块中间层,之后恢复为残差学习需要的卷积核数量,其也是convolution-relu的结构;该部分最后一层为重建层,采用两个卷积层,结构均为convolution-relu,最后得到增强图像帧;
[0013]
(3)本发明中的生成对抗网络的目标函数可表示为:
[0014][0015]
本发明中的判别器采用全卷积网络,由两个子判别器组成,采用平均真实度判别器,该判别器在自更新和对生成器更新的条件下可分别表示为:
[0016][0017][0018]
本发明中的损失函数除上述判别器的结果外还引入l1损失函数和l2损失函数,故总损失函数可表示为:
[0019][0020]
(4)选取vimeo90k的七帧序列作为本发明的训练集;数据集遵照itu-r和bt.601的标准进行处理,即首先将七帧序列图片转换为yuv后经hm16.0压缩得到压缩视频,压缩配置参照配置文件encoder_lowdelay_p_main.cfg,将qp设置为37,采用ippp的帧间编码方式,再将压缩视频和原始视频分类转换为rgb域图像以便实验的输入和观察。
[0021]
本发明与现有技术相比所具有的优点及有益技术效果:
[0022]
(1)本发明提出一种利用gan的基于hevc帧间信息的噪声去除方法,利用帧间相关性的特点对帧间运动信息进行提取,补偿先前帧得到运动补偿帧。
[0023]
(2)输入运动补偿帧和当前帧进入质量增强部分,该部分利用多尺度并联膨胀卷积提取特征,之后经过七层非固定卷积核数量残差层,最后将获得的特征图输入重建层得到恢复图像。
[0024]
(3)实验结果表明,我们的算法可以获得很好的客观评价指标和主观评价指标效果,在qp等于37和42时都能获得不错的效果,在psnr表现上分别比标准hevc平均高0.55db和0.48db,在ssim的表现上要比标准hevc分别提升0.0097和0.0127,在主观评价指标感知指数perceptual index(pi)上的表现同样不错,分别达到较标准平均下降0.21和0.40,由此可见本发明可提高主观和客观的效果,具有很强的图像质量提升能力。
附图说明
[0025]
图1为利用gan的基于帧间信息的噪声去除方法的整体网络框架。
[0026]
图2为利用gan的基于帧间信息的噪声去除方法的特征提取层。
[0027]
图3为利用gan的基于帧间信息的噪声去除方法的运动补偿网络图。
[0028]
图4为本发明和hevc标准的视觉效果对比。
具体实施方式
[0029]
下面结合实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
[0030]
(1)本发明提出一种基于gan的hevc压缩视频视觉感知提升后处理算法,为验证所
提算法的有效性,将所提算法用于hevc标准hm16.0测试模型压缩后的视频。本发明实验选择基于ldp的ippp标准帧间编码配置文件encoder_lowdelay_p_main.cfg。标准测试视频序列从416
×
240、832
×
480、1280
×
720、1920
×
1080、2560
×
1600五个分辨率大小视频中共选择16个,量化qp分别为37、42。本发明所有的实验均使用matlab r2016a和pycharm 2020工具在cpu为i5-2320@3.00ghz和gpunvidia geforce gtx 2080环境上运行。
[0031]
(2)本实验中仅采用qp=37的训练集进行训练,对测试序列采用不区分帧内帧间编码模式来进行视频序列质量盲提升,pi感知指标表示重建视频帧分布与训练数据集中图像分布之间的距离,其数值越小越好。
[0032]
表1描述了本发明中生成器的各层设计,其中卷积层用conv表示,卷积步长均设置为1,其中特征映射部分存在残差学习,故两个滤波器为一个组合,由于存在七个残差块,故中间采用“...”省略对第九个到第十五个残差层的描述。
[0033]
表1本发明算法生成器g的配置
[0034][0035]
表2描述了本发明中判别器的设计,其中卷积层用conv表示,卷积层的滤波器大小、滤波器数量和步长对应如表中所示。
[0036]
表2本发明算法判别器d的配置
[0037][0038]
为进一步探索所提gan网络的视觉感知提升效果,将本发明所提算法与相关hevc标准压缩视频进行主观指标对比。表3为在标准hevc测试序列上的基于感知指数pi得到的测试结果。
[0039]
表3本发明与hevc标准编码基于pi的结果
[0040][0041]
除了主观评价指标,还比较了本算法和其他针对hevc质量提升算法的客观效果,
主要采用psnr和ssim两项常用评价指标对本发明算法以及dcad,dscnn的效果进行比较,所有比较结果均是基于hevc的提升值。
[0042]
表4本算法与其他算法基于psnr(db)和ssim的比较
[0043][0044]
表续4本算法与其他算法基于psnr(db)和ssim的比较
[0045][0046]
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献