一种基于GAN的HEVC压缩视频视觉感知提升方法与流程

2022-03-16 00:43:35 来源：中国专利 TAG：

技术特征：
1.一种基于gan的hevc压缩视频视觉感知提升方法，其特征在于：(1)生成图像残差网络；(2)将残差块个数n分别设置为5、7、9、11、13，其中9个残差块为生成器所选残差结构；(3)判别器不变并且生成器中其余层结构不变，分别将生成器中残差块设置为以上5个深度并训练，用5个残差深度下gan的最佳模型重建压缩视频序列foreman_352
×
288并计算感知指数pi值(在本发明基于gan的hevc压缩视频视觉感知提升方法研究中，所提gan框架生成器中的残差块设置为9层时，网络能获得更加丰富的纹理信息，能较好地去除视觉感知上的压缩伪影)；(4)本改进gan框架中生成器g采用9层残差网络，能提取更能表达重建视频帧信息的特征并加快网络收敛；在残差网络前进行下采，convolution-batchnorm-relu结构的下采层可以表示为公式(1)，
↓2表示该层卷积步长为2，旨在实现空间分辨率的下采，减少网络参数，并结合在残差网络中使用dropout层按照概率丢掉部分神经元，避免网络参数过多造成过拟合；最后为保证输入视频帧和重建帧尺寸一致，采用逆卷积层恢复到原始尺寸；同理，convolution-batchnorm-relu结构的逆卷积层可以表示为(2)式，其中
↑2表示该层逆卷积步长为2；步长为2；本发明所提生成器g的配置如表1所列，结构层公式表示为：f0(y)＝y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)(3)(3)(3)f
15
＝w
15
·
f
14
(y) b
15
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)f
16
＝tanh(f
15
(y))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中，y为已编码视频帧，w
i
和b
i
分别为第i层的权重和偏置；本发明所提判别器d的配置如表2所列，结构层公式表示为：f0(y)＝y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)f1(y)＝leakyrelu(w1·
f0(y) b1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)f
i
(y)＝f
normleaky
(y),i＝{2,3,4}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)f5＝w5·
f4(y) b5ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)其中，y为已编码视频帧，w
i
和b
i
分别为第i层的权重和偏置；(5)本发明训练算法生成对抗网络gan的目标函数可以表示为：l
gan
(g,d)＝e
x,y
[logd(x,y)] e
x,z
[log(1-d(x,g(x,z)))]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)本发明网络采用l1作为辅助损失函数：l
l1
(g)＝e
x,y,z
[||y-g(x,z)||1]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
因此，结合gan目标函数与l1损失的最终目标函数为：(6)训练网络时，训练集样本选用bsds500database，将bsds500里的训练图库和测试图库共同用于本发明的训练图库；为了准备训练数据，将400张原始训练图在hevc基于ai的标准帧内编码配置文件encoder_intra_main.cfg和基于ldp的ippp标准帧间编码配置文件encoder_lowdelay_p_main.cfg下，设置qp＝22、27、32、37时分别进行编码，以此得到帧内和帧间各四个qp，共八个降质的图像库；为扩大样本数和更加准确地恢复图像结构特征，将原始图库和八个降质图库进行四个方向地旋转和五个尺度地缩放，再把扩展的原始图库和降质图库进行分割生成训练样本，考虑到hevc编码变换单元ctu的大小为64、32和16，但是学习64
×
64大小的标签没有成功，因此本发明中以步长32将图库切割成32
×
32的块，每次训练时，随机选取切割样本数据中的16个样本进行参数优化，即训练时batchsize＝16。2.如权利要求1所述的基于gan的hevc压缩视频视觉感知提升方法，其特征在于基于5个残差深度训练后基于pi值判断在9层残差网络下生成器能得到更丰富纹理信息和更好地去除压缩伪影。3.如权利要求1所述的基于gan的hevc压缩视频视觉感知提升方法，其特征在于使用判别器通过对原始图像和生成图像的平均判别做判别器对抗损失以获取图像的纹理细节，并辅助使用一范数能更好地获取低频信息。4.如权利要求1所述的基于gan的hevc压缩视频视觉感知提升方法，其特征在于提出一种基于本发明最优结果的生成器g配置列表。5.如权利要求1所述的基于gan的hevc压缩视频视觉感知提升方法，其特征在于提出一种基于本发明最优结果的判别器d配置列表。6.一种用于执行权利要求1至5所述基于gan的hevc压缩视频视觉感知提升方法。

技术总结
本发明提出了一种基于GAN的HEVC压缩视频视觉感知提升方法。GAN提供了一种接近感知-失真平衡的原则，在控制失真的前提下，能提高压缩视频序列的视觉感知质量。因此，本发明在提高HEVC压缩视频主观视觉感知质量的工作中，通过利用GAN的对抗性损失最小化生成图像的分布与自然图像的分布之间的距离，并且结合HEVC压缩后的视频帧能有效指导GAN的生成网络学习从已编码帧到原始帧的映射，同时通过GAN的判别网络来不断逼近这种映射。最后将所提GAN网络与SRGAN和ESRGAN用于压缩视频后处理相比，该后处理网络可以获得更好的重建视觉效果，同时可以将客观失真控制在一定范围内。可以将客观失真控制在一定范围内。可以将客观失真控制在一定范围内。

技术研发人员：何小海王婷汤博文吴晓红熊淑华陈洪刚滕奇志
受保护的技术使用者：四川大学
技术研发日：2020.09.14
技术公布日：2022/3/14

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于亮度模板匹配的色度分量预测方法与流程

一种基于GAN的HEVC压缩视频视觉感知提升方法与流程

相关文献

最热文献