一种基于深度强化学习的无参考超高清视频质量客观评价方法

2022-08-17 09:18:57 来源：中国专利 TAG：

1.本发明属于数字图像及数字视频处理技术领域，尤其涉及一种基于深度强化学习的无参考超高清视频质量客观评价方法。

背景技术：

2.超高清视频经过采集、压缩、存储、传输、显示等处理环节后会引入不同类型和不同程度的失真，从而导致视频质量的下降。因此，研究高效且准确的视频质量评价方法对于超高清视频业务的质量监控以及对于相关系统或设备的研发都具有重要意义。
3.视频质量评价方法分为主观评价和客观评价两大类。主观评价方法以人作为观测者，对视频质量进行评价，可以真实地反映人的视觉感知；客观评价方法借助于某种数学模型模拟人眼的主观感知特性，给出基于数字计算的结果。其中客观评价方法根据评价时是否要借助无失真参考视频又可以分为全参考、半参考和无参考评价方法。其中无参考方法不需要借助无失真参考视频的任何信息，可以直接对失真视频进行质量评价，更符合实际应用场景的需求。
4.当前已有的无参考视频质量客观评价方法中，基于深度学习的方法对于一般视频的质量评价显示出较好的性能，但如果用这些方法对超高清视频进行质量评价，则难以取得良好效果。主要原因是这些方法采用的失真提取方式并不适用于高分辨率的超高清视频，因而无法完整地提取空域失真信息；另外这些方法也难以对高帧率的超高清视频序列进行长程时域特征的整体融合；最后，超高清视频的超大数据量也会导致质量评价模型的计算效率大幅下降。因此面向超高清视频的质量评价方法需要全面考虑超高清视频特点，从而满足高效和准确的实际需求。

技术实现要素：

5.针对现有无参考视频质量评价算法无法很好适用于高分辨率、高帧率的超高清视频的问题，本发明提出了一种基于深度强化学习的无参考超高清视频质量客观评价方法，利用深度强化学习模型模拟人眼视觉感知过程对超高清视频进行质量评价，包括以下步骤：
6.步骤1，建立超高清视频质量评价数据集。
7.选取无失真的超高清视频作为参考视频，由参考视频经过压缩、加噪等处理得到失真视频。对失真视频进行抽帧，并采用全参考方法计算抽帧后每帧的图像质量分数以及与每帧对应的视频质量分数。对每个失真视频进行下采样，得到低分辨率的帧图像序列。所有失真视频的低分辨率帧图像序列、每帧的图像质量分数、与每帧对应的视频质量分数一起构成超高清视频质量评价数据集。具体步骤如下：
8.步骤1.1，选取无失真的超高清视频作为参考视频，参考视频不少于20段，每段时长不少于10秒，视频内容应尽可能包括室内、室外、建筑物、人物、自然景物、体育比赛、文艺
表演、大型群众活动等典型场景。对每个参考视频进行压缩、加噪等处理，得到对应的失真视频；
9.步骤1.2，对每个失真视频进行抽帧处理，抽帧率不低于1:10，得到帧图像序列in，n代表帧序号；
10.步骤1.3，利用全参考方法(如vmaf、vif或其他性能相当的方法)计算失真视频帧图像序列in中每一帧的图像质量分数si(n)，以及每一帧对应的视频质量分数sv(n)。其中sv(n)是指该帧及该帧之前所有帧的图像质量分数的平均值，如公式(1)所示；
[0011][0012]
步骤1.4，对帧图像序列in中的每一帧进行插值下采样处理(也可使用其他等效的下采样方法)，水平和垂直方向的采样率均为1:4，得到低分辨率的帧图像序列
[0013]
步骤1.5，所有失真视频的低分辨率帧图像序列和每帧的客观质量分数si(n)、每帧对应的视频质量分数sv(n)一起构成超高清视频质量评价数据集。
[0014]
步骤2，训练基于深度学习的空域失真特征提取网络。
[0015]
用超高清视频质量评价数据集中的低分辨率帧图像序列和每帧的客观质量分数作为训练数据，对基于深度学习的空域失真特征提取网络进行训练，训练步骤如下：
[0016]
步骤2.1，搭建基于mobilenet的空域失真特征提取网络，该网络由特征提取模块和质量回归模块构成。特征提取模块的输入为一个r、g、b三通道的彩色帧图像，输出为帧图像的空域失真特征。质量回归模块输入为帧图像的空域失真特征，输出为网络预测的帧图像的质量分数；
[0017]
步骤2.2，将超高清视频质量评价数据集中的低分辨率帧图像序列逐帧输入到空域失真特征提取网络的特征提取模块，得到每帧图像的空域失真特征fn，如公式(2)所示，式中m
sf
表示空域失真特征提取网络；
[0018][0019]
步骤2.3，将每帧图像的空域失真特征fn输入到空域失真特征提取网络的质量回归模块，得到预测的质量分数。同时将超高清视频质量评价数据集中每帧图像的质量分数si(n)作为标签，对整个网络进行训练。
[0020]
步骤3，训练基于深度强化学习的超高清视频质量评价网络。
[0021]
用超高清视频质量评价数据集中的低分辨率帧图像序列以及对应于每帧的视频质量分数作为训练数据，对基于深度强化学习的超高清视频质量评价网络进行训练。该网络基于深度强化学习算法构成，算法的策略目标是根据逐帧输入的图像空域失真特征对网络预测的视频质量分数进行动态调整，使最终的视频质量分数能够准确表达超高清视频的实际质量。训练步骤如下：
[0022]
步骤3.1，搭建基于ddpg(deep deterministic policy gradient)的超高清视频质量评价网络，该网络包括动作网络和估值网络，均由三个全连接层组成。动作网络负责输出最佳动作策略，估值网络负责输出策略价值，该策略价值用于评估并优化动作网络的策略，奖赏函数用于评估并优化估值网络的准确性。网络的状态空间即网络的输入是空域失真特征提取网络的特征提取模块输出的空域失真特征；动作空间是对应于每帧的视频质量
分数的调整值范围，设定为[-1.5,1.5]。每输入一帧空域失真特征，网络就从动作空间中选择一个特定值作为视频质量分数的调整值，用于对当前质量分数进行调整。调整后的质量分数与超高清视频质量评价数据集中的视频质量分数的差值作为奖赏函数，用于对网络进行训练，使其对质量分数的调整与估计更精确；
[0023]
步骤3.2，将超高清视频质量评价数据集中的低分辨率帧图像序列逐帧输入到已训练好的空域失真特征提取网络m
sf
，由其中的特征提取模块输出每帧图像的空域失真特征fn；
[0024]
步骤3.3，将所述每帧图像的空域失真特征fn以及与之对应的历史帧特征h
n-1
、历史质量分数s
n-1
逐帧输入到超高清视频质量评价网络。历史帧特征是指由当前帧之前的所有帧累积的空域失真特征，历史质量分数是指网络预测的截止到前一帧的视频质量分数。第一帧输入时，可将历史帧特征设置为与第一帧特征相同，将历史质量分数(即初始质量分数)设置为1。超高清视频质量评价网络对当前帧的空域失真特征fn和历史帧特征h
n-1
进行融合，输出新的历史帧特征hn用于下一时刻的输入。同时还输出质量分数调整值δsn，如公式(3)所示，该值表示当前帧的失真情况对视频质量分数造成的变化幅度，其中，m
drl_vqa
代表超高清视频质量评价网络。将质量分数调整值δsn累加到历史质量分数s
n-1
上，得到当前质量分数sn，如公式(4)所示；
[0025]
δsn,hn＝m
drl_vqa
(fn,h
n-1
,s
n-1
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0026]
sn＝s
n-1
δsnꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0027]
步骤3.4，计算当前质量分数sn与超高清视频质量评价数据集中与当前帧对应的视频质量分数sv(n)的差值，并将该差值作为奖赏函数回传给深度强化学习网络进行训练。同时，当前质量分数sn还将作为下一时刻的历史质量分数，与下一帧的空域失真特征f
n 1
及历史帧特征hn一起对网络进行训练。网络训练完成后，可对被测超高清视频进行无参考视频质量评价。当被测视频的最后一帧输入到网络后，网络计算的当前质量分数即为被测视频的质量分数；
[0028]
步骤3.5，将所有失真视频的低分辨率帧图像序列都按照步骤3.2、3.3、3.4、3.5输入到网络，对网络进行训练。
[0029]
步骤4，对被测超高清视频进行无参考视频质量评价。
[0030]
将被测超高清视频按照步骤1的方法进行抽帧和下采样处理，得到低分辨率的帧图像序列将逐帧输入到训练好的空域失真特征提取网络m
sf
，得到每一帧的空域失真特征fn。将fn输入到训练好的超高清视频质量评价网络m
drl_vqa
，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数(可根据实际应用需要换算成百分制)。具体步骤如下：
[0031]
步骤4.1，按照步骤1.2对被测超高清视频进行抽帧，得到帧图像序列in；
[0032]
步骤4.2，按照步骤1.4对帧图像序列的每一帧进行下采样，得到低分辨率的帧图像序列
[0033]
步骤4.3，将低分辨率的帧图像序列逐帧输入到训练好的空域失真特征提取网络，得到每一帧的空域失真特征fn；
[0034]
步骤4.4，将低分辨率的帧图像序列的各帧空域失真特征fn逐帧输入到训练好的
超高清视频质量评价网络m
drl_vqa
，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数。
[0035]
与现有技术相比，本发明具有以下优点：
[0036]
(1)本方法在网络训练过程中不依赖视频的主观评价mos值。主观评价mos值需要大量观察者在特定环境中使用特定设备进行多次重复实验才能获得，耗时耗力，所以目前已公开的带有主观评价mos值的超高清视频质量评价数据库极少，且规模不大，视频场景类型也不够丰富。本方法在网络训练阶段只需借助无失真的参考视频，而无须借助主观评价mos值，这为网络的训练带来了极大便利。
[0037]
(2)相比其他传统的无参考视频质量评价方法，本方法使用深度学习网络可全面感知超高清图像的空间区域并提取空域失真特征，使感知的失真特征更加丰富，可应用性更广泛。
[0038]
(3)本方法利用深度强化学习方法，在保证视频时间轴完整的条件下对高帧率的超高清视频中的整体失真信息进行连续的全局融合，相比以往的无参考质量评价方法更能保证对时域信息的整体提取，更适用于超高清视频的质量评价。
[0039]
(4)本方法通过深度强化学习网络模拟人眼视觉感知过程进行超高清视频质量评价，经过实验证明，本方法的性能优于传统的无参考视频质量评价方法。
附图说明
[0040]
图1为本发明具体实施方式的流程图；
[0041]
图2为本发明基于深度强化学习的超高清视频质量评价网络原理示意图。
具体实施方式
[0042]
实施方式。
[0043]
实施方式的流程图如图1所示，包括以下步骤：
[0044]
步骤s10，建立超高清视频质量评价数据集；
[0045]
步骤s20，训练基于深度学习的空域失真特征提取网络；
[0046]
步骤s30，训练基于深度强化学习的超高清视频质量评价网络；
[0047]
步骤s40，对被测超高清视频进行无参考视频质量评价。
[0048]
实施方式的建立超高清视频质量评价数据集步骤s10还包括以下步骤：
[0049]
步骤s100，选取无失真的超高清视频作为参考视频，参考视频不少于20段，每段时长不少于10秒，视频内容应尽可能包括室外、室内、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动等典型场景。对每个参考视频进行压缩、加噪等处理，得到对应的失真视频；
[0050]
步骤s110，对每个失真视频进行抽帧处理，抽帧率不低于1:10，得到帧图像序列in，n代表帧序号；
[0051]
步骤s120，利用全参考方法(如vmaf、vif或其他性能相当的方法)计算失真视频帧图像序列in中每一帧的图像质量分数si(n)，以及每一帧对应的视频质量分数sv(n)。其中sv(n)是指该帧及该帧之前所有帧的图像质量分数的平均值，如公式(1)所示；
[0052]
步骤s130，对帧图像序列in中的每一帧进行插值下采样处理(也可使用其他等效
的下采样方法)，水平和垂直方向的采样率均为1:4，得到低分辨率的帧图像序列
[0053]
步骤s140，所有失真视频的低分辨率帧图像序列和每帧的客观质量分数si(n)、每帧对应的视频质量分数sv(n)一起构成超高清视频质量评价数据集。
[0054]
实施方式的训练基于深度学习的空域失真特征提取网络步骤s20还包括以下步骤：
[0055]
步骤s200，搭建基于mobilenet的空域失真特征提取网络，该网络由特征提取模块和质量回归模块构成。特征提取模块的输入为一个r、g、b三通道的彩色帧图像，输出为帧图像的空域失真特征。质量回归模块输入为帧图像的空域失真特征，输出为帧图像的质量分数；
[0056]
步骤s210，将超高清视频质量评价数据集中的低分辨率帧图像序列逐帧输入到空域失真特征提取网络的特征提取模块，得到每帧图像的空域失真特征fn，如公式(2)所示；
[0057]
步骤s220，将每帧图像的空域失真特征fn输入到空域失真特征提取网络的质量回归模块，得到预测的质量分数。同时将超高清视频质量评价数据集中每帧图像的质量分数si(n)作为标签，对整个网络进行训练。
[0058]
实施方式的训练基于深度强化学习的超高清视频质量评价网络步骤s30还包括以下步骤：
[0059]
步骤s300，搭建基于ddpg(deep deterministic policy gradient)的超高清视频质量评价网络，该网络包括动作网络和估值网络，均由三个全连接层组成。动作网络负责输出最佳动作策略，估值网络负责输出策略价值，该策略价值用于评估并优化动作网络的策略，奖赏函数用于评估并优化估值网络的准确性。网络的状态空间即网络的输入是空域失真特征提取网络的特征提取模块输出的空域失真特征；动作空间是对应于每帧的视频质量分数的调整值范围，设定为[-1.5,1.5]。每输入一帧空域失真特征，网络就从动作空间中选择一个特定值作为视频质量分数的调整值，用于对当前质量分数进行调整。调整后的质量分数与超高清视频质量评价数据集中的视频质量分数的差值作为奖赏函数，用于对网络进行训练，使其对质量分数的调整与估计更精确；
[0060]
步骤s310，将超高清视频质量评价数据集中的低分辨率帧图像序列逐帧输入到已训练好的空域失真特征提取网络m
sf
，由其中的特征提取模块输出每帧图像的空域失真特征fn；
[0061]
步骤s320，将所述每帧图像的空域失真特征fn以及与之对应的历史帧特征h
n-1
、历史质量分数s
n-1
逐帧输入到超高清视频质量评价网络。历史帧特征是指由当前帧之前的所有帧累积的空域失真特征，历史质量分数是指网络预测的截止到前一帧的视频质量分数。第一帧输入时，可将历史帧特征设置为与第一帧特征相同，将历史质量分数(即初始质量分数)设置为1。超高清视频质量评价网络对当前帧的空域失真特征fn和历史帧特征h
n-1
进行融合，输出新的历史帧特征hn用于下一时刻的输入。同时还输出质量分数调整值δsn，如公式(3)所示，该值表示当前帧的失真情况对视频质量分数造成的变化幅度。将质量分数调整值δsn累加到历史质量分数s
n-1
上，得到当前质量分数sn，如公式(4)所示
[0062]
步骤s330，计算当前质量分数sn与超高清视频质量评价数据集中与当前帧对应的
视频质量分数sv(n)的差值，并将该差值作为奖赏函数回传给深度强化学习网络进行训练。同时，当前质量分数sn还将作为下一时刻的历史质量分数，与下一帧的空域失真特征f
n 1
及历史帧特征hn一起对网络进行训练。网络训练完成后，可对被测超高清视频进行无参考视频质量评价。当被测视频的最后一帧输入到网络后，网络计算的当前质量分数即为被测视频的质量分数；
[0063]
步骤s340，将所有失真视频的低分辨率帧图像序列都按照步骤3.2、3.3、3.4、3.5输入到网络，对网络进行训练。
[0064]
实施方式的对被测超高清视频进行无参考视频质量评价步骤s40还包括以下步骤：
[0065]
步骤s400，按照步骤s110对被测超高清视频进行抽帧，得到帧图像序列in；
[0066]
步骤s410，按照步骤s130对帧图像序列的每一帧进行下采样，得到低分辨率的帧图像序列
[0067]
步骤s420，将低分辨的帧图像序列逐帧输入到训练好的空域失真特征提取网络，得到每一帧的空域失真特征fn；
[0068]
步骤s430，将低分辨率帧图像序列的各帧空域失真特征fn逐帧输入到训练好的超高清视频质量评价网络，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数。
[0069]
下面给出应用本方法的实验结果。
[0070]
本实验使用的被测视频由250个带有主观评价mos值的4k超高清失真视频组成，每个视频时长10秒，帧率50帧/秒。这250个失真视频由50个无失真的4k超高清源视频经过不同程度的h.264或hevc压缩编解码而得(每个源视频经过5种不同程度的h.264或hevc压缩编解码，得到5个失真视频)。视频场景内容涵盖了室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动等场景。
[0071]
本实验按照8:2比例将250个被测视频分为训练集和测试集，训练集包含200个被测视频(对应40个源视频)，测试集包含50个被测视频(对应10个源视频)。用训练集对本方法的网络模型进行训练，用测试集对训练好的网络模型进行测试。使用斯皮尔曼等级相关系数(srcc)、皮尔逊线性相关系数(plcc)以及均方根误差(rmse)这三个通用评价指标来衡量本方法的性能。表1给出了实验结果。作为对比，表1也同时给出了其他几种常用的无参考图像质量评价的测试结果。
[0072]
由表1可知，本方法的客观评价结果与主观评价结果的相关性系数为srcc＝0.828，plcc＝0.832，rmse＝1.561，均优于表中所列的其他几种常用方法，这表明本方法对于超高清视频质量客观评价的有效性。
[0073]
表1本方法与其他方法的性能比较
[0074]
模型srccplccrmse本发明方法0.8280.8321.561niqe0.7490.7451.940hosa0.7510.7542.086lpsi0.5520.6562.251
brisque0.4350.4812.509bliinds20.3750.4162.760

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：兴趣点到访识别方法、装置、电子设备及可读存储介质与流程

一种基于深度强化学习的无参考超高清视频质量客观评价方法

相关文献

最热文献