基于神经网络的用户生成内容视频质量评价方法及系统与流程

2021-11-10 04:56:00 来源：中国专利 TAG：

1.本发明涉及多媒体质量评价技术领域，具体地，涉及一种基于神经网络的用户生成内容视频质量评价方法及系统。

背景技术：

2.随着通信技术和智能手机技术的发展，视频共享社区的规模显著增加。很多网络视频运营商有大量的视频业务需求，如抖音、爱奇艺、微信等等。其中一个很基础的需求是视频的质量评价，传统的质量评价是通过人工评判，即召集大量人工去筛选画质差、观看体验差的视频。显然这种方法费时费力。有些研究人员通过模拟视频的失真来设计客观质量评价方法，并在过去的二十多年里提出了很多模型。尽管这些模拟出来的失真模型在应对压缩失真等可控失真上效果尚可，但是在面对用户生成内容的复杂失真，过去的方法效果就很差了。
3.另一方面，社交媒体应用程序的用户不仅观看视频，而且还参与拍摄和分享视频。这些视频被称为用户生成内容(ugc)视频。ugc视频是由各种拍摄设备在野外拍摄的。因此，这些视频可能会遭受复杂的现实世界的失真，如过度曝光、曝光不足、相机不稳定等。因此，与传统的综合失真视频的质量评估相比，ugc视频的质量评估是一个更具挑战性的问题。
4.由此可见，一方面是传统视频质量评价方法的局限性，另一方面是ugc视频的大量需求，目前急需能够应对用户生成内容的视频质量评价方法。

技术实现要素：

5.针对现有技术中存在的上述不足，本发明的目的是提供一种基于神经网络的用户生成内容视频质量评价方法及系统。
6.本发明第一目的，提供一种基于神经网络的用户生成内容视频质量评价方法，包括：
7.将视频帧输入神经网络中提取空间域特征；
8.对提取的所述空间域特征使用循环神经网络来提取时间域特征；
9.对提取的所述时间域特征使用时间池来引入时间记忆效应，得到新的特征值；
10.对所述新的特征值使用平均池化，得到视频的评价质量分数。
11.可选地，所述将视频帧输入神经网络中提取空间域特征，其中，所述神经网络中嵌入非局部层来学习遥远位置的依赖关系。
12.可选地，所述非局部层，其中，计算遥远距离依赖的关系函数使用高斯函数，并在最后使用批标准化来减少过拟合。
13.可选地，所述非局部层通过设置输入和输出维度参数相匹配来嵌入所述神经网络中。
14.可选地，对提取的所述空间域特征使用循环神经网络来提取时间域特征，其中，所述循环神经网络采用的是门控循环单元。
15.可选地，所述对提取的所述时间域特征使用时间池来引入时间记忆效应，其中，所述时间池包含加权时间池和最小时间池，提取的所述时间域特征分别进入这两个时间池后再通过加权求和得到新的特征值。
16.本发明的第二目的，提供一种基于神经网络的用户生成内容视频质量评价系统，包括：
17.空间域特征提取模块：将视频帧输入神经网络中提取空间域特征；
18.时间域特征特区模块：对提取的所述空间域特征使用循环神经网络来提取时间域特征；
19.池化提取模块：对提取的所述时间域特征使用时间池来引入时间记忆效应，得到新的特征值；
20.平均池化模块：对所述新的特征值使用平均池化，得到视频的评价质量分数。
21.可选地，所述将视频帧输入神经网络中提取空间域特征，其中，所述神经网络中嵌入非局部层来学习遥远位置的依赖关系。
22.本发明的第三目的，提供一种基于神经网络的用户生成内容视频质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，所述处理器执行所述程序时用于执行所述的基于神经网络的用户生成内容视频质量方法。
23.本发明的第四目的，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行所述的基于神经网络的用户生成内容视频质量方法。
24.与现有技术相比，本发明具有如下有益效果：
25.本发明提供了一种基于神经网络的用户生成内容视频质量评价方法，包括：将视频帧输入神经网络中提取空间域特征，并在神经网络中嵌入非局部层来学习遥远位置的依赖关系，之后使用循环神经网络来提取时间域特征，并通过接入时间池来引入时间记忆效应，最后平均池化得到视频的质量。本发明提供的基于神经网络的用户生成内容视频质量评价方法，可以有效应对用户生成内容的复杂失真，具有良好的泛化性，可有效地评价用户生成内容的视频总体体验质量。
附图说明
26.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
27.图1为本发明一实施例视频质量评价方法流程图；
28.图2为本发明一实施例视频质量评价方法的详细流程框图；
具体实施方式
29.下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。
30.如图1所示，本发明一实施例中的基于神经网络的用户生成内容视频质量评价方法，包括：
31.s1：将视频帧输入神经网络中提取空间域特征；
32.s2：对s1中提取的空间域特征使用循环神经网络来提取时间域特征；
33.s3：对s2中提取的时间域特征使用时间池来引入时间记忆效应；
34.s4：对s3的结果使用平均池化得到视频的评价质量分数。
35.上述s1中，使用的神经网络采用vgg网络，同时视频的输入同一缩放尺寸为448
×
448。
36.上述s1中，视频帧的提取可以通过跳帧来减少硬件训练压力和时间成本。
37.上述s1中，神经网络中嵌入非局部层来学习遥远位置的依赖关系。计算遥远距离依赖的关系函数使用高斯函数，并在最后使用批标准化来减少过拟合。非局部层通过设置输入和输出维度参数相匹配来嵌入现有神经网络中。
38.在嵌入时，非局部层优选嵌入在最后vgg卷积模块的8、9、10层后，嵌入太浅或太深都无法最有效地学习遥远位置的依赖关系，而层数太多计算量太大，层数太少非局部层效果不明显。
39.上述s2中，使用循环神经网络来提取时间域特征，采用的是门控循环单元(gru)，gru相比其他循环神经网络复杂度更低且更易收敛。
40.上述s3中，时间池包含加权时间池和最小时间池，s2得到的结果分别进入这两个时间池后再通过加权求和得到新的特征值。
41.基于上述相同的技术构思，本发明另一实施例中提供一种基于神经网络的用户生成内容视频质量评价系统，包括：
42.空间域特征提取模块：将视频帧输入神经网络中提取空间域特征；
43.时间域特征特区模块：对提取的空间域特征使用循环神经网络来提取时间域特征；
44.池化提取模块：对提取的时间域特征使用时间池来引入时间记忆效应，得到新的特征值。该效应是人打分时的心理效应，通过使用时间池能更好地模拟这种心理效应，从而使得预测分数更接近人主观打分的分数；
45.平均池化模块：对新的特征值使用平均池化，得到视频的评价质量分数。
46.上述基于神经网络的用户生成内容视频质量评价系统实施例中各模块的具体实现技术可以参照基于神经网络的用户生成内容视频质量评价方法中对应的步骤，在此不再赘述。
47.基于相同技术构思，本发明实施例还提供一种基于神经网络的用户生成内容视频质量评价终端，包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序，所述处理器执行所述程序时用于执行所述的基于神经网络的用户生成内容视频质量方法。
48.基于相同技术构思，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行所述的基于神经网络的用户生成内容视频质量方法。
49.参照图2所示，在本发明一具体实施例中，基于神经网络的用户生成内容视频质量评价方法，包括如下步骤：
50.第一步、从视频中采样提取视频帧，输入神经网络中提取空间域特征
51.具体地，对于每个提供的参考视频，根据硬件的计算能力跳帧采样，本次设定的是
每十帧提取一帧，然后将视频帧缩放。在本实施例中，视频帧缩放后的分辨率大小为448
×
448。
52.神经网络可以利用在imagenet上预训练好的深度神经网络，包括alexnet、vgg、googlenet、resnet等；
53.神经网络在本实施例中采用了vgg16，去除了fc层，只保留了前面的卷积层，并且嵌入非局部层来学习遥远位置的依赖关系。计算遥远距离依赖的关系函数使用高斯函数：
[0054][0055]
并在最后使用批标准化来减少过拟合。非局部层通过设置输入和输出维度参数相匹配来嵌入现有神经网络中。
[0056]
整体的公式如下：
[0057][0058]
在嵌入时，所述的非局部层分别嵌入在最后vgg卷积模块的8、9、10层后。
[0059]
第二步、使用循环神经网络来提取时间域特征，采用的是门控循环单元(gru)。
[0060]
第三步、通过池化提取到的特征得到视频的评价分数
[0061]
具体地，池化先后经过了时间池和平均池化。时间池是为了引入时间记忆效应，时间池包含加权时间池和最小时间池，第二步得到的特征分别进入这两个时间池后再通过加权求和得到新的特征值。最后进入平均池化，将多维的特征转化为一个预测分数，即视频质量评价结果。全程的数据维度变化可以从图2中的标注的数字看到。
[0062]
实施效果：
[0063]
为了对本发明上述实施例中所提供的基于神经网络的用户生成内容视频质量评价方法的有效性进行验证，可以在konvid
‑
1k、live
‑
qualcomm和cvd2014数据库上对相关算法进行测试。konvid
‑
1k数据库包括共有1200个分辨率为960
×
540的视频。这些视频长8秒，每秒24/25/30帧。mos的范围从1.22到4.64。cvd2014视频数据库包含234个分辨率为640
×
480或1280
×
720的视频。这些视频长10到25秒，每秒11到31帧。实验利用视频质量专家组(vqeg)在video quality experts group(vqeg)phase i full reference
‑
tv test中提出的中提出的以下两种评价标准来衡量音视频质量评价方法的性能好坏：pearson linear correlation coefficients(plcc)，spearman rank order correlation coefficients(srocc)。同时附加了两个指标kendall order correlation coeffificient(krocc)和root mean square error(rmse)来评价准确性。
[0064]
性能测试结果如表1所示，除了原始模型，实验还测试了业界现有的几个效果最好的模型作为对比，可以看到本发明实施例在四个指标上都显著超越了现有的模型。
[0065]
表1
[0066][0067]
本发明上述实施例提供的一种基于神经网络的用户生成内容视频质量评价方法，可有效地评价用户生成内容的视频总体体验质量，有效应对用户生成内容的复杂失真，具有良好的泛化性。
[0068]
需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。
[0069]
本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0070]
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。在不冲突的情况下，以上实施例及实施例中的特征可以相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于使用预定义策略控制预测模型的遗传学习的方法、系统和计算机程序产品与流程

基于神经网络的用户生成内容视频质量评价方法及系统与流程

相关文献

最热文献