基于队列学习和超分辨率的超高清视频传输系统与方法

2022-09-15 05:58:35 来源：中国专利 TAG：

1.本发明属于视频自适应传输技术领域，具体涉及一种基于队列学习和超分辨率的超高清视频传输系统与方法。

背景技术：

2.超高清视频具有超高分辨率特性且其传输对网络要求较高，使其在网络资源受限的网络环境中传输存在巨大挑战。虽然随着5g逐步大规模商用，其良好的网络承载力能够改善4k、8k超高清视频播放或者直播的流畅度和稳定性；但是，一方面，视频用户数量和网络视频流量与日俱增，远远超过网络传输速率的提升速度，仍然会造成带宽资源紧缺；另一方面，超高清视频传输(特别是直播)往往要求网络带宽大、时延低以及抖动小，这使其在网络资源受限的弱网场景(如卫星网络、车联网、无人机应急救灾、边远山区通信等)中传输面临以下几个方面问题：1)网络链路可用带宽具有时变性；2)网络带宽和覆盖范围具有有限性；3)无线接入会产生间歇性中断且信道干扰具有随机性；4)用户请求具有随机性和区域性；5)网络流量具有突发性；6)视频生产者、消费者以及传输节点具有潜在移动性等，这些问题使得超高清视频服务质量难以得到保障。因此，迫切需要研究更加有效的超高清视频自适应传输机制，在尽可能满足泛在视频场景的服务质量(或体验)需求前提下，打破对网络带宽和场景的依赖，缓解因网络资源受限而导致的视频抖动、卡顿、延迟较大等现象。

技术实现要素：

3.为了降低超高清视频传输质量对网络宽带和场景的依赖性，本发明提供了一种基于队列学习和超分辨率的超高清视频传输系统。本发明通过构建具有vsr能力的视频自适应传输系统，能够对源端分辨率和vsr重建分辨率进行智能自适应调节，为打破超高清视频传输质量对网络状况的强依赖关系提供技术支撑，同时能够有效缓解传输超高清视频所面临的带宽资源压力。
4.本发明通过下述技术方案实现：
5.基于队列学习和超分辨率的超高清视频传输系统，包括边缘代理节点；
6.所述边缘代理节点包括自适应决策智能体、vsr处理器和下载缓存队列；
7.所述vsr处理器用于对源端传输来的视频分辨率进行重建；
8.所述下载缓存队列用于缓存从源端传输来的视频块；
9.所述自适应决策智能体用于监控网络状态信息、客户端播放缓存队列信息以及所述下载缓存队列信息，并根据监控到的信息对源端视频分辨率和所述vsr处理器重建的视频分辨率进行自适应调节，输出自适应视频分辨率决策到源端，以使源端根据接收的自适应视频分辨率决策发送对应分辨率的视频块。
10.作为优选实施方式，本发明的vsr处理器能够执行基于深度学习的vsr算法。
11.作为优选实施方式，本发明的源端为dash服务器端，支持多种分辨率视频格式。
12.作为优选实施方式，本发明的客户端包括dash播放器；
13.所述dash播放器中维护一个状态可读的播放缓存队列。
14.另一方面，本发明提出了基于上述基于队列学习和超分辨率的超高清视频传输系统的传输方法，包括：
15.建立基于队列学习的自适应传输优化模型；
16.采用深度强化学习方法对所述自适应传输优化模型进行求解，对源端视频分辨率和vsr处理器重建的视频分辨率进行决策。
17.作为优选实施方式，本发明的建立基于队列学习的自适应传输优化模型，具体为：
18.构建下载缓存队列模型b1(t)；b1(t)为下载缓存队列在时隙t开始时的队列中视频的播放时长；
19.构建播放缓存队列模型b2(t)；b2(t)为播放缓存队列在时隙t开始时队列内的播放时长；
20.构建vsr处理模型n(t)；n(t)为边缘代理节点实现线速vsr所需要的cpu核数
21.构建信道模型c(t)；c(t)为时隙t用户的无线传输速率；
22.建立优化模型：
[0023][0024]
s.t.p(n
′
(t)＜n(t))≤ε1[0025]
p(b2(t)＜b
bound
)≤ε2；
[0026]
其中，q
psnr
为视频质量，t
re
为中断造成的重缓冲时间，d
switch
为分辨率切换造成的抖动，λ1和λ2为权重因子，n
′
(t)为时隙t的边缘代理节点上可用cpu核数，ε1为约束的概率约束阈值，qoe为单个用户的体验质量，b
bound
为播放缓存队列播放视频时长的最低阈值，ε2为约束的违反概率。
[0027]
作为优选实施方式，本发明的采用深度强化学习方法对所述自适应传输优化模型进行求解，具体包括：
[0028]
构建深度神经网络模型并进行模型训练；
[0029]
将采集的实时状态信息输入到训练好的模型中，输出最优控制策略。
[0030]
作为优选实施方式，本发明构建的深度神经网络模型具体为：
[0031][0032]
其中，α是学习速率，γ是奖励折扣率，q(s
t
，a
t
)是对于给定的状态s
t
，采取动作a
t
后得到的动作价值函数，表示在状态s
t 1
下选择动作a
t 1
后得到的最大值函数，s
t
为时隙t时系统状态，a
t
为时隙t的行动向量，r
t
为奖励函数；
[0033]
利用深度神经网络q(s
t
，a
t
；θ)来替代q(s
t
，a
t
)；其中，θ为q网络的参数；
[0034]
采用dqn算法对深度神经网络q(s
t
，a
t
；θ)进行训练。
[0035]
作为优选实施方式，本发明的系统状态可表示为：
[0036]st
＝{b1(t)，b2(t)，n
′
(t)，n(t)，c(t)}
[0037]
b1(t)为时隙t开始时下载缓存队列视频时长，b2(t)为时隙t开始时播放缓存队列视频时长，n
′
(t)为时隙t开始时边缘代理节点上的可用cpu核数，n(t)为时隙t开始时vsr线速处理所需要的cpu核数，c(t)为时隙t开始时的无线传输速率；
[0038]
所述行动向量可表示为：
[0039]at
＝{l(t)，l
′
(t)}
[0040]
l(t)为时隙t时源端传输的视频分辨率，l
′
(t)为时隙t时vsr重建的视频分辨率；
[0041]
奖励函数可表示为：
[0042]rt
＝qoe
t-β1i1(t)-β2i2(t)
[0043]
其中，β1和β2是权重因子。
[0044][0045]
作为优选实施方式，本发明输出的最优控制策略包括源端传输的视频分辨率和vsr重构的视频分辨率。
[0046]
本发明具有如下的优点和有益效果：
[0047]
本发明提供的超高清白适应传输技术能够在网络资源受限的网络环境中保持高质量传输，其对网络宽带和场景的依赖较弱。
[0048]
本发明提供的超高清自适应传输技术能够有效缓解因网络资源受限而导致的视频抖动、卡顿、延迟较大等现象，从而在网络资源受限的网路中保证传输质量，为适用于网络资源受限的网络环境中的超高清视频自适应传输机制研究提供了技术支撑。
附图说明
[0049]
此处所说明的附图用来提供对本发明实施例的进一步理解，构成本技术的一部分，并不构成对本发明实施例的限定。在附图中：
[0050]
图1为本发明实施例的系统原理框图。
[0051]
图2为本发明实施例的方法流程示意图。
具体实施方式
[0052]
在下文中，可在本发明的各种实施例中使用的术语“包括”或“可包括”指示所发明的功能、操作或元件的存在，并且不限制一个或更多个功能、操作或元件的增加。此外，如在本发明的各种实施例中所使用，术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
[0053]
在本发明的各种实施例中，表述“或”或“a或/和b中的至少一个”包括同时列出的文字的任何组合或所有组合。例如，表述“a或b”或“a或/和b中的至少一个”可包括a、可包括b或可包括a和b二者。
[0054]
在本发明的各种实施例中使用的表述(诸如“第一”、“第二”等)可修饰在各种实施例中的各种组成元件，不过可不限制相应组成元件。例如，以上表述并不限制所述元件的顺序和/或重要性。以上表述仅用于将一个元件与其它元件区别开的目的。例如，第一用户装置和第二用户装置指示不同用户装置，尽管二者都是用户装置。例如，在不脱离本发明的各种实施例的范围的情况下，第一元件可被称为第二元件，同样地，第二元件也可被称为第一元件。
[0055]
应注意到：如果描述将一个组成元件“连接”到另一组成元件，则可将第一组成元
件直接连接到第二组成元件，并且可在第一组成元件和第二组成元件之间“连接”第三组成元件。相反地，当将一个组成元件“直接连接”到另一组成元件时，可理解为在第一组成元件和第二组成元件之间不存在第三组成元件。
[0056]
在本发明的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本发明的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。
[0057]
为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。
[0058]
实施例
[0059]
为了实现超高清视频在网络资源受限的网络环境中的高质量传输，本实施例提供了一种基于队列学习和超分辨率的超高清视频传输系统。
[0060]
如图1所示，本实施例提出的超高清视频传输系统包括边缘代理节点。该边缘代理节点包括自适应决策智能体、vsr处理器和下载缓存队列。
[0061]
其中，vsr处理器用于对源端传输视频分辨率进行重建；
[0062]
下载缓存队列用于缓存从源端传输来的视频块；
[0063]
自适应决策智能体能够监控网络状态信息、客户端播放缓存队列信息以及下载缓存队列信息，并根据上述信息对源端视频分辨率和vsr处理器重建的视频分辨率进行智能自适应调节，向源端发送自适应视频分辨率决策，以使源端根据接收的自适应视频分辨率决策发送对应分辨率的视频块。
[0064]
具体的，源端为dash(dynamic adaptive streaming over http)服务器端，其支持多种分辨率视频格式，能够根据边缘代理节点的自适应分辨率决策，向其发送对应分辨率的视频块。
[0065]
具体的，客户端包括dash播放器，且dash播放器中维护一个状态可读的播放缓存队列。
[0066]
具体的，vsr处理器能够支撑基于深度强化学习的vsr算法，例如fsrcnn(fast super revolution convolutional neural network)、frvsr(frame-recurrent video super-resolution)、sof-vsr(super-resolving optical flow for video super-resolution)等；考虑到vsr处理器的处理能力和客户端播放速度有限，故从源端传输到边缘代理节点的低分辨率视频块先被缓存在下载缓存队列中；自适应决策智能体能够收集网络状态信息、客户端播放缓存队列信息以及下载缓存队列信息等，并根据各状态信息，对源端的视频分辨率和vsr处理器重建的视频分辨率进行智能自适应调节。
[0067]
本实施例还提出了一种基于上述超高清视频传输系统的传输方法，如图2所示，包括以下步骤：
[0068]
步骤s1，建立基于队列学习的自适应传输优化模型。考虑边缘代理节点上视频下
载缓存队列状态、vsr处理状态、接入网络(如wifi，4g，5g，6g等)传输状态以及客户端播放队列状态，通过队列学习，建立具有视频服务质量保障的优化模型，决策变量为源端视频分辨率和vsr重建视频分辨率。
[0069]
步骤s2，采用深度强化学习方法对优化模型进行求解。利用传输系统对支撑深度强化学习的智能体进行训练，直到算法收敛，利用训练好的深度强化学习算法，对源端视频分辨率和vsr处理器重建的视频分辨率进行决策。
[0070]
进一步的，本实施例的步骤s1还包括以下子步骤：
[0071]
步骤s11，构建下载缓存队列模型。将系统时间离散化为一个个时隙t＝1，2，...，时隙时长为d。源视频被分为若干视频块，分块地从源端传输至边缘代理节点。
[0072]
由于vsr处理器能力和终端播放速度有限，传输到边缘代理节点的数据包将先被缓存在下载缓存队列。队列的变动将受到多个因素影响：1)时变网络环境的传输能力，2)边缘代理节点的vsr处理能力。因此，该队列的动态演变过程如下：
[0073]
b1(t)＝max{b1(t-1) b
1，in
(t-1)-b
1，out
(t-1)，0}
ꢀꢀ
(1)
[0074]
其中，b1(t)为下载缓存队列在时隙t开始时的队列中视频的播放时长，b1(t-1)为下载缓存队列在时隙t-1开始时的队列中视频的播放时长，b
1，in
(t-1)为下载缓存队列在时隙t-1收到的视频的播放时长，b
1，out
(t-1)为时隙t-1阶段vsr处理的视频时长。
[0075]
步骤s12，构建播放缓存队列模型。为了使视频能够无卡顿连续播放，在用户终端上部署一个播放缓存队列，用来缓存接收到的视频块，用b2(t)表示播放缓存队列在时隙t开始时队列内的播放时长。播放缓存队列的动态演变过程可定义为：
[0076]
b2(t)＝max{b2(t-1) b
2，in
(t-1)-d，0}
ꢀꢀ
(2)
[0077]
其中，b2(t-1)为播放缓存队列在时隙t-1开始时队列内的播放时长，b
2，in
(t-1)为时隙t-1期间播放缓存队列接收到的视频的时长，d为播放的视频时长。
[0078]
步骤s13，构建vsr处理模型。在时隙t，假设源端传输的视频分辨率为l(t)，边缘代理节点vsr重建的视频分辨率为l
′
(t)，为vsr处理器将1帧画面从低分辨率l(t)重建至高分辨率l
′
(t)所需的平均cpu周期，f为帧率(单位：帧/秒)，g0为单个cpu核的cpu周期频率。边缘代理节点实现线速vsr(即每秒处理f帧)所需要的cpu核数为：
[0079][0080]
假设时隙t的边缘代理节点上可用cpu核数为n
′
(t)，为了保证边缘代理节点能够尽可能地进行线速vsr处理，需满足如下约束条件：
[0081]
p(n
′
(t)＜n(t))≤ε1ꢀꢀ
(4)
[0082]
其中，ε1为约束的概率约束阈值。
[0083]
步骤s14，构建信道模型。设w，p，n0分别为无线信道带宽，信号发送功率和加性高斯白噪声的功率谱密度，根据香农公式，时隙t用户的无线传输速率为：
[0084][0085]
其中h(t)是时隙t时的信道条件。
[0086]
步骤s15，设定目标函数。考虑边缘代理节点上视频下载队列状态、vsr处理状态、接入网络(如wifi，4g，5g，6g等)传输状态以及客户端播放队列状态，建立能够提升视频传
输质量、减少重缓冲时间和减少质量抖动的优化模型，决策变量为源端视频分辨率和vsr重建视频分辨率。具体地，目标函数包括以下三个部分：
[0087]qpsnr
：视频质量q
psnr
可以用psnr来表示。
[0088]
t
re
：中断造成的重缓冲时间用t
re
表示。
[0089]dswitch
：分辨率切换造成的抖动用d
switch
表示。
[0090]
当视频存在重缓冲和抖动时，将获得一个惩罚值，时延越长，惩罚值越大。对于单个用户的体验质量(quality of experience，qoe)可以表示为：
[0091]
qoe＝q
psnr-λ1t
re-λ2d
switch
ꢀꢀ
(6)
[0092]
其中，λ1和λ2为权重因子。
[0093]
为了进一步防止终端产生播放中断，可以为播放缓存队列加下溢概率约束，即
[0094]
p(b2(t)＜b
bound
)≤ε2ꢀꢀ
(7)
[0095]
其中，b
bound
为播放缓存队列播放视频时长的最低阈值，当播放缓存队列中的视频时长低于b
bound
时，有视频中断的可能，ε2为约束的违反概率。
[0096]
综上，其优化问题可以表示为：
[0097][0098]
s.t.p(n
′
(t)＜n(t))≤ε1[0099]
p(b2(t)＜b
bound
)≤ε2[0100]
进一步的，本实施例的步骤s2还包括以下子步骤：
[0101]
步骤s21，构建深度神经网络模型并进行模型训练；
[0102]
本实施例中采用深度强化学习贝尔曼(bellman)方程，其可以写为
[0103][0104]
其中，α是学习速率，γ是奖励折扣率，q(s
t
，a
t
)是对于给定的状态s
t
，采取动作a
t
后得到的动作价值函数，max函数用来选取最优动作价值函数，指选择能使当前状态下值函数最大的动作a
t 1
，表示在状态s
t 1
下选择动作a
t 1
后得到的最大值函数，s
t
为时隙t时系统状态，可以表示为s
t
＝{b1(t)，b2(t)，n
′
(t)，n(t)，c(t)}，状态的所有取值构成状态空间。b1(t)为时隙t开始时下载缓存队列视频时长，b2(t)为时隙t开始时播放缓存队列视频时长，n
′
(t)为时隙t开始时边缘代理节点上的可用cpu核数，n(t)为时隙t开始时vsr线速处理所需要的cpu核数，c(t)为时隙t开始时的无线传输速率。
[0105]at
为时隙t的行动向量，其所有取值构成行动空间。对于自适应决策智能体，决策包括1)根据状态设置源端传输的视频分辨率l(t)，2)根据状态设置边缘代理节点vsr重建的视频分辨率l
′
(t)。时隙t的行动向量可表示为a
t
＝{l(t)，l
′
(t)}。
[0106]rt
为奖励函数。自适应决策智能体根据采集的实时系统状态进行自适应决策，系统执行某个行动后，会反馈给智能体一个即时奖励。为了使用户能够获得更好的视频服务体验，可以将用户的qoe作为收益，并且当约束(4)和(7)不满足时，将会获得一个惩罚值。将目标函数定义为
[0107]rt
＝qoe
t-β1i1(t)-β2i2(t)
[0108]
其中，β1和β2是权重因子。
[0109][0110]
对具有大量状态和动作的马尔可夫决策过程(mdp)，可以利用神经网络q(s
t
，a
t
；θ)来近似q(s
t
，a
t
)，其中，θ为q网络的参数(即权重)，通过调整可以改变q网络的模型。
[0111]
对于深度神经网络q(s
t
，a
t
；θ)的训练遵循dqn(deep q-network)算法。
[0112]
步骤s22，将采集的实时状态信息输入到训练好的模型中，输出最优控制策略。包括源端传输的视频分辨率l(t)和边缘代理节点vsr重建的视频分辨率l
′
(t)。
[0113]
以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于队列学习和超分辨率的超高清视频传输系统与方法

相关文献

最热文献