一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多项式运动建模的帧间编码方法、系统、设备与存储介质与流程

2022-02-20 12:30:20 来源:中国专利 TAG:
多项式运动建模的帧间编码方法、系统、设备与存储介质与流程

本发明涉及视频压缩编码技术领域,尤其涉及一种多项式运动建模的帧间编码方法、系统、设备与存储介质。

背景技术

视频的压缩编码是电子信息时代的重要技术,有助于减小视频的传输带宽与存储消耗。视频编码的主要目标是去除视频帧之间的时域相关性,从而获得更高的率失真性能。

有损视频压缩编码技术可以分为传统编码方法和基于深度学习的编码方法。传统视频编码是一种发展了几十年的成熟方案,采用混合编解码框架,代表算法有H.264/AVC,H.265/HEVC和H.266/VVC。而深度视频编解码结合了神经网络训练,是近几年提出的一种端到端优化的新框架。

目前主流视频压缩编码方法是先通过运动补偿利用参考帧来预测当前需要编码的视频帧,然后编码预测帧和当前帧的残差,从而去除时域冗余。在这个过程中,根据已有参考帧灵活准确地建模运动信息扮演着非常重要的角色。一个高效的运动模型可以在编解码双方提供准确的运动预测,减少当前帧需要编码的运动信息的码率,提高帧间预测效果。现有方法通常使用线性运动模型或者用固定输入参考帧数量的神经网络进行运动建模,存在以下缺点:1)只适用于固定预测模式,不能灵活调整输入参考帧数量和参考帧结构,2)线性运动模型不能准确预测真实世界复杂的非线性运动。



技术实现要素:

本发明的目的是提供一种多项式运动建模的帧间编码方法、系统、设备与存储介质,能灵活适用于不同预测模式,并且能准确建模非线性运动以提高帧间压缩性能。

本发明的目的是通过以下技术方案实现的:

一种多项式运动建模的帧间编码方法,包括:

对于当前视频帧的每一参考帧,使用k阶多项式进行建模,获得每一参考帧的像素的光流,并结合流向变换技术,获得当前视频帧的像素的光流;

利用当前视频帧的像素的光流进行运动预测,获得预测帧;

利用所述预测帧对当前视频帧进行帧间编码。

一种多项式运动建模的帧间编码系统,其特征在于,用于实现前述的方法,该系统包括:

光流预测模块,用于对当前视频帧的每一参考帧,使用k阶多项式进行建模,获得每一参考帧的像素的光流,并结合流向变换技术,获得当前视频帧的像素的光流;

运动预测模块,用于利用当前视频帧的像素的光流进行运动预测,获得预测帧;

帧间编码模块,用于利用所述预测帧对当前视频帧进行帧间编码。

一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;

其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。

一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出:1)能够灵活适用于不同预测模式,比如不同的参考帧数量,不同的参考结构;能够以一套模型处理多种模式,相比多套模型处理多套模式更高效;2)能够准确建模非线性运动,相比线性运动模型更适用于自然场景视频压缩;3)具有广泛的适用性,在多码率点、多种模型、多数据集上均有良好的性能提升效果。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种多项式运动建模的帧间编码方法的示意图;

图2为本发明实施例提供的基于多项式运动模型的光流预测示意图;

图3为本发明实施例提供的一种多项式运动建模的帧间编码系统的示意图;

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明:

术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种多项式运动建模的帧间编码方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。

本发明实施例提供的一种多项式运动建模的帧间编码方法,图1展示了主体流程,主要包括如下步骤:

步骤1、对于当前视频帧的每一参考帧,使用k阶多项式进行建模,获得每一参考帧的像素的光流,并结合流向变换技术,获得当前视频帧的像素的光流。

本发明实施例中,输入视频帧序列为{x1,x2,…,xT},每一视频帧对应一个时刻,当前时刻t对应当前视频帧xt,t=1,2,…,T,T为视频帧总数。假设当前视频帧对应的参考帧数目设为n,参考帧集合表示为参考帧在视频序列中的位置位于当前视频帧之前和/或当前视频帧之后。

此时,可以通过解码端已知的参考帧,分析建模运动信息,从而预测到未知时刻的运动矢量(光流)。

对于参考帧将其中单个像素移动到当前时刻t的光流记为使用k阶多项式建模,表示为:

其中,每一视频帧对应一个时刻,当前时刻t对应当前视频帧,tj表示参考帧对应的时刻;a1,a2,...,ak为多项式系数。

利用参考帧集合中距离tj最近的k个参考帧,计算出用k阶多项式的多项式系数,并计算出参考帧单个像素移动到当前时刻t的光流具体来说:将自变量t设为参考帧集合中距离tj最近的k个参考帧,并带入上述k阶多项式,得到如下等式:

其中,分别表示距离tj最近的k个参考帧对应的时刻,分别表示参考帧的某个像素移动到时刻的光流(可以同时在编解码端通过运动估计得到);将计算出的多项式a1,a2,...,ak,带入k阶多项式,估计出参考帧单个像素移动到当前时刻t的光流

前述阶段预测得到了参考帧的像素的光流,因此,可以得到参考帧像素的运动轨迹,但是难以直接应用帧间预测,因此,还需要得到当前视频帧的像素的光流,即通过求得

本发明实施例中,采用基于Softmax Splatting(Niklaus S,Liu F.Softmax splatting for video frame interpolation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020)的流向变换技术,结合参考帧的像素的光流获得当前视频帧的像素的光流,表示为:

其中,是Softmax Splatting定义的求和方式;Z是一个重要性掩膜,由Softmax Splatting中描述的方法生成;关于与Z所涉及的具体计算方式可参照相关方案实现,此处不做赘述。

如图2所示,展示了基于多项式运动模型的光流预测流程。

步骤2、利用当前视频帧的像素的光流进行运动预测,获得预测帧。

步骤3、利用所述预测帧对当前视频帧进行帧间编码。

本发明实施例中,对于每一个参考帧都会执行前述步骤1的操作,因此,对于参考帧集合最终可以得到当前视频帧的像素到n个时刻的光流;通过运动预测,获得n个预测帧,最终利用n个预测帧对当前视频帧进行帧间编码,由于预测帧比原来的参考帧更接近当前视频帧,因此在帧间编码时所需要压缩传输的运动信息更少,并且更容易获得准确的帧间预测结果。

需要说明的是,前述步骤2与步骤3中所涉及的运动预测与帧间编码的流程可参照常规技术实现,此处不做赘述。

此外,本发明上述方案可以在各种深度视频编解码框架中实施,只需要将原有的运动模型替换为本发明所提的多项式运动模型,或者将整个光流预测模块替换为本发明提出光流预测模块。

本发明实施例上述方案主要获得如下有益效果:

1)能够灵活适用于不同预测模式,比如不同的参考帧数量,不同的参考结构;能够以一套模型处理多种模式,相比多套模型处理多套模式更高效。

2)能够准确建模非线性运动,相比线性运动模型更适用于自然场景视频压缩。

3)具有广泛的适用性,在多码率点、多种模型、多数据集上均有良好的性能提升效果。

综上所述,本发明提供的上述方案能够在广泛意义上提高深度视频压缩框架中多参考帧运动建模的灵活性和准确性,有助于其更好地投入实际应用。

本发明另一实施例还提供一种多项式运动建模的帧间编码系统,其主要用于实现前述实施例提供的方法,如图3所示,该系统主要包括:

光流预测模块,用于对当前视频帧的每一参考帧,使用k阶多项式进行建模,获得每一参考帧的像素的光流,并结合流向变换技术,获得当前视频帧的像素的光流;

运动预测模块,用于利用当前视频帧的像素的光流进行运动预测,获得预测帧;

帧间编码模块,用于利用所述预测帧对当前视频帧进行帧间编码。

本发明另一实施例还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;

输出设备可以为显示终端;

存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。

本发明另一实施例还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献