使用深度生成性模型的视频压缩的制作方法

2021-10-30 02:35:00 来源：中国专利 TAG：

技术特征：
1.一种用于压缩视频的方法，包括：接收供压缩的视频内容；通过由第一人工神经网络实现的自编码器将所接收的视频内容编码到隐代码空间中；通过由第二人工神经网络实现的概率模型来生成经编码视频内容的经压缩版本；以及输出所述经编码视频内容的所述经压缩版本以供传输。2.如权利要求1所述的方法，其中所述自编码器通过以下方式来训练：接收第一视频内容；将所述第一视频内容编码到所述隐代码空间中；通过解码经编码的第一视频内容来生成所述第一视频内容的经重构版本；将所述第一视频内容的所述经重构版本与所接收的第一视频内容进行比较；以及基于所述比较来调整所述自编码器。3.如权利要求2所述的方法，其中调整所述自编码器包括执行梯度下降。4.如权利要求1所述的方法，其中所述自编码器被配置成基于三维滤波器将所接收的视频内容编码到所述隐代码空间中，其中所述三维滤波器的维度包括视频帧的高度、所述视频帧的宽度和所述视频帧的时间。5.如权利要求1所述的方法，其中经训练的概率模型包括四维张量上的概率分布的自回归模型，所述概率分布解说了不同代码能被用于压缩所述经编码视频内容的可能性。6.如权利要求5所述的方法，其中所述概率模型基于四维张量来生成数据，其中所述四维张量的维度包括所述视频内容的时间、通道和空间维度。7.如权利要求5所述的方法，其中所述概率分布是基于对依赖性的因子分解来生成的。8.如权利要求7所述的方法，其中所述对依赖性的因子分解表示基于与所述视频内容中的当前时间片和调理信号相关联的代码的概率分布。9.如权利要求8所述的方法，其中所述调理信号包括由递归神经网络针对与所述视频内容中除所述当前时间片之外的先前时间片相关联的代码的输入所生成的输出。10.如权利要求9所述的方法，其中所述递归神经网络包括卷积长短期记忆(lstm)层集合。11.一种用于压缩视频的系统，包括：至少一个处理器，所述至少一个处理器配置成：接收供压缩的视频内容；通过由配置成在所述至少一个处理器上执行的第一人工神经网络实现的自编码器将所接收的视频内容编码到隐代码空间中；通过由配置成在所述至少一个处理器上执行的第二人工神经网络实现的概率模型来生成经编码视频内容的经压缩版本；以及输出所述经编码视频内容的所述经压缩版本以供传输；以及耦合到所述至少一个处理器的存储器。12.如权利要求11所述的系统，其中所述至少一个处理器被配置成通过以下方式来训练所述自编码器：接收第一视频内容；将所述第一视频内容编码到所述隐代码空间中；
通过解码经编码的第一视频内容来生成所述第一视频内容的经重构版本；将所述第一视频内容的所述经重构版本与所接收的第一视频内容进行比较；以及基于所述比较来调整所述自编码器。13.如权利要求12所述的系统，其中调整所述自编码器包括执行梯度下降。14.如权利要求11所述的系统，其中所述自编码器被配置成基于三维滤波器将所接收的视频内容编码到所述隐代码空间中，其中所述三维滤波器的维度包括视频帧的高度、所述视频帧的宽度、和所述视频帧的时间。15.如权利要求11所述的系统，其中经训练的概率模型包括四维张量上的概率分布的自回归模型，所述概率分布解说了不同代码能被用于压缩所述经编码视频内容的可能性。16.如权利要求15所述的系统，其中实现所述概率模型的所述第二人工神经网络被配置成基于四维张量来生成数据，其中所述四维张量的维度包括所述视频内容的时间、通道和空间维度。17.如权利要求15所述的系统，其中所述概率分布是基于对依赖性的因子分解来生成的。18.如权利要求17所述的系统，其中所述对依赖性的因子分解表示基于与所述视频内容中的当前时间片和调理信号相关联的代码的概率分布。19.如权利要求18所述的系统，其中所述第二人工神经网络包括在所述至少一个处理器上执行的递归神经网络，其中所述调理信号包括由所述递归神经网络针对与所述视频内容中除所述当前时间片之外的先前时间片相关联的代码的输入所生成的输出。20.如权利要求19所述的系统，其中所述递归神经网络包括卷积长短期记忆(lstm)层集合。21.一种用于解压缩经编码视频的方法，包括：接收经编码视频内容的经压缩版本；基于由第一人工神经网络实现的概率模型，将所述经编码视频内容的所述经压缩版本解压缩到隐代码空间中；通过由第二人工神经网络实现的自编码器从所述隐代码空间中解码出所述经编码视频内容；以及输出经解码视频内容以供显示。22.如权利要求21所述的方法，其中所述自编码器通过以下方式来训练：接收第一视频内容；将所述第一视频内容编码到所述隐代码空间中；通过解码经编码的第一视频内容来生成所述第一视频内容的经重构版本；将所述第一视频内容的所述经重构版本与所接收的第一视频内容进行比较；以及基于所述比较来调整所述自编码器。23.如权利要求21所述的方法，其中所述自编码器被配置成基于三维滤波器从所述隐代码空间中解码出所述经编码视频内容，其中所述三维滤波器的维度包括视频帧的高度、所述视频帧的宽度和所述视频帧的时间。24.如权利要求21所述的方法，其中所述概率模型包括四维张量上的概率分布的自回归模型，所述概率分布解说了不同代码能被用于解压缩所述经编码视频内容的可能性。
25.如权利要求24所述的方法，其中所述概率模型基于四维张量来生成数据，其中所述四维张量的维度包括所述视频内容的时间、通道和空间维度。26.如权利要求25所述的方法，其中所述概率分布是基于对依赖性的因子分解来生成的。27.如权利要求26所述的方法，其中所述对依赖性的因子分解表示基于与所述视频内容中的当前时间片和调理信号相关联的代码的概率分布。28.如权利要求27所述的方法，其中所述调理信号包括由递归神经网络针对与所述视频内容中除所述当前时间片之外的先前时间片相关联的代码的输入所生成的输出。29.如权利要求28所述的方法，其中所述递归神经网络包括卷积长短期记忆(lstm)层集合。30.一种用于解压缩经编码视频的系统，包括：至少一个处理器，所述至少一个处理器配置成：接收经编码视频内容的经压缩版本；基于由配置成在所述至少一个处理器上执行的第一人工神经网络实现的概率模型，将所述经编码视频内容的经压缩版本解压缩到隐代码空间中；通过由配置成在所述至少一个处理器上执行的第二人工神经网络实现的自编码器从所述隐代码空间中解码出所述经编码视频内容；以及输出经解码视频内容以供显示；以及耦合到所述至少一个处理器的存储器。

技术总结
本公开的某些方面涉及用于使用深度生成性模型来压缩视频内容的方法和装置。一种示例方法一般包括接收用于压缩的视频内容。一般通过自编码器将所接收的视频内容编码到隐代码空间中，该自编码器可由第一人工神经网络来实现。一般通过经训练的概率模型(经训练的概率模型可由第二人工神经网络实现)来生成经编码视频内容的经压缩版本，并且输出以供传输。并且输出以供传输。并且输出以供传输。

技术研发人员：A
受保护的技术使用者：高通股份有限公司
技术研发日：2020.03.19
技术公布日：2021/10/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种识别与应用服务变更相关的告警的方法及装置与流程

使用深度生成性模型的视频压缩的制作方法

相关文献

最热文献