一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于生成对抗网络的多模态输入视频条件生成方法

2022-11-16 16:16:10 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,涉及一种基于生成对抗网络的视频生成方法,具体涉及一种基于生成对抗网络的多模态输入视频条件生成方法。


背景技术:

2.基于生成对抗网络的视频生成方法已经有了许多进展。文献[vondrick c,pirsiavash h,torralba a.generating videos with scene dynamics.nips,2016.]中carl vondrick等人利用大量的未标记的视频来学习动态场景的模型,用于视频识别任务(动作分类)和视频生成任务(未来预测),提出了一种具有时空卷积架构的视频生成对抗网络,将场景的前景与背景解开。实验表明,该模型可以比简单的baseline更好地生成高达1秒的全帧率的小视频,并展示了其在预测静态图像的可信未来方面的实用性。对于视频生成任务,定义了三个原则:
[0003]
(1)生成器网络应具有时空平移不变性;
[0004]
(2)用一个低维的输入z生成高维的输出(视频);
[0005]
(3)关注对象的动作,假定相机位置固定,即背景不发生变化。
[0006]
但前后景结合的生成方法生成的视频质量不高。文献[tulyakov s,liu m y,yang x d,et al.mocogan:decomposing motion and content for video generation.in cvpr,2018.]中提出了mocogan来进行视频生成,提出了动作内容解耦的方法,基于rnn先生成时间序列信息即动作信息,然后再根据动作信息生成一系列的图像帧。但先生成时间序列信息,再生成对应的帧,通过rnn和图像生成器结合的网络模型训练难度大,导致生成视频的质量不高。此后又提出了采用高质量的图像生成器的预训练模型替代图像生成器的方法,而通过采用预训练好的图像生成器模型,只训练rnn生成时间序列信息这部分网络结构的方法,虽然能够通过当前最好的图像生成器的预训练模型生成高清的图像,从而生成高清的视频,大大降低训练难度,但是却无法满足条件生成的任务要求。


技术实现要素:

[0007]
本发明的目的是提供一种基于生成对抗网络的多模态输入视频条件生成方法,该方法解决了多模态(即多种模态的信息,包括:文本、图像、视频、音频等)输入下的视频条件生成问题,即给定图像和动作标签(例如:一种面部表情),生成对抗网络模型能够实现可控的视频序列生成,即生成与给定的二维图像内容和动作标签相关的视频。
[0008]
本发明的目的是通过以下技术方案实现的:
[0009]
一种基于生成对抗网络的多模态输入视频条件生成方法,包括如下步骤:
[0010]
步骤一、构建生成对抗网络模型
[0011]
所述生成对抗网络模型由生成器和判别器组成,其中:
[0012]
所述生成器由编码器和解码器组成;
[0013]
所述编码器为基于图像金字塔的图像编码器;
[0014]
所述解码器由动作内容融合模块和时空自注意力机制模块、rgb模块组成;
[0015]
所述判别器采用视频图像双判别器;
[0016]
步骤二、特征提取
[0017]
(1)获取训练集,根据视频序列的动作,将训练集中的每一个视频序列划分到对应的动作集合中,并设置对应的动作文本标签;
[0018]
(2)数据预处理,将视频序列的每一帧图像裁剪为指定大小,随机提取连续的32帧图像,读取到内存成tensor张量,并做归一化处理将rgb三通道的像素值除以255;
[0019]
(3)采用kaiming初始化方法初始化生成对抗网络模型,之后给图像编码器输入视频序列的随机一帧图像,获得对应的图像特征信息a;
[0020]
步骤三、模型训练
[0021]
(1)将视频序列对应的动作文本标签转化为张量与图像特征信息a、基于高斯分布的随机噪声结合输入到动作内容融合模块将动作特征信息和图像特性信息融合上采样,再通过时空自注意力机制模块将前后帧特征信息的关联增强,最后输入rgb模块生成rgb三通道的视频序列
[0022]
(2)将生成的视频序列v~和真实的视频序列v输入视频图像双判别器计算损失函数:
[0023]
l
total
=l
adv
(g,dv,di) λl
co
(g);
[0024]
式中,l
adv
为对抗性损失函数,l
co
为生成视频整体的连贯性损失函数,λ为权重系数,dv为视频判别器,di为图像判别器,g为生成器;
[0025]
(3)利用adam优化算法优化判别器和生成器的参数,重复步骤(1)和(2)训练模型,得到训练好的模型;
[0026]
步骤四、视频生成
[0027]
(1)将视频序列输入到步骤三训练好的生成对抗网络模型中,利用图像编码器获得对应的图像特征信息;
[0028]
(2)将视频序列对应的动作文本标签转化为张量与图像特征信息、基于高斯分布的随机噪声结合动作内容融合模块将动作特征信息和图像特性信息融合上采样,再通过时空自注意力机制模块将前后帧特征信息的关联增强,最后输入rgb模块生成视频序列。
[0029]
相比于现有技术,本发明具有如下优点:
[0030]
本发明基于动作内容解耦的方法,实现多模态输入视频条件生成,分为两个阶段,第一阶段为特征提取阶段,提取输入的标签文本和对象图片的特征信息;第二阶段为视频生成阶段,生成符合标签文本和对象图片约束的视频,并使用对抗训练的模式来完成网络的训练。在第一阶段中,通过图像金字塔对输入的目标图像进行特征提取,得到多尺度的视频内容特征信息a,然后送往第二个阶段;在第二个阶段中,输入不仅为上一个阶段提取的特征信息,还需要加上动作文本标签的特征信息和随机噪声,然后输入decoder模块生成最终的视频序列。
附图说明
[0031]
图1为生成对抗网络模型的整体结构图;
[0032]
图2为encoder的结构图;
[0033]
图3为动作内容融合模块的结构图;
[0034]
图4为时空自注意力机制模块的结构图;
[0035]
图5为时间和空间自注意力机制;
[0036]
图6为rgb模块的结构图;
[0037]
图7为愤怒标签生成的部分帧;
[0038]
图8为psnr曲线;
[0039]
图9为ssim曲线。
具体实施方式
[0040]
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
[0041]
本发明提供了一种基于生成对抗网络的多模态输入视频条件生成方法,所述方法包括如下步骤:
[0042]
步骤一、构建生成对抗网络模型
[0043]
为解决多模态输入下的视频条件生成问题,本发明在内容和动作解耦的基础上,提出了一种新的生成对抗网络模型,其由两个部分构成:(1)基于图像金字塔的图像编码器,从输入的图像中提取到多尺度的图像特征信息a;(2)基于动作内容融合模块和时空自注意力机制模块的视频生成器,将多尺度的图像特征信息a、随机噪声z和输入的动作标签m结合,输入到视频生成器生成视频v。整体结构如图1所示,具体结构如下:
[0044]
1、基于图像金字塔的图像编码器
[0045]
之前的工作如imaginator模型都是通过单尺度下图像的卷积池化提取特征信息,而在图像处理过程中,同一幅图像中一般都含有不同尺度下的有用信息,尺度越精细,图像的细节信息越丰富,为了充分且有效地利用这些信息,通常需要对图像进行多尺度描述。图像金字塔,在图像处理领域中应用广泛。本发明为了实现输入原图像生成对应的视频序列,需要先将原图像的特征信息提取出来,采用图像金字塔构建特征金字塔比通过单尺度下的卷积池化能够更有效地提取并利用图像的细节信息。具体结构如图2所示,卷积层步长为2,每一层图像都是缩减为上一层的1/2。
[0046]
2、动作内容融合模块
[0047]
decoder有4级动作内容融合模块,如图1所示。之前的视频生成方法都是直接通过逆卷积上采样生成视频,而为了在视频生成过程中保留更多的随时间变化的动作特征信息、内容特征信息,本发明采用动作内容融合模块,将动作特征信息hm、内容特征信息ha融合到视频特征信息hv。
[0048]
视频的特征信息维度为通道c、时间t、高度h、宽度w,动作内容融合模块将动作和内容的特征信息连接到视频特征信息的通道维度上,如公式(1)所示:
[0049][0050]
式中,c
outi
为第i级动作内容融合模块的输出通道数,c
vi
为第i级动作内容融合模块生成的视频特征信息的通道数,c
mi
为第i级动作内容融合模块生成的动作特征信息
的通道数,c
ai
为第i级动作内容融合模块生成的内容特征信息的通道数。
[0051][0052]
式中,h
outi
是第i个动作内容融合模块的输出。
[0053]
动作内容融合模块的具体结构如图3所示,采用了2d 1d结构,即2维逆卷积和1维逆卷积结合。第一级的输入为一个随机噪声z~n(0,1),为基于图像金字塔的图像编码器的输出a,从动作文本标签m卷积提取得到。以前使用三维卷积和逆卷积层进行生成和特征提取,已经证明三维卷积和逆卷积的训练难度很大,而通过(1d 2d)的方式,可以在1d逆卷积层和2d逆卷积层后添加激活函数和归一化层,使得训练效果得到提升。
[0054]
3、时空自注意力机制模块
[0055]
视频序列是一个包含时间维度和空间维度共三维的对象,通过逆卷积上采样获得视频序列的难点之一就是要保证视频序列的连贯性。使用其他的视频生成方法,在条件生成的时候,视频的连贯性较差,而本发明针对这个问题,采用时空自注意力机制模块增强视频前后帧之间的连贯性。时空自注意力机制模块可以获取输入不同部分的相互影响,具体结构如图4所示,主要由时间自注意力机制模块和空间自注意力模块组成。时间自注意力机制模块和空间自注意力模块如图5所示,分别采用conv1d和conv2d组成。为了将时空自注意力机制更好地应用到视频条件生成领域上,本发明做了以下改进:
[0056]
(1)在时间自注意力机制模块后增加一个2维逆卷积(conv2dtranspose),将图像特征信息大小扩大一倍;
[0057]
(2)在空间自注意力机制模块中query、key、value张量采用2维卷积获取,如图5所示。
[0058]
4、rgb模块
[0059]
视频特征信息最终要输出为rgb三通道的视频序列,因此生成器的最后一个模块即rgb模块。具体结构如图6所示,主要由逆卷积层和步长为1的卷积层构成。
[0060]
5、视频图像双判别器模块
[0061]
生成器g由编码器encoder和解码器decoder组成,如图1所示。真实的视频序列记为v,其分布记为v,生成的视频序列记为其分布记为真实的图像帧记为x,其分布记为x,生成的图像帧记为其分布记为定义视频和图像帧的关系如公式(3)所示:
[0062][0063]
式中,n代表帧数量,如输入的视频由64帧图片组成,n=64。
[0064]
输入encoder的图像x为真实视频中随机采样的一帧图像,即从真实图像分布x中采样得到。
[0065]
为了提高视频和图像帧的质量,类似于mocogan,本发明使用了一个视频图像双判别器模块,包含一个视频判别器dv和一个图像判别器di。在训练过程中,dv接受一个完整的视频序列作为输入,di接受从输入的视频序列中随机采样得到的一帧图像。为了使得训练更稳定,采用标签平滑,如公式(4)和公式(5)所示:
[0066][0067][0068]
式中,ε=0.1。
[0069]
步骤二、对抗训练
[0070]
(1)获取训练集,根据视频序列的动作,将训练集中的每一个视频序列划分到对应的动作集合中,并设置对应的动作文本标签。
[0071]
(2)数据预处理,将视频序列的每一帧图像裁剪为指定大小(如128
×
128),随机提取连续的32帧图像,读取到内存成tensor张量,并做归一化处理将rgb三通道的像素值除以255。
[0072]
(3)训练开始时,首先采用kaiming初始化方法初始化生成对抗网络模型中各层卷积层的参数,之后给基于图像金字塔的图像编码器输入视频序列的随机一帧图像,并获得对应的图像特征信息a。
[0073]
(4)将视频序列对应的动作文本标签转化为张量与a、基于高斯分布的随机噪声结合输入decoder模块,最终生成一个视频序列
[0074]
(5)将生成的视频序列和真实的视频序列v输入视频图像双判别器模块,用于计算损失函数l
total
,并使用adam优化器优化损失函数l
total
,如公式(6)所示:
[0075]
l
total
=l
adv
(g,dv,di) λl
co
(g)
ꢀꢀꢀ
(6);
[0076]
其中包含对抗性损失函数l
adv
和生成视频整体的连贯性损失函数l
co
,为了使得训练更稳定,引入权重系数λ平衡训练稳定性和生成视频整体的连贯性。引入对抗损失函数l
adv
的目标是使得生成的视频序列的分布与真实视频的分布v尽可能的接近,且图像帧的分布与真实图像帧的分布x尽可能的接近。
[0077]
对抗损失函数l
adv
的定义如公式(7)所示:
[0078]
l
adv
(g,dv,di)=li(g,di) lv(g,dv)
ꢀꢀꢀ
(7);
[0079]
其中:
[0080][0081][0082]
式中,g表示生成器,dv表示视频判别器,di表示图像判别器,z表示随机噪声,m表示动作标签,x表示真实的图像帧,其分布记为x,v表示真实的视频序列,e表示为取期望,下标表示的是分布,如x~x表示从真实图片分布中取出,上标

*’表示从视频序列的n帧图像中随机采样,获取一帧图像。基于di、dv的两个损失函数li、lv都是使用的交叉熵损失函数。
[0083]
连贯性损失函数l
co
的定义如公式(10)所示:
[0084]
l
co
(g)=e[||v-g(z,x,m)||1]
ꢀꢀꢀ
(10)。
[0085]
l
co
即生成视频与真实视频的距离,基于li损失函数,目的是为了提升视频的连贯性。
[0086]
(6)设置超参数,达到最大训练迭代次数后,保存生成对抗网络模型,完成整个训
练过程,得到训练好的模型;
[0087]
(7)重复步骤(3)、(4),即可得到生成的视频。
[0088]
生成的视频效果如图7所示,psnr和ssim值曲线分别如图8和9所示。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献