一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于隐含编码增强的语音驱动人体动作生成方法与流程

2022-02-20 00:18:48 来源:中国专利 TAG:


1.本发明涉及一种虚拟数字人生成方法,旨在结合计算机算法和数据生成以新闻播报员、时事评论员、电台主播、电商直播等为代表的虚拟人形象,属于计算机视觉和图形学技术结合的领域。


背景技术:

2.现有的虚拟人生成技术主要基于计算机图形学中的建模-渲染方式,这类方式的效率很低,需要在前期投入大量的技术人员和艺术家进行精细的三维建模、蒙皮、动作捕捉,并且依赖于大量的计算资源才能实现逼真的渲染效果。


技术实现要素:

3.本发明要解决的技术问题是:现有的虚拟人生成技术的效率很低。
4.为了解决上述技术问题,本发明的技术方案是提供了一种基于隐含编码增强的语音驱动人体动作生成方法,给定一段音频作为本发明的输入,通过所述语音驱动人体动作生成方法生成一段同时有自然的说话手势动作以及口型与音频相匹配的真人视频,其特征在于,包括以下步骤:
5.步骤1、利用短时傅里叶变换将给定的一段音频的音频波形数据转化为梅尔谱图其中,t为梅尔谱图m在时间轴上的长度,80为频率区间的数目;
6.步骤2、将梅尔谱图m输入音频特征编码网络,得到音频特征f为输出动作序列的帧数,256为特征空间的维度,将模板向量序列与音频特征a在特征维度上堆叠得到姿势生成网络的完整输入特征上堆叠得到姿势生成网络的完整输入特征其中:通过将模板向量t在时间轴上复制f份得到模板向量序列c是模板向量空间的维度
7.步骤3、构建并训练姿势生成网络,该姿势生成网络为类unet结构的一维全卷积网络,练姿势生成网络的卷积核在输入特征[a|t]的时间维度f上滑动,最终输出姿势关键点序列其中2k对应每一帧人体动作中k个姿态关键点的二维坐标,涵盖头部、手臂及手掌;
[0008]
步骤4、运用网络从人的骨架渲染出其真实样貌,该网络包括掩模网络、前景网络及背景网络,包括以下步骤:
[0009]
步骤401、掩模网络接受步骤3得到的参考图和参考图的姿态关键点对应的高斯图h表示图像的高,w表示图像的宽,给定姿态关键点坐标(c
x
,cy)、高斯核方差(σ
x
,σy)、高斯核旋转角度θ,高斯图中的任意一点(x,y)的亮度值i
x,y
的计算公式为:
[0010]ix,y
=exp(-a(x-c
x
)2 2b(x-c
x
)(y-cy) (y-cy)2)
[0011]
式中,
[0012]
在小分辨率上画出各姿态关键点对应的高斯核后将其添加到目标尺寸的对应姿态关键点位置;
[0013]
通过掩模网络最终预测得到参考图s肢体各个部分的掩模m=m
prior
m
residual
,m
prior
为掩模先验,为由8组姿态关键点组内各自计算出倾斜角θ和中心点坐标(c
x
,cy)绘制而成的倾斜二维高斯,m
residual
为与真实掩模之间的残差m
residual

[0014]
步骤402、利用掩模m得到参考图s各个肢体的像素,使用计算出的仿射变换参数r、t以及双线性插值,用仿射变换y=rx t将参考图s中的各个肢体的像素扭曲到目标位置得到粗糙的前景图片以及得到去掉前景的背景图片
[0015]
步骤403、将背景图片b

输入背景网络去修补空缺,得到期望的背景
[0016]
步骤404、前景网络接受粗糙的前景图片和目标帧对应的高斯图在通道维度上叠加,对这个结果进行改善优化得到精细的前景图片最后结合背景网络输出的背景b得到最终的输出结果i
pred
=f

m b

(1-m),

表示逐元素相乘。
[0017]
优选地,步骤2中,所述模板向量采用以下两种方式中的任意一种生成:
[0018]
方式一)给每个视频片段分配一个随机初始化的模板向量,并在姿势生成网络训练时直接通过回归损失的梯度优化每个视频的模板向量;
[0019]
方式二)先训练一个变分自编码器对训练数据集中的全部姿势关键点序列进行重建,然后在变分自编码器收敛后使用它的编码器提取出训练数据集中每个动作序列对应的模板向量。
[0020]
优选地,步骤3中,所述姿势生成网络的训练函数为:
[0021][0022]
式中:为姿态关键点序列的回归损失,gi为通过姿势生成网络得到的第i个姿势关键点序列,为训练数据集中的实际的第i个姿势关键点序列;
[0023]
为模板向量的正则损失,d
kl
(
·
)表示两个分布之间的kl散度,和分别是一个小批次数据中模板向量的均值、方差向量,表示正态分布;
[0024]
λ
kl
表示正则损失的权重。
[0025]
优选地,步骤401中,所述掩模先验m
prior
的对应高斯核的方差(σ
x
,σy)需要调参到基本覆盖各个肢体部分。
[0026]
优选地,步骤402中,在图像中对应参考图像中的像素扭曲到目标位置的过程用仿射变换y=rx t来表示,将k个姿态关键点分为8组,分别对应:头、躯干、左右上臂、左右下臂、左右手。在每组根据参考和目标对应的组内姿态关键点通过最小二乘法计算出仿射变换的参数r、t。
[0027]
优选地,对步骤4所述网络进行训练时,与训练数据集里真实的图片i
real
计算损失后通过反向传播训练网络,训练函数表示为:
[0028][0029]
其中:λ为损失函数的权值:
[0030]
用于在像素尺度上衡量生成图片和真实图片相近程度的距离,
[0031][0032]
为运用对抗生成策略让生成图片的分布d(i
pred
)和真实图片的分布d(i
real
)相近的生成对抗损失,
[0033]
λ
gan
为生成对抗损失的权重;
[0034]
利用预训练的vgg模型抽取的特征并促使生成图片和真实图片在特征空间中相近的感知损失,l
vgg
=|vgg(i
pred
)-vgg(i
real
)|,vgg(i
pred
)为vgg模型抽取的生成图片i
pred
的特征,vgg(i
real
)为vgg模型抽取的真实图片i
real
的特征;
[0035]
λ
vgg
为感知损失的权重。
[0036]
优选地,步骤3所述的姿势生成网络与步骤4所述的网络分开训练,训练时,步骤4所述的网络对步骤3所述的姿势生成网络没有梯度回传。
[0037]
本发明基于近年来在计算机视觉领域中飞速发展的深度学习技术,从海量数据中直接学习语音到人体动作的映射关系,充分揭示了语音和人体动作之间的关系;基于神经图像翻译方法进行从人体骨架到逼真图像测合成。这一过程省去了耗费高昂的三维建模、驱动过程,转而运用互联网上海量的视频资源训练神经网络,以经济的方式实现逼真人体合成。
[0038]
本发明提出运用隐含编码帮助神经网络更加充分地拟合数据集中的动作,实现精细的人体动作生成。同时,本发明改进了以往的神经图像翻译算法,将肢体动作合成和脸部表情合成融合到了一套框架下,简化了算法流程,提升了算法效率,并实现了肢体动作、脸部表情对音频特征的共用,并提出将音唇同步误差作为肢体动作质量的辅助指标,进一步帮助模型的选型、调优。
附图说明
[0039]
图1为关键点高斯图可视化;
[0040]
图2为掩模先验;
[0041]
图3为本发明的整体框架图,最左列阐释了本发明的算法流程,中间以及最右列解释了模板向量空间以及模板向量生成算法的流程。
具体实施方式
[0042]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0043]
本发明提供的一种基于隐含编码增强的语音驱动人体动作生成方法分为语音驱动骨架生成和骨架驱动视频生成两个部分,两个部分均基于深度神经网络。语音驱动骨架生成建模了语音到骨架的映射关系,并由隐含编码得到显著增强,具有领先的多样性和表现力。骨架驱动视频生成建模了骨架序列到视频帧的映射关系,包含肢体信息和脸部表情信息,其输出画面能够精准反应初肢体和脸部的变化。
[0044]
给定一段音频作为本发明的输入,本发明可以生成一段同时有自然的说话手势动作以及口型与音频相匹配的真人视频,具体包括两阶段的生成方式:第一阶段)从音频生成骨架关键点的序列;第二阶段)从第一阶段生成的骨架合成真人视频序列。
[0045]
在第一阶段中:
[0046]
由于人在说话时的动作不是唯一确定的,同一段语音会伴随着不同的动作,因此这是一个一到多的映射问题。如果使用一个确定性的模型对人物的动作进行回归的话,会回归到一个平均的动作,这样的动作往往有着无意义的抖动,因此很难保证动作的生成质量。为此,本发明提出了一种隐式模板向量驱动的生成方式。隐式模版确定了数字人的大致姿态,音频信息驱动数字人在此基础上进行自然的动作。
[0047]
给定一段音频,首先利用短时傅里叶变换将音频波形数据转化为梅尔谱图其中,t对应频谱图在时间轴上的长度,80为频率区间的数目。之后,将梅尔谱图m输入一个音频特征编码网络,得到音频特征作为姿势生成网络的输入之一,其中f对应输出动作序列的帧数,256为特征空间的维度。姿势生成网络的另一个输入是一个模板向量其中c是模板向量空间的维度。我们将模板向量t在时间轴上复制f份得到模板向量序列并与音频特征a在特征维度上堆叠得到姿势生成网络的完整输入特征特征
[0048]
本发明的姿势生成网络是一个类unet结构的一维全卷积网络,它的卷积核在输入特征[a|t]的时间维度f上滑动,最终输出姿势关键点序列其中2k对应每一帧人体动作中k个姿态关键点的二维坐标,涵盖头部、手臂及手掌。unet由6层编码器和7层解码器构成,同时网络中存在跳层连接,加速网络收敛并减少细节的损失。
[0049]
整个姿势生成网络的学习过程本质是学习一个从输入音频到同一时刻人体姿态关键点的映射。输入音频和目标姿态关键点来自于数据集,但模板向量则需要自行挖掘。本发明设计并验证了两种模板编码的生成方式:
[0050]
1)给每个视频片段分配一个随机初始化的模板向量,并在姿势生成网络训练时直接通过回归损失的梯度优化每个视频的模板向量;
[0051]
2)先训练一个变分自编码器(下文简称为“vae”)对数据集中的全部姿势关键点序列进行重建,然后在vae收敛后使用它的编码器提取出数据集中每个动作序列对应的模板向量。
[0052]
这一阶段姿势生成网络的训练函数为:
[0053][0054]
式中:为姿态关键点序列的回归损失,f为训练集中
该姿势序列的总帧数,gi为通过姿势生成网络得到的第i帧姿势关键点,为训练数据集中的实际的第i帧姿势关键点;
[0055]
为模板向量的正则损失,d
kl
(
·
)表示两个分布之间的kl散度,和分别是一个小批次数据中模板向量的均值、方差向量,表示正态分布;
[0056]
λ
kl
表示正则损失的权重。
[0057]
在第二阶段中,本发明从一个人的骨架渲染出其真实样貌:
[0058]
普通基于生成对抗网络的图像翻译的方法生成图像会导致模型泛化性能差,生成的图像中有伪影存在。针对这个问题本发明提出一种基于仿射变换的方法,通过将参考图像的像素扭曲到目标位置使网络专注于优化图片质量。同时由于网络显式地建模了前背景,在训练时不需要输入前背景的掩模就能将前背景的建模解耦到两个网络中,充分利用网络的表达能力。网络接收每一帧对应的关键点生成真实图片,仅依靠输入在时间上的连续性就能保证输出帧的连续。整个网络分为三个子网络:掩模网络、前景网络、背景网络,子网络均为带有残差连接的unet结构。
[0059]
由于人的各个部分肢体运动是一种近似刚体变换,所以在图像中对应参考图像中的像素扭曲到目标位置的过程可以用仿射变换y=rx t来表示。本发明将k个姿态关键点分为8组分别对应:头、躯干、左右上臂、左右下臂、左右手。在每组都能根据参考和目标对应的组内姿态关键点通过最小二乘法计算出仿射变换的参数r、t。训练阶段我们从数据集里随机选取参考图和目标图组成数据对,推理阶段参考图被固定为数据集里信息较为丰富即人体不可见区域较少的图,目标姿势为第一阶段得到的姿势序列中的每一帧。掩模网络接受参考图和参考图的姿态关键点对应的高斯图h表示图像的高,w表示图像的宽,如图1所示。给定姿态关键点坐标(c
x
,cy)、高斯核方差(σ
x
,σy)、高斯核旋转角度θ,高斯图中的任意一点(x,y)的亮度值i
x,y
的计算公式为:
[0060]ix,y
=exp(-a(x-c
x
)2 2b(x-c
x
)(y-cy) c(y-cy)2)
[0061]
式中,σ
x
、,σy是一对可以调节的超参,对应于高斯核的空间尺度。使用高斯图表达进行图像合成相比于骨骼图更加鲁棒。在高分辨率下使用矩阵乘法绘制高斯核十分昂贵,本发明对其进行了性能优化。由于本发明想绘制的高斯核大小都在一个固定的范围内,本发明首先在小分辨率(49
×
49)上画出对应的高斯核后将其添加到目标尺寸的对应姿态关键点位置,这样的操作极大加速了模型的训练、推理速度。
[0062]
本发明希望通过掩模网络将身体各个部分的像素独立取出,但直接通过网络去学无法学到想要的结果,本发明需要提供给网络一个掩模的先验m
prior
来促使网络往期望的方向学习。掩模先验m
prior
由8组姿态关键点组内各自计算出倾斜角θ和中心点坐标(c
x
,cy)组成,绘制出的倾斜二维高斯如图2所示。掩模网络学习的是和真实掩模之间的残差m
residual
,最终预测的掩模m=m
prior
m
residual
。如此保证了每个通道对应的都是预先定义的肢体部分,一般而言掩模先验m
prior
的对应高斯核的方差(σ
x
,σy)需要调参到基本覆盖各个肢体部分。
[0063]
通过掩模网络,本发明能拿到各个肢体的像素,使用计算出的仿射变换参数r、t以及双线性插值,我们能将参考图s中的像素扭曲到目标位置得到粗糙的前景图片以及得到去掉前景的背景图片这时的背景有空洞,本发明将其输入背景网络去修补空缺,得到期望的背景
[0064]
前景网络接受粗糙的前景图片和目标帧对应的高斯图在通道维度上叠加,对这个结果进行改善优化得到精细的前景图片最后结合前背景网络的输出结果i
pred
=f

m b

(1-m)与训练数据集里真实的图片i
real
计算损失后通过反向传播训练网络,

表示逐位相乘。
[0065]
第二阶段的训练函数由三部分组成:
[0066][0067]
其中:λ为损失函数的权值:
[0068]
用于在像素尺度上衡量生成图片和真实图片相近程度的距离,
[0069][0070]
为运用对抗生成策略让生成图片的分布d(i
pred
)和真实图片的分布d(i
real
)相近的生成对抗损失,
[0071]
λ
gan
为生成对抗损失的权重;
[0072]
利用预训练的vgg模型抽取的特征并促使生成图片和真实图片在特征空间中相近的感知损失,l
vgg
=|vgg(i
pred
)-vgg(i
real
)|,vgg(i
pred
)为vgg模型抽取的生成图片i
pred
的特征,vgg(i
real
)为vgg模型抽取的真实图片i
real
的特征;
[0073]
λ
vgg
为感知损失的权重。
[0074]
第一阶段和第二阶段分开训练,第二阶段对第一阶段没有梯度回传。
[0075]
第二阶段各部分的功能总结如下:
[0076]
掩模网络负责生成参考图肢体各个部分的掩模;通过仿射变换使参考图中的前景像素形变以适应目标图中的人体姿态,得到粗糙结果;
[0077]
前景网络负责将粗糙结果精细化;
[0078]
背景网络负责将带有空洞的背景图进行修补,然后结合前背景网络的输出得到最后结果。
[0079]
为了验证本发明的有效性,本发明在一个包含了4个演讲者的数据集上进行了实验,包括2个来自固有数据集(speech2gesture)的演讲者和2个来自发明人自己采集的演讲者。将本发明与现有的最新的基于语音生成演讲者姿态的方法audio2dynamics,speech2gesture以及moglow进行了比较,结果如下表1所示:
[0080]
表1与最新方法的指标对比
[0081]
实验结果表明,本发明的人体姿势生成质量要优于现有技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献