基于运动单元特征分解的三维人脸表情生成系统的制作方法

2022-02-19 11:50:36 来源：中国专利 TAG：

1.本发明涉及计算机视觉以及三维人脸生成领域，具体为一种基于运动单元特征分解的三维人脸表情生成系统。

背景技术：

2.近年来，由于三维人脸在虚拟现实、人机交互、动画游戏等各个方面都有着重要的应用，三维人脸的相关研究以及应用已经成为了计算机图形学和计算机视觉上的一个重要主题。而在三维人脸的研究中，三维人脸数据的获取通常需要代价高昂的专业设备对人脸进行扫描。随着深度学习的发展，许多的计算机视觉领域中的传统任务都通过深度学习模型得到了很大的提高。因此，许多学者也开始尝试基于深度学习的模型从一张二维人脸图像中提取到人脸的三维信息并将其对应的三维人脸重建出来。目前，三维人脸的生成模型主要分为基于优化的方法和基于生成的方法：
3.(1)基于优化的方法主要是在给定目标人脸的情况下，将重建问题转化为一个参数优化问题，从而利用梯度下降法优化控制参数；
4.(2)基于神经网络模型的方法，主要依靠大量的三维人脸数据，通过反向传播的方式训练一个深度神经网络来实现从参数到对应三维人脸的生成过程。
5.在这两种方法中通常都使用到了一个三维形变模型(3dmorphablemodel,3dmm)。3dmm是一个三维人脸参数化模型，它将三维人脸的信息分解成了身份信息、表情信息、纹理信息，并且分别使用一组参数进行表示。然而，此模型中的表情参数是从三维人脸的全局层次上来表示三维人脸的表情的，这样的方式容易导致生成的三维人脸在表情的细节上不能得到保证。对于人脸局部的表情信息，通常会使用运动单元(action unit,au)来描述。运动单元是根据解剖学知识将人脸的肌肉运动进行、划分的方式。每一个运动单元都描述了一个相对独立的肌肉运动，例如，au12描述的就是唇角上扬的动作。在本发明中，结合了运动单元的相关知识，实现了一种基于运动单元特征分解的三维人脸表情生成方法，从而解决上述三维人脸重建方法中的问题。

技术实现要素：

6.本发明的目的是为了克服现有技术中的不足，提供一种对全局表情参数进行分解，利用运动单元标签信息，实现全局表情参数的分解以及利用分解后的多个运动单元特征表示的三维人脸模型生成方法。
7.本发明的目的是通过以下技术方案实现的：一种基于运动单元特征分解的三维人脸表情生成法，包括以下步骤：
8.1、一种基于运动单元特征分解的三维人脸表情生成系统，所述系统包括：三维人脸生成模型、全局表情的分解模块和三维人脸的对抗生成网络；
9.所述三维人脸生成模型通过采用二维的人脸图像数据信息输出相应的三维人脸全局表情数据信息；
10.所述全局表情的分解模块将三维人脸全局表情数据信息分解获得局部区域的表情运动单元特征；
11.所述三维人脸的对抗生成网络通过三维人脸参数的生成器g和判别器d将局部区域的表情的运动单元特征融合输出真实的三维人脸数据信息；其中：所述三维人脸的对抗生成网络输出真实的三维人脸数据信息过程，包括如下步骤：
12.所述生成器g通过如下公式对多个局部区域的表情运动单元特征运算输出三维人脸表情信息
[0013][0014]
其中，表示的是生成器生成出的三维人脸表情特征信息；f
au
表示的式分解模块中多个运动单元特征的组合；
[0015]
所述判别器d对三维人脸表情特征信息通过如下公式判别确保三维人脸的真实感以及确保生成的三维人脸的表情符合给出的运动单元标签
[0016][0017]
其中：判别器的输出l是一个二值的标签，用来表示输入判别器的三维人脸是真实的数据还是生成的数据。
[0018]
进一步，所述三维人脸生成模型输出相应的三维人脸全局表情数据信息包括如下步骤：所述三维人脸生成模型使用预训练好的三维重建模型的参数提取器extractor，模型框架使用的是resnet50，输入是224*224的人脸图像，输出的是根据三维变形模型预定义的三维人脸的身份参数、表情参数、纹理参数；
[0019]
所述三维人脸生成模型可以表示为下式：
[0020]
id,exp,tex,l,f
img
＝extractor(i)
[0021]
其中：id表示的是图像中人物对应的三维人脸的身份参数，exp表示的是三维人脸的全局表情参数，tex表示的是三维人脸的纹理参数，l表示为三维人脸的姿势以及场景的光照参数，f
img
表示的是提取器中提取到的高维特征。
[0022]
进一步，所述全局表情的分解模块将三维人脸全局表情数据信息分解为多个运动单元特征，包括如下步骤：
[0023]
所述全局表情的分解模块包括：初期的全连接网络，其中：每个全连接网络都是将全局表情参数提取出单个相应运动单元参数的网络；
[0024]
所述全局表情的分解模块通过设置的分类器对于对每个分解出的特征进行运动单元表情的分类获得多个运动单元特征；即：任意一个运动单元特征的分解可以表示为：
[0025][0026]
所述全局表情的分解模块通过后续的全连接网络恢复出的全局表情参数和输入的全局表情参数之间的均方差误差损失来保证全局表情的分解模块在分解过程中不会损失过多的表情信息；该过程中使用到的两个误差损失可以表示为：
[0027][0028]
[0029]
其中，exp是提取到的三维人脸的全局表情参数，是多个运动单元重新恢复出的全局表情参数；l
i
表示第i个运动单元的真实状态标签，表示的是分类器预测出的运动单元状态标签。
[0030]
有益效果
[0031]
本发明利用运动单元标签信息，实现全局表情参数的分解以及利用分解后的多个运动单元特征表示的三维人脸模型生成系统；该系统利用运动单元的先验知识，将3dmm中定义的全局表情参数进一步分解，实现了一种基于运动单元特征分解的三维人脸表情生成方法。其生成结果相较于现有模型在表情上有了更好的结果。
[0032]
本发明为对表情信息进行分解，利用分解后得到的运动单元特征控制生成的三维人脸的局部表情方法。
[0033]
与现有技术相比，本发明的有益效果是：
[0034]
为了控制生成的三维人脸的表情，本发明使用了分解网络模块将三维人脸参数的全局表情参数进行分解，得到多个可以表示人脸不同的局部区域的运动单元特征，然后通过运动单元标签的约束可以保证生成的三维人脸的局部表情可以进行改变，并且在改变一个区域的表情的同时能够保证其他区域的表情不发生改变。
附图说明
[0035]
图1为本发明提供的一种基于运动单元特征分解的三维人脸表情生成系统的框架图：包括：(a)模型框架；(b)三维人脸参数提取器；(c)全局表情的分解模块；(d)三维人脸的对抗生成网络。
具体实施方式
[0036]
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0037]
本发明提供一种基于运动单元特征分解的三维人脸表情生成系统，包括如下步骤：
[0038]
(1)构建一个基于预训练的三维人脸参数提取器extractor：即：三维人脸生成模块
[0039]
为了实现一个端对端的三维人脸生成模型；首先需要利用一个预训练好的三维人脸参数提取器。利用一个预训练好的resnet50网络结构作为三维人脸参数的提取器。提取器的输入是224*224大小的人脸图像，输出的是基于3dmm定义的三维人脸的身份参数、表情参数、纹理参数以及图像中人脸的姿势参数。这些参数可以作为图像中人脸的低维表示，后续的分解操作建立在这些参数上。
[0040]
(2)构建一个将三维人脸中的全局表情参数分解的分解器disentangler，即：全局表情分解模块：
[0041]
全局表情分解模块实现的是全局表情参数的分解，构建多个相同结构的全连接网络作为多个分解模块。其中，每一个全连接网络负责将全局表情参数进行分解得到仅包含单个运动单元信息的特征。得到的多个运动单元特征之后，需要保证所有的表情信息并未在分解过程中丢失，所以在分解得到多个运动单元特征后，补充一个额外的全局表情参数
的重建模型，负责从多个运动单元特征中恢复出原有的全局表情参数。并且此处得到的重建表情参数和之前已经提取到的表情参数之间的均方误差损失也会进一步指导分解网络的分解能力。
[0042]
(3)构建一个融合运动单元特征和其它三维人脸参数的生成器g和判别器d；即：三维人脸对抗生成网络
[0043]
为了保证生成的三维人脸的表情没有发生变化，使用生成对抗网络(generative adversarial network,gan)来实现从参数到三维人脸的生成过程。首先将前一步骤中分解得到的多个运动单元特征和提取到的身份参数和纹理参数输入到生成器中g得到生成的三维人脸。然后将生成的三维人脸送入到判别器中，判别器会对该三维人脸的运动单元以及是否真实进行判别。
[0044]
为了保证判别器有足够的判别能力，也要同时将真实数据送入判别器网络中进行训练。通过判别器对生成效果差的三维人脸判别出来的方式来监督生成器不断提高生成能力从而能够混淆判别器的判断。
[0045]
本发明实施例：
[0046]
以三维人脸表情数据集bp4d 数据集为例给出本发明的实施方法。该方法整体框架见图1所示。整个系统方法流程包括构建一个基于预训练的三维人脸参数提取器extractor，构建一个将三维人脸中的全局表情参数分解的分解网络disentangler，构建一个融合运动单元特征和其它三维人脸参数的生成器g和判别器d这3个步骤。
[0047]
具体步骤如下：
[0048]
(1)构建一个基于预训练的三维人脸参数提取器extractor：
[0049]
首先对于bp4d 数据集中的数据进行预处理。bp4d 数据集包括了共140个不同身份在实验室环境下，从中性表情下到其它表情的变化的二维人脸图像，同时数据集中包括了部分人脸图像中运动单元的状态标签，实验中使用到的运动单元共有5个，分别是：au1、au2、au12、au14、au15。然后将每一个图像的大小利用三线性插值方法调整到224*224大小。将所有的数据送入预训练好的提取器网络中，得到每个人脸图像对应的三维人脸参数，其中包括80维的身份参数，64维的表情参数，80维的纹理参数，27维的光照参数以及3维的人脸姿势参数。利用这些参数来表示输入图像对应的三维人脸。
[0050]
(2)构建一个将三维人脸中的全局表情参数分解的分解网络disentangler：
[0051]
为了保证能够控制生成的三维人脸的局部表情，需要将全局的表情参数进行分解，来得到局部表情层次的特征。首先，对于每个运动单元表示的局部表情特征，使用一个全连接网络实现从全局表情参数中提取到单个运动单元表示的特征。为了保证表情参数分解到的运动单元特征是包含了相应的运动单元信息，每个运动单元的分解模块中都有一个后续的分类器，对分解出的特征进行运动单元表情的分类识别来促进模型的分解能力。同时，为了保证在分解的过程中并没有丢失整体表情的信息，在得到所有的分解出的单个运动单元特征后，利用一个重建网络将多个运动单元特征重新恢复出全局的表情参数，利用恢复出的全局表情参数和输入的全局表情参数之间的均方差误差损失来保证分解网络在分解过程中不会损失过多的表情信息。该过程中使用到的两个误差损失可以表示为：
[0052]
[0053][0054]
其中，exp是提取到的三维人脸的全局表情参数，是多个运动单元重新恢复出的全局表情参数。l
i
表示第i个运动单元的真实状态标签，表示的是分类器预测出的运动单元状态标签。
[0055]
(3)构建一个融合运动单元特征和其它三维人脸参数的生成器g和判别器d：
[0056]
利用上一步得到的多个运动单元特征和其它三维人脸参数进行融合，并且作为生成器的输入来生成出相应的三维人脸的网格模型。为了保证生成的三维人脸的表情是和网络模型输入的图像中的表情一致以及生成三维人脸的形状符合真实数据的分布，引入了一个额外的判别器来对生成的三维人脸进行判别，分别输出该三维人脸的运动单元标签以及生成的三维人脸与真实三维人脸的相似与否。判别器同时会利用真实的三维人脸数据来进行训练，保证判别能力逐渐增强，从而来促使生成器生成的三维人脸更加接近真实数据。因此在生成器和判别器训练的过程中，需要考虑判别器的输出和实际运动单元标签的交叉熵的损失。此外，还需要从形状上保证生成的准确程度，利用生成的三维人脸和真实数据之间的l1损失函数，以及为了进一步保证生成的三维人脸是表情和身份信息的独立，生成的三维人脸的同时会生成该三维人脸的中性表情，并利用中性表情下的三维人脸的l1损失来约束网络的生成器能够分别处理三维人脸的身份属性和表情属性。该过程中使用到的损失函数具体如下所示：
[0057][0058][0059][0060][0061]
其中，是真实数据中该三维人脸在中性表情下的形状，则是生成的中性表情下的三维人脸。p
gt
表示的是真实的三维人脸中选取出的关键点的序列，则是生成的三维人脸中的相应的关键点序列。
[0062]
通过以上三个步骤，实现了基于运动单元特征分解的三维人脸生成模型。在训练模型的过程中，除了以上步骤中提到的损失函数约束以外，模型中的其它参数如下：每个运动单元特征通过3层的全连接网络提取，生成器g和判别器d由6层的全连接网络组成。整个模型在bp4d 数据集中以mini
‑
batch的方式训练，batch
‑
size是32，学习率是0.0001，采用adam优化器训练。
[0063]
表1 facewarehouse数据集的定量实验结果(％)
[0064][0065]
表1显示了我们模型fd
‑
gan和deep3dface模型
[1]
的对比实验结果。预训练一个三维人脸的au分类器，然后将本模型和deep3dface模型从图像生成的三维人脸输入到分类器中验证生成的三维人脸的au是否和输入的图像中au标签一致。从结果可以看到，只有在au2的准确率上deep3dface模型略优于本模型，其余指标都低于本模型结果。
[0066]
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。
[0067]
参考文献：
[0068]
deng y,yang j,xu s,et al.accurate 3d face reconstruction with weakly
‑
supervised learning:from single image to image set[c].in proceedings of theieee/cvf conference on computer vision and pattern recognition workshops,2019:0
‑
0.

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于输电通道的隐患目标确定方法、设备及介质与流程

基于运动单元特征分解的三维人脸表情生成系统的制作方法

相关文献

最热文献