一种基于图像补全的唇形同步人脸伪造生成方法及系统

2022-06-25 10:32:18 来源：中国专利 TAG：

1.本发明涉及人工智能人脸生成领域，尤其涉及一种基于图像补全的唇形同步人脸伪造生成方法及系统。

背景技术：

2.人脸伪造生成在deepfake出现后成为了人工智能的热门话题。相比一般的人脸生成方法，deepfake能够实现对目标人物表情的迁移并将目标人脸进行替换为特定人脸。deepfake技术可以广泛应用于影视创作，娱乐等方面，具有极大的研究价值。一般的deepfake方法使用编码器-解码器结构，使用两组编码器-解码器模型分别对源人物和目标人物进行重建，其中编码器可以提取人物面部的动作和表情状态，而人物的面部风格和纹理则保存在解码器的参数中。另一种换脸思路源自于图像风格迁移，将人物的面部表情看作风格，使用风格迁移的方法迁移到目标人物上。现有的deepfake生成方法在视频伪造逼真人脸时性能较好，能够生成以假乱真的人脸，但是对于一个真实视频来说，视频和音频的结合是非常有必要的，上述方法仅停留在图像和视频的层面，并未对替换后的人物音频进行修改，在真实场景下视频和音频的结合才能提高生成人物的真实性。
3.通过音频输入驱动面部的表情一直是计算机视觉和图形学的重要研究兴趣，随着人工智能和神经网络的发展，当前的主流方法是利用人脸识别的关键点定位方法对人物的面部状态进行定位，即通过输入的音频驱动嘴部的关键点运动，在确定关键点后通过使用3d建模或神经网络生成模型等方法进行对应嘴部状态的重建，从而达到音频驱动唇形同步的效果。
4.可以看到，目前的唇形同步方法至少需要3个独立的步骤才能够进行，这需要人工干预训练，费时费力，并且每个步骤在训练和生成时都会引入损失，导致最后的结果偏差较大。具体来说，目前的唇形同步方法需要先训练模型使得嘴部的关键点和音频特征进行匹配，然后根据给定的音频生成特定嘴部关键点，最后将关键点作为生成唇形的依据，并拼接其余脸部位置的关键点，生成最后的音频驱动面部图像。这其中每个部分都需要独立的网络，同样也会产生独立的损失，这使得在最后结合的时候往往会出现损失的累加导致较大的偏差。
5.另外，现有方法在生成嘴部关键点后需要和其他人脸关键点进行结合，引入了不必要的扰动，影响最后的生成质量。因为头部的摆动方式和说话内容一般来说是无关的，这使得面部的重建需要整体重建，从而引入了一些本不需要进行变化的重建内容，添加了更多的修改，这使得最后整体生成扰动更大，更容易出现瑕疵，也会更容易被检测系统检测。
6.综上，如何实现端到端且支持精确改动的唇形同步方法是人工智能人脸生成领域的重要研究方向之一。

技术实现要素：

7.针对现有的人脸伪造生成方法步骤繁琐和生成质量受限等不足，本发明提供了一
种基于图像补全的唇形同步人脸伪造生成方法及系统。通过对原始目标人物的嘴型进行擦除和再生成，对原始目标人物的说话内容和唇形做出更改，达到伪造生成的目的。本发明摆脱了关键点定位技术在网络训练时的约束，除对人脸的提取和人脸图像进行嘴部擦除预处理外，在训练和生成过程是端到端的，步骤少，降低了累积偏差。本发明并不修改除嘴部以外的部分，并使用图像补全技术对擦除部分的边界进行融合，修改扰动小，唇形同步生成质量高。
8.为实现上述发明目的，本发明提供以下技术方案：一种基于图像补全的唇形同步人脸伪造生成方法，包括以下步骤：步骤1：获取人脸视频及对应的音频，将视频帧和音频帧对齐，提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本；对人脸图像进行预处理，生成擦除嘴部后的面部图像；步骤2：利用训练样本对人脸伪造生成模型进行训练，所述的人脸伪造生成模型包括音频特征提取模块、唇形同步模块、嘴部生成模块以及融合模块；所述的音频特征提取模块用于对步骤1得到的梅尔频谱进行特征提取，生成最终音频特征；所述的唇形同步模块用于根据最终音频特征生成多级唇形图像特征，并根据最后一级唇形图像特征生成唇形图像，计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失；所述的嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征，并根据最后一级嘴部图像特征生成嘴部图像，计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失；所述的融合模块用于将多级嘴部图像特征融合到步骤1中所述的擦除嘴部后的面部图像中，计算融合损失；根据唇形损失、嘴部损失、融合损失的加权损失之和更新人脸伪造生成模型的参数；步骤3：利用训练好的人脸伪造生成模型，生成针对特定音频下嘴部动作的伪造人脸图像。
9.作为本发明的优选，所述的步骤1包括：获取真实视频，所述视频中的每一帧均包含完整的人脸图像，且包含人物说话的音频；对视频中的所有帧提取人脸图像集合，截取人脸图像中的唇形部分作为样本唇形图像，并获取每一帧人脸图像相对于相机的头部姿态参数；构建嘴部擦除网络，从人脸图像集合中随机取出部分人脸图像并标记嘴部位置，对嘴部擦除网络进行训练，利用训练后的嘴部擦除网络对未标记嘴部位置的人脸图像进行嘴部位置识别并擦除，保留面部图像；将时域的音频转化为频域的梅尔频谱，频域采样率与视频帧采样率一致。
10.作为本发明的优选，所述的嘴部擦除网络采用unet网络，用于生成表示嘴部位置的嘴部掩膜，根据嘴部掩膜将人脸图像中的嘴部位置擦除。
11.作为本发明的优选，所述的音频特征提取模块由a个音频下采样层和一个lstm层构成，首先通过若干音频下采样层对多帧梅尔频谱依次进行降维处理，生成多级音频特征，再由lstm层对多帧梅尔频谱的最后一级音频特征进行融合，生成最终音频特征。
12.作为本发明的优选，所述的唇形同步模块由b个串联的唇形上采样层组成，b≥3；
将音频特征提取模块得到的最终音频特征作为输入，利用多个唇形上采样层先后生成多级唇形图像特征，将最后一级唇形图像特征转化为唇形图像。
13.作为本发明的优选，所述的唇形损失包括均方误差损失和对比损失。
14.作为本发明的优选，所述的嘴部生成模块由c个串联的嘴部上采样层组成，c≥3；将唇形同步模块生成的第一级唇形图像特征和头部参数拼接后作为第一个嘴部上采样层的输入，将第一个嘴部上采样层输出的第一级嘴部图像特征与第二级唇形图像特征拼接后作为第二个嘴部上采样层的输入，将第二个嘴部上采样层输出的第二级嘴部图像特征与第三级唇形图像特征拼接后作为第三个嘴部上采样层的输入，将第三个嘴部上采样层输出的第三级嘴部图像特征作为下一个嘴部上采样层的输入，直至生成最后一级嘴部图像特征并转化为嘴部图像。
15.作为本发明的优选，所述的融合模块采用unet网络，将擦除嘴部后的面部图像作为unet网络中编码器的输入，将编码器的各层输出与嘴部生成模块生成的多级嘴部图像特征融合到解码器的各层输入中，生成融合后的完整人脸图像。
16.作为本发明的优选，所述的步骤3具体为：针对给定音频的梅尔频谱，根据步骤1的方法获取目标人物擦除嘴部后的多帧面部图像和对应的头部姿态参数，将频域的梅尔频谱和多帧面部图像在时间上对齐；利用训练好的人脸伪造生成模型，首先由音频特征提取模块对给定音频的梅尔频谱进行特征提取，生成最终音频特征，之后由唇形同步模块根据最终音频特征生成多级唇形图像特征，再由嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征，最后将多级嘴部图像特征融合到目标人物擦除嘴部后的多帧面部图像中，生成针对特定音频下嘴部动作的伪造人脸图像。
17.一种基于图像补全的唇形同步人脸伪造生成系统，用于实现上述的用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法。
18.与现有技术相比，本发明的有益效果为：（1）本系统能够通过给定的目标人物视频和该人物的其他音频，生成目标人物在所给音频下的嘴部动作效果，能够达到操纵人物面部的目的。
19.（2）本系统在面部生成时采用了图像补全的技术，在只修改嘴部的前提下生成因人物表达内容不一致造成的嘴部差异。相较于传统的人脸伪造生成方法，本发明提供了唇形同步功能，在视频和音频结合上进行伪造生成，且不修改面部或背景的其余位置，能够达到更逼真的伪造效果。
20.（3）本发明除了对人脸图像进行嘴部擦除预处理外，在训练和伪造生成流程上采用端到端的训练模型，能够一步得到结果，流程简单。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。
22.图1是本发明实施例提供的基于图像补全的唇形同步伪造生成流程；
图2是本发明实施例提供的音频特征提取模块和唇形同步模块的结构示意图；图3是本发明实施例提供的嘴部生成模块的结构示意图；图4是本发明实施例提供的面部融合模块的结构示意图；图5是本发明实施例提供的唇形/嘴部上采样层的结构示意图；图6是本发明实施例提供的音频下采样层的结构示意图；图7是本发明实施例中的擦除嘴部效果图，a是原始人脸样本，b是擦除嘴部位置后的面部图像；图8是本发明实施例提供的生成结果和原样本的对比图，a是原始人脸样本，b是擦除后的嘴部掩膜，c是生成的符合音频的嘴型，d是生成结果；图9是本发明实施例提供的基于图像补全的唇形同步人脸伪造生成系统所在设备的硬件结构图。
具体实施方式
23.为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。
24.为了实现对各种目标人物的唇形同步伪造生成，实施例提供了本系统的完整训练和生成方法。图1是实施例提供的基于图像补全的唇形同步人脸伪造生成方法的流程图，主要包括以下步骤：（1）获取人物数据集，并构建训练样本。
25.（1-1）获取目标人物的一段真实视频，该视频的每一帧都具有目标人物的完整面部状态，并且该段视频具有相对应的目标人物的音频，将视频和音频作为网络的训练和生成的样本。
26.（1-2）在获取到相应的视频和音频后，需对样本进行处理。在本实施例中，对视频的每一帧提取人脸图像，截取其中的唇形，并获取该帧相对于相机的头部姿态参数。
27.（1-3）对步骤（1-2）中的人脸图像来说，确定目标人物的嘴部位置并将其擦除，得到擦除后的嘴部掩膜（如图8中的b所示）和面部图像（如图7中的b所示）。
28.本实施例中，确定嘴部位置的方法是，首先人工对少量的人脸图像（5-10张）进行手动标注以确定嘴部位置，使用unet网络结构对标注好的图像进行训练，利用训练好的unet模型生成针对其余未进行人工标注的人脸图像对应的嘴部掩膜，根据嘴部掩膜对人脸图像进行自动嘴部擦除，保留面部其他区域。
29.（1-4）对音频样本进行转化，将时域的音频波形文件转化为频域的梅尔频谱，其频域采样率应和视频样本帧率对应。
30.（2）构建包括音频特征提取模块、唇形同步模块、嘴部生成模块以及融合模块的人脸伪造生成模型，详细步骤如下：（2-1）图2是本实施例提供的音频特征提取模块和唇形同步模块的结构示意图。
31.如图2所示，首先由音频特征提取模块提取音频最终特征，再由唇形同步模块根据音频最终特征生成唇形。在训练阶段，根据生成唇形图像与样本唇形图像计算唇形损失。
32.具体的，音频特征提取模块的输入为梅尔频谱多帧的音频梅尔频谱，通过多个音
频下采样层将音频梅尔频谱进行特征提取，生成多级音频特征；每一个音频下采样层的结构为图6中所示网络结构。本实施例采用四个音频下采样层，其中第一音频下采样层将每帧的梅尔频谱进行降维度变化，得到第一级音频特征，该第一级音频特征输入到第二音频下采样层，得到第二级音频特征，以此类推，在得到第四级音频特征后，将各帧的第四级音频特征经由一个lstm网络融合得到最终音频特征。
33.唇形同步模块主要作用在于根据输入的最终音频特征生成对应的唇形图像，如图2所示。唇形同步模块由多个唇形上采样层组成，先后生成多级唇形图像特征；每一个唇形上采样层采用图5中所示的网络结构，采用转置卷积（transpose conv）和卷积（conv）组成的残差块构成。本实施例采用五个唇形上采样层，将音频特征提取模块得到的最终音频特征作为输入，其中第一唇形上采样层将最终音频特征进行维度变化得到第一级唇形图像特征，将该第一级唇形图像特征输入到第二唇形上采样层得到第二级唇形图像特征，以此类推，根据最后一个唇形上采样层生成的最后一级唇形图像特征转化为最终的唇形图像。
34.为了保证生成的唇形图像和音频特征相匹配，在训练时将输出的唇形图像和训练样本唇形图像的图像特征进行相似度度量。本实施例中，采用vgg网络提取唇形图像特征，获得多帧唇形图像特征，然后使用lstm网络将每一帧唇形图像特征融合，对多帧融合后的图像特征进行匹配。
35.（2-2）图3是嘴部生成模块的结构示意图。嘴部生成模块的主要作用是根据唇形同步模块得到的多级唇形图像特征生成对应的嘴部图像。嘴部生成模块的输入是步骤（1-2）获取的头部姿态参数以及唇形同步模块中由各个唇形上采样层生成的多级唇形图像特征，本实施例采用的是第一级唇形图像特征、第二级唇形图像特征和第三级唇形图像特征。嘴部生成模块的结构为多个嘴部上采样层串联得到，分别生成多级嘴部图像特征；所述的嘴部上采样层采用图5所示的网络结构。其中第一嘴部上采样层将第一级唇形图像特征和头部姿态参数拼接后的特征进行升维变化，得到第一级嘴部图像特征，该第一级嘴部图像特征送入到第二嘴部上采样层，得到的结果和第二级唇形图像特征进行融合，得到第二级嘴部图像特征，第三级嘴部图像特征也按此方法得到，第三级嘴部图像特征送入第四上采样层得到第四级嘴部图像特征，以此类推，根据最后一个嘴部上采样层生成的最后一级嘴部图像特征转化为最终的嘴部图像。
36.（2-3）图4是面部融合模块的结构示意图。面部融合模块的主要作用是将生成的嘴部图像添加到面部图像中。
37.面部融合模块的输入为擦除嘴部位置后的面部图像、以及嘴部生成模块中由各个嘴部上采样层生成的多级嘴部图像特征。本实施例中，面部融合模块采用部分卷积网络（partial convolutions，pconv），使用unet搭建，其中unet结构会将编码器和解码器中对应层的特征图拼接起来作为最终的解码器特征图。网络的初始输入为擦除嘴部位置后的面部图像，相比于直接使用unet结构，在解码器中除了融合编码器的特征层，还要融合各级嘴部生成特征，将多级嘴部图像特征融合到面部图像中，最后输出补全特定嘴部动作的人脸。
38.（3）构建模型的损失函数并训练人脸伪造生成模型。本实施例中，损失函数包括4部分：唇形损失、唇形同步损失、嘴部损失和面部融合损失，具体如下：（3-1）唇形损失基于生成的最终唇形图像和原唇形图像构建的均方误差（mean-square error，mse）损失；
（3-2）唇形同步损失采用的原样本的唇形图像特征和最终生成的唇形图像特征的对比损失，对比损失的公式为：其中，l为对比损失，n为样本数量，y为匹配标签，margin为对比边界，d为欧式距离；（3-3）嘴部损失基于生成的嘴部图像和原样本的嘴部图像采用mse损失；（3-4）面部融合损失使用pconv网络对应的融合损失；（4）利用步骤（2）和步骤（3）中的网络结构和损失函数进行训练，得到训练好的人脸伪造生成模型。
39.（5）基于步骤（4）训练得到的人脸伪造生成模型，根据给定的音频进行人脸伪造生成，得到替换音频后嘴部动作的伪造人脸，步骤如下：（5-1）利用步骤（1-3）训练好的unet模型生成目标人物的人脸图像对应的嘴部掩膜，根据嘴部掩膜对人脸图像进行自动嘴部擦除，保留面部图像。
40.（5-2）提供需要伪造生成的目标人物的其他音频，预处理为音频梅尔频谱并在频域上和样本视频帧在时间上对齐；（5-3）将步骤（5-2）得到的音频梅尔频谱、步骤（5-1）得到的面部图像、头部姿态参数作为人脸伪造生成模型的各个模块的输入，首先利用音频特征提取模块提取到最终音频特征，之后根据最终音频特征生成多级唇形图像特征，再根据多级唇形图像特征生成多级嘴部图像特征，最后将多级嘴部图像特征融合到面部图像中，最后输出针对特定音频下嘴部动作的伪造人脸图像。
41.为了进一步证明本发明的实施效果，以发明人本人为例验证本系统的生成质量。
42.对于给定的发明人人脸样本（图7中的a），本实施例中，首先将其嘴部位置擦除，结果如图7中的b所示，并提取头部姿态参数和对应的音频梅尔频谱进行网络训练。
43.在训练完成后，输入发明人本人的的其他音频，可以生成符合音频的嘴型（图8中的c）并融合回原样本的面部，观察生成结果（图8中的d）和原始样本效果（图8中的a），本发明并不修改除嘴部以外的部分，并使用图像补全技术对擦除部分的边界进行融合，修改扰动小，唇形同步生成质量高。
44.与前述基于图像补全的唇形同步人脸伪造生成方法的实施例相对应，本发明还提供了基于图像补全的唇形同步人脸伪造生成系统的实施例。
45.本发明实施例提供的一种基于图像补全的唇形同步人脸伪造生成系统，包括：数据获取模块，其用于获取人脸视频及对应的音频，将视频帧和音频帧对齐，提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本；对人脸图像进行预处理，生成擦除嘴部后的面部图像；人脸伪造生成模型及其训练模块，其用于利用训练样本对人脸伪造生成模型进行训练，所述的人脸伪造生成模型包括音频特征提取模块、唇形同步模块、嘴部生成模块以及融合模块；所述的音频特征提取模块用于对梅尔频谱进行特征提取，生成最终音频特征；所
述的唇形同步模块用于根据最终音频特征生成多级唇形图像特征，并根据最后一级唇形图像特征生成唇形图像，计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失；所述的嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征，并根据最后一级嘴部图像特征生成嘴部图像，计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失；所述的融合模块用于将多级嘴部图像特征融合到擦除嘴部后的面部图像中，计算融合损失；根据唇形损失、嘴部损失、融合损失的加权损失之和更新人脸伪造生成模型的参数；伪造人脸图像生成模块，其用于调用训练好的人脸伪造生成模型，生成针对特定音频下嘴部动作的伪造人脸图像。
46.还包括，一个或多个处理器，用于实现上述实施例中的基于图像补全的唇形同步人脸伪造生成方法。
47.本发明基于图像补全的唇形同步人脸伪造生成系统的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或系统。系统实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的系统，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图9所示，为本发明基于图像补全的唇形同步人脸伪造生成系统所在任意具备数据处理能力的设备的一种硬件结构图，除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中系统所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。
48.上述系统中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
49.以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种应用于工业视觉中的图像检索的方法及电子设备

一种基于图像补全的唇形同步人脸伪造生成方法及系统

相关文献

最热文献