农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种基于生成对抗网络的人脸视频合成方法及装置与流程

2021-06-22 17:08:00 来源：中国专利 TAG：图像处理对抗合成装置生成

本申请涉及图像处理技术领域，尤其涉及一种基于生成对抗网络的人脸视频合成方法及装置。

背景技术：

最近在人脸动画生成领域中出现了一项生成人脸讲话动作的研究，其工作内容是根据不同的语音片段来改变不同身份特征人物的嘴部动作，呈现出特定人物在描述该语音片段内容的讲话视频。该方法致力于解决语音到视频的转换问题，可以帮助听力受损的用户使用唇读技术识别语音内容，同时在电影、摄影、娱乐等一些感兴趣的领域具有很大的应用潜力。

现有一种人脸视频合成方法，通过裁剪或生成与音频特征映射相关的嘴部动作模型或序列，与现有视频进行拼接生成固定身份特征的面部动画模型，从而实现合成人脸视频的目的。

然而，传统的人脸视频合成方法普遍不智能，该裁剪或生成的计算资源需求巨大，而且，人脸图像视频帧的生成效果极差。

技术实现要素：

本申请实施例的目的在于提出一种基于生成对抗网络的人脸视频合成方法及装置，以解决传统的人脸视频合成方法存在计算资源需求巨大、生成效果极差的问题。

为了解决上述技术问题，本申请实施例提供一种基于生成对抗网络的人脸视频合成方法，采用了如下所述的技术方案：

响应人脸合成模型生成请求，所述人脸视频合成请求至少携带有原始演讲视频；

对所述原始演讲视频进行拆分操作，得到重叠音频段；

基于所述重叠音频段的时间信息对所述原始演讲视频进行剪切操作，得到视频帧序列；

在所述视频帧序列中获取每一帧所对应的人脸数据，得到人脸图像信息；

将所述重叠音频段以及与所述重叠音频段相对应的人脸图像信息输入至原始人脸模型进行模型训练操作，得到携带有生成网络模型的目标人脸模型；

接收音频采集设备发送的当前音频数据；

将所述音频数据输入至所述生成网络模型进行人脸合成操作，得到目标人脸视频。

为了解决上述技术问题，本申请实施例还提供一种基于生成对抗网络的人脸视频合成装置，采用了如下所述的技术方案：

请求响应模块，用于响应人脸合成模型生成请求，所述人脸视频合成请求至少携带有原始演讲视频；

视频拆分模块，用于对所述原始演讲视频进行拆分操作，得到重叠音频段；

视频剪切模块，用于基于所述重叠音频段的时间信息对所述原始演讲视频进行剪切操作，得到视频帧序列；

图像获取模块，用于在所述视频帧序列中获取每一帧所对应的人脸数据，得到人脸图像信息；

模型训练模块，用于将所述重叠音频段以及与所述重叠音频段相对应的人脸图像信息输入至原始人脸模型进行模型训练操作，得到携带有生成网络模型的目标人脸模型；

音频接收模块，用于接收音频采集设备发送的当前音频数据；

人脸合成模块，用于将所述音频数据输入至所述生成网络模型进行人脸合成操作，得到目标人脸视频。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于生成对抗网络的人脸视频合成方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于生成对抗网络的人脸视频合成方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请提供的基于生成对抗网络的人脸视频合成方法，包括：响应人脸合成模型生成请求，所述人脸视频合成请求至少携带有原始演讲视频；对所述原始演讲视频进行拆分操作，得到重叠音频段；基于所述重叠音频段的时间信息对所述原始演讲视频进行剪切操作，得到视频帧序列；在所述视频帧序列中获取每一帧所对应的人脸数据，得到人脸图像信息；将所述重叠音频段以及与所述重叠音频段相对应的人脸图像信息输入至原始人脸模型进行模型训练操作，得到携带有生成网络模型的目标人脸模型；接收音频采集设备发送的当前音频数据；将所述音频数据输入至所述生成网络模型进行人脸合成操作，得到目标人脸视频。通过在人脸图像的生成质量上进行对抗训练，以“f-散度评估”生成数据分布与真实数据分布之间的差异，在增加模型损失收敛速度的同时提高了网络模型对人脸图像视频帧的生成效果。此外本公开为了验证视频帧序列与音频的对齐问题，使用条件对抗网络把音频序列作为条件，输入到视频帧序列判别网络中以提高序列同步的准确性。其中，条件对抗网络将动画的3维特征映射到2维特征空间，大幅降低计算资源需求。因此，本共开实现了基于产品的模型实现，为ai主播、远程音视转换等不同场景的应用提供了技术支持。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的基于生成对抗网络的人脸视频合成方法的实现流程图；

图2是本申请实施例一提供的生成网络的模型结构示意图；

图3是本申请实施例一提供的音频编码器的结构示意图；

图4是本申请实施例一提供的图像编码器的结构示意图；

图5是本申请实施例一提供的视频帧解码器的结构示意图；

图6是本申请实施例一提供的视频帧判别网络的结构示意图；

图7是本申请实施例一提供的视频帧序列判别网络的结构示意图；

图8是图1中步骤s104的实现流程图；

图9是本申请实施例一提供的生成对抗网络的损失架构的的结构示意图；

图10是本申请实施例二提供的基于生成对抗网络的人脸视频合成装置的结构示意图：

图11是图10中图像获取模块140的结构示意图；

图12是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，示出了本申请实施例一提供的基于生成对抗网络的人脸视频合成方法的实现流程图，为了便于说明，仅示出与本申请相关的部分。

上述的基于生成对抗网络的人脸视频合成方法，包括以下步骤：

在步骤s101中，响应人脸合成模型生成请求，人脸视频合成请求至少携带有原始演讲视频。

在步骤s102中，对原始演讲视频进行拆分操作，得到重叠音频段。

在步骤s103中，基于重叠音频段的时间信息对原始演讲视频进行剪切操作，得到视频帧序列。

在步骤s104中，在视频帧序列中获取每一帧所对应的人脸数据，得到人脸图像信息。

在步骤s105中，将重叠音频段以及与重叠音频段相对应的人脸图像信息输入至原始人脸模型进行模型训练操作，得到携带有生成网络模型的目标人脸模型。

在本申请实施例中，人脸模型指的是基于生成式对抗网络的讲话人脸动画合成模型，将生成式对抗网络应用到跨模态生成的场景中，该人脸模型包括：生成网络g、视频帧判别网络di、序列判别网络dt。

在本申请实施例中，生成网络g的作用是通过时间序列顺序生成面部讲话视频帧。生成网络g是包含两个编码器和一个解码器的网络结构，编码器接受高维空间数据的输入，即音频a和单张人脸图像i^o的输入。首先音频编码器和图像编码器将两个不同模态的输入变换为潜在特征编码并映射到潜在空间s^c中，然后和音频特征蕴含的时间序列进行拼接。最后通过视频帧解码器得到输出x′＝((a,i^o)|a^t)，x′尝试学习到由潜在空间特征编码到真实视频帧数据x的数据分布。视频帧判别网络di尝试对输入的真实数据x和生成数据x′进行二元分类操作，将生成网络g和视频帧判别网络di进行对抗训练，以优化生成网络g生成的视频帧质量。序列判别网络dt以音频的时间序列为条件用分类特征约束生成视频帧的序列，使生成网络g生成的视频帧序列满足给定时间序列的约束条件。

在本申请实施例中，生成网络的模型结构采用编码器解码器结构，如图2所示。音频编码器对音频输入提取音频特征和时间序列a^t，图像编码器对单张静止视频帧输入提取图像特征然后把音频特征和图像特征映射到公共空间s^c，再根据时间序列a^t顺序生成视频帧序列。

在本申请实施例中，因为音频频谱为一维的数据类型，所以音频编码器使用一维卷积模块和全连接模块对音频频谱的数据进行特征提取，再使用gru提取音频特征所包含的时间序列。每个一维卷积模块中包含一个一维归一化层和一个relu激活函数，全连接模块使用线性连接和tanh激活函数输出特征。tanh激活函数对数据即有激活作用又有归一化作用，以便gru对音频特征提取时间序列。音频编码器的网络结构如图3所示。

在本申请实施例中，图像编码器的主体采用二维卷积神经网络对人脸图像进行特征提取。在前五个二维卷积模块中，每个模块使用一个二维归一化层和一个relu激活函数对数据进行约束和变换，最后一个二维卷积模块中剔除批归一化层，并将relu激活函数改为tanh激活函数。图像编码器在特征提取过程中保留每层特征用于视频帧解码器的特征还原。图像编码器的结构如图4所示。

在本申请实施例中，视频帧解码器把音频编码器提取到的音频特征和图像编码器提取到的特征进行拼接，然后经过全连接层缩小特征维度再与时间序列进行拼接，最后在上采样(转置卷积)过程中与图像编码器输出的每层特征拼接并使用卷积操作缩小特征图，还原图像特征。卷积模块和转置卷积模块都使用批归一化和relu激活函数，最后一个转置卷积模块的输出使用tanh激活函数。视频帧解码器结构如图5所示。

在本申请实施例中，视频帧判别网络di是对生成的视频帧质量进行分类，以确保生成模型可以固定住输入的人脸特征，防止生成网络生成非特定人脸特征的噪声图像。视频帧判别网络采用卷积神经网络，并使用原始输入的人脸图像作为判别网络条件。每层使用了批归一化和leakyrelu作为激活函数，负斜率角度0.2，最后一层使用了sigmoid激活函数，目的是为了判断输入的每帧图像是来自于生成网络生成的视频帧或者是真实数据中的帧，拟合两个数据分布之间的-散度。视频帧判别网络的结构如图6所示。

在本申请实施例中，序列判别网络dt采用条件对抗网络，以序列生成为条件，对耦合了音频时间序列的视频帧序列进行约束，以防止产生过大的视频抖动现象。帧序列判别网络dt将音频编码器提取的时间序列，与经过卷积和gru输出的视频帧序列进行拼接，以音频时间序列特征作为条件来拟合真实数据集中视频帧序列的数据分布。每层使用了批归一化和leakyrelu作为激活函数，负斜率角度为0.2，并在模型的最后一层使用了sigmoid激活函数。视频帧序列判别网络的结构如图7所示。

在步骤s106中，接收音频采集设备发送的当前音频数据。

在步骤s107中，将音频数据输入至生成网络模型进行人脸合成操作，得到目标人脸视频。

在本申请实施例中，为了保证生成视频帧序列在人脸身份主题上的连续性，在音频片段剪辑过程中，使每段音频保持一部分重叠音频时间段，即源视频在提取视频帧序列的过程中令每个视频帧对应于音频段的中间位置，令其中表示为视频帧特征的集合，t为每段音频的时间间隔。

模型采用循环神经网络gru对已经进行过特征提取的音频特征序列提取时间序列因为模型的音频输入包含对应当前视频帧in以及下一视频帧in 1之间的重叠音频段，所以模型只需采用gru最后的输出作为时间序列来约束音频图像的联合特征顺序生成视频帧

模型通过生成的视频帧以对抗的形式拟合原始视频帧in，并使用序列判别网络对模型生成序列进行约束。

在本申请实施例中，提供了基于生成对抗网络的人脸视频合成方法，包括：响应人脸合成模型生成请求，人脸视频合成请求至少携带有原始演讲视频；对原始演讲视频进行拆分操作，得到重叠音频段；基于重叠音频段的时间信息对原始演讲视频进行剪切操作，得到视频帧序列；在视频帧序列中获取每一帧所对应的人脸数据，得到人脸图像信息；将重叠音频段以及与重叠音频段相对应的人脸图像信息输入至原始人脸模型进行模型训练操作，得到携带有生成网络模型的目标人脸模型；接收音频采集设备发送的当前音频数据；将音频数据输入至生成网络模型进行人脸合成操作，得到目标人脸视频。通过在人脸图像的生成质量上进行对抗训练，以“f-散度评估”生成数据分布与真实数据分布之间的差异，在增加模型损失收敛速度的同时提高了网络模型对人脸图像视频帧的生成效果。此外本公开为了验证视频帧序列与音频的对齐问题，使用条件对抗网络把音频序列作为条件，输入到视频帧序列判别网络中以提高序列同步的准确性。其中，条件对抗网络将动画的3维特征映射到2维特征空间，大幅降低计算资源需求。因此，本共开实现了基于产品的模型实现，为ai主播、远程音视转换等不同场景的应用提供了技术支持。

继续参阅图8，示出了图1中步骤s104的实现流程图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，步骤s104具体包括：

在步骤s201中，检测视频帧序列中每一帧的人脸数据。

在步骤s202中，当检测到人脸数据时，对人脸数据进行分割操作，得到初始人脸数据。

在步骤s203中，基于人脸关键点位置对初始人脸数据进行矫正操作，得到人脸图像信息。

在本实施例的一些可选的实现方式中，人脸关键点位置包括眼角、嘴角以及鼻尖。

在本实施例的一些可选的实现方式中，生成网络的输出层为全连接层或者1×1卷积层。

在本实施例的一些可选的实现方式中，生成网络模型的损失函数为：

其中，in表示第n个视频帧；表示生成视频帧；g表示生成网络；dt表示生成网络模型的序列判别网络；di表示生成网络模型的视频帧判别网络；l1表示模型使用的最小绝对值偏差；l2表示最小平方误差；l3表示限制模型嘴部区域损失。

在本申请实施例中，如图9所示，示出了生成对抗网络的损失架构，令g代表生成网络，它将输入的音频序列与单张静止视频帧序列映射并生成视频帧序列g(a,i^o)，帧判别网络通过解决由最小二乘法给出的均值最小化问题来优化训练生成网络：

视频序列判别网络在视频序列上对生成网络g进行优化，使用gru对视频序列提取时间序列再与音频所包含的时间序列拟合，模型用到条件生成网络框架。本公开使用cgan方法的条件限制生成序列对齐问题，以当前视频帧序列使用音频时序序列为条件，拟合原始视频帧序列的分布，拉进模型的js散度。

另外，模型的主要任务是生成讲话人脸视频，所以模型需要一些手段对生成数据的嘴部区域进行约束，而其它部位的动作不做过多约束，使其它部位可以学习到一些相关特征形变。模型使用最小绝对值偏差l1损失对图像下半部分区域进行拟合，与最小平方误差l2损失不同的是，l1损失在具有鲁棒性更好的情况下，可以使生成的人脸面部视频帧产生多个不同的解。则限制模型嘴部区域损失为：

则模型的总损失为：

需要强调的是，为进一步保证上述当前音频数据以及目标人脸视频的私密和安全性，上述当前音频数据以及目标人脸视频还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)等非易失性存储介质，或随机存储记忆体(randomaccessmemory，ram)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

实施例二

进一步参考图10，作为对上述图1所示方法的实现，本申请提供了一种基于生成对抗网络的人脸视频合成装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图10所示，本实施例的基于生成对抗网络的人脸视频合成装置100包括：请求响应模块110、视频拆分模块120、视频剪切模块130、图像获取模块140、模型训练模块150、音频接收模块160以及人脸合成模块170。其中：

请求响应模块110，用于响应人脸合成模型生成请求，人脸视频合成请求至少携带有原始演讲视频；

视频拆分模块120，用于对原始演讲视频进行拆分操作，得到重叠音频段；

视频剪切模块130，用于基于重叠音频段的时间信息对原始演讲视频进行剪切操作，得到视频帧序列；

图像获取模块140，用于在视频帧序列中获取每一帧所对应的人脸数据，得到人脸图像信息；

模型训练模块150，用于将重叠音频段以及与重叠音频段相对应的人脸图像信息输入至原始人脸模型进行模型训练操作，得到携带有生成网络模型的目标人脸模型；

音频接收模块160，用于接收音频采集设备发送的当前音频数据；

人脸合成模块170，用于将音频数据输入至生成网络模型进行人脸合成操作，得到目标人脸视频。

在本申请实施例中，人脸模型指的是基于生成式对抗网络的讲话人脸动画合成模型，将生成式对抗网络应用到跨模态生成的场景中，该人脸模型包括：生成网络、视频帧判别网络、序列判别网络。

在本申请实施例中，生成网络的作用是通过时间序列顺序生成面部讲话视频帧。生成网络是包含两个编码器和一个解码器的网络结构，编码器接受高维空间数据的输入，即音频和单张人脸图像的输入。首先音频编码器和图像编码器将两个不同模态的输入变换为潜在特征编码并映射到潜在空间中，然后和音频特征蕴含的时间序列进行拼接。最后通过视频帧解码器得到输出，尝试学习到由潜在空间特征编码到真实视频帧数据的数据分布。视频帧判别网络尝试对输入的真实数据和生成数据进行二元分类操作，将生成网络和视频帧判别网络进行对抗训练，以优化生成网络生成的视频帧质量。序列判别网络以音频的时间序列为条件用分类特征约束生成视频帧的序列，使生成网络生成的视频帧序列满足给定时间序列的约束条件。

在本申请实施例中，生成网络的模型结构采用编码器解码器结构，如图2所示。音频编码器对音频输入提取音频特征和时间序列，图像编码器对单张静止视频帧输入提取图像特征，然后把音频特征和图像特征映射到公共空间，再根据时间序列顺序生成视频帧序列。

在本申请实施例中，因为音频频谱为一维的数据类型，所以音频编码器使用一维卷积模块和全连接模块对音频频谱的数据进行特征提取，再使用gru提取音频特征所包含的时间序列。每个一维卷积模块中包含一个一维归一化层和一个relu激活函数，全连接模块使用线性连接和tanh激活函数输出特征。tanh激活函数对数据即有激活作用又有归一化作用，以便gru对音频特征提取时间序列。音频编码器的网络结构如图3所示。

在本申请实施例中，图像编码器的主体采用二维卷积神经网络对人脸图像进行特征提取。在前五个二维卷积模块中，每个模块使用一个二维归一化层和一个relu激活函数对数据进行约束和变换，最后一个二维卷积模块中剔除批归一化层，并将relu激活函数改为tanh激活函数。图像编码器在特征提取过程中保留每层特征用于视频帧解码器的特征还原。图像编码器的结构如图4所示。

在本申请实施例中，视频帧解码器把音频编码器提取到的音频特征和图像编码器提取到的特征进行拼接，然后经过全连接层缩小特征维度再与时间序列进行拼接，最后在上采样(转置卷积)过程中与图像编码器输出的每层特征拼接并使用卷积操作缩小特征图，还原图像特征。卷积模块和转置卷积模块都使用批归一化和relu激活函数，最后一个转置卷积模块的输出使用tanh激活函数。视频帧解码器结构如图5所示。

在本申请实施例中，视频帧判别网络是对生成的视频帧质量进行分类，以确保生成模型可以固定住输入的人脸特征，防止生成网络生成非特定人脸特征的噪声图像。视频帧判别网络采用卷积神经网络，并使用原始输入的人脸图像作为判别网络条件。每层使用了批归一化和leakyrelu作为激活函数，负斜率角度0.2，最后一层使用了sigmoid激活函数，目的是为了判断输入的每帧图像是来自于生成网络生成的视频帧或者是真实数据中的帧，拟合两个数据分布之间的-散度。视频帧判别网络的结构如图6所示。

在本申请实施例中，序列判别网络采用条件对抗网络，以序列生成为条件，对耦合了音频时间序列的视频帧序列进行约束，以防止产生过大的视频抖动现象。帧序列判别网络将音频编码器提取的时间序列，与经过卷积和gru输出的视频帧序列进行拼接，以音频时间序列特征作为条件来拟合真实数据集中视频帧序列的数据分布。每层使用了批归一化和leakyrelu作为激活函数，负斜率角度为0.2，并在模型的最后一层使用了sigmoid激活函数。视频帧序列判别网络的结构如图7所示。

在本申请实施例中，为了保证生成视频帧序列在人脸身份主题上的连续性，在音频片段剪辑过程中，使每段音频保持一部分重叠音频时间段，即源视频在提取视频帧序列的过程中令每个视频帧对应于音频段的中间位置，令其中表示为视频帧特征的集合，t为每段音频的时间间隔。

模型采用循环神经网络gru对已经进行过特征提取的音频特征序列提取时间序列因为模型的音频输入包含对应当前视频帧in以及下一视频帧in 1之间的重叠音频段，所以模型只需采用gru最后的输出作为时间序列来约束音频图像的联合特征顺序生成视频帧

模型通过生成的视频帧以对抗的形式拟合原始视频帧in，并使用序列判别网络对模型生成序列进行约束。

在本申请实施例中，提供了基于生成对抗网络的人脸视频合成装置，通过在人脸图像的生成质量上进行对抗训练，以“f-散度评估”生成数据分布与真实数据分布之间的差异，在增加模型损失收敛速度的同时提高了网络模型对人脸图像视频帧的生成效果。此外本公开为了验证视频帧序列与音频的对齐问题，使用条件对抗网络把音频序列作为条件，输入到视频帧序列判别网络中以提高序列同步的准确性。其中，条件对抗网络将动画的3维特征映射到2维特征空间，大幅降低计算资源需求。因此，本共开实现了基于产品的模型实现，为ai主播、远程音视转换等不同场景的应用提供了技术支持。

继续参阅图11，示出了图10中图像获取模块140的结构示意图，为了便于说明，仅示出与本申请相关的部分。

在本实施例的一些可选的实现方式中，上述图像获取模块140包括：图像检测子模块141、图像分割子模块142以及图像矫正子模块143。其中：

图像检测子模块141，用于检测视频帧序列中每一帧的人脸数据；

图像分割子模块142，用于当检测到人脸数据时，对人脸数据进行分割操作，得到初始人脸数据；

图像矫正子模块143，用于基于人脸关键点位置对初始人脸数据进行矫正操作，得到人脸图像信息。

在本实施例的一些可选的实现方式中，人脸关键点位置包括眼角、嘴角以及鼻尖。

在本实施例的一些可选的实现方式中，生成网络的输出层为全连接层或者1×1卷积层。

在本实施例的一些可选的实现方式中，生成网络模型的损失函数为：

其中，in表示第n个视频帧；表示生成视频帧；g表示生成网络；dt表示生成网络模型的序列判别网络；di表示生成网络模型的视频帧判别网络；l1表示模型使用的最小绝对值偏差；l2表示最小平方误差；l3表示限制模型嘴部区域损失。

在本申请实施例中，如图9所示，示出了生成对抗网络的损失架构，令g代表生成网络，它将输入的音频序列与单张静止视频帧序列映射并生成视频帧序列g(a,i^o)，帧判别网络通过解决由最小二乘法给出的均值最小化问题来优化训练生成网络：

视频序列判别网络在视频序列上对生成网络g进行优化，使用gru对视频序列提取时间序列再与音频所包含的时间序列拟合，模型用到条件生成网络框架。本公开使用cgan方法的条件限制生成序列对齐问题，以当前视频帧序列使用音频时序序列为条件，拟合原始视频帧序列的分布，拉进模型的js散度。

另外，模型的主要任务是生成讲话人脸视频，所以模型需要一些手段对生成数据的嘴部区域进行约束，而其它部位的动作不做过多约束，使其它部位可以学习到一些相关特征形变。模型使用最小绝对值偏差l1损失对图像下半部分区域进行拟合，与最小平方误差l2损失不同的是，l1损失在具有鲁棒性更好的情况下，可以使生成的人脸面部视频帧产生多个不同的解。则限制模型嘴部区域损失为：

则模型的总损失为：

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图12，图12为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是，图中仅示出了具有组件210-230的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程门阵列(field－programmablegatearray，fpga)、数字处理器(digitalsignalprocessor，dsp)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器210至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器210可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器210也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。当然，所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于生成对抗网络的人脸视频合成方法的计算机可读指令等。此外，所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器220在一些实施例中可以是中央处理器(centralprocessingunit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据，例如运行所述基于生成对抗网络的人脸视频合成方法的计算机可读指令。

所述网络接口230可包括无线网络接口或有线网络接口，该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

本申请提供的计算机设备，通过在人脸图像的生成质量上进行对抗训练，以“f-散度评估”生成数据分布与真实数据分布之间的差异，在增加模型损失收敛速度的同时提高了网络模型对人脸图像视频帧的生成效果。此外本公开为了验证视频帧序列与音频的对齐问题，使用条件对抗网络把音频序列作为条件，输入到视频帧序列判别网络中以提高序列同步的准确性。其中，条件对抗网络将动画的3维特征映射到2维特征空间，大幅降低计算资源需求。因此，本共开实现了基于产品的模型实现，为ai主播、远程音视转换等不同场景的应用提供了技术支持。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于生成对抗网络的人脸视频合成方法的步骤。

本申请提供的计算机可读存储介质，通过在人脸图像的生成质量上进行对抗训练，以“f-散度评估”生成数据分布与真实数据分布之间的差异，在增加模型损失收敛速度的同时提高了网络模型对人脸图像视频帧的生成效果。此外本公开为了验证视频帧序列与音频的对齐问题，使用条件对抗网络把音频序列作为条件，输入到视频帧序列判别网络中以提高序列同步的准确性。其中，条件对抗网络将动画的3维特征映射到2维特征空间，大幅降低计算资源需求。因此，本共开实现了基于产品的模型实现，为ai主播、远程音视转换等不同场景的应用提供了技术支持。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息处理装置、信息处理方法和程序与流程

一种基于生成对抗网络的人脸视频合成方法及装置与流程

相关文章

最热文献