一种基于全局情感编码的虚拟人动画合成方法及系统与流程

2021-09-15 00:22:00 来源：中国专利 TAG：全局合成语音编码特别

1.本发明涉及语音处理领域，特别是一种基于全局情感编码的虚拟人动画合成方法及系统。

背景技术：

2.目前，语音驱动的虚拟人动画生成在工业界已经得到了大量的研究，其实用价值已经被大量落地的应用场景所证明。传统的语音驱动的虚拟人动画生成主要关注生成的口型效果，对于生成人脸的表情以及情感关注较少。情感表现力的虚拟人动画生成在实际场景中应用范围同样广，一方面，情感表现力能增强虚拟形象的真实性，能够提升用户的交互体验，增强用户的交互意愿，利用这个特性，在虚拟助手及虚拟伴侣等产品中，相比原来传统方法带给用户更沉浸的体验，另一方面，情感表现力合成同时也是能让表情更生动和丰富，这就使得这一技术可以用于替代一些如游戏解说以及虚拟歌手等工作，相比传统方法产生的娱乐效果更充足，更容易被用户接受。
3.情感表现力成为语音驱动的虚拟人动画生成中的研究热点，在关于情感的具体研究方向上，也经历了一系列的改变。最早的语音情感合成是专注于有监督的特定情感合成，即给定情感标签的前提下，生成对应情感的简单监督学习模型，其中代表性的工作有：1)基于cnn的人脸参数预测模型得到了使用，通过将数据集中的情感标签简单进行向量化之后，拼接到cnn中的每一层进行训练，就能够合成训练集内的情感；2)主要解决了有限数据集下情感动画生成的问题，在这一工作中，中性情感的数据占比大于其他情感的数据，分布不均衡，针对这一特点，该工作提出了一种预训练的方法，先用中性情感的数据训练网络，再用其他情感的数据驱动对网络权重进行微调，最后也能使用多个网络生成多种情感。情感标签驱动的方法能够简单地训练并生成带情感的语音，但是局限性很大，只能生成数据集内特定的情感，无法生成数据集外的情感，同时，这种方法也不能从语音中自动提取情感，不易于实际场景使用。
4.语音情感的自动提取有许多研究与方法，传统的自动情感提取方法中，模型整体可以分成两大模块，一个模块对原始语音提取特征并进行情感分类，另一个模块负责对内容特征进行提取，主要用以生成口型信息，合成时利用获得的情感标签和口型特征预测人脸动画参数，通过加入情感分类模块再加上数据集中的情感标签进行有监督训练，就能在合成时自动提取语音中的情感用于合成。另外，用户也可以在合成时自定义情感类别来实现一定程度的情感控制。但这个方法主要还是对几种集内情感进行生成，不能自由控制不同情感间的混合与情感的幅度。
5.在情感的控制上，为了能够达到更好的效果，一些情感语音合成中常用的模型被迁移到情感表现力虚拟人合成中，其中比较有代表性的是基于vae的工作，该工作不是语音驱动，而是通过文本驱动生成语音与同步的动画，该方法主要采用了基于vae的结构，这一网络结构本质是将原始数据中某些特征的分布用隐向量的形式进行学习，该工作通过设置三组vae结构，使得隐向量分别学习音素时长、声学特征以及视觉特征的分布信息。关于情
感的部分，将数据集中的七种情感的语料混合训练。由于情感的不同会影响语音的时长、声学特征及视觉特征，因此网络中的隐向量应该能分别学习到七种情感的分布信息。从实验结果上来说，这项工作做到了不同情感下的时长、声学特征和视觉特征隐向量分布上有明显区分。在生成时，将训练集情感对应的所有隐向量分布中心作为情感的中心，假设整个隐向量代表连续的情感空间，就能通过不同情感中心插值来生成混合情感，同时将特定情感与中性情感进行插值来控制幅度。这项工作的不足之处在于整体生成的效果比较差，没有引入适当的情感标签信息监督导致情感向量的分解不够，在插值调控上表现也不够好。
6.另一方面，在虚拟人动画实际使用环境中，输入语音往往会带有噪音，例如马路、餐厅及咖啡厅的背景音等，带有噪声的语音会造成声学特征的提取错误，进一步影响到口型特征的预测。因此，虚拟人动画合成系统的抗噪能力能拓展模型的应用场景，进而提高模型的泛用性。除了环境背景音之外，在相对安静的场景中，模型在静音段也往往不能完美地保持口型的正确关闭。静音段是指不包含人声的段落，一般出现于语音的句首句末或者中间过渡段。造成这一现象的原因是静音段中的弱噪声，虽然弱噪声强度不高，但容易令模型产生误判并继续生成口型，表现为合成的动画口型无法正确关闭。可以看出，对于情感表现力合成而言，模型的抗噪能力也是至关重要的，这主要体现在两个方面：1)带有噪声的情感语音会影响模型对于全局声学特征的提取，导致模型自动提取的情感可能产生错误，影响模型语音情感自动提取的性能；2)在自定义不同情感来控制动画生成时，内容信息的提取会受到噪声而包含错误，从而导致预测的人脸动画内容与情感上不一致的现象产生。因此，为了提高情感动画生成系统的泛用性，较强的抗噪能力是不可缺少的功能。目前的虚拟人动画生成工作对于抗噪能力的研究较少，并且，也没有给出具体的解决方案以及实际效果验证。
7.综上所述，现有方案中，存在如下缺点：
8.(1)对于生成动画情感的控制效果不足，尤其是不同情感之间的混合插值及情感幅度的调控，目前的方法都不能达到理想的效果；
9.(2)缺乏能够兼具自动提取输入语音情感和生成情感控制的高自由度语音驱动情感动画生成系统；
10.(3)缺乏完整且有效的抗噪虚拟人动画生成系统，目前的模型容易受到环境中噪声的影响预测错误的口型，静音段上容易受到弱噪声的影响生成错误的口型。

技术实现要素：

11.为了解决生成动画情感的控制效果不足、无法兼具自动提取输入语音情感和生成情感控制、无法实现虚拟人动画生成系统抗噪的技术问题，本发明提出一种基于全局情感编码的虚拟人动画合成方法及系统。
12.为此，本发明提出的基于全局情感编码的虚拟人动画合成方法具体包括以下步骤：
13.s1、采用预训练的语音识别模型将带情感的输入语音特征转换为音素后验概率特征，利用噪声编码器获得具有时序相关性的模拟噪声序列，将所述模拟噪声序列与所述音素后验概率特征进行加和获得带噪声的音素后验概率特征，利用全连接层处理带噪声的音素后验概率特征，得到全局内容特征；
14.s2、针对输入的带情感语音，提取梅尔频率倒谱系数特征序列，通过双向门控循环单元网络，提取全局声学特征向量，设置隐向量矩阵，将所述全局声学特征向量与所述隐向量进行注意力计算，获得全局情感特征；
15.s3、将所述全局情感特征拼接到所述全局内容特征，通过双向长短时记忆网络建模上下文信息，并生成对应情感以及对应口型信息的人脸动画参数，根据生成的人脸动画参数调整3d虚拟人脸，生成带情感的虚拟人动画。
16.进一步地，在所述步骤s1中，所述采用预训练的语音识别模型将带情感的输入语音特征转换为音素后验概率特征具体包括对于输入的给定语音，进行40维的mfcc特征的提取，通过两层卷积层与池化层对短时的上下文信息进行提取，再通过前向连接层让模型的感受野扩大到整句话。
17.进一步地，所述输入的给定语音中加入了前后10帧的信息，以及前后10帧的一阶差分与二阶差分。
18.进一步地，所述音素后验概率特征为218种音素的集合，具体包括汉语179种，英语39种。
19.进一步地，在所述步骤s1中，所述利用噪声编码器获得具有时序相关性的模拟噪声序列具体包括按照标准高斯分布采样获得噪声向量，重复采样并获得与音素后验概率特征序列等长的高斯噪声序列，利用单层长短时记忆网络进行处理，获得具有时序相关性的模拟噪声序列。
20.进一步地，在所述步骤s2中，所述注意力计算具体包括：使用全连接分别处理全局声学特征向量和情感隐向量，将经过处理的全局声学特征向量和情感隐向量进行矩阵相乘，获得注意力矩阵，利用逻辑回归函数对注意力矩阵进行归一化处理，获得注意力权重，采用语音情感标签对计算得到的注意力权重施加交叉熵损失函数计算，按照注意力权重对全局情感向量加权求和，获取全局情感特征。
21.为此，本发明提出的基于全局情感编码的虚拟人动画合成系统具体包括内容信息提取模块、情感信息提取模块和人脸动画参数预测模块，所述内容信息提取模块包括预训练的语音识别模型、噪声编码器和全连接层，所述情感信息提取模块包括双向门控循环单元网络和隐向量矩阵，所述人脸动画参数预测模块包括基于双向长短时记忆网络的解码器。
22.进一步地，所述语音识别模型基于cnn网络，包括两层卷积层与池化层、以及前向连接层。
23.进一步地，所述噪声编码器包括单层长短时记忆网络。
24.为此，本发明提出的计算机可读存储介质存储有可供处理器运行的程序，所述程序在被所述处理器运行的过程中能够实现上述基于全局情感编码的虚拟人动画合成方法。
25.相对于现有技术，本发明具有如下有益效果：
26.1)实现完整的自动语音提取和精确情感控制；
27.2)通过噪声编码器引入噪声影响，显著提升对实际环境噪声以及静音段弱噪声的抗噪性。
28.在本发明的一些实施例中，还具有如下有益效果：
29.基于全局情感编码的方法，通过情感标签的监督与神经网络的训练，获取了不同
情感的编码向量，实现了对虚拟人动画情感的自由控制。
附图说明
30.图1是虚拟人动画合成方法的流程图；
31.图2是内容信息提取的流程图；
32.图3是情感信息提取的流程图；
33.图4是ppg提取过程的流程图；
34.图5是噪声编码器的工作流程图；
35.图6是zoneout的设置示意图；
36.图7是注意力计算的流程图；
37.图8是双向gru网络的结构示意图。
具体实施方式
38.为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。
39.在进行描述的过程中，会涉及关键术语的缩略词，在此提前进行解释和说明：
40.lstm：long short
‑
term memory，长短时记忆网络，是循环神经网络(recurrent neural network，rnn)的一种实现；
41.mfcc：mel frequency cepstral coefficient，梅尔频率倒谱系数，是语音中常用的一种特征，主要包含了语音再频域上的信息；
42.ppg：phonetic posterior grams，即音素后验概率，是语音识别的结果的中间表示，表示每帧语音属于每种音素的后验概率；
43.gru：gated recurrent unit，门控循环单元，是lstm网络的一个变种，对lstm中的门结构进行了简化；
44.gan：generative adversarial network，生成对抗网络，是一种基于对抗训练的序列生成方法；
45.vae：variational auto
‑
encoder，变分自编码器，是一种从隐向量分布进行采样生成的序列生成方法；
46.cnn:convolution neural network，卷积神经网络。
47.情感虚拟人动画生成就是在输入一段带有情感的语音之后，根据语音的情感生成对应的虚拟人动画，这一对应关系主要包括面部表情与头部姿态，甚至也可以对应于身体的姿态。面部表情与情感对应关系是显著的，例如皱眉与悲伤。头部姿态与情感虽然不一一对应，但整体的运动模式也受到全局情感剧烈程度和种类的影响。本发明合成的虚拟3d形象，主要涉及人脸表情，口型以及头部姿态三个方面的合成。
48.如图1所示，本发明实施例提出的基于全局情感编码的虚拟人动画合成方法具体包括：
49.s1、内容信息提取，如图2所示，采用预训练的语音识别模型将带情感的输入语音特征转换为ppg特征，具体地，预训练语音识别模型按照10ms的帧移提取40维的mfcc特征序列，并经过cnn网络获得同样时长的218维ppg特征序列，每一维代表一个音素，ppg特征包含
中文与英文音素，随后，按照10ms帧移提取该语音的短时能量信息序列，并与ppg特征按时间步进行拼接获得219维的ppg 能量特征。ppg特征是一个横轴为时间，纵轴为音素集合的特征矩阵，其中的数值代表每个时间步上内容为对应音素的概率。对于ppg的具体提取过程，如图4所示，是一个以cnn为核心的复合网络结构，对于输入的给定语音，进行40维的mfcc特征的提取，其中，由于输入信息只包含有限时间步，为了保证整句语音输出的特征的连续性，输入信息中也加入了前后10帧的信息，以及前后10帧的一阶差分与二阶差分，网络通过两层卷积层与池化层对短时的上下文信息进行提取，再通过前向连接层让模型的感受野扩大到整句话，具体来说，图中卷积层的三个参数分别为通道数，卷积核的形状以及步长，全连接层的参数值代表全连接层的隐含单元数。经过语音识别模型后，只包含内容信息的时序ppg特征就能得到准确提取。在ppg音素集合的设置上，采用了包含汉语179种与英语39种共218种音素的集合。与现有技术相比，细化了网络的提取结构，将简单的一层cnn替换成更深度的多层卷积网络，增加模型的参数量并提升网络对ppg的提取准确度。
50.与此同时，为了提升模型对于输入噪声的鲁棒性，引入噪声编码器，噪声编码器的主要目的是往现有ppg特征中添加噪声，提高抗噪能力，如图5所示，噪声编码器首先需要按照标准高斯分布n(0，1)采样获得1
×
256维的噪声向量，重复该操作并获得与ppg序列等长的高斯噪声序列，该序列不具有时序相关性，随后，以该序列为输入，经过单层lstm后，获得的219维的输出序列作为模拟噪声，是具有时序相关性的，这也符合实际场景下的噪声具有连续性的特点，这里采用单向的lstm结构。为了解决lstm中存在的梯度消失导致收敛速度缓慢的问题，在lstm结构中加入了zoneout的方法，zoneout结构是一种在时序模型中常用的防止梯度消失的方法，主要方式是在每轮训练时按照一定概率随机屏蔽网络中部分节点，将屏蔽的节点数值设置为上一个时间步的数值，在屏蔽当前节点影响的前提下，能稳定地向屏蔽前的时间步回传梯度，在时序模型中达到更好的效果。在lstm中，zoneout的设置如图6所示，虚线部分表示zoneout应用在网络中的位置，将zoneout的节点设置于状态信息的计算与输出信息的计算，不涉及到门函数的计算，能够保证当前信息被完整屏蔽，并且屏蔽后梯度能够做到不变地回传至屏蔽前的时间步，更加稳定。
51.在获得噪声序列后，将噪声序列和ppg序列进行加和获得219维的带噪特征，模拟带噪情况下的ppg特征情况，模拟带噪环境下可能出现的ppg提取错误的现象。实际训练中，在训练完原始模型后再引入噪声序列进行微调，这样能够防止模型训练初期受到噪声影响过大而无法收敛的情况。为了与情感特征向量维度保持一致，用维度为256维的全连接层处理219维的带噪特征，得到256维的全局内容特征。
52.s2、情感信息提取，如图3所示，对于输入的带情感语音，先提取10ms帧移的40维mfcc特征序列，随后通过3层gru结构，提取最后一帧输出的1
×
256的向量作为全局声学特征向量，在提取了全局声学特征向量之后，设置4
×
256的隐向量矩阵用于自动学习不同的情感特征，并用全局声学特征向量与这组向量进行注意力计算，获得全局情感特征，这里采用的注意力机制为多头注意力机制。如图7所示，注意力计算具体包括：使用全连接分别处理全局声学特征向量和情感隐向量，将经过处理的全局声学特征向量和情感隐向量进行矩阵相乘，获得注意力矩阵，利用逻辑回归函数softmax对注意力矩阵进行归一化处理，获得注意力权重，采用训练语料中的语音情感标签，对计算得到的注意力权重施加交叉熵损失函数计算，让注意力权重与实际情感分布接近，再按照注意力权重对全局情感向量加权求
和，就能够获取1
×
256的全局情感特征。这里采用的双向gru网络的结构如图8所示，其中每个时间步都包含一个重置门和更新门的结构，两个门函数的数值会决定保留上一个时间步输出信息的比例和获得当前时间步输入信息的比例，使用gru网络能够感知远距离上下文信息，更适合获取全局特征。交叉熵损失函数在分类问题中相比均方误差能更好地衡量预测数据与训练数据之间的差异。交叉熵的表现形式一般如公式(1)所示，其中n表示样本的总数，m表示类别的数目，y
ic
表示第i个样本的第c类别的实际标签，p
ic
表示第i个样本第c类别的预测概率值，其中p
ic
的数值一般是对最终输出结果进行softmax之后的结果，如公式(2)所示，其中a
ic
表示第i个样本最终输出结果的第c类别的数值。将得到的4维表情权重作为公式中的p，根据实际情感标签获得的one
‑
hot向量作为公式中的y，两者进行计算来监督情感隐向量的学习。
[0053][0054][0055]
使用已有的情感标签加以监督训练，从而保证学习到的是情感信息，通过将头数设置为1来保证每个隐向量对应特定情感以方便控制。
[0056]
s3、人脸动画参数预测，将全局情感特征拼接到全局内容特征序列的每个时间步，形成l
×
512的矩阵，l表示序列的时间步数，通过双向lstm建模上下文信息并生成对应情感以及对应口型信息的人脸动画参数，根据生成的人脸动画参数调整3d虚拟人脸，生成带情感的虚拟人动画。
[0057]
针对静音段噪声的问题，直接在输入信息中加入短时能量信息，提取能量信息时的帧移与ppg特征保持一致，这样就能直接按时间步逐帧拼接短时能量信息。由于静音段噪声强度明显弱于正常人声段，因此，通过加入能量信息就能帮助模型有效判断静音段区间，进一步在静音段生成正确的口型。
[0058]
本发明实施例提出的基于全局情感编码的虚拟人动画合成系统包括内容信息提取模块、情感信息提取模块和人脸动画参数预测模块。
[0059]
内容信息提取模块用于对输入语音进行内容信息提取，基于预训练的语音识别模型提取音素后验概率特征，获取的内容信息能够保留大部分原始语音中的时长与音素分布信息，具体包括预训练的语音识别模型、噪声编码器和全连接层。语音识别模型基于cnn网络，包括两层卷积层与池化层、以及前向连接层，两层卷积层与池化层用于对短时的上下文信息进行提取，前向连接层用于将模型的感受野扩大到整句话。噪声编码器包括单层lstm，单层lstm将不具有时序相关性的高斯噪声序列转换为具有时序相关性的输出序列，采用单向的lstm结构，为了解决lstm中存在的梯度消失导致收敛速度缓慢的问题，在lstm结构中加入了zoneout的方法。全连接层用于处理带噪特征的维度，使其与情感特征向量维度保持一致。
[0060]
情感信息提取模块用于对输入语音的情感信息进行提取，将语音全局声学特征转化为全局情感特征用于后续生成，具体包括双向gru网络和隐向量矩阵。双向gru网络的结构如图2所示，其中每个时间步都包含一个重置门和更新门的结构，两个门函数的数值会决定保留上一个时间步输出信息的比例和获得当前时间步输入信息的比例，使用gru网络能
够感知远距离上下文信息，更适合获取全局特征。隐向量矩阵用于自动学习不同的情感特征，并用全局声学特征向量与这组向量进行注意力计算，得到一组注意力权重，这里采用的注意力机制为多头注意力机制。
[0061]
人脸动画参数预测模块用于利用提取的内容信息与情感信息，通过神经网络模型预测得到内容与情感一致的人脸动画参数，具体包括基于双向lstm的解码器。
[0062]
在实际应用中，也可以考虑采用基于gan的方法进行替换，在gan网络生成时提供情感信息加以限制，生成对应情感的人脸动画。
[0063]
在实际应用中，除了引入模拟噪声序列，也可以采用一些语音识别中常用的数据增强方法对ppg特征进行一定的遮挡或替换，或者，也可以不需要添加噪声的结构，直接将带噪语音作为输入就能进行鲁棒的动画生成。
[0064]
在实际应用中，除了对输入语音提取内容编码与情感编码，从而实现自动提取并生成情感表现力动画，也可以自定义不同情感的权重替换注意力权重，此时，全局情感特征可以由给定的权重计算得到，不需要经过情感提取模块，内容编码则同样从输入语音中提取，就能实现对情感的混合与情感幅度的控制。
[0065]
本发明一方面可以应用于虚拟助手及虚拟伴侣等产品中，通过情感表现力增强虚拟形象真实性，提升用户交互体验与沉浸感，另一方面可以应用于虚拟歌手及游戏解说等产品中，引入情感表现力提升娱乐效果，使用户更容易接受。本发明提出的基于全局情感编码的方法，通过情感标签的监督与神经网络的训练，获取了不同情感的编码向量，并在生成时通过用户自定义权重的方式，实现了对虚拟人动画情感的自由控制，同时，以此为基础也实现了一个同时兼具自动提取语音情感和生成动画情感可控的高自由度系统，一方面实现了精确的情感控制，另一方面搭建了一个完整的语音提取及情感控制的系统，两方面的技术改进使得本专利生成的虚拟人动画情感表现力更强，极大提升了动画的真实性与用户交互体验。针对实际场景中虚拟人动画的预测受到环境噪声和静音段弱噪声影响生成错误口型的问题，本发明提出了基于噪声编码器模拟实际噪声的引入，以及在输入信息中加入能量的方法，显著提升了系统对实际环境噪声以及静音段弱噪声的抗性，在系统的抗噪能力提升后，本发明的系统相比传统方法在泛用性与实用价值上都有明显优势，同时，对于情感生成来说，也能显著提高语音情感自动提取的准确度与生成动画情感与口型的一致性，进一步提升情感生成系统在不同噪声环境中的泛用性。
[0066]
本发明技术方案带来的有益效果可以归纳为：
[0067]
1、用户能够自定义情感权重来实现情感的混合及对人脸动画情感幅度的准确调控。
[0068]
2、提出了一个能兼具语音情感自动提取及自定义情感控制的高自由度情感表现力虚拟人动画生成系统。
[0069]
3、提出了基于噪声编码器的方法，通过该方法生成的噪声序列模拟真实噪声影响，使得系统能够对输入语音中的噪声保持鲁棒。
[0070]
4、提出了引入能量信息的方法，解决了静音段口型受到弱噪声影响无法关闭的问题。
[0071]
以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围。应当指出，对于本技术领域的技术人员，在不脱离本发明设计结构及原理的前提下对本
发明方案所作的等同变化都视作本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音评价方法、装置和设备与流程

一种基于全局情感编码的虚拟人动画合成方法及系统与流程

相关文章

最热文献