一种视频生成方法、装置、设备和存储介质与流程

2022-04-30 02:09:26 来源：中国专利 TAG：

1.本发明涉及图像合成领域，尤其涉及发明名称一种视频生成方法、装置、设备和存储介质。

背景技术：

2.虚拟人生成技术是一种基于人工智能驱动，利用音频生成特定形象的相应动作、表情、语言等的技术。虚拟人可以用在人工智能(artificial intelligence， ai)助手、ai主播、ai老师等各个领域中。其大致技术流程为先用循环神经网络(recurrent neural network,rnn)等学习音频到说话表情的映射关系，之后利用表情参数控制人脸合成流程，合成最后的自然说话视频。由于ai虚拟人需要和人做大量的交互，若这些交互内容都用预先固定答案的回应预生成，效果会大打折扣。ai虚拟人合成技术的前半部分在目前业界水平已经可以达到实时生成，但从表情参数到合成清晰、高质量的人脸视频这一过程，因为运算量较大，视频的生成速度会大打折扣。由于表情参数是一个连续、高维的分布，表情控制的人脸合成流程很难通过预处理提前合成，而生成的过程较为耗时，很难做到实时生成视频。

技术实现要素：

3.为了解决生成的过程较为耗时的技术问题，本发明提供一种视频生成方法，包括：
4.获取多个音频数据；
5.通过自动语音识别系统将每个所述音频数据分解成音素数据，并计算每个所述音素数据的后验概率，得到音素后验概率；
6.获取与所述多个音频数据对应的视频数据；
7.通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸表情参数，得到表情特征向量；
8.将所述多个音频数据对应的视频数据，通过递归神经网络将所述表情特征向量以及所述音素后验概率生成目标表情模型；
9.获取待替换的目标视频；
10.通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸三维重建模型，得到虚拟图像数据；
11.将所述待替换的目标视频以及所述虚拟图像数据输入至生成式对抗神经网络，得到目标生成模型；
12.将所述目标表情模型以及目标生成模型部署至客户端；
13.通过所述客户端生成目标视频。
14.在一些可能的设计中，所述通过所述客户端生成目标视频，包括：
15.获取用户输入的音频数据；
16.将所述用户输入的音频数据输入至所述目标表情模型，得到目标表情；
17.将所述目标表情输入至所述目标生成模型，生成目标图像；
18.将所述目标表情以及所述目标图像通过聚类加速算法，合成对话视频。
19.在一些可能的设计中，所述将所述目标表情以及所述目标图像通过聚类加速算法，合成对话视频，包括：
20.通过训练好的分类器分类所述目标表情，得到所述目标表情的类别；
21.根据所述目标表情的类别以及所述目标表情生成合成图像；
22.将所述合成图像替换所述目标图像对应的区域，得到替换后的图像；
23.根据所述替换后的图像以及对应的所述音频数据合成对话视频。
24.在一些可能的设计中，所述通过训练好的分类器分类所述目标表情，得到所述目标表情的类别之前，所述方法还包括：
25.获取多个表情特征；
26.通过所述多个表情特征训练初始分类器，得到训练好的分类器；
27.为所述训练好的分类器每个分类结果设置对应的表情，得到表情的类别。
28.在一些可能的设计中，所述通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸三维重建模型，得到虚拟图像数据，包括：
29.通过3d人脸重建技术提取所述待替换的目标视频，得到3d人脸模型参数组，所述3d人脸模型参数组至少包括身份参数、表情参数、面部纹理参数、姿态参数以及光照参数；
30.删除所述3d人脸模型参数组中的表情参数，得到去除后的模型参数数据；
31.获取待生成的音频，得到待生成的音素后验概率；
32.将所述待生成的音素后验概率输入至所述目标表情模型，得到目标表情参数；
33.合成所述目标表情参数与所述去除后的模型参数数据，得到所述虚拟图像数据。
34.在一些可能的设计中，所述将所述待替换的目标视频以及所述虚拟图像数据输入至生成式对抗神经网络，得到目标生成模型，包括：
35.设置判别器；
36.将多张所述虚拟图像数据输入至所述目标表情模型，得到多张合成后的人脸图像；
37.将所述多张虚拟图像数以及所述待替换的目标视频输入至判别器，得到判别器的识别结果；
38.通过目标表情模型和判别器的对抗训练过程，完成生成式对抗神经网络的训练，得到所述目标生成模型。
39.在一些可能的设计中，所述将所述多个音频数据对应的视频数据，通过递归神经网络将所述表情特征向量以及所述音素后验概率生成目标表情模型之前，所述方法还包括：
40.获取多个待训练的音频数据以及对应的待训练表情特征向量；
41.将所述多个待训练的音频数据作为初始长短期记忆神经网络lstm的输入，将所述对应的待训练表情特征向量作为初始lstm的输出，训练所述初始lstm，得到所述目标表情模型。
42.第二方面，本发明提供一种视频生成装置，具有实现对应于上述第一方面提供的视频生成平台的方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软
件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。
43.所述视频生成装置包括：
44.输入输出模块，用于获取多个音频数据；
45.处理模块，用于通过自动语音识别系统将每个所述音频数据分解成音素数据，并计算每个所述音素数据的后验概率，得到音素后验概率；通过所述输入输出模块获取与所述多个音频数据对应的视频数据；通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸表情参数，得到表情特征向量；将所述多个音频数据对应的视频数据，通过递归神经网络将所述表情特征向量以及所述音素后验概率生成目标表情模型；通过所述输入输出模块获取待替换的目标视频；通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸三维重建模型，得到虚拟图像数据；将所述待替换的目标视频以及所述虚拟图像数据输入至生成式对抗神经网络，得到目标生成模型；将所述目标表情模型以及目标生成模型部署至客户端；通过所述客户端生成目标视频。
46.在一些可能的设计中，所述处理模块还用于：
47.获取用户输入的音频数据；
48.将所述用户输入的音频数据输入至所述目标表情模型，得到目标表情；
49.将所述目标表情输入至所述目标生成模型，生成目标图像；
50.将所述目标表情以及所述目标图像通过聚类加速算法，合成对话视频。
51.在一些可能的设计中，所述处理模块还用于：
52.通过训练好的分类器分类所述目标表情，得到所述目标表情的类别；
53.根据所述目标表情的类别以及所述目标表情生成合成图像；
54.将所述合成图像替换所述目标图像对应的区域，得到替换后的图像；
55.根据所述替换后的图像以及对应的所述音频数据合成对话视频。
56.在一些可能的设计中，所述处理模块还用于：
57.获取多个表情特征；
58.通过所述多个表情特征训练初始分类器，得到训练好的分类器；
59.为所述训练好的分类器每个分类结果设置对应的表情，得到表情的类别。
60.在一些可能的设计中，所述处理模块还用于：
61.通过3d人脸重建技术提取所述待替换的目标视频，得到3d人脸模型参数组，所述3d人脸模型参数组至少包括身份参数、表情参数、面部纹理参数、姿态参数以及光照参数；
62.删除所述3d人脸模型参数组中的表情参数，得到去除后的模型参数数据；
63.获取待生成的音频，得到待生成的音素后验概率；
64.将所述待生成的音素后验概率输入至所述目标表情模型，得到目标表情参数；
65.合成所述目标表情参数与所述去除后的模型参数数据，得到所述虚拟图像数据。
66.在一些可能的设计中，所述处理模块还用于：
67.设置判别器；
68.将多张所述虚拟图像数据输入至所述目标表情模型，得到多张合成后的人脸图像；
69.将所述多张虚拟图像数以及所述待替换的目标视频输入至判别器，得到判别器的
识别结果；
70.通过目标表情模型和判别器的对抗训练过程，完成生成式对抗神经网络的训练，得到所述目标生成模型。
71.在一些可能的设计中，所述处理模块还用于：
72.获取多个待训练的音频数据以及对应的待训练表情特征向量；
73.将所述多个待训练的音频数据作为初始长短期记忆神经网络lstm的输入，将所述对应的待训练表情特征向量作为初始lstm的输出，训练所述初始lstm，得到所述目标表情模型。
74.本发明又一方面提供了一种视频生成设备，其包括至少一个连接的处理器、存储器、输入输出单元，其中，所述存储器用于存储程序代码，所述处理器用于调用所述存储器中的程序代码来执行上述各方面所述的方法。
75.本发明又一方面提供了一种计算机存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。
76.相较于现有技术，本技术使用了一种特定的加速预处理生成方法。面部表情虽然是一个高维、连续的分布，但整体变化范围并不大，可通过用聚类算法加速这个过程。于是，在最终生成视频时，对语音合成后rnn网络生成的表情参数进行分类，即可直接取用该类中心对应的合成帧作为合成结果即可。
附图说明
77.图1-1为本发明实施例中视频生成方法的流程示意图；
78.图1-2为本发明实施例中视频生成方法的目标生成模型视频合成示意图；
79.图1-3为本发明实施例中视频生成方法的表情向量获取模型示意图；
80.图2为本发明实施例中视频生成装置的结构示意图；
81.图3为本发明实施例中计算机设备的结构示意图。
82.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
83.应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本发明中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。
84.请参照图1-1，以下对本发明提供一种视频生成方法进行举例说明，所述方法包括：
85.101、获取多个音频数据。
86.本实施例中，所述音频数据可以从数据库或者网络云资源处调用。
87.102、通过自动语音识别系统将每个所述音频数据分解成音素数据，并计算每个所述音素数据的后验概率，得到音素后验概率。
88.本实施例中，通过语音识别系统获得的后验概率，后验概率只与说话人无关而只与说话内容有关。因此把输入的t时刻的音频数据记为x
t
，使用自动语音识别系统，得到对应的音素后验概率p
t
＝(p(s|x
t
)|s＝1，2，...，c)，其中p(s|x
t
) 是x
t
分别属于每个音素类别s的后验概率。
89.103、获取与所述多个音频数据对应的视频数据。
90.本实施例中，每个视频数据与每个音频数据一一对应。
91.104、通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸表情参数，得到表情特征向量。
92.本实施例中，通过3d人脸重建技术对人脸进行建模，其模型可由身份、表情、面部纹理、光照、姿态五组参数控制。其中表情参数和说话时的面部肌肉运动和嘴唇形状相关联，本发明将表情参数单独分离出来作为面部特征训练神经网络。在3d人脸重建技术中，3d人脸模型主要分为形状向量和纹理向量
93.105、将所述多个音频数据对应的视频数据，通过递归神经网络将所述表情特征向量以及所述音素后验概率生成目标表情模型。
94.本实施例中，通过3d人脸重建技术得到目标视频对应的目标表情模型，并通过控制这一模型来达到生成新的说话人3d模型的目的。
95.106、获取待替换的目标视频。
96.本实施例中，所述待替换的目标视频可以从数据库或者网络云资源处调用。
97.107、通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸三维重建模型，得到虚拟图像数据。
98.本实施例中，利用相同的3d人脸重建技术，将从视频中提取相应的人脸模型，并进一步提取出身份、表情、面部纹理、姿态、光照相应的参数。另一方面，音频驱动audio2expression网络也生成了音频对应的表情参数。将目标视频中的表情参数替换为音频输入的表情参数，即可完成目标的合成3d人脸模型。它和目标视频有着一样的特性，除了说话的表情(包含了嘴唇动作)和音频输入有关。
99.108、将所述待替换的目标视频以及所述虚拟图像数据输入至生成式对抗神经网络，得到目标生成模型。
100.本实施例中，在训练生成式对抗神经网络的时候，成对的3d人脸模型渲染的虚拟人像和从目标视频中提取的真实的面部图像的数据集，分别将其标记为x 和y，要训练的生成式对抗神经网络模型即为在x条件下生成g(x)图像，使其尽可能逼近y的分布的一个条件生成式对抗神经网络，即学习g：x
→
y的映射关系。生成式对抗神经网络要同时训练生成器g(generator)和判别器d (discriminator)。生成器g的输入是3d人脸模型渲染的虚拟人像x，生成器 g利用x的信息生成g(x)图像去尽可能欺骗判别器d。判别器d的输入是真实的面部图像数据y和生成器生成的虚假图像g(x)，判别器d尽可能将真实的图片y和生成的虚假图片g(x)区分开。在这一生成对抗过程中，生成器g会变得越来越能生成接近真实的图片，
当网络收敛之后，生成器d既可用于完成从合成3d头部模型到最终人脸合成视频的映射关系。
101.109、将所述目标表情模型以及目标生成模型部署至客户端。
102.本实施例中，将生成的模型部署到客户端。
103.109、通过所述客户端生成目标视频。
104.本实施例中，通过聚类技术加速人脸合成的生成过程，提高了人脸合成速度的实时性。
105.相较于现有技术，本技术使用了一种特定的加速预处理生成方法。面部表情虽然是一个高维、连续的分布，但整体变化范围并不大，可通过用聚类算法加速这个过程。于是，在最终生成视频时，对语音合成后rnn网络生成的表情参数进行分类，即可直接取用该类中心对应的合成帧作为合成结果即可。
106.一些实施方式中，所述通过所述客户端生成目标视频，包括：
107.获取用户输入的音频数据；
108.将所述用户输入的音频数据输入至所述目标表情模型，得到目标表情；
109.将所述目标表情输入至所述目标生成模型，生成目标图像；
110.将所述目标表情以及所述目标图像通过聚类加速算法，合成对话视频。
111.上述实施方式中，语音作为输入，利用训练好的rnn模型生成对应表情参数特征序列对序列中的每一个表情参数，使用上述分类器，得到其对应的分类标签。对每一个表情参数，其对应的分类标签和所在帧可以确定其生成结果对应的人脸图片，即对于属于k类的第n个帧。将以上合成结果的图片贴回原目标视频背景中，并添加音频，生成最终合成视频。
112.一些实施方式中，所述将所述目标表情以及所述目标图像通过聚类加速算法，合成对话视频，包括：
113.通过训练好的分类器分类所述目标表情，得到所述目标表情的类别；
114.根据所述目标表情的类别以及所述目标表情生成合成图像；
115.将所述合成图像替换所述目标图像对应的区域，得到替换后的图像；
116.根据所述替换后的图像以及对应的所述音频数据合成对话视频。
117.上述实施方式中，.载入训练数据中的所有表情特征，并用k均值聚类 (kmeans)算法进行聚类，得到k个类中心对应的kmeans分类器。对k个类中心，使用第二部分的算法和目标视频的每一帧提取出的3d人脸模型参数结合，合成对应的3d头部模型。对k个类中心对应的3d头部模型，和目标视频的对应帧结合，使用第三部分的算法训练出来的生成对抗网络，得到合成的人脸。
118.一些实施方式中，所述通过训练好的分类器分类所述目标表情，得到所述目标表情的类别之前，所述方法还包括：
119.获取多个表情特征；
120.通过所述多个表情特征训练初始分类器，得到训练好的分类器；
121.为所述训练好的分类器每个分类结果设置对应的表情，得到表情的类别。
122.上述实施方式中，为每个聚类中心设置一个分类结果的表情图片，通过这个表情图片替代对应分类的表情。
123.一些实施方式中，所述通过3d人脸重建技术提取所述对应的视频数据中每一帧图
像数据的人脸三维重建模型，得到虚拟图像数据，包括：
124.通过3d人脸重建技术提取所述待替换的目标视频，得到3d人脸模型参数组，所述3d人脸模型参数组至少包括身份参数、表情参数、面部纹理参数、姿态参数以及光照参数；
125.删除所述3d人脸模型参数组中的表情参数，得到去除后的模型参数数据；
126.获取待生成的音频，得到待生成的音素后验概率；
127.将所述待生成的音素后验概率输入至所述目标表情模型，得到目标表情参数；
128.合成所述目标表情参数与所述去除后的模型参数数据，得到所述虚拟图像数据。
129.上述实施方式中，如图1-1-2所示在3d人脸重建技术中，3d人脸模型主要分为形状向量和纹理向量。形状向量包含了人脸的x，y，z坐标信息：
130.s＝(x1，y1，z1，x2，y2，z2，...，xn，yn，zn)
t
，n为模型的顶点数。纹理向量包含了人脸的r，g，b坐标信息：t＝(r1，g1，b1，r2，g2，b2，...，rn，gn，bn)
t
.于是建立3d人脸模型可以用m个已有的人脸模型组成，在表示新的3d人脸模型时，可以用以下方法表示：用一组线性组合参数来表示新的面部模型：其中其中利用principal component analysis(pca)方法，可以找到m 个人脸的平均脸部特征，记为于是模型即可表示为于是模型即可表示为对于一张给定的人脸图片，需要将模型和人脸图片进行拟合，对模型参数进行调整，使其与照片中的人脸差异值达到最小。而最终拟合完成的参数即为该模型的控制参数，其中形状相关可以进一步分解为姿态、目标身份和表情参数，纹理参数可进一步分解为面部纹理和光照参数。为生成音频对应的说话人视频内容，们需要先合成相应的3d人脸模型。将音频驱动得到相应说话人的表情参数，而剩下的参数则从用于参考合成最终形象的目标视频中提取出来。
131.一些实施方式中，所述将所述待替换的目标视频以及所述虚拟图像数据输入至生成式对抗神经网络，得到目标生成模型，包括：
132.设置判别器；
133.将多张所述虚拟图像数据输入至所述目标表情模型，得到多张合成后的人脸图像；
134.将所述多张虚拟图像数以及所述待替换的目标视频输入至判别器，得到判别器的识别结果；
135.通过目标表情模型和判别器的对抗训练过程，完成生成式对抗神经网络的训练，得到所述目标生成模型。
136.上述实施方式中，生成式对抗神经网络的损失函数为 l
cgan
(g，d)＝e
x，y
[logd(x，y)] e
x
[log(1-d(x，g(x))]，生成器在训练过程中需要最小化损失函数，即尽可能让判别器把虚假的图片误认为真实的，而判别器在训练过程中需要最大化损失函数，即尽可能将真实的图片y和生成的虚假图片g(x)区分开。于是最终的目标函数为：g
*
＝arg min
g max
d l
cgan
(g，d).另外，为了约束g(x) 的分布和y尽可能接近，另外在生成器的训练过程中加入l1范数作为约束，其目标函数为：l
l1
(g)＝e
x，y
[||y-g(x)||1]综上所述，生成式对抗神经网络最终的目标函数为：g
*
＝grg min
g max
d l
cgan
(g，d) λl
l1
(g).通过最终的目标函数训练生
成式对抗神经网络。
[0137]
一些实施方式中，所述将所述多个音频数据对应的视频数据，通过递归神经网络将所述表情特征向量以及所述音素后验概率生成目标表情模型之前，所述方法还包括：
[0138]
获取多个待训练的音频数据以及对应的待训练表情特征向量；
[0139]
将所述多个待训练的音频数据作为初始长短期记忆神经网络lstm的输入，将所述对应的待训练表情特征向量作为初始lstm的输出，训练所述初始lstm，得到所述目标表情模型。
[0140]
上述实施方式中，训练一个递归神经网络(recurrent neural network， rnn)学习音频特征与表情之间的映射网络(ppg2expression网络)如图1-3所示，展示了在时间t时刻，音频特征输入到lstm(long short-term memory) 单元的过程。可以发现，由于说话特性，嘴唇和头部的运动通常是先于声音的，故在模型里添加了两个步长的移动。同时，为生成平滑而自然的头部运动，使用lstm来控制必要的信息存储和状态转换，使得的模型可以学习到音频和先前唇形和头部运动之间的长期相关性。在该网络训练好之后，即可用音频驱动其生成对应的说话人表情特征序列。
[0141]
如图2所示的一种视频生成装置20的结构示意图，其可应用于视频生成。本发明实施例中的视频生成装置能够实现对应于上述图1-1所对应的实施例中所执行的视频生成方法的步骤。视频生成装置20实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述视频生成装置可包括输入输出模块201和处理模块202，所述处理模块202和输入输出模块201的功能实现可参考图1-1所对应的实施例中所执行的操作，此处不作赘述。输入输出模块201可用于控制所述输入输出模块201的输入、输出以及获取操作。
[0142]
一些实施方式中，所述输入输出模块201可用于获取多个音频数据；
[0143]
所述处理模块202可用于通过自动语音识别系统将每个所述音频数据分解成音素数据，并计算每个所述音素数据的后验概率，得到音素后验概率；通过所述输入输出模块获取与所述多个音频数据对应的视频数据；通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸表情参数，得到表情特征向量；将所述多个音频数据对应的视频数据，通过递归神经网络将所述表情特征向量以及所述音素后验概率生成目标表情模型；通过所述输入输出模块获取待替换的目标视频；通过3d人脸重建技术提取所述对应的视频数据中每一帧图像数据的人脸三维重建模型，得到虚拟图像数据；将所述待替换的目标视频以及所述虚拟图像数据输入至生成式对抗神经网络，得到目标生成模型；将所述目标表情模型以及目标生成模型部署至客户端；通过所述客户端生成目标视频。
[0144]
一些实施方式中，所述处理模块202还用于：
[0145]
获取用户输入的音频数据；
[0146]
将所述用户输入的音频数据输入至所述目标表情模型，得到目标表情；
[0147]
将所述目标表情输入至所述目标生成模型，生成目标图像；
[0148]
将所述目标表情以及所述目标图像通过聚类加速算法，合成对话视频。
[0149]
一些实施方式中，所述处理模块202还用于：
[0150]
通过训练好的分类器分类所述目标表情，得到所述目标表情的类别；
[0151]
根据所述目标表情的类别以及所述目标表情生成合成图像；
[0152]
将所述合成图像替换所述目标图像对应的区域，得到替换后的图像；
[0153]
根据所述替换后的图像以及对应的所述音频数据合成对话视频。
[0154]
一些实施方式中，所述处理模块202还用于：
[0155]
获取多个表情特征；
[0156]
通过所述多个表情特征训练初始分类器，得到训练好的分类器；
[0157]
为所述训练好的分类器每个分类结果设置对应的表情，得到表情的类别。
[0158]
一些实施方式中，所述处理模块202还用于：
[0159]
通过3d人脸重建技术提取所述待替换的目标视频，得到3d人脸模型参数组，所述3d人脸模型参数组至少包括身份参数、表情参数、面部纹理参数、姿态参数以及光照参数；
[0160]
删除所述3d人脸模型参数组中的表情参数，得到去除后的模型参数数据；
[0161]
获取待生成的音频，得到待生成的音素后验概率；
[0162]
将所述待生成的音素后验概率输入至所述目标表情模型，得到目标表情参数；
[0163]
合成所述目标表情参数与所述去除后的模型参数数据，得到所述虚拟图像数据。
[0164]
一些实施方式中，所述处理模块202还用于：
[0165]
设置判别器；
[0166]
将多张所述虚拟图像数据输入至所述目标表情模型，得到多张合成后的人脸图像；
[0167]
将所述多张虚拟图像数以及所述待替换的目标视频输入至判别器，得到判别器的识别结果；
[0168]
通过目标表情模型和判别器的对抗训练过程，完成生成式对抗神经网络的训练，得到所述目标生成模型。
[0169]
一些实施方式中，所述处理模块202还用于：
[0170]
获取多个待训练的音频数据以及对应的待训练表情特征向量；
[0171]
将所述多个待训练的音频数据作为初始长短期记忆神经网络lstm的输入，将所述对应的待训练表情特征向量作为初始lstm的输出，训练所述初始lstm，得到所述目标表情模型。
[0172]
上面从模块化功能实体的角度分别介绍了本发明实施例中的创建装置，以下从硬件角度介绍一种计算机设备，如图3所示，其包括：处理器、存储器、输入输出单元(也可以是收发器，图3中未标识出)以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如，该计算机程序可以为图1-1所对应的实施例中视频生成方法对应的程序。例如，当计算机设备实现如图2所示的视频生成装置20的功能时，所述处理器执行所述计算机程序时实现上述图 2所对应的实施例中由视频生成装置20执行的视频生成方法中的各步骤。或者，所述处理器执行所述计算机程序时实现上述图2所对应的实施例的视频生成装置20中各模块的功能。又例如，该计算机程序可以为图1-1所对应的实施例中视频生成方法对应的程序。
[0173]
所称处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、
分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
[0174]
所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd) 卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0175]
所述输入输出单元也可以用接收器和发送器代替，可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为输入输出单元。该输入输出可以为收发器。
[0176]
所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。
[0177]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。
[0178]
上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：储值卡违规使用识别方法、装置、设备和存储介质与流程

一种视频生成方法、装置、设备和存储介质与流程

相关文献

最热文献