数字人视频生成方法、装置、电子设备及存储介质与流程

2022-02-19 05:17:01 来源：中国专利 TAG：

1.本发明实施例涉及人工智能技术领域，尤其涉及一种数字人视频生成方法、装置、电子设备及存储介质。

背景技术：

2.数字人视频的生成技术现在越来越成熟，如果数字人视频生成技术想应用在商业，实现实时交互，至少需要满足两点：生成效果好和推理速度快，其中，生产效果好事必要的前提，推理速度快是商业的需要。
3.目前，基于声音推理生成数字人视频的方案，其主要是通过声音推理模型，采用声音推理生成人脸关键点。但基于声音推理生成的人脸关键点存在角度问题，导致最终生成的数字人视频中数字人姿态不自然。

技术实现要素：

4.为了解决上述基于声音推理生成的人脸关键点存在角度问题，导致最终生成的数字人视频中数字人姿态不自然的技术问题，本发明实施例提供了一种数字人视频生成方法、装置、电子设备及存储介质。
5.在本发明实施例的第一方面，首先提供了一种数字人视频生成方法，所述方法包括：
6.获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3d网格；
7.确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；
8.利用预设人脸3d模型，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3d网格进行处理，生成第一人脸3d网格；
9.利用预设视频生成模型，对所述第一人脸3d网格以及所述第一背景轮廓线进行处理，生成数字人视频。
10.在一个可选的实施方式中，所述获取第一平均人脸3d网格，包括：
11.将所述目标样本图像输入至预设3d模型，获取所述预设3d模型输出的第一3d人脸重建信息；
12.提取所述第一3d人脸重建信息中的第一人脸姿态参数和第一人脸表情参数；
13.确定所述第一人脸姿态参数和所述第一人脸表情参数为第一平均人脸3d网格；
14.或者，
15.获取第一平均人脸3d网格集，获取所述第一平均人脸3d网格集中的任一第一平均人脸3d网格。
16.在一个可选的实施方式中，所述利用预设人脸3d模型，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3d网格进行处理，生成第一人脸3d网格，包括：
17.针对所述音频中任一音频帧，对所述音频帧对应的所述音频特征以及所述第一平均人脸3d网格进行处理，生成第一中间人脸3d网格；
18.将所述第一中间人脸3d网格与所述第一人脸姿态参数输入至预设人脸3d模型，获取所述预设人脸3d模型输出的所述音频帧对应的第一人脸3d网格。
19.在一个可选的实施方式中，所述对所述音频帧对应的所述音频特征以及所述第一平均人脸3d网格进行处理，生成第一中间人脸3d网格，包括：
20.将所述音频帧对应的所述音频特征输入至预设神经网格模型，获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量；
21.将所述第一平均人脸3d网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第一图像隐藏变量；
22.按照通道合成的方式将所述音频帧对应的所述第一声音隐藏变量与所述第一图像隐藏变量进行合成，得到第一合成变量；
23.将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一中间人脸3d网格。
24.在一个可选的实施方式中，所述利用预设视频生成模型，对所述第一人脸3d网格以及所述第一背景轮廓线进行处理，生成数字人视频，包括：
25.按照所述通道合成的方式将所述音频帧对应的所述第一人脸3d网格与所述第一背景轮廓线进行合成，得到所述音频帧对应的第一合成图像；
26.将所述音频帧对应的所述第一合成图像输入至预设视频生成模型，获取所述预设视频生成模型输出的所述音频帧对应的数字人图像；
27.按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。
28.在一个可选的实施方式中，所述针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，包括：
29.针对所述音频中任一音频帧，利用傅里叶变换提取mel频率倒谱系数作为所述音频帧对应的音频特征；
30.或者，
31.针对所述音频中任一音频帧，利用预设语音识别模型提取所述音频帧对应的音频特征。
32.在一个可选的实施方式中，在执行所述方法之前，还包括：
33.获取目标人物的样本视频，其中，所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应；
34.针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，并获取第二平均人脸3d网格；以及，
35.提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线；
36.利用预设人脸3d模型，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3d网格进行处理，生成第二人脸3d网格；
37.利用预设视频生成模型，对所述第二人脸3d网格以及所述第二背景轮廓线进行处
理，生成数字人样本视频。
38.在一个可选的实施方式中，所述获取第二平均人脸3d网格，包括：
39.将与所述样本音频帧对应的所述样本图像输入至预设3d模型，获取所述预设3d模型输出的第二3d人脸重建信息；
40.提取所述第二3d人脸重建信息中的第二人脸姿态参数和第二人脸表情参数；
41.确定所述第二人脸姿态参数和所述第二人脸表情参数为第二平均人脸3d网格；
42.或者，
43.获取第二平均人脸3d网格集，获取所述第二平均人脸3d网格集中的任一第二平均人脸3d网格。
44.在一个可选的实施方式中，所述利用预设人脸3d模型，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3d网格进行处理，生成第二人脸3d网格，包括：
45.针对所述样本音频中任一所述样本音频帧，对所述样本音频帧对应的所述样本音频特征以及所述第二平均人脸3d网格进行处理，生成第二中间人脸3d网格；
46.将所述第二中间人脸3d网格与所述第二人脸姿态参数输入至预设人脸3d模型，获取所述预设人脸3d模型输出的所述样本音频帧对应的第二人脸3d网格。
47.在一个可选的实施方式中，所述对所述样本音频帧对应的所述样本音频特征以及所述第二平均人脸3d网格进行处理，生成第二中间人脸3d网格，包括：
48.将所述样本音频帧对应的所述样本音频特征输入至预设神经网格模型，获取所述预设神经网格模型输出的所述样本音频帧对应的第二声音隐藏变量；
49.将所述第二平均人脸3d网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第二图像隐藏变量；
50.按照通道合成的方式将所述样本音频帧对应的所述第二声音隐藏变量与所述第二图像隐藏变量进行合成，得到第二合成变量；
51.将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二中间人脸3d网格。
52.在一个可选的实施方式中，所述利用预设视频生成模型，对所述第二人脸3d网格以及所述第二背景轮廓线进行处理，生成数字人样本视频，包括：
53.按照所述通道合成的方式将所述样本音频帧对应的所述第二人脸3d网格与所述第二背景轮廓线进行合成，得到所述样本音频帧对应的第二合成图像；
54.将所述样本音频帧对应的所述第二合成图像输入至预设视频生成模型，获取所述预设视频生成模型输出的所述样本音频帧对应的数字人样本图像；
55.按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。
56.在一个可选的实施方式中，所述针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，包括：
57.针对所述样本音频中任一所述样本音频帧，利用傅里叶变换提取mel频率倒谱系数作为所述样本音频帧对应的样本音频特征；
58.或者，
59.针对所述样本音频中任一所述样本音频帧，利用预设语音识别模型提取所述样本
音频帧对应的样本音频特征。
60.在本发明实施例的第二方面，提供了一种数字人视频生成装置，所述装置包括：
61.音频获取模块，用于获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3d网格；
62.参数、轮廓线提取模块，用于确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；
63.网格生成模块，用于利用预设人脸3d模型，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3d网格进行处理，生成第一人脸3d网格；
64.视频生成模块，用于利用预设视频生成模型，对所述第一人脸3d网格以及所述第一背景轮廓线进行处理，生成数字人视频。
65.在一个可选的实施方式中，所述音频获取模块具体用于：
66.将所述目标样本图像输入至预设3d模型，获取所述预设3d模型输出的第一3d人脸重建信息；
67.提取所述第一3d人脸重建信息中的第一人脸姿态参数和第一人脸表情参数；
68.确定所述第一人脸姿态参数和所述第一人脸表情参数为第一平均人脸3d网格；
69.或者，
70.获取第一平均人脸3d网格集，获取所述第一平均人脸3d网格集中的任一第一平均人脸3d网格。
71.在一个可选的实施方式中，所述网格生成模块具体包括：
72.中间网格生成子模块，用于针对所述音频中任一音频帧，对所述音频帧对应的所述音频特征以及所述第一平均人脸3d网格进行处理，生成第一中间人脸3d网格；
73.人脸网格生成子模块，用于将所述第一中间人脸3d网格与所述第一人脸姿态参数输入至预设人脸3d模型，获取所述预设人脸3d模型输出的所述音频帧对应的第一人脸3d网格。
74.在一个可选的实施方式中，将所述音频帧对应的所述音频特征输入至预设神经网格模型，获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量；
75.将所述第一平均人脸3d网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第一图像隐藏变量；
76.按照通道合成的方式将所述音频帧对应的所述第一声音隐藏变量与所述第一图像隐藏变量进行合成，得到第一合成变量；
77.将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一中间人脸3d网格。
78.在一个可选的实施方式中，所述视频生成模块具体用于：
79.按照所述通道合成的方式将所述音频帧对应的所述第一人脸3d网格与所述第一背景轮廓线进行合成，得到所述音频帧对应的第一合成图像；
80.将所述音频帧对应的所述第一合成图像输入至预设视频生成模型，获取所述预设视频生成模型输出的所述音频帧对应的数字人图像；
81.按照所述音频的时间序列，对各所述音频帧各自对应的所述数字人图像进行组合，生成数字人视频。
82.在一个可选的实施方式中，所述音频获取模块具体用于：
83.针对所述音频中任一音频帧，利用傅里叶变换提取mel频率倒谱系数作为所述音频帧对应的音频特征；
84.或者，
85.针对所述音频中任一音频帧，利用预设语音识别模型提取所述音频帧对应的音频特征。
86.在一个可选的实施方式中，所述装置还包括：
87.样本视频获取模块，用于获取目标人物的样本视频，其中，所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应；
88.音频特征提取模块，用于针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征；
89.网格获取模块，用于获取第二平均人脸3d网格；以及，
90.姿态、背景提取模块，用于提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线；
91.3d网格生成模块，用于利用预设人脸3d模型，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3d网格进行处理，生成第二人脸3d网格；
92.样本视频生成模块，用于利用预设视频生成模型，对所述第二人脸3d网格以及所述第二背景轮廓线进行处理，生成数字人样本视频。
93.在一个可选的实施方式中，所述网格获取模块具体用于：
94.将与所述样本音频帧对应的所述样本图像输入至预设3d模型，获取所述预设3d模型输出的第二3d人脸重建信息；
95.提取所述第二3d人脸重建信息中的第二人脸姿态参数和第二人脸表情参数；
96.确定所述第二人脸姿态参数和所述第二人脸表情参数为第二平均人脸3d网格；
97.或者，
98.获取第二平均人脸3d网格集，获取所述第二平均人脸3d网格集中的任一第二平均人脸3d网格。
99.在一个可选的实施方式中，所述3d网格生成模块具体包括：
100.中间3d网格生成子模块，用于针对所述样本音频中任一所述样本音频帧，对所述样本音频帧对应的所述样本音频特征以及所述第二平均人脸3d网格进行处理，生成第二中间人脸3d网格；
101.人脸3d网格生成子模块，用于将所述第二中间人脸3d网格与所述第二人脸姿态参数输入至预设人脸3d模型，获取所述预设人脸3d模型输出的所述样本音频帧对应的第二人脸3d网格。
102.在一个可选的实施方式中，所述中间3d网格生成子模块具体用于：
103.将所述样本音频帧对应的所述样本音频特征输入至预设神经网格模型，获取所述预设神经网格模型输出的所述样本音频帧对应的第二声音隐藏变量；
104.将所述第二平均人脸3d网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第二图像隐藏变量；
105.按照通道合成的方式将所述样本音频帧对应的所述第二声音隐藏变量与所述第
二图像隐藏变量进行合成，得到第二合成变量；
106.将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二中间人脸3d网格。
107.在一个可选的实施方式中，所述样本视频生成模块具体用于：
108.按照所述通道合成的方式将所述样本音频帧对应的所述第二人脸3d网格与所述第二背景轮廓线进行合成，得到所述样本音频帧对应的第二合成图像；
109.将所述样本音频帧对应的所述第二合成图像输入至预设视频生成模型，获取所述预设视频生成模型输出的所述样本音频帧对应的数字人样本图像；
110.按照所述样本音频的时间序列，对各所述样本音频帧各自对应的所述数字人样本图像进行组合，生成数字人样本视频。
111.在一个可选的实施方式中，所述音频特征提取模块具体用于：
112.针对所述样本音频中任一所述样本音频帧，利用傅里叶变换提取mel频率倒谱系数作为所述样本音频帧对应的样本音频特征；
113.或者，
114.针对所述样本音频中任一所述样本音频帧，利用预设语音识别模型提取所述样本音频帧对应的样本音频特征。
115.在本发明实施例的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
116.存储器，用于存放计算机程序；
117.处理器，用于执行存储器上所存放的程序时，实现上述第一方面中所述的数字人视频生成方法。
118.在本发明实施例的第四方面，还提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面中所述的数字人视频生成方法。
119.在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面中所述的数字人视频生成方法。
120.本发明实施例提供的技术方案，获取目标人物的音频，针对音频中任一音频帧，提取音频帧对应的音频特征，以及获取第一平均人脸3d网格，确定目标人物的样本视频，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线，利用预设人脸3d模型，对音频特征、第一人脸姿态参数以及第一平均人脸3d网格进行处理，生成第一人脸3d网格，利用预设视频生成模型，对第一人脸3d网格以及第一背景轮廓线进行处理，生成数字人视频。如此基于目标人物的音频，生成相应的第一人脸3d网格，进而基于第一人脸3d网格，生成数字人视频，其中引入了第一平均人脸3d网格、目标样本图像的第一人脸姿态参数以及第一背景轮廓线，最终生成的数字人视频中数字人姿态自然、准确。
附图说明
121.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
122.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而
言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
123.图1为本发明实施例中示出的一种数字人视频生成方法的实施流程示意图；
124.图2为本发明实施例中示出的一种(每帧音频帧对应的)第一中间人脸3d网格生成方法的实施流程示意图；
125.图3为本发明实施例中示出的另一种数字人视频生成方法的实施流程示意图；
126.图4为本发明实施例中示出的一种模型训练方法的实施流程示意图；
127.图5为本发明实施例中示出的一种(每帧样本音频帧对应的)第二中间人脸3d网格生成方法的实施流程示意图；
128.图6为本发明实施例中示出的一种数字人视频生成装置的结构示意图；
129.图7为本发明实施例中示出的一种电子设备的结构示意图。
具体实施方式
130.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
131.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
132.如图1所示，为本发明实施例提供的一种数字人视频生成方法的实施流程示意图，该方法应用于处理器，具体可以包括以下步骤：
133.s101，获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3d网格。
134.在本发明实施例中，目标人物可以自行输入一段音频，该音频可以是wav格式(wav是一种无损的音频文件格式)，当然也可以是其他格式，对于帧率，可以为100，可以是50或者25，本发明实施例对此不作限定。
135.由此，在模型推理阶段，本发明实施例可以获取目标人物的音频，这里目标人物可以是当前任意的人物，即任意的用户，本发明实施例对此不作限定。例如，本发明实施例可以获取用户a的音频。
136.此外，在本发明实施例中，对于目标人物的音频，针对该目标人物的音频中任一音频帧，提取该音频帧对应的音频特征，以及相应的获取第一平均人脸3d网格。
137.例如，对于用户a的音频，假设存在10帧音频帧，则针对用户a的音频中任一音频帧，提取该音频帧对应的音频特征，以及相应的获取第一平均人脸3d网格。
138.其中，对于音频特征的提取，可以使用傅立叶变换，即针对该目标人物的音频中任一音频帧，利用傅里叶变换提取mel频率倒谱系数(即mfcc)作为该音频帧对应的音频特征。
139.或者，
140.对于音频特征的提取，可以使用其他预设语音识别模型，例如deepspeech/asr/wav2vector等模型，即针对该目标人物的音频中任一音频帧，利用预设语音识别模型提取该音频帧对应的音频特征。
141.对于第一平均人脸3d网格，目前市面上存在一些开源的第一平均人脸3d网格，由此可以组成第一平均人脸3d网格集，进而在对音频中任一音频帧进行处理的过程中，获取第一平均人脸3d网格集，获取第一平均人脸3d网格集中的任一第一平均人脸3d网格。
142.或者，
143.对于样本视频中目标样本图像(即target图像)，将目标样本图像输入至预设3d模型，这里预设3d模型可以是开源的3d模型(例如deep3dfacereconstruction/deca/3dmm等3d人脸重建模型)，获取该预设3d模型输出的第一3d人脸重建信息，提取第一3d人脸重建信息中的第一人脸姿态参数和第一人脸表情参数，就可以当作平均人脸，即确定第一人脸姿态参数和第一人脸表情参数为第一平均人脸3d网格。
144.s102，确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线。
145.在本发明实施例中，在模型训练阶段，准备了目标人物的样本视频，用于参与模型训练，从而后续在模型推理阶段，可以使用目标人物的样本视频参与数字人视频的生成。
146.基于此，确定目标人物的样本视频，从目标人物的样本视频中任一选择一帧样本图像作为目标样本图像，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线。
147.例如，确定用户a的样本视频，从用户a的样本视频中选择第一帧样本图像作为目标样本图像(即target图像)，提取样本视频中目标样本图像的第一人脸姿态参数(pose)以及第一背景轮廓线(即背景canny线图)。
148.需要说明的是，对于样本视频，包括多帧样本图像，可以任一选择一帧样本图像作为目标样本图像，例如选择样本视频中第一帧样本图像作为目标样本图像，后续处理每帧音频帧的过程中，均使用这个目标样本图像，即固定使用一个样本图像，本发明实施例对此不作限定，这样最终生成的数字人视频中数字人姿态固定，与样本视频中目标样本图像的头部姿态一样。
149.此外，为了保证姿态的连续性，可以从目标人物的样本视频中顺序(这里的顺序遵循音频中音频帧的处理顺序，例如处理第一帧音频帧，选择第一帧样本图像作为目标样本图像，处理第二帧音频帧，选择第一帧样本图像作为目标样本图像，以此遵循音频中音频帧的处理顺序)选择一帧样本图像作为目标样本图像，如此可以保证最终生成的数字人视频中数字人姿态的连续性，与样本视频中的头部姿态是一样的。
150.此外，对于第一人脸姿态参数以及第一背景轮廓线的提取，可以参考市面上比较成熟的技术，本发明实施例在此不再一一赘述。需要强调的是，第一背景轮廓线指的是目标样本图像中背景(除人脸之外的区域)关键点对应的轮廓线。
151.s103，利用预设人脸3d模型，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3d网格进行处理，生成第一人脸3d网格。
152.在本发明实施例中，对于音频中任一音频帧提取的对应的音频特征、第一平均人
脸3d网格以及目标样本图像的第一人脸姿态参数，利用预设人脸3d模型进行处理，可以生成相应的第一人脸3d网格。
153.例如，对于用户a的音频中第一帧音频帧，利用预设人脸3d模型，对第一帧音频帧对应的音频特征、第一平均人脸3d网格以及目标样本图像的第一人脸姿态参数进行处理，生成相应的第一人脸3d网格；
154.对于用户a的音频中第二帧音频帧，利用预设人脸3d模型，对第二帧音频帧对应的音频特征、第一平均人脸3d网格以及目标样本图像的第一人脸姿态参数进行处理，生成相应的第一人脸3d网格；
155.对于用户a的音频中其他音频帧，与上述处理类似，如此均可以得到各自对应的第一人脸3d网格，即第一平均人脸3d网格以及目标样本图像的第一人脸姿态参数参与对每帧音频帧的处理，如下表1所示。
[0156][0157]
表1
[0158]
其中，针对音频中任一音频帧，对该音频帧对应的音频特征以及第一平均人脸3d网格进行处理，生成第一中间人脸3d网格，将第一中间人脸3d网格与第一人脸姿态参数输入至预设人脸3d模型，获取预设人脸3d模型输出的该音频帧对应的第一人脸3d网格。
[0159]
例如，对于用户a的音频中第一帧音频帧，对第一帧音频帧对应的音频特征以及第一平均人脸3d网格进行处理，生成第一中间人脸3d网格，将第一中间人脸3d网格与第一人脸姿态参数输入至flame模型，获取flame模型输出的第一帧音频帧对应的第一人脸3d网格；
[0160]
对于用户a的音频中第二帧音频帧，对第二帧音频帧对应的音频特征以及第一平均人脸3d网格进行处理，生成第一中间人脸3d网格，将第一中间人脸3d网格与第一人脸姿态参数输入至flame模型，获取flame模型输出的第二帧音频帧对应的第一人脸3d网格；
[0161]
对于用户a的音频中其他音频帧，与上述处理类似，如此均可以得到各自对应的第一人脸3d网格，即每帧音频帧均存在对应的第一人脸3d网格，也就意味着第一平均人脸3d网格以及目标样本图像的第一人脸姿态参数参与对每帧音频帧的处理，如上述表1所示。
[0162]
需要说明的是，对于第一中间人脸3d网格，其中不携带角度，而对于第一人脸3d网格，其中携带角度，这里的角度指的是抬头、仰头，摇头等头部姿态，本发明实施例对此不作
限定。此外，这里的预设人脸3d模型可以是flame模型，当然也可以是3dmm/deep3dfacereconstruction/deca，本发明实施例对此不作限定。
[0163]
在本发明实施例中，在对每帧音频帧处理的过程中，如图2所示，具体可以通过以下方式得到每帧音频帧对应的第一中间人脸3d网格：
[0164]
s201，将所述音频帧对应的所述音频特征输入至预设神经网格模型，获取所述预设神经网格模型输出的所述音频帧对应的第一声音隐藏变量。
[0165]
在本发明实施例中，针对音频中任一音频帧，将该音频帧对应的音频特征输入至预设神经网格模型，获取预设神经网格模型输出的该音频帧对应的第一声音隐藏变量。
[0166]
例如，以用户a的音频中第一帧音频帧为例，将第一帧音频帧对应的音频特征输入至cnn，经过cnn卷积后产生对应的第一声音隐藏变量w1，获取cnn输出的第一帧音频帧对应的第一声音隐藏变量w1。
[0167]
需要说明的是，对于预设神经网格模型，例如可以是cnn，当然也可以是rnn，本发明实施例对此不作限定。
[0168]
s202，将所述第一平均人脸3d网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第一图像隐藏变量。
[0169]
对于第一平均人脸3d网格，将该第一平均人脸3d网格输入至预设神经网格模型，获取预设神经网格模型输出的第一图像隐藏变量。
[0170]
例如，将该第一平均人脸3d网格输入至cnn，经cnn卷积后产生对应的第一图像隐藏变量t1，获取cnn输出的第一图像隐藏变量t1。
[0171]
s203，按照通道合成的方式将所述音频帧对应的所述第一声音隐藏变量与所述第一图像隐藏变量进行合成，得到第一合成变量。
[0172]
对于音频中任一音频帧对应的第一声音隐藏变量，按照通道合成的方式将该音频帧对应的所述第一声音隐藏变量与第一图像隐藏变量进行合成，得到该音频帧对应的第一合成变量。
[0173]
例如，以用户a的音频中第一帧音频帧对应的第一声音隐藏变量w1为例，将第一帧音频帧对应的第一声音隐藏变量w1与第一图像隐藏变量t1，按照通道合成，得到第一帧音频帧对应的第一合成变量(w1 t1)。
[0174]
需要说明的是，假设第一声音隐藏变量w1具有5个通道，而第一图像隐藏变量t1同样具有5个通道，则按照通道合成的方式，将第一声音隐藏变量w1与第一图像隐藏变量t1进行合成变成10个通道，即w1 t1。
[0175]
s204，将所述第一合成变量输入至预设解码器，获取所述预设解码器输出的所述音频帧对应的第一中间人脸3d网格。
[0176]
如此经过上述步骤，对于音频中任一音频帧，均可以得到各自对应的第一合成变量，从而对于音频中任一音频帧对应的第一合成变量，可以将该音频帧对应的第一合成变量输入至预设解码器，获取预设解码器输出的该音频帧对应的第一中间人脸3d网格。
[0177]
例如，以用户a的音频中第一帧音频帧对应的第一合成变量(w1 t1)为例，将该第一帧音频帧对应的第一合成变量(w1 t1)输入至decoder进行处理，获取decoder最终输出的第一帧音频帧对应的第一中间人脸3d网格(不携带角度)。
[0178]
s104，利用预设视频生成模型，对所述第一人脸3d网格以及所述第一背景轮廓线
进行处理，生成数字人视频。
[0179]
如此经过上述步骤，对于音频中任一音频帧，均存在各自对应的第一人脸3d网格，利用预设视频生成模型，对该音频帧对应的第一人脸3d网格以及第一背景轮廓线进行处理，生成数字人视频。
[0180]
例如，如上述表1所示，对于用户a的音频中任一音频帧，均存在各自对应的第一人脸3d网格，利用gan，对该音频帧对应的第一人脸3d网格以及第一背景轮廓线进行处理，生成数字人视频，如图3所示。
[0181]
其中，对于音频中任一音频帧，按照通道合成的方式，将该音频帧对应的第一人脸3d网格与第一背景轮廓线进行合成，得到该音频帧对应的第一合成图像；
[0182]
将该音频帧对应的第一合成图像输入至预设视频生成模型，获取预设视频生成模型输出的该音频帧对应的数字人图像，如此对于音频中任一音频帧，均存在各自对应的数字人图像；
[0183]
对于音频中任一音频帧各自对应的数字人图像，按照音频的时间序列，对音频中任一音频帧各自对应的数字人图像进行组合，最终可以生成数字人视频。
[0184]
例如，对于用户a的音频中第一帧音频帧，按照通道合成的方式，将第一帧音频帧对应的第一人脸3d网格与第一背景轮廓线进行合成，得到第一帧音频帧对应的第一合成图像；
[0185]
将第一帧音频帧对应的第一合成图像输入至gan，获取gan输出的第一帧音频帧对应的数字人图像；对于用户a的音频中其他音频帧，与上述处理类型，如此均可以得到各音频帧各自对应的数字人图像；
[0186]
对于用户a的音频中各音频帧各自对应的数字人图像，按照用户a的音频的时间序列，将用户a的音频中各音频帧各自对应的数字人图像进行组合，最终可以生成数字人视频。
[0187]
需要说明的是，对于预设视频生成模型，在本发明实施例中具体可以是gan，当然还可以是其他类型的预设视频生成模型，也可以是transformer或者vae等网络，本发明实施例对此不作限定。
[0188]
通过上述对本发明实施例提供的技术方案的描述，获取目标人物的音频，针对音频中任一音频帧，提取音频帧对应的音频特征，以及获取第一平均人脸3d网格，确定目标人物的样本视频，提取样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线，利用预设人脸3d模型，对音频特征、第一人脸姿态参数以及第一平均人脸3d网格进行处理，生成第一人脸3d网格，利用预设视频生成模型，对第一人脸3d网格以及第一背景轮廓线进行处理，生成数字人视频。
[0189]
如此基于目标人物的音频，生成相应的第一人脸3d网格，进而基于第一人脸3d网格，生成数字人视频，其中引入了第一平均人脸3d网格、目标样本图像的第一人脸姿态参数以及第一背景轮廓线，最终生成的数字人视频中数字人姿态自然、准确。此外，在本发明实施例中采用flame模型，可以使最终生成的数字人视频中数字人姿态进一步自然、准确。
[0190]
此外，在执行如图1所示的数字人视频生成方法之前，本发明实施例还需要预先进行模型训练，如图4所示，为本发明实施例提供的一种模型训练的实施流程示意图，应用于处理器，具体可以包括以下步骤：
[0191]
s401，获取目标人物的样本视频，其中，所述样本视频中样本图像与所述样本视频中样本音频的样本音频帧一一对应。
[0192]
在模型训练阶段，可以准备目标人物的样本视频，其中，目标人物的样本视频包括多帧样本图像以及样本音频，即包括目标人物的多帧样本图像以及样本音频，这里样本图像与样本音频的样本音频帧一一对应。
[0193]
基于此，获取目标人物的样本视频，参与模型的训练。例如，获取用户a的样本视频，参与模型的训练，其中，用户a的样本视频包括多帧样本图像以及样本音频，这里样本图像与样本音频的样本音频帧一一对应。
[0194]
s402，针对所述样本音频中任一所述样本音频帧，提取所述样本音频帧对应的样本音频特征，并获取第二平均人脸3d网格。
[0195]
在本发明实施例中，对于样本音频，包括多帧样本音频帧，针对样本音频中任一样本音频帧，提取该样本音频帧对应的样本音频特征，以及相应的获取第二平均人脸3d网格。
[0196]
例如，对于样本音频，存在10帧样本音频帧，针对样本音频中任一样本音频帧，提取该样本音频帧对应的样本音频特征，以及相应的获取第二平均人脸3d网格。
[0197]
其中，对于样本音频特征的提取，可以使用傅立叶变换，即针对该样本音频中任一样本音频帧，利用傅里叶变换提取mel频率倒谱系数(即mfcc)作为该样本音频帧对应的样本音频特征。
[0198]
或者，
[0199]
对于样本音频特征的提取，可以使用其他预设语音识别模型，例如deepspeech/asr/wav2vector等模型，即针对样本音频中任一样本音频帧，利用预设语音识别模型提取该样本音频帧对应的样本音频特征。
[0200]
对于第二平均人脸3d网格，目前市面上存在一些开源的第二平均人脸3d网格，由此可以组成第二平均人脸3d网格集，进而在对样本音频中任一样本音频帧进行处理的过程中，获取第二平均人脸3d网格集，获取第二平均人脸3d网格集中的任一第二平均人脸3d网格。
[0201]
或者，
[0202]
在对样本音频中任一样本音频帧进行处理的过程中，对于样本视频中与该样本音频帧对应的样本图像，将该样本图像输入至预设3d模型，这里预设3d模型可以是开源的3d模型(例如deep3dfacereconstruction/deca/3dmm等3d人脸重建模型)，获取该预设3d模型输出的第二3d人脸重建信息，提取第二3d人脸重建信息中的第二人脸姿态参数和第二人脸表情参数，就可以当作平均人脸，即确定第二人脸姿态参数和第二人脸表情参数为第二平均人脸3d网格。
[0203]
s403，提取与所述样本音频帧对应的所述样本图像中的第二人脸姿态参数以及第二背景轮廓线。
[0204]
在本发明实施例中，针对样本音频中任一样本音频帧，提取该样本音频帧对应的样本音频特征，并获取第二平均人脸3d网格，除此之外，提取与该样本音频帧对应的样本图像中的第二人脸姿态参数以及第二背景轮廓线。
[0205]
例如，以样本音频中第一帧样本音频帧为例，提取第一帧样本音频帧对应的样本音频特征，并获取第二平均人脸3d网格，除此之外，提取与该第一帧样本音频帧对应的第一
帧样本图像中的第二人脸姿态参数以及第二背景轮廓线。
[0206]
需要说明的是，对于样本视频，包括多帧样本图像，在对样本音频中任一样本音频帧处理的过程中，提取与该样本音频帧对应的样本图像中的第二人脸姿态参数以及第二背景轮廓线，本发明实施例对此不作限定。
[0207]
此外，对于第二人脸姿态参数以及第二背景轮廓线的提取，可以参考市面上比较成熟的技术，本发明实施例在此不再一一赘述。需要强调的是，第二背景轮廓线指的是与该样本音频帧对应的样本图像中背景(除人脸之外的区域)关键点对应的轮廓线。
[0208]
s404，利用预设人脸3d模型，对所述样本音频特征、所述第二人脸姿态参数以及所述第二平均人脸3d网格进行处理，生成第二人脸3d网格。
[0209]
在本发明实施例中，对于样本音频中任一样本音频帧对应的样本音频特征、第二人脸姿态参数以及第二平均人脸3d网格，利用预设人脸3d模型进行处理，可以生成相应的第二人脸3d网格。
[0210]
例如，对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中第一帧样本音频帧，利用预设人脸3d模型，对第一帧样本音频帧对应的样本音频特征、第二平均人脸3d网格以及第一帧样本音频帧对应的样本图像中的第二人脸姿态参数进行处理，生成相应的第二人脸3d网格；
[0211]
对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中第二帧样本音频帧，利用预设人脸3d模型，对第二帧样本音频帧对应的样本音频特征、第二平均人脸3d网格以及第二帧样本音频帧对应的样本图像中的第二人脸姿态参数进行处理，生成相应的第二人脸3d网格；
[0212]
对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中其他样本音频帧，与上述处理类似，如此均可以得到各自对应的第二人脸3d网格，即第二平均人脸3d网格以及第i帧样本音频帧对应的样本图像的第二人脸姿态参数，参与对第i帧样本音频帧的处理，如下表2所示。
[0213][0214]
表2
[0215]
其中，针对样本音频中任一样本音频帧，对该样本音频帧对应的样本音频特征以及第二平均人脸3d网格进行处理，生成第二中间人脸3d网格，将第二中间人脸3d网格与(该样本音频帧对应的样本图像中的)第二人脸姿态参数输入至预设人脸3d模型，获取预设人脸3d模型输出的该样本音频帧对应的第二人脸3d网格。
[0216]
例如，对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中第一帧样本音频帧，对第一帧样本音频帧对应的样本音频特征、第二平均人脸3d网格进行处理，生成相应的第二中间人脸3d网格，将第二中间人脸3d网格与(第一帧样本音频帧对应的样本图像中的)第二人脸姿态参数输入至flame模型，获取flame模型输出的第一帧样本音频帧对应的第二人脸3d网格；
[0217]
对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中第二帧样本音频帧，对第二帧样本音频帧对应的样本音频特征、第二平均人脸3d网格进行处理，生成相应的第二中间人脸3d网格，将第二中间人脸3d网格与(第二帧样本音频帧对应的样本图像中的)第二人脸姿态参数输入至flame模型，获取flame模型输出的第二帧样本音频帧对应的第二人脸3d网格；
[0218]
对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中其他样本音频帧，与上述处理类似，如此均可以得到各自对应的第二人脸3d网格，即第二平均人脸3d网格以及第i帧样本音频帧对应的样本图像的第二人脸姿态参数，参与对第i帧样本音频帧的处理，如上述表2所示。
[0219]
需要说明的是，对于第二中间人脸3d网格，其中不携带角度，而对于第二人脸3d网格，其中携带角度，这里的角度指的是抬头、仰头，摇头等头部姿态，本发明实施例对此不作限定。此外，这里的预设人脸3d模型可以是flame模型，当然也可以是3dmm/deep3dfacereconstruction/deca，本发明实施例对此不作限定。
[0220]
在本发明实施例中，在对每帧样本音频帧处理的过程中，如图5所示，具体可以通过以下方式得到每帧样本音频帧对应的第二中间人脸3d网格：
[0221]
s501，将所述样本音频帧对应的所述样本音频特征输入至预设神经网格模型，获取所述预设神经网格模型输出的所述样本音频帧对应的第二声音隐藏变量。
[0222]
在本发明实施例中，针对样本音频中任一样本音频帧，将该样本音频帧对应的样本音频特征输入至预设神经网格模型，获取预设神经网格模型输出的该样本音频帧对应的第二声音隐藏变量。
[0223]
例如，以用户a的样本音频(即用户a的样本视频中包括的样本音频)中第一帧样本音频帧为例，将第一帧样本音频帧对应的样本音频特征输入至cnn，经过cnn卷积后产生对应的第二声音隐藏变量w1，获取cnn输出的第一帧样本音频帧对应的第二声音隐藏变量w1。
[0224]
需要说明的是，对于预设神经网格模型，例如可以是cnn，当然也可以是rnn等其它神经网格模型，本发明实施例对此不作限定。
[0225]
s502，将所述第二平均人脸3d网格输入至所述预设神经网格模型，获取所述预设神经网格模型输出的第二图像隐藏变量。
[0226]
对于第二平均人脸3d网格，将该第二平均人脸3d网格输入至预设神经网格模型，获取预设神经网格模型输出的第二图像隐藏变量。
[0227]
例如，将该第二平均人脸3d网格输入至cnn，经cnn卷积后产生对应的第二图像隐藏变量t1，获取cnn输出的第二图像隐藏变量t1。
[0228]
s503，按照通道合成的方式将所述样本音频帧对应的所述第二声音隐藏变量与所述第二图像隐藏变量进行合成，得到第二合成变量。
[0229]
对于样本音频中任一样本音频帧对应的第二声音隐藏变量，按照通道合成的方式将该样本音频帧对应的第二声音隐藏变量与第二图像隐藏变量进行合成，得到该样本音频帧对应的第二合成变量。
[0230]
例如，以用户a的样本音频(即用户a的样本视频中包括的样本音频)中第一帧样本音频帧对应的第二声音隐藏变量w1为例，将第一帧样本音频帧对应的第二声音隐藏变量w1与第二图像隐藏变量t1，按照通道合成，得到第一帧样本音频帧对应的第二合成变量(w1 t1)。
[0231]
需要说明的是，假设第二声音隐藏变量w1具有5个通道，而第二图像隐藏变量t1同样具有5个通道，则按照通道合成的方式，将第二声音隐藏变量w1与第二图像隐藏变量t1进行合成变成10个通道，即w1 t1。
[0232]
s504，将所述第二合成变量输入至预设解码器，获取所述预设解码器输出的所述样本音频帧对应的第二中间人脸3d网格。
[0233]
如此经过上述步骤，对于样本音频中任一样本音频帧，均可以得到各自对应的第二合成变量，从而对于样本音频中任一样本音频帧对应的第二合成变量，可以将该样本音频帧对应的第二合成变量输入至预设解码器，获取预设解码器输出的该样本音频帧对应的第二中间人脸3d网格。
[0234]
例如，以用户a的样本音频(即用户a的样本视频中包括的样本音频)中第一帧样本音频帧对应的第二合成变量(w1 t1)为例，将该第一帧样本音频帧对应的第二合成变量(w1 t1)输入至decoder进行处理，获取decoder最终输出的第一帧样本音频帧对应的第二中间
人脸3d网格(不携带角度)。
[0235]
s405，利用预设视频生成模型，对所述第二人脸3d网格以及所述第二背景轮廓线进行处理，生成数字人样本视频。
[0236]
如此经过上述步骤，对于样本音频中任一样本音频帧，均存在各自对应的第二人脸3d网格，利用预设视频生成模型，对该样本音频帧对应的第二人脸3d网格以及第二背景轮廓线进行处理，生成数字人样本视频。
[0237]
例如，如上述表2所示，对于用户a的样本音频中任一样本音频帧，均存在各自对应的第二人脸3d网格，利用gan，对该样本音频帧对应的第二人脸3d网格以及第二背景轮廓线进行处理，生成数字人样本视频。
[0238]
其中，对于样本音频中任一样本音频帧，按照通道合成的方式，将该样本音频帧对应的第二人脸3d网格与第二背景轮廓线进行合成，得到该样本音频帧对应的第二合成图像；
[0239]
将该样本音频帧对应的第二合成图像输入至预设视频生成模型，获取预设视频生成模型输出的该样本音频帧对应的数字人样本图像，如此对于各样本音频帧均存在各自对应的数字人样本图像；
[0240]
对于各样本音频帧均存在各自对应的数字人样本图像，按照样本音频的时间序列，对各样本音频帧均存在各自对应的数字人样本图像进行组合，可以得到最终的数字人样本视频。
[0241]
例如，对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中第一帧样本音频帧，按照通道合成的方式，将该第一帧样本音频帧对应的第二人脸3d网格与第二背景轮廓线进行合成，得到第一帧样本音频帧对应的第二合成图像；
[0242]
将第一帧样本音频帧对应的第二合成图像输入至gan，获取gan输出的第一帧样本音频帧对应的第二人脸3d网格；对于用户a的样本音频中(即用户a的样本视频中包括的样本音频)其他样本音频帧，与上述处理类似，如此均可以得到各样本音频帧各自对应的数字人样本图像；
[0243]
对于用户a的样本音频(即用户a的样本视频中包括的样本音频)中各样本音频帧各自对应的数字人样本图像，按照用户a的样本音频的时间序列，将用户a的样本音频(即用户a的样本视频中包括的样本音频)中各样本音频帧各自对应的数字人样本图像进行组合，最终可以生成数字人样本视频。
[0244]
需要说明的是，对于预设视频生成模型，在本发明实施例中具体可以是gan，当然还可以是其他类型的预设视频生成模型，本发明实施例对此不作限定。
[0245]
此外，可以重复执行上述步骤s301～s305，直至模型训练满足模型训练的终止条件，例如损失函数收敛，或者数字人样本视频与样本视频高度相似，本发明实施例对此不作限定。
[0246]
与上述方法实施例相对应，本发明实施例还提供了一种数字人视频生成装置，如图6所示，该装置可以包括：音频获取模块610、参数、轮廓线提取模块620、网格生成模块630、视频生成模块640。
[0247]
音频获取模块610，用于获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3d网格；
[0248]
参数、轮廓线提取模块620，用于确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；
[0249]
网格生成模块630，用于利用预设人脸3d模型，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3d网格进行处理，生成第一人脸3d网格；
[0250]
视频生成模块640，用于利用预设视频生成模型，对所述第一人脸3d网格以及所述第一背景轮廓线进行处理，生成数字人视频。
[0251]
本发明实施例还提供了一种电子设备，如图7所示，包括处理器71、通信接口72、存储器73和通信总线74，其中，处理器71，通信接口72，存储器73通过通信总线74完成相互间的通信，
[0252]
存储器73，用于存放计算机程序；
[0253]
处理器71，用于执行存储器73上所存放的程序时，实现如下步骤：
[0254]
获取目标人物的音频，针对所述音频中任一音频帧，提取所述音频帧对应的音频特征，以及获取第一平均人脸3d网格；确定所述目标人物的样本视频，提取所述样本视频中目标样本图像的第一人脸姿态参数以及第一背景轮廓线；利用预设人脸3d模型，对所述音频特征、所述第一人脸姿态参数以及所述第一平均人脸3d网格进行处理，生成第一人脸3d网格；利用预设视频生成模型，对所述第一人脸3d网格以及所述第一背景轮廓线进行处理，生成数字人视频。
[0255]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0256]
通信接口用于上述电子设备与其他设备之间的通信。
[0257]
存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non
‑
volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0258]
上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0259]
在本发明提供的又一实施例中，还提供了一种存储介质，该存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数字人视频生成方法。
[0260]
在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的数字人视频生成方法。
[0261]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0262]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0263]
本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0264]
以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息展示方法、信息处理方法及装置与流程

数字人视频生成方法、装置、电子设备及存储介质与流程

相关文献

最热文献