一种数字人视频生成方法、装置及电子设备与流程

2022-02-19 04:01:21 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种数字人视频生成方法、装置及电子设备。

背景技术：

2.虚拟数字人,是存在于数字世界的“人”，是通过对动作捕捉、三维建模、语音合成等技术，在数字世界高度还原真实人类，再展示出来的立体“人”。
3.若数字人视频生成技术需要实现实时交互，至少需要满足两点，生成效果好和推理速度快；效果好是必要的前提，速度快是商业的需要。
4.目前，出现了基于声音推理生成数字人图片的方案，其主要是通过声音推理模型，采用声音推理生成关键点，然而，基于声音推理生成的关键点生成的数字人姿态一般不自然，效果不好。

技术实现要素：

5.为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种数字人视频生成方法、装置及电子设备。
6.第一方面，本技术提供了一种数字人视频生成方法，包括：
7.获取包含第一对象的第一视频及包含第二对象的目标图像；
8.在所述第一视频内的图像帧中提取所述第一对象的表情参数；
9.在所述目标图像中提取所述第二对象的第一3d人脸重建参数及所述第二对象的背景轮廓线，所述第一3d人脸重建参数包括人脸姿态信息；
10.利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
11.基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频。
12.可选地，所述利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格，包括：
13.在所述表情参数中提取与预设的目标重建区域关联的局部表情参数，所述目标重建区域为所述第二对象的人脸中待重建的区域；
14.在所述第一3d人脸重建参数中查找与所述目标重建区域关联的局部人脸参数；
15.将所述局部人脸参数替换为所述局部表情参数，得到第二3d人脸重建参数；
16.将所述第二3d人脸重建参数输入所述预设第一3d人脸生成模型，以使所述预设第一3d人脸生成模型输出包含所述人脸姿态信息的3d人脸网格。
17.可选地，所述在所述表情参数中提取与预设的目标重建区域关联的局部表情参数，包括：
18.若所述目标重建区域为嘴部区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述嘴部区域对应的局部表情参数；
19.或者，若所述目标重建区域为完整人脸区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述完整人脸区域对应的局部表情参数。
20.可选地，所述将所述局部人脸参数替换为所述局部表情参数，得到第二3d人脸重建参数，包括：
21.若提取到一个局部人脸参数和一个局部表情参数，直接利用所述局部表情参数替换掉所述局部人脸参数；
22.或者，若提取到多个局部人脸参数和多个局部表情参数，对于对应相同部位标识的局部人脸参数和局部人脸参数，利用所述局部表情参数替换掉所述局部人脸参数。
23.可选地，所述在所述第一视频内的图像帧中提取所述第一对象的表情参数，包括：
24.将所述第一视频的图像帧中的人脸图像的关键点输入预设第二3d人脸生成模型，得到所述第一对象的表情参数；
25.或者，在所述第一视频的图像帧中的人脸图像的人脸mesh输入预设第一3d人脸重建模型，得到所述第一对象的表情参数。
26.可选地，所述在所述目标图像中提取所述第二对象的第一3d人脸重建参数，包括：
27.将所述目标图像输入预设第二3d人脸重建模型，得到第二人脸mesh；
28.获取所述第二人脸mesh的mesh信息或者获取所述第二人脸mesh中各人脸关键点的关键点信息；
29.基于所述mesh信息或者所述关键点信息，确定所述第一3d人脸重建参数。
30.可选地，所述基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频，包括：
31.将所述3d人脸网格和所述背景轮廓线输入所述预设数字人生成模型，得到数字人图片；
32.按照各图像帧在所述第一视频中的排列顺序，将基于各所述图像帧得到的数字人图片进行排序，得到数字人视频。
33.可选地，所述获取包含第一对象的第一视频及包含第二对象的目标图像之前，所述方法还包括：
34.获取多组包含第一训练对象的第一训练视频、包含第二训练对象的训练图像和数字人标签图片；
35.在所述第一训练视频内的图像帧中提取所述第一训练对象的表情参数；
36.在所述训练图像中提取所述第二训练对象的训练3d人脸重建参数及所述第二对象的背景轮廓线，所述训练3d人脸重建参数包括人脸姿态信息；
37.利用所述表情参数、所述训练3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
38.利用所述3d人脸网格和所述背景轮廓线对初始生成对抗网络模型进行训练，直至所述初始生成对抗网络模型输出的数字人图片与所述数字人标签图片之间的相似度超过预设阈值，得到所述数字人生成模型。
39.第二方面，本技术提供了一种数字人视频生成装置，包括：
40.第一获取模块，用于获取包含第一对象的第一视频及包含第二对象的目标图像，所述目标图像中包含所述第二对象的人脸姿态信息；
41.第一提取模块，用于在所述第一视频内的图像帧中提取所述第一对象的表情参数；
42.第二提取模块，用于在所述目标图像中提取所述第二对象的第一3d人脸重建参数及所述第二对象的背景轮廓线，所述第一3d人脸重建参数包括人脸姿态信息；
43.第一生成模块，用于利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
44.第二生成模块，用于基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频。
45.可选地，所述第一生成模块，包括：
46.提取单元，用于在所述表情参数中提取与预设的目标重建区域关联的局部表情参数，所述目标重建区域为所述第二对象的人脸中待重建的区域；
47.查找单元，用于在所述第一3d人脸重建参数中查找与所述目标重建区域关联的局部人脸参数；
48.替换单元，用于将所述局部人脸参数替换为所述局部表情参数，得到第二3d人脸重建参数；
49.第一输入单元，用于将所述第二3d人脸重建参数输入所述预设第一3d人脸生成模型，以使所述预设第一3d人脸生成模型输出包含所述人脸姿态信息的3d人脸网格。
50.可选地，所述提取单元，还用于：
51.若所述目标重建区域为嘴部区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述嘴部区域对应的局部表情参数；
52.或者，若所述目标重建区域为完整人脸区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述完整人脸区域对应的局部表情参数。
53.可选地，所述替换单元，还用于：
54.若提取到一个局部人脸参数和一个局部表情参数，直接利用所述局部表情参数替换掉所述局部人脸参数；
55.或者，若提取到多个局部人脸参数和多个局部表情参数，对于对应相同部位标识的局部人脸参数和局部人脸参数，利用所述局部表情参数替换掉所述局部人脸参数。
56.可选地，所述第一提取模块，还用于：
57.将所述第一视频的图像帧中的人脸图像的关键点输入预设第二3d人脸生成模型，得到所述第一对象的表情参数；
58.或者，在所述第一视频的图像帧中的人脸图像的人脸mesh输入预设第一3d人脸重建模型，得到所述第一对象的表情参数。
59.可选地，所述第二提取模块，包括：
60.第二输入单元，用于将所述目标图像输入预设第二3d人脸重建模型，得到第二人脸mesh；
61.获取单元，用于获取所述第二人脸mesh的mesh信息或者获取所述第二人脸mesh中各人脸关键点的关键点信息；
62.确定单元，用于基于所述mesh信息或者所述关键点信息，确定所述第一3d人脸重建参数。
63.可选地，所述第二生成模块，包括：
64.第三输入单元，用于将所述3d人脸网格和所述背景轮廓线输入所述预设数字人生成模型，得到数字人图片；
65.排序单元，用于按照各图像帧在所述第一视频中的排列顺序，将基于各所述图像帧得到的数字人图片进行排序，得到数字人视频。
66.可选地，所述第一获取模块之前，所述装置还包括：
67.第二获取模块，用于获取多组包含第一训练对象的第一训练视频、包含第二训练对象的训练图像和数字人标签图片；
68.第三提取模块，用于在所述第一训练视频内的图像帧中提取所述第一训练对象的表情参数；
69.第四提取模块，用于在所述训练图像中提取所述第二训练对象的训练3d人脸重建参数及所述第二对象的背景轮廓线，所述训练3d人脸重建参数包括人脸姿态信息；
70.第三生成模块，用于利用所述表情参数、所述训练3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
71.第四生成模块，用于利用所述3d人脸网格和所述背景轮廓线对初始生成对抗网络模型进行训练，直至所述初始生成对抗网络模型输出的数字人图片与所述数字人标签图片之间的相似度超过预设阈值，得到所述数字人生成模型。
72.第三方面，本技术提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
73.存储器，用于存放计算机程序；
74.处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的数字人视频生成方法。
75.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：
76.本发明实施例通过利用第一视频中第一对象的表情参数与目标图像中的第一3d人脸重建参数结合，生成3d人脸网格，由于目标图像中包含第二对象的人脸姿态信息，使得生成的3d人脸网格中，考虑了第二对象的人脸姿态信息，最后，基于3d人脸网格及背景轮廓线生成数字人视频，使得生成的3d人脸网格考虑到了人脸姿态信息，使得数字人的表情更加生动自然。
附图说明
77.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
78.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
79.图1为本技术实施例提供的一种数字人视频生成方法的流程图；
80.图2为本技术实施例提供的一种数字人生成装置的结构图；
81.图3为本技术实施例提供的一种电子设备的结构图。
具体实施方式
82.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
83.目前，出现了基于声音推理生成数字人图片的方案，其主要是通过声音推理模型，采用声音推理生成关键点，然而，基于声音推理生成的关键点生成的数字人姿态一般不自然，效果不好。为此，本技术实施例提供了一种数字人视频生成方法，所述数字人视频生成方法可以应用于计算机中。
84.如图1所示，所述数字人视频生成方法可以包括以下步骤：
85.步骤s101，获取包含第一对象的第一视频及包含第二对象的目标图像；
86.本发明实施例中，第一视频可以是实时对第一对象进行录制的视频，或者非实时(即提前录制好)的视频，第一对象可以为真人，目标图像可以为包含第二对象的图像，第二对象可以是预先创建的虚拟人物，如：大头儿子或者黑猫警长等等。
87.步骤s102，在所述第一视频内的图像帧中提取所述第一对象的表情参数；
88.本发明实施例中，第一视频内包括多个图像帧，示例性的，可以按照每秒钟25帧的帧率在第一视频中提取图像帧，表情参数可以包括嘴部张合参数等，嘴部张合参数的标识可以为blendshapes(混合形状)。
89.在该步骤中，将所述第一视频的图像帧中的人脸图像的关键点输入预设第二3d人脸生成模型，得到所述第一对象的表情参数；或者，在所述第一视频的图像帧中的人脸图像的人脸图片输入预设第一3d人脸重建模型，得到所述第一对象的表情参数。
90.可以首先在第一视频内提取多个图像帧，将每个提取的图像帧中检测人脸，得到人脸图像，在人脸图像中检测多个人脸关键点，将多个人脸关键点输入3d人脸生成模型或者3d人脸重建模型中，3dmm模型将人脸关键点转换为表情参数，例如，图片经过3d人脸重建模型(deep3dfacereconstruction)，提取表情参数；又如，图片经过3d人脸生成模型(deca)，提取表情参数。
91.步骤s103，在所述目标图像中提取所述第二对象的第一3d人脸重建参数及所述第二对象的背景轮廓线。
92.本发明实施例中，所述第一3d人脸重建参数可以指3dmm(人脸3d形变统计模型)参数，3dmm参数中包括人脸姿态信息、反射参数、人脸形状、光照参数和转换参数等，第二对象的背景轮廓线可以包括：衣服的轮廓线或者头发的轮廓线等；
93.由于目标图像是包含第二对象的图片，而第二对象在目标图像中可能会呈现不同的人脸姿态(pose)，如：不同的偏航角、不同的俯仰角及不同的滚转角等，不同的人脸姿态下，如果使用同样的参数控制表情会使表情不真实自然，所以，本发明实施例需要在目标图像中提取人脸姿态信息。
94.在该步骤中，可以将所述目标图像输入预设第二3d人脸重建模型(如：3dmm/deep3dfacereconstruction/deca模型等)，得到第二人脸mesh，获取所述第二人脸mesh的mesh信息或者获取所述第二人脸mesh中各人脸关键点的关键点信息，基于所述mesh信息或者所述关键点信息，确定所述第一3d人脸重建参数。
95.步骤s104，利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
96.本发明实施例中，3d人脸网格可以指3d人脸mesh。
97.由于第一视频中第一对象的表情参数更加自然，而目标图像中第二对象的形象为虚拟形象，为了让虚拟形象的表情能够按照第一对象的表情参数一样生动自然的动起来，在该步骤中，可以将表情参数与第一3d人脸重建参数中相应的表情参数结合，然后再将结合后的人脸重建参数输入第一3d人脸生成模型，生成3d人脸网格，该3d人脸网格中包含第一对象的人脸姿态信息。
98.步骤s105，基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频。
99.本发明实施例中，可以结合3d人脸网格及背景轮廓线，利用预设数字人生成模型生成数字人视频。
100.本发明实施例通过利用第一视频中第一对象的表情参数与目标图像中的第一3d人脸重建参数结合，生成3d人脸网格，由于目标图像中包含第二对象的人脸姿态信息，使得生成的3d人脸网格中，考虑了第二对象的人脸姿态信息，最后，基于3d人脸网格及背景轮廓线生成数字人视频，使得生成的3d人脸网格考虑到了人脸姿态信息，使得数字人的表情更加生动自然。
101.在本发明的又一实施例中，步骤s104，利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格，包括：
102.步骤201，在所述表情参数中提取与预设的目标重建区域关联的局部表情参数；
103.在本发明实施例中，所述目标重建区域为所述第二对象的人脸中待重建的区域，例如，目标重建区域可以为第二对象的嘴部区域，或者，目标重建区域还可以为第二对象的人脸区域，用户可以预先配置需要重建的区域，得到目标重建区域；
104.为了提高提取效率，可以预先设置重建区域与局部表情参数之间的关联关系，例如，重建区域与局部表情参数之间的关联关系可以如下表1所示：
105.表1
[0106][0107]
这样，可以在确定目标重建区域后，按照目标重建区域在重建区域与局部表情参数之间的关联关系，在表情参数中提取与目标重建区域对应的局部表情参数。
[0108]
在该步骤中，若所述目标重建区域为嘴部区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述嘴部区域对应的局部表情参数；或者，若所述目标重建区域为完整人脸区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述完
整人脸区域对应的局部表情参数。
[0109]
步骤202，在所述第一3d人脸重建参数中查找与所述目标重建区域关联的局部人脸参数；
[0110]
本发明实施例中，为了提高查找效率，还可以预先设置重建区域与局部人脸参数之间的对应关系，重建区域与局部人脸参数之间的对应关系可以如下表2所示：
[0111]
表2
[0112][0113]
这样，可以在确定目标重建区域后，按照重建区域与局部人脸参数之间的对应关系，在第一3d人脸重建参数中查找与目标重建区域对应的局部人脸参数。
[0114]
步骤203，将所述局部人脸参数替换为所述局部表情参数，得到第二3d人脸重建参数；
[0115]
由于第一视频中的第一对象是真人，表情姿态更自然，目标图像中的第二对象是虚拟人物，表情姿态不自然，所以，可以在第一对象的表情参数中提取局部表情参数，在第一3d人脸重建参数中提取局部人脸参数，在该步骤中，利用局部表情参数替换掉局部人脸参数，第一3d人脸重建参数中除局部人脸参数的其他参数仍然保留(如：人脸姿态信息)，使得第二3d人脸重建参数中包含能够使数字人的表情更加生动自然的局部人脸参数。
[0116]
在该步骤中，若提取到一个局部人脸参数和一个局部表情参数，直接利用所述局部表情参数替换掉所述局部人脸参数；或者，若提取到多个局部人脸参数和多个局部表情参数，对于对应相同部位标识的局部人脸参数和局部人脸参数，利用所述局部表情参数替换掉所述局部人脸参数。
[0117]
步骤204，将所述第二3d人脸重建参数输入所述预设第一3d人脸生成模型，以使所述预设第一3d人脸生成模型输出包含所述人脸姿态信息的3d人脸网格。
[0118]
本发明实施例中，第一3d人脸生成模型用于基于3d人脸重建参数生成3d人脸网格，第一3d人脸生成模型为预先利用多组3d人脸重建参数作为训练数据，及多组对应的3d人脸网格作为标签数据训练完成的模型。
[0119]
由于第二3d人脸重建参数中包含局部表情参数以及除局部人脸参数的其他参数(如：人脸姿态信息)，使第一3d人脸生成模型输出的3d人脸网格能够考虑了人脸姿态信息。
[0120]
在本发明的又一实施例中，步骤s105，基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频，包括：
[0121]
步骤301，将所述3d人脸网格和所述背景轮廓线输入所述预设数字人生成模型，得到数字人图片；
[0122]
本发明实施例中，预设数字人生成模型用于基于3d人脸网格和背景轮廓线生成数
字人图片，预设数字人生成模型可以预先利用3d人脸网格和背景轮廓线作为训练数据，将对应的数字人图片作为标签数据进行训练，待数字人生成模型训练完成，可以利用该预设数字人生成模型生成数字人图片。
[0123]
步骤302，按照各图像帧在所述第一视频中的排列顺序，将基于各所述图像帧得到的数字人图片进行排序，得到数字人视频。
[0124]
本发明实施例在提取图像帧时，可以保留每个图像帧的图像帧标识，在基于每个图像帧生成数字人图片时，可以将数字人图片按照图像帧标识的顺序进行排列，得到数字人视频。
[0125]
在本发明的又一实施例中，在步骤s101获取包含第一对象的第一视频及包含第二对象的目标图像之前，所述方法还包括：
[0126]
步骤401，获取多组包含第一训练对象的第一训练视频、包含第二训练对象的训练图像和数字人标签图片。
[0127]
本发明实施例中，第一训练视频可以为对前述第一对象或者其它第一训练对象进行录制的视频，目标训练图像可以为包含前述第二对象或者其它第二训练对象的图像，第一训练对象可以是真人，第二训练对象可以是虚拟人物等；
[0128]
步骤402，在所述第一训练视频内的图像帧中提取所述第一训练对象的表情参数；
[0129]
本发明实施例中，第一训练视频内包括多个图像帧，示例性的，可以按照每秒钟25帧的帧率在第一训练视频内提取图像帧，表情参数可以包括嘴部张合参数等。
[0130]
步骤403，在所述训练图像中提取所述第二训练对象的训练3d人脸重建参数及所述第二对象的背景轮廓线，所述训练3d人脸重建参数包括人脸姿态信息；
[0131]
步骤404，利用所述表情参数、所述训练3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
[0132]
步骤403、404的流程与步骤s103和s104类似，可参照步骤s103和步骤s104的流程。
[0133]
步骤405，利用所述3d人脸网格和所述背景轮廓线对初始生成对抗网络模型进行训练，直至所述初始生成对抗网络模型输出的数字人图片与所述数字人标签图片之间的相似度超过预设阈值，得到所述数字人生成模型。
[0134]
在利用3d人脸网格和所述背景轮廓线对初始生成对抗网络模型进行训练时，可以利用初始生成对抗网络模型中的生成器和判别器的损失函数优化该模型；生成器和判别器进行对抗式训练，即：生成器想要生成的数字人图片跟数字人标签图片一模一样，但判别器想要判别出输入的数字人图片是生成器生成的图片还是数字人标签图片；基于上述训练方式，使得初始生成对抗网络模型的生成器输出的数字人图片能够越来越趋近于数字人标签图片，直至初始生成对抗网络模型输出的数字人图片与数字人标签图片之间的相似度超过预设阈值，得到数字人生成模型。
[0135]
在本发明的又一实施例中，还提供一种数字人视频生成装置，如图2所示，包括：
[0136]
获取模块11，用于获取包含第一对象的第一视频及包含第二对象的目标图像，所述目标图像中包含所述第二对象的人脸姿态信息；
[0137]
第一提取模块12，用于在所述第一视频内的图像帧中提取所述第一对象的表情参数；
[0138]
第二提取模块13，用于在所述目标图像中提取所述第二对象的第一3d人脸重建参
数及所述第二对象的背景轮廓线，所述第一3d人脸重建参数包括人脸姿态信息；
[0139]
第一生成模块14，用于利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
[0140]
第二生成模块15，用于基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频。
[0141]
可选地，所述第一生成模块，包括：
[0142]
提取单元，用于在所述表情参数中提取与预设的目标重建区域关联的局部表情参数，所述目标重建区域为所述第二对象的人脸中待重建的区域；
[0143]
查找单元，用于在所述第一3d人脸重建参数中查找与所述目标重建区域关联的局部人脸参数；
[0144]
替换单元，用于将所述局部人脸参数替换为所述局部表情参数，得到第二3d人脸重建参数；
[0145]
第一输入单元，用于将所述第二3d人脸重建参数输入所述预设第一3d人脸生成模型，以使所述预设第一3d人脸生成模型输出包含所述人脸姿态信息的3d人脸网格。
[0146]
可选地，所述提取单元，还用于：
[0147]
若所述目标重建区域为嘴部区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述嘴部区域对应的局部表情参数；
[0148]
或者，若所述目标重建区域为完整人脸区域，在预设的重建区域与局部表情参数之间的对应关系中，提取与所述完整人脸区域对应的局部表情参数。
[0149]
可选地，所述替换单元，还用于：
[0150]
若提取到一个局部人脸参数和一个局部表情参数，直接利用所述局部表情参数替换掉所述局部人脸参数；
[0151]
或者，若提取到多个局部人脸参数和多个局部表情参数，对于对应相同部位标识的局部人脸参数和局部人脸参数，利用所述局部表情参数替换掉所述局部人脸参数。
[0152]
可选地，所述第一提取模块，还用于：
[0153]
将所述第一视频的图像帧中的人脸图像的关键点输入预设第二3d人脸生成模型，得到所述第一对象的表情参数；
[0154]
或者，在所述第一视频的图像帧中的人脸图像的人脸mesh输入预设第一3d人脸重建模型，得到所述第一对象的表情参数。
[0155]
可选地，所述第二提取模块，包括：
[0156]
第二输入单元，用于将所述目标图像输入预设第二3d人脸重建模型，得到第二人脸mesh；
[0157]
获取单元，用于获取所述第二人脸mesh的mesh信息或者获取所述第二人脸mesh中各人脸关键点的关键点信息；
[0158]
确定单元，用于基于所述mesh信息或者所述关键点信息，确定所述第一3d人脸重建参数。
[0159]
可选地，所述第二生成模块，包括：
[0160]
第三输入单元，用于将所述3d人脸网格和所述背景轮廓线输入所述预设数字人生成模型，得到数字人图片；
[0161]
排序单元，用于按照各图像帧在所述第一视频中的排列顺序，将基于各所述图像帧得到的数字人图片进行排序，得到数字人视频。
[0162]
可选地，所述第一获取模块之前，所述装置还包括：
[0163]
第二获取模块，用于获取多组包含第一训练对象的第一训练视频、包含第二训练对象的训练图像和数字人标签图片；
[0164]
第三提取模块，用于在所述第一训练视频内的图像帧中提取所述第一训练对象的表情参数；
[0165]
第四提取模块，用于在所述训练图像中提取所述第二训练对象的训练3d人脸重建参数及所述第二对象的背景轮廓线，所述训练3d人脸重建参数包括人脸姿态信息；
[0166]
第三生成模块，用于利用所述表情参数、所述训练3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；
[0167]
第四生成模块，用于利用所述3d人脸网格和所述背景轮廓线对初始生成对抗网络模型进行训练，直至所述初始生成对抗网络模型输出的数字人图片与所述数字人标签图片之间的相似度超过预设阈值，得到所述数字人生成模型。
[0168]
在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
[0169]
存储器，用于存放计算机程序；
[0170]
处理器，用于执行存储器上所存放的程序时，实现前述方法实施例任一所述的数字人视频生成方法。
[0171]
本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了获取包含第一对象的第一视频及包含第二对象的目标图像；在所述第一视频内的图像帧中提取所述第一对象的表情参数；在所述目标图像中提取所述第二对象的第一3d人脸重建参数及所述第二对象的背景轮廓线，所述第一3d人脸重建参数包括人脸姿态信息；利用所述表情参数、所述第一3d人脸重建参数及预设第一3d人脸生成模型，生成包含所述人脸姿态信息的3d人脸网格；基于所述3d人脸网格、所述背景轮廓线和预设数字人生成模型，生成数字人视频。本发明实施例通过利用第一视频中第一对象的表情参数与目标图像中的第一3d人脸重建参数结合，生成3d人脸网格，由于目标图像中包含第二对象的人脸姿态信息，使得生成的3d人脸网格中，考虑了第二对象的人脸姿态信息，最后，基于3d人脸网格及背景轮廓线生成数字人视频，使得生成的3d人脸网格考虑到了人脸姿态信息，使得数字人的表情更加生动自然。
[0172]
上述电子设备提到的通信总线1140可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0173]
通信接口1120用于上述电子设备与其他设备之间的通信。
[0174]
存储器1130可以包括随机存取存储器(randomaccessmemory，简称ram)，也可以包括非易失性存储器(non
‑
volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
[0175]
上述的处理器1110可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field
‑
programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0176]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0177]
以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于边界替代混合模型的飞行器气动分析方法与流程

一种数字人视频生成方法、装置及电子设备与流程

相关文献

最热文献