视频生成方法、装置、电子设备及存储介质与流程

2022-03-31 10:40:24 来源：中国专利 TAG：

1.本公开实施例涉及计算机技术领域，尤其涉及一种视频生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术：

2.随着计算机技术的不断发展，各种视频、图像特效的应用越来越广泛，人们对特效的多样性需求也越来越大。
3.在目前，活照片视频是一种非常具有个性化和趣味性的特效应用，用户可以输入一张人像照片，并在选取了具有表情变化内容的驱动视频后，即可将人像照片处理为活照片视频，使得活照片视频中具有融合了驱动视频中表情变化效果的用户脸部特征。
4.但是，目前方案中，生成的活照片视频常常会出现面部特别是牙齿部分不完整以及纹理不清晰的问题，大大影响了活照片视频的质量。

技术实现要素：

5.本公开实施例提供一种视频生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以解决相关技术中生成的视频常常会出现面部特别是牙齿部分不完整以及纹理不清晰的问题。
6.第一方面，本公开实施例提供了一种视频生成方法，该方法包括：
7.将脸部图片和包含表情变化特征的表情驱动视频输入表情迁移模型，得到所述表情迁移模型输出的初始视频，所述初始视频为将所述表情驱动视频中的表情变化特征与所述脸部图片的脸部特征融合后生成的视频；
8.获取与所述初始视频中的视频帧对应的脸部渲染图和表情系数，所述脸部渲染图中的口腔区域绘制有虚拟牙齿；
9.将各所述视频帧对应的脸部渲染图和表情系数分别输入目标图像生成模型，得到所述目标图像生成模型输出的各所述视频帧对应的脸部处理图像；所述目标图像生成模型用于根据所述表情系数，对所述脸部渲染图的脸部区域进行基于牙齿和纹理的处理；
10.将各所述视频帧对应的脸部处理图像按照所述表情驱动视频的播放时间顺序组合，得到经过脸部处理的目标视频。
11.在一种可选实施方式中，所述获取与所述初始视频中的视频帧对应的脸部渲染图和表情系数，包括：
12.识别所述初始视频中视频帧的脸部关键点及牙齿关键点；
13.根据各所述视频帧的脸部关键点及牙齿关键点，构建得到与各所述视频帧对应的脸部渲染图和表情系数。
14.在一种可选实施方式中，根据各所述视频帧的脸部关键点及牙齿关键点，构建得到与各所述视频帧对应的脸部渲染图和表情系数，包括：
15.根据各所述视频帧的脸部关键点进行三维重建，得到所述视频帧对应的三维脸部
建模和表情系数；
16.将所述三维脸部建模投影至二维平面，得到脸部建模图；
17.根据所述视频帧的牙齿关键点，确定所述脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述脸部渲染图。
18.在一种可选实施方式中，所述方法还包括：
19.获取训练视频，所述训练视频为具有多帧暴露牙齿的视频帧、画面中具有脸部表情变化、画面中头部运动姿态的偏移量小于或等于预设阈值的视频；
20.根据所述训练视频，获取训练配对数据，所述训练配对数据包括：所述训练视频的任一视频帧、与所述任一视频帧对应的脸部渲染图、所述任一视频帧的表情系数；
21.根据所述训练配对数据，对初始图像生成模型进行训练，得到目标图像生成模型。
22.在一种可选实施方式中，所述根据所述训练视频，获取训练配对数据，包括：
23.从所述训练视频中提取第一视频帧和第二视频帧；
24.获取所述第一视频帧的第一三维脸部建模，以及所述第二视频帧的第二三维脸部建模和表情系数，所述第一三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第一视频帧的表情特征的三维建模，所述第二三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第二视频帧的表情特征的三维建模；
25.将所述第一三维脸部建模和所述第二三维脸部建模共同投影至二维平面，得到所述第二视频帧的脸部建模图；
26.确定所述第二视频帧的脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述第二视频帧的脸部渲染图；
27.建立所述第二视频帧、所述第二视频帧的脸部渲染图、所述第二视频帧的表情系数之间的对应关系，得到所述训练配对数据。
28.在一种可选实施方式中，所述获取所述第一视频帧的第一三维脸部建模，以及所述第二视频帧的第二三维脸部建模和表情系数，包括：
29.分别对所述第一视频帧和所述第二视频帧进行关键点识别，得到所述第一视频帧的第一脸部关键点，以及所述第二视频帧的第二脸部关键点；
30.根据所述第一脸部关键点，获取所述第一视频帧的第一表情系数和第一姿态系数，以及根据第二脸部关键点，获取所述第二视频帧的第二表情系数；
31.根据所述第一视频帧、所述第一表情系数和第一姿态系数进行三维重建，得到所述第一三维脸部建模；
32.根据所述第一视频帧、所述第二表情系数和第一姿态系数进行三维重建，得到所述第二三维脸部建模。
33.在一种可选实施方式中，在所述根据所述训练视频，获取训练配对数据之前，还包括：
34.通过预设的图像超分算法对所述训练视频的视频帧进行处理。
35.第二方面，本公开实施例还提供了一种视频生成装置，所述装置包括：
36.迁移模块，被配置为将脸部图片和包含表情变化特征的表情驱动视频输入表情迁移模型，得到所述表情迁移模型输出的初始视频，所述初始视频为将所述表情驱动视频中的表情变化特征与所述脸部图片的脸部特征融合后生成的视频；
37.第一获取模块，被配置为获取与所述初始视频中的视频帧对应的脸部渲染图和表情系数，所述脸部渲染图中的口腔区域绘制有虚拟牙齿；
38.处理模块，被配置为将各所述视频帧对应的脸部渲染图和表情系数分别输入目标图像生成模型，得到所述目标图像生成模型输出的各所述视频帧对应的脸部处理图像；所述目标图像生成模型用于根据所述表情系数，对所述脸部渲染图的脸部区域进行基于牙齿和纹理的处理；
39.生成模块，被配置为将各所述视频帧对应的脸部处理图像按照所述表情驱动视频的播放时间顺序组合，得到经过脸部处理的目标视频。
40.在一种可选实施方式中，所述第一获取模块包括：
41.识别子模块，被配置为识别所述初始视频中视频帧的脸部关键点及牙齿关键点；
42.关键点分析子模块，被配置为根据各所述视频帧的脸部关键点及牙齿关键点，构建得到与各所述视频帧对应的脸部渲染图和表情系数。
43.在一种可选实施方式中，所述关键点分析子模块包括：
44.重建单元，被配置为根据各所述视频帧的脸部关键点进行三维重建，得到所述视频帧对应的三维脸部建模和表情系数；
45.投影单元，被配置为将所述三维脸部建模投影至二维平面，得到脸部建模图；
46.牙齿绘制单元，被配置为根据所述视频帧的牙齿关键点，确定所述脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述脸部渲染图。
47.在一种可选实施方式中，所述装置还包括：
48.第二获取模块，被配置为获取训练视频，所述训练视频为具有多帧暴露牙齿的视频帧、画面中具有脸部表情变化、画面中头部运动姿态的偏移量小于或等于预设阈值的视频；
49.第三获取模块，被配置为根据所述训练视频，获取训练配对数据，所述训练配对数据包括：所述训练视频的任一视频帧、与所述任一视频帧对应的脸部渲染图、所述任一视频帧的表情系数；
50.训练模块，被配置为根据所述训练配对数据，对初始图像生成模型进行训练，得到目标图像生成模型。
51.在一种可选实施方式中，所述第三获取模块包括：
52.第一获取子模块，被配置为从所述训练视频中提取第一视频帧和第二视频帧；
53.第二获取子模块，被配置为获取所述第一视频帧的第一三维脸部建模，以及所述第二视频帧的第二三维脸部建模和表情系数，所述第一三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第一视频帧的表情特征的三维建模，所述第二三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第二视频帧的表情特征的三维建模；
54.投影子模块，被配置为将所述第一三维脸部建模和所述第二三维脸部建模共同投影至二维平面，得到所述第二视频帧的脸部建模图；
55.绘制子模块，被配置为确定所述第二视频帧的脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述第二视频帧的脸部渲染图；
56.建立子模块，被配置为建立所述第二视频帧、所述第二视频帧的脸部渲染图、所述第二视频帧的表情系数之间的对应关系，得到所述训练配对数据。
57.在一种可选实施方式中，所述第二获取子模块包括：
58.识别单元，被配置为分别对所述第一视频帧和所述第二视频帧进行关键点识别，得到所述第一视频帧的第一脸部关键点，以及所述第二视频帧的第二脸部关键点；
59.获取单元，被配置为根据所述第一脸部关键点，获取所述第一视频帧的第一表情系数和第一姿态系数，以及根据第二脸部关键点，获取所述第二视频帧的第二表情系数；
60.第一建立单元，被配置为根据所述第一视频帧、所述第一表情系数和第一姿态系数进行三维重建，得到所述第一三维脸部建模；
61.第二建立单元，被配置为根据所述第一视频帧、所述第二表情系数和第一姿态系数进行三维重建，得到所述第二三维脸部建模。
62.在一种可选实施方式中，所述装置还包括：
63.超分模块，被配置为通过预设的图像超分算法对所述训练视频的视频帧进行处理。
64.第三方面，本公开实施例还提供了一种电子设备，包括用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现所述的视频生成。
65.第四方面，本公开实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行所述的视频生成。
66.第五方面，本公开实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述的视频生成。
67.在本公开实施例中，在得到将表情驱动视频中的表情变化特征与脸部图片的脸部特征融合后生成的初始视频后，可以通过三维建模获取初始视频的视频帧的脸部渲染图和表情系数，脸部渲染图中绘制有完整的虚拟牙齿，并且脸部渲染图保留了视频帧中清晰准确的脸部纹理，进一步再通过目标图像生成模型，可以实现以表情系数为条件，将脸部渲染图转换为具有更真实脸部纹理和牙齿纹理的脸部处理图像，最后将所有脸部处理图像按照时间顺序编码，得到目标视频，从而在保证目标视频的牙齿完整的基础上，提升了脸部纹理和牙齿纹理的真实自然程度，大大提升了目标视频的质量。
68.上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。
附图说明
69.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
70.图1是本公开实施例提供的一种视频生成方法的步骤流程图；
71.图2本公开实施例提供的另一种视频生成方法的步骤流程图；
72.图3本公开实施例提供的一种视频生成装置的框图；
73.图4本公开一个实施例的电子设备的逻辑框图；
74.图5本公开另一个实施例的电子设备的逻辑框图。
具体实施方式
75.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
76.图1是本公开实施例提供的一种视频生成方法的步骤流程图，如图1所示，该方法可以包括：
77.步骤101，将脸部图片和包含表情变化特征的表情驱动视频输入表情迁移模型，得到所述表情迁移模型输出的初始视频。
78.所述初始视频为将所述表情驱动视频中的表情变化特征与所述脸部图片的脸部特征融合后生成的视频。
79.在本公开实施例中，目标视频可以为活照片视频，目标视频的特效是一种基于目标对象(人物，动物等)的脸部特征(包括五官、脸型、皮肤纹理等)，通过预设的驱动视频模板中包含的表情变化特征，使得目标对象中的五官动作起来，达到与驱动视频模板的表情变化一致的效果。如，用户可以上传一张自己的静态人像照片，并选取一个具有哈哈大笑的内容的驱动视频模板，二者融合后，得到一个用户自己的脸部在做哈哈大笑表情的目标视频。
80.具体的，目标视频的初步实现可以包括：用户将准备的人脸图片和选取的包含表情变化特征的表情驱动视频输入表情迁移模型，表情迁移模型可以将表情驱动视频中的表情变化特征与脸部图片的脸部特征相融合，得到一个人脸图片中的脸部，按照表情驱动视频中的表情变化方式活动起来的初始视频。其中，表情驱动视频可以预设有多种类型，可以包含如微笑、大笑、歪嘴、闭眼、瞪眼、压眉等表情变化特征。
81.进一步的，表情迁移模型具体可以采用图像动画的一阶运动模型(fomm，first order motion model for image animation)，该模型基于对生成式对抗网络(gan,generative adversarial networks)的结合，学习驱动视频和脸部图像的稠密运动场的表示，并可以对脸部、毛发、肩部等局部位置进行建模。其具体实现了一个半监督的网络，训练时的输入是一个个视频，将视频拆分成一对对的视频帧，采用的代价函数是驱动帧和生成帧的差值，再加上一个运动恒等变换的约束。网络可以分成两个部分：运动模块和生成模块，运动模块又可分为两个部分，关键点探测器和密集运动场，关键点探测器除了要探测关键点位置，还要计算局部的仿射变换矩阵加上这个矩阵的一阶导数，并且要同时估计源影像和驱动帧的关键点变换参数，参数都是相对于虚拟的参考帧。将关键点的参数给密集运动场后，可以生成每一个像素的运动。同时密集运动场还要输出掩膜，最后生成模块将密集运动场的输出和源影像结合生成一个新影像，即得到了目标视频。
82.但是，fomm模型生成的初始视频也存在一定问题，在fomm模型的训练过程中，由于缺失大量具有对脸部细节高清晰表达的训练数据，而使得训练后的fomm模型输出的视频中，存在牙齿不清晰、不完整，脸部纹理不够真实的问题，本公开实施例则基于这些问题展开研究并予以解决。
83.步骤102、获取与所述初始视频中的视频帧对应的脸部渲染图和表情系数，所述脸部渲染图中的口腔区域绘制有虚拟牙齿。
84.在本公开实施例中，基于表情迁移模型输出的初始视频存在的牙齿不清晰、不完整，脸部纹理不够真实的问题，可以对初始视频进一步后处理以对牙齿区域补齐，并进行牙齿纹理和脸部纹理的真实化改造。
85.具体的，对初始视频中牙齿纹理和脸部纹理的真实化改造具有两个需求，一是需对初始视频中脸部的牙齿补齐，避免存在牙齿不完整的情况；二是需要有一个脸部真实化模型，能够学习牙齿纹理和脸部纹理由非真实状态到真实化状态的过程。当满足上述两个条件后，则可以先对初始视频中的视频帧进行牙齿补齐，以保证牙齿的完整性，之后可以基于脸部真实化模型，进行初始视频中牙齿纹理和脸部纹理的处理，达到对初始视频应用真实的牙齿纹理和脸部纹理的目的。
86.在该步骤中，首先需要进行数据准备操作，具体为获取与初始视频中的视频帧对应的脸部渲染图和视频帧对应的表情系数，其中，脸部渲染图是在视频帧的脸部建模图的口腔区域绘制有虚拟牙齿的图像，其目的是基于人脸3d形变统计模型(3dmm，3d morphable models)实现的脸部重建技术，其目的是通过脸部关键点之间的稠密对齐(3d face registration)，以实现将视频帧的脸部映射至三维脸部建模中，之后再将三维脸部建模投影至二维平面，即可得到二维的脸部建模图。在实际应用中，虽然3dmm难以对头发、脖子等边缘区域进行建模，但是由于表情迁移模型在生成初始视频的过程中，已经对头发和脖子等边缘区域进行了很好的处理，因此本步骤可以通过3dmm仅对脸部进行处理。
87.在二维的脸部建模图中进一步还可以通过绘制虚拟牙齿来进行牙齿补齐，以保证牙齿的完整性，其优势是可以通过三维重建来还原清晰的脸部纹理，并且可以表达完整准确的表情特征，表情系数即为三维重建过程中，通过对视频帧的脸部关键点分析所得到的，用于表征视频帧中表情变化的强度。
88.步骤103、将各所述视频帧对应的脸部渲染图和表情系数分别输入目标图像生成模型，得到所述目标图像生成模型输出的各所述视频帧对应的脸部处理图像。
89.其中，所述目标图像生成模型用于根据所述表情系数，对所述脸部渲染图的脸部区域进行基于牙齿和纹理的处理。
90.在本公开实施例中，目标图像生成模型是一种用于提升牙齿和全脸纹理真实化的图像翻译模型，图像翻译模型是针对成对数据对训练得到的模型，在图像处理、计算机图形学和计算机视觉场景中的许多问题，都可以被视为将输入图像“翻译”成相应的输出图像，即图像翻译的意思是图像与图像之间以不同形式的转换。因此，在本公开实施例的场景中，目标图像生成模型的目的是将口腔区域绘制有虚拟牙齿的脸部渲染图，转换为具有更真实脸部纹理和牙齿纹理的脸部处理图像。
91.具体的，在得到视频帧对应的脸部渲染图和表情系数之后，可以将视频帧的脸部渲染图和表情系数分别输入目标脸部真实化模型，以使得目标脸部真实化模型以表情系数为处理条件，对视频帧的脸部渲染图进行牙齿纹理和脸部纹理的处理，从而得到应用了真实的牙齿纹理和脸部纹理的脸部处理图像的目的。由于在步骤102中通过3dmm实现了基于视频帧的脸部图像建模，以及在脸部渲染图中绘制了虚拟牙齿，从而在本步骤的实现过程中，可以在保证牙齿完整性的基础上，进一步得到纹理更清晰真实的脸部处理图像，提高了目标视频的清晰度、牙齿完整度和真实度。
92.步骤104、将各所述视频帧对应的脸部处理图像按照所述表情驱动视频的播放时
间顺序组合，得到经过脸部处理的目标视频。
93.在本公开实施例中，针对得到的多帧脸部处理图像，由于每帧脸部处理图像都对应一帧视频帧，且视频帧在表情驱动视频的时间序列中对应一个播放时间点，因此，多帧脸部处理图像可以按照表情驱动视频的时间序列的顺序组合编码，得到经过脸部处理的目标视频。此时得到的目标视频中，将用户输入的表情驱动视频中的表情变化特征与用户输入的脸部图片的脸部特征完美融合，且牙齿区域完整，脸部纹理和牙齿纹理更加趋近于真实自然。
94.综上所述，本公开实施例提供的一种视频生成方法，在得到将表情驱动视频中的表情变化特征与脸部图片的脸部特征融合后生成的初始视频后，可以通过三维建模获取初始视频的视频帧的脸部渲染图和表情系数，脸部渲染图中绘制有完整的虚拟牙齿，并且脸部渲染图保留了视频帧中清晰准确的脸部纹理，进一步再通过目标图像生成模型，可以实现以表情系数为条件，将脸部渲染图转换为具有更真实脸部纹理和牙齿纹理的脸部处理图像，最后将所有脸部处理图像按照时间顺序编码，得到目标视频，从而在保证目标视频的牙齿完整的基础上，提升了脸部纹理和牙齿纹理的真实自然程度，大大提升了目标视频的质量。
95.图2是本公开实施例提供的另一种视频生成方法的步骤流程图，如图2所示，该方法可以包括：
96.步骤201、将脸部图片和包含表情变化特征的表情驱动视频输入表情迁移模型，得到所述表情迁移模型输出的初始视频。
97.其中，所述初始视频为将所述表情驱动视频中的表情变化特征与所述脸部图片的脸部特征融合后生成的视频。
98.该步骤具体可以参照上述步骤101，此处不再赘述。
99.步骤202、识别所述初始视频中视频帧的脸部关键点及牙齿关键点。
100.在本公开实施例中，由于3dmm是通过脸部关键点之间的稠密对齐来达到脸部建模的，因此通过3dmm进行脸部建模的前提，是首先识别初始视频中视频帧的脸部关键点及牙齿关键点，其中，脸部关键点用于进行脸部建模，牙齿关键点则用于确定口腔区域，以供后续绘制虚拟牙齿。
101.具体的，每一帧视频帧的脸部关键点及牙齿关键点，可以通过卷积神经网络(cnn，convolutional neural networks)模型进行识别得到，一帧视频帧可以包含有101个脸部关键点，牙齿关键点是这101个脸部关键点中的部分关键点。
102.步骤203、根据各所述视频帧的脸部关键点及牙齿关键点，构建得到与各所述视频帧对应的脸部渲染图和表情系数。
103.在本公开实施例中，基于3dmm实现的脸部重建技术，其目的是通过脸部关键点之间的稠密对齐，以实现将视频帧的脸部映射至三维脸部建模中，之后再将三维脸部建模投影至二维平面，即可得到二维的脸部建模图。
104.具体的，稠密对齐算法是将脸部图像匹配到一个最佳的3d脸部模型上，这些3d人脸模型中包含较多的特征点，从而实现了密集关键点的脸部对齐，其具体可以通过训练好的稠密对齐模型来实现，该模型以脸部图像为输入，以关键点对齐后的三维脸部建模、表情系数和姿态系数为输出，将三维脸部建模投影至二维平面，即可得到二维的脸部建模图。表
情系数即为三维重建过程中，通过对视频帧的脸部关键点分析所得到的，用于表征视频帧中表情变化的强度。
105.可选的，步骤203具体可以包括：
106.子步骤2031、根据各所述视频帧的脸部关键点进行三维重建，得到所述视频帧对应的三维脸部建模和表情系数。
107.子步骤2032、将所述三维脸部建模投影至二维平面，得到脸部建模图。
108.子步骤2033、根据所述视频帧的牙齿关键点，确定所述脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述脸部渲染图。
109.具体的，整个根据视频帧的脸部关键点及牙齿关键点，构建得到与视频帧对应的脸部渲染图和表情系数的过程，首先是基于3dmm的稠密对齐算法，通过关键点的匹配，将视频帧中的脸部匹配到一个三维脸部建模，并在该过程中得到表情系数，将三维脸部建模投影至二维平面后，即可得到二维的脸部建模图，其中，表情系数可以用作后续进行脸部真实化时的处理条件，用于控制图像翻译过程中的脸部建模图向着脸部处理图像转化。
110.进一步的，通过视频帧的牙齿关键点，可以确定脸部建模图中的口腔区域，之后可以在脸部建模图的口腔区域通过cg(虚拟动画)绘制技术，绘制一组虚拟牙齿，得到脸部渲染图，以保证牙齿的完整性，并且可以通过三维重建得到的脸部建模图来还原清晰的脸部纹理，从而表达了原始视频帧中完整且准确的表情特征。
111.步骤204、将各所述视频帧对应的脸部渲染图和表情系数分别输入目标图像生成模型，得到所述目标图像生成模型输出的各所述视频帧对应的脸部处理图像。
112.其中，所述目标图像生成模型用于根据所述表情系数，对所述脸部渲染图的脸部区域进行基于牙齿和纹理的处理。
113.该步骤具体可以参照上述步骤103，此处不再赘述。
114.步骤205、将各所述视频帧对应的脸部处理图像按照所述表情驱动视频的播放时间顺序组合，得到经过脸部处理的目标视频。
115.该步骤具体可以参照上述步骤104，此处不再赘述。
116.可选的，所述方法还可以包括：
117.步骤206、获取训练视频，所述训练视频为具有多帧暴露牙齿的视频帧、画面中具有脸部表情变化、画面中头部运动姿态的偏移量小于或等于预设阈值的视频。
118.在本公开实施例中，针对目标图像生成模型的训练过程，训练目标是目标图像生成模型可以将输入的表情系数作为控制信息，对输入的二维的脸部渲染图进行处理，从而得到具有足够真实的牙齿纹理和脸部纹理的脸部处理图像。
119.为了达成上述训练目标，首先需要准备训练数据，训练数据可以为训练视频，对训练视频的收集需求为：获取大量头部姿态尽量不动、只有脸部表情变化，且表情变化越丰富越好的视频，且训练视频中存在较多漏牙齿的视频帧。头部姿态尽量不动具体可以表现为视频中头部姿态的参数如位移、俯仰角、偏航角、翻滚角等变化的幅度小于预设幅度。
120.其中，目标图像生成模型的训练目标是提供真实化的脸部、牙齿纹理处理，头部姿态的变化的学习并不在训练目标中，因此选取头部姿态尽量不动的训练视频，有助于降低头部动作带来的干扰，另外，训练视频中表情变化越丰富，就能够提供更多的表情变化样本，有助于提高模型的适用范围，训练视频中存在较多漏牙齿的视频帧，则有助于辅助模型
进行牙齿纹理真实度变化的学习。
121.步骤207、根据所述训练视频，获取训练配对数据，所述训练配对数据包括：所述训练视频的任一视频帧、与所述任一视频帧对应的脸部渲染图、所述任一视频帧的表情系数。
122.由于目标图像生成模型的训练目标为以表情系数和脸部渲染图为输入，以脸部处理图像为输出，因此基于模型的输入和输出，可以进一步对训练视频中的视频帧进行处理，为每个视频帧通过3dmm建立对应的脸部渲染图，且脸部渲染图中的口腔区域绘制有虚拟牙齿，且在建模过程中，得到视频帧的脸部区域的表情系数，最终可以建立由视频帧和对应脸部渲染图、表情系数构成的训练配对数据。
123.步骤208、根据所述训练配对数据，对初始图像生成模型进行训练，得到目标图像生成模型。
124.其中，训练过程中，训练配对数据中的脸部渲染图可以作为输入，对应的表情系数可以作为控制信息，视频帧则可以作为标注值，用于与模型的输出值一起计算损失值，最后基于损失值和预设的损失函数，可以对初始图像生成模型的参数进行调整，经过多轮迭代训练后，即可得到目标图像生成模型。
125.可选的，步骤208具体可以包括：
126.子步骤2081、从所述训练视频中提取第一视频帧和第二视频帧。
127.在本公开实施例中，第一视频帧和第二视频帧可以为训练视频中的随机两帧视频帧。
128.子步骤2082、获取所述第一视频帧的第一三维脸部建模，以及所述第二视频帧的第二三维脸部建模和表情系数，所述第一三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第一视频帧的表情特征的三维建模，所述第二三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第二视频帧的表情特征的三维建模。
129.具体的，目标图像生成模型是一种用于提升牙齿和全脸纹理真实化的图像翻译模型，图像翻译模型是针对成对数据对训练得到的模型，目的是实现图像与图像之间以不同形式的转换。因此，在本公开实施例的场景中，目标图像生成模型的目的是将口腔区域绘制有虚拟牙齿的脸部渲染图，转换为具有更真实脸部纹理和牙齿纹理的脸部处理图像，在整个转换过程中，通过绘制有虚拟牙齿的脸部渲染图，在精确保留了原图纹理的基础上，还通过虚拟牙齿补全了原图牙齿的遗漏，使得转换后的脸部处理图像具有更完整的牙齿和更真实的脸部和牙齿纹理。
130.基于以上思想，本公开实施例需要先针对第一视频帧，构建融合了第一视频帧的脸部特征以及第一视频帧的表情特征的第一三维脸部建模(旧建模)；针对第二视频帧，构建融合了第一视频帧的脸部特征以及第二视频帧的表情特征的第二三维脸部建模(新建模)，后续获取第二视频帧的脸部建模图的投影过程可以由第一三维脸部建模和第二三维脸部建模共同完成，从而在得到第二视频帧的脸部建模图的过程中，可以以第一视频帧的姿态系数和表情系数的参考，增强了视频帧之间的关联性，从而实现多帧优化的目的。
131.可选的，子步骤2082具体可以包括：
132.子步骤a1、分别对所述第一视频帧和所述第二视频帧进行关键点识别，得到所述第一视频帧的第一脸部关键点，以及所述第二视频帧的第二脸部关键点。
133.在本公开实施例中，对训练视频进一步提取视频帧构建得到训练配对数据，首先
需要从训练视频中随机抽取第一视频帧和第二视频帧，并分别为第一视频帧和第二视频帧通过3dmm建立对应的脸部渲染图，由于3dmm是通过脸部关键点之间的稠密对齐来达到脸部建模的，因此通过3dmm进行脸部建模的前提，是首先识别第一视频帧的第一脸部关键点，以及所述第二视频帧的第二脸部关键点，同时也可以获取第一视频帧的第一牙齿关键点，以及所述第二视频帧的第二牙齿关键点。其中，脸部关键点用于进行脸部建模，牙齿关键点则用于确定口腔区域，以供后续绘制虚拟牙齿。具体的，每一帧视频帧的脸部关键点及牙齿关键点，可以通过卷积神经网络模型进行识别得到，一帧视频帧可以包含有101个脸部关键点，牙齿关键点是这101个脸部关键点中的部分关键点。
134.子步骤a2、根据所述第一脸部关键点，获取所述第一视频帧的第一表情系数和第一姿态系数，以及根据第二脸部关键点，获取所述第二视频帧的第二表情系数。
135.在本公开实施例中，表情系数即为三维重建过程中，通过对视频帧的脸部关键点分析所得到的，用于表征视频帧中表情变化的强度。姿态系数也为三维重建过程中，通过对视频帧的脸部关键点分析所得到的，用于表征视频帧中姿态变化的强度。
136.子步骤a3、根据所述第一视频帧、所述第一表情系数和第一姿态系数进行三维重建，得到所述第一三维脸部建模。
137.子步骤a4、根据所述第一视频帧、所述第二表情系数和第一姿态系数进行三维重建，得到所述第二三维脸部建模。
138.子步骤2083、将所述第一三维脸部建模和所述第二三维脸部建模共同投影至二维平面，得到所述第二视频帧的脸部建模图。
139.本公开实施例中，针对第一视频帧，可以构建融合了第一视频帧的第一表情系数和第一姿态系数的第一三维脸部建模(旧建模)；针对第二视频帧，可以在第一视频帧的基础上，进一步融合了第二表情系数和第一姿态系数后，得到以第一视频帧的脸部为基础，但是表情特征是第二视频帧的表情特征的第二三维脸部建模(新建模)，后续获取第二视频帧的脸部建模图的投影过程可以由第一三维脸部建模和第二三维脸部建模共同完成，并且二维的脸部建模图可以基于新旧建模进行逐像素的变形操作，从而在得到第二视频帧的脸部建模图的过程中，可以以第一视频帧的姿态系数和表情系数的参考，增强了视频帧之间的关联性，从而实现多帧优化的目的。
140.在本公开实施例中，由于第二三维脸部建模是在第一视频帧的脸部特征基础上，基于第二视频帧的表情特征建立的三维建模，因此后续通过三维建模中脸部特征固定为第一视频帧的脸部特征保持不变，而表情特征由第一视频帧的表情特征变化为第二视频帧的表情特征的特性，进行将两个三维建模投影至二维平面的操作，从而得到接近第二视频帧的脸部建模图。
141.子步骤2084、确定所述第二视频帧的脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述第二视频帧的脸部渲染图。
142.在本公开实施例中，通过第二视频帧的第二牙齿关键点，可以确定第二视频帧的脸部建模图中的口腔区域，并进一步通过绘制虚拟牙齿来进行第二视频帧的脸部建模图中的牙齿补齐，可以保证第二视频帧的脸部建模图中牙齿的完整性。
143.子步骤2085、建立所述第二视频帧、所述第二视频帧的脸部渲染图、所述第二视频帧的表情系数之间的对应关系，得到所述训练配对数据。
144.在该步骤中，将每个第二视频帧与对应的脸部渲染图、表情系数建立对应关系，可以得到训练配对数据，训练配对数据中的每一个对应关系都可以实现训练过程中的一次输入和输出。
145.可选的，在子步骤207之前，方法还包括：
146.子步骤209、通过预设的图像超分算法对所述训练视频的视频帧进行处理。
147.在本公开实施例中，为了提高训练过程的精度，需要训练视频具有足够的清晰度，这样才能够在训练过程中，准确的捕捉到训练视频的视频帧中的细节及变化，因此，本公开实施例可以通过预设的图像超分算法对训练视频的视频帧进行处理，以提升训练视频的清晰度，其中，图像超分算法是一种图像的重建方式，具体可以通过硬件或软件的方法提高原有图像的分辨率，在软件方式中，可以采用深度学习、插值重建等算法思想，
148.如针对深度学习方式，可以先将高分辨率训练图像按照降质模型进行降质，产生训练模型，之后可以根据高分辨率图像的低频部分和高频部分对应关系对图像分块，通过一定算法进行学习，获得先验知识，建立学习模型，最后以输入的低分辨率块为依据，在建立好的训练集中搜索最匹配的高频块，基于深度学习的超分方法充分利用了图像本身的先验知识，在不增加输入图像样本数量的情况下仍能产生高频细节，获得比基于重建方法更好的复原结果，并能较好的应用于各种图像的复原。
149.综上所述，本公开实施例提供的一种视频生成方法，在得到将表情驱动视频中的表情变化特征与脸部图片的脸部特征融合后生成的初始视频后，可以通过三维建模获取初始视频的视频帧的脸部渲染图和表情系数，脸部渲染图中绘制有完整的虚拟牙齿，并且脸部渲染图保留了视频帧中清晰准确的脸部纹理，进一步再通过目标图像生成模型，可以实现以表情系数为条件，将脸部渲染图转换为具有更真实脸部纹理和牙齿纹理的脸部处理图像，最后将所有脸部处理图像按照时间顺序编码，得到目标视频，从而在保证目标视频的牙齿完整的基础上，提升了脸部纹理和牙齿纹理的真实自然程度，大大提升了目标视频的质量。
150.图3是本公开实施例提供的一种视频生成装置的框图，如图3所示，包括：迁移模块301、第一获取模块302、处理模块303、生成模块304。
151.迁移模块301，被配置为将脸部图片和包含表情变化特征的表情驱动视频输入表情迁移模型，得到所述表情迁移模型输出的初始视频，所述初始视频为将所述表情驱动视频中的表情变化特征与所述脸部图片的脸部特征融合后生成的视频；
152.第一获取模块302，被配置为获取与所述初始视频中的视频帧对应的脸部渲染图和表情系数，所述脸部渲染图中的口腔区域绘制有虚拟牙齿；
153.处理模块303，被配置为将各所述视频帧对应的脸部渲染图和表情系数分别输入目标图像生成模型，得到所述目标图像生成模型输出的各所述视频帧对应的脸部处理图像；所述目标图像生成模型用于根据所述表情系数，对所述脸部渲染图的脸部区域进行基于牙齿和纹理的处理；
154.生成模块304，被配置为将各所述视频帧对应的脸部处理图像按照所述表情驱动视频的播放时间顺序组合，得到经过脸部处理的目标视频。
155.在一种可选实现方式中，所述第一获取模块包括：
156.识别子模块，被配置为识别所述初始视频中视频帧的脸部关键点及牙齿关键点；
157.关键点分析子模块，被配置为根据各所述视频帧的脸部关键点及牙齿关键点，构建得到与各所述视频帧对应的脸部渲染图和表情系数。
158.在一种可选实现方式中，所述关键点分析子模块包括：
159.重建单元，被配置为根据各所述视频帧的脸部关键点进行三维重建，得到所述视频帧对应的三维脸部建模和表情系数；
160.投影单元，被配置为将所述三维脸部建模投影至二维平面，得到脸部建模图；
161.牙齿绘制单元，被配置为根据所述视频帧的牙齿关键点，确定所述脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述脸部渲染图。
162.在一种可选实现方式中，所述装置还包括：
163.第二获取模块，被配置为获取训练视频，所述训练视频为具有多帧暴露牙齿的视频帧、画面中具有脸部表情变化、画面中头部运动姿态的偏移量小于或等于预设阈值的视频；
164.第三获取模块，被配置为根据所述训练视频，获取训练配对数据，所述训练配对数据包括：所述训练视频的任一视频帧、与所述任一视频帧对应的脸部渲染图、所述任一视频帧的表情系数；
165.训练模块，被配置为根据所述训练配对数据，对初始图像生成模型进行训练，得到目标图像生成模型。
166.在一种可选实现方式中，所述第三获取模块包括：
167.第一获取子模块，被配置为从所述训练视频中提取第一视频帧和第二视频帧；
168.第二获取子模块，被配置为获取所述第一视频帧的第一三维脸部建模，以及所述第二视频帧的第二三维脸部建模和表情系数，所述第一三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第一视频帧的表情特征的三维建模，所述第二三维脸部建模为融合了所述第一视频帧的脸部特征以及所述第二视频帧的表情特征的三维建模；
169.投影子模块，被配置为将所述第一三维脸部建模和所述第二三维脸部建模共同投影至二维平面，得到所述第二视频帧的脸部建模图；
170.绘制子模块，被配置为确定所述第二视频帧的脸部建模图中的口腔区域，并在所述口腔区域中绘制虚拟牙齿，得到所述第二视频帧的脸部渲染图；
171.建立子模块，被配置为建立所述第二视频帧、所述第二视频帧的脸部渲染图、所述第二视频帧的表情系数之间的对应关系，得到所述训练配对数据。
172.在一种可选实现方式中，所述第二获取子模块包括：
173.识别单元，被配置为分别对所述第一视频帧和所述第二视频帧进行关键点识别，得到所述第一视频帧的第一脸部关键点，以及所述第二视频帧的第二脸部关键点；
174.获取单元，被配置为根据所述第一脸部关键点，获取所述第一视频帧的第一表情系数和第一姿态系数，以及根据第二脸部关键点，获取所述第二视频帧的第二表情系数；
175.第一建立单元，被配置为根据所述第一视频帧、所述第一表情系数和第一姿态系数进行三维重建，得到所述第一三维脸部建模；
176.第二建立单元，被配置为根据所述第一视频帧、所述第二表情系数和第一姿态系数进行三维重建，得到所述第二三维脸部建模。
177.在一种可选实现方式中，所述装置还包括：
178.超分模块，被配置为通过预设的图像超分算法对所述训练视频的视频帧进行处理。
179.综上所述，本公开实施例提供的一种视频生成装置，在得到将表情驱动视频中的表情变化特征与脸部图片的脸部特征融合后生成的初始视频后，可以通过三维建模获取初始视频的视频帧的脸部渲染图和表情系数，脸部渲染图中绘制有完整的虚拟牙齿，并且脸部渲染图保留了视频帧中清晰准确的脸部纹理，进一步再通过目标图像生成模型，可以实现以表情系数为条件，将脸部渲染图转换为具有更真实脸部纹理和牙齿纹理的脸部处理图像，最后将所有脸部处理图像按照时间顺序编码，得到目标视频，从而在保证目标视频的牙齿完整的基础上，提升了脸部纹理和牙齿纹理的真实自然程度，大大提升了目标视频的质量。
180.图4是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
181.参照图4，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(i/o)的接口612，传感器组件614，以及通信组件616。
182.处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。
183.存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
184.电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。
185.多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
186.音频组件610用于输出和/或输入音频信号。例如，音频组件610包括一个麦克风(mic)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用
于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。
187.i/o接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
188.传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
189.通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
190.在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于实现本公开实施例提供的一种视频生成方法。
191.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
192.图5是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图5，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行本公开实施例提供的一种视频生成方法。
193.电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(i/o)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如windows servertm，mac os xtm，unixtm，linuxtm，freebsdtm或类似。
194.本公开实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述的视频生成方法。
195.本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
196.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于射频识别应答器的天线和射频识别应答器的制作方法

视频生成方法、装置、电子设备及存储介质与流程

相关文献

最热文献