一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多视角三维重建方法、装置、电子设备和可读存储介质与流程

2021-11-10 04:05:00 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,具体而言,涉及一种多视角三维重建方法、装置、电子设备和可读存储介质。


背景技术:

2.目前,在很多应用场景下需要进行人脸的三维重建,例如在直播应用场景下,可以基于主播的图像进行人脸三维重建,以应用到对于数字人、换脸、ai三维动效等的控制应用中。
3.现有技术中,在进行人脸三维重建时,有采用采集多张不同时刻的人脸图像进行重建模型的约束和优化的方案。但是这种方式中,由于人脸表情不断变化,虽然依据不同视角人脸图像进行模型优化,但是只能从人脸形状方面达到优化效果,对于人脸表情方面的优化效果很差。并且,用于模型训练的人脸图像的标签基于手动标注,这种方式存在标签信息不准确、不规范的问题。


技术实现要素:

4.本技术的目的包括,例如,提供了一种多视角三维重建方法、装置、电子设备和可读存储介质,其能够从人脸形状和人脸表情方面实现准确地三维重建。
5.本技术的实施例可以这样实现:
6.第一方面,本技术提供一种多视角三维重建方法,所述方法包括:
7.获取多组训练样本,每组训练样本包括多张同一时刻从不同视角采集的训练图像;
8.针对各组训练样本,将各所述训练图像与预设的拓扑人脸模型进行拟合,根据拟合参数以及拓扑人脸模型,得到各所述训练图像的样本标签;
9.在可选的实施方式中,每组训练样本包括的多张训练图像划分为第一视角训练图像和第二视角训练图像,所述神经网络模型包括第一分支模型和第二分支模型;
10.所述利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,直至满足预设要求时得到三维重建模型的步骤,包括:
11.利用携带样本标签的第一视角训练图像对第一分支模型进行训练,直至满足预设要求时得到目标第一分支模型;
12.基于所述目标第一分支模型,并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型。
13.在可选的实施方式中,所述基于所述目标第一分支模型,并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型的步骤,包括:
14.将所述第一视角训练图像和第二视角训练图像分别导入所述目标第一分支模型和第二分支模型;
15.利用所述目标第一分支模型得到所述第一视角训练图像的中间特征信息;
16.结合所述第一视角训练图像的中间特征信息和所述第二视角训练图像对所述第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型。
17.在可选的实施方式中,所述利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,直至满足预设要求时得到三维重建模型的步骤,包括:
18.将各组训练样本导入构建的神经网络模型进行处理,输出各所述训练样本的输出系数;
19.根据所述输出系数、拓扑人脸模型和样本标签,计算得到损失函数值;
20.调整所述神经网络模型的模型参数后继续训练,直至所述损失函数值满足预设要求时停止训练,得到三维重建模型。
21.在可选的实施方式中,所述根据所述输出系数、拓扑人脸模型和样本标签,计算得到损失函数值的步骤,包括:
22.基于所述输出系数和拓扑人脸模型构建预测项,将所述训练样本携带的样本标签作为标签项;
23.基于所述预测项和标签项构建损失函数,计算得到损失函数值。
24.在可选的实施方式中,所述拓扑人脸模型包括拓扑平均脸模型、拓扑人脸形状模型以及拓扑人脸表情模型,所述输出系数包括人脸形状系数、人脸表情系数和仿射变换矩阵;
25.所述基于所述输出系数和所述拓扑人脸模型构建预测项的步骤,包括:
26.将所述拓扑平均脸模型、携带人脸形状系数的拓扑人脸形状模型、携带人脸表情系数的拓扑人脸表情模型叠加,得到叠加项;
27.利用所述叠加项乘以所述仿射变换矩阵,以构建得到预测项。
28.在可选的实施方式中,所述将各所述训练图像与预设的拓扑人脸模型进行拟合的步骤,包括:
29.提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点;
30.对所述训练图像包含的训练人脸提取与各所述核心点对应的关键点;
31.基于多个关键点和多个核心点,进行所述训练人脸和所述拓扑人脸的拟合。
32.在可选的实施方式中,所述方法还包括:
33.获取待重建图像,所述待重建图像包含多张同一时刻从不同视角拍摄的目标对象的人脸图像;
34.将多张人脸图像导入所述三维重建模型进行处理,输出所述目标对象的人脸三维重建信息。
35.在可选的实施方式中,所述多张人脸图像包括第一视角人脸图像和第二视角人脸图像,所述三维重建模型包括第一重建模型和第二重建模型;
36.所述将多张人脸图像导入所述三维重建模型进行处理,输出所述目标对象的人脸三维重建信息的步骤,包括:
37.将所述第一视角人脸图像和第二视角人脸图像分别导入所述第一重建模型和第二重建模型;
38.利用所述第一重建模型得到所述第一视角人脸图像对应的第一视角特征信息;
39.利用所述第二重建模型,并基于所述第一视角特征信息和所述第二视角人脸图像,输出所述目标对象的与所述第二视角人脸图像对应的人脸三维重建信息。
40.第二方面,本技术提供一种多视角三维重建装置,所述装置包括:
41.获取模块,用于获取多组训练样本,每组训练样本包括多张同一时刻从不同视角采集的训练图像;
42.拟合模块,用于针对各组训练样本,将各所述训练图像与预设的拓扑人脸模型进行拟合,根据拟合参数以及拓扑人脸模型,得到各所述训练图像的样本标签;
43.训练模块,用于利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,直至满足预设要求时得到三维重建模型。
44.第三方面,本技术提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。
45.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。
46.本技术实施例的有益效果包括,例如:
47.本技术提供一种多视角三维重建方法、装置、电子设备和可读存储介质,在获得多组分别包含多张同一时刻从不同视角采集的训练图像的训练样本后,将各训练图像与预设的拓扑人脸模型进行拟合,根据拟合参数以及拓扑人脸模型,得到各训练图像的样本标签,利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,直至满足预设要求时得到三维重建模型。该方案采用的各训练样本为同一时刻的多张训练图像,可保障人脸表情的一致性,可从人脸形状和人脸表情方面实现模型的优化,且训练图像的样本标签基于拟合拓扑人脸模型得到,样本标签具有规范、精准的效果,进而提升模型的训练效果。
附图说明
48.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
49.图1为本技术实施例提供的多视角三维重建方法的应用场景示意图;
50.图2为本技术实施例提供的多视角三维重建方法的流程图;
51.图3为图2中步骤s120包含的子步骤的流程图;
52.图4为本技术实施例提供的拓扑人脸模型中核心点提取的示意图;
53.图5为图2中步骤s130包含的子步骤的流程图;
54.图6为图5中步骤s132包含的子步骤的流程图;
55.图7为本技术实施例提供的神经网络模型的结构示意图;
56.图8为图2中步骤s130包含的子步骤的另一流程图;
57.图9为图8中步骤s134包含的子步骤的流程图;
58.图10为本技术实施例提供的多视角三维重建方法的另一流程图;
59.图11为图10中步骤s220包含的子步骤的流程图;
60.图12为本技术实施例提供的三维重建模型的结构示意图;
61.图13为本技术实施例提供的三维重建信息还原后的三维特征点的示意图;
62.图14为本技术实施例提供的电子设备的结构框图;
63.图15为本技术实施例提供的多视角三维重建装置的功能模块框图。
64.图标:100

电子设备;110

存储介质;120

处理器;130

多视角三维重建装置;131

获取模块;132

拟合模块;133

训练模块;140

通信接口;200

图像采集设备。
具体实施方式
65.在很多应用场景下,例如直播应用场景中,会有表情驱动、虚拟数字人、虚拟三维特效、avater等应用控制需求。在这些应用场景中,对于控制的真实度和精度均有较高的要求。因此,如何重建出高精度的三维人脸模型,且保证一定的实时性,十分重要。
66.在三维重建的实现方案中,所借助的采集设备可以包括例如深度摄像头、普通摄像头等。基于深度摄像头可以获取深度信息,基于点云重建即可获取很好的重建效果。但是这种方案对于设备要求较高,深度摄像头成本高,且深度摄像头的彩色摄像头一般精度较低,不利于做纹理重建。因此,基于普通摄像头相对于基于深度摄像头的方案而言,具有更容易实施等优点。
67.其中,普通摄像头中包括高精度的单反摄像头和普通的相机。普通相机相对于高精度的单反摄像头而言,会更加方便实施,且能满足一定的业务场景要求,例如高精度表情驱动、高精度人脸纹理获取等。
68.而现有技术中基于普通相机实现人脸三维重建的方案中,主要是通过采集的多张图像进行模型优化和重建。这种方案中,一般是利用多张图像优化人脸形状,即对外形做一定优化,但是由于多张图像可能采集自不同时刻,人脸表情并不一致、光照等也不统一,在重建时在人脸表情方面效果很差,精度大受影响。
69.基于上述研究发现,本技术实施例提供一种多视角三维重建方法,可以采用的多组分别包含多张同一时刻从不同视角采集的训练图像的训练样本,训练得到三维重建模型,可保障人脸表情的一致性,可从人脸形状和人脸表情方面实现模型的优化,且训练图像的样本标签基于拟合拓扑人脸模型得到,样本标签具有规范、精准的效果,进而提升模型的训练效果。
70.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
71.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
72.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一
component analysis,主成分分析)解耦得到。该拓扑人脸模型可以理解为一个标准的人脸模型,任何一个人的人脸都可以通过一定调整从而与拓扑人脸模型对应。
86.因此,本实施例中,将采集的任意的训练图像与预设的拓扑人脸模型进行拟合,以标准的拓扑人脸模型作为标准,通过拟合参数以及拓扑人脸模型,得到训练样本的样本标签。也就是说,训练图像的样本标签可以基于标准化的拓扑人脸模型拟合后来表征,如此,以统一的标准化的拓扑人脸模型作为准则,保障得到的训练图像的样本标签的规范性和准确性。
87.本实施例中,训练图像的样本标签可以包括训练图像中人脸的形状系数、表情系数以及训练图像在对应视角下的仿射变换矩阵等。
88.利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,从而得到三维重建模型。如此,由于采用的各训练样本为同一时刻的多张训练图像,可保障人脸表情的一致性,可从人脸形状和人脸表情方面实现模型的优化,且训练图像的样本标签基于拟合拓扑人脸模型得到,样本标签具有规范、精准的优点,进而提升模型的训练效果。
89.请参阅图3,本实施例中,在将训练图像和拓扑人脸模型进行拟合时,可以通过以下方式实现:
90.步骤s121,提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点。
91.步骤s122,对所述训练图像包含的训练人脸提取与各所述核心点对应的关键点。
92.步骤s123,基于多个关键点和多个核心点,进行所述训练人脸和所述拓扑人脸的拟合。
93.人脸一般可包含多个特征点,而人脸特征可以由其中的多个关键特征点来主要表征。因此,本实施例中,在保障拟合精度的情况下,为了降低信息处理量,可以通过提取人脸上部分特征点进行拟合处理。
94.请结合参阅图4,其中,图4中密集点构成的人脸可以表征拓扑人脸模型中的拓扑人脸,其中,标记出的多个对应脸部五官和轮廓的点可为核心点。
95.本实施例中,对于每个人脸上的特征点均按相同的索引方式进行标号,因此,在提取出拓扑人脸上的多个核心点后,可以根据各个核心点的索引标号,获得训练图像中训练人脸上对应的关键点。
96.再基于拓扑人脸上的核心点和训练人脸上的关键点,进行训练人脸和拓扑人脸的拟合。
97.本实施例中,采用人脸上的部分特征点进行拟合的方式,实现基于拓扑人脸模型的系数得到样本标签的目的。
98.本实施例中,每组训练样本包含多张训练图像,多张训练图像可划分为第一视角训练图像和第二视角训练图像。第一视角训练图像和第二视角训练图像均可以包含多个不同视角下的训练图像,也即,第一视角和第二视角可以包含多个视角,而不限于一个视角。例如,第一视角训练图像可以包括左侧视角下的训练图像和右侧视角下的训练图像,第二视角训练图像可以是中间视角下的训练图像。
99.相应地,构建的神经网络模型可包括第一分支模型和第二分支模型,其中,第一分支模型可与第一视角训练图像对应、第二分支模型可与第二视角训练图像对应。在第一视角训练图像包含左侧视角训练图像和右侧视角训练图像时,第一分支模型包括与左侧视角
训练图像对应的左侧第一分支模型、以及与右侧视角训练图像对应的右侧第一分支模型。若第二视角训练图像为中间视角训练图像,则第二分支模型为对应中间视角训练图像的分支模型。
100.在人脸三维重建中,一般需要尽可能保障中间视角下的三维重建信息的准确性,而侧面视角的人脸图像可以提供侧脸信息,用于补全正脸学习不到的特征。但是,在传统方式中,往往是将侧面视角的人脸图像和中间视角的人脸图像一并导入到模型进行学习训练,这种方式中由于侧面视角的学习训练也是从初始状态开始,学习效果还未达到良好状态,对于中间视角的人脸图像的特征弥补帮助不大,并且容易造成特征冗余、影响训练效率的问题。
101.基于此,请参阅图5,本实施例中,在对神经网络模型进行训练的过程中,通过以下方式实现:
102.步骤s131,利用携带样本标签的第一视角训练图像对第一分支模型进行训练,直至满足预设要求时得到目标第一分支模型。
103.步骤s132,基于所述目标第一分支模型,并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型。
104.本实施例中,可根据需求对第二视角训练图像以及第二分支模型进行设置,第二视角可以是最终所需的进行后续驱动的目标视角,例如若后续驱动所需视角为中间视角,则第二视角可为中间视角,若后续驱动所需视角为左侧视角,则第二视角可为左侧视角。而往往在进行如数字人、ai模型的驱动中,一般采用的视角为中间视角,因此,本实施例中,第二视角训练图像可为中间视角的图像,而第一视角训练图像则可以是其他的侧面视角的图像,例如左侧视角和右侧视角的图像。
105.可以先利用携带样本标签的第一视角训练图像对第一分支模型进行训练,在将第一分支模型训练到满足预设要求的情况下,将第一分支模型初步固定下来,即得到目标第一分支模型。其中,第一分支模型可采用,但不限于mobilenetv3的轻量级网络模型。所述的预设要求可以是训练达到收敛、训练迭代次数达到最大设定次数或者是训练时长达到设定最大时长等不限。
106.在得到满足一定要求的目标第一分支模型后,再基于目标第一分支模型,并结合第一视角训练图像、第二视角训练图像对第二分支模型进行训练,直到满足预设要求得到目标第二分支模型。
107.由于目标第一分支模型已经预先进行训练,基于目标第一分支模型提取的特征精准度更高。再结合第一视角训练图像的精准度更高的特征以补全第二视角训练图像学习不到的特征信息,从而可以进一步地提高得到的目标第二分支模型的准确性。
108.本实施例中,相比多个视角图像对应的分支模型都从初始状态同步开始训练的方式而言,虽然同步训练最终也能收敛且损失函数较小,但是采用上述方式可以避免同时重头训练所存在的特征冗余、容易陷入局部最优等缺陷。
109.详细地,请参阅图6,本实施例中,在对第二分支模型进行训练时,可以通过以下方式实现:
110.步骤s1321,将所述第一视角训练图像和第二视角训练图像分别导入所述目标第一分支模型和第二分支模型。
111.步骤s1322,利用所述目标第一分支模型得到所述第一视角训练图像的中间特征信息。
112.步骤s1323,结合所述第一视角训练图像的中间特征信息和所述第二视角训练图像对所述第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型。
113.在对第一分支模型进行训练时,是基于第一视角训练图像的样本标签和第一分支模型的输出来多次调整第一分支模型达到模型优化的目的。而第一分支模型的中间网络层可以得到第一视角训练图像的中间特征信息,中间特征信息再经由第一分支模型后续的网络层处理并得到最终的输出。
114.在进行第二分支模型的训练时,所需的第一视角训练图像的信息则为目标第一分支模型的中间网络层所得到的第一视角训练图像的中间特征信息。
115.将第二视角训练图像导入到第二分支模型,经由第二分支模型的中间网络层处理后,可得到第二视角训练图像的中间特征信息。结合由目标第一分支模型得到的第一视角训练图像的中间特征信息,以及第二视角训练图像的中间特征信息,再经由第二分支模型的后续网络层的处理后得到第二分支模型的模型输出。基于第二分支模型的模型输出以及第二视角训练图像的样本标签,对第二分支模型进行多次训练,在满足预设要求时,得到目标第二分支模型。
116.本实施例中,结合第一视角训练图像的中间特征信息和第二视角训练图像对第二分支模型进行训练,可以利用第一视角下的特征信息补全第二视角的特征学习,使得训练得到的第二分支模型学习到的特征更全面、更精准。并且,通过先将第一分支模型训练为满足预设要求的目标第一分支模型后,再利用目标第一分支模型得到的中间特征信息用到第二分支模型的训练中,可以避免特征信息的冗余、避免训练陷入局部最优,进一步地提高模型训练的精准度。
117.请结合参阅图7,本实施例中,以第一分支模型包括左侧第一分支模型和右侧第一分支模型、第二分支模型为中间视角的模型为例进行说明。其中,各个分支模型可包括多层fc(全连接)层,其中,各个fc层的维度可为240维,包括用于回归人脸形状系数的199维,用于回归表情系数的29维,以及用于回归仿射变换矩阵的12维。
118.可先单独训练图7中的左侧分支模型和右侧分支模型,在左侧分支模型和右侧分支模型训练达到预设要求后,左侧分支模型和右侧分支模型最后一个fc层获取到的特征就是有实际特征意义的特征信息,可以帮助中间视角图像更快、更好的回归。
119.在中间视角的分支模型进行训练时,同样将左侧视角训练图像导入左侧分支模型、右侧视角训练图像导入右侧分支模型,并将中间视角训练图像导入中间分支模型。左侧视角训练图像和右侧视角训练图像,在经由fc
左2
和fc
右2
层后得到中间特征信息,中间视角训练图像在经由fc
中2
层后得到中间特征信息。将fc
左2
和fc
右2
层的中间特征信息与fc
中2
的中间特征信息相结合,并共同通过fc
中3
层的处理之后,得到中间分支模型的输出。利用中间视角训练图像的样本标签和中间分支模型的输出调整模型参数并多次训练,直到得到满足要求的中间分支模型。
120.请参阅图8,本实施例中,针对上述任意一个分支模型,在分支模型内部进行训练时,其训练的具体过程可以通过以下方式实现:
121.步骤s133,将各组训练样本导入构建的神经网络模型进行处理,输出各所述训练
样本的输出系数。
122.步骤s134,根据所述输出系数、拓扑人脸模型和样本标签,计算得到损失函数值。
123.步骤s135,调整所述神经网络模型的模型参数后继续训练,直至所述损失函数值满足预设要求时停止训练,得到三维重建模型。
124.在模型的训练过程中,损失函数的设置对模型训练效果也起到十分重要的作用。本实施例中,各组训练样本的样本标签是经由与拓扑人脸模型进行拟合得到。在神经网络模型对导入的训练样本进行特征提取、特征抽象化等处理后,最终可输出相应的输出系数。将通过真实标签与模型输出的差异化来实现模型的优化,则同样地,需要将模型的输出系数结合到拓扑人脸模型,从而统一真实标签与输出之间的标准。
125.因此,请参阅图9,本实施例中,损失函数值的计算可以通过以下方式实现:
126.步骤s1341,基于所述输出系数和拓扑人脸模型构建预测项,将所述训练样本携带的样本标签作为标签项。
127.步骤s1342,基于所述预测项和标签项构建损失函数,计算得到损失函数值。
128.在本实施例中,针对每一个分支模型,各个分支模型均可以对导入的训练样本进行处理,因此,各个分支模型内部的训练处理逻辑相同。可以基于模型的输出系数、拓扑人脸模型和训练样本的样本标签构建损失函数。基于输出系数和拓扑人脸模型作为模型的预测项,而训练样本的样本标签作为标签项。损失函数则可表征预测项和标签项之间的差异。
129.对模型的训练过程则为最小化损失函数的过程,在多次迭代训练中,可调整神经网络模型的模型参数并以最小化损失函数的方向进行训练,直到满足预设要求时停止训练,得到三维重建模型。
130.本实施例中,拓扑人脸模型可通过pca解耦出拓扑平均脸模型、拓扑人脸形状模型和拓扑人脸表情模型。任何一个人的三维人脸,都可以通过在拓扑平均脸模型的基础上,调整人脸形状和人脸表情系数,来达到像目标人脸的功能。而神经网络模型的输出系数可包括人脸形状系数、人脸表情系数和仿射变换矩阵。
131.本实施例中,将拓扑平均脸模型、携带人脸形状系数的拓扑人脸形状模型、携带人脸表情系数的拓扑人脸表情模型叠加,得到叠加项,再利用叠加项乘以仿射变换矩阵,以构建得到预测项。
132.可选地,构建的损失函数可为如下:
[0133][0134]
其中,predict表示预测项,label表示标签项。
[0135]
预测项的具体构成可如下所示:
[0136]
{(bfm
mean
shape
predict
*shape
std
exp
predict
*exp
std
)*affine
matrix
}
pts_index
[0137]
其中,bfm
mean
表示拓扑平均人脸模型,shape
std
表示拓扑人脸形状模型,exp
std
表示拓扑人脸表情模型,shape
predict
、exp
predict
分别表示模型输出的人脸形状系数和人脸表情系数,affine
matrix
表示仿射变换矩阵。pts_index表示从拓扑人脸模型中的提取出的核心点索引信息。
[0138]
标签项具体构成可如下:
[0139]
mesh
pts_index
*affine
matrix_label
[0140]
其中,affine
matrix_label
表示训练图像的样本标签中的仿射变换矩阵,mesh
pts_index
表示训练图像中的关键点的索引信息。对于上述的多个分支模型而言,每个分支模型的mesh
pts_index
是相同的,不同点在于affine
matrix_label
,因为一个人脸在不同视角的体现只是投影的矩阵方向不同而已。
[0141]
神经网络模型中各个分支模型内部分别按照上述的损失函数进行迭代训练,训练得到满足预设要求的三维重建模型。
[0142]
以上过程为利用训练样本训练得到三维重建模型的过程,本实施例中,采用同一时刻从不同视角采集的多张训练图像作为一组训练样本,以训练得到三维重建模型,可保障一组训练样本中训练图像的人脸表情的一致性,可从人脸形状和人脸表情方面实现模型的优化。
[0143]
并且,训练图像的样本标签基于拟合拓扑人脸模型得到,样本标签具有规范、精准的效果,可提升模型的训练效果。
[0144]
进一步地,采用的神经网络模型包括多个分支模型,通过先将辅助视角对应的分支模型训练到满足一定要求的情况下,再结合满足要求的分支模型得到辅助视角下的中间特征信息、以及目标视角(如中间视角)下的训练图像,对目标视角对应的分支模型进行训练,可避免训练陷入局部最优、提升目标视角下的分支模型的优化效果。
[0145]
本实施例中,各个分支模型不共用编码器,而是分别让不同分支网络主攻学习各个视角下的训练图像,然后再在最后共享参数的方式,可实现更优的重建效果。
[0146]
上述得到的三维重建模型可以用于在实际应用场景下的人脸三维重建信息的获取,从而基于获取的三维重建信息以驱动如直播应用场景下的数字人、ai模型等。
[0147]
请参阅图10,本实施例中,可以通过以下方式实现人脸三维重建信息的获取:
[0148]
步骤s210,获取待重建图像,所述待重建图像包含多张同一时刻从不同视角拍摄的目标对象的人脸图像。
[0149]
步骤s220,将多张人脸图像导入所述三维重建模型进行处理,输出所述目标对象的人脸三维重建信息。
[0150]
本实施例中,待重建图像可以是例如直播场景下获得的主播的人脸图像。同样地,待重建图像包括多张同一时刻从不同视角采集的人脸图像。利用上述获得的三维重建模型对待重建图像进行处理,得到的人脸三维重建信息可以包括如人脸形状系数、人脸表情系数和仿射变换矩阵。
[0151]
基于获得人脸三维重建信息可还原出目标对象的人脸三维特征点,从而基于人脸三维特征点构建人脸三维模型,进而基于人脸三维模型对所需驱动的数字人等进行驱动。
[0152]
本实施例中,三维重建模型由构建的神经网络模型训练得到,同样地包含多个分支模型。待重建图像包含的多张人脸图像中包括第一视角人脸图像和第二视角人脸图像,三维重建模型包括第一重建模型和第二重建模型。可选地,请参阅图11,可以通过以下方式获得人脸三维重建信息:
[0153]
步骤s221,将所述第一视角人脸图像和第二视角人脸图像分别导入所述第一重建模型和第二重建模型。
[0154]
步骤s222,利用所述第一重建模型得到所述第一视角人脸图像对应的第一视角特征信息。
[0155]
步骤s223,利用所述第二重建模型,并基于所述第一视角特征信息和所述第二视角人脸图像,输出所述目标对象的与所述第二视角人脸图像对应的人脸三维重建信息。
[0156]
以第二视角人脸图像为目标视角下的图像为例,如中间视角下的人脸图像。则第一视角人脸图像可为辅助视角下的图像,如左侧视角和右侧视角下的人脸图像。三维重建模型为神经网络模型的一部分,详细地,如图12中所示,三维重建模型中的第一重建模型相比神经网络模型中的第一分支模型而言,可缺少最后一层fc层。而第二重建模型与神经网络模型中的第二分支模型相同。
[0157]
因为在实际三维重建中,最终需要获得的目标视角下的图像的三维信息,辅助视角下的图像的特征信息作为目标视角下的图像的三维信息的补充。因此,第一重建模型不需要最终的输出结果,只需得到中间的特征信息即可。
[0158]
实施时,第一重建模型和第二重建模型可同步进行信息处理。如图12中所示,第一视角人脸图像在通过第一重建模型前两层fc层的处理后,得到第一视角特征信息。第二视角人脸图像在通过第二重建模型的前两层fc层的处理后,得到相应的第二视角特征信息。将第一视角特征信息和第二视角特征信息一并通过第二重建模型最后一层fc层的处理,输出第二视角人脸图像对应的人脸三维重建信息。
[0159]
本实施例中,通过得到的人脸三维重建信息进行人脸三维点的还原后,得到的效果图可如图13中所示。
[0160]
请参阅图14,为本技术实施例提供的电子设备100的示例性组件示意图,该电子设备100可为直播应用场景下的直播服务器或直播提供终端。该电子设备100可包括存储介质110、处理器120、多视角三维重建装置130及通信接口140。本实施例中,存储介质110与处理器120均位于电子设备100中且二者分离设置。然而,应当理解的是,存储介质110也可以是独立于电子设备100之外,且可以由处理器120通过总线接口来访问。可替换地,存储介质110也可以集成到处理器120中,例如,可以是高速缓存和/或通用寄存器。
[0161]
多视角三维重建装置130可以理解为上述电子设备100,或电子设备100的处理器120,也可以理解为独立于上述电子设备100或处理器120之外的在电子设备100控制下实现上述多视角三维重建方法的软件功能模块。
[0162]
如图15所示,上述多视角三维重建装置130可以包括获取模块131、拟合模块132和训练模块133。下面分别对该多视角三维重建装置130的各个功能模块的功能进行详细阐述。
[0163]
获取模块131,用于获取多组训练样本,每组训练样本包括多张同一时刻从不同视角采集的训练图像;
[0164]
可以理解,该获取模块131可以用于执行上述步骤s110,关于该获取模块131的详细实现方式可以参照上述对步骤s110有关的内容。
[0165]
拟合模块132,用于针对各组训练样本,将各所述训练图像与预设的拓扑人脸模型进行拟合,根据拟合参数以及拓扑人脸模型,得到各所述训练图像的样本标签;
[0166]
可以理解,该拟合模块132可以用于执行上述步骤s120,关于该拟合模块132的详细实现方式可以参照上述对步骤s120有关的内容。
[0167]
训练模块133,用于利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,直至满足预设要求时得到三维重建模型。
[0168]
可以理解,该训练模块133可以用于执行上述步骤s130,关于该训练模块133的详细实现方式可以参照上述对步骤s130有关的内容。
[0169]
在一种可能的实现方式中,每组训练样本包括的多张训练图像划分为第一视角训练图像和第二视角训练图像,所述神经网络模型包括第一分支模型和第二分支模型;上述训练模块133具体可以用于:
[0170]
利用携带样本标签的第一视角训练图像对第一分支模型进行训练,直至满足预设要求时得到目标第一分支模型;
[0171]
基于所述目标第一分支模型,并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型。
[0172]
在一种可能的实现方式中,上述训练模块133可以用于通过以下方式训练得到目标第二分支模型:
[0173]
将所述第一视角训练图像和第二视角训练图像分别导入所述目标第一分支模型和第二分支模型;
[0174]
利用所述目标第一分支模型得到所述第一视角训练图像的中间特征信息;
[0175]
结合所述第一视角训练图像的中间特征信息和所述第二视角训练图像对所述第二分支模型进行训练,直至满足预设要求时得到目标第二分支模型。
[0176]
在一种可能的实现方式中,上述训练模块133具体可以用于:
[0177]
将各组训练样本导入构建的神经网络模型进行处理,输出各所述训练样本的输出系数;
[0178]
根据所述输出系数、拓扑人脸模型和样本标签,计算得到损失函数值;
[0179]
调整所述神经网络模型的模型参数后继续训练,直至所述损失函数值满足预设要求时停止训练,得到三维重建模型。
[0180]
在一种可能的实现方式中,上述训练模块133可以用于通过以下方式计算得到损失函数值:
[0181]
基于所述输出系数和拓扑人脸模型构建预测项,将所述训练样本携带的样本标签作为标签项;
[0182]
基于所述预测项和标签项构建损失函数,计算得到损失函数值。
[0183]
在一种可能的实现方式中,所述拓扑人脸模型包括拓扑平均脸模型、拓扑人脸形状模型以及拓扑人脸表情模型,所述输出系数包括人脸形状系数、人脸表情系数和仿射变换矩阵;上述训练模块133可以用于通过以下方式构建预测项:
[0184]
将所述拓扑平均脸模型、携带人脸形状系数的拓扑人脸形状模型、携带人脸表情系数的拓扑人脸表情模型叠加,得到叠加项;
[0185]
利用所述叠加项乘以所述仿射变换矩阵,以构建得到预测项。
[0186]
在一种可能的实现方式中,上述拟合模块132具体可以用于:
[0187]
提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点;
[0188]
对所述训练图像包含的训练人脸提取与各所述核心点对应的关键点;
[0189]
基于多个关键点和多个核心点,进行所述训练人脸和所述拓扑人脸的拟合。
[0190]
在一种可能的实现方式中,所述多视角三维重建装置130还包括重建模块,该重建模块可以用于:
[0191]
获取待重建图像,所述待重建图像包含多张同一时刻从不同视角拍摄的目标对象的人脸图像;
[0192]
将多张人脸图像导入所述三维重建模型进行处理,输出所述目标对象的人脸三维重建信息。
[0193]
在一种可能的实现方式中,所述多张人脸图像包括第一视角人脸图像和第二视角人脸图像,所述三维重建模型包括第一重建模型和第二重建模型;上述重建模块具体可以用于:
[0194]
将所述第一视角人脸图像和第二视角人脸图像分别导入所述第一重建模型和第二重建模型;
[0195]
利用所述第一重建模型得到所述第一视角人脸图像对应的第一视角特征信息;
[0196]
利用所述第二重建模型,并基于所述第一视角特征信息和所述第二视角人脸图像,输出所述目标对象的与所述第二视角人脸图像对应的人脸三维重建信息。
[0197]
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
[0198]
进一步地,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的多视角三维重建方法。
[0199]
具体地,该计算机可读存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该计算机可读存储介质上的计算机程序被运行时,能够执行上述多视角三维重建方法。关于计算机可读存储介质中的及其可执行指令被运行时,所涉及的过程,可以参照上述方法实施例中的相关说明,这里不再详述。
[0200]
综上所述,本技术实施例提供的多视角三维重建方法、装置、电子设备100和可读存储介质,在获得多组分别包含多张同一时刻从不同视角采集的训练图像的训练样本后,将各训练图像与预设的拓扑人脸模型进行拟合,根据拟合参数以及拓扑人脸模型,得到各训练图像的样本标签,利用携带样本标签的各组训练样本对构建的神经网络模型进行训练,直至满足预设要求时得到三维重建模型。该方案采用的各训练样本为同一时刻的多张训练图像,可保障人脸表情的一致性,可从人脸形状和人脸表情方面实现模型的优化,且训练图像的样本标签基于拟合拓扑人脸模型得到,样本标签具有规范、精准的效果,进而提升模型的训练效果。
[0201]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献