一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于IMU和前向变形场的单目人体重建方法及装置与流程

2022-06-05 06:23:02 来源:中国专利 TAG:

基于imu和前向变形场的单目人体重建方法及装置
技术领域
1.本发明涉及人体图像处理技术领域,尤其涉及一种采用惯性传感器,利用前向的基于人体骨架参数化模型的变形场进行人体变形,以及结合几何预测和颜色预测进行体渲染的高质量单目rgb视频人体重建方法及装置。


背景技术:

2.近年来,在动画电影游戏等的制作,vr/ar,虚拟数字人等应用中,人体形象捕捉变得越来越受欢迎。而单目相机拍摄的rgb图像数据是最常见且易于得到的动态人体数据形式,但是由于其信息的有限性,使得重建高精度的动态人体序列成为一个困难的问题。
3.之前,动态人体的重建经常依靠结构光相机采集的深度数据得到,这些技术一般通过实时非刚性跟踪深度数据并融合,得到重建的动态人体序列,为了更好的利用人体先验信息,一些方法会对人体模型预先建立一个模板模型辅助跟踪。或是采用稠密的多视角视频序列,获取三维形状信息。最近,一些基于稀疏视角以及单视角相机的模型被提出,这些方法一般会结合人体的隐式表示来操作,相比显示的网格或点云的表示,隐式的符号距离场或者是表达占用率的场可以用更少的存储表达更加复杂的细节信息。这些技术一般选定一个基准空间,结合神经网络来表示逐帧动态数据到基准空间的变形场,并采用神经渲染技术对模型进行渲染,通过约束渲染的图片与输入的图片尽可能接近来优化场景的重建。为了利用人体的先验信息,一些方法选用常用且非常受欢迎的人体骨架的参数化模型(smpl模型)进行人体的基本低维表示,用该表示辅助变形场使得模型可以处理更加复杂的动作并增加鲁棒性。
4.然而,多视角的相机设置,即使是稀疏的多视角相机,也需要进行相机之间的标定等问题,使得使用不够方便;而单相机的使用更加方便,但获取到的信息有限,且有歧义性。考虑到惯性传感器(imu)可以提供相邻帧的速度加速度以及方向等三维信息,在人体的姿态估计中有广泛引用,且很容易增加该传感器到ar/vr等设备中。因此,我们进行单目rgb视频结合惯性传感器的人体重建问题的研究。这样,我们不再需要多相机的预处理过程,且惯性传感器提供的相邻帧的相对的三维位置信息使得重建系统也可以更好的处理带遮挡的任意动作的人体序列,而不局限于动作幅度比较小的动作序列等。
5.为了建模动态人体的形变场,我们采用人体的骨架模型参数化模型(smpl模型)作为低维的变形表示,由于参数化模型中的线性混合蒙皮权重表达能力有限,只能表达裸露的人体,我们采用神经网络来学习穿衣人体表面的任一点到关节点的蒙皮权重。并且,我们采用从待学习的基准空间到当前帧的实时空间的变形,前向变形来表达形变模型。相比从当前图像空间到基准空间的后向变形,前向变形更加容易学习,且多个动作的变形模型更加统一,还可以给定新的骨架变形得到穿衣人体的新动作。
6.为了利用输入图像作为监督,我们采用结合几何预测和颜色预测的体渲染技术来进行渲染。通过对基准空间建立一个可学习的颜色预测网络和一个表达几何信息的符号距离场,并结合上述提到的形变场,将每个输入图片对应的模型变形到基准空间进行渲染,得
到渲染图像,然后将渲染图片和输入图片做逐像素的相似性度量来联合学习。通过这样的方式,可以学习到输入图片逐帧的隐式表示,可以通过在空间中随机采样点预测到曲面的符号距离值来显示的提取三维曲面。我们学习到的前向变形场和基准空间还可以用来生成该重建人体的新的姿态,可以用新的动作序列来驱动该虚拟人体运动。


技术实现要素:

7.本发明的目的在于针对现有技术的不足,提供一种基于imu和前向变形场的单目人体重建方法及装置,能够快速、准确、高质量的重建运动人体。
8.本发明的目的是通过以下技术方案实现的:
9.根据本说明书的第一方面,提供一种基于imu和前向变形场的单目人体重建方法,该方法包括:
10.s1:采集佩戴惯性传感器的人体运动单目rgb视频,对所述人体运动单目rgb视频逐帧分割人体和背景,记录惯性传感器绑定的人体位置及导出的加速度信号,记录惯性传感器帧率和单目rgb视频拍摄帧率;
11.s2:使用预训练好的人体参数化拟合模型逐帧拟合人体运动单目rgb视频,得到逐帧的人体参数化拟合模型的形状和姿态的初始估计,在人体参数化拟合模型对应的标准网格点标记传感器标签,表示该点是否绑定惯性传感器与绑定的传感器标号;
12.s3:采用可学习的蒙皮权重,结合s2得到的初始估计结果,建立从基准空间中的点到逐帧人体运动图片对应的当前空间中的点的前向蒙皮变形场模型;
13.s4:利用神经网络建立基准空间中表达基准形状的隐式符号距离场模型;
14.s5:利用神经网络建立基准空间中表达颜色的神经辐射场模型;
15.s6:采用体渲染的方式从逐帧人体运动图片对应的当前空间中采样射线,再沿所述射线采点;
16.s7:根据所述前向蒙皮变形场将采样点变形到基准空间中,根据所述隐式符号距离场得到采样点符号距离值,根据所述神经辐射场得到采样点颜色值和透明度;
17.s8:沿射线方向,根据所有采样点的颜色值和透明度,得到逐帧人体运动图片对应的渲染颜色值;
18.s9:对s6中的每个采样点查找到人体参数化拟合模型对应的标准网格点中的最近点,将人体参数化拟合模型对应的标准网格点的传感器标签迁移到每个采样点上;将绑定惯性传感器的采样点记为关键采样点,先变形到基准空间中,再通过s3变形到相邻帧对应的当前空间中得到新坐标,记录关键采样点的原始坐标和新坐标之间的欧氏距离;
19.s10:训练由所述蒙皮变形场、所述隐式符号距离场和所述神经辐射场构成的动态人体重建模型;根据训练好的动态人体重建模型得到重建人体;
20.s11:将新的人体参数化拟合模型的姿态输入s10训练好的动态人体重建模型,产生该重建人体的新姿态。
21.进一步地,s10中,将s8得到的渲染颜色值和s1中分割出的人体图片对应点的颜色值的差异作为损失函数1;根据s8得到的渲染颜色值得到人体轮廓图,将该图与根据s1中分割出的人体图片得到的人体轮廓图的差异作为损失函数2;根据s9中的欧氏距离、惯性传感器帧率和单目rgb视频拍摄帧率得到关键采样点的加速度,将该加速度与惯性传感器导出
的加速度的差异作为损失函数3;将损失函数1、损失函数2和损失函数3的加权和作为训练的损失函数。
22.进一步地,s3中前向蒙皮变形场模型dw的函数为:
[0023][0024]
其中,xc(ri,tj)表示基准空间中的点,xd(ri,tj)表示逐帧人体运动图片对应的当前空间中采样射线ri上,步长为tj的采样点,表示人体参数化拟合模型中骨头的变换矩阵,nb为骨头的数量;具体的蒙皮变形公式为:
[0025][0026]
其中,wk为可学习的蒙皮权重;从逐帧人体运动图片对应的当前空间中的点xd(ri,tj)变形到基准空间中的点xc(ri,tj),可采用牛顿法或拟牛顿法等数值优化方法求解蒙皮变形公式的根得到。
[0027]
进一步地,s4中基准空间中表达基准形状的隐式符号距离场fs的函数为:
[0028]fs
:xc(ri,tj)

(s
ij
,f
ij
)
[0029]
其中,s
ij
表示得到的基准空间中表达基准形状的符号距离值,f
ij
是一个与该隐式符号距离场相关的一个特征,用于建立基准空间中表达基准形状的隐式符号距离场和表达颜色的神经辐射场之间的联系。
[0030]
进一步地,所述基准空间中表达基准形状的隐式符号距离场模型为神经网络模型,依次包括:输入层、非线性层、全连接层与损失层。
[0031]
进一步地,s4中从逐帧的人体参数化拟合模型的形状和姿态的初始估计中选取一帧,用该帧对应的标准网格初始化基准空间中表达基准形状的隐式符号距离场。
[0032]
进一步地,s5中基准空间中表达颜色的神经辐射场fc的函数为:
[0033]
fc:(xc(ri,tj),ri,f
ij
)
→cij
[0034]
其中,c
ij
为xc(ri,tj)的颜色值,根据离散化的体渲染公式,得到采样射线ri对应的颜色值c(ri)为:
[0035][0036]
其中,n为该采样射线上的采样点个数,α
ij
为采样点对应的透明度:
[0037][0038]
其中,φm(x)=(1 e-mx
)-1
是sigmoid函数,m为预定义参数,s
i(j 1)
是将采样射线ri上,步长为t
j 1
的采样点xd(ri,t
j 1
)变形后的基准空间点xc(ri,t
j 1
)输入隐式符号距离场fs得到的符号距离值。
[0039]
进一步地,所述基准空间中表达颜色的神经辐射场模型为神经网络模型,依次包括:输入层、非线性层、全连接层与损失层。
[0040]
进一步地,s10中的损失函数还可以包含正则项,正则项可以采用约束基准空间中表达基准形状的隐式符号距离场的eikonal损失函数。
[0041]
进一步地,s2中得到的逐帧的人体参数化拟合模型的形状和姿态的初始估计,可以在s10的训练过程中作为可学习变量与所述动态人体重建模型联合优化。
[0042]
根据本说明书的第二方面,提供一种基于imu和前向变形场的单目人体重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现如第一方面所述的基于imu和前向变形场的单目人体重建方法。
[0043]
本发明的有益效果是:1)通过基准空间中表达基准形状的隐式符号距离场模型,以及表达颜色的神经辐射场模型的建立,以及体渲染技术,本发明方法可以渲染得到自然真实的人体视频;2)通过imu设备引入相邻两帧之间的加速度信息作为参数化模型的姿态估计和形变场的直接约束,本发明方法可以更精确的建模形变场进而使得重建的人体几何更加精确,渲染效果也更加自然真实;3)由于前向形变场可以将人体模型的基准空间点根据参数化模型的姿态参数变形到当前空间,本发明方法可以输入新的姿态参数驱动建模的人体变形到新的姿态。
附图说明
[0044]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0045]
图1为一示例性实施例提供的基于imu和前向变形场的单目人体重建方法的流程图;
[0046]
图2为一示例性实施例提供的基于imu和前向变形场的单目人体重建方法的实现原理示意图;
[0047]
图3是一示例性实施例提供的一种基于imu和前向变形场的单目人体重建方法装置的结构图。
具体实施方式
[0048]
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0049]
基于单目视频的人体建模,由于单视角的信息有限且人体存在动态的变形,该问题很难做到高精度的建模,尤其是当人体动作变化比较大的时候。而且在有人体自遮挡的情况存在时,单目视频会有信息缺失,而惯性传感器不同于光学相机,不受遮挡的影响,而且提供的信息是三维的而非类似于图片的二维信息。因此,本发明实例提供一种基于imu及前向变形场的单目人体重建方法,如图1、2所示,其主要包括如下步骤:
[0050]
s1:采集佩戴惯性传感器的人体运动单目rgb视频,对所述人体运动单目rgb视频逐帧分割人体和背景,记录惯性传感器绑定的人体位置及导出的加速度信号,记录惯性传感器帧率和单目rgb视频拍摄帧率;本发明采用真实采集的数据集,使用6个惯性传感器,分别绑定在手腕,脚腕,头部和腰部,并用单目rgb相机拍摄人体运动的视频。
[0051]
s2:使用预训练好的人体参数化拟合模型逐帧拟合人体运动单目rgb视频,得到逐帧的人体参数化拟合模型的形状和姿态的初始估计,在人体参数化拟合模型对应的标准网格点标记传感器标签,表示该点是否绑定惯性传感器与绑定的传感器标号。
[0052]
s3:采用可学习的蒙皮权重,结合s2得到的初始估计结果,建立从基准空间中的点到逐帧人体运动图片对应的当前空间中的点的前向蒙皮变形场模型;其中,前向蒙皮变形场模型的dw函数为:
[0053][0054]
其中,xc(ri,tj)表示基准空间中的点,xd(ri,tj)表示逐帧人体运动图片对应的当前空间中采样射线ri上,步长为tj的采样点,表示人体参数化拟合模型中骨头的变换矩阵,nb为骨头的数量;具体的蒙皮变形公式为:
[0055][0056]
其中,wk为可学习的蒙皮权重;从逐帧人体运动图片对应的当前空间中的点xd(ri,tj)变形到基准空间中的点xc(ri,tj),可采用牛顿法或拟牛顿法等数值优化方法求解蒙皮变形公式的根得到。
[0057]
s4:利用神经网络建立基准空间中表达基准形状的隐式符号距离场模型;隐式符号距离场fs的函数为:
[0058]fs
:xc(ri,tj)

(s
ij
,f
ij
)
[0059]
其中,s
ij
表示得到的基准空间中表达基准形状的符号距离值,f
ij
是一个与该隐式符号距离场相关的一个特征,用于建立基准空间中表达基准形状的隐式符号距离场和表达颜色的神经辐射场之间的联系;
[0060]
具体地,基准空间中表达基准形状的隐式符号距离场模型采用神经网络模型,依次包括:输入层、非线性层、全连接层与损失层。可以从逐帧的人体参数化拟合模型的形状和姿态的初始估计中选取一帧,用该帧对应的标准网格初始化基准空间中表达基准形状的隐式符号距离场。
[0061]
s5:利用神经网络建立基准空间中表达颜色的神经辐射场模型;神经辐射场fc的函数为:
[0062]
fc:(xc(ri,tj),ri,f
ij
)
→cij
[0063]
其中,c
ij
为xc(ri,tj)的颜色值,根据离散化的体渲染公式,得到采样射线ri对应的颜色值c(ri)为:
[0064][0065]
其中,n为该采样射线上的采样点的个数。α
ij
为采样点对应的透明度:
[0066][0067]
其中,φm(x)=(1 e-mx
)-1
是sigmoid函数,m为预定义的参数,s
i(j 1)
是将采样射线ri上,步长为t
j 1
的采样点xd(ri,t
j 1
)变形后的基准空间点xc(ri,t
j 1
)输入隐式符号距离场fs
得到的符号距离值;
[0068]
具体地,基准空间中表达颜色的神经辐射场模型采用神经网络模型,依次包括:输入层、非线性层、全连接层与损失层。
[0069]
s6:采用体渲染的方式从逐帧人体运动图片对应的当前空间中采样射线,再沿所述射线采点。
[0070]
s7:根据所述前向蒙皮变形场将采样点变形到基准空间中,根据所述隐式符号距离场得到采样点符号距离值,根据所述神经辐射场得到采样点颜色值和透明度。
[0071]
s8:沿射线方向,根据所有采样点的颜色值和透明度,得到逐帧人体运动图片对应的渲染颜色值。
[0072]
s9:对s6中的每个采样点查找到人体参数化拟合模型对应的标准网格点中的最近点,将人体参数化拟合模型对应的标准网格点的传感器标签迁移到每个采样点上;将绑定惯性传感器的采样点记为关键采样点,先变形到基准空间中,再通过s3变形到相邻帧对应的当前空间中得到新坐标,记录关键采样点的原始坐标和新坐标之间的欧氏距离。
[0073]
s10:训练由所述蒙皮变形场、所述隐式符号距离场和所述神经辐射场构成的动态人体重建模型;
[0074]
将s8得到的渲染颜色值和s1中分割出的人体图片对应点的颜色值的差异作为损失函数1;根据s8得到的渲染颜色值得到人体轮廓图,将该图与根据s1中分割出的人体图片得到的人体轮廓图的差异作为损失函数2;根据s9中的欧氏距离、惯性传感器帧率和单目rgb视频拍摄帧率得到关键采样点的加速度,将该加速度与惯性传感器导出的加速度的差异作为损失函数3;将损失函数1、损失函数2和损失函数3的加权和作为训练的损失函数;此外,损失函数还可以包含正则项,正则项可以采用约束基准空间中表达基准形状的隐式符号距离场的eikonal损失函数;根据训练好的动态人体重建模型得到重建人体;
[0075]
进一步地,s2中得到的逐帧的人体参数化拟合模型的形状和姿态的初始估计,可以在s10的训练过程中作为可学习变量与动态人体重建模型联合优化。
[0076]
s11:将新的人体参数化拟合模型的姿态输入s10训练好的动态人体重建模型,产生该重建人体的新姿态。
[0077]
与前述基于imu和前向变形场的单目人体重建方法的实施例相对应,本发明还提供了基于imu和前向变形场的单目人体重建装置的实施例。
[0078]
参见图3,本发明实施例提供的一种基于imu和前向变形场的单目人体重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现上述实施例中的基于imu和前向变形场的单目人体重建方法。
[0079]
本发明基于imu和前向变形场的单目人体重建装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本发明基于imu和前向变形场的单目人体重建装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处
理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0080]
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
[0081]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0082]
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于imu和前向变形场的单目人体重建方法。
[0083]
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0084]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0085]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0086]
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0087]
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0088]
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说
明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献