一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于运动分解的动态物体重建方法及装置与流程

2022-12-20 02:09:12 来源:中国专利 TAG:


1.本发明属于从2d的视频运动推断非刚性的结构以及神经体渲染领域,尤其涉及一种基于运动分解的动态物体重建方法及装置。


背景技术:

2.从单目动态视频重建非刚性的三维几何是计算机视觉中的重要问题,在动态物体重建,vr/ar等技术中有重要应用。单目动态视频重建是指从一系列相机姿态未知的连续帧图片,重建动态物体的几何并得到相机姿态。
3.传统的单目视频重建动态物体主要分为两种方法:一种是基于模板的曲面重建,一般会根据输入图片中的某一帧先得到一个模板模型,在此基础上对其他帧进行变形场的学习。这类方法一般适用于有先验模型的动态物体,比如人体,人脸等,而对于一般类型的动态物体,很难预先建立模板模型。另一种方法是不建立模板模型的非刚性重建(non-rigid structure from motion(nrsfm)),为了寻找多个图片之间的匹配关系,通常会通过提取稀疏的关键点进行匹配,或这通过光流匹配稠密的对应点进行跟踪重建。由于该问题是病态问题,为了让重建更加容易,一般会增加一些约束来更好的优化。一些方法采用点运动轨迹的约束,时序一致性的约束,局部刚性假设,形状先验等来约束变形,一些方法假设重建的形状空间是低秩的,通过降低解空间的维度求得最优解。然而,现有的方法仍然存在对于真实采集的数据(存在噪声、数据缺失、变形程度大等)不鲁棒的情况。
4.最近,基于神经网络的重建和渲染技术以其更高的重建精度、更真实自然的渲染质量以及相比传统方法更少的数据存储量而越来越受欢迎。一些现有的方法结合非刚性变形场和神经辐射场来建模非刚性场景,通过令对应视角渲染后的图片和输入的真实图片尽可能一致来优化变形场和神经辐射场。然而,这些方法依然存在重建的几何精度不高等问题。为了更好的将重建的几何与颜色信息结合起来,一些方法将形状空间设置为一个预测几何的模块和预测颜色的模块,通过预测的几何信息来估计透明度,并用体渲染的方式将二者结合起来。相比直接基于神经辐射场的方法,该方法可以重建更精确的几何。然而,该方法只适用于刚性物体或场景的建模。


技术实现要素:

5.针对现有技术的不足,本技术实施例的目的是提供一种基于运动分解的动态物体重建方法及装置。
6.根据本技术实施例的第一方面,提供一种基于运动分解的动态物体重建方法,包括:
7.(1)对包含目标物体运动过程的初始动态视频集合v逐帧进行分割,得到所述初始动态视频集合v中每帧图像的前景动态区域;
8.(2)使用多视角重建的方法,得到所述初始动态视频集合v中每帧图像的相机外参数与内参数;
9.(3)对所述初始动态视频集合v的每一帧,构造邻居集,并借助于预训练的光流方法对所述邻居集中所选的图片对进行光流估计,得到两帧之间的光流;
10.(4)根据所述初始动态视频集合v中每帧图像的前景动态区域、相机外参数与内参数,建立非刚性神经体渲染模型;
11.(5)根据所述非刚性神经体渲染模型和所述光流,结合时序的一致性约束,得到优化的非刚性神经体渲染模型;
12.(6)根据所述优化的非刚性神经体渲染模型,重建所述目标物体每一帧的几何和颜色。
13.进一步地,所述非刚性神经体渲染模型包括标准空间的几何模块、标准空间的颜色模块和其他帧变到标准空间的变形场模块。
14.进一步地,所述标准空间的几何模块为:
15.x

σ:f
θ
(x)
16.其中,θ是标准空间的几何模型参数,该模型会将标准空间中的一个点,解码出标准空间几何的符号距离函数,σ为输出的标量属性,f
θ
(x)为建模x与σ之间的映射的含参隐式函数。
17.所述标准空间的颜色模块为:
18.(p,v,c
appe
(t))

c:c
ψ
(p,v,c
appe
(i))
19.其中θ是标准空间的几何模型参数,该模型会将标准空间中的一个点,解码出标准空间几何的符号距离函数,ψ是标准帧的颜色模型参数,p是标准空间的位置,v是p点在标准空间的射线方向,c
appe
(i)对应i张图片的外观条件向量,c为颜色属性,c
ψ
为建模(p,v,c
appe
(t))的含参隐式函数,t表示第t帧。
20.所述其他帧变到标准空间的变形场模块为:
21.(p(t),c
def
(t))

p

(t):d
η
(p(t),c
def
(t))
22.其中,η是从将第t帧中的点变到标准空间的变形场的参数,p(t)表示t帧下的点的位置,p’(t)表示变形到标准帧的位置,c
def
(t)是对应t帧的变形条件向量。
23.进一步地,第t帧的所述非刚性神经体渲染模型为:
[0024][0025]
其中,o是第t帧的相机中心,s
near
与s
far
是第t帧的相机对应的近远平面,ω(s)是沿着射线v再对应点p(s)在标准空间中变形后的点密度,v(u,t)表示的是对于t帧,像素u对应的视角方向,j对应的是该变形在p点对应的雅可比矩阵。
[0026][0027][0028]
进一步地,所述非刚性神经体渲染模型通过其他帧变到标准空间的变形场模块和
标准空间的渲染模块c(o,v)得到,所述标准空间的渲染模块根据所述标准空间的几何模块和标准空间的颜色模块得到:
[0029][0030][0031]
φ
γ
(x)=γe-γx
/(1 e-γx
)-2
[0032]
其中,o是图片i对应的相机中心,v是像素u与相机中心连接的射线,s
near
与s
far
分别是图片i对应的相机的近远平面,其中ω(s)是沿着射线v再对应点p(s)处的密度,通过再该点的符号距离函数做变换得到,φ
γ
(x)为对密度函数作用的一种非线性激活函数,在这个函数的激活下,可以使得密度达到无偏的属性,γ是一个超参数,用于控制几何与渲染的稀疏性;
[0033]
进一步地,在步骤(5)中,当模型的损失函数收敛时,模型优化完成,其中所述损失函数为:
[0034][0035]
其中各项损失分别为:
[0036]
表示渲染的颜色与当前帧图片的颜色一致的l
color

[0037][0038]
关于几何的规则项,约束几何尽可能满足eikonal方程的约束l
reg

[0039][0040]
关于前景区域的面罩约束l
mask
,使用交叉熵损失函数:
[0041][0042]
其中面罩的估计是通过体渲染对密度的积分得到:
[0043][0044]
关于在时序上几何一致的约束:
[0045][0046]
上述模型中的θ,η,表示多层感知器的可学习参数,该系统的输入参数包括:第t帧的位置p(t),第t帧的像素u对应的检索方向v(u,t),第t帧的变形条件向量c_{def}(t),第t帧的外观条件向量c_{appe}(t)。输出得到该点的符号距离值以及该点的颜色信息,ig(u,t)表示第t张真值颜色图片的第u像素的rgb值,mg(u,t)表示第t张真值面罩图片的第u像素的面罩值,δu(t,t

)表示第t帧与第t

帧在像素u出的光流值。
[0047]
根据本技术实施例的第二方面,提供一种基于运动分解的动态物体重建装置,包括:
[0048]
分割模块,用于对包含目标物体运动过程的初始动态视频集合v逐帧进行分割,得到所述初始动态视频集合v中每帧图像的前景动态区域;
[0049]
多视角重建模块,用于使用多视角重建的方法,得到所述初始动态视频集合v中每帧图像的相机外参数与内参数;
[0050]
构造模块,用于对所述初始动态视频集合v的每一帧,构造邻居集,并借助于预训练的光流方法对所述邻居集中所选的图片对进行光流估计,得到两帧之间的光流;
[0051]
建模模块,用于根据所述初始动态视频集合v中每帧图像的前景动态区域、相机外参数与内参数,建立非刚性神经体渲染模型;
[0052]
模型优化模块,用于根据所述非刚性神经体渲染模型和所述光流,结合时序的一致性约束,得到优化的非刚性神经体渲染模型;
[0053]
重建模块,用于根据所述优化的非刚性神经体渲染模型,重建所述目标物体每一帧的几何和颜色。
[0054]
根据本技术实施例的第三方面,提供一种电子设备,包括:
[0055]
一个或多个处理器;
[0056]
存储器,用于存储一个或多个程序;
[0057]
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
[0058]
根据本技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
[0059]
本技术的实施例提供的技术方案可以包括以下有益效果:
[0060]
由上述实施例可知,本技术1)基于体渲染的从运动推断非刚性结构的动态隐式函数模型,避免了考虑运动物体的模板拓扑;2)对动态隐式函数的运动进行分解,增加光流消除2个维度的自由度,可以使得运动的估计更加准确。
[0061]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
[0062]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
[0063]
图1是根据一示例性实施例示出的一种基于运动分解的动态物体重建方法中建模过程的示意图。
[0064]
图2是根据一示例性实施例示出的一种基于运动分解的动态物体重建装置的框图。
[0065]
图3是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
[0066]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。
[0067]
在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0068]
应当理解,尽管在本技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0069]
图1是根据一示例性实施例示出的一种基于运动分解的动态隐式函数重建方法的流程图,如图1所示,该方法可以包括以下步骤:
[0070]
(1)对包含目标物体运动过程的初始动态视频集合v逐帧进行分割,得到所述初始动态视频集合v中每帧图像的前景动态区域;
[0071]
(2)使用多视角重建的方法,得到所述初始动态视频集合v中每帧图像的相机外参数与内参数;
[0072]
(3)对所述初始动态视频集合v的每一帧,构造邻居集,并借助于预训练的光流方法对所述邻居集中所选的图片对进行光流估计,得到两帧之间的光流;
[0073]
(4)根据所述初始动态视频集合v中每帧图像的前景动态区域、相机外参数与内参数,建立非刚性神经体渲染模型;
[0074]
(5)根据所述非刚性神经体渲染模型和所述光流,结合时序的一致性约束,进行模型的训练,得到优化的非刚性神经体渲染模型;
[0075]
(6)根据所述优化的非刚性神经体渲染模型,重建所述目标物体每一帧的几何和颜色。
[0076]
由上述实施例可知,本技术1)基于体渲染的从运动推断非刚性结构的动态隐式函数模型,避免了考虑运动物体的模板拓扑;2)对动态隐式函数的运动进行分解,增加光流消除2个维度的自由度,可以使得运动的估计更加准确。
[0077]
在步骤(1)的具体实施中,对初始动态视频集合v逐帧进行分割,分割后每帧图像包括的要素为:前景动态区域与背景静态区域mg(u,t)。在所述初始动态视频集合v中,每一帧彩色图像均为rgb三通道图像。针对图像中前景和背景的分割,可以使用任一自动化的图像分割技术,得到符合相应语义的分割图像即可,此处不作赘述。
[0078]
在步骤(2)的具体实施中,所述的用于估计相机内外参数信息的多视角重建方法包括基于传统多视角模型和神经网络的各种多视角重建方法,如colmap,openmvg,以及其他经典的sfm的算法,使用这种经典的算法获得相机内外参数,比较准确且鲁棒,此外也可以提高我们重建的结果。这一步估计的相机的内外参数,主要是在步骤(5)中对参数训练时,需要得到2d图片上的像素通过相机中心的3d射线,进而完成体渲染的过程。
[0079]
在步骤(3)的具体实施中,关于动态视频集的v第t帧,我们选择前后n帧作为其邻居集,从而t帧的邻居集为[t-n,t n],这样构造的目的,是为了剔除若帧数差异太大,导致运动差异过大,最终使得优化不够鲁棒,关于邻居集的光流估计,是针对于两帧之间的光流,可以使用任何一种光流估计的技术,例如深度学习的raft或者superglue算法,光流估计技术的选取为本领域的常规设置,此处不作赘述。
[0080]
在步骤(4)的具体实施中,所述非刚性神经体渲染模型包括标准空间的几何模块、标准空间的颜色模块和其他帧变到标准空间的变形场模块。
[0081]
具体地,所述标准空间的几何模块(1)为:
[0082]
x

σ:f
θ
(x)
[0083]
其中,θ是标准空间的几何模型参数,该模型会将标准空间中的一个点,解码出标准空间几何的符号距离函数,σ为输出的标量属性,f
θ
(x)为建模x与σ之间的映射的含参隐式函数。
[0084]
所述标准空间的颜色模块(2)为:
[0085]
(p,v,c
appe
(t))

c:c
ψ
(p,v,c
appe
(i))
[0086]
其中θ是标准空间的几何模型参数,该模型会将标准空间中的一个点,解码出标准空间几何的符号距离函数,ψ是标准帧的颜色模型参数,p是标准空间的位置,v是p点在标准空间的射线方向,c
appe
(i)对应i张图片的外观条件向量,c为颜色属性(rgb),c
ψ
为建模(p,v,c
appe
(t))的含参隐式函数,t表示第t帧。
[0087]
所述其他帧变到标准空间的变形场模块(3)为:
[0088]
(p(t),c
def
(t))

p

(t):d
η
(p(t),c
def
(t))
[0089]
其中,η是从将第t帧中的点变到标准空间的变形场的参数,p(t)表示t帧下的点的位置,p’(t)表示变形到标准帧的位置,c
def
(t)是对应t帧的变形条件向量。
[0090]
对于标准空间的渲染模块c(o,v):
[0091][0092][0093]
φ
γ
(x)=γe-γx
/(1 e-γx
)-2
[0094]
其中,o是图片i对应的相机中心,v是像素u与相机中心连接的射线,s
near
与s
far
分别是图片i对应的相机的近远平面,其中ω(s)是沿着射线v再对应点p(s)处的密度,通过再该点的符号距离函数做变换得到,φ
γ
(x)为对密度函数作用的一种非线性激活函数,在这个函数的激活下,可以使得密度达到无偏的属性,γ是一个超参数,用于控制几何与渲染的稀疏性;
[0095]
从而结合变形场模块以及标准帧的渲染模块,通过变形场模块将第t帧的信息变换到标准帧模块,我们可以得到第t帧的所述非刚性神经体渲染模型为:
[0096]
[0097]
其中,o是第t帧的相机中心,s
near
与s
far
是第t帧的相机对应的近远平面,ω(s)是沿着射线v再对应点p(s)在标准空间中变形后的点密度,v(u,t)表示的是对于t帧,像素u对应的视角方向,j对应的是该变形在p点对应的雅可比矩阵。
[0098][0099][0100]
需要说明的是,所述针对目标图片学习含参隐式函数模型均为全连接神经网络模型,其中包括几何模块,颜色模块,以及变形场模块。依次包括:输入层、全连接层、非线性层、池化层、全连接层与输出层。
[0101]
在步骤(5)的具体实施中,为了增加重建动态函数在时序上的一致性,考虑对动态函数进行2个维度的分解,沿着相机中心的射线方向以及相机的平面内:
[0102][0103]
其中x(u,t)是第t帧,像素u与相机的中心形成的射线与第t帧几何的可见的交点,u(t)是第t帧像素u的位置,du/dt,是像素u在t帧的运动速度。
[0104]
通过对射线的距离体渲染可以得到交点的位置:
[0105][0106]
首先通过求解运动分解后的6维线性方程组
[0107][0108]
可以得到空间位置关于相平面的运动:
[0109][0110]
并且求解的过程是可微,其中x’(u,t)是x(u,t)通过变形场到变换到标准空间中的点:
[0111]
x

(u,t)=d
η
(x(u,t),c
def
(t)),
[0112]
是在标准空间的几何模块关于空间位置的梯度;此外可以由第t帧的几何投影到图像上的对应关系获得,从而由于求解线性场方程是可微的,从而上述线性方程的求解,可以保证几何在时序上一致性的关系传递梯度到模型中。
[0113]
根据上面的动态运动建模流程,在几何与渲染上建立颜色与每一帧图片之间的联
系,另外还可以通过光流建立帧与帧之间在时序上的几何之间的关系,并且将其离散后,构建以下的损失函数学习以上所建立模块(1,2,3)的隐式函数,当各项损失收敛时,模型优化完成。
[0114][0115]
其中各项损失分别为:
[0116]
表示渲染的颜色与当前帧图片的颜色一致的l
color

[0117][0118]
关于几何的规则项,约束几何尽可能满足eikonal方程的约束l
reg

[0119][0120]
关于前景区域的面罩约束l
mask
,使用交叉熵损失函数:
[0121][0122]
其中面罩的估计是通过体渲染对密度的积分得到:
[0123][0124]
关于在时序上几何一致的约束:
[0125][0126]
上述模型中的θ,η,表示多层感知器的可学习参数,该系统的输入参数包括:第t帧的位置p(t),第t帧的像素u对应的检索方向v(u,t),第t帧的变形条件向量c_{def}(t),第t帧的外观条件向量c_{appe}(t)。输出得到该点的符号距离值以及该点的颜色信息,ig(u,t)表示第t张真值颜色图片的第u像素的rgb值,bce表示交叉熵函数,用于约束生成的面罩与真值的面罩要一致,mg(u,t)表示第t张真值面罩图片的第u像素的面罩值,δu(t,t

)表示第t帧与第t

帧在像素u出的光流值。
[0127]
从而,待上述优化结束,我们可以得到优化好的标准帧几何模块,渲染模块以及从其他帧变形到标准帧的变形场模块。
[0128]
在步骤(6)的具体实施中,对于动态视频每一帧几何的提取,对于某一帧,我们首先会对给该帧建立一个均匀的3d有界的分辨率为(m1,m2,m3)网格g,然后通过变形场模块,将网格g变形到标准帧,从标准帧中通过标准帧的几何模块以及颜色模块获得该网格g上每一个格点的几何属性以及颜色属性,其中几何属性,就是每个格点的符号距离值,我们通过经典的marching cubes算法可以得到网格g的对应的等值曲面s,该等值曲面s就对应于这一帧的几何。
[0129]
对于动态视频每一帧的颜色提取,对于某一帧,我们借助于虚拟的相机c,其相机参数为π,使用我们的颜色模块,合成该相机视角下的新图片i;对于待合成图像i中的每一
个像素u的颜色值的获得方式:通过相机c的相机中心沿着像素u生成一条射线r(u),在相机c的近远平面内,对射线均匀采样,从而得到采样点序列{r(ui)};再通过变形场模块将采样点集{r(ui)}变到标准帧,从标准帧中通过标准帧的几何模块以及颜色模块获得其采样点上的几何属性以及颜色属性;最后借助于体渲染方法,对射线上采样的几何属性以及颜色属性进行累积求和,进而得到像素u的颜色值。
[0130]
与前述的基于运动分解的动态物体重建方法的实施例相对应,本技术还提供了基于运动分解的动态物体重建装置的实施例。
[0131]
图2是根据一示例性实施例示出的一种基于运动分解的动态物体重建装置框图。参照图2,该装置可以包括:
[0132]
分割模块21,用于对包含目标物体运动过程的初始动态视频集合v逐帧进行分割,得到所述初始动态视频集合v中每帧图像的前景动态区域;
[0133]
多视角重建模块22,用于使用多视角重建的方法,得到所述初始动态视频集合v中每帧图像的相机外参数与内参数;
[0134]
构造模块23,用于对所述初始动态视频集合v的每一帧,构造邻居集,并借助于预训练的光流方法对所述邻居集中所选的图片对进行光流估计,得到两帧之间的光流;
[0135]
建模模块24,用于根据所述初始动态视频集合v中每帧图像的前景动态区域、相机外参数与内参数,建立非刚性神经体渲染模型;
[0136]
模型优化模块25,用于根据所述非刚性神经体渲染模型和所述光流,结合时序的一致性约束,得到优化的非刚性神经体渲染模型;
[0137]
重建模块26,用于根据所述优化的非刚性神经体渲染模型,重建所述目标物体每一帧的几何和颜色。
[0138]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0139]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0140]
相应的,本技术还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于运动分解的动态物体重建方法。如图3所示,为本发明实施例提供的一种基于运动分解的动态物体重建方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0141]
相应的,本技术还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于运动分解的动态物体重建方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘
或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0142]
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0143]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献