一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

结合时空增强光度损失的自监督单目深度估计方法和装置

2022-09-03 09:11:32 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,特别是涉及一种结合时空增强光度损失的自监督单目深度估计方法和装置。


背景技术:

2.从图像中估计场景的深度信息,即图像深度估计,是目前计算机视觉中的一个基础而又十分重要的任务。良好的图像深度估计算法可以应用于室外驾驶场景以及室内的小型机器人等领域,具有巨大的应用价值。机器人或者自动驾驶的汽车在进行工作过程中,利用深度估计算法得到场景深度信息辅助机器人进行下一步运动的路径规划或避障。
3.利用图像的深度估计分为有监督和自监督的方法。有监督的方法主要利用神经网络建立图像和深度图之间的映射,在真值的监督下进行训练,使得网络逐渐具备拟合出深度的能力。然而由于有监督方法真值代价较高,自监督的方法在近些年逐渐变为主流。相较于需要双目图像对进行训练的方法,基于序列图像的方法因其适用范围更广成为被研究人员广泛关注的方法。
4.基于序列图像的自监督单目深度框架主要包括一个深度估计网络和一个位姿估计网络,分别预测目标帧的深度,目标帧和源帧的位姿变换。结合估计的深度和位姿,可以将源帧变换到目标帧的坐标系得到重建图像,利用目标帧和重建图像光度上的差别也就是光度损失就可以监督两个网络同时训练。随着光度损失的下降,网络估计的深度就逐渐准确。
5.光度损失生成时需要采用空间变换模型,现有空间变换模型虽然符合理论上刚体变换的方法,但是由于在计算过程中位姿中的平移向量的误差会带来一定的深度估计误差,也就是说,深度越大,深度估计的误差也就越大。另外,为了解决图像中违背光度一致性的运动像素所造成光度损失不准确的问题,现有方式的主要思路是找到在训练过程中过滤掉从一帧到另一帧中光度未变小的像素,生成的二值化掩膜,但是该二值化掩膜只能判别出与相机运动方向相同的物体。


技术实现要素:

6.本发明的发明人发现,造成深度越大,深度估计的误差也就越大的原因如下:空间变换的目的是为了经过空间变换后使得目标帧和源帧中的对应像素在像素平面上重合,假如利用近处的点pn来求解对应像素p
t
和ps的对应关系,如图1所示。自监督深度估计的原理是通过最小化p
t
和ps的光度误差以使得估计的位姿和深度更准。对于近处区域,如图1 所示,在一定数量点的情况下,只有当p
t
和变换后的点pf较为重合时,估计的位姿才可以更准确,深度性能更好。而对于远处区域,如图2所示,只需要预测的旋转矩阵准确即可保证p
t
和ps的光度误差变小,因此如果不区分远近而利用估计的旋转矩阵和平移向量构造光度误差,光度误差不确定度会大大增加,从而造成深度估计的结果变差。
7.本发明所要解决的技术问题是提供一种结合时空增强光度损失的自监督单目深
度估计方法和装置,能够提高光度损失的准确性,进而更好的监督深度网络的学习。
8.本发明解决其技术问题所采用的技术方案是:提供一种结合时空增强光度损失的自监督单目深度估计方法,包括以下步骤:
9.获取图像序列中相邻的若干帧图像;
10.将所述图像输入至训练好的深度学习网络中得到深度信息和位姿信息,其中,所述深度学习网络的光度损失信息基于深度感知像素对应关系的空间变换模型得到,并利用全向自动掩膜来避免运动物体的像素参与光度误差的计算。
11.所述光度损失信息基于深度感知像素对应的空间变换模型得到具体为:
12.对于远处区域利用单应矩阵进行空间变换,并构造第一重建图;其中,所述远处区域将远处区域看作为一个无穷远的平面;
13.利用基础矩阵进行空间变换,并构造第二重建图;
14.通过两种像素对应关系求解出基于所述第一重建图的光度误差图和基于所述第二重建图的光度误差图,然后逐像素选取最小值,得到最终的光度损失信息。
15.所述利用全向自动掩膜来避免运动物体的像素参与光度误差的计算具体为:
16.通过预训练网络预测目标帧的初始深度和初始位姿,并生成初始重建图;
17.将干扰项加到所述初始位姿上,并利用空间变换得到若干假设的重建帧;利用所述假设的重建帧,结合所述目标帧的光度,生成多个光度误差图,并利用所述多个光度误差图得到多个二值化掩膜;
18.从所述多个二值化掩膜中选取最小值作为最终的掩膜。
19.所述干扰项为平移扰动项,包括:[t
max
,0,0]、[-t
max
,0,0]、[0,0,t
max
]和[0,0,-t
max
],其中, t
max
表示初始化的平移向量中的最大值。
[0020]
本发明解决其技术问题所采用的技术方案是:提供一种结合时空增强光度损失的自监督单目深度估计装置,包括:
[0021]
获取模块,用于获取图像序列中相邻的若干帧图像;
[0022]
估计模块,用于将所述图像输入至训练好的深度学习网络中得到深度信息和位姿信息;所述深度学习网络的光度损失信息基于深度感知像素对应关系模块的空间变换模型得到,并利用全向自动掩膜模块来避免运动物体的像素参与光度误差的计算。
[0023]
所述深度感知像素对应关系模块包括:
[0024]
第一构造单元,用于对于远处区域利用单应矩阵进行空间变换,并构造第一重建图;其中,所述远处区域将远处区域看作为一个无穷远的平面;
[0025]
第二构造单元,用于利用基础矩阵进行空间变换,并构造第二重建图;
[0026]
光度损失信息获取单元,用于通过两种像素对应关系求解出基于所述第一重建图的光度误差图和基于所述第二重建图的光度误差图,然后逐像素选取最小值,得到最终的光度损失信息。
[0027]
所述全向自动掩膜模块包括:
[0028]
初始重建图生成单元,用于通过预训练网络预测目标帧的初始深度和初始位姿,并生成初始重建图;
[0029]
二值化掩膜生成单元,用于将干扰项加到所述初始位姿上,并利用空间变换得到若干假设的重建帧;利用所述假设的重建帧,结合所述目标帧的光度,生成多个光度误差
图,并利用所述多个光度误差图得到多个二值化掩膜;
[0030]
掩膜选取单元,用于从所述多个二值化掩膜中选取最小值作为最终的掩膜。
[0031]
所述干扰项为平移扰动项,包括:[t
max
,0,0]、[-t
max
,0,0]、[0,0,t
max
]和[0,0,-t
max
],其中, t
max
表示初始化的平移向量中的最大值。
[0032]
有益效果
[0033]
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明采用深度感知像素对应的方式对远处区域的像素对应关系进行了挖掘,改善了远处区域像素对应不准确的问题,并且利用全向自动掩膜的方式得到一个全方向的二值化掩膜用来避免运动物体的像素参与光度误差的计算。本发明通过改善空间变换以及生成动态物体自动掩膜来提高光度损失的准确性,进而更好的监督深度网络的学习。
附图说明
[0034]
图1是近处点位姿求解示意图;
[0035]
图2是远处点位姿求解示意图;
[0036]
图3是monodepth2基本框架示意图;
[0037]
图4是本发明第一实施方式中光度损失的生成示意图;
[0038]
图5是本发明第一实施方式中全向自动掩膜的示意图。
具体实施方式
[0039]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0040]
本发明的第一实施方式涉及一种结合时空增强光度损失的自监督单目深度估计方法,包括以下步骤:获取图像序列中相邻的若干帧图像;将所述图像输入至训练好的深度学习网络中得到深度信息和位姿信息,其中,所述深度学习网络的光度损失信息基于深度感知像素对应的空间变换模型得到,并利用全向自动掩膜来避免运动物体的像素参与光度误差的计算。
[0041]
本实施方式的方法可以直接用到一般的自监督单目深度估计中,任何以sfmlearner 这一框架为实现原理的工作都可以使用本实施方式的方法。其只需要将原本框架中的空间变换部分采用本实施方式的基于深度感知像素对应的空间变换模型,将自动掩膜部分采用本技术的全向自动掩膜即可。
[0042]
下面以godardetal.的monodepth2的基础框架为例进一步说明本发明。
[0043]
为了更容易理解,下面先介绍monodepth2的整体框架,如图3所示,其输入为序列中相邻三帧rgb图像;输出为目标帧深度,目标帧和源帧之间的位姿变换。
[0044]
本实施方式的基本框架和图3相同。由于本实施方式改进的主要是空间变换生成光度损失和自动掩膜部分的方法,因此先重点介绍monodepth2的这两个部分:
[0045]
monodepth2采用和sfmlearner一样的空间变换模型,根据目标帧i
t
的深度d
t
和目标帧i
t
和源帧is的位姿t
t
→s=[r
t
→s|t
t
→s]。对于目标帧和源帧之间的对应像素p
t
和ps,若其
对应同一个3d点,应满足:
[0046]ds
k-1
ps=d
t
k-1
p
t
[0047]
其中,k是相机的内参。由于单目深度具有尺度模糊性,所以可以变换为下式用于空间变换:
[0048]
ps~kt
t

sdt
k-1
p
t
[0049]
空间几何变换中将kt
t
→sk-1
定义为基础矩阵f,用来帧间像素的对应关系。进而可以利用该关系构建重建帧
[0050]
根据目标帧和重建帧,可以构造光度损失pe,由l1误差和结构相似(ssim)误差组成,具体如下:
[0051][0052]
α是超参数,monodepth2设置为0.85
[0053]
monodepth2的自动掩膜主要是为了解决图像中违背光度一致性的运动像素所造成光度损失不准确的问题。其主要思路是找到在训练过程中过滤掉从一帧到另一帧中光度未变小的像素,生成的二值化掩膜μ如下:
[0054][0055]
[]是iversonbracket,用来生成二值化掩膜。i
t
是目标帧,is是源帧,是空间变换所得到的重建帧。
[0056]
对于空间变换生成光度损失,本实施方式基于深度感知像素对应的空间变换模型得到光度损失量。如图4所示,具体如下:
[0057]
在空间变换过程中,足够远处区域可以看作一个无穷远的平面,而平面满足:
[0058]nt
p d=0
[0059]
其中,n是平面的法向量,p是平面上一个三维点,d是点的深度,经过变换可得:
[0060][0061]
将其带入空间变换的关系中可得:
[0062][0063][0064]
当d
t
无穷大时,也就是对于无穷远平面:
[0065]
ps~kr
t

sdt
k-1
p
t
[0066]
kr
t
→sk-1
被定义为无穷远处的单应矩阵h∞,因此对于远处区域只利用旋转矩阵来进行空间变换进而构造重建图为了进行区分,将利用基础矩阵得到的重建图表示为由于单目尺度估计估计的深度有尺度模糊性,因此无法直接通过预测的深度来选择两种像素对应关系。因此本实施方式设计了自适应选择的方法,具体是通过两种像素对应关
系求解出两个光度误差图,然后逐像素选取最小值,即最终的光度误差为:
[0067][0068]
对于全向自动掩膜,本实施方式将图像序列直接输入模块,得到掩膜结果后将其作用于光度误差上遮挡掉不可靠的部分,如图5所示,具体如下:
[0069]
本实施方式引入了一个monodepth2的预训练网络,预测目标帧的初始深度d
init
和初始帧位姿t
init
,进一步生成一个初始重建图i
init
。由于深度和位姿已经比较准确,因此符合光度一致性的区域的光度误差已经较小,但不符合光度一致性的区域就有潜力变小。
[0070]
针对该思路,通过将干扰项加到初始位姿上,引入了一些干扰后的位姿,利用空间变换后得到一些假设的重建帧。利用这些重建帧ii,其中,i∈{1,2,

},结合目标帧的光度,可以生成多个光度误差图,利用这些光度误差值的大小就可以得到多个二值化掩膜,对应着各个方向运动物体的像素,如下:
[0071]
mi=[pe(i
t
,i
init
),pe(i
t
,ii)]
[0072]
为了捕捉到各个方向运动的物体,将生成的各个掩膜取最小值得到最终的掩膜,即:
[0073]moa
=min(m1,m2,

)
[0074]
本实施方式在实现过程中,只在平移向量上进行了扰动,具体平移扰动项ti: t1=[t
max
,0,0]、t2=[-t
max
,0,0]、t3=[0,0,t
max
]和t4=[0,0,-t
max
],其中,t
max
为初始化的平移向量中的最大值。
[0075]
不难发现,本发明采用深度感知像素对应的方式对远处区域的像素对应关系进行了挖掘,改善了远处区域像素对应不准确的问题,并且利用全向自动掩膜的方式得到一个全方向的二值化掩膜用来避免运动物体的像素参与光度误差的计算。本发明通过改善空间变换以及生成动态物体自动掩膜来提高光度损失的准确性,进而更好的监督深度网络的学习。因此将本实施方式的深度感知像素对应和全向自动掩膜应用到godard et al.的 monodepth2框架中,可以得到精度较高的单目深度估计结果。
[0076]
本发明的第二实施方式涉及一种结合时空增强光度损失的自监督单目深度估计装置,包括:获取模块,用于获取图像序列中相邻的若干帧图像;估计模块,用于将所述图像输入至训练好的深度学习网络中得到深度信息和位姿信息;所述深度学习网络的光度损失信息基于深度感知像素对应关系模块的空间变换模型得到,并利用全向自动掩膜模块来避免运动物体的像素参与光度误差的计算。
[0077]
所述深度感知像素对应关系模块包括:第一构造单元,用于对于远处区域利用单应矩阵进行空间变换,并构造第一重建图;其中,所述远处区域将远处区域看作为一个无穷远的平面;第二构造单元,用于利用基础矩阵进行空间变换,并构造第二重建图;光度损失信息获取单元,用于通过两种像素对应关系求解出基于所述第一重建图的光度误差图和基于所述第二重建图的光度误差图,然后逐像素选取最小值,得到最终的光度损失信息。
[0078]
所述全向自动掩膜模块包括:初始重建图生成单元,用于通过预训练网络预测目标帧的初始深度和初始位姿,并生成初始重建图;二值化掩膜生成单元,用于将干扰项加到所述初始位姿上,并利用空间变换得到若干假设的重建帧;利用所述假设的重建帧,结合所述目标帧的光度,生成多个光度误差图,并利用所述多个光度误差图得到多个二值化掩膜;
掩膜选取单元,用于从所述多个二值化掩膜中选取最小值作为最终的掩膜。其中,所述干扰项为平移扰动项,包括:[t
max
,0,0]、[-t
max
,0,0]、[0,0,t
max
]和[0,0,-t
max
],其中,t
max
表示初始化的平移向量中的最大值。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献