自监督深度网络的训练方法、图像深度的获取方法和装置与流程

2022-02-19 14:59:17 来源：中国专利 TAG：

技术特征：
1.一种自监督深度网络的训练方法，其特征在于，包括：将训练图像对输入到位姿网络中，得到所述训练图像对的位姿偏移，所述训练图像对包括图像t和图像t m；将所述训练图像对输入到偏移网络中，得到所述训练图像对的特征对齐偏移和所述图像t m的对齐特征；将所述训练图像对输入到深度网络中，得到所述图像t的深度图和所述图像t m的深度图；获取所述图像t和所述图像t m的光度一致性损失、时空一致性损失和平滑损失；根据所述图像t m的对齐特征重建所述图像t对应的重建图像，计算所述重建图像和所述图像t的重建损失；根据所述训练图像对的特征对齐偏移和所述图像t m的深度特征，计算得到所述图像t m的对齐深度特征，根据图像t m的对齐深度特征和所述图像t的深度特征，计算得到深度特征损失；将所述深度特征损失和所述重建损失之和确定为深度特征对齐损失；计算所述图像t和所述图像t m的体素密度对齐损失；根据所述光度一致性损失、所述时空一致性损失、所述平滑损失、所述深度特征对齐损失和所述体素密度对齐损失确定总损失；对所述总损失进行优化得到所述位姿网络、偏移网络和所述深度网络的参数。2.根据权利要求1所述的方法，其特征在于，将所述训练图像对输入到偏移网络中，得到所述训练图像对的特征对齐偏移和所述图像t m的对齐特征，包括：提取所述图像t和所述图像t m的特征；将所述图像t和所述图像t m的特征输入到可变形卷积网络中：其中，f
dc
表示所述可变形卷积网络，f
t m
表示所述图像t m的特征，θ
t m
→
t
表示所述训练图像对的特征对齐偏移，表示所述图像t m的对齐特征；其中，f
dc
的计算过程表示为：p
k
是一个核大小为n
×
n的标准卷积的第k个采样偏移，p p
k
δp
k
是可变形卷积在某个位置p处学到的第k个偏移；通过所述变形卷积网络的学习得到所述特征对齐偏移和所述图像t m的对齐特征。3.根据权利要求2所述的方法，其特征在于，计算所述重建图像和所述图像t的重建损失，包括：通过如下公式计算所述重建损失：其中，表示所述重建图像，i
t
表示所述图像t，l
re
表示所述重建损失。4.根据权利要求2所述的方法，其特征在于，根据所述训练图像对的特征对齐偏移和所
述图像t m的深度特征，计算得到所述图像t m的对齐深度特征，根据图像t m的对齐深度特征和所述图像t的深度特征，计算得到深度特征损失，包括：通过如下公式计算所述图像t m的对齐深度特征：其中，表示所述图像t m的深度特征，θ
t m
→
t
表示所述训练图像对的特征对齐偏移，f
dc
表示所述可变形卷积网络，表示所述图像t m的对齐深度特征；通过如下公式计算所述深度特征损失：其中，l
df
表示所述深度特征损失，表示所述图像t的深度特征。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述计算所述图像t和所述图像t m的体素密度对齐损失，包括：根据所述图像t m的深度图得到所述图像t m对应的点云，根据所述图像t的深度图得到所述图像t对应的点云；根据所述图像t m对应的点云以及所述位姿偏移，得到所述图像t m转换后的点云；根据所述图像t对应的点云计算得到所述图像t的体素密度，根据所述图像t m转换后的点云计算得到所述图像t m的体素密度；根据所述图像t的体素密度和所述图像t m的体素密度计算体素密度对齐损失，所述体素密度对齐损失要求所述图像t和所述图像t m中相同位置处的体素中的三维点的数量相同。6.根据权利要求5所述的方法，其特征在于，根据所述图像t对应的点云计算得到所述图像t的体素密度，根据所述图像t m转换后的点云计算得到所述图像t m的体素密度，包括：根据点云中点的位置计算每个点的体素索引v(p)：其中，n
x
，n
y
，n
z
是x，y，z轴上体素的个数，和是体素的形状参数；将点云表达为一个n维向量v，n为点云的总数量；将向量v映射到一个计数向量其中，c
i
通过如下公式计算：c
i
＝g
i
(v)＝n
‑
||sign(|v
‑
i|)||1其中，sign表示符号函数，函数g用于将向量v映射到计数向量c；则所述图像t或者所述图像t m的体素密度为：其中，pc
t
表示所述图像t对应的点云或者所述图像t m转换后的点云，v(pc
t
)表示所述
图像t对应的点云或者所述图像t m转换后的点云的体素索引。7.根据权利要求6所述的方法，其特征在于，根据所述图像t的体素密度和所述图像t m的体素密度计算体素密度对齐损失，包括：采用如下公式计算所述体素密度对齐损失l
vd
：其中，d
kl
表示kl散度，ρ
t
表示所述图像t的体素密度，ρ
t m
→
t
表示所述图像t m的体素密度。8.根据权利要求1所述的方法，其特征在于，获取所述图像t和所述图像t m的光度一致性损失，包括：通过如下公式计算3d点p在图像t m中的投影点p
t m
:p
t m
＝ω(kt
t m
→
t
d(p
t
)k
‑1p
t
)其中，t
t m
→
t
为所述训练图像对的位姿偏移，p
t
为所述图像t中的点，d(p
t
)为所述图像t中的点的深度值，ω为可微扭曲函数，k为相机内参矩阵；根据所述图像t m重建当前帧根据所述图像t m重建当前帧其中，i
t m
表示所述图像t m；所述光度一致性损失l
ph
表示为：其中，i
t
(p)表示所述图像t的点。9.根据权利要求1所述的方法，其特征在于，所述时空一致性损失是内容损失、风格损失和整体变化正则化器的加权和。10.根据权利要求1所述的方法，其特征在于，获取所述图像t和所述图像t m的平滑损失，包括：通过如下公式计算所述平滑损失l
sm
：其中，和分别是水平和垂直方向的梯度，i
t
表示所述图像t，表示逆深度。11.一种图像深度的获取方法，其特征在于，包括：将待确定图像输入至深度网络中，得到所述待确定图像的深度数据，所述深度网络是通过权利要求1
‑
10任一项所述方法训练得到的深度网络。12.一种电子设备，其特征在于，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至10任一项所述的方法。13.一种电子设备，其特征在于，包括：至少一个处理器和存储器；
所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求11所述的方法。14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至10任一项所述的方法。15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求11所述的方法。

技术总结
本发明提供一种自监督深度网络的训练方法、图像深度的获取方法和装置，在基于自监督的深度网络的训练过程中，引入了深度特征对齐损失和体素密度对齐损失，深度特征对齐损失能够提高光照变化区域、反射表面和无纹理区域等场景下网络模型的光度一致性的鲁棒性，体素密度对齐损失能够提高移动物体场景下网络模型的光度一致性的鲁棒性，并通过光度一致性损失、时空一致性损失、平滑损失、深度特征对齐损失和体素密度对齐损失确定总损失，使用该总损失作为网络训练的监督信号，从而能够更加鲁棒地约束跨图一致性，学习到更鲁棒的深度网络。学习到更鲁棒的深度网络。学习到更鲁棒的深度网络。

技术研发人员：沈力陈卓陶大程
受保护的技术使用者：京东科技信息技术有限公司
技术研发日：2021.10.29
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种文化资源实体识别训练数据的自动标注系统及方法与流程

自监督深度网络的训练方法、图像深度的获取方法和装置与流程

相关文献

最热文献