App客户端

一种残膜回收机防缠绕挑膜装置的制一种秧草收获机用电力驱动行走机构

首页 > 计算推算,计数设备的制造及其应用技术 > 正文

一种自监督单目景深位姿估计方法与流程

2022-07-13 17:13:22 来源：中国专利 TAG：

1.本发明属于计算机视觉景深估计技术领域，具体涉及一种自监督单目景深位姿估计方法。

背景技术：

2.单目景深估计因其低应用成本(相比其他传感器，单目相机价格低、能耗低)，在边缘端场景，如ar、自动驾驶、智能手机中有很好的发展潜力。但得益于神经网络发展，现有的单目景深估计已得到了不错的精度指标。然而，在对各种图片进行景深估计和位姿估计时，现有网络参数量计算量过大，对平台算力要求过高，以至于无法在端设备实时运行。

技术实现要素：

3.为解决现有技术中的缺陷，本发明公开一种自监督单目景深位姿估计方法，减少了特征提取和特征解码过程中网络计算量和模型存储量，同时可在计算存储资源受限的端侧设备中同时推理并更新模型，解决算法计算与存储开销过大无法在端侧实时运行的问题。
4.一种自监督单目景深位姿估计方法，包括：
5.获取原始特征图片；
6.将原始特征图片输入预先建立好的自监督单目景深估计网络模型fd和自监督单目位姿估计网络模型fp中进行特征提取，输出带有景深和位姿的特征图片；
7.所述自监督单目景深估计网络模型fd和自监督单目位姿估计网络模型fp均包括2d卷积模块、基础残差模块、block_e模块和block_m模块。
8.进一步的，所述2d卷积模块包括依次连接的2d卷积层、归一化层和激活函数层。
9.进一步的，所述block_e模块和block_m模块均包括block0模块；
10.所述block0模块模块的构建方法包括：
11.输入维数为c0*h0*w0的特征图，经过2d卷积模块，得到维数为(c0/2)*h0*w0的特征图，记作特征图f；
12.特征图f依次经过逐深度卷积层和归一化层得到维度(c0/4)*h0*w0的特征图f1；特征图f依次经过逐点卷积层和归一化层得到维度(c0/4)*h0*w0的特征图f2；
13.将特征图f、特征图f1以及特征图f2；沿着通道方向串联，得到维数为c0*h0*w0的特征图f3；
14.将特征图f3沿着通道方向做随机洗牌操作，得到维数为c0*h0*w0的输出特征图f4。
15.进一步的，所述block_e模块的构建方法包括：
16.维数为c1*h1*w1的输入特征图e0经过2d卷积模块，得到维数为c2*h2*w2的特征图e1；
17.将特征图e1输入所述block0，得到维数为c2*h2*w2的特征图e2和维数为(c2/2)*h2*w2的主要特征图e3；
18.将维数为c1*h1*w1的输入特征图e0经过逐点卷积层，得到维数为c2*h2*w2的特征图e4；
19.将特征图e3和特征图e4逐像素相加，再经过一个激活函数，得到维数为c2*h2*w2的特征图e5，作为模块block_e的输出特征图。
20.进一步的，所述block_m模块的构建方法包括：
21.维数为c3*h3*w3的输入特征图m0依次经过所述block0、激活函数以及所述block0，得到维数为c3*h3*w3的特征图m1；
22.将维数为c3*h3*w3的输入特征图m0和特征图m1逐像素相加，再经过一个激活函数，得到维数为c3*h3*w3的特征图m2，作为模块block_m的输出特征图。
23.进一步的，所述自监督单目景深估计网络模型fd的构建方法包括：
24.s11：输入图片经过一个2d卷积模块得到特征图f
main0
，再经过一个池化层得到特征图el0，其中所述输入图片通道数、高和宽分别是3、h、w；
25.s12：特征图el0依次经过两个resnet的基础残差模块，得到特征图el1，其中经过第一个基础残差模块得到主要特征图f
main1
；
26.s13：特征图el1依次经过所述block_e模块，得到的特征图通道数变为输入特征图通道数的2倍，高和宽降为一半和所述block_m模块得到特征图el2；block_e模块中得到主要特征图f
main2
；
27.s14：特征图el2作为输入，重复s13步骤2次得到特征图el3、el4，所得主要特征图分别记作f
main3
、f
main4
；
28.s15：特征图el4经过一个2d卷积模块，并进行上采样，使高和宽扩充为两倍，得到特征图cl4，特征图cl4与所述f
main3
沿着通道方向串联，经过2d卷积模块得到特征图dl4；dl4再经过一个2d卷积层和sigmoid函数，得到通道数为1的特征图dl4’
，对特征图dl4’
进行上采样，使得高和宽增大一倍，记作特征图d4；
29.s16：所述特征图dl4经过一个2d卷积模块，并进行上采样，使高和宽扩充为两倍；得到特征图cl3，特征图cl3与所述f
main2
以及d4沿着通道方向串联，经过2d卷积模块得到特征图dl3；dl3再经过一个2d卷积层和sigmoid函数，得到通道数为1的特征图dl3’
，对特征图dl3’
进行上采样，使得高和宽增大一倍，记作特征图d3；
30.s17：重复s16步骤两次，分别得到特征图dl2和dl1，以及上采样后的特征图d2和d1；
31.s18：特征图dl1经过一个2d卷积模块并进行上采样，所得特征图cl0与特征图d1沿着通道方向串联，再经过一个2d卷积模块，得到特征图dl0；
32.s19：特征图dl0经过一个2d卷积层和一个sigmoid函数，得到景深估计网络模型的最终网络输出，该输出的通道数为1，分辨率与输入图片相同。
33.进一步的，所述自监督单目位姿估计网络模型fd的构建方法包括：
34.s21：用于估计位姿的输入图片沿着通道方向拼接在一起，通道数、高和宽分别是c、h、w；输入图片依次经过一个2d卷积模块、池化层、两个基础残差模块，得到特征图w1；
35.s22：特征图w1依次经过所述block_e和block_m模块，并重复此过程两次，得到特征图w2；
36.s23：特征图w2经过4次2d卷积模块，并经过一个逐点卷积层，得到的特征图w3，特征图w3通道数为输入图片数减1，再乘以6，对所得特征图沿着高和宽方向取平均数，输出带有
位姿估计结果的6维向量。
37.进一步的，所述6维向量包括为每个像素点带有3个旋转欧拉角和3个平移量的特征图。
38.与现有技术相比，本发明所达到的有益效果是：
39.本发明通过2d卷积模块、基础残差模块、block_e模块和block_m模块构建自监督单目景深估计网络模型fd和自监督单目位姿估计网络模型fp，对输入的图片进行景深估计和位姿估计，在网络模型的跳跃连接中仅使用主要特征，减少了特征提取和特征解码过程中网络计算量和模型存储量，同时可在计算存储资源受限的端侧设备中同时推理并更新模型，解决算法计算与存储开销过大无法在端侧实时运行的问题。
附图说明
40.图1为实施例1中自监督单目景深位姿估计方法流程图；
41.图2为实施例1中2d卷积模块的结构图；
42.图3为实施例1中block0模块的的结构图；
43.图4为实施例1中block_e模块的结构图；
44.图5为实施例1中block_m模块的结构图；
45.图6为实施例1中自监督单目景深估计网络模型fd的结构图；
46.图7是实施例1中自监督单目位姿估计网络模型fp的结构图。
具体实施方式
47.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
48.本实施例提供了一种自监督单目景深位姿估计方法，用于轻量级的实时自监督单目rgb图像景深和位姿估计，该方法基于两种网络模型：轻量级的自监督单目景深估计网络结构fd和轻量级的自监督单目位姿估计网络结构fp，对输入的图片进行景深估计和位姿估计，该自监督轻量级单目景深估计网络可在计算存储资源受限的端侧设备上实时执行，解决算法计算、存储开销过大无法在端设备实时运行的问题。
49.实施例1
50.本实施例所述的轻量级的自监督单目景深估计网络模型fd和和轻量级的自监督单目位姿估计网络模型fp均包括2d卷积模块、基础残差模块、block_e模块和block_m模块。
51.一、构建基础网络结构
52.如图2所示，2d卷积模块包括依次连接的2d卷积层、归一化层和激活函数层。
53.如图3所示，block0模块包括2d卷积模块，用于对输入特征图的基础特征提取，block0模块的构建方法为：
54.输入维数为c0*h0*w0的特征图，经过2d卷积模块，得到维数为(c0/2)*h0*w0的特征图，记作特征图f；
55.特征图f依次经过逐深度卷积层和归一化层得到维度(c0/4)*h0*w0的特征图f1；特征图f依次经过逐点卷积层和归一化层得到维度(c0/4)*h0*w0的特征图f2；
56.将特征图f、特征图f1以及特征图f2；沿着通道方向串联，得到维数为c0*h0*w0的特
征图f3；
57.将特征图f3沿着通道方向做随机洗牌操作，得到维数为c0*h0*w0的输出特征图f4。
58.如图4所示，block_e模块包括2d卷积模块和block0模块，通过block_e模块对输入图片的特征提取，扩充了提取通道，能得到更多的特征图进行特征提取，block_e模块的构建方法为：
59.维数为c1*h1*w1的输入特征图e0经过2d卷积模块，得到维数为c2*h2*w2的特征图e1；
60.将特征图e1输入所述block0，得到维数为c2*h2*w2的特征图e2和维数为(c2/2)*h2*w2的主要特征图e3；
61.将维数为c1*h1*w1的输入特征图e0经过逐点卷积层，得到维数为c2*h2*w2的特征图e4；
62.将特征图e3和特征图e4逐像素相加，再经过一个激活函数，得到维数为c2*h2*w2的特征图e5，作为模块block_e的输出特征图。
63.如图5所示，block_m模块包括2d卷积模块和block0模块，通过block_m模块对经过block_e扩充通道后的特征进一步编码，在维持原有通道数的同时，减少了特征提取和特征解码的计算量，提高了自监督单目景深或位姿估计的精度，block_m模块的构建方法为：
64.维数为c3*h3*w3的输入特征图m0依次经过所述block0、激活函数以及所述block0，得到维数为c3*h3*w3的特征图m1；
65.将维数为c3*h3*w3的输入特征图m0和特征图m1逐像素相加，再经过一个激活函数，得到维数为c3*h3*w3的特征图m2，作为模块block_m的输出特征图。
66.二、构建自监督单目景深估计网络模型fd
67.如图6所示，自监督单目景深估计网络模型fd的构建方法包括：
68.s11：输入图片经过一个2d卷积模块得到特征图f
main0
，再经过一个池化层得到特征图el0，其中所述输入图片通道数、高和宽分别是3、h、w；
69.s12：特征图el0依次经过两个resnet的基础残差模块，得到特征图el1，其中经过第一个基础残差模块得到主要特征图f
main1
；
70.s13：特征图el1依次经过所述block_e模块，得到的特征图通道数变为输入特征图通道数的2倍，高和宽降为一半和所述block_m模块得到特征图el2；block_e模块中得到主要特征图f
main2
；
71.s14：特征图el2作为输入，重复s13步骤2次得到特征图el3、el4，所得主要特征图分别记作f
main3
、f
main4
；
72.s15：特征图el4经过一个2d卷积模块，并进行上采样，使高和宽扩充为两倍，得到特征图cl4，特征图cl4与所述f
main3
沿着通道方向串联，经过2d卷积模块得到特征图dl4；dl4再经过一个2d卷积层和sigmoid函数，得到通道数为1的特征图dl4’
，对特征图dl4’
进行上采样，使得高和宽增大一倍，记作特征图d4；
73.s16：所述特征图dl4经过一个2d卷积模块，并进行上采样，使高和宽扩充为两倍；得到特征图cl3，特征图cl3与所述f
main2
以及d4沿着通道方向串联，经过2d卷积模块得到特征图dl3；dl3再经过一个2d卷积层和sigmoid函数，得到通道数为1的特征图dl3’
，对特征图dl3’
进行上采样，使得高和宽增大一倍，记作特征图d3；
74.s17：重复s16步骤两次，分别得到特征图dl2和dl1，以及上采样后的特征图d2和d1；
75.s18：特征图dl1经过一个2d卷积模块并进行上采样，所得特征图cl0与特征图d1沿着通道方向串联，再经过一个2d卷积模块，得到特征图dl0；
76.s19：特征图dl0经过一个2d卷积层和一个sigmoid函数，输出带有景深估计结果的特征图。
77.三、构建自监督单目位姿估计网络模型fp
78.如图7所示，自监督单目位姿估计网络模型fp的构建方法包括：
79.s21：用于估计位姿的输入图片沿着通道方向拼接在一起，通道数、高和宽分别是c、h、w；输入图片依次经过一个2d卷积模块、池化层、两个基础残差模块，得到特征图w1；
80.s22：特征图w1依次经过所述block_e和block_m模块，并重复s22步骤两次，得到特征图w2；
81.s23：特征图w2经过4次2d卷积模块，并经过一个逐点卷积层，得到的特征图w3，特征图w3通道数为输入图片数减1，再乘以6，对所得特征图沿着高和宽方向取平均数，输出带有位姿估计结果的6维向量。
82.其中，所述6维向量包括为每个像素点带有3个旋转欧拉角和3个平移量的特征图。
83.四、对图片进行景深和位姿处理
84.如图1所示，一种自监督单目景深位姿估计方法，具体步骤包括：
85.获取原始特征图片；
86.将原始特征图片输入预先构建好的自监督单目景深估计网络模型fd和自监督单目位姿估计网络模型fp中进行特征提取，输出带有景深和位姿估计结果的特征图。
87.本发明通过2d卷积模块、基础残差模块、block_e模块和block_m模块构建自监督单目景深估计网络模型fd和自监督单目位姿估计网络模型fp，对输入的图片进行景深估计和位姿估计，在网络模型的跳跃连接中仅使用主要特征，减少了特征提取和特征解码过程中网络计算量和模型存储量，同时可在计算存储资源受限的端侧设备中同时推理并更新模型，解决算法计算与存储开销过大无法在端侧实时运行的问题。
88.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
89.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
90.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
91.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
92.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度学习网络的中压线路合环电流估算与风险评估方法

相关文献