一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种平衡数据偏好的深度补全系统及方法与流程

2022-02-22 08:04:54 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,具体而言,涉及一种平衡数据偏好的深度补全系统及方法。


背景技术:

2.近年来,随着计算机视觉技术的发展,自动驾驶、虚拟现实、位姿估计、目标检测等领域都出现了令人瞩目的成就,而深度也逐渐成为了研究热点。但受限于rgb-d相机、激光雷达等传感器的局限性,精确稠密的深度信息的获取依旧是一件困难的事情。激光雷达虽然精度很高,但其本身成本昂贵,且获得的深度信息稀疏不规律。rgb-d相机虽然能获得稠密的深度信息,但它的感知范围有限,效果受到环境影响比较严重。为了获得稠密的精确深度图,克服传感器本身的缺陷,已经有大量的工作开始研究补全给定的稀疏深度图来获得稠密深度图的方法,被称为深度补全。
3.由于稀疏深度测量丢失了大量的环境信息,尤其是物体几何信息,所以早期只基于稀疏深度图的深度补全效果较差,物体边界模糊,深度混叠严重。为了弥补稀疏深度采样过程中丢失的信息,引入额外信息就成为一种必要手段。rgb图像包含了场景丰富的颜色纹理信息且获取成本低,所以近年来深度补全主要都以rgb图片为引导,补全来自激光雷达的稀疏深度图。
4.尽管现有方法都取得了不错的结果,但它们将注意力集中在不同模态特征融合或构建差异性分支上,忽略了不同模态数据的特殊性对结果的影响。事实上,稀疏深度信息作为场景深度值的降采样,它的高频信息缺失且混杂大量噪声,而低频信息就准确很多。彩色图却相反,它包含大量与高频信息相关的场景几何信息,但在低频区域,彩色图片丰富的纹理与颜色变化却可能在这些区域的深度估计结果中引入噪声。又因为在稠密深度图中,低频成分占绝大部分,这就导致学习到的模型对稀疏深度信息存在“数据偏好”,使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息,rgb图片信息利用不足,最终获得一个次优解。


技术实现要素:

5.为了克服上述问题或者至少部分地解决上述问题,本发明实施例提供一种平衡数据偏好的深度补全系统及方法,可缓解高频成分对稀疏深度信息的偏好,有效提高深度补全结果的精度。
6.本发明的实施例是这样实现的:
7.第一方面,本发明实施例提供一种平衡数据偏好的深度补全系统,包括特征提取模块、高低频估计模块以及图像补全模块,其中:
8.特征提取模块,用于分别提取稀疏深度图和rgb图片的特征;
9.高低频估计模块,用于根据稀疏深度图和rgb图片的特征采用双分支结构分别进行低频成分估计和高频成分估计并进行图像恢复,以得到低频深度图和高频深度图;
10.图像补全模块,用于根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图,完成图像深度补全。
11.为了解决现有技术中对稀疏深度信息存在“数据偏好”,使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息,rgb图片信息利用不足的技术问题,本系统通过特征提取模块采用独立的编码解码网络分别提取稀疏深度图和rgb图片这两个异构数据的特征,然后高低频估计模块采用“双分支结构”分别恢复稠密深度图的高频成分和低频成分,达到在低频成分恢复过程中稀疏深度信息占优,高频成分恢复过程rgb图片信息占优的目的,通过图像补全模块将两者进行结合,以得到一个稠密深度图,从而缓解高频成分对稀疏深度信息的偏好,有效提高深度补全结果的精度。
12.基于第一方面,在本发明的一些实施例中,上述特征提取模块包括第一提取子模块和第二提取子模块,其中:
13.第一提取子模块,用于采用编码解码网络eds提取稀疏深度图的特征;
14.第二提取子模块,用于采用编码解码网络ed
rgb
提取rgb图片的特征。
15.基于第一方面,在本发明的一些实施例中,上述双分支结构包括低频分支和高频分支。
16.基于第一方面,在本发明的一些实施例中,上述高低频估计模块包括低频估计子模块和高频估计子模块,其中:
17.低频估计子模块,用于基于低频分支根据稀疏深度图的特征进行低频成分估计并进行图像恢复,以得到低频深度图;
18.高频估计子模块,用于基于高频分支根据rgb图片的特征进行高频成分估计并进行图像恢复,以得到高频深度图。
19.第二方面,本发明实施例提供一种平衡数据偏好的深度补全方法,包括以下步骤:
20.分别提取稀疏深度图和rgb图片的特征;
21.根据稀疏深度图和rgb图片的特征采用双分支结构分别进行低频成分估计和高频成分估计并进行图像恢复,以得到低频深度图和高频深度图;
22.根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图,完成图像深度补全。
23.为了解决现有技术中对稀疏深度信息存在“数据偏好”,使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息,rgb图片信息利用不足的技术问题,本发明采用独立的编码解码网络分别提取稀疏深度图和rgb图片这两个异构数据的特征,采用“双分支结构”分别恢复稠密深度图的高频成分和低频成分,达到在低频成分恢复过程中稀疏深度信息占优,高频成分恢复过程rgb图片信息占优的目的,从而缓解高频成分对稀疏深度信息的偏好,有效提高深度补全结果的精度。
24.基于第二方面,在本发明的一些实施例中,上述分别提取稀疏深度图和rgb图片的特征的方法包括以下步骤:
25.采用编码解码网络eds提取稀疏深度图的特征;
26.采用编码解码网络ed
rgb
提取rgb图片的特征。
27.基于第二方面,在本发明的一些实施例中,上述双分支结构包括低频分支和高频分支。
28.基于第二方面,在本发明的一些实施例中,上述根据稀疏深度图和rgb图片的特征采用双分支结构分别进行低频成分估计和高频成分估计并进行图像恢复,以得到低频深度图和高频深度图的方法包括以下步骤:
29.基于低频分支根据稀疏深度图的特征进行低频成分估计并进行图像恢复,以得到低频深度图;
30.基于高频分支根据rgb图片的特征进行高频成分估计并进行图像恢复,以得到高频深度图。
31.第三方面,本技术实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第二方面中任一项的方法。
32.第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第二方面中任一项的方法。
33.本发明实施例至少具有如下优点或有益效果:
34.本发明实施例提供一种平衡数据偏好的深度补全系统及方法,解决了现有技术中对稀疏深度信息存在“数据偏好”,使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息,rgb图片信息利用不足的技术问题,本发明采用独立的编码解码网络分别提取稀疏深度图和rgb图片这两个异构数据的特征,采用“双分支结构”分别恢复稠密深度图的高频成分和低频成分,达到在低频成分恢复过程中稀疏深度信息占优,高频成分恢复过程rgb图片信息占优的目的,从而缓解高频成分对稀疏深度信息的偏好,有效提高深度补全结果的精度。
附图说明
35.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
36.图1为本发明实施例一种平衡数据偏好的深度补全系统的原理框图;
37.图2为本发明实施例一种平衡数据偏好的深度补全方法的流程图;
38.图3为本发明实施例编码解码网络的结构示意图;
39.图4为本发明实施例低频分支结构示意图;
40.图5为本发明实施例图生成网络的结构示意图;
41.图6为本发明实施例高频分支结构示意图;
42.图7为本发明实施例基于注意力的自卷积融合示意图;
43.图8为本发明实施例提供的一种电子设备的结构框图。
44.图标:100、特征提取模块;110、第一提取子模块;120、第二提取子模块;200、高低频估计模块;210、低频估计子模块;220、高频估计子模块;300、图像补全模块;101、存储器;102、处理器;103、通信接口。
具体实施方式
45.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
46.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
48.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
49.实施例
50.如图1所示,第一方面,本发明实施例提供一种平衡数据偏好的深度补全系统,包括特征提取模块100、高低频估计模块200以及图像补全模块300,其中:
51.特征提取模块100,用于分别提取稀疏深度图和rgb图片的特征;
52.高低频估计模块200,用于根据稀疏深度图和rgb图片的特征采用双分支结构分别进行低频成分估计和高频成分估计并进行图像恢复,以得到低频深度图和高频深度图;上述双分支结构包括低频分支和高频分支。
53.图像补全模块300,用于根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图,完成图像深度补全。
54.为了解决现有技术中对稀疏深度信息存在“数据偏好”,使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息,rgb图片信息利用不足的技术问题,本系统通过特征提取模块100采用独立的编码解码网络分别提取稀疏深度图和rgb图片这两个异构数据的特征,然后高低频估计模块200采用“双分支结构”分别恢复稠密深度图的高频成分和低频成分,达到在低频成分恢复过程中稀疏深度信息占优,高频成分恢复过程rgb图片信息占优的目的,通过图像补全模块300将两者进行结合,以得到一个稠密深度图,从而缓解高频成分对稀疏深度信息的偏好,有效提高深度补全结果的精度。
55.如图1所示,基于第一方面,在本发明的一些实施例中,上述特征提取模块100包括第一提取子模块110和第二提取子模块120,其中:
56.第一提取子模块110,用于采用编码解码网络提取稀疏深度图的特征;
57.第二提取子模块120,用于采用编码解码网络提取rgb图片的特征。
58.稀疏深度图与rgb图片属于不同模态的信息,与让异态信息直接在低阶融合后提取特征的策略不同,本系统通过第一提取子模块110和第二提取子模块120使用两个独立的“编码解码网络”和分别对它们进行特征提取,这有助于避免不同模态数据在特征提取过程
中相互干扰。
59.如图1所示,基于第一方面,在本发明的一些实施例中,上述高低频估计模块200包括低频估计子模块210高频估计子模块220,其中:
60.低频估计子模块210,用于基于低频分支根据稀疏深度图的特征进行低频成分估计并进行图像恢复,以得到低频深度图;
61.高频估计子模块220,用于基于高频分支根据rgb图片的特征进行高频成分估计并进行图像恢复,以得到高频深度图。
62.通过低频估计子模块210利用稀疏深度数据中的低频信息,恢复稠密深度图的低频成分,以得到低频深度图;通过高频估计子模块220利用rgb图像数据中的高频信息,缓解模型对稀疏深度信息过度偏好而造成的彩色信息利用不充分的问题,以得到高频深度图。
63.如图2-7所示,第二方面,本发明实施例提供一种平衡数据偏好的深度补全方法,包括以下步骤:
64.s1、分别提取稀疏深度图和rgb图片的特征;
65.进一步地,采用编码解码网络eds提取稀疏深度图的特征;采用编码解码网络ed
rgb
提取rgb图片的特征。
66.在本发明的一些实施例中,稀疏深度图与rgb图片属于不同模态的信息,与让异态信息直接在低阶融合后提取特征的策略不同,本方法先使用两个独立的“编码解码网络”eds和ed
rgb
分别对它们进行特征提取,这有助于避免不同模态数据在特征提取过程中相互干扰。其中“编码解码网络”使用了unet网络架构,如图3所示,图中(a)表示用于特征提取的“编码解码网络”的具体结构,(b)表示用于提取rgb图片特征的网络ed
rgb
,(c)表示用于提取稀疏深度图特征的网络eds,eds和ed
rgb
不共享参数。
67.s2、根据稀疏深度图和rgb图片的特征采用双分支结构分别进行低频成分估计和高频成分估计并进行图像恢复,以得到低频深度图和高频深度图;上述双分支结构包括低频分支和高频分支。
68.进一步地,基于低频分支根据稀疏深度图的特征进行低频成分估计并进行图像恢复,以得到低频深度图;基于高频分支根据rgb图片的特征进行高频成分估计并进行图像恢复,以得到高频深度图。
69.在本发明的一些实施例中,“双分支结构”包含一个低频分支与一个高频分支,其中低频分支的目的是充分利用稀疏深度数据中的低频信息,恢复稠密深度图的低频成分,低频分支结构如图4所示。低频分支本质上是一个低通滤波器。虽然标准卷积可以看作一个滤波器,但它的参数是网络在数据驱动下学习的结果,很难约束其成为特定的滤波器,如低通滤波器。为了实现这个目的,本发明设计了“基于注意力的图卷积网络”来等效“低通滤波器”,并且提出了“图生成网络”,如图5所示,用学习的方法自适应地构建图模型的边。“图生成网络”:构建边的最直接做法是计算点云的三维空间坐标,按最近邻关系生成边。但这种方法会受到点云空间位置(深度值)准确性的影响,而这恰是我们要优化的目标。所以我们提出了自适应学习边的策略,即“边”的构建不是简单通过不准确的位置关系确定,而是通过神经网络学习得到。
70.图模型通常可以表示为g={v,e},其中v表示节点,e表示边。每一个节点v∈v都与其邻域内的部分节点存在连接关系,我们将这些与节点v相连接的节点的集合称为nv,将它
们之间的连接关系称为边ev。此外,节点v的初始状态及它在t时刻的状态分别称为节点状态会随着图卷积的进行动态变化。
71.在本发明中,我们将图片原始分辨率上的每个像素点都视为一个节点,每个节点v∈v的初始状态是“编码解码网络”eds输出的特征图fs对应的n维特征向量,它的邻接结点nv及其对应的边ev都是通过“图生成网络”获得。需要注意的是,这里提到的边都是有向边,即我们构建的图模型是一个有向无环图。
72.具体的,将特征图fs作为输入,先通过一层标准卷积输出一张粗糙的深度图d
coars
,然后按照相机内参k计算每一个节点的三维空间位置:z=d
coars
、将表示xyz的位置图记作p
xyz
。最后,将p
xyz
与特征图f
rgb
相连,经过标准卷积并取整后得到表示节点连接关系的ge。设置每个节点有n条边,那么ge就有2n个通道。例如有e
i,j
∈ge,则e
i,j
是一个1
×
2n的向量:表示(i,j)处节点n条边的向量在xy两个方向上的分量。
73.在发明中,为了用gpu并行运算来加速图卷积过程,我们将每个节点边的数量设置为8,即ge通道数为16。
74.得到图模型后,我们将它作为输入,送到基于注意力的图卷积网络中。图卷积过程用公式可以表示为:
[0075][0076]
其中,p
xyz
是位置图,表示节点的三维空间坐标;fs是从稀疏深度图提取的特征图,表示节点的初始状态;||表示连接特征图;mlp表示多层感知器;α
i,j
表示节点i与节点j之间的注意力值;分别表示在第t 1次图卷积时信息的聚合与状态的更新。
[0077]
最后,用过1
×
1的标准卷积层聚合图卷积输出的特征图,得到稠密深度图的低频成分图d
lf

[0078]
高频分支的目的是充分利用rgb图像数据中的高频信息,缓解模型对稀疏深度信息过度偏好而造成的彩色信息利用不充分的问题。为了达到这个目的,我们将高频成分建模成了低频深度图与稠密深度图的残差。通过这种方式,一方面,模型在低频分支估计低频成分时,可以将高频分支约束成一个高通滤波器,另一方面,高频分支的优化目标由原来的稠密深度图变成残差,这有助于缓解模型对稀疏深度数据的偏好。高频分支结构如图6所示。
[0079]
将来自不同模态的特征图进行多尺度融合,需要注意的是,因为高频信息在rgb图片及稀疏深度图中的分布是区域性的,集中在几何边界及遮挡区域,所以融合这两种模态的信息就是一个空间异变的问题,即不同空间区域需要采用不同数据融合方式。一般的信息融合策略如:将不同模态数据提取的特征图相加或连接,再用标准卷积处理。这种数据融合方法是空间不变的,难以对不同区域采用不同的融合方法。本发明提出了“基于注意力的自卷积融合网络”,即图6中的“self-fusion”模块。具体来讲,我们通过注意力机制让模型自适应地选择信息融合区域,同时,空间异变卷积让网络自适应地控制不同模态数据的融合程度。从而在有效利用稀疏深度信息的同时,尽可能地高效利用rgb图片信息,获得更好的结果。
[0080]
基于注意力的自卷积融合可以表示如图7所示,来自不同模态的特征图f首先通过卷积生成空间注意力图f
att
,然后将注意力图与特征图相乘,用注意力自适应地选择信息融合区域,得到f'。f'一方面通过通道混合得到异态信息在通道上分布均匀的特征图fc's;另一方面通过卷积获得一系列空间异变的卷积核w,该卷积核被用来对多模态信息进行分组卷积,图中分为3组。分组卷积的结果f
fuse
即为多模态信息融合后的特征图,该特征图被用来继续与其他尺度上的多模特信息融合。
[0081]
s3、根据低频深度图和高频深度图采用像素级相加的方法生成稠密深度图,完成图像深度补全。
[0082]
在本发明的一些实施例中,分别从两个分支获得相应的高频深度图d
hf
和低频深度图d
lf
,最终用像素级相加的方法产生稠密深度图d:d=d
lf
d
hf

[0083]
为了解决现有技术中对稀疏深度信息存在“数据偏好”,使模型在高低频信息的恢复过程中都偏好利用稀疏深度信息,rgb图片信息利用不足的技术问题,本发明采用独立的编码解码网络分别提取稀疏深度图和rgb图片这两个异构数据的特征,采用“双分支结构”分别恢复稠密深度图的高频成分和低频成分,达到在低频成分恢复过程中稀疏深度信息占优,高频成分恢复过程rgb图片信息占优的目的,从而缓解高频成分对稀疏深度信息的偏好,有效提高深度补全结果的精度。
[0084]
如图8所示,第三方面,本技术实施例提供一种电子设备,其包括存储器101,用于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行时,实现如上述第二方面中任一项的方法。
[0085]
还包括通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
[0086]
其中,存储器101可以是但不限于,随机存取存储器101(random access memory,ram),只读存储器101(read only memory,rom),可编程只读存储器101(programmable read-only memory,prom),可擦除只读存储器101(erasable programmable read-only memory,eprom),电可擦除只读存储器101(electric erasable programmable read-only memory,eeprom)等。
[0087]
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通
用处理器102,包括中央处理器102(central processing unit,cpu)、网络处理器102(network processor,np)等;还可以是数字信号处理器102(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0088]
在本技术所提供的实施例中,应该理解到,所揭露的方法及系统和方法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0089]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0090]
第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器102执行时实现如上述第二方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器101(rom,read-only memory)、随机存取存储器101(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0092]
对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其它的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献