一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于卷积的双目立体匹配网络结构

2022-06-05 06:31:06 来源:中国专利 TAG:


1.本发明属于计算机视觉领域,具体涉及一种基于卷积的双目立体匹配网络结构。


背景技术:

2.计算机视觉是一门研究使用计算机来模拟人的视觉系统的学科。
3.从一个或多个rgb图像进行深度估计是一个长期存在的研究热门问题,在机器人、自动驾驶、物体识别和场景理解、3d建模和动画、增强现实、工业控制和医疗诊断等各个领域都有应用。
4.双目立体匹配技术作为计算机视觉领域的核心之一,其是采用两个位于同一水平线的相机拍摄两幅rgb图像,找到图像中的像素对应关系,通过三角测量原理获得深度。
5.传统双目立体匹配通常分为匹配代价计算、代价聚合、视差计算和后处理四个步骤。但是,传统立体匹配方法针对遮挡区域、弱纹理或存在重复纹理的区域匹配结果不好,对光照、对比度和噪声比较敏感。
6.近些年来,基于深度学习立体匹配方法通过cnn来学习数据的强烈表示也可以达到很好的效果受到广泛的关注,例如mc-cnn方法。但是,基于cnn的立体匹配方法通过cnn获得的匹配计算结果用来初始化匹配代价,之后仍进行与传统立体匹配方法相同的步骤,过程较为繁琐。


技术实现要素:

7.本发明的目的就在于为了解决上述问题而提供了一种基于卷积的双目立体匹配网络结构。
8.本发明通过以下技术方案来实现上述目的:
9.一种基于卷积的双目立体匹配网络结构,包括:
10.特征提取模块,用于提取输入为双目图像对的特征数据,进行处理后输出相应输入图像的第一特征图像;
11.粗糙视差值生成模块,用于获取第一特征图像,进行处理后输出第一特征图像每个像素点的粗糙视差值;
12.视差范围预测模块,用于获取第一特征图像及其每个像素点的粗糙视差值,进行处理后输出每个像素点的视差范围区间;
13.代价空间构建模块,用于获取第一特征图像及其每个像素点的视差范围区间,进行处理后输出第一特征图像在视差范围区间下的四维代价空间;
14.粗糙视差图像生成模块,用于获取四维代价空间,进行处理后输出四维代价空间尺度的粗糙视差图像;
15.精细视差图像生成模块,用于获取粗糙视差图像,进行处理后输出对应双目图像对的视差图像。
16.作为本发明的进一步优化方案,所述特征提取模块包括设置有三个二维卷积的第
一卷积单元、四个残差模块的残差结构单元、四个二维卷积的第二卷积单元、三个反卷积模块的第一反卷积单元、三个二维卷积的第三卷积单元以及三个反卷积模块的第二反卷积单元;
17.其中,
18.所述第一卷积单元对输入的双目图像对处理后分别经残差结构单元、第二卷积单元、第一反卷积单元、第三卷积单元以及第二反卷积单元处理后,由所述第二反卷积单元输出所述第一特征图像。
19.作为本发明的进一步优化方案,所述四个残差模块中的每一个残差模块的输入和输出均作为相邻下一个残差模块的输入;
20.所述第一反卷积单元中三个反卷积模块的每一个反卷积模块的输出均作为相邻下一个反卷积模块的输入;
21.所述第二反卷积单元中三个反卷积模块的每一个反卷积模块的输出均作为相邻下一个反卷积模块的输入,并由第二反卷积单元中的最后一个反卷积模块输出所述第一特征图像。
22.作为本发明的进一步优化方案,所述粗糙视差值生成模块包括:
23.视差初始化单元,用于在初始视差搜索范围内对所述第一特征图像的每个像素点随机初始化n个视差值;
24.视差传播单元,用于将每个像素点随机初始化视差值进行水平和垂直方向传播,使每个像素点拥有5
×
n个随机视差值;
25.视差评估单元,用于每个像素点对5
×
n个随机视差值分别计算匹配相似度,选取匹配相似度最高的视差值作为像素点的粗糙视差值。
26.作为本发明的进一步优化方案,所述视差范围预测模块包括设置有三个三维卷积的第一三维卷积单元以及三个三维反卷积的第一三维反卷积单元,所述第一三维卷积单元获取获取第一特征图像及其每个像素点的粗糙视差值,进行处理后经所述第一三维反卷积单元的最后一个三维反卷积输出像素点视差所在的范围区间;
27.其中,
28.所述三个三维卷积中的每一个三维卷积的输出作为相邻下一个三维卷积的输入;
29.所述三个三维反卷积中的每一个三维反卷积的输出作为相邻下一个三维反卷积的输入。
30.作为本发明的进一步优化方案,所述代价空间构建模块包括第一封装层,用于将所述第一特征图像及其每个像素点的视差范围区间在通道维度内封装成一个四维代价空间。
31.作为本发明的进一步优化方案,所述粗糙视差图像生成模块包括:
32.第一编解码结构单元,用于获取四维代价空间,进行处理后输出对应双目图像对的第二特征图像;
33.粗糙视差回归单元,用于获取第二特征图像,进行处理后输出与所述第二特征图像尺度相同的粗糙视差图像。
34.作为本发明的进一步优化方案,所述精细视差图像生成模块包括:
35.第二封装层,用于获取第一特征图像、第二特征图像和粗糙视差图像并将其在通
道维度封装成第三特征图像;
36.第四卷积单元,用于获取第三特征图像并进行处理后输出与粗糙视差图像尺度相同的精细视差图像;
37.视差图归一单元,用于获取所述精细视差图像,并对其进行插值上采样处理至与所述双目图像对尺度相同的视差图像。
38.本发明的有益效果在于:
39.本发明将双目图像对作为输入,通过双目立体匹配网络直接输出视差图像,实现了端到端的网络结构设计,消除了传统双目立体匹配方法的后处理操作,如插值、滤波、亚像素增强等操作,极大提高了效率。
附图说明
40.图1是本发明的整体结构框图;
41.图2是本发明特征提取模块的结构框图;
42.图3是本发明粗糙视差图像生成模块的结构框图;
43.图4是本发明精细视差图像生成模块的结构框图。
具体实施方式
44.下面结合附图对本技术作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本技术进行进一步的说明,不能理解为对本技术保护范围的限制,该领域的技术人员可以根据上述申请内容对本技术作出一些非本质的改进和调整。
45.实施例1
46.如图1所示,一种基于卷积的双目立体匹配网络结构,包括特征提取模块、粗糙视差值生成模块、视差范围预测模块、代价空间构建模块、粗糙视差图像生成模块以及精细视差图像生成模块;
47.特征提取模块用于提取输入图像的特征数据,进行处理后输出相应输入图像的第一特征图像;其中,输入图像为双目图像对的左图和右图;
48.如图2所示,特征提取模块包括第一卷积单元、残差结构单元、第二卷积单元、第一反卷积单元、第三卷积单元以及第二反卷积单元,其中,
49.第一卷积单元包括三个二维卷积,第一卷积单元对输入图像处理后输出至残差结构单元;二维卷积的卷积核尺寸均为3
×
3,步长分别为2、1、1,第一卷积单元的输出特征通道数为32;
50.残差结构单元包括四个残差模块,其中,每一个残差模块的输入和输出均作为相邻下一个残差模块的输入,残差结构单元对第一卷积单元输出数据进行处理后输出至第二卷积单元;残差模块的卷积核尺寸均为3
×
3,步长分别为1、2、2、1,四个残差模块的输出特征通道数分别为32、64、128、128;
51.第二卷积单元包括四个二维卷积,第二卷积单元将残差结构单元输出数据进行处理后输出至第一反卷积单元;二维卷积的卷积核尺寸均为3
×
3,步长分别为1、2、2、2,四个二维卷积的输出特征通道分别为32、48、64、96;
52.第一反卷积单元包括三个反卷积模块,其中,每一个反卷积模块的输出均作为相
邻下一个反卷积模块的输入,第一反卷积单元将第二卷积单元输出数据进行处理后输出至第三卷积单元;反卷积模块的反卷积核尺寸均为4
×
4,三个反卷积模块步长均为2,输出特征通道数分别为64,48,32;
53.第三卷积单元包括三个二维卷积,第三卷积单元将第一反卷积单元输出数据进行处理后输出至第二反卷积单元;二维卷积的卷积核尺寸为3
×
3,步长均为2,输出特征通道数分别为48,64,96;
54.第二反卷积单元包括三个反卷积模块,其中,每一个反卷积模块的输出均作为相邻下一个反卷积模块的输入,最后一个反卷积模块输出第一特征图像;反卷积模块的反卷积核尺寸均为4
×
4,三个反卷积模块步长均为2,输出特征通道数分别为64,48,32。
55.特征提取模块使用了较少的残差模块(4个),特征提取模块的结构简单,提高网络的速度并依然可以保证网络有较大的感受野,输出尺寸为h/8
×
w/8
×
c(c为特征通道数)的第一特征图像用于构建尺寸小的代价空间。
56.其中,粗糙视差值生成模块用于获取第一特征图像,进行处理后输出第一特征图像每个像素点的粗糙视差值;
57.粗糙视差值生成模块包括视差初始化单元、视差传播单元以及视差评估单元,其中,
58.视差初始化单元获取第一特征图像后在初始视差搜索范围内对每个像素点随机初始化n个视差值并获取每个像素点随机初始化视差值,视差传播单元将每个像素点随机初始化视差值进行水平和垂直方向的传播,使每个像素点拥有含有5
×
n个随机视差值,通过视差评估单元对每个像素点的5
×
n个随机视差值分别计算匹配相似度,选取匹配度最高的视差值作为像素点的粗糙视差值。
59.具体为,将初始视差搜索范围平均分为n个区间,在每个区间内对每个像素点随机初始化1个视差值,由此每个像素点可以得到n个随机初始化的视差值,然后通过视差传播单元,将每个像素点随机初始化视差值通过one-hot编码进行水平和垂直方向传播,使每个像素点拥有5
×
n个随机视差值,最后通过视差评估单元,分别在5
×
n个随机视差值下对第一特征图像在通道维度进行点乘操作计算匹配相似度,选取每个区间匹配相似度最高的视差值作为像素点的粗糙视差值。
60.其中,视差范围预测模块用于获取第一特征图像及其每个像素点的粗糙视差值,进行处理后输出每个像素点的视差范围区间;
61.视差范围预测模块包括第一三维卷积单元以及第一三维反卷积单元,第一三维卷积单元获取获取第一特征图像及其每个像素点的粗糙视差值,进行处理后输入第一三维反卷积单元,其中,
62.第一三维卷积单元包括三个三维卷积,每一个三维卷积的输出作为相邻下一三维卷积的输入;三维卷积的卷积核尺寸均为3
×3×
3,三个三维卷积的步长均为2;
63.第一三维反卷积单元包括三个三维反卷积,三个三维反卷积的卷积核尺寸均为3
×3×
3,步长均为(1,2,2),每一个三维反卷积的输出作为相邻下一个三维反卷积的输入,最后一个三维反卷积输出像素点视差所在的范围区间。
64.而先得到像素点的粗糙视差值,根据粗糙视差值计算得到像素点视差所在的小范围区间,然后根据像素点视差的小范围区间利用第一特征图像构建尺寸小的代价空间,减
小了像素点的视差搜索范围,极大的降低了网络的计算量,既保证网络的预测精度同时提高了网络的预测速度。
65.其中,代价空间构建模块用于获取第一特征图像及其每个像素点的视差范围区间,进行处理后输出第一特征图像在视差范围区间下的四维代价空间;
66.代价空间构建模块包括第一封装层,第一封装层将第一特征图像及其每个像素点的视差范围区间在通道维度进行封装成一个四维代价空间。
67.其中,粗糙视差图像生成模块用于获取四维代价空间,进行处理后输出四维代价空间尺度的粗糙视差图像;
68.如图3所示,粗糙视差图像生成模块包括第一编解码结构单元以及粗糙视差回归单元,其中,
69.第一编解码结构单元获取四维代价空间,进行处理后输出对应输入图像的第二特征图像,粗糙视差回归单元获取第二特征图像,进行处理后输出与第二特征图像尺度相同的粗糙视差图像;
70.第一编解码结构单元包括说三个三维卷积模块和三个三维反卷积模块,三个三维卷积模块的卷积核尺寸均为3
×3×
3,步长均为2,三个三维反卷积模块的卷积核尺寸均为3
×3×
3,步长均为(1,2,2)。
71.具体为,第一编解码结构单元的输入为四维的代价空间,第一编解码结构单元的输出为对应输入图像的第二特征图像,设置粗糙视差回归单元,粗糙视差回归单元对第一编解码结构单元的输出在通道维度上进行softmax操作输出与第二特征图像尺度相同的粗糙视差图像。
72.粗糙视差图像生成模块结构简单(3个三维卷积和3个三维反卷积),使用少量的三维卷积和三维反卷积减少了网络的计算量,加快网络速度。
73.如图4所示,精细视差图像生成模块用于获取粗糙视差图像,进行处理后输出相应输入图像的视差图像;
74.精细视差图像生成模块包括第二封装层、第四卷积单元以及视差图归一单元,其中,
75.第二封装层获取第一特征图像、第二特征图像和粗糙视差图像并将其在通道维度封装层第三特征图像;
76.第四卷积单元获取第三特征图像并进行处理后输出与粗糙视差图像尺度相同的精细图像;第四卷积单元包括七个二维卷积,卷积核尺寸均为3
×
3,步长均为1;
77.视差图归一单元获取精细视差图像,并对其进行插值上采样处理至与输入图像尺度相同的视差图像。
78.精细视差图像生成模块,将特征提取模块输出的第一特征图像和第二特征图像作为指导图,抛弃了复杂的残差模块,通过具有简单结构的第四卷积单元(7个二维卷积)输出精细视差图像,加快网络的速度。
79.需要说明的是,将双目图像对作为输入,通过双目立体匹配网络直接输出视差图像,实现了端到端的网络结构设计,消除了传统双目立体匹配方法的后处理操作,如插值、滤波、亚像素增强等操作,极大提高了效率。
80.以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献