一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于超像素分割的双目立体匹配方法

2022-10-26 21:34:53 来源:中国专利 TAG:


1.本发明涉及计算机视觉和图像处理技术,具体涉及一种基于超像素分割的双目立体匹配方法。


背景技术:

2.立体匹配算法的研究最早开始于上世纪70年代,经过几十年的努力研究,在2002年,由scharstein等人将立体匹配算法中的一般步骤总结为四个:匹配代价计算、代价聚合、视差计算、视差优化,并同时创立了middlebury测试平台,用来对立体匹配算法进行测试和定量评价。根据几年来采用的不同方法对立体配的研究,我们把立体匹配算法分为:传统立体匹配算法和深度学习立体匹配算法。
3.传统的立体匹配算法根据方法的不同可以分为三类:全局、局部和半全局。全局的立体匹配算法使用全局约束来解决由于遮挡或重复纹理造成的像素误匹配问题,是基于优化理论方法估计视差值。全局匹配问题通常被描述为能量最小化问题,在其建立的能量函数中,除了数据项之外,还有平滑项。常见的全局算法有:图割算法、置信传播、动态规划等;局部的立体匹配算法采用局部优化的理论方法进行像素视差估计,研究的重点在于匹配代价的计算和匹配代价的累积上。它是在最大视差的范围内找出匹配代价最小的像素点作为目标匹配像素,利用局部信息求出匹配代价最小的像素点从而计算出视差。这种方法计算复杂度低,但对噪声较为敏感;半全局立体匹配算法是一种对于全局匹配算法的优化。2005年h.hirschmuller等人提出了半全局匹配算法(semi-global matching,sgm),降低了计算复杂度,且相比于局部匹配算法,匹配精度有了显著提升。
4.近年来随着深度学习在计算机视觉领域的发展。mayer等人在光流估计网络flownet的基础上首次提出了端到端的立体匹配网络,该算法使用相关层来测量左右图像特征的相似性,并利用特征相似性进行左右视图的立体匹配。gcnet通过直接连接左右特征采用不同的方法,因此需要3d卷积来聚合产生的4d代价体。2018年,psmnet使用金字塔特征提取和具有25个3d卷积层的堆叠沙漏网络进一步对gcnet进行改进,从而提高立体匹配的准确性。尽管可以通过3d卷积实现最先进的性能,但高计算成本和内存消耗使其在实践中的部署成本非常高。最ga-net研究工作也注意到了3d卷积的缺点,并试图用两个引导聚合层替换它们,然而最终模型仍然使用了15个3d卷积。为此,xu等人提出了一个尺度内和尺度间的代价聚合模块来完全代替3d卷积中的代价体,从而提高匹配的精度。
5.然而,这些算法没有考虑图像中局部相似颜色的像素之间很可能位于同一个平面,例如无纹理区域的像素很可能位于一个大的平面上。


技术实现要素:

6.发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于超像素分割的双目立体匹配方法,构建一个端到端的基于超像素分割的立体匹配深度学习框架,利用超像素块来引导和约束立体匹配算法。
7.技术方案:本发明的一种基于超像素分割的双目立体匹配方法,包括以下步骤:
8.步骤s1、将原始左视图和右视图分别进行下采样,再将所得下采样后的左视图和右视图分别进行slic超像素分割,得到对应的多个图像子区域集合,以及对应的关联矩阵q和邻接矩阵a,接着将关联矩阵q和邻接矩阵a送入训练好的基于超像素的图神经网络,得到对应包含超像素信息的权重;此处关联矩阵是超像素块和像素之间的关系;邻接矩阵是超像素块之间的关系;
9.步骤s2、分别将下采样的左视图和右视图进行两次1
×
1卷积和一次flatten处理,将多维图像输出展开为一维,并与归一化的关联矩阵q相乘,得到初步的结点矩阵h;
10.步骤s3、将步骤s2所得初步的结点矩阵h输入训练好的两层基于超像素的图神经网络,通过基于超像素的图神经网络来学习相邻超像素结点之间的边的信息,然后再将基于超像素的图神经网络的输出进行解码和softmax处理进而得到超像素特征权重;
11.步骤s4、将原始左视图和右视图输入到cnn卷积神经网络,得到相应的左特征图和右特征图;然后分别与步骤s3所得超像素特征权重相乘,接着分别依次输入到混合池化模块和1
×
1的卷积层;
12.步骤s5、利用左特征图和右特征图构建四维的代价体,然后送入3d的代价聚合模块中;最后把代价聚合部分的输出,以及进行上采样和视差回归,得到预测的视差图。
13.考虑到大部分相同颜色的像素都位于同一个平面上,本发明提出一种端到端的基于超像素分割的双目立体匹配方法,包括双目立体匹配网络和基于超像素的图神经网络两个模块,整个网络采用端到端的方式,分别训练超像素分割网络和双目立体匹配网络。
14.进一步地,所述混合池化模块包括金字塔池化模块和一个长条形的池化层,通过混合池化模块对全局的水平和垂直信息进行编码,然后使用这些编码来平衡其自身的权重以进行特征优化。空间金字塔池化模块可扩大感受野并得到融合全局和局部的特征信息,通过1
×
1的卷积层来降低特征维度,其中,水平滤波器大小是1
×
3,垂直滤波器大小为3
×
1。
15.进一步地,所述构建代价体的具体方法为:concat左特征图和右特征图中每个超参数视差值对应的特征图,采用空间金字塔池化模块的特征图来构成一个四维的匹配代价体,通过给四维的匹配代价体可将原本4维的左右特征图,在新视差维度上进行concat。本发明中由于代价体的h和w是输入图像的h和w的四分之一,因此此处超参数视差值为48。
16.为得到更多的环境信息以及将代价体中的匹配代价值进行进一步的优化去噪,代价聚合时采用3个堆叠的编码解码器结构,每个编码解码器结构均会生成一个视差图,3个编码解码器结构则有3个输出和3个损失;每个编码解码器结构均由2层卷积和2层反卷积构成,并添加有跳跃连接,这样能够丰富像素信息;同时每个编码解码器结构的输出均经过上采样和视差回归,以便将视差图还原到和输入的左右视图相同的宽高;
17.训练过程中,由三个损失值的加权求和得到总损失,总损失函数如下:
[0018][0019]
其中n是标记的像素个数,yi是真实值,xi是预测值;
[0020]
在测试过程中,最终的视差图是由三个输出中的最后一个得到。
[0021]
进一步地,所述步骤s1对左视图和右视图下采样时,将原始左视图和右视图均下
采样至原图的1/4。
[0022]
有益效果:为解决双目立体匹配研究领域中弱纹理区域、重复纹理、细绳/细杆以及遮挡和深度不连续等结构的疑难问题,本发明提出一个端到端的基于超像素分割的立体匹配深度学习框架,利用超像素块来引导和约束立体匹配算法,实现对立体匹配进行优化。
附图说明
[0023]
图1本发明的整体网络结构示意图;
[0024]
图2为本发明中编码解码器结构示意图;
[0025]
图3为本发明中代价体concat左右特征图的流程图;
[0026]
图4为本发明中3d代价聚合示意图;
[0027]
图5为实施例中待处理的场景原图;
[0028]
图6为实施例采用本发明技术方案处理后的示意图。
具体实施方式
[0029]
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
[0030]
如图1所示,本发明的一种基于超像素分割的双目立体匹配方法,包括以下步骤:
[0031]
步骤s1、将原始左视图和右视图分别进行下采样四分之一,再将所得下采样后的左视图和右视图分别进行slic超像素分割,得到对应的多个图像子区域集合,以及对应的关联矩阵q和邻接矩阵a,接着将关联矩阵q和邻接矩阵a送入训练好的基于超像素的图神经网络,得到对应的权重;
[0032]
步骤s2、分别将下采样的左视图和右视图进行两次1
×
1卷积和一次flatten处理,将多维图像输出展开为一维,并与归一化的关联矩阵q相乘,得到初步的结点矩阵h;
[0033]
步骤s3、如图2所示,将步骤s2所得初步的结点矩阵h输入训练好的2层基于超像素的图神经网络,然后再把基于超像素的图神经网络输出,进行解码和softmax处理得到超像素特征权重;
[0034]
步骤s4、将原始左视图和右视图输入到cnn卷积神经网络,得到相应的左特征图和右特征图;然后分别与步骤s3所得超像素特征权重相乘,接着分别依次输入到混合池化模块和1
×
1的卷积层;混合池化模块包括金字塔池化模块和一个长条形的池化层,通过混合池化模块对全局的水平和垂直信息进行编码,然后使用这些编码来平衡其自身的权重以进行特征优化
[0035]
步骤s5、如图3所示,利用左特征图和右特征图构建四维的代价体,然后送入3d代价聚合模块中;最后把代价聚合部分的输出,以及进行上采样和视差回归,得到预测的视差图;构建代价体的具体方法为:concat左特征图和右特征图中每个视差值对应的特征图,采用空间金字塔池化模块的特征图来构成一个四维的匹配代价体;如图4所示,本实施例在代价聚合时采用3个堆叠的编码解码器结构,每个编码解码器结构均会生成一个视差图;这样3个沙漏结构就会由3个输出和3个损失;训练过程中,总的损失是由3个损失值的加权求和得到的;在测试过程中,最终的视差图是由3个输出中的最后一个得到。
[0036]
图3中,特征图在进入两个分支前先用1
×
1的卷积降维。在第一个分支中,有三个
分路,前两个分路分别下采样到原来的二分之一、三分之一。接着对三个分路进行卷积和上采样,然后把三个输出相加后,再进行一层卷积。在第二个分支中,首先是两个条形池化,池化层大小分别为1
×
3和3
×
1,接着进行1维卷积和上采样,然后再把这两个输出相加。最后把两个分支的输出concat在一起。通过该该模块的处理能更好地捕获长依赖关系、扩大感受野,对弱纹理和重复纹理等区域进一步优化。
[0037]
为了克服cnn网络和gcn网络不能直接兼容的问题,本发明设计一个结构转换器,允许特征在图像和图形空间之间传播。首先将原始左右视图下采样为原来的1/4,然后为能快速构建包含像素颜色信息的适合图神经网络结构,本发明使用简单线性迭代聚类(slic)对左右视图进行超像素分割。最后,通过建立超像素之间的邻接关系,将rgb图转化为无向图。总之,基为于超像素分割rgb左右视图构建了一个未加权的图,本发明的图编码器可将关联矩阵q从图像空间投影到图空间。相应地,图解码器可将图网络所输出结点特征分配给像素。图编码器和图解码器都可以引入网络中来集成cnn和gcn。此外,邻接掩码记录了相邻超像素的邻接关系,它将与gcn一起学习边的权重。
[0038]
本实施例假设一张图g=(v,e)包括结点v和边e;在基于超像素的图神经网络中,v和e编码为结点矩阵h和邻接矩阵a。其中,h的第i行边表示第i个结点,a的(i,j)表示图的第i个结点和第j个结点之间边的权重。为提高图神经网络的自适应性,在网络的每一层输出后均根据每一层的输入来学习第k层的邻接矩阵ak。然后通过sigmoid函数在(0,1)范围内压缩边的权重,防止数值不稳定。邻接掩码a可切断不相邻结点的关联,同时保持相邻结点之间的连通性,进而对双目图像的颜色空间结构进行建模生成超像素级特征。最后通过softmax得到超像素特征权重,并乘入混合池化模块。
[0039]
如图5和图6所示,采用本发明技术方案对双目立体图处理后,能够克服弱纹理区域、重复纹理、细绳/细杆以及遮挡和深度不连续等结构的缺陷。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献