一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于感知一致损失的多视图立体匹配重建方法及系统

2023-01-06 01:35:05 来源:中国专利 TAG:


1.本发明涉及一种基于感知一致损失的多视图立体匹配重建方法及系统,属于三维重建技术领域。


背景技术:

2.三维重建在工业测量、智能机器人、无人驾驶系统、医学诊断、数字城市建模、体感娱乐等方面被广泛的应用。多视图立体匹配是一种属于三维重建技术的端到端的学习方法,该方法属于被动式三维重建,具有成本低廉、结构简单、实用性好的特点。由于每种立体匹配方式都具有自身的局限性,无论在传统方法还是在学习方法中,匹配的完整性以及网络的轻量化均具有较高的要求。因此,为了后续点云融合的效果,对匹配的深度图进行优化是非常必要的。为了在更好的稠密重建中得到有效的深度信息,现有的多视图立体匹配重建方法,大多是基于像素来完成的。但重建方法中存在两个关键问题,即运算时间较长无法有效的做到轻量化和在保证精度的同时完整性较高。
3.中国专利公开号为“cn113963117a”,名称为“一种基于可变卷积深度网络多视图三维重建方法及装置”,该方法首先输入源图像及多个视角的参考图像;接着,通过可变形卷积所构建的多尺度特征网络来提取输入图像的特征;然后,采用基于学习的补丁匹配迭代模型进行像素深度匹配及边缘处理的迭代优化计算,得到迭代优化后的深度图;最后,将迭代优化后的深度图和源图像均导入深度残差网络中进行优化,得到最终深度图并进行三维重建,得到立体视觉图。该方法采用的是有监督的学习方法,内存占用严重,且完整度较低。


技术实现要素:

4.本发明为了解决现有的多视图立体匹配方法中内存占用严重且完整度较低的问题,提供了基于感知一致损失的多视图立体匹配重建方法。使得到的深度图,更加平滑完整,对后续的点云融合具有更好的重建效果,更符合物体的细节观察,同时本发明采用的是半监督的学习方法,实现过程简单,处理时间更少,重建后的精度更高。
5.本发明解决技术问题的方案是:
6.基于感知一致损失的多视图立体匹配重建方法,包括如下步骤:
7.步骤1,构建网络模型:整个网络包括特征提取模块,金字塔体积正则化模块和双校正层模块,且每个模块均由卷积层、正则化和激活函数组成;特征提取模块对输入的源图像和参考图像进行特征提取,金字塔体积正则化模块,对提取到的特征进行下采样提取以及上采样整合正则化来构建3d成本体积,得到稠密的深度图;最后,双校正层模块对得到的深度图进行简单的滤波去除冗余信息,优化深度图组合并保留有用信息;
8.步骤2,准备数据集:将源图像和参考图像作为数据的输入,从参考的视图中使用原始3d点来估计三维结构的稠密深度图d;
9.步骤3,训练网络模型:将步骤2中准备好的数据集输入到步骤1中构建好的网络模
型中进行训练;
10.步骤4,设计损失函数并回归:通过将数据增强一致损失得到的深度信息与深度感知损失得到的深度信息进行视差比较,得到有效的地表深度值作为监督传到深度回归损失中,直到训练次数达到设定阈值或损失函数的值到达设定范围内,即可认为模型参数已训练完成,保存模型参数;
11.步骤5,保存模型并测试:将最终确定的模型参数进行固化,在需要进行点云融合并重建操作时,直接将图像输入到网络中即可得到最终的三维点云;
12.步骤6,点云融合并重建:将步骤5得到的三维点云进行融合,然后运用meshlab软件来查看融合后的匹配重建效果;同时未进一步验证模型的好坏,选择最优评估指标来衡量算法的精度和系统的性能。
13.所述步骤1中特征提取模块包含八个卷积层,卷积层一、卷积层二、卷积层三进行下采样操作,将特征图大小缩减一半、卷积层四、卷积层五、卷积层六对上述特征图进行下采样操作,将特征图大小再缩减一半,最后由卷积层七和卷积层八输出。特征提取模块的每个卷积层的输出均经过正则化操作;金字塔体积正则化模块包含十个卷积层,三维卷积层一和三维卷积层二对提取到的特征进行第一次下采样,三维卷积层三和三维卷积层四对提取到的特征进行第二次下采样,三维卷积层五、三维卷积层六和三维卷积层七来输出卷积后的特征信息。三维反卷积层一对输入进行上采样,经过激活函数输出反卷积后的特征信息,三维反卷积层二对三维卷积层二的输出进行上采样,经过激活函数输出反卷积后的特征信息,三维反卷积层三对三维卷积层四的输出进行上采样,经过激活函数输出反卷积后的特征信息,最后将上述特征信息整合来构建3d成本体积,得到稠密的深度图。金字塔体积正则化模块的每个卷积层的输出均进行正则化操作;双校正层模块包含四个卷积层,卷积层一、卷积层二、卷积层三对得到的深度图进行简单的滤波去除冗余信息,卷积层四对输入进行上采样和通道转换来优化深度图组合并保留有用信息。双校正层模块中每个卷积层的输出均进行正则化操作;所有卷积层中二维卷积核的大小统一为n
×
n;三维卷积核的大小统一为n
×n×
n。
14.所述步骤3中在训练过程中数据集使用dtu;通过对数据集中相机内外参数的计算,从多帧图像中估计重建物体的位姿来进行半监督的训练;将多帧图片、标定好的相机参数以及深度信息作为整个网络的输入,将损失计算匹配的地表信息作为标签,解决在三维重建领域大部分只能进行有监督训练的问题。
15.所述步骤4中在训练过程中损失函数选择使用数据增强一致损失和深度感知损失的组合;得到的深度图像不但能保证其平滑性且稠密度相当,而且还需要突出物体表面真实性的细节部分,提升融合点云的匹配重建效果。
16.所述步骤5中在保存模型后,可利用eth3d数据集以及tank&temples数据集进行测试,评估其泛化能力。
17.所述步骤6中评估指标选择准确度和完整度,能够有效评估算法的效率,衡量匹配网络的作用。
18.本发明还提供了一种基于感知一致损失的多视图立体匹配重建系统,包括:
19.图像获取单元,其用于获取源图像及多个视角的参考图像,其中参考图像可经过处理将部分地表信息去掉,来进行半监督的训练;
20.图像训练单元,其用于将源图像和参考图像输入网络中进行训练,通过对数据集中相机内外参数的计算,从多帧图像中估计重建物体的位姿来进行半监督的训练;并且将初始计算的深度图输入到方法中设计的校正层,来过滤掉冗余的深度信息,得到更加平滑的深度图。
21.深度图优化单元,其用于将训练输出的深度图,通过方法中设计的损失函数,来计算匹配的地表信息作为标签参与训练,进而得到稠密的深度图;
22.点云融合并重建单元,其用于将稠密的深度图,融合成三维点云,并根据融合的点云进行三维建模,以得到立体视觉图。
23.本发明的有益效果如下:
24.1、使用经过损失计算的深度图像用来作为监督达到半监督的办法可以减少内存的占用和运算量,将对应像素反向投影的三维点,回归到三维世界中实际相遇的位置,增强网络的鲁棒性。且计算后的平滑深度图使得点云匹配重建的完整性较高,效果也更好。
25.2、在骨干网络中使用双校正层,用以边沿校验,最大限度的利用深度信息值,可以有效的解决边沿遮挡信息有误的问题。
26.3、整个训练网络在两条支路上使用拼接操作,将校正层和损失层的有效深度信息进行混合,使得网络对于两种不同深度图像的计算损失能力更强;在损失函数中添加深度回归,使得网络的参数数量较少,最终使得整个网络实现结构简单,重建的精度更高。
附图说明
27.图1为基于感知一致损失的多视图立体匹配重建方法的流程图。
28.图2为基于感知一致损失的多视图立体匹配重建方法的网络结构图。
29.图3为本发明所述特征提取模块的具体组成。
30.图4为本发明所述金字塔体积正则化模块的具体组成。
31.图5为本发明所述双校正层模块的具体组成。
32.图6为本发明所述基于感知一致损失的多视图立体匹配重建系统的结构示意图。
具体实施方式
33.下面结合附图对本发明做进一步详细说明。
34.如图1所示,基于感知一致损失的多视图立体匹配重建方法,该方法具体包括如下步骤:
35.步骤1,构建网络模型。如图2所示,整个网络包括特征提取模块、金字塔成本体积正则化模块和双校正层模块,且每个模块均由卷积层、正则化和激活函数组成。如图3所示,特征提取模块中,卷积层一、卷积层二、卷积层三进行下采样操作,将特征图大小缩减一半、卷积层四、卷积层五、卷积层六对上述特征图进行下采样操作,将特征图大小再缩小一半,最后由卷积层七和卷积层八输出。特征提取模块的每个卷积层的输出均经过正则化操作;如图4所示,金字塔体积正则化模块中,三维卷积层一和三维卷积层二对提取到的特征进行第一次下采样,三维卷积层三和三维卷积层四对提取到的特征进行第二次下采样,经过三维卷积层五、三维卷积层六、三维卷积层七来输出卷积后的特征信息。三维反卷积层一对输入进行上采样,经过激活函数输出反卷积后的特征信息,三维反卷积层二对三维卷积层二
的输出进行上采样,经过激活函数输出反卷积后的特征信息,三维反卷积层三对三维卷积层四的输出进行上采样,经过激活函数输出反卷积后的特征信息,最后将上述特征信息整合来构建3d成本体积,得到稠密的深度图。金字塔体积正则化模块的每个卷积层的输出均进行正则化操作;如图5所示,双校正层模块中,卷积层一、卷积层二、卷积层三对得到的深度图进行简单的滤波去除冗余信息,卷积层四对输入进行上采样和通道转换来优化深度图组合并保留有用信息。双校正层模块中每个卷积层的输出均进行正则化操作;所有卷积层中二维卷积核的大小统一为n
×
n;三维卷积核的大小统一为n
×n×
n。
36.步骤2,准备数据集。准将源图像和参考图像作为数据的输入,通过对数据集进行半监督的训练,从参考的视图中使用原始3d点来估计三维结构的稠密深度图d。
37.步骤3,训练网络模型。将步骤2中准备好的数据集输入到步骤1中构建好的网络模型中进行训练。并且在训练过程中数据集使用dtu;通过对数据集中相机内外参数的计算,从多帧图像中估计重建物体的位姿来进行自监督学习的训练;将多帧图片、标定好的相机参数以及深度信息作为整个网络的输入,将损失计算匹配的地表信息作为标签,解决在三维重建领域大部分只能进行有监督训练的问题。
38.步骤4,设计损失函数并回归。如图2中设计的损失,通过将数据增强一致损失得到的深度信息与深度感知损失得到的深度信息进行视差比较,得到有效的地表深度值作为监督传到深度回归损失中,直到训练次数达到设定阈值或损失函数的值到达设定范围内,即可认为模型参数已训练完成,保存模型参数;得到的深度图像不但能保证其平滑性且稠密度相当,而且还能突出物体表面真实性的细节部分,提升融合点云的匹配重建效果。
39.步骤5,保存模型并测试。将最终确定的模型参数进行固化,在需要进行点云融合并重建操作时,直接将图像输入到网络中即可得到最终的三维点云。利用该模型对eth3d数据集以及tank&temples数据集进行测试,评估其泛化能力。
40.步骤6,点云融合并重建。将步骤5得到的三维点云进行融合,然后运用meshlab软件来查看融合后的匹配重建效果;同时,最优评估指标选择准确度和完整度,能够有效评估算法的效率,衡量匹配网络的作用。
41.实施例:
42.如图1所示,基于感知一致损失的多视图立体匹配重建方法,该方法具体包括如下步骤:
43.步骤1,构建网络模型。如图2所示,整个网络包括特征提取模块、金字塔体积正则化模块和双校正层模块,且每个模块均由卷积层、正则化和激活函数组成。如图3所示,特征提取模块包含八个二维卷积层,卷积层三和卷积层六的卷积核大小为5
×
5,步长和填充均为2;卷积层一、卷积层二、卷积层四、卷积层五、卷积层七、卷积层八的卷积核大小为3
×
3,步长和填充均为1;如图4所示,金字塔体积正则化模块包含十个三维卷积层,所有层的卷积核均为3
×3×
3,三维卷积层一、三维卷积层三、三维卷积层五和三维卷积层七的步长为2和填充为1。三维卷积层二、三维卷积层四、三维卷积层六,三维反卷积层一、三维反卷积层二和三维反卷积层三的步长和填充均为1;如图5所示,双校正层模块中的校正层一和校正层二的结构相同,包含四个二维卷积层,卷积层一、卷积层二、卷积层三、卷积层四的卷积核均为3
×
3,步长和填充均为1,且拼接的维度为1。线性整流函数正则化函数定义如下所示:
[0044][0045][0046]
式中x和y为训练样本和相应标签,ω为权重系数向量;j(.)为目标函数,ω(ω)即为惩罚项;参数α控制正则化强弱,进而控制模型复杂度,减小过拟合。
[0047]
步骤2,准备数据集。数据集使用dtu数据集。数据集由124个不同的物体或场景组成,每个物体共拍摄49个视角,每个视角共有7种不同的亮度,因此,每个物体或场景文件夹内部共有343个图片,且该数据集还带有深度图真值的训练影像集。每张影像的分辨率为1600
×
1200。
[0048]
步骤3,训练网络模型。网络对多帧图像估计重建物体的位姿来进行半监督的训练。其中半监督训练是将多帧图片、标定好的相机参数以及少量的深度信息作为整个网络的输入,将损失计算匹配的地表信息作为标签,来解决在三维重建领域大部分只能进行有监督训练的问题,且系统所占内存较小,完整性也较高。
[0049]
步骤4,设计损失函数并回归。如图2中所设计的损失,通过将数据增强一致损失得到的深度信息与深度感知损失得到的深度信息进行视差比较,得到有效的地表深度值作为监督传到深度回归损失中来优化深度图,进而达到较好的匹配重建效果。数据增强一致损失定义如下所示:
[0050][0051]
其中,m
τθ
表示在τθ下未遮挡的掩模,d表示为校正图像正则前向通道的预测值,表示为校正图像的扩展图像预测值,通过最小化d与之间的差异来确保数据增强的一致性。
[0052]
深度感知损失定义如下所示:
[0053]
p

=k

(r

r-1
(d(p)k-1
p-t) t

)
[0054]
p=d(p)k-1
p-t
[0055]
p

=d(p

)k
′-1
p
′‑
t

[0056][0057]
p

表示为p的估计对应像素,p和p

表示为p和p

的反向投影的三维深度信息感知点d(p)和c(q)为p像素的预测深度和概率值,∈h表示高可靠深度预测的阈值,∈
ω
表示用于过滤错误匹配像素的阈值。其中依据∈h和∈
ω
这两个阈值得到的深度感知预测值可以近似检测边缘、遮挡和错误的非遮挡区域,这些区域可能会形成错误的对应关系。
[0058]
深度回归损失定义如下所示:
[0059]
l
reg
=λ1l
ssim
λ2l
smooth
[0060]
其中l
ssim
和l
smooth
为结构相似性损失和深度平滑损失,二者均为常见深度估计的条件损失,因此l
ssim
的公式可以表示为:
[0061][0062]
x和y分别表示两张图像中大小为n
×
n的窗口的像素点,μ
x
和μy分别表示x和y的均值,可作为亮度估计;σ
x
和σy分别表示x和y的方差,可作为对比度估计;σ
xy
表示x和y的协方差,可作为结构相似性度量。c1和c2为极小值参数,可避免分母为0,通常分别取0.01和0.03。l
smooth
的公式可以表示为:
[0063][0064]
其中与是连续的,x与y同为图像的像素点。
[0065]
根据以上的四个损失函数可以构建出总体带有权重的损失函数,如下所示:
[0066]
l=lr λ3l
da
λ4l
dpr
=λ1l
ssim
λ2l
smooth
λ3l
da
λ4l
dpr
[0067]
其中权重经过大量对比和多次试验可赋值为:λ1=0.2,λ2=0.0067,λ3=0.1,λ4=0.8。
[0068]
设定训练次数为16,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器性能决定,一般每次输入到网络图片数量在1-4区间内,可以使网络训练更加稳定,训练结果更好,保证网络快速拟合。训练过程中,参数的学习率为0.001,既能保证网络快速拟合,而不会导致网络过拟合。参数优化器的算法选择自适应矩阵估计算法,其优点主要在于经过偏置校正后,每一次迭代的学习率都有个确定范围,使得参数比较平稳。损失函数的阈值设定为0.0003左右,小于0.0003就可以认为整个网络的训练已基本完成。
[0069]
步骤5,保存模型并测试。使用dtu数据集进行训练,并保存训练模型。利用该模型对eth3d数据集以及tank&temples数据集进行测试,评估其泛化能力。
[0070]
步骤6,点云融合并重建。后续的纹理增强以及网格贴图属于传统算法,而本发明可直接利用深度图融合后的点云进行匹配,而重建的效果可使用meshlab软件直接进行查看来验证匹配网络的好坏;同时如表1所示,最优评估指标选择准确度和完整度,能够有效评估算法的效率,衡量匹配网络的作用。准确度的公式如下所示:
[0071][0072]
其中,g为地表帧值模型,g为地表帧值模型内的点,r为重建模型,r为地重建模型内的点。[.]为艾弗森括号,艾弗森括号内的条件满足时则为1,不满足则为零。d为距离系数。
[0073]
完整度的公式如下所示:
[0074][0075]
其中,g为地表帧值模型,g为地表帧值模型内的点,r为重建模型,r为地重建模型内的点。[.]为艾弗森括号,艾弗森括号内的条件满足时则为1,不满足则为零。d为距离系数。
[0076]
如图6所示,为本发明提供的一种基于感知一致损失的多视图立体匹配重建系统,包括:
[0077]
图像获取单元,其用于获取源图像及多个视角的参考图像,其中参考图像可经过处理将部分地表信息去掉,来进行半监督的训练;
[0078]
图像训练单元,其用于将源图像和参考图像输入网络中进行训练,通过对数据集中相机内外参数的计算,从多帧图像中估计重建物体的位姿来进行半监督的训练;并且将初始计算的深度图输入到方法中设计的校正层,来过滤掉冗余的深度信息,得到更加平滑的深度图。
[0079]
深度图优化单元,其用于将训练输出的深度图,通过方法中设计的损失函数,来计算匹配的地表信息作为标签参与训练,进而得到稠密的深度图;
[0080]
点云融合并重建单元,其用于将稠密的深度图,融合成三维点云,并根据融合的点云进行三维建模,以得到立体视觉图。
[0081]
其中,卷积、激活函数、拼接操作、正则化操作、高斯滤波的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
[0082]
本发明通过构建一种基于感知一致损失的多视图立体匹配网络,可以利用源图像与参考图像直接得到深度图并融合成点云,不再经过中间其他步骤,避免了传统方法中人工手动设计立体匹配的算法。通过计算与现有技术得到深度图的相关指标,进一步验证了该方法的可行性和优越性。现有技术和本发明提出方法的相关指标对比如表1所示:
[0083]
表1现有技术和本发明提出方法的相关指标对比
[0084][0085]
值得注意的是,上述方法及系统,所属的学习方法为半监督领域的端到端的学习方法,而设计的损失函数属于本发明的重要实现功能。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献