一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于跨模态双向互补网络的RGB-D显著性目标检测方法

2022-07-02 08:13:46 来源:中国专利 TAG:

一种基于跨模态双向互补网络的rgb-d显著性目标检测方法
技术领域:
1.本发明涉及计算机视觉和图像处理领域,特别地涉及一种基于跨模态双向互补网络的rgb-d显著性目标检测方法。


背景技术:

2.显著性目标检测的目标是识别并分割出给定场景(比如、图片、rgb-d图片、视频等)中最引人注目的目标或者区域。作为最重要也是最基础的计算机视觉任务之一,它被广泛地应用到许多计算机视觉的下游任务中、比如图像检索、视觉跟踪、语义分割、目标检测和医学图像处理等领域。
3.基于rgb图像的显著性目标检测已经得到充分的探索和挖掘,对一些比较简单的图像场景能够取得较为满意的效果。但面对一些复杂场景时(比如,复杂背景、低对比度、透明目标、多目标场景和显著目标与背景高度相似场景等),基于rgb图像的显著性目标检测不能够取得令人满意的效果。为了解决这个问题,研究人员尝试将depth信息引入到显著性目标检测领域,通过结合rgb图像和depth图像构成rgb-d图像进行显著性目标检测,其被称为rgb-d显著性目标检测。此外,深度采集设备(比如microsoft kinect、huawei mate 30、iphone xr等)的普及也为rgb-d显著性目标检测的发展提供了便利。
4.rgb-d显著性目标检测通过联合使用rgb和depth图像定位场景中的显著目标,因此如何高效地整合rgb图像所携带的丰富的颜色,外形和轮廓信息与depth图像所包含的空间,3d布局,边缘信息是一个重要的问题。此前的rgb-d显著性目标检测方法通常将depth图像作为rgb图像的一个附加通道嵌入到模型中,或者将depth图像提取到的特征嵌入到rgb数据流中作为rgb特征的一个额外的补充信息。这些方法大多是仅仅考虑到了深度图像对于rgb图像的补充作用,而忽略了当低质量depth图像流向rgb数据流时,对模型性能的负面影响。
5.基于上文提及的单向补充策略的问题,本发明试图设计一种高效的跨模态特征双向互补充机制,利用rgb和depth模态之间的双向数据流进行相互增强操作。本发明的动机在于通过rgb特征对于depth特征的补充效应来缓解低质量深度图带来的负面影响,同时,利用depth图像特征来解决rgb图像所遭遇的复杂场景的情况。此外,为了进一步探索多尺度特征之间的联系和协作机制,利用多尺度的特征信息有效的提升模型检测的性能,本发明设计一个深层特征指导机制用于集成多尺度特征,生成最终的显著性结果。


技术实现要素:
:
6.针对以上提出的问题,本发明提供一种基于跨模态双向互补网络的rgb-d显著性目标检测方法,具体采用的技术方案如下:
7.1.获取并整理用于训练和测试的rgb-d数据集。
8.1.1)对获取到的rgb-d数据集(dut-rgb数据集,nju2k数据集,nlpr数据集,lfsd数据集,rgbd135数据集)进行归纳整理,并将单个样本分为rgb图像p
rgb
,深度图像p
depth
,和人
工标注的显著目标分割图像p
gt

9.1.2)将收集到的rgb-d数据集划分为训练集和测试集。其中训练集是由dut数据集中的800样本,nju2k数据集中的1400样本和nlpr数据集中的650样本构成的2985个样本集。上述五个数据集的剩余样本作为测试集。
10.2.本发明利用深度学习中的卷积神经网络(convolutional neural network,cnn)构建一个双流的编码器结构用于提取rgb和depth特征。
11.2.1)两个独立的vgg16网络分别被用于提取rgb和depth特征,并构成rgb解码器和depth解码器,其中vgg16网络最后的池化层和全连接层被移除,剩余的5个卷积层被保留。
12.2.2)经过两个独立的vgg16编码器,能够分别得到5个层次的rgb特征和5个层次的depth特征,分别命名为和
13.2.3)本发明使用imagenet数据集上预训练的vgg16参数权重初始化本发明的用于构建主干网络的vgg16权重,模型的其余部分的权重采用随机初始化方法进行初始化。
14.3.基于步骤2所提取到的rgb特征和depth特征进行双向互补操作,用于增强rgb特征和depth特征的健壮性,提升模型对于低质量的rgb图像和depth图像的抗干扰能力。
15.3.1)首先,本发明设计一个depth引导互补增强模块,该模块利用depth特征去补充rgb特征,通过depth所包含的空间分布和边缘信息去增强rgb特征。
16.3.1.1)首先,通过利用空间注意力和通道注意力分别生成空间权重和通道权重。其次,通过并行的方式将空间权重和通道权重结合生成一个增强权重:
[0017][0018][0019][0020]
其中,i∈{1,2,3,4,5}表示编码器的第i层,和分别表示第i层的depth引导互补增强模块中的空间权重和通道权重,表示增强权重,convs和conv
t
分别表示用于压缩通道和转换通道的1
×
1卷积操作,gap表示全局平均池化操作,sigmoid表示sigmoid激活函数。
[0021]
3.1.2)基于步骤3.1.1所生成的增强权重,利用该权重结合跨模态特征,在经过一个残差连接操作,得到强化之后的rgb特征:
[0022][0023]
其中,表示经过depth引导互补增强模块之后强化的rgb特征。
[0024]
3.2)基于步骤3.1所得到的强化后的rgb特征反过来用于增强depth特征,并设计一个rgb感知互补增强模块,利用被跨模态特征增强的rgb特征反过来用于强化depth特征。
[0025]
3.2.1)利用通道注意力从空间对跨模态的特征进行过滤和强化:
[0026][0027][0028]
其中,表示第i层的rgb感知互补增强模块中的通道权重,表示经过通道注意力强化后的跨模态特征。
[0029]
3.2.2)利用与通道注意力机制串行的空间注意力机制进一步强化经过通道注意力机制的跨模态特征:
[0030][0031][0032]
其中,表示第i层的rgb感知互补增强模块中的空间权重,表示经过通道注意力强化后的跨模态特征。
[0033]
3.2.3)基于上述步骤3.2.1和步骤3.2.2所获得到的经过串行分布的通道注意力和空间注意力强化后的跨模态特征,并使用残差连接加上原始的depth特征得到强化后的depth特征:
[0034][0035]
其中,表示经过rgb感知互补增强模块强化后的depth特征。
[0036]
4.基于上述步骤3的跨模态特征双向互补充机制得到强化之后的rgb特征和depth特征本发明设计一个跨模态整合模块去整合和该模块能够充分利用跨模态增益信息和残差连接操作去有效地整合跨模态特征,提升模型的性能。
[0037]
4.1)在跨模态整合模块中,利用元素级相乘操作得到跨模态的信息,然后利用sigmoid激活函数,得到一个跨模态的权重,利用该权重去过滤部分rgb和depth特征的冗余信息和非显著性特征:
[0038]038][0040][0041][0042]
其中,表示生成的跨模态的权重,和分别表示被权重强化后的rgb和depth特征。
[0043]
4.2)通过残差连接操作,连接强化后的特征和没有被强化的特征,然后将这些聚合的操作通过aspp技术增加特征的感受野,该技术主要用于提升特征的全局上下文信息:
[0044]
[0045]
其中,fi表示跨模态整合模块最终输出的跨模态的融合特征,cat表示特征连接操作,aspp表示atrous spatial pyramid pooling(aspp)技术。
[0046]
5.通过上述步骤,我们能够得到跨模态的融合特征,fi。值得注意的是depth引导互补增强模块和rgb感知互补增强模块的输出特征和也被输入到下一个卷积块用于提取下一个尺度的rgb和depth特征。本发明将得到的多尺度特征f1,f2,f3,f4和f5输入到深层特征指导机制用于生成显著性预测结果。
[0047]
5.1)解码器中所使用的深层特征指导机制定义如下:
[0048][0049]
其中,up表示双线性插值上采样操作,表示解码器中第i个层次的特征。
[0050]
5.2)通过上述5步骤5.1的深层特征指导机制,解码器能够逐渐自顶向下的方式进行显著性的推理,并在解码器的最底层通过sigmoid激活函数得到最终的显著性预测:
[0051][0052]
6)通过本发明预测出来的显著图p
pre
与人工标注的显著目标分割图p
gt
进行损失函数的计算,并通过sgd和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定rgb-d显著性目标检测算法的结构和参数权重。
[0053]
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的rgb-d图像对进行测试,生成显著图,并使用mae、s-measure、f-measure、e-measure评价指标进行评估。
[0054]
本发明基于深度卷积神经网络实现的rgb和depth图像的多模态显著性目标检测。本发明主要利用rgb模态和depth模态之间的循环互相补充策略,即利用depth特征强化rgb特征,反过来利用强化后的rgb特征去增强depth特征。这种方式能够有效地处理低质量的rgb图像和depth图像所带来的干扰和负面影响,有效地增强模型应对恶劣场景的抗干扰能力和鲁棒性,特别在一些挑战性场景,比如复杂背景、低对比度、透明物体等。相比较之前的rgb-d显著性目标检测方法,本发明具有以下收益:
[0055]
首先,利用卷积神经网络提取跨模态的rgb和depth特征,使得提到的特征比传统方法采用的手工设计特征具有较强的特征表达能力。其次,本发明通过跨模态特征双向互补充机制能够生成更健壮更简洁的rgb和depth特征。最后,采用深层特征指导机制集成多尺度的rgb和depth融合特征,生成最终的显著性结果p
pre

附图说明
[0056]
图1为本发明的模型结构示意图
[0057]
图2为depth引导互补增强模块示意图
[0058]
图3为rgb感知互补增强模块示意图
[0059]
图4为跨模态整合模块示意图
[0060]
图5为本发明与其他rgb-d显著性目标检测方法的结果对比图
具体实施方式
[0061]
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整
地描述,此外,所叙述的实例仅仅是本发明一部分实例,而不是所有的实例。基于本发明中的实例,本研究方向普通技术人员在没有付出创造性劳动前提下所获得的所有其他实例,都属于本发明保护范围。
[0062]
参考附图1,一种基于跨模态双向互补网络的rgb-d显著性目标检测方法主要包含以下步骤:
[0063]
1.获取并整理用于训练和测试的rgb-d数据集。
[0064]
1.1)对获取到的rgb-d数据集(dut-rgb数据集,nju2k数据集,nlpr数据集,lfsd数据集,rgbd135数据集)进行归纳整理,并将单个样本分为rgb图像p
rgb
,深度图像p
depth
,和人工标注的显著目标分割图像p
gt

[0065]
1.2)将收集到的rgb-d数据集划分为训练集和测试集。其中训练集是由dut数据集中的800样本,nju2k数据集中的1400样本和nlpr数据集中的650样本构成的2985个样本集。上述五个数据集的剩余样本作为测试集。
[0066]
2.本发明利用深度学习中的卷积神经网络(convolutional neural network,cnn)构建一个双流的编码器结构用于提取rgb和depth特征。
[0067]
2.1)两个独立的vgg16网络分别被用于提取rgb和depth特征,并构成rgb解码器和depth解码器,其中vgg16网络最后的池化层和全连接层被移除,剩余的5个卷积层被保留。
[0068]
2.2)经过两个独立的vgg16编码器,能够分别得到5个层次的rgb特征和5个层次的depth特征,分别命名为和
[0069]
2.3)本发明使用imagenet数据集上预训练的vgg16参数权重初始化本发明的用于构建主干网络的vgg16权重,模型的其余部分的权重采用随机初始化方法进行初始化。
[0070]
3.基于步骤2所提取到的rgb特征和depth特征进行双向互补操作,用于增强rgb特征和depth特征的健壮性,提升模型对于低质量的rgb图像和depth图像的抗干扰能力。
[0071]
3.1)首先,本发明设计一个depth引导互补增强模块,该模块利用depth特征去补充rgb特征,通过depth所包含的空间分布和边缘信息去增强rgb特征。
[0072]
3.1.1)首先,通过利用空间注意力和通道注意力分别生成空间权重和通道权重。其次,通过并行的方式将空间权重和通道权重结合生成一个增强权重:
[0073][0074][0075][0076]
其中,i∈{1,2,3,4,5}表示编码器的第i层,和分别表示第i层的depth引导互补增强模块中的空间权重和通道权重,表示增强权重,convs和conv
t
分别表示用于压缩通道和转换通道的1
×
1卷积操作,gap表示全局平均池化操作,sigmoid表示sigmoid激活函数。
[0077]
3.1.2)基于步骤3.1.1所生成的增强权重,利用该权重结合跨模态特征,在经过一
个残差连接操作,得到强化之后的rgb特征:
[0078][0079]
其中,表示经过depth引导互补增强模块之后强化的rgb特征。
[0080]
3.2)基于步骤3.1所得到的强化后的rgb特征反过来用于增强depth特征,并设计一个rgb感知互补增强模块,利用被跨模态特征增强的rgb特征反过来用于强化depth特征。
[0081]
3.2.1)利用通道注意力从空间对跨模态的特征进行过滤和强化:
[0082][0083][0084]
其中,表示第i层的rgb感知互补增强模块中的通道权重,表示经过通道注意力强化后的跨模态特征。
[0085]
3.2.2)利用与通道注意力机制串行的空间注意力机制进一步强化经过通道注意力机制的跨模态特征:
[0086][0087][0088]
其中,表示第i层的rgb感知互补增强模块中的空间权重,表示经过通道注意力强化后的跨模态特征。
[0089]
3.2.3)基于上述步骤3.2.1和步骤3.2.2所获得到的经过串行分布的通道注意力和空间注意力强化后的跨模态特征,并使用残差连接加上原始的depth特征得到强化后的depth特征:
[0090][0091]
其中,表示经过rgb感知互补增强模块强化后的depth特征。
[0092]
4.基于上述步骤3的跨模态特征双向互补充机制得到强化之后的rgb特征和depth特征本发明设计一个跨模态整合模块去整合和该模块能够充分利用跨模态增益信息和残差连接操作去有效地整合跨模态特征,提升模型的性能。
[0093]
4.1)在跨模态整合模块中,利用元素级相乘操作得到跨模态的信息,然后利用sigmoid激活函数,得到一个跨模态的权重,利用该权重去过滤部分rgb和depth特征的冗余信息和非显著性特征:
[0094][0095][0095]
[0097][0098]
其中,表示生成的跨模态的权重,和分别表示被权重强化后的rgb和depth特征。
[0099]
4.2)通过残差连接操作,连接强化后的特征和没有被强化的特征,然后将这些聚合的操作通过aspp技术增加特征的感受野,该技术主要用于提升特征的全局上下文信息:
[0100][0101]
其中,fi表示跨模态整合模块最终输出的跨模态的融合特征,cat表示特征连接操作,aspp表示atrous spatial pyramid pooling(aspp)技术。
[0102]
5.通过上述步骤,我们能够得到跨模态的融合特征,fi。值得注意的是depth引导互补增强模块和rgb感知互补增强模块的输出特征和也被输入到下一个卷积块用于提取下一个尺度的rgb和depth特征。本发明将得到的多尺度特征f1,f2,f3,f4和f5输入到深层特征指导机制用于生成显著性预测结果。
[0103]
5.1)解码器中所使用的深层特征指导机制定义如下:
[0104][0105]
其中,up表示双线性插值上采样操作,表示解码器中第i个层次的特征。
[0106]
5.2)通过上述5步骤5.1的深层特征指导机制,解码器能够逐渐自顶向下的方式进行显著性的推理,并在解码器的最底层通过sigmoid激活函数得到最终的显著性预测:
[0107][0108]
6)通过本发明预测出来的显著图p
pre
与人工标注的显著目标分割图p
gt
进行损失函数的计算,并通过sgd和反向传播算法逐步更新本发明提出的模型的参数权重,最终确定rgb-d显著性目标检测算法的结构和参数权重。
[0109]
7)在步骤6确定模型的结构和参数权重的基础上,对测试集上的rgb-d图像对进行测试,生成显著图,并使用mae、s-measure、f-measure、e-measure评价指标进行评估。
[0110]
以上所述为本技术优选实施而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本技术的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献