一种RGB-D图像显著目标检测方法与流程

2021-10-24 04:48:00 来源：中国专利 TAG：检测方法图像目标高层特征

一种rgb
‑
d图像显著目标检测方法
技术领域
1.本发明涉及计算机视觉领域，特别是涉及一种利用三个transformer增强高层特征的rgb
‑
d图像显著目标检测方法。

背景技术：

2.rgb
‑
d图像是由rgb颜色图像和depth深度图像组成，表达了某一场景的外观特点及三维信息。目前rgb
‑
d图像显著目标检测方法存在两种多模态融合方法，一种是双流融合，同等看待颜色和深度图像，另一种是深度指导的融合，以颜色图像为主，深度图像为辅。鉴于存在一些质量较差的深度图像，采用双流融合，可能扩大深度误差，给最终的显著目标检测结果带来不利的影响。因此深度指导的融合是一种更好的融合方法。
3.图像显著目标检测属于像素级别的密集预测任务，它通常使用vgg或resnet等主干网络实现多层特征提取，然后由解码器通过逐层上采样并结合多层特征产生最终的显著图。文献《cascaded partial decoder for fast and accurate salient object detection》指出高层特征在与低层特征融合并恢复分辨率大小时起到重要的作用，鉴于此，高层特征需要被优化以增强最终的检测性能。
4.transformer依靠多头自注意力及前向传播网络在自然语言处理、计算机视觉领域取得了突破性的进展，因其在特征的远距离依赖特性提取方面的优秀表现，将其引入来增强所述高层特征，必将提高性能。

技术实现要素：

5.本发明所需要解决的技术问题是提供一种rgb
‑
d图像显著目标检测方法，通过三个transformer更好地增强高层特征，以提高最终的检测性能。
6.本发明具体采用的技术方案如下：
7.一种rgb
‑
d图像显著目标检测方法，该方法包括以下步骤：
8.s1、提取rgb图像特征，同时提取depth图像特征，并将depth图像特征与rgb图像特征进行融合，形成rgbd融合特征，进一步将其分为高层rgbd融合特征和低层rgbd融合特征；
9.s2、利用三个transformer增强所述高层rgbd融合特征，形成高层rgbd增强特征；
10.s3、三流解码所述高层rgbd增强特征，通过与低层rgbd融合特征的结合，加强显著物体边缘细节信息，形成体现全局和局部特性的rgbd细化特征；
11.s4、融合所述rgbd细化特征形成显著图。
12.进一步地，在所述步骤s1中，提取rgb图像特征的方法是使用在imagenet上预训练的resnet50网络提取图像颜色特征，形成
13.类似地，提取depth图像特征的方法是使用在imagenet上预训练的resnet50网络提取图像深度特征，形成其中i对应于resnet50的层数，i取值为1至5的自然数。
14.所述将depth图像特征与rgb图像特征进行融合的方法采用深度过滤残差模块实现。所述深度过滤残差模块，首先将depth图像与rgb图像进行级联，再经过通道注意力层，
形成通道注意力掩码，通过与depth图像特征逐元素相乘，得到通道过滤后的depth特征；接着通道过滤后的depth特征，经过空间注意力层，形成空间注意力掩码，通过与depth图像特征逐元素相乘，得到空间过滤后的depth特征；将所述空间过滤后的depth特征以残差形式附加到rgb图像特征上，形成rgbd融合特征。所述方法描述为：
[0015][0016]
所述cat(
·
)表示级联和卷积操作，ca(
·
)操作是指论文《cbam:convolutional block attention module》中所提出的通道注意力模块，sa(
·
)操作是指论文《cbam:convolutional block attention module》中所提出的空间注意力模块，
“×”
是指逐元素相乘操作，“ ”是指逐元素相加操作。
[0017]
根据i的不同，将记为低层rgbd融合特征，将记为高层rgbd融合特征。
[0018]
进一步地，在步骤s2中，利用三个transformer增强所述高层rgbd融合特征，形成高层rgbd增强特征。具体分为三个子步骤：尺度调整、三个transformer嵌入、特征级联；
[0019]
s2.1：尺度调整
[0020]
具体分为两个阶段，第一阶段调整通道数，第二阶段调整分辨率，最终形成通道数和分辨率都相同的高层rgbd同尺度特征
[0021]
s2.2：三个transformer嵌入
[0022]
所述高层rgbd同尺度特征经过三个transformer层，产生高层rgbd优化特征
[0023][0024]
其中transformer(
·
)操作表示《attention is all you need》中提出的transformer。
[0025]
s2.3：特征级联
[0026]
所述高层rgbd融合特征与高层rgbd优化特征进行级联并卷积，产生高层rgbd增强特征
[0027][0028]
更进一步地，在本发明步骤s2.1：尺度调整中，具体步骤如下：
[0029]
s2.1.1：调整通道数
[0030]
对于所述s1步骤得到的高层rgbd融合特征实施一个t(
·
)操作，得到同通道数的高层rgbd多尺度特征具体描述为：
[0031][0032]
其中t(
·
)操作是指对特征x进行卷积核为3
×
3的卷积操作，并实施relu激活函数：
[0033]
t(x)＝relu(conv(x))
[0034]
其中conv(
·
)表示卷积操作，relu(
·
)表示relu激活函数。
[0035]
s2.1.2：调整分辨率
[0036]
对于所述s2.1.1步骤得到的同通道数的高层rgbd多尺度特征经过一个逐层上采样操作pufm(
·
)，得到同通道数同分辨率的高层rgbd同尺度特征具体描述为：
[0037][0038]
所述pufm(
·
)操作根据i的不同有所区别，具体定义如下：
[0039][0040][0041][0042]
进一步地，在步骤s3中，三流解码所述高层rgbd增强特征，通过与低层rgbd融合特征的结合，加强显著物体边缘细节信息，形成体现全局和局部特性的rgbd细化特征征的结合，加强显著物体边缘细节信息，形成体现全局和局部特性的rgbd细化特征具体方法如下：
[0043][0044]
进一步地，在步骤s4中，融合所述rgbd细化特征形成显著图。
[0045][0046]
与已有技术相比，本发明有益效果体现在：
[0047]
本发明提出一种rgb
‑
d图像显著目标检测方法，利用transformer增强高层特征，准确获取显著物体的位置信息，并利用三流融合，融入低层特征，细化显著物体轮廓细节。通过卷积神经网络和transformer的结合、全局和局部的优化，产生精度高的显著图。
附图说明
[0048]
图1为本发明一种rgb
‑
d图像显著目标检测方法的流程图；
[0049]
图2为本发明实施例1中rgb
‑
d图像显著目标检测方法的神经网络结构图。
[0050]
以下通过具体实施方式，并结合附图对本发明做进一步说明，但本发明的实施方式不限于此。
具体实施方式
[0051]
下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。
[0052]
本发明一种rgb
‑
d图像显著目标检测方法，具体采用的技术方案如下：
[0053]
s1、提取rgb图像特征，同时提取depth图像特征，并将depth图像特征与rgb图像特征进行融合，形成rgbd融合特征，进一步将其分为高层rgbd融合特征和低层rgbd融合特征。
[0054]
提取rgb图像特征的方法是使用在imagenet上预训练的resnet50网络提取图像颜色特征，形成
[0055]
类似地，提取depth图像特征的方法是使用在imagenet上预训练的resnet50网络提取图像深度特征，形成其中i对应于resnet50的层数，i取值为1至5的自然数。
[0056]
所述将depth图像特征与rgb图像特征进行融合的方法采用深度过滤残差模块实现。所述深度过滤残差模块，首先将depth图像与rgb图像进行级联，再经过通道注意力层，形成通道注意力掩码，通过与depth图像特征逐元素相乘，得到通道过滤后的depth特征；接着通道过滤后的depth特征，经过空间注意力层，形成空间注意力掩码，通过与depth图像特征逐元素相乘，得到空间过滤后的depth特征；将所述空间过滤后的depth特征以残差形式附加到rgb图像特征上，形成rgbd融合特征。所述方法描述为：
[0057][0058]
所述cat(
·
)表示级联和卷积操作，ca(
·
)操作是指论文《cbam:convolutional block attention module》中所提出的通道注意力模块，sa(
·
)操作是指论文《cbam:convolutional block attention module》中所提出的空间注意力模块，
“×”
是指逐元素相乘操作，“ ”是指逐元素相加操作。
[0059]
根据i的不同，将记为低层rgbd融合特征，将记为高层rgbd融合特征。
[0060]
s2、利用三个transformer增强所述高层rgbd融合特征，形成高层rgbd增强特征；具体分为三个子步骤：尺度调整、三个transformer嵌入、特征级联。
[0061]
s2.1：尺度调整
[0062]
具体分为两个阶段，第一阶段调整通道数，第二阶段调整分辨率，最终形成通道数和分辨率都相同的高层rgbd同尺度特征
[0063]
s2.1.1：调整通道数
[0064]
对于所述s1步骤得到的高层rgbd融合特征实施一个t(
·
)操作，得到同通道数的高层rgbd多尺度特征具体描述为：
[0065][0066]
其中t(
·
)操作是指对特征x进行卷积核为3
×
3的卷积操作，并实施relu激活函数：
[0067]
t(x)＝relu(conv(x))
[0068]
其中conv(
·
)表示卷积操作，relu(
·
)表示relu激活函数。
[0069]
s2.1.2：调整分辨率
[0070]
对于所述s2.1.1步骤得到的同通道数的高层rgbd多尺度特征经过一个逐层上采样操作pufm(
·
)，得到同通道数同分辨率的高层rgbd同尺度特征具体描述为：
[0071][0072]
所述pufm(
·
)操作根据i的不同有所区别，具体定义如下：
[0073][0074][0075][0076]
s2.2：三个transformer嵌入
[0077]
所述高层rgbd同尺度特征经过三个transformer层，产生高层rgbd优化特征
[0078][0079]
其中transfprmer(
·
)操作表示《attention is all you need》中提出的transformer。
[0080]
在本发明具体实施例中：为了减少参数量，对三个transformer使用权重共享策略。
[0081]
s2.3：特征级联
[0082]
所述高层rgbd融合特征与高层rgbd优化特征进行级联并卷积，产生高层rgbd增强特征
[0083][0084]
s3、三流解码所述高层rgbd增强特征，通过与低层rgbd融合特征的结合，加强显著物体边缘细节信息，形成体现全局和局部特性的rgbd细化特征。
[0085]
在本步骤中，三流解码所述高层rgbd增强特征，通过与低层rgbd融合特征的结合，加强显著物体边缘细节信息，形成体现全局和局部特性的rgbd细化特征具体方法如下：
[0086][0087]
s4、融合所述rgbd细化特征形成显著图。
[0088][0089]
本发明利用transformer增强高层特征，准确获取显著物体的位置信息，并利用三流融合，融入低层特征，细化显著物体轮廓细节。通过卷积神经网络和transformer的结合、全局和局部的优化，产生精度高的显著图。
[0090]
实施例1
[0091]
本实施例所述rgb
‑
d图像显著目标检测方法在nju2k数据集上选取1485张图片、在nlpr数据集上选取700张图片组成训练集，将nju2k数据集和nlpr数据集上的剩余图片及整个的stere,des和sip数据集作为测试集，进行测试。另外，对dut数据集，采用与论文
《depth
‑
induced multiscale recurrent attention network for saliency detection》相同的设置，训练集增加dut训练集的800张图片，在dut测试集上进行测试。
[0092]
在训练和测试阶段，输入的rgb
‑
d图像被调整到256*256大小，训练集进行了随机翻转、旋转、边界裁剪等数据增强操作。模型训练选取adam优化器，初始学习率为1e
‑
5，批处理大小为3，采用resnet50预训练参数及pytorch默认设置，使用的显卡是nvidia gtx 3090 gpu。transformer的超参设置如下：切块的大小为1024，transformer层的层数为12，嵌入空间的通道数为768。模型训练150代后收敛，耗时约15小时。
[0093]
所述方法与16种rgb
‑
d显著物体检测方法d3net[1],icnet[2],dcmf[3],drlf[4],ssf[5],ssma[6],a2dele[7],ucnet[8],conet[9],danet[10],jldcf[11],ebfsp[12],cdnet[13],hainet[14],rd3d[15],dsa2f[16]进行对比，结果见表1。
[0094]
表1实验结果
[0095][0096]
[1]d.
‑
p.fan,z.lin,z.zhang,m.zhu,and m.
‑
m.cheng,“rethinking rgb
‑
d salient object detection:models,data sets,and large
‑
scale benchmarks,”ieee transactions on neural networks and learning systems,2020.
[0097]
[2]g.li,z.liu,and h.ling,“icnet:information conversion network for rgb
‑
d based salient object detection,”ieee transactions on image processing,vol.29,pp.4873
–
4884,2020.
[0098]
[3]h.chen,y.deng,y.li,t.
‑
y.hung,and g.lin,“rgbd salient object detection via disentangled cross
‑
modal fusion,”ieee transactions on image processing,vol.29,pp.8407
–
8416,2020.
[0099]
[4]x.wang,s.li,c.chen,y.fang,a.hao,and h.qin,“data
‑
level recombination and lightweight fusion scheme for rgb
‑
d salient object detection,”ieee transactions on image processing,vol.30,pp.458
–
471,2020.
[0100]
[5]m.zhang,w.ren,y.piao,z.rong,and h.lu,“select,supplement and focus for rgb
‑
d saliency detection,”in proceedings ofthe ieee/cvf conference on computer vision and pattern recognition,2020,pp.3472
–
3481.
[0101]
[6]n.liu,n.zhang,and j.han,“learning selective self
‑
mutual attention for rgb
‑
d saliency detection,”in proceedings ofthe ieee/cvf conference on computer vision and pattern recognition,2020,pp.13756
–
13765.
[0102]
[7]piao,yongri,et al."a2dele:adaptive and attentive depth distiller for efficient rgb
‑
d salient object detection."proceedings ofthe ieee/cvf conference on computer vision and pattern recognition.2020.
[0103]
[8]zhang,jing,et al."uc
‑
net:uncertainty inspired rgb
‑
d saliency detection via conditional variational autoencoders."proceedings ofthe ieee/cvf conference on computer vision and pattern recognition.2020.
[0104]
[9]ji,wei,et al."accurate rgb
‑
d salient object detection via collaborative learning."arxiv preprint arxiv:2007.11782(2020).
[0105]
[10]zhao,xiaoqi,et al."a single streamnetwork forrobust and real
‑
time rgb
‑
d salient object detection."european conference on computervision.springer,cham,2020.
[0106]
[11]keren fu,deng
‑
ping fan,ge
‑
peng ji,and qijun zhao.jl
‑
dcf:joint learning and densely
‑
cooperative fusion framework forrgb
‑
d salient object detection.in proceedings ofthe ieee/cvf conference on computervision andpattern recognition,pages 3052
‑
3062,2020.
[0107]
[12]nianchang huang,yang yang,dingwen zhang,qiang zhang,andjungong han.employing bilinear fusion and saliency prior information forrgb
‑
d salient object detection.ieee transactions on multimedia,2021.
[0108]
[13]wen
‑
da jin,jun xu,qi han,yi zhang,andming
‑
ming cheng.cdnet:complementary depth network forrgb
‑
d salient object detection.ieee transactions on image processing,30:3376
‑
3390,2021.
[0109]
[14]gongyang li,zhi liu,minyu chen,zhen bai,weisi lin,andhaibin ling.hierarchical alternate interaction network for rgb
‑
d salient object detection.ieee transactions on image processing,30:3528
‑
3542,2021.
[0110]
[15]qian chen,ze liu,yi zhang,keren fu,qijun zhao,andhongwei du.rgb
‑
d salient object detection via 3d convolutional neural.aaai,2021.
[0111]
[16]peng sun,wenhu zhang,huanyu wang,songyuan li,and xi li.deep rgb
‑
d saliency detection with depth
‑
sensitive attention and automatic multi
‑
modal fusion.arxiv preprint arxiv:2103.11832,2021.
[0112]
如表1所示可知，本发明方法在s
‑
measure、自适应f
‑
measure、自适应e
‑
measure及mae的评价指标上均取得最优的结果。
[0113]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：电子销售订单合单发货方法、装置、计算机存储介质及终端与流程

一种RGB-D图像显著目标检测方法与流程

相关文献

最热文献