一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于RGB与灰度图像的双流编码融合显著性检测方法与流程

2021-10-24 10:38:00 来源:中国专利 TAG:双流 灰度 融合 检测方法 图像

一种基于rgb与灰度图像的双流编码融合显著性检测方法
技术领域
1.本发明涉及图像处理技术领域,特别是指一种基于rgb与灰度图像的双流编码融合显著性检测方法。


背景技术:

2.显著性物体检测(sod)旨在突出显示场景中人类视觉最关注的物体或区域。在计算机视觉中有着十分广泛的应用,包括图像分割、图像检索、物体检测、视觉跟踪、图像压缩、场景分类等。传统方法主要依靠手工制作的低级特征如颜色、形状、纹理特征和启发式先验如中心先验、背景先验等。但是这种方法由于缺乏高级的语义信息导致检测结果不理想。最近,由于卷积神经网络(cnn),特别是全卷积网络(fcn)的空前成功,基于fcn的方法极大的提升了sod的性能。其中大部分方法使用rgb图像进行显著性预测。近年来又有一些方法利用rgb图像与深度图像共同进行显著性预测(rgb

d),rdb

d的显著性检测方法有效的提升了预测图像的质量。
3.然而,rgb

d的显著性检测方法因为需要rgb图像和其深度图来配合输入进行预测,尽管拥有高质量的预测结果,但是由于深度图获取代价较大,多数设备搭载深度相机成本过高,这类方法的应用场景目前并不广泛。使用rgb图像进行显著性预测的方法虽然也取得了不错的成绩,但是现有的此类方法仍然存在许多问题。首先,现有的模型网络编码时只利用rgb图像使得一些特征信息难以区分,导致预测图像中显著物体的边缘不够清晰、显著物体内部显示不均匀、显著物体轮廓预测不准确等。此外网络特征提取不够充分,多数只关注解码阶段进行特征融合而忽略了编码阶段的特征提取部分。


技术实现要素:

4.针对现有的模型网络编码时只利用rgb图像使得一些特征信息难以区分,导致预测图像中显著物体的边缘不够清晰、显著物体内部显示不均匀、显著物体轮廓预测不准确的技术问题,本发明提出了一种基于rgb与灰度图像的双流编码融合显著性检测方法,包括双流编码器与多尺度解码器,同时考虑到rgb特征与灰度图特征的各自优点进行融合,设计了一种编码融合模块和特征融合模块;同时又考虑到显著图像中显著物体尺寸大小不一的问题,解码时采用多尺度的侧输出融合;因此本发明能更好的优化显著性图像的边缘部分,更均匀的突出显著性物体,并且在背景或者显著物体复杂的情况下提取更多的显著特征。
5.本发明的技术方案是这样实现的:
6.一种基于rgb与灰度图像的双流编码融合显著性检测方法,其步骤如下:
7.s1、从duts

tr数据集中获得rgb图像和rgb图像对应的真值图,并对rgb图像进行处理,生成rgb图像对应的灰度图像;
8.s2、对步骤s1中的灰度图像进行复制合并得到三通道灰度图;
9.s3、将三通道灰度图和rgb图像分别输入编码器网络,得到多尺度特征图;
10.s4、利用解码器网络对多尺度特征图进行解码,输出预测图像;
11.s5、利用损失函数计算预测图像和真值图的损失值,判断损失值是否阈值,若是,得到训练后的编码区

解码器网络,执行步骤s6,否则,根据损失值自动修改编码器网络和解码器网络的所有层的权重参数,返回步骤s3;
12.s6、获取待检测图像,生成待检测图像的三通道灰度图,并将待检测图像和待检测图像的三通道灰度图分别输入编码区

解码器网络,输出待检测图像的预测结果。
13.所述rgb图像对应的灰度图像的生成方法为:
14.gray=r
×
0.299 g
×
0.587 b
×
0.114;
15.其中,gray为灰度图像,r为rgb图像的红色通道像素值,g为rgb图像的绿色通道像素值,b分别为rgb图像的蓝色通道像素值。
16.所述编码器网络包括encode1

i模块、encode1

ii模块、encode1

iii模块、encode1

iv模块、encode1

v模块、encode2

i模块、encode2

ii模块、encode2

iii模块、encode2

iv模块、encode2

v模块、双流融合模块tsf1、双流融合模块tsf2、双流融合模块tsf3、双流融合模块tsf4、双流融合模块tsf5和bridge模块;
17.encode1

i模块的输入端与第一输入层相连接,第一输入层的输入为三通道灰度图,encode1

i模块的输出端与encode1

ii模块的输入端相连接,encode1

ii模块的输出端与encode1

iii模块的输入端相连接,encode1

iii模块的输出端与encode1

iv模块的输入端相连接,encode1

iv模块的输出端与encode1

v模块的输入端相连接;
18.encode2

i模块的输入端与第二输入层相连接,第二输入层的输入为rgb图像,第二输入层、encode1

i模块的输出端、encode2

i模块的输出端均与双流融合模块tsf1的输入端相连接,双流融合模块tsf1的输出端与encode2

ii模块的输入端相连接,encode1

ii模块的输出端、encode2

i模块的输出端、encode2

ii模块的输出端均与双流融合模块tsf2的输入端相连接,双流融合模块tsf2的输出端与encode2

iii模块的输入端相连接,encode1

iii模块的输出端、encode2

ii模块的输出端、encode2

iii模块的输出端均与双流融合模块tsf3的输入端相连接,双流融合模块tsf3的输出端与encode2

iv模块的输入端相连接,encode1

iv模块的输出端、encode2

iii模块的输出端、encode2

iv模块的输出端均与双流融合模块tsf4的输入端相连接,双流融合模块tsf4的输出端与encode2

v模块的输入端相连接,encode1

v模块的输出端、encode2

iv模块的输出端、encode2

v模块的输出端均与双流融合模块tsf5的输入端相连接,双流融合模块tsf5的输出端与bridge模块的输入端相连接;
19.第二输入层、encode2

i模块的输出端、encode2

ii模块的输出端、encode2

iii模块的输出端、encode2

iv模块的输出端、encode2

v模块的输出端和bridge模块的输出端均与解码器网络相连接。
20.所述解码器网络包括特征融合模块ff1、特征融合模块ff2、特征融合模块ff3、特征融合模块ff4、特征融合模块ff5、解码融合模块df1、解码融合模块df2、解码融合模块df3、解码融合模块df4、解码融合模块df5、decode

i模块、decode

ii模块、decode

iii模块、decode

iv模块和decode

v模块;
21.特征融合模块ff1的输入端分别与第二输入层、encode2

i模块的输出端、encode2

ii模块的输出端相连接,特征融合模块ff1的输出端与解码融合模块df1的输入端相连接;特征融合模块ff2的输入端分别与encode2

i模块的输出端、encode2

ii模块的输
出端、encode2

iii模块的输出端相连接,特征融合模块ff2的输出端与解码融合模块df2的输入端相连接;特征融合模块ff3的输入端分别与encode2

ii模块的输出端、encode2

iii模块的输出端、encode2

iv模块的输出端相连接,特征融合模块ff3的输出端与解码融合模块df3的输入端相连接;特征融合模块ff4的输入端分别与encode2

iii模块的输出端、encode2

iv模块的输出端、encode2

v模块的输出端相连接,特征融合模块ff4的输出端与解码融合模块df4的输入端相连接;特征融合模块ff5的输入端分别与encode2

iv模块的输出端、encode2

v模块的输出端和bridge模块的输出端相连接,特征融合模块ff5的输出端、bridge模块的输出端均与解码融合模块df5的输入端相连接;解码融合模块df5的输出端与decode

v模块的输入端相连接,decode

v模块的输出端与解码融合模块df4的输入端相连接,解码融合模块df4的输出端与decode

iv模块的输入端相连接,decode

iv模块的输出端与解码融合模块df3的输入端相连接,解码融合模块df3的输出端与decode

iii模块的输入端相连接,decode

iii模块的输出端与解码融合模块df2的输入端相连接,解码融合模块df2的输出端与decode

ii模块的输入端相连接,decode

ii模块的输出端与解码融合模块df1的输入端相连接,解码融合模块df1的输出端与decode

i模块的输入端相连接,decode

i模块的输出端与输出层的输入端相连接,输出层的输出端输出预测图像。
22.所述第一输入层和第二输入层的结构均为卷积层i

批量归一化层i

激活层i;其中,卷积层i的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为1,输出通道数为64;
23.所述encode1

i模块和encode2

i模块的结构均为卷积层ii

批量归一化层ii

激活层ii

卷积层iii

批量归一化层iii;其中,卷积层ii和卷积层iii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为64,输出通道数为64;
24.所述encode1

ii模块和encode2

ii模块的结构均为卷积层iv

批量归一化层iv

激活层iv

卷积层v

批量归一化层v;其中,卷积层iv的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为64,输出通道数为128;卷积层v的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为128,输出通道数为128;
25.所述encode1

iii模块和encode2

iii模块的结构均为卷积层vi

批量归一化层vi

激活层vi

卷积层vii

批量归一化层vii;其中,卷积层vi的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为128,输出通道数为256;卷积层vii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为256,输出通道数为256;
26.所述encode1

iv模块和encode2

iv模块的结构均为卷积层viii

批量归一化层viii

激活层viii

卷积层ix

批量归一化层ix;其中,卷积层viii的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为256,输出通道数为512;卷积层ix的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为512;
27.所述encode1

v模块和encode2

v模块的结构均为卷积层x

批量归一化层x

激活层x

卷积层xi

批量归一化层xi;其中,卷积层x的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为512,输出通道数为512;卷积层xi的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为512;
28.所述bridge模块的结构为卷积层xii

批量归一化层xii

激活层xii

卷积层xiii

批量归一化层xiii

激活层xiii;其中,卷积层xii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为512;卷积层xiii的卷积核为3
×
3,步长为1,边缘补充为1,
输入通道数为512,输出通道数为64;
29.所述decode

i模块、decode

ii模块、decode

iii模块、decode

iv模块和decode

v模块的结构均为第一卷积层

第一批量归一化层

第一激活层

第二卷积层

第二批量归一化层

第二激活层;其中,第一卷积层的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为128,输出通道数为64;第二卷积层的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为64,输出通道数为64;
30.所述输出层的结构为第三卷积层

第三激活层;其中,第三卷积层卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为61,输出通道数为1;
31.所述激活层i、激活层ii、激活层iv、激活层vi、激活层viii、激活层x、激活层xii、激活层xiii、第一激活层和第二激活层均为relu激活函数;第三激活层为sigmoid激活函数。
32.所述双流融合模块tsf1—tsf5的计算方法为:
[0033][0034]
其中,tsf
i
∈{tsf1,tsf2,tsf3,tsf4,tsf5},当i=1时,为第二输入层的结果;为rgb流中encode2

i模块操作生成的结果,为gray流中encode1

i模块操作结果,表示逐元素相加,concat(
·
)表示在通道维度上做连接操作,conv(
·
)表示卷积操作,bn(
·
)表示进行批量归一化操作,relu(
·
)表示激活函数。
[0035]
所述bridge模块的计算方法为:
[0036][0037]
其中,bridge
out
为bridge模块的输出结果,为双流融合模块tsf5的输出结果,conv(
·
)表示卷积操作,bn(
·
)表示进行批量归一化操作,relu(
·
)表示激活函数。
[0038]
所述特征融合模块ff1‑
ff5的计算方法为:
[0039]
ff
i
=concat(relu(bn(conv(encode

i
‑1))),relu(bn(conv(encode
i
))),relu(bn(conv(encode

i 1
))));
[0040]
其中,ff
i
∈{ff1,ff2,ff3,ff4,ff5},encode

i
‑1为rgb流中encode2

i

1模块输出结果经过尺寸变换后的结果,encode

i 1
为rgb流中encode2

i 1模块输出结果经过尺寸变换后的结果,encode
i
为rgb流中encode2

i模块输出结果;当i=1时,encode
′0为第二输入层的结果经过尺寸变换后的结果,当i=5时,encode
′6为bridge模块输出结果经过尺寸变换后的结果。
[0041]
所述解码融合模块df1—df5的计算方法为:
[0042]
df
i
=concat(relu(bn(conv(ff
i
))),relu(bn(conv(decode
i 1
))));
[0043]
其中,df
i
∈{df1,df2,df3,df4,df5},decode
i 1
为decode

i 1模块的解码结果,当i=5时,decode6为为bridge模块的输出结果。
[0044]
所述损失函数为:
[0045]
[0046]
其中,l为损失值,l
(p)
为第p个模块对应的损失值,p=5,分别对应decode

i模块、decode

ii模块、decode

iii模块、decode

iv模块和decode

v模块的输出;
[0047][0048]
其中,为bce损失,为ssim损失,w
bce
为bce损失的权重,w
ssim
为ssim损失的权重;
[0049]
l
bce



(x,y)
[g(x,y)log(p(x,y)) (1

g(x,y))log(1

p(x,y))];
[0050][0051]
其中,g(x,y)为真值图的像素点(x,y)的像素值,p(x,y)为预测图像的像素点(x,y)的像素值,μ
x
为像素值x

的均值,μ
y
为像素值y

的均值,σ
x
为像素值x

的标准差,σ
y
为像素值y

的标准差,c1、c2均为偏置参数,x

={x
j
:j=1,...,n2}为预测图像的像素值,y

={y
j
:j=1,...,n2}为真值图的像素值,n
×
n为预测图像和真值图的区域大小。
[0052]
与现有技术相比,本发明产生的有益效果为:
[0053]
1)本发明以resnet34作为主干,只保留resnet34的特征提取的编码网络部分;在编码时使用双流模型,同时对rgb图像和灰度图像进行特征提取,利用了灰度图像的优点即更容易提取图像的亮度与轮廓特征。相比单纯使用rgb图的方法,可以更有效地提取图像特征。
[0054]
2)本发明针对多数网络在编码中图像提取特征不够充分的问题,提出了一个编码融合模块,每层编码时结合上层编码的信息参与当前层的编码,使整个编码过程更加平滑,可以保留更多的有效特征,从而使每层的编码结果可以更好的与相应解码层融合来指导解码过程。
附图说明
[0055]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1为本发明的流程图。
[0057]
图2为本发明的双流融合模块图。
[0058]
图3为本发明的特征融合模块图。
[0059]
图4为本发明的解码融合模块图。
具体实施方式
[0060]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0061]
如图1所示,本发明实施例提供了一种基于rgb与灰度图像的双流编码融合显著性
检测方法,具体步骤如下:
[0062]
s1、从duts

tr数据集中获得rgb图像和rgb图像对应的真值图,并对rgb图像进行处理,生成rgb图像对应的灰度图像;
[0063]
所述rgb图像对应的灰度图像的生成方法为:
[0064]
gray=r
×
0.299 g
×
0.587 b
×
0.114;
[0065]
其中,gray为灰度图像,r为rgb图像的红色通道像素值,g为rgb图像的绿色通道像素值,b分别为rgb图像的蓝色通道像素值。
[0066]
s2、对步骤s1中的灰度图像进行复制合并得到三通道灰度图;灰度图像是单通道灰度图,单通道灰度图复制两份,合并为一个三通道的灰度图,并将rgb图像与三通道的灰度图的尺寸统一缩放至224
×
224的大小。
[0067]
s3、将三通道灰度图和rgb图像分别输入编码器网络,得到多尺度特征图;将三通道灰度图与rgb图像分别送入编码器网络的两个并行的流中(如图1所示)。所述编码器网络包括encode1

i模块、encode1

ii模块、encode1

iii模块、encode1

iv模块、encode1

v模块、encode2

i模块、encode2

ii模块、encode2

iii模块、encode2

iv模块、encode2

v模块、双流融合模块tsf1、双流融合模块tsf2、双流融合模块tsf3、双流融合模块tsf4、双流融合模块tsf5和bridge模块;encode1

i模块的输入端与第一输入层相连接,第一输入层的输入为三通道灰度图,encode1

i模块的输出端与encode1

ii模块的输入端相连接,encode1

ii模块的输出端与encode1

iii模块的输入端相连接,encode1

iii模块的输出端与encode1

iv模块的输入端相连接,encode1

iv模块的输出端与encode1

v模块的输入端相连接;encode2

i模块的输入端与第二输入层相连接,第二输入层的输入为rgb图像,第二输入层、encode1

i模块的输出端、encode2

i模块的输出端均与双流融合模块tsf1的输入端相连接,双流融合模块tsf1的输出端与encode2

ii模块的输入端相连接,encode1

ii模块的输出端、encode2

i模块的输出端、encode2

ii模块的输出端均与双流融合模块tsf2的输入端相连接,双流融合模块tsf2的输出端与encode2

iii模块的输入端相连接,encode1

iii模块的输出端、encode2

ii模块的输出端、encode2

iii模块的输出端均与双流融合模块tsf3的输入端相连接,双流融合模块tsf3的输出端与encode2

iv模块的输入端相连接,encode1

iv模块的输出端、encode2

iii模块的输出端、encode2

iv模块的输出端均与双流融合模块tsf4的输入端相连接,双流融合模块tsf4的输出端与encode2

v模块的输入端相连接,encode1

v模块的输出端、encode2

iv模块的输出端、encode2

v模块的输出端均与双流融合模块tsf5的输入端相连接,双流融合模块tsf5的输出端与bridge模块的输入端相连接;第二输入层、encode2

i模块的输出端、encode2

ii模块的输出端、encode2

iii模块的输出端、encode2

iv模块的输出端、encode2

v模块的输出端和bridge模块的输出端均与解码器网络相连接。
[0068]
所述第一输入层和第二输入层的结构均为卷积层i

批量归一化层i

激活层i;如表1所示,卷积层i的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为1,输出通道数为64。
[0069]
表1输入层的结构
[0070]
13
×
3卷积层,步幅为2,边缘补充为1,输入通道数1,输出通道数642批量归一化
3relu激活函数
[0071]
所述encode1

i模块和encode2

i模块的结构均为卷积层ii

批量归一化层ii

激活层ii

卷积层iii

批量归一化层iii;如表2所示,卷积层ii和卷积层iii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为64,输出通道数为64。
[0072]
表2 encode1的结构
[0073]
13
×
3卷积层,步幅为1,边缘补充为1,输入通道数64,输出通道数642批量归一化3relu激活函数43
×
3卷积层,步幅为1,边缘补充为1,输入通道数64,输出通道数645批量归一化
[0074]
所述encode1

ii模块和encode2

ii模块的结构均为卷积层iv

批量归一化层iv

激活层iv

卷积层v

批量归一化层v;如表3所示,卷积层iv的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为64,输出通道数为128;卷积层v的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为128,输出通道数为128。
[0075]
表3 encode2的结构
[0076]
13
×
3卷积层,步幅为2,边缘补充为1,输入通道数64,输出通道数1282批量归一化3relu激活函数43
×
3卷积层,步幅为1,边缘补充为1,输入通道数128,输出通道数1285批量归一化
[0077]
所述encode1

iii模块和encode2

iii模块的结构均为卷积层vi

批量归一化层vi

激活层vi

卷积层vii

批量归一化层vii;如表4所示,卷积层vi的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为128,输出通道数为256;卷积层vii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为256,输出通道数为256。
[0078]
表4 encode3的结构
[0079][0080][0081]
所述encode1

iv模块和encode2

iv模块的结构均为卷积层viii

批量归一化层viii

激活层viii

卷积层ix

批量归一化层ix;如表5所示,卷积层viii的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为256,输出通道数为512;卷积层ix的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为512。
[0082]
表5 encode4的结构
[0083]
13
×
3卷积层,步幅为2,边缘补充为1,输入通道数256,输出通道数5122批量归一化3relu激活函数43
×
3卷积层,步幅为1,边缘补充为1,输入通道数512,输出通道数5125批量归一化
[0084]
所述encode1

v模块和encode2

v模块的结构均为卷积层x

批量归一化层x

激活层x

卷积层xi

批量归一化层xi;如表6所示,卷积层x的卷积核为3
×
3,步长为2,边缘补充为1,输入通道数为512,输出通道数为512;卷积层xi的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为512。
[0085]
表6 encode5的结构
[0086]
13
×
3卷积层,步幅为2,边缘补充为1,输入通道数512,输出通道数5122批量归一化3relu激活函数43
×
3卷积层,步幅为1,边缘补充为1,输入通道数512,输出通道数5125批量归一化
[0087]
所述bridge模块的结构为卷积层xii

批量归一化层xii

激活层xii

卷积层xiii

批量归一化层xiii

激活层xiii;如表7所示,卷积层xii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为512;卷积层xiii的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为512,输出通道数为64。所述激活层i、激活层ii、激活层iv、激活层vi、激活层viii、激活层x、激活层xii、激活层xiii均为relu激活函数。
[0088]
表7 bridge的结构
[0089][0090][0091]
在特征提取网络中,不同层次的卷积层对应于不同程度的特征提取。多层次集成可以提高不同分辨率特征的表示能力,聚合浅层特征可进一步强化详细信息,抑制噪声。为了使特征提取阶段更平滑,更充分的提取多层次特征,强化特征提取能力,在编码阶段设计了tsf(twostreamfusion)模块。不同于其他同类型的网络,tsf模块聚合的特征不仅用来指导对应的解码过程,同样的也用来指导其下一步的编码过程,tsf模块的具体计算方式如图2所示:
[0092]
[0093]
其中,tsf
i
∈{tsf1,tsf2,tsf3,tsf4,tsf5},当i=1时,为第二输入层的结果;为rgb流中encode2

i模块操作生成的结果,为gray流中encode1

i模块操作结果,表示逐元素相加,concat(
·
)表示在通道维度上做连接操作,conv(
·
)表示卷积操作,bn(
·
)表示进行批量归一化操作,relu(
·
)表示激活函数。
[0094]
从rgb流的encode2开始,之后rgb流中每次编码操作的输入都是上一层tsf模块聚合的结果,这样的操作只针对于rgb流,而gray流每层的输入则是当前流上一层的输出。因为我们的灰度流提取特征仅作为rgb流特征的辅助,灰度图像虽然有利于提取轮廓信息,但是相应的其包含的特征相对于rgb图像较少。所以灰度流的信息不进行编码上的融合。
[0095]
在编码器的最后,为了进一步扩大感受域,并且减少来自解码的通道数以提高网络的执行效率,加入了一个bridge模块,所述bridge模块的计算方法为:
[0096][0097]
其中,bridge
out
为bridge模块的输出结果,为双流融合模块tsf5的输出结果,conv(
·
)表示卷积操作,bn(
·
)表示进行批量归一化操作,relu(
·
)表示激活函数。bridge模块用来降低通道数量和参数数量。
[0098]
s4、利用解码器网络对多尺度特征图进行解码,输出预测图像;对应的编码器阶段侧输出:每个解码阶段都有来自对应编码阶段的侧输出内容进行聚合。为了能更好的获取编码阶段的上下文信息,侧输出分别解码器,这里设计了一个ff(feature fuse)模块用来融合其内容(见图3)。解码器网络每层都会聚合上一层的输出与对应解码层ff模块的输出,设计了一个df(decode fuse)模块来聚合解码时的特征,如图4所示;解码器每层维持64的通道数不变,最后一层output层使用一个3
×
3的滤波器将通道数降为1,输出一个224
×
224的单通道预测图片。
[0099]
所述解码器网络包括特征融合模块ff1、特征融合模块ff2、特征融合模块ff3、特征融合模块ff4、特征融合模块ff5、解码融合模块df1、解码融合模块df2、解码融合模块df3、解码融合模块df4、解码融合模块df5、decode

i模块、decode

ii模块、decode

iii模块、decode

iv模块和decode

v模块;特征融合模块ff1的输入端分别与第二输入层、encode2

i模块的输出端、encode2

ii模块的输出端相连接,特征融合模块ff1的输出端与解码融合模块df1的输入端相连接;特征融合模块ff2的输入端分别与encode2

i模块的输出端、encode2

ii模块的输出端、encode2

iii模块的输出端相连接,特征融合模块ff2的输出端与解码融合模块df2的输入端相连接;特征融合模块ff3的输入端分别与encode2

ii模块的输出端、encode2

iii模块的输出端、encode2

iv模块的输出端相连接,特征融合模块ff3的输出端与解码融合模块df3的输入端相连接;特征融合模块ff4的输入端分别与encode2

iii模块的输出端、encode2

iv模块的输出端、encode2

v模块的输出端相连接,特征融合模块ff4的输出端与解码融合模块df4的输入端相连接;特征融合模块ff5的输入端分别与encode2

iv模块的输出端、encode2

v模块的输出端和bridge模块的输出端相连接,特征融合模块ff5的输出端、bridge模块的输出端均与解码融合模块df5的输入端相连接;解码融合模块df5的输出端与decode

v模块的输入端相连接,decode

v模块的输出端与解码融合模
块df4的输入端相连接,解码融合模块df4的输出端与decode

iv模块的输入端相连接,decode

iv模块的输出端与解码融合模块df3的输入端相连接,解码融合模块df3的输出端与decode

iii模块的输入端相连接,decode

iii模块的输出端与解码融合模块df2的输入端相连接,解码融合模块df2的输出端与decode

ii模块的输入端相连接,decode

ii模块的输出端与解码融合模块df1的输入端相连接,解码融合模块df1的输出端与decode

i模块的输入端相连接,decode

i模块的输出端与输出层的输入端相连接,输出层的输出端输出预测图像。
[0100]
所述decode

i模块、decode

ii模块、decode

iii模块、decode

iv模块和decode

v模块的结构均为第一卷积层

第一批量归一化层

第一激活层

第二卷积层

第二批量归一化层

第二激活层;如表8所示,第一卷积层的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为128,输出通道数为64;第二卷积层的卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为64,输出通道数为64;所述输出层的结构为第三卷积层

第三激活层;如表9所示,第三卷积层卷积核为3
×
3,步长为1,边缘补充为1,输入通道数为61,输出通道数为1;所述第一激活层和第二激活层均为relu激活函数;第三激活层为sigmoid激活函数。
[0101]
表8 decode5

decode1的结构
[0102]
13
×
3卷积层,步幅为1,边缘补充为1,输入通道数128,输出通道数642批量归一化3relu激活函数43
×
3卷积层,步幅为1,边缘补充为1,输入通道数64,输出通道数645批量归一化6relu激活函数7双线性插值的上采样操作(分辨率翻倍)
[0103]
表9 output的结构
[0104]
13
×
3卷积层,步幅为1,边缘补充为1,输入通道数61,输出通道数12sigmoid激活函数
[0105]
所述特征融合模块的计算方法为:
[0106]
ff
i
=concat(relu(bn(conv(encode

i
‑1))),relu(bn(conv(encode
i
))),relu(bn(conv(encode

i 1
))));
[0107]
其中,ff
i
∈{ff1,ff2,ff3,ff4,ff5},encode

i
‑1为rgb流中encode2

i

1模块输出结果经过尺寸变换后的结果,encode

i 1
为rgb流中encode2

i 1模块输出结果经过尺寸变换后的结果,encode
i
为rgb流中encode2

i模块输出结果;当i=1时,encode
′0为第二输入层的结果经过尺寸变换后的结果,当i=5时,encode
′6为bridge模块输出结果经过尺寸变换后的结果。
[0108]
所述解码融合模块的计算方法为:
[0109]
df
i
=concat(relu(bn(conv(ff
i
))),relu(bn(conv(decode
i 1
))));
[0110]
其中,df
i
∈{df1,df2,df3,df4,df5},decode
i 1
为decode

i 1模块的解码结果,当i=5时,decode6为为bridge模块的输出结果。
[0111]
s5、利用损失函数计算预测图像和真值图的损失值,判断损失值是否阈值,若是,得到训练后的编码区

解码器网络,执行步骤s6,否则,根据损失值自动修改编码器网络和
解码器网络的所有层的权重参数,返回步骤s3;
[0112]
所述损失函数定义为所有输出层的损失总和为:
[0113][0114]
其中,l为损失值,l
(p)
为第p个模块对应的损失值,p=5,分别对应decode

i模块、decode

ii模块、decode

iii模块、decode

iv模块和decode

v模块的输出。
[0115]
在大多数显著性检测的任务中,广泛使用bce(binary cross entropy)损失函数,但是bce只关注全局每个像素的损失,并不能很好的均匀突出显著性区域与其边界,在这里设计了一个加权混合损失函数:
[0116][0117]
其中,为bce损失,为ssim损失,w
bce
为bce损失的权重,w
ssim
为ssim损失的权重。
[0118]
bce损失是二分类问题和图像分割问题中最常用的损失函数,它的定义为:
[0119]
l
bce



(x,y)
[g(x,y)log(p(x,y)) (1

g(x,y))log(1

p(x,y))];
[0120]
ssim最初被提议用于图像质量评估。它捕获图像中的结构信息。因此,将它融入到损失函数中用来突出显著物体的结构信息,其定义如下:
[0121][0122]
其中,g(x,y)∈[0,1]为真值图的像素点(x,y)的像素值,p(x,y)∈[0,1]为预测图像的像素点(x,y)的像素值,μ
x
为像素值x

的均值,μ
y
为像素值y

的均值,σ
x
为像素值x

的标准差,σ
y
为像素值y

的标准差,c1、c2均为偏置参数,c1=0.012,c2=0.032用来避免除0的情况,x

={x
j
:j=1,...,n2}为预测图像的像素值,y

={y
j
:j=1,...,n2}为真值图的像素值,n
×
n为预测图像和真值图的区域大小。这里本发明实施例使用是局部ssim指数,而不是全局ssim指数。
[0123]
s6、获取待检测图像,生成待检测图像的三通道灰度图,并将待检测图像和待检测图像的三通道灰度图分别输入编码区

解码器网络,输出待检测图像的预测结果。
[0124]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜