一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于局部和全局上下文融合的显著性目标检测方法及系统

2022-06-05 07:19:12 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,特别涉及一种基于局部和全局上下文融合的显著性目标检测方法及系统。


背景技术:

2.显著性目标检测是指在给定的一张图像中精确分割出图像中最吸引人类注意力的有趣区域。这类任务在信息检索、公共安全等领域均有广泛且有意义的现实应用,比如:利用显著性内容作为图像描述的指导;采用显著性检测指导对高分辨率的卫星图像进行无监督特征学习下的场景分类;将无监督学习转化为多实例学习,实现定位和分类的任务;提供对象级线索从而帮助无监督视频对象分割;为目标检测任务提供图像的显著性轮廓信息等等。
3.目前,现有的显著性目标检测方法尚存在三个方面的问题,包括:
4.(1)现有的工作主要集中在如何聚合来自全卷积网络不同层的多级特征,这仍然是深度学习社区的一个悬而未决的问题;同时,现有方法在图像背景与前景相似(对比度低)等复杂情况下,显著性的检测性能并不理想;
5.(2)目前虽然有很多网络提取局部和全局信息,并将两者进行融合,但是设计有效网络提取局部和全局特征仍具有挑战性;
6.(3)由于前期地工作大多都为了更好地融合局部和全局地信息而设计了十分复杂的融合结构。
7.综上,设计有用的局部和全局特征提取网络以及简单、计算开销小的融合方法对显著性目标检测问题是有意义的。


技术实现要素:

8.本发明的目的在于提供一种基于局部和全局上下文融合的显著性目标检测方法及系统,以解决上述存在的一个或多个技术问题。本发明能够有效地提取局部和全局上下文信息,设计了简单且有效的融合策略可充分利用局部和上下文信息的优势,能够提高复杂场景中显著性检测的高效性和准确性。
9.为达到上述目的,本发明采用以下技术方案:
10.本发明提供的一种基于局部和全局上下文融合的显著性目标检测方法,包括以下步骤:
11.获取待显著性目标检测的rgb图片并输入预训练好的显著性目标检测模型,获得显著性目标检测结果;
12.其中,所述显著性目标检测模型包括:
13.特征提取网络,用于获取输入的rgb图片的多尺度特征;
14.拼接融合网络,用于将所述多尺度特征中的预设前几层特征融合,获得低层细节特征;用于将所述多尺度特征中的预设后几层特征融合,获得高层语义特征;
15.局部上下文提取网络,用于输入所述低层细节特征,输出细腻的局部上下文特征;
16.全局上下文提取网络,用于输入所述高层语义特征,输出细腻的全局上下文特征;
17.融合输出网络,用于输入细腻的局部上下文特征和细腻的全局上下文特征并融合,获得上下文融合特征;基于所述上下文融合特征,输出显著性目标检测结果。
18.本发明方法的进一步改进在于,所述局部上下文提取网络包括:
19.低层特征融合网络,用于输入所述低层细节特征,进行通道数统一处理,输出融合后的低层细节特征;
20.局部特征细化网络,用于输入所述融合后的低层细节特征,进行细化处理,输出细腻的局部上下文特征;其中,所述局部特征细化网络为自编码器。
21.本发明方法的进一步改进在于,所述局部特征细化网络为u型自编码器;
22.所述u型自编码器中,对每一层上采样解码增加短连接操作,将下采样编码的特征与上采样解码的特征相结合,用于弥补对特征进行下采样操作造成的有限上下文聚合。
23.本发明方法的进一步改进在于,所述全局上下文提取网络具体包括:
24.高层特征融合网络,用于输入所述高层语义特征,进行通道数统一处理,输出融合后的高层语义特征;
25.全局特征细化网络,用于输入所述融合后的高层语义特征,进行细化处理,输出细腻的全局上下文特征;其中,所述局部特征细化网络为基于transformer的自编码器。
26.本发明方法的进一步改进在于,所述全局特征细化网络包括:
27.连续卷积操作和池化操作,用于输入所述融合后的高层语义特征,进行连续下采样编码得到卷积神经网络编码后的语义特征;
28.transformer编码器,用于对卷积神经网络编码后的语义特征再编码,输出transformer编码后的特征;
29.基于卷积神经网络的解码器,用于输入所述transformer编码后的特征,采用短连接的上采样方式得到全局上下文特征;
30.其中,所述transformer编码器的每层编码块均由layer norm、multi-head attention、dropout和多层感知机组成。
31.本发明方法的进一步改进在于,所述预训练好的显著性目标检测模型的获取步骤包括:
32.获取训练样本集;其中,所述训练样本集中的每个样本均包括rgb样本图片和对应的真实显著性图像;
33.基于所述训练样本集对所述显著性目标检测模型进行训练,损失函数值达到预设收敛条件后,获得所述预训练好的显著性目标检测模型;
34.其中,所述损失函数值为每个样本的rgb样本图片的预测显著性图像与所述rgb样本图片对应的真实显著性图像之间的损失函数值;损失函数值采用三种不同的损失函数求和获得,三种损失函数依次为bce损失、ssim损失和iou损失。
35.本发明方法的进一步改进在于,所述基于所述训练样本集对所述显著性目标检测模型进行训练时,采用随机梯度下降算法进行模型参数优化。
36.本发明方法的进一步改进在于,所述融合输出网络中,输入细腻的局部上下文特征和细腻的全局上下文特征并融合,获得上下文融合特征;基于所述上下文融合特征,输出
显著性目标检测结果的步骤具体包括:
37.将细腻的局部上下文特征和细腻的全局上下文特征输入到一个卷积核为1的卷积层中,将通道数变换到与融合后的高层语义特征一致;在通道维度拼接后,输入到一个relu层中,获得加强的局部和全局上下文特征;
38.将加强的局部和全局上下文特征在通道维度拼接后输入到一个relu层中得到上下文融合特征;
39.将上下文融合特征输入到一个卷积核为1的卷积层中并对其进行softmax操作,得到通道数为1的显著性图。
40.本发明方法的进一步改进在于,所述拼接融合网络中,将所述多尺度特征中的预设前几层特征融合,获得低层细节特征;将所述多尺度特征中的预设后几层特征融合,获得高层语义特征的步骤具体包括:
41.将所述多尺度特征中的预设前几层特征在通道维度上进行拼接实现融合,获得低层细节特征;
42.将所述多尺度特征中的预设后几层特征在通道维度上进行拼接实现融合,获得高层语义特征。
43.本发明提供的一种基于局部和全局上下文融合的显著性目标检测系统,包括:
44.检测模块,用于获取待显著性目标检测的rgb图片并输入预训练好的显著性目标检测模型,获得显著性目标检测结果;
45.其中,所述显著性目标检测模型包括:
46.特征提取网络,用于获取输入的rgb图片的多尺度特征;
47.拼接融合网络,用于将所述多尺度特征中的预设前几层特征融合,获得低层细节特征;用于将所述多尺度特征中的预设后几层特征融合,获得高层语义特征;
48.局部上下文提取网络,用于输入所述低层细节特征,输出细腻的局部上下文特征;
49.全局上下文提取网络,用于输入所述高层语义特征,输出细腻的全局上下文特征;
50.融合输出网络,用于输入细腻的局部上下文特征和细腻的全局上下文特征并融合,获得上下文融合特征;基于所述上下文融合特征,输出显著性目标检测结果。
51.与现有技术相比,本发明具有以下有益效果:
52.本发明具体提供了利用局部和全局上下文处理显著性目标检测的方法,局部上下文由于包含了丰富的细节信息,能够为图像中的物体提供细腻的边缘特征,全局上下文具有丰富的语义特征,有利于定位显著区域;本发明考虑了局部上下文,为提取更为细腻的局部细节特征设计了一个有效的深度网络,所以本发明的方法比现有传统方法能提供更好的边缘信息;本发明考虑到了全局上下文在该任务中扮演着重要角色,同时也考虑到传统卷积操作不能将感受野扩大得足够提取到丰富得全局特征。
53.本发明引入transformer编码器,从序列到序列的角度增强全局上下文,突出显著性物体的位置,所以本发明的方法比现有的方法能更好地定位复杂场景中的显著物体。
54.本发明为更好地利用提取到的局部和全局上下文,提供了一种简单的融合结构,相比于现有方法能够有效地减少网络参数量和计算量并增加性能,这得益于前面提出的两个局部和全局特征提取网络,由于局部网络和全局网络成功提取到细腻的特征,使得本发明只需简单的融合策略就能得到表现良好的显著性图。
附图说明
55.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
56.图1是本发明实施例的一种基于局部和全局上下文融合的显著性目标检测方法的流程示意图;
57.图2是本发明实施例中,主要的网络结构和分析示意图;
58.图3是本发明实施例中,网络结构示意图;
59.图4是本发明实例中,融合网络的结构示意图;
60.图5是本发明实施例中,本发方法得到的显著性图可视化与其他现有方法的对比示意图。
具体实施方式
61.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
62.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
63.下面结合附图对本发明做进一步详细描述:
64.请参阅图1,本发明实施例的一种基于局部和全局上下文融合的显著性目标检测方法,包括如下步骤:
65.获取待显著性目标检测的rgb图片并输入预训练好的显著性目标检测模型,获得显著性目标检测结果。
66.请参阅图2至图4,所述显著性目标检测模型具体包括:
67.特征提取网络,用于获取输入的rgb图片的多尺度特征;
68.拼接融合网络,用于将所述多尺度特征中的预设前几层特征融合,获得低层细节特征;用于将所述多尺度特征的预设后几层特征融合,获得高层语义特征;示例性解释的,在通道维度上进行拼接实现融合;
69.局部上下文提取网络,用于基于所述低层细节特征,获得细腻的局部上下文特征;
70.全局上下文提取网络,用于基于所述高层语义特征,获得细腻的全局上下文特征;
71.融合输出网络,用于将细腻的局部上下文特征和全局上下文特征融合,获得上下
文融合特征;基于所述上下文融合特征,输出显著性目标检测结果。
72.本发明实施例示例性优选的,所述局部上下文提取网络具体包括:
73.低层特征融合网络,用于输入所述低层细节特征,进行通道数统一处理,输出融合后的低层细节特征;示例性解释的,所述低层特征融合网络包括多个串联的卷积层;
74.局部特征细化网络,用于输入所述融合后的低层细节特征,进行细化处理,输出细腻的局部上下文特征;示例性可选的,所述局部特征细化网络为自编码器;进一步具体的,可选为u型自编码器。
75.本发明实施例示例性优选的,所述全局上下文提取网络具体包括:
76.高层特征融合网络,用于输入所述高层语义特征,进行通道数统一处理,输出融合后的高层语义特征;示例性解释的,所述层特征融合网络包括多个串联的卷积层;
77.全局特征细化网络,用于输入所述融合后的高层语义特征,进行细化处理,输出细腻的全局上下文特征;示例性可选的,所述局部特征细化网络为基于transformer的自编码器。
78.本发明实施例中,所述预训练好的显著性目标检测模型的获取步骤包括:
79.步骤1:对输入图片数据进行数据增强处理,包括:
80.1)首先将每个训练集中所有图像的大小压缩为320
×
320;
81.2)使用多种策略来增强经过压缩处理后图像;示例性可选的,随机翻转、旋转和边界裁剪等。具体来说,对训练集中的彩色图像依次采用随机翻转、旋转和边界裁剪操作,然后对彩色图片进行色彩对比度进行加强处理;对真实显著性图像来说再依次进行随机翻转、旋转和边界裁剪后添加随机高斯噪声;
82.3)各幅原始rgb图像结合对应的真实显著性图像一起构成训练集。
83.步骤2:构建fcn全卷积特征提取网络,包括:
84.1)选取resnext101作为骨干特征提取器来获取多层次的特征,同时将resnext101模型中最后的池化层和全连接层移除,选取后四层由残差模块得到的特征分别表示为res-2,res-3,res-4,res-5;
85.2)将前三层(res-2,res-3,res-4)在通道维度上进行拼接得到粗糙的低层局部细节特征,以相同的方式将后两层(res-4,res-5)拼接得到粗糙的高层语义特征;
86.步骤3:分别构建局部和全局特征细化网络,包括:
87.1)首先分别采用多个卷积层处理粗糙的底层f
l
和高层特征fh,使得两个特征的通道数为16;
88.2)对于局部特征细化网络,采用传统的自编码器,将经过卷积处理后的低层细节特征作为输入,最终输出细腻的局部特征f
local

89.3)对于全局特征细化网络,由于高层语义特征中有丰富的全局信息,需要更深且感受野更大的网络来提取。根据调研了解到transformer在自然语言处理以及图像分割领域表现良好,它通过将图像转换为补丁序列来对特征进行编码,以进一步增强网络对全局上下文进行建模的能力,相对卷积神经网络来说能够进一步扩大感受野,因此,将transformer嵌入到自编码器中,作为提取全局特征的主干网络,最后提取到对后续定位有帮助的全局特征f
global

90.本发明实施例具体的,首先是将融合后的高层语义特征再一次细化,即将特征经
过连续的下采样编码(预设的连续卷积操作和池化操作)得到卷积神经网络编码后的语义特征,再采用transformer编码器对卷积神经网络编码后的语义特征再编码,其中在输入到transformer编码器之前的主要操作是先将特征(假设大小为c*w*h)在空间域上展平成w*h个补丁,生成的补丁特征的大小是c*wh*1,再将其翻转成wh*c*1,然后将随机生成的相同大小的可训练的位置编码与该特征相加,得到输入到transformer编码器的隐式特征,同时由于显著性检测是类别不可知的,因此取消了传统vision transformer里设置的分类token。对于transformer编码器,利用其自关注机制增强显著性物体的定位信息的准确性。其主要采用6层编码块,每一层都是由layer norm、multi-head attention(mha)、dropout,多层感知机mlp(全连接 gelu激活函数 dropout)组成,得到transformer编码后的特征,最后将该特征采用基于卷积神经网络的解码器,与局部特征细化网络的解码一致,采用短连接的上采样方式得到全局上下文特征
91.步骤4:融合细腻的局部和全局特征,包括:
92.1)用fh分别用于加强局部和全局的特征,即在通道维度拼接后输入到一个1x1的卷积层中;
93.2)将加强的后的特征采用一种极为简单的融合策略,即在通道维度拼接后输入到一个1x1的卷积层中得到融合的显著性图。
94.本发明实施例具体的,首先将全局上下文提取网络和全局上下文提取网络得到的局部和全局上下文特征输入到一个卷积核为1的卷积层中,将通道数变换到与高层特征融合网络输出的融合后的高层语义特征一致,然后分别加强局部和全局上下文,即在通道维度拼接后,输入到一个relu层中,然后将加强的局部和全局上下文特征在通道维度拼接后输入到一个relu层中得到上下文融合的特征,最后将融合的特征输入到一个卷积核为1的卷积层中并对其进行softmax操作得到通道数为1的显著性图。
95.步骤5:对网络和进行训练,包括:
96.1)fcn全卷积网络:以imagenet上训练好的resnext101模型参数基础上进行调优,以人工标注了图中显著目标的显著性标注图作为训练的监督信息;
97.2)将训练集中每幅原始rgb图像及其对应的真实值图像,作为输入层的原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始rgb图像对应的预测显著性图像;计算训练集中的每幅原始rgb图像对应的预测显著性图像与对应的真实显著性图像之间的损失函数值,损失函数值采用三种不同的损失函数求和获得,三种损失函数依次为bce损失、ssim损失、iou损失,表达式分别为:
98.l
bce
=-∑
(i,j)
[g
i,j
log p
i,j
(1-g
i,j
)log(1-p
i,j
)];
[0099][0100][0101]
其中,p为本发明显著性目标检测方法的预测结果,g为真实显著性图像,μ
x
,μy和σ
x
,σy分别表示在p和g上的均值和方差。
[0102]
3)通过随机梯度下降算法,优化预构建的卷积神经网络。
[0103]
本发明实施例优选的还包括步骤6:使用测试集进行测试,包括:训练终止后,利用
训练好的网络对待测样本进行检测,对每个像素点进行显著或非显著的二分类,得到端对端的预测,作为全局显著性检测结果。
[0104]
本发明实施例中,针对现有方法存在的局部和全局特征的提取网络对上下文信息提取地不够细腻、传统的卷积层操作不能将接受域扩大到足够大以及局部和全局特征融合方法十分复杂等问题,提出了基于局部和全局上下文融合的显著性目标检测方法,有效地提取了局部和全局上下文信息,并且设计了一种简单且有效的融合策略充分利用局部和上下文信息的优势,提高复杂场景中显著性检测的高效性和准确性。
[0105]
表1(a)、表1(b)分别是显著性目标检测方法的实验结果,表1(a)是在duts-te、dutomron、ecssd数据集下该方法的实验结果,表1(b)是在hku-is、pascals、sod数据集下该方法的实验结果,这里本发明只选用了四种评测指标,即最大平均f-measure(f
β
)、e-measure(e
ε
)以及平均绝对错误(mae),在这里除mae外均是值越大效果越好。从表1可以看出我们的方法在大部分测试集上面取得了较好的结果。
[0106]
图2是本发明实施例方法的主要结构框架以及分析的示意图,从图左部来看局部和全局上下文分别由局部和全局分支获得,即局部上下文提取网络和全局上下文提取网络。而融合分支很好地利用了这些上下文来生成用于显着目标检测的最终融合特征。图右部本发明可视化了不同的分支网络为不同的输入图像生成相应的特征图,其中预设区域表示每个分支网络的注意力。可以看到,无论显著性物体是小还是大,三个分支模型都可以互相帮助找到显着对象的准确位置。以狗为例,局部上下文是狗和广告牌的轮廓,全局上下文是狗的位置;但是,狗和广告牌的界限在局部分支是无法区分的;此外,狗的腿等细节在全局分支中是模糊的。然而,本发明的融合特征缓解了这些问题。
[0107]
表1(a)在duts-te、dutomron、ecssd数据集下该方法的实验结果
[0108][0109]
表1(b)在hku-is、pascals、sod数据集下该方法的实验结果
[0110][0111]
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例
中未纰漏的细节,请参照本发明方法实施例。
[0112]
本发明实施例提供的一种基于局部和全局上下文融合的显著性目标检测系统,包括:
[0113]
检测模块,用于获取待显著性目标检测的rgb图片并输入预训练好的显著性目标检测模型,获得显著性目标检测结果;
[0114]
其中,所述显著性目标检测模型包括:
[0115]
特征提取网络,用于获取输入的rgb图片的多尺度特征;
[0116]
拼接融合网络,用于将所述多尺度特征中的预设前几层特征融合,获得低层细节特征;用于将所述多尺度特征中的预设后几层特征融合,获得高层语义特征;
[0117]
局部上下文提取网络,用于输入所述低层细节特征,输出细腻的局部上下文特征;
[0118]
全局上下文提取网络,用于输入所述高层语义特征,输出细腻的全局上下文特征;
[0119]
融合输出网络,用于输入细腻的局部上下文特征和细腻的全局上下文特征并融合,获得上下文融合特征;基于所述上下文融合特征,输出显著性目标检测结果。
[0120]
综上所述,本发明实施例公开了一种基于局部和全局上下文融合的显著性目标检测方法,属于计算机视觉领域,本发明针对给定的图像识别出人眼最为关注的内容,图像中包含较多非相关的背景,会影响显著物体的分割。现有的工作主要集中在如何聚合来自全卷积网络不同层的多级特征,这仍然是深度学习任务的一个悬而未决的问题。本发明在局部视图中分割详细结构并同时在全局视图中定位显著对象,利用传统自编码器提取物体的局部边缘特征,引入transformer编码器结合u型结构构造全局分支网络提取全局上下文,以一种将标记化的特征补丁作为输入序列的角度得到显著物体的位置信息。最后利用局部和全局信息分别取其优势,采用一种简单的融合策略,实现显著性目标检测,提升了分割显著物体的准确率。
[0121]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0122]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0123]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0124]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0125]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献