一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多投影表征的全景图像显著性目标检测方法

2022-12-02 23:02:39 来源:中国专利 TAG:


1.本发明涉及显著性目标检测技术领域,具体说是一种基于多投影表征的全景图像显著性目标检测方法。


背景技术:

2.随着硬件技术的发展和虚拟现实应用的发展,显著性目标检测的输入不再局限于普通二维图像,出现了面向全景图像的显著性目标检测任务。相比于普通二维图像,全景图像具有三百六十度视场,能够捕获来自所有方向的信息,含有更多的场景信息。由于全景图像的分辨率通常比普通二维图像大很多,全景图像需要更高的传输带宽和存储代价。
3.全景图像显著性目标检测是在全景图像数据中检测出最受关注的目标或区域。通过显著性目标检测对感兴趣区域的选择,有限的计算资源可以被分配给更重要的信息,从而合理地减少了图像的冗余信息,增加传输和储存过程的效率。因此,全景图像显著性目标检测在全景图像的编码、编辑、拼接和质量评估等应用中都起到了关键作用。
4.近年来,面向普通二维图像的显著性目标检测技术已经相对成熟,出现了很多优秀的模型(显著性目标检测模型)。例如,chen等人[1] 提出一个渐进式聚合网络,该网络考虑了全局信息,并充分地将不同层次的特征整合在一起。传统显著性目标检测方法虽然在二维图像上表现良好,然而,由于全景图像的特性,直接将传统显著性目标检测模型移植到全景图像上很难获得令人满意的结果。因此,需要设计专门的模型以解决面向全景图像的显著性目标检测任务中的挑战。具体来说,面向全景图像的显著性目标检测面临以下两个主要挑战。
[0005]
首先,真实全景图像的场景是在球面域上,但考虑到图片的存储、传输和处理,人们一般都会通过投影变换将其投射到平面域上。平面域上全景图像常见的投影表征包括等矩形投影图像和立方体投影图像。然而,从球面域到平面域的投影会带来一定程度的失真,而且任何投影方式都不能避免这种失真。图像失真增加了显著性目标检测的难度,可能导致检测目标错误、检测目标不完整等一系列问题。
[0006]
其次,由于涵盖了全方向的视角,全景图像的场景通常较为纷杂,背景中可能存在大量冗余物体,这为显著性目标的定位准确性造成明显干扰。
[0007]
近年来,随着虚拟现实技术的快速发展和应用,面向全景图像的显著性目标检测研究逐渐引起人们的关注,目前已经出现了针对全景图像特性的显著性目标检测算法。
[0008]
为了解决失真问题,monroy等人[2]将全景图像映射为六个块,通过卷积神经网络得到块的显著性图,再用特殊的后处理技术将这些块组合在一起。assens等人[3]在模型中引入了对显著性信息的时间感知表示。而li等人[4]在网络中构建了一个失真自适应模块,将图像切割成许多小块,并给它们分配不同的卷积核。该网络还加入了多尺度上下文的融合模块,用以感知和辨别全景图像中的目标。huang 等人[5]共用了全景图像的等矩形投影和立方体投影,提出一个特征自适应网络,将等矩形投影图像和六个立方体投影图像同时作为网络的输入,旨在利用这两种投影的各自优势,结合等矩形投影的全局性和立方体投
影失真小的特点。
[0009]
现有技术中的不足之处在于:将立方体投影图像作为等矩形投影图像的补充时,忽略了立方图投影图像中六个独立面的不连续性。单独使用立方图投影图像中的六个独立面,可能使全景图像中的目标失去完整性,导致不完整的检测和无效的背景抑制。
[0010]
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。


技术实现要素:

[0011]
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于多投影表征的全景图像显著性目标检测方法,旨在采用一组立方体展开图像与等矩形投影图像相结合,设计一种新的基于多投影表征的全景图像显著性目标检测网络,该检测网络融合多种全景图像的表征方式,获得更优的检测效果。
[0012]
为达到以上目的,本发明采取的技术方案是:
[0013]
一种基于多投影表征的全景图像显著性目标检测方法,其特征在于,构建一个编码器-解码器结构的端到端检测网络,将等矩形投影图像和相应的四个立方体展开图像共同作为检测网络的输入;
[0014]
所述等矩形投影图像和四个立方体展开图像,分别对应编码器的两个分支,即等矩形投影分支和立方体展开分支;
[0015]
在编码器阶段,等矩形投影分支和立方体展开分支通过共享参数的五十层深度残差网络resnet-50提取特征;
[0016]
在解码器阶段,动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征,过滤与细化模块结合编码与解码特征,得到最终的显著性图。
[0017]
在上述技术方案的基础上,所述动态加权融合模块包括门控表征间融合单元和加权表征内融合单元,分别从表征间和表征内两个角度对不同投影表征特征进行自适应融合;最终,表征间融合和表征内融合被整合到动态加权融合模块中,自适应地融合两种投影表征的编码器特征;
[0018]
所述过滤与细化模块通过过滤策略抑制特征本身与特征之间的冗余信息,同时通过细化策略保留与显著性目标相关的细节信息。
[0019]
在上述技术方案的基础上,在编码器阶段,两个分支采用共享参数的五十层深度残差网络resnet-50作为编码器,通过编码器对等矩形投影图像和立方体展开图像的特征提取,以学习全景图的多投影表征特征,所述特征提取具体包括:
[0020]
在两层低层的特征提取后,利用立方体-等矩形投影转换模块将立方体展开特征转化为等矩形投影特征,再继续更高层的特征提取。
[0021]
在上述技术方案的基础上,在解码器阶段,将检测网络学到的多层次和多投影表征的编码器特征送入到解码器中,以逐步恢复空间分辨率,并生成显著性图,具体包括:
[0022]
网络中的动态加权融合模块从表征间和表征内两个角度,自适应地融合了等矩形投影特征和立方体展开特征,从而筛选出更有效、更全面的特征;
[0023]
过滤与细化模块通过过滤不同投影表征特征的低层特征中的冗余信息,从而增强高层语义特征;
[0024]
检测网络在主要损失函数和所有侧输出损失函数的共同监督下,得到最终的显著性图。
[0025]
在上述技术方案的基础上,所述四个立方体展开图像采用四面水平连接、三面垂直连接的立方体展开方式,这种展开方式能够延伸立方体面之间在水平和垂直方向上的连续性,从而最大限度地增加图像中目标的完整性;
[0026]
具体包括:
[0027]
以立方体投影图像的前、后、左、右四个面为中心,分别进行4
‑ꢀ
3型展开,从而得到四个立方体展开图像,并将这四个立方体展开图像作为立方体展开分支的输入。
[0028]
在上述技术方案的基础上,将四个立方体展开图像与等矩形投影图像一起送入编码器后,将立方体展开图像分成水平子图像和垂直子图像,分别进行低层的特征提取;
[0029]
通过立方体-等矩形投影转换模块,将立方体展开特征转换为等矩形投影格式,再继续提取高层语义特征,补偿立方体面连接时轻微的语义不连续。
[0030]
在上述技术方案的基础上,所述动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征,具体包括:
[0031]
采用一个门控表征间融合单元实现两种投影表征特征的融合,将各立方体展开特征与等矩形投影特征的表征间融合,自适应地筛选出两种不同投影表征特征中有价值的部分,得到由立方体展开引导的融合特征;
[0032]
门控表征间融合单元首先学习一个重要性图pi,用以评估立方体展开特征在融合中的贡献;再将等矩形投影特征fe与每个立方体展开特征在通道维度进行拼接,然后使用se模块计算通道注意力,随后通过一个瓶颈卷积层和sigmoid激活函数得到重要性图pi;
[0033]
在得到重要性图pi后,由立方体展开引导的融合特征则可以通过以下公式计算:
[0034][0035]
式中,表示哈达玛乘法(hadamard multiplication),fi表示由立方体展开引导的融合特征,即为门控表征间融合单元的最终输出;
[0036]
通过上述门控表征间融合单元,四个立方体展开特征分别与等矩形投影特征进行自适应融合,得到四个由立方体展开引导的融合特征;
[0037]
采用一个加权表征内融合单元实现四个立方体展开引导的融合特征的表征内融合;
[0038]
加权表征内融合单元将原始的四个立方体展开特征加权表征内融合单元将原始的四个立方体展开特征拼接,通过se模块,得到一个权重向量α∈r
4c
×1×1;
[0039]
将权重向量进一步切割成四个子向量αi∈rc×1×1,经过归一化后得到自适应权重ωi;
[0040]
得到相应的自适应权重后,则进行如下所述表征内融合:
[0041]
将门控表征间融合单元得到的四个由立方体展开引导的融合特征fi∈rc×h×w,以自适应地加权方式进行融合,并结果与等矩形投影特征fe相加,得到本模块最终的融合特征ff:
[0042]
[0043]
式中,ωi是由加权表征内融合单元得到的相应权重,表示逐元素加法,表示在整个特征平面上的逐元素乘法。
[0044]
在上述技术方案的基础上,所述过滤与细化模块步进式地实现特征的筛选和融合,使其既有助于抑制两类冗余信息,又能保留与显著性目标相关的细节信息,具体包括:
[0045]
以第k个过滤与细化模块为例,k≥2,过滤与细化模块存在两种特征输入:第一种是来自前一个解码层的解码器特征另一种是来自相应编码层的五个不同投影表征特征的编码器特征最后一个过滤与细化模块没有来自前一个解码层的解码器特征,在此处被替换为动态加权融合模块的输出;
[0046]
过滤与细化模块采用如下过滤策略:
[0047]
对解码器特征的过滤采用了调制方法,先经过3
×
3卷积减少通道数,然后利用两个卷积层分别为乘法和加法操作获取调制参数a和 b;经过这样的操作,解码器特征得到了增强;
[0048]
增强后的解码器特征表示如下:
[0049][0050]
式中,δ表示线性整流函数(relu),α和b分别表示乘法和加法的调制参数,表示第k 1层解码器特征,表示增强后的第k 1层解码器特征;
[0051]
对编码器特征的过滤,为了使五个编码器特征为了使五个编码器特征更好地适应显著性目标检测任务,根据过滤后的解码器特征,为编码器特征获取相应上采样的过滤掩码fmj,该过滤掩码能够编码显著性属性;然后,将编码器特征与相应上采样的过滤掩码fmj相乘,抑制了编码器特征的冗余,从而得到过滤后的编码器特征
[0052][0053]
式中,up代表上采样操作,conv3×3表示3
×
3卷积操作;
[0054]
最后,通过加法运算得到过滤后的总编码器特征
[0055][0056]
其中,δ表示relu激活函数。
[0057]
在上述技术方案的基础上,所述过滤与细化模块还包括细化策略,具体包括:
[0058]
为了能够强调解码器特征中重要的细节,根据过滤后的编码器特征为解码器特征学习一个细节掩码dm,通过下面的公式得到细化后的解码器特征
[0059][0060]
经过过滤策略和细化策略处理后,再将过滤后的编码器特征与细化后的解码器特征相融合:
[0061][0062]
式中,表示第k层过滤与细化模块的输出,它将被嵌入下一层的过滤与细化模块中。
[0063]
本发明所述的一种基于多投影表征的全景图像显著性目标检测方法,具有以下有益效果:
[0064]
1、本发明探索了一种立方体展开的全景图像表征方法,并提出了一种基于多投影表征的全景图像显著性目标检测网络,该检测网络通过分别在中间件、解码端设计多投影表征特征交互模块,实现多投影表征的互补。
[0065]
2、该检测网络结合等矩形投影与立方体展开两种全景图像的表征方式,将等矩形投影图像和相应的四个立方体展开图像作为共同输入,其中,立方体展开图像为等矩形投影图像提供补充信息,确保目标的完整性。
[0066]
3、本发明使用等矩形投影图像和立方体展开图像共同作为输入,结合了全景图像的两种表征方式。这两种表征方式有其各自的优势,它们在一定程度上是互补的。
[0067]
一方面,等矩形投影特征可以更好地感知全局信息,但它也存在不可避免的严重失真。另一方面,立方体展开特征的失真较少,通过对立方体面的连接,保证了全景图像中物体的完整性和连续性。因此,若在特征解码前融合这两种表征方式的特征,可以得到更全面、更有效的全景图像特征,从而达到更好的解码预测效果。
[0068]
4、本发明引入四个立方体展开图像,作为相应等矩形投影图像的补充。
[0069]
5、本发明设计了动态加权融合模块,该模块从表征间和表征内两个角度自适应地融合了多投影表征特征。
[0070]
6、本发明设计了过滤与细化模块,该模块通过过滤策略更新编码器和解码器特征,抑制了特征自身的冗余信息,并通过细化策略保留与显著性目标相关的细节信息。
[0071]
本发明探索了一种立方体展开的全景图像表征方式,并提出了一种基于多投影表征的全景图像显著性目标检测网络。本发明在网络中设计了两个模块(加权融合模块、过滤与细化模块),前者对多投影表征特征进行自适应融合,后者结合编码器与解码器特征,在抑制冗余信息的同时保留与显著性目标相关的细节信息。
附图说明
[0072][0073]
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
[0074]
图1本发明所述一种基于多投影表征的全景图像显著性目标检测方法的原理框图。
[0075]
图2本发明所述一种基于多投影表征的全景图像显著性目标检测方法的可视化实例。
具体实施方式
[0076]
以下结合附图对本发明作进一步详细说明。所述详细说明,为结合本发明的示范性实施例做出的说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅
仅是示范性的。因此,本领域技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0077]
如图1所示,本发明给出了一种基于多投影表征的全景图像显著性目标检测方法,构建一个编码器-解码器结构的端到端检测网络,将等矩形投影图像和相应的四个立方体展开图像共同作为检测网络的输入;
[0078]
所述等矩形投影图像和四个立方体展开图像,分别对应编码器的两个分支,即等矩形投影分支和立方体展开分支;
[0079]
在编码器阶段,等矩形投影分支和立方体展开分支通过共享参数的五十层深度残差网络resnet-50提取特征;
[0080]
在解码器阶段,动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征,过滤与细化模块结合编码与解码特征,得到最终的显著性图。
[0081]
在上述技术方案的基础上,所述动态加权融合模块包括门控表征间融合单元和加权表征内融合单元,分别从表征间和表征内两个角度对不同投影表征特征进行自适应融合;表征间融合和表征内融合的命名取决于被融合的特征是否来自同一投影方式,最终,表征间融合和表征内融合被整合到动态加权融合模块中,自适应地融合两种投影表征的编码器特征;
[0082]
所述过滤与细化模块通过过滤策略抑制特征本身与特征之间的冗余信息,同时通过细化策略保留与显著性目标相关的细节信息。
[0083]
在上述技术方案的基础上,在编码器阶段,两个分支采用共享参数的五十层深度残差网络resnet-50作为编码器,通过编码器对等矩形投影图像和立方体展开图像的特征提取,以学习全景图的多投影表征特征,所述特征提取具体包括:
[0084]
在两层低层的特征提取后,利用立方体-等矩形投影转换模块将立方体展开特征转化为等矩形投影特征,再继续更高层的特征提取。
[0085]
在上述技术方案的基础上,在解码器阶段,将检测网络学到的多层次和多投影表征的编码器特征送入到解码器中,以逐步恢复空间分辨率,并生成显著性图,具体包括:
[0086]
网络中的动态加权融合模块从表征间和表征内两个角度,自适应地融合了等矩形投影特征和立方体展开特征,从而筛选出更有效、更全面的特征;
[0087]
过滤与细化模块通过过滤不同投影表征特征的低层特征中的冗余信息,从而增强高层语义特征;
[0088]
检测网络在主要损失函数和所有侧输出损失函数的共同监督下,得到最终的显著性图。
[0089]
在上述技术方案的基础上,所述四个立方体展开图像采用四面水平连接、三面垂直连接的立方体展开方式,这种展开方式能够延伸立方体面之间在水平和垂直方向上的连续性,从而最大限度地增加图像中目标的完整性;本发明称其为4-3型展开;
[0090]
具体包括:
[0091]
以立方体投影图像的前、后、左、右四个面为中心,分别进行4
‑ꢀ
3型展开,即采用四面水平连接、三面垂直连接的方式展开,从而得到四个立方体展开图像,并将这四个立方体展开图像作为立方体展开分支的输入。
[0092]
考虑到孤立地使用现有技术中的立方体投影图像的六个立方体面,可能使全景图像中的目标失去完整性,导致不完整的检测和无效的背景抑制,这显然不利于显著性目标的检测。为此,本发明将全景图像的立方体投影图像的六个立方体面以如下方式连接起来,从而最大限度地保证全景图像的连续性,增加显著性目标完整的可能性:
[0093]
以水平方向的四个立方体面为中心分别进行4-3型展开,能够使水平和垂直两个方向上的目标增加完整的可能性。
[0094]
由于全景图像的真实场景只能在球面域上完整地显示,一旦从球面域转换为平面域,必然将引入边界,或多或少破坏了目标的完整性,而全景图像在垂直方向上常有大尺寸的物体,例如站立的人、建筑物等,将全景图像转换为立方体投影图像后,这些物体往往被立方体面之间的边界隔开,非常不利于显著性目标的检测。在垂直方向上,以前、后、左、右四个立方体面为中心的展开,建立了四种不同的垂直连接,从而实现了四个垂直方向上的连续性的扩展,这大大增加了垂直方向上物体完整的可能性。
[0095]
同样,在水平方向上,立方体水平相连的四个面始终保持连接,在以四个立方体面为中心的展开中,每个面都经历了从中心到边缘的位置变换。也就是说,如果在其中一种立方体展开中,某两个面被左右边界隔开,在其他所有的展开方法中,它们都是相连的。如此,不同的立方体展开图像之间能够互相补充,水平方向上目标的完整性也得到了加强。
[0096]
在上述技术方案的基础上,将四个立方体展开图像与等矩形投影图像一起送入编码器后,将立方体展开图像分成水平子图像和垂直子图像,分别进行低层的特征提取;
[0097]
通过立方体-等矩形投影转换模块,将立方体展开特征转换为等矩形投影格式,再继续提取高层语义特征,补偿立方体面连接时轻微的语义不连续。
[0098]
本发明中,每个立方体展开图像被进一步分割成水平子图像和垂直子图像。这是由于,如果直接将4-3型的立方体展开图像作为输入,将不得不引入大面积的零填充,不仅浪费计算资源,而且不利于显著性目标的定位。
[0099]
在上述技术方案的基础上,所述动态加权融合模块自适应地融合等矩形投影特征和四种立方体展开特征,具体包括:
[0100]
采用一个门控表征间融合单元实现两种投影表征特征的融合,将各立方体展开特征与等矩形投影特征的表征间融合,自适应地筛选出两种不同投影表征特征中有价值的部分,得到由立方体展开引导的融合特征;
[0101]
等矩形投影特征包含更多的全局信息,可以保持场景的完整性,但也存在严重的失真。而立方体展开特征的失真更少,细节信息更准确,可以提供结构指导作为补充;因此,所述门控表征间融合单元旨在结合两种投影表征特征中有用的信息,将每个立方体展开特征征与等矩形投影特征fe∈rc×h×w自适应地融合,筛选出两种不同投影表征特征中各自有价值的部分;
[0102]
具体来说,门控表征间融合单元首先学习一个重要性图pi,用以评估立方体展开特征在融合中的贡献;再将等矩形投影特征fe与每个立方体展开特征在通道维度进行拼接,然后使用se模块计算通道注意力,随后通过一个瓶颈卷积层和sigmoid激活函数得到重要性图 pi。上述过程可以表述为:
[0103][0104]
式中,pi表示立方体展开特征的贡献,fe和分别表示等矩形投影特征和立方体展开特征,[
·
,
·
]表示通道维度的拼接,σ表示sigmoid 激活函数,conv表示瓶颈卷积层结构,se表示压缩与激励(squeeze
‑ꢀ
and-excitation)模块;
[0105]
在得到重要性图pi后,由立方体展开引导的融合特征则可以通过以下公式计算:
[0106][0107]
式中,表示哈达玛乘法(hadamard multiplication),fi表示由立方体展开引导的融合特征,即为门控表征间融合单元的最终输出;
[0108]
通过上述门控表征间融合单元,四个立方体展开特征分别与等矩形投影特征进行自适应融合,得到四个由立方体展开引导的融合特征;
[0109]
采用一个加权表征内融合单元实现四个立方体展开引导的融合特征的表征内融合;
[0110]
对于每张全景图像,由于其目标分布的不同,各立方体展开特征的重要性也是不同的,其原因在于:不同的立方体展开图像有特定的连接方式,而由于每张全景图像中的目标分布位置都不同,不同立方体展开方式对当前全景图像的重要性是不同的;
[0111]
所述加权表征内融合单元学习对应于四种立方体展开引导的融合特征的动态重要权重,从而挑选出与显著性目标相关的有效且连续的信息;
[0112]
具体来说,加权表征内融合单元将原始的四个立方体展开特征拼接,通过se模块,得到一个权重向量α∈r
4c
×1×1;
[0113]
将权重向量进一步切割成四个子向量αi∈rc×1×1,经过归一化后得到自适应权重ωi;
[0114]
上述过程可以表述为下面的公式:
[0115][0116][0117]
式中,se表示压缩与激励(squeeze-and-excitation)模块, split(
·
)表示将一个向量分割成若干子向量的操作,[
·
,
·
]表示通道维度的拼接,sum(
·
)表示计算向量中所有元素的和;
[0118]
得到相应的自适应权重后,则进行如下所述表征内融合:
[0119]
将门控表征间融合单元得到的四个由立方体展开引导的融合特征fi∈rc×h×w,以自适应地加权方式进行融合,并结果与等矩形投影特征fe相加,得到本模块最终的融合特征ff:
[0120][0121]
式中,ωi是由加权表征内融合单元得到的相应权重,表示逐元素加法,表示
在整个特征平面上的逐元素乘法。
[0122]
编码器特征和解码器特征的结合可以提供更全面的显著性信息,但在其中也包含很多冗余信息,它们无疑会影响特征的表达能力;根据冗余信息的来源可以将它们归于为两类:
[0123]
一类是特征本身的冗余,主要指编码器和解码器特征在空间和通道上的冗余信息;
[0124]
另一种是特征之间的冗余,指的是在特征融合过程中编码器和解码器特征之间相对的冗余;为此,本发明设计了过滤与细化模块。
[0125]
在上述技术方案的基础上,所述过滤与细化模块步进式地实现特征的筛选和融合,使其既有助于抑制两类冗余信息,又能保留与显著性目标相关的细节信息,具体包括:
[0126]
以第k个过滤与细化模块为例,k≥2,过滤与细化模块存在两种特征输入:第一种是来自前一个解码层的解码器特征另一种是来自相应编码层的五个不同投影表征特征的编码器特征最后一个过滤与细化模块没有来自前一个解码层的解码器特征,在此处被替换为动态加权融合模块的输出;
[0127]
例如:k={2,3,4},则当k=4时,没有来自前一个解码层的解码器特征,在此处它被替换为动态加权融合模块的输出;
[0128]
过滤与细化模块采用如下过滤策略:
[0129]
对解码器特征的过滤采用了调制方法,先经过3
×
3卷积减少通道数,然后利用两个卷积层分别为乘法和加法操作获取调制参数a和 b;经过这样的操作,解码器特征得到了增强;
[0130]
增强后的解码器特征表示如下:
[0131][0132]
式中,δ表示线性整流函数(relu),α和b分别表示乘法和加法的调制参数,表示第k 1层解码器特征,表示增强后的第k 1层解码器特征;
[0133]
对编码器特征的过滤,为了使五个编码器特征为了使五个编码器特征更好地适应显著性目标检测任务,根据过滤后的解码器特征,为编码器特征获取相应上采样的过滤掩码fmj,该过滤掩码能够编码显著性属性;然后,将编码器特征与相应上采样的过滤掩码fmj相乘,抑制了编码器特征的冗余,从而得到过滤后的编码器特征
[0134][0135]
式中,up代表上采样操作,conv3×3表示3
×
3卷积操作;
[0136]
最后,通过加法运算得到过滤后的总编码器特征
[0137][0138]
其中,δ表示relu激活函数。
[0139]
本发明采用如上所述过滤策略,用以更新编码器和解码器的特征,从而过滤它们自身的冗余信息。本发明以调制方法过滤解码器特征。此外,为了使编码器特征更好地适应显著性目标检测任务,本发明根据过滤后的解码器特征,为每个编码器特征获取一个过滤掩码,该掩码编码了显著性属性。其后,将编码器特征乘以相应上采样的过滤掩码,从而抑制其中的冗余信息。
[0140]
在上述技术方案的基础上,所述过滤与细化模块还包括细化策略,具体包括:
[0141]
为了能够强调解码器特征中重要的细节,根据过滤后的编码器特征为解码器特征学习一个细节掩码dm,通过下面的公式得到细化后的解码器特征
[0142][0143]
经过过滤策略和细化策略处理后,再将过滤后的编码器特征与细化后的解码器特征相融合:
[0144][0145]
式中,表示第k层过滤与细化模块的输出,它将被嵌入下一层的过滤与细化模块中。
[0146]
本发明所述过滤与细化模块通过上述两种策略(过滤策略和细化策略),在抑制冗余信息的同时,保持了显著性目标的细节信息。
[0147]
如图2所示,给出了采用本发明所述方法的四个可视化实例。第一行为实例一的四个立方体展开图像,而第二至五行以等矩形投影图像形式给出了四个实例的可视化结果,其中,第一列为全景图像,第二列为全景图像显著性目标检测的真值图,第三列为本发明预测的显著性图。从结果可以看出,本发明所述方法在目标的完整性和细节信息的获取上实现了更好的视觉效果。在复杂场景、多目标、小目标等条件下,本发明均能得到准确的预测结果。
[0148]
参考文献:
[0149]
[1]z.chen,q.xu,r.cong,andq.huang,"globalcontext-awareprogressiveaggregationnetworkforsalientobjectdetection,"inaaai,2020,pp.10599-10606.
[0150]
[2]r.monroy,s.lutz,t.chalasani,anda.smolic,“salnet360:saliencymapsforomni-directionalimageswithcnn,”signalprocessing:imagecommunication,vol.69,pp.26-34,2018.
[0151]
[3]m.assensreina,x.giro-inieto,k.mcguinness,andn.e.o’connor,"saltinet:scan-pathpredictionon360degreeimagesusingsaliencyvolumes,"iniccv,2017,pp.233-2338.
[0152]
[4]j.li,j.su,c.xia,andy.tian,"distortion-adaptivesalientobjectdetectionin360
°
omnidirectionalimages,"ieeej.sel.topicssignalprocess.,vol.14,no.1,pp.38-48,2020.
[0153]
[5]m.huang,z.liu,g.li,x.zhou,ando.lemeur,"fanet:featuresadaptation
network for 360
°
omnidirectional salient object detection,"ieee signal process. lett.,vol.27,pp.1819-1823,2020.
[0154]
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
[0155]
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献