一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于卷积神经网络的360度图像显著目标检测方法

2022-08-13 14:37:25 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,具体指一种基于卷积神经网络的360度图像显著目标检测方法。


背景技术:

2.360度图像,即360度全景图像,是一种利用拍照设备对现有场景进行多角度环视拍摄后,再使用计算机进行后期处理后得到的图像,是一种三维虚拟的场景展示技术。其作为一种全新的展现形式,具有广阔的应用场景,如旅游景点、酒店宾馆的全方位展示,自动驾驶对路况环境的全方位分析,以及vr影视娱乐的开发等均离不开360度图像技术的发展。而对360图像中显著目标的检测,将有利于快速锁定场景中的行人、目标建筑,在不同领域均有着较高的研究意义。
3.自然场景中显著目标的检测和分割,通常被称为显著目标检测,其旨在捕捉图像中最具有视觉吸引力的目标,可应用于图像视频分割、图像理解、语义分割、图像目标重定等广泛视觉领域。近年来,随着卷积神经网络的不断发展,在有限视野场景下,常规的图像显著目标检测模型已经取得了较高的性能。然而,360度全景图像作为一种新颖的图像表现形式。目前,常见的两种方式分别是通过等距形投影或立方体投影的形式将全局对象信息以二维图像展现出来。
4.其中,等距形投影作为将360度全景图像存储为标准2d图像最常用的方法之一,以单一的二维平面显示了真实3d世界的全方位图像信息,但也因为球面到平面的投影失真伪造了真实的语义信息。目前,尽管已经有众多学者通过提出多种非卷积网络算法来处理这些错误信息,但对于现有的大部分基于卷积神经网络的显著目标检测模型而言,其仍无法从扭曲的语义信息中准确突出图像中的显著目标,这是由于卷积神经网络对规则网格数据敏感而对扭曲数据不敏感的特性所导致的。
5.与等距形投影相比,立方体投影是通过切割360度全景图像为立方体的六个面,以6个方位(上、下、左、右、前、后)的图像来展现全局信息,使用这种数据的显著目标检测方法虽然仅引入了较少的几何失真,但由于立方体图像每个面连接处存在不连续性,导致其结果往往不能很好地显示边缘细节。
6.由此可见,等距形投影和立方体投影这两种形式尽管能将全局对象信息以二维图像展现出来,但也不可避免地会引入球面到平面的投影失真。从而导致直接采用常规的目标检测模型将可能无法准确地突出这些图像中的显著目标。


技术实现要素:

7.本发明根据现有技术的不足,提出一种基于卷积神经网络的360度图像显著目标检测方法,使用图像映射关系基于等距形360度图像构建对应的立方体投影图像,使用双种类图像作为输入,从而解决了单一等矩形图像输入造成的球面到平面投影的不良失真问题。
8.为了解决上述技术问题,本发明的技术方案为:
9.一种基于卷积神经网络的360度图像显著目标检测方法,包括如下步骤:
10.s1、图像转换
11.s1-1、创建等距形360度图像的数据集;
12.s1-2、建立图像转换模块;
13.s1-3、读取数据集中的等距形360度图像后,利用图像转换模块生成对应的立方体投影图像;
14.s2、搭建特征金字塔网络,对等距形360度图像以及转化后得到的立方体投影图像进行特征提取,得到等距形360度图像特征和立方体投影特征;
15.s3、采用四个完全相同的特征聚合模块,每个模块由一个特征转换子模块完成立方体投影特征向等距形特征转换,并与等距形360度图像的特征进行组合,然后使用一个空洞卷积池化金字塔子模块实现特征的优化,从而得到多层次的聚合特征;
16.s4、将多层次的聚合特征连接并馈送到注意力集成模块,通过推断空间和通道注意机制自适应地选择可靠空间和通道信息与原特征融合得到最终特征并完成显著目标检测。
17.作为优选,所述步骤s1-2中,利用等距形投影与立方体投影的映射关系将等距形360度图像生成对应的立方体投影图像。
18.作为优选,所述等距形投影与立方体投影的映射关系的表达式如下:
19.qi=r
fi
·
pi[0020][0021][0022]
其中,θ
fi
、φ
fi
代表等距形投影下的经纬度,是q坐标的x,y,z分量,r
fi
表示旋转矩阵,fi为已知某个成像平面,pi为已知成像平面fi上的一点,x,y,z表示pi的三维坐标,
[0023]
作为优选,所述特征金字塔网络输入的图像数据包括等距形360度图像和立方体投影图像,所述等距形360度图像和与其对应的立方体投影图像形成一个图像样本。
[0024]
作为优选,所述特征金字塔网络搭建的方法为:采用fpn作为主干网络,其中自下而上通路是基于resnet-50搭建。
[0025]
作为优选,所述步骤s2中,特征提取方法为:
[0026]
对每个图像样本的七张输入图像,即等距形投影图像和立方体投影图像的上、下、左、右、前、后六个面图像,均采用特征金字塔网络进行特征提取,得到等距形图像特征和立方体投影特征,
[0027]
在特征金字塔网络中每个独立的fpn特征提取模块的上层resnet作为前馈backbone的一部分,每一级往上用步长step=2进行降采样,用输出的2至5级特征参与预测,conv2~5的输出层,最后一个残差block层,作为fpn的特征,分别对应于输入图片的下
采样倍数为4,8,16,32,下层自顶向下的过程通过上采样的方式将最右侧的小特征图放大到与其左侧特征图一样的大小,最终和上层特征融合后逐层输出得到各层特征结果f1~4。
[0028]
作为优选,所述步骤s3中,通过四个完全相同的特征聚合模块输出四组特征的集合。
[0029]
作为优选,所述特征转换子模块的转换方法为:利用等距形图像特征和立方体投影特征之间的映射关系,将6个立方体投影特征转换为等距形投影特征。并与使用原等距形图像提取得到的特征进行组合得到最终的混合特征。
[0030]
作为优选,所述空洞卷积池化金字塔子模块的优化方法为:对于给定的输入以不同采样率的空洞卷积并行采样,将得到的结果拼接到一起,扩大通道数,然后再通过1*1的卷积将通道数降低到预期的数值,相当于以多个比例捕捉图像的上下文,其核心在于使用多个不同尺寸滑动窗口池对上层的卷积层获得的特征图进行采样,将分别得到的结果进行合并就会得到固定长度的输出,从而输出多层次的聚合特征。
[0031]
本发明具有以下的特点和有益效果:
[0032]
使用图像映射关系基于等距形360度图像构建对应的立方体投影图像,使用双种类图像作为输入解决了单一等矩形图像输入造成的球面到平面投影的不良失真问题。
[0033]
使用特征金字塔网络对每一种尺度的图像进行特征提取,产生多尺度的特征表示,并在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。
[0034]
使用空间和通道注意力机制自适应地选择空间和通道信息,使得到的最终特征更具有可靠性,生成更准确的显著目标图像。
附图说明
[0035]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0036]
图1为本发明实施例的网络整体框架图;
[0037]
图2为本发明实施例中步骤s2的模块结构图。
[0038]
图3为本发明实施例中步骤s3的模块结构图。
[0039]
图4为本发明实施例中步骤s3的aspp子模块结构图。
[0040]
图5为本发明实施例中步骤s4的模块结构图。
[0041]
图6为本发明实施例中步骤s4的注意力机制子模块结构图。
[0042]
图7为本发明实施例的结果图。
具体实施方式
[0043]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0044]
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为
基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0045]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
[0046]
本发明提供了一种基于卷积神经网络的360度图像显著目标检测方法,如图1所示,包括如下步骤:
[0047]
s1、图像转换
[0048]
s1-1、创建等距形360度图像的数据集。
[0049]
需要说明的是,本实施例中,采用的数据集为公开的360-sod公共数据集,其内共包含500张高分辨率的等距形360度图像与其对应的显著性图,图像内显著目标多为人物,本实施例中采用其中400张作为训练数据集,100张作为测试数据集进行模型的训练测试及评估工作,同时为保证输入数据的一致性,本文还将输入的等距形360度图像尺寸调整为1024
×
512,立方体投影射图像尺寸调整为256
×
256。
[0050]
s1-2、建立图像转换模块,利用等距形投影与立方体投影的映射关系将等距形360度图像生成对应的立方体投影图像。
[0051]
其中,所述等距形投影与立方体投影的映射关系的表达式如下:
[0052]
qi=r
fi
·
pi[0053][0054][0055]
其中,θ
fi
、φ
fi
代表等距形投影下的经纬度,是q坐标的x,y,z分量。
[0056]
可以理解的,在等距形360度图像的投影表示中,立方体投影一般表示为6个面,每个面是边长为w的正方形,分别为上、下、前、后、左、右这6个面。每个面可以被看做是焦距为w/2的相机独立拍摄的图像(视场角90
°
),6个相机的投影中心重合于一点,也即立方体的中心。如果将世界坐标系原点设置于立方体中心处,则6个相机的外参将只由旋转矩阵r
fi
表示,没有平移向量。给定相机系统中某个成像平面fi上的一点pi及其
[0057]
三维坐标x,y,z
[0058]
s1-3、读取数据集中的等距形360度图像后,利用图像转换模块生成对应的立方体投影图像。
[0059]
s2、搭建特征金字塔网络,对等距形360度图像以及转化后得到的立方体投影图像进行特征提取,得到等距形360度图像特征和立方体投影特征。
[0060]
具体的,如图2所示,所述特征金字塔网络搭建的方法为:采用fpn作为主干网络,其中自下而上通路是基于resnet-50搭建。
[0061]
使用基于resnet50的特征金字塔网络来获取图像在不同层次下的特征并进行权重共享处理。
[0062]
其中,所述特征金字塔网络输入的图像数据包括等距形360度图像和立方体投影图像,所述等距形360度图像和与其对应的立方体投影图像形成一个图像样本。对每个图像样本的七张输入图像,即等距形投影图像和立方体投影图像的上、下、左、右、前、后六个面图像,均采用特征金字塔网络进行特征提取,得到等距形图像特征和立方体投影特征,
[0063]
需要注意的是,由于本实施例中采用双种类混合数据进行模型训练,对于单一样本分别含有一张等距形投影图像和六张立方体投影图像,而本模块需要对七张图像分别进行特征提取,因此最终输出为七组特征的集合。
[0064]
需要说明的是,本实施例中所搭建的特征金字塔网络用于提取特征,本领域技术人员能够轻易得到,具体如图2所示,包括顶层卷积resnet50、4层卷积层,步长分别为4、8、16、32。
[0065]
进一步的,特征提取方法为:
[0066]
在特征金字塔网络中每个独立的fpn特征提取模块的上层resnet作为前馈backbone的一部分,每一级往上用步长step=2进行降采样,用输出的2至5级特征参与预测,conv2~5的输出层,最后一个残差block层,作为fpn的特征,分别对应于输入图片的下采样倍数为4,8,16,32,下层自顶向下的过程通过上采样的方式将最右侧的小特征图放大到与其左侧特征图一样的大小,最终和上层特征融合后逐层输出得到各层特征结果f1~4。
[0067]
s3、如图3所示,采用四个完全相同的特征聚合模块,从而输出四组特征的集合,每个特征聚合模块由一个特征转换子模块(c2e特征转换模块)完成立方体投影特征向等距形特征转换,并与等距形360度图像的特征进行组合,然后使用一个空洞卷积池化金字塔子模块(aspp子模块)实现特征的优化;
[0068]
其中,所述特征转换子模块的转换方法为:利用等距形图像特征和立方体投影特征之间的映射关系,将6个立方体投影特征转换为等距形投影特征。
[0069]
需要说明的是:所述立方体投影特征与等距形投影特征的映射关系的表达式如下:
[0070]rfi
·
pi=qi[0071][0072][0073]
其中,θ
fi
、φ
fi
代表等距形投影下的经纬度,是q坐标的x,y,z分量。
[0074]
需要说明的是:本实施例中通过c2e特征转换模块进行特征转换,为常规技术手段,因此,不对c2e特征转换模进行具体的描述和说明,具体可参考图3。
[0075]
进一步的,如图4所示,所述空洞卷积池化金字塔子模块的优化方法为:对于给定的输入以不同采样率的空洞卷积并行采样,将得到的结果拼接到一起,扩大通道数,然后再通过1*1的卷积将通道数降低到预期的数值,相当于以多个比例捕捉图像的上下文,其核心在于使用多个不同尺寸滑动窗口池对上层的卷积层获得的特征图进行采样,将分别得到的结果进行合并就会得到固定长度的输出,从而输出多层次的聚合特征,具有四组特征的集合。
[0076]
需要说明的是:本实施例中通过空洞卷积池化金字塔子模块(apsp子模块)进行特征优化,为常规技术手段,具体可参考图4,包括3个1
×
1卷积层、3个3
×
3卷积层、1
×
1池化层、上采样层,其中3个3
×
3卷积层的采样率分别为6、12、18。
[0077]
s4、如图5所示,将多层次的聚合特征连接并馈送到注意力集成模块,通过推断空间和通道注意机制自适应地选择可靠空间和通道信息与原特征融合得到最终特征并完成显著目标检测。
[0078]
需要说明的是:本实施例中通过注意力集成模块进行特征融合,为常规技术手段,具体可参考图5,包括3个1
×
1卷积层、1个3
×
3卷积层、空间注意模块和通道注意模块。其中,空间注意模块和通道注意模块均为本领域常规技术,因此,本实施例中不对其进行具体的描述和说明。
[0079]
如图6所示,本网络中的空间注意力机制首先将通道本身进行降维,拼接成一个一维特征图,再使用一个卷积层进行学习整体空间注意力并馈送到四个通道进行整合。通道注意力机制对四通道总体特征图同时使用最大池化和均值池化算法,然后通过卷积层获得变换结果,最后分别应用于所有通道,获取各通道的注意力值。
[0080]
本实施例中使用pytorch框架构建网络模型,选用交叉熵损失和平均绝对误差损失之和作为损失函数,特征提取模块的权重由imagenet上预先训练resnet-50模型初始化,并采用何恺明博士提出的正态分布方法来初始化新添加的卷积层的权重。利用随机梯度下降(sgd)算法对模型进行端到端的训练。训练批量设置为4,动量为0.9、权重衰减为0.0005、初始学习率设置为0.002,最终训练轮次为40epochs。模型生成360度图像的显著目标预测图。预测图为像素值0到1的灰度图。图中的1表示为显著目标所在区域,0表示为背景区域。
[0081]
通过图7可以看出,本实施例在已有的常规图像显著目标检测方法的基础上进行改进,使其可以适配等距形360度图像进行检测,并取得较好的检测效果。该网络由四个大的模块组成,其中包含一个数据处理模块(e2c图像转换模块)和三个网络结构模块(特征金字塔网络、特征聚合模块、注意力机制模块)。图像转换模块完成等距形360度图像向立方体投影图像的转换,用于构建网络中需要使用的双种类输入数据,以双种类数据作为输入避免了单一等矩形图像输入造成的球面到平面投影的不良失真。fpn特征提取模块提取各类输入数据的多层次特征并实现权重共享,特征聚合模块对各层次特征进行整合和优化,注意力机制集成模块用于实现最终的可靠性权重挑选和筛查以获得高质量的显著性图像。其结果为一张像素值在[0,1]的灰度图,图中的1表示为360度图像中显著目标所在区域,0表示为背景区域,成功实现对360度图像的显著目标检测任务。
[0082]
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献