一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于注意增强的双向特征金字塔网络的目标检测方法

2022-09-01 06:38:35 来源:中国专利 TAG:


1.本发明涉及目标检测的技术领域,特别是指一种基于注意增强双向特征金字塔网络的目标检测方法。


背景技术:

2.目标检测主要是对输入图像中的物体类别和位置进行判断,实质上是图像分类和目标定位的结合,是计算机视觉领域中的一个重要研究方向。目标检测在人脸识别、无人驾驶等领域取得了广泛的应用。近年来,由于卷积得经网名的发展和硬件算力的提升,基于深度学习的目标检测取得了突破性的进展。
3.虽然在目标检测方面已经取得了很大的进展,但是在实际生产中广泛应用的小目标检测问题一直没有得到很好的解决。这主要是因为小物体占用的空间少,像素有限。另外,经过多次卷积和池化后,特征图中的小目标的特征信息损失严重,导致检测器无法准确检测到小目标。因此,liu等人在ssd中提出了的典型金字塔结构。典型的金字塔层次结构创造性地使用较低层次的特征用于较小的目标检测,较高层次的特征用于较大的目标检测。但我们知道,浅层特征包含丰富的细节信息,而深层特征包含更多的语义信息。因此,ssd方法不能在单个特征映射中获得足够的小目标细节和语义信息,难以实现对小目标的良好检测性能。为了解决这一问题,许多研究开发了多尺度特征融合以获得更丰富的特征表示。除了融合不同尺度的特征外,注意机制对于小目标的检测也有很大的提高。注意机制可以学习根据不同通道和位置代表目标的能力生成有区别的权值,并局部增强重要通道和位置,有利于小物体的定位和识别。


技术实现要素:

4.针对上述背景技术中存在的不足,本发明提出了一种基于注意增强双向特征金字塔网络的目标检测方法,首先利用双向特征金字塔网络融合不同尺度的特征以至于输出特征可以获得丰富的语义信息和细节信息,其次坐标注意力可以使网络把注意力聚焦在特征图中那些与目标相关的通道和位置上,进而提高目标检测算法对小目标的检测性能。
5.本发明的技术方案是这样实现的:
6.步骤一、图片输入到vgg网络中得到4层特征和
7.步骤二、和进入双向特征金字塔网络中,通过自上而下和自下而上的路径分支对不同尺度的特征进行融合,从而获得包含丰富的语义信息和细节信息的特征和
8.步骤三、和分别经过坐标注意力,得到注意特征图y3、y4、y5和y6。
9.步骤四、把坐标注意力输出的四层注意特征图y3、y4、y5、和y6送入预测模块进行分类和定位
10.步骤五、最后通过非最大抑制算法对冗余预测框进行过滤,形成最终的预测结果。
11.在所述的步骤二中,不同层特征的加权融合方式为:
12.采用快速规范化的融合去融合不同层特征,加权特征融合计算如下:
[0013][0014]
wi≥0是通过在每个wi后使用整流线性单元(relu)来保证的,∈用于避免数值的不确定性,其值为0.0001,ii表示第i个输入特征的值。
[0015]
在所述的步骤二中,双向特征金字塔网络融合不同层特征的融合过程为:
[0016]
在自上而下的路径分支中以为例,计算过程如下:
[0017][0018]fup
表示上采样过程,和是双向特征金字塔网络第五层和第六层的输入特征,w1andw2是和融合时的权重,ε用来避免数值的不确定性,其值为0.0001。
[0019]
在自下而上的路径分支中以为例,计算过程如下:
[0020][0021]fdown
表示上采样过程。最后和经过上述融合方式得到包含丰富语义信息和细节信息的和
[0022]
在所述的步骤三中,坐标注意力对融合后的特征处理过程为:
[0023]
s3.1、当输入x的大小为(c
×h×
w)时,设置大小为(h,1)和(1,w)的池化核,对水平方向和垂直方向上不同通道的信息进行编码。对于特征中的第c通道,池化高度为h的特征的输出计算如下:
[0024][0025]
将宽度为b的特征池化的输出可以表示为:
[0026][0027]
s3.2、在水平方向和垂直方向上池化后,从c
×w×
h传输到c
×w×
1和c
×1×
h。为了把它们整合到一起,需要将c
×w×
1转换为c
×1×
h;
[0028]
s3.3、在第三维度(h h=2h)层次上实现连接,得到注意特征图c
×1×
2h;
[0029]
s3.4、注意特征图经过1
×
1卷积层后通道数变成c/r,注意特征图变为c/r
×1×
2h;
[0030]
s3.5、然后将c/r
×1×
2h的注意特征图沿空间维度分解为两个独立的张量:fh∈r
c/r
×
h)
和fw∈r
c/r
×
w)

[0031]
s3.6、接下来,通过两个1
×
1卷积层fh和fw恢复两个张量的通道数至c,随后利用sigmoid激活函数进行处理得到权值矩阵gf和gw;
[0032]gh
=σ(fh(fh))
[0033]gw
=σ(fw(fw))
[0034]
s3.7、将输入特征x乘以权值矩阵,即可得到坐标注意块的最终输出y。
[0035][0036]
与现有技术相比,本发明的有益效果为:注意增强的双向特征金字塔网络利用自顶向下和自底向上的路径聚合不同尺度的特征,使所有尺度的特征都包含丰富的语义和细节信息。并且每个特征输出分支经过协调注意处理,使网络能够轻松地聚焦在特征图中与物体相关的通道和位置上,从而实现对目标的精准分类和定位。
附图说明
[0037]
图1为本发明的网络结构图;
[0038]
图2(a)为坐标注意力模型-坐标注意力网络结构图;
[0039]
图2(b)为坐标注意力模型-坐标注意力流程图;
[0040]
图3为本发明与原始ssd算法在nwpu vhr-10数据集上的检测结果对比图-原始ssd算法检测结果;
[0041]
图4为本发明与原始ssd算法在nwpu vhr-10数据集上的检测结果对比图-改进后的ssd检测结果。
具体实施方式
[0042]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]
如图1所示,本发明实施例提供了一种基于注意增强的双向特征金字塔网络的目标检测方法,其步骤如下:
[0044]
s1:待检测图片输入到vgg网络中,vgg网络对输入图片进行特征提取得到4层特征和
[0045]
s2、和进入双向特征金字塔网络中,通过自上而下和自下而上的路径分支对不同尺度的特征进行融合,从而获得包含丰富的语义信息和细节信息的特征路径分支对不同尺度的特征进行融合,从而获得包含丰富的语义信息和细节信息的特征和
[0046]
不同层特征的加权融合方式为:
[0047]
采用快速规范化的融合去融合不同层特征,加权特征融合计算如下:
[0048][0049]
wi≥0是通过在每个wi后使用整流线性单元(relu)来保证的,∈用于避免数值的不确定性,其值为0.0001,ii表示第i个输入特征的值。
[0050]
双向特征金字塔网络融合不同层特征的融合过程为:
[0051]
在自上而下的路径分支中以为例,计算过程如下:
[0052][0053]fup
表示上采样过程,和是双向特征金字塔网络第五层和第六层的输入特征,w1andw2是和融合时的权重,ε用来避免数值的不确定性,其值为0.0001。
[0054]
在自下而上的路径分支中以为例,计算过程如下:
[0055][0056]fdown
表示上采样过程,最后和经过上述融合方式得到包含丰富语义信息和细节信息的和
[0057]
s3:和分别经过坐标注意力,得到注意特征图y3、y4、y5和y6。以为例,坐标注意力模型对输入特征图的处理步骤如下:
[0058]
s3.1、当的尺寸为(256
×
10
×
10)时,设置尺寸为(10,1)和(1,10)的pooling kernel,用于编码水平和垂直方向上不同通道的信息;对于特征中的第c通道,池化高度为h的特征的输出计算如下:
[0059][0060]
将宽度为w的特征池化的输出可以表示为:
[0061][0062]
s3.2、在水平方向和垂直方向上池化后,从256
×
10
×
10传输到256
×
10
×
1和256
×1×
10。为了把它们整合到一起,需要将256
×
10
×
1转换为256
×1×
10;
[0063]
s3.3、在第三维度(10 10=20)层次上实现连接,得到注意特征图256
×1×
20;
[0064]
s3.4、注意特征图经过1
×
1卷积层后通道数变成8,注意特征图变为8
×1×
20;
[0065]
s3.5、然后将8
×1×
20的注意特征图沿空间维度分解为两个独立的张量:fh∈r
c/r
×
h)
和fw∈r
c/r
×
w)

[0066]
s3.6、接下来,通过两个1
×
1卷积层fh和fw恢复两个张量的通道数至256,随后利用sigmoid激活函数进行处理得到权值矩阵gf和gw;
[0067]gh
=σ(fh(fh))
[0068]gw
=σ(fw(fw))
[0069]
s3.7、将输入特征乘以权值矩阵,即可得到坐标注意块的最终输出y3。
[0070][0071]
s3.8、和依次经过s3.1-s3.7步骤得到注意特征图y4、y5和y6。
[0072]
s4:把坐标注意力输出的四层注意特征图y3、y4、y5、和y6送入预测模块进行分类和
定位
[0073]
s5:最后通过非最大抑制算法对冗余预测框进行过滤,形成最终的预测结果。
[0074]
如图3-4所示,在nwpu vhr-10数据集上,图3为原始ssd目标检测算法检测效果与本发明提供的基于注意增强的双向特征金字塔网络检测算法检测效果对比,效果提升7.92%。本发明实例是在intel platinum 8163cpu(2.50ghz),256gb ram和nvidia titan rtx的计算机上使用python3.6实现的。本发明选用nwpu vhr-10数据集作为实验材料,使用平均精度map为评价指标,该数据集包含10种不同类别的目标,分别为air、planes、ships、storage tanks、baseball diamonds、tennis courts、basketball courts、ground track fields、harbors、bridges和vehicles,其中有520个训练样本和280个测试样本。训练样本对目标检测模型进行训练,测试样本对模型检测效果进行评估。
[0075]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献