一种联合通道空间注意力的全局自注意力目标检测方法

2022-05-21 06:14:13 来源：中国专利 TAG：

1.本发明涉及一种联合通道空间注意力的全局自注意力目标检测算法，适用于计算机视觉领域。

背景技术：

2.目标检测是计算机视觉中的一个重要问题，传统的目标检测模型采用手工提取特征，其具有鲁棒性差、计算复杂度高等问题，难以满足目标检测实时性和准确性的要求。随着深度学习在图像分类任务上取得巨大的进展，基于深度学习的目标检测算法也逐渐成为主流，卷积神经网络的应用，大大提升了目标检测的预测精度和训练速度。
3.目前基于深度学习的目标检测技术主要有two-stage的和one-stage两种，two-stage是指检测算法需要分两步完成，首先采用卷积神经网络对目标进行特征提取获取候选区域随后进行检测分类，常见的算法有faster-rcnn
1.；one-stage是指检测算法只有一步，不需要寻找候选区域，仅仅使用一个卷积神经网络进行目标的检测，该方法检测速度快，但是准确率较低。随着卷积神经网络的层数增加，网络表征能力越来越强，但是目标的位置信息损失也越来越大。近年来，通过注意力机制来增强网络的表征能力并减少目标信息损失的方法已经在图像分类和检测的任务中被广泛应用，注意力模型也成为深度学习技术中最值得关注与深入了解的核心技术之一。
4.注意力模型是借鉴了人类视觉的注意力机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。
5.深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。senet
2.是一种通道注意力机制，其先将输入的特征进行全局平均池化来获得每个通道的全局信息，然后通过两个全连接层和sigmoid函数来得到每个通道的权重。cbam
3.是一种通道和空间结合的注意力机制，在通道注意力模块之后再加入空间注意力模块，这样可以同时结合空间和通道注意力，更好的提取特征。但是无论是通道还是空间注意力都是通过卷积来实现的，只考虑了局部区域，没有考虑到全局信息，忽略了预测像素点和其他像素之间的联系。
6.参考文献：
7.[1]ren s,he k,girshick r,et al.faster r-cnn:towards real-time object detection with region proposal networks[j].ieee transactions on pattern analysis&machine intelligence,2017,39(6):1137-1149.
[0008]
[2]hu j,shen l,sun g.squeeze-and-excitation networks[c].proceedings of the ieee conference on computer vision and pattern recognition.2018:7132-7141.
[0009]
[3]woo s,park j,lee j y,et al.cbam:convolutional block attention module[c].proceedings of the european conference on computer vision(eccv).2018:3-19
[0010]
[4]zhu z,liang d,zhang s,et al.traffic-sign detection and classification in the wild[c].proceedings of the ieee conference on computer vision and pattern recognition.2016:2110-2118.
[0011]
[5]yu f,wang d,shelhamer e,et al.deep layer aggregation[c]proceedings of the ieee conference on computer vision and pattern recognition.2018:2403-2412

技术实现要素：

[0012]
针对目标检测网络dla34高层部分特征提取能力不足的问题，同时针对现有的通道空间注意力机制存在利用全连接层降维的方式导致部分细节信息的损失，对检测任务的性能造成一定的负面影响的问题，本发明提出一种联合通道空间注意力的全局自注意力目标检测方法。技术方案如下：
[0013]
一种联合通道空间注意力的全局自注意力目标检测方法，包括下列步骤：
[0014]
第一步，提取特征图像f；
[0015]
第二步，设计联合通道空间注意力的全局自注意力模块，利用key,query,value这三条支路进一步提取特征，设输入联合通道空间注意力的全局自注意力模块的特征图像f大小为c
×w×
h，其中c为特征图的通道数量，w和h表示特征图的尺寸，将联合通道空间注意力的全局自注意力模块分为三条支路，其中：
[0016]
(1)key支路为通道注意力机制，即将特征图像f取全局平均池化使其变成大小为c
×1×
1的张量，对张量使用一维卷积操作进行局部通道的信息交互，利用sigmoid将交互结果转化为通道权重，由此得到大小为c
×
1的通道注意力权重向量key；
[0017]
(2)query支路为空间注意力机制，即将特征图像f分别进行全局最大池化和全局平均池化，得到两个h
×w×
1的特征图，再将所得到的两个h
×w×
1的特征图做通道拼接操作并且利用卷积层进行降维，利用sigmoid将降维后的结果转化为空间权重，最后将空间权重和特征图像f做乘法得到空间注意力特征；
[0018]
(3)value支路为特征图像f；
[0019]
(4)将key支路和query支路做矩阵乘法操作后利用softmax进行归一化操作获取协方差矩阵，将获得的协方差矩阵和value支路做矩阵乘法操作得到增强后的特征图像f’，来实现全局相关信息对输入特征图像的增强，同时将特征图像f和增强后的特征图像f’相加作为残差结构来避免网络退化，由此得到最终生成的通道空间自注意力特征。
[0020]
第三步，利用数据集对带有联合通道空间注意力的全局自注意力模块的网络进行训练，通过正向传播得到预测的候选框，采用l2范数作为损失函数计算预测候选框与目标候选框的误差并进行反向传播，利用adam优化器不断优化直至误差不再减小，从而得到训练好的网络参数模型。
[0021]
进一步地，经过骨干网络深度融合特征网络dla提取特征图像f。
[0022]
本发明的有益效果如下：
[0023]
1、模块中的通道注意力和空间注意力机制分别对特征图像的通道信息和空间信息进行特征加强，而且在通道注意力中使用权值共享的一维卷积很好的解决了由于直接下采样引起的细节信息丢失的问题并得到相应特征图像的通道权重。
[0024]
2、将通道和空间注意力融合到自注意力机制中，在骨干网络的深层部分采用基于协方差矩阵的自注意力机制原理来耦合图像全局像素点之间的相关性信息，通过利用通道注意力和空间注意力获取协方差矩阵，再利用协方差矩阵与输入图像特征点乘来实现对原输入图像特征的全局特征增强。
[0025]
3、提出的联合通道空间注意力的全局自注意力模块输入输出通道维度一致，可任意组装到卷积神经网络中，具有较高的泛化性和可拓展性。
附图说明
[0026]
图1为所本发明所设计的联合通道空间注意力的全局自注意力模块结构图。
具体实施方式
[0027]
本发明提出一种联合通道空间注意力的全局自注意力目标检测算法，其使用改进后的通道空间联合注意力网络获取耦合通道和空间信息的增强特征；并构建全局自注意力网络，其借助增强特征与原始特征之间的协方差信息有效捕获像素点之间的全局相关性，克服传统卷积仅局限于相邻像素点的问题，并在目标检测任务中取得较优的效果。
[0028]
下面将结合附图中的网络对实施方案进一步的详细描述：
[0029]
(1)数据准备：
[0030]
划分数据集，本方法采用的是交通标志数据集tt100k
[4]
，该数据集是由清华大学和腾讯公司联合制作的，采集于中国5个城市包含10个街区，包含了真实驾驶场景中不同天气、不同光照以及部分遮挡情况，该数据集包含的交通标志总共有182类，每张图像的分辨率为2048
×
2048，一共9176张。在实验过程中，忽略实例出现频次少于100的类别，使用数据集中的出现频次大于100的45类交通标志，由于交通标志在高分辨率图像中占比较小，为了便于训练，实验中将原始的高分辨率图像人工裁剪为分辨率为512
×
512像素的子图。依据常用的数据集分割方法，我们把数据集分割为训练集和测试集。
[0031]
(2)网络的搭建：本发明的网络结构主要为在骨干网络的深层网络层加入通道空间自注意力模块，提高网络的在通道空间方面的特征提取能力，以此来提高目标检测的精度，下面将结合附图1，对发明搭建的网络结构进行详细的介绍说明。
[0032]
(a)每次迭代，将输入的训练集图像经过骨干网络深度融合特征网络dla(deep layer aggregation)
[5]
提取特征图像f，骨干网络由六部分组成，前两部分是卷积层结构，由二维卷积层、批归一化层和激活函数层组成，来初步提取浅层的图像特征，后四部分是一种深度融合特征的卷积结构hda(hierarchical deep aggregation)
[5]
，利用ida(iterative deep aggregation)
[5]
来连接相邻两个层之间的特征；
[0033]
(b)将上一步得到的特征图像f输入联合通道空间注意力的全局自注意力模块，联合通道空间注意力的全局自注意力模块具体算法如下：
[0034]
为了建立图像上有一定距离的像素之间的联系，需要考虑所有位置特征的加权，即空间、通道等。对特征图像f分别进行不同的处理得到key,query,value这三条支路的输
出，特征图像f大小为c
×w×
h，其中c为特征图的通道数量，w和h表示特征图的尺寸。
[0035]
key支路为通道注意力机制，即将特征图像f取全局平均池化使其变成大小为c
×1×
1的张量，对张量使用一维卷积操作进行局部通道的信息交互，利用sigmoid将交互结果转化为通道权重，以此来对特征图像f进行通道重要程度的标定，这样便可以得到大小为c
×
1的通道注意力权重向量key，即：
[0036]
key＝{β1,β2,
…
βc,
…
βc}
[0037]
＝sigmoid(conv1(avgpool(f)))，c∈[0,c)
ꢀꢀ
(1)
[0038]
其中conv1为一维卷积操作，avgpool为全局平均池化运算，经过运算后得到通道注意力权重向量b，其中βc为权重向量b中第c维的数值，对应第c个通道对应的权重值。
[0039]
query支路为空间注意力机制，即将特征图像f分别进行全局最大池化和全局平均池化，得到两个h
×w×
1的特征图，再将得到的两个特征图做通道拼接操作并利用卷积层进行降维，利用sigmoid将降维后的结果转化为空间权重，最后将空间权重和特征图像f做乘法得到空间注意力特征。
[0040]
query＝sigmoid(conv2(cat[avgpool(f)；maxpool(f)]))*f
ꢀꢀꢀ
(2)
[0041]
其中cat为通道拼接运算，maxpool为全局最大池化运算，conv2为二维卷积操作。
[0042]
value支路即为输入的特征图像f，将key支路和query支路做矩阵乘法操作后利用softmax进行归一化操作获取协方差矩阵，将获得的协方差矩阵和value支路做矩阵乘法操作得到增强后的特征图像f’，来实现全局相关信息对输入特征图像的增强，将特征图像f和增强后的特征图像f’相加作为残差结构来避免网络退化，由此得到最终生成的联合通道空间注意力的全局自注意力特征y。
[0043]f′
＝softmax(key
·
query)
·
value
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0044]
y＝f
′
f
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0045]
(c)将测试集图像输入到加载训练后参数的网络模型中，输出测试集图像的检测结果。
[0046]
(3)模型训练：本发明的学习率设置为0.00025，总共训练270000次，采用l2范数作为损失函数采用adam优化方法，学习率为0.01。
[0047]
(4)评价指标：本发明实验采用平均精确度(mean average precision)衡量算法效果。
[0048]
(5)实验使用所提出的联合通道空间注意力的全局自注意力目标检测算法，在加入该注意力机制模块之后，网络的检测结果map(平均精确度)＝74.7％，相比原网络的检测结果map＝75.9％，检测精度提升了1.2％。
[0049]
本发明基于通道注意力机制对通道的权重选择和空间注意力机制对空间特征的增强这两种策略，设计了一种联合通道空间注意力的全局自注意力模块，创新点主要有：
[0050]
(1)为了建立图像上有一定距离的像素之间的联系，该模块考虑所有位置特征的加权，即空间、通道等，设计了key,query,value这三条支路来联合通道和空间注意力提高特征信息的提取。
[0051]
(2)key支路为通道注意力机制，为减少全连接层降维引起的细节信息的损失，利用权值共享的一维卷积来替代原始通道空间注意力机制中的全连接层，从而实现了对部分细节信息的保留并得到相应特征图像的通道权重。
[0052]
(3)query支路为空间注意力机制，通过空间注意力机制将特征图像中的空间信息对应的空间变换来对特征图的每层通道的像素点赋予不同的权重，从而将关键的空间特征信息提取出来。
[0053]
(4)value支路为输入的特征图像，采用基于协方差矩阵的自注意力机制原理提高对输入特征图的全局特征信息的提取，利用key,query两支路获取协方差矩阵，再利用协方差矩阵与value支路进行像素级的点乘来耦合图像全局像素点之间的相关性信息，该策略能有效全面的提升目标检测任务中的特征提取能力。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：背光调节方法、装置及存储介质与流程

一种联合通道空间注意力的全局自注意力目标检测方法

相关文献

最热文献