一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于注意力机制的遮挡行人检测方法

2022-04-16 14:52:37 来源:中国专利 TAG:


1.本发明属于深度学习、目标检测领域,涉及一种基于注意力机制的遮挡行人检测方法,用于解决拥挤场景下行人检测问题。


背景技术:

2.行人检测作为目标检测的一个重要应用分支,在智能汽车驾驶、智能视频监控、人机交互等诸多应用场景中发挥着至关重要的作用,与人类生活息息相关,具有极其重要的研究价值。近年来,随着深度学习的发展,大量方法开始基于深度卷积神经网络(cnn)构建模型用于行人检测任务。虽然目前这些行人检测方法已取得了较大进展,但它们的检测性能仍远低于人类的预期。
3.通常情况下,实际检测场景中的行人所处环境十分复杂,如背景混乱、尺度变化以及遮挡情况,这些复杂条件给行人检测任务带来了极大挑战。传统基于深度神经网络的方法通常利用cnn提取目标的高级语义特征以便检测行人。但是,由于cnn无法自适应地关注和突出特征图的关键通道和特定空间位置,难以区分所有输入特征,并且卷积通常被应用在局部图像上获得局部信息,无法提取图像的全局信息,这种方法的性能较差。近年来,注意力机制开始应用到行人检测任务中,注意力机制使得行人检测器在提取特征的同时能够自适应地突出关键特征通道和空间位置。因此,将注意力机制与主流行人检测框架结合起来是解决上述局限性的一个有效方法。
4.除此之外,遮挡问题也是行人检测领域中一个常见且棘手的挑战。在拥挤场景下,行人极可能会被邻近其他行人或物体遮挡。尽管最近的行人检测方法在无遮挡或少遮挡的条件下取得了一定的研究进展,但在严重遮挡条件下的性能依然亟待提升。基于全局检测的方法通常采用整体检测策略,使用全身标签进行训练,假设行人完全可见。然而,由于遮挡情况下行人的部分身体区域是不可见的,基于这种方法的行人检测模型的辨别能力严重受限。不同于全局检测的方法,基于局部检测的方法则采用局部检测的策略来解决遮挡问题,通过训练一个集成模型来学习一组局部检测器,其中每个局部检测器都用来处理一类特定的遮挡(全身遮挡、上下身体遮挡或者左右身体遮挡)。然而,这类方法由于需要部署大量的局部检测器且依赖于这些局部检测器的联合学习,计算成本很高且训练复杂,难以实现。最近一些基于遮挡处理的行人检测方法尝试利用行人可见身体信息回归可见部分区域用以生成预测,或者将可见信息作为外部监督来学习特定遮挡类别,可以为遮挡检测问题的解决带来较大启发。


技术实现要素:

5.基于上面提到的传统深度神经网络不利于提取特征以及拥挤遮挡情况下行人检测的局限,本发明提出了一种基于注意力机制的遮挡行人检测方法。通过本发明方法,构建了一个新型的基于注意力机制与遮挡处理的行人检测器skgnet,将轻量级的动态核选择与空间分组增强注意力模块skg嵌入到resnet-101网络的标准残差块中,构建出高效的特征
提取骨干网络skgnet-101,有助于网络提取到更关键的特征信息,提高特征图的表达能力。同时,针对拥挤场景中的行人遮挡情况,提出了一个掩膜调制(mg)模块,以提高遮挡行人的检测性能。该模块利用行人可见身体信息生成生像素级的空间掩膜来进一步细化提取到的全身特征,即在突出行人可见身体部分的同时,抑制其被遮挡部分,从而提升网络的检测性能。通过mg模块细化后的特征可以帮助后续的分类网络更精确地检测部分或严重遮挡的行人,否则可能会被忽略而检测失败。
6.本发明主要包括特征提取和检测分支两部分:
7.(1)特征提取:在特征提取阶段,首先对原始骨干网络resnet-101进行改进使其更具鲁棒性。具体地,将提出的轻量级skg注意力模块嵌入该网络堆叠的残差块中;并将网络中的批归一化层(bn)替换为可切换归一化层(sn),从而得到性能更强的骨干网络skgnet-101。该骨干网络主要分为4个阶段,stage1-4。
8.为了使网络对多尺度行人的检测性能进一步提高,4个阶段输出的不同尺度的特征图通过简单连接被融合为一个单独的待检测行人特征图。该待检测特征图被输入到掩膜调制模块(mg)进行特征细化,mg模块利用行人可见身体信息生成一个像素级的空间掩膜对输入的身体特征进行细化,得到一个更利于后续检测的特征图。
9.(2)检测分支:经mg模块细化后的特征图被送入检测分支进行检测得到结果。检测分支包括一个用于减小特征图通道维度的3
×
3的卷积层,以及三个并行1
×
1卷积预测层,分别进行行人的中心点位置预测、尺度回归和偏移预测。
10.为了达到上述目的,本发明采用的技术方案如下:
11.一种基于注意力机制的遮挡行人检测方法,具体步骤如下:
12.步骤(1)将待检测行人图像输入骨干网络:
13.首先将待检测行人图像调整为统一的分辨率,然后输入特征提取骨干网络skgnet-101中提取特征用于检测,skgnet-101是基于resnet-101网络改进得到。具体地,将轻量级skg注意力模块嵌入resnet-101堆叠的残差块中以构建出更利于行人检测的skg特征提取块;并将网络中的批归一化层(bn)替换为可切换归一化层(sn),从而得到了性能更强的骨干网络skgnet-101来提取并增强有效信息;
14.步骤(2)对输入的行人图像进行特征提取:
15.步骤(1)中输入的图像依次经过特征提取骨干网络的4个阶段进行特征图的提取,4个阶段分别由3,4,23,3个残差块堆叠形成。每个残差块中都包括一系列卷积层和轻量级skg注意力模块。整个skg注意力模块的特征增强过程可分为以下四步:划分、聚合、选择以及空间分组增强。以两个分支为例,即只有两个不同核大小可供选择时(当核的数量大于两个时,方法一致),具体处理过程如下:
16.(2.1)划分:设骨干网络某个阶段的残差块输出的中间特征图为x首先被送入卷积核大小为3
×
3和5
×
5的两个卷积层分别进行处理,生成两个携带不同语义信息的特征图y1和y2,两个卷积层都依次包括三个算子:分组卷积,可切换归一化以及relu激活函数;在训练中,使用膨胀尺度为2的3
×
3的膨胀卷积代替传统的5
×
5卷积来进一步提高效率。下面是y1和y2的生成过程:
17.y1=conv3
×
3(δ(sn(x)))
18.y2=conv5
×
5(δ(sn(x)))
19.式中,sn、δ和conv分别表示可切换归一化、relu激活函数和卷积层。
20.(2.2)聚合:首先采用元素求和运算简单融合划分后的两个特征图y1和y2得到特征图y,然后通过全局平均池化生成信道统计特征以嵌入y的全局信息,具体地,在空间维度h
×
w上调节特征图y得到s的第k个元素;接着,利用一个基本的1
×
1全连接层降维s并生成紧凑特征以此提高动态核选择的准确性和效率;d与c分别表示z和s的维度,它们的关系由缩减率r决定:d=max(c/r,l),其中l为d的最小值。聚合流程的公式如下:
21.z=f
fc
(f
gp
(y1 y2))
22.其中,f
gp
和f
fc
分别表示全局平均池化和全连接层。
23.(2.3)选择:选择操作将softmax算子应用于聚合得到的紧凑特征z,以便自适应选择不同空间尺度的信息,经计算得到的a和b分别为y1和y2的注意权值向量;然后利用这两个注意权值a和b对步骤(2.1)划分的特征图y1和y2进行加权求和,最后得到特征图整个过程如下式所见:
24.[a,b]=softmax(z)
[0025]
u=a
·
y1 b
·
y2[0026]
(2.4)空间分组增强(sge):
[0027]
经步骤(2.1)~步骤(2.3)提取细化的特征,通过sge进一步分组增强。sge将多通道特征图分组,所有分组增强过程都在组内进行;公式可概括如下:
[0028]
v=sge(u)
[0029]
具体步骤如下:
[0030]
首先,将前一步骤输出的注意权值特征图沿通道维度划分为g组;对于其中一组利用整个组空间的全局统计信息进一步增强关键区域中语义特征的学习来获得理想分布的特征图。具体地,通过全局平均池化函数f
gp
(
·
)来近似计算该组学习表示的语义特征向量得到全局统计特征;接着,对全局统计特征和局部特征进行点积计算,以度量它们之间的相似性;然后,为避免不同样本间的系数偏差造成影响,对点积结果进行归一化处理,得到归一化系数c;最后,归一化后的系数c通过sigmoid函数σ(
·
)对原始特征u

进行空间上的尺度变换,得到最终的增强特征组v

。整体的特征增强过程可以总结如下:
[0031]
c=n(u

·fgp
(u

))
[0032]v′
=u

·
σ(c)
[0033]
其中,f
gp
、n和σ分别表示全局平均池化、正则化和sigmoid激活函数;
[0034][0035]
步骤(3)mg模块细化特征:
[0036]
待检测行人图像输入嵌入注意力模块的骨干网络进行特征提取及增强后,网络的四个阶段输出的不同尺度特征图被连接融合成单个特征图,接着该特征图被输入到网络的掩膜调制模块中进行特征细化;具体过程如下:
[0037]
定义融合后的单个特征图为其中h
×
w代表分辨率,c表示特征通道数;f首先被输入两个连续的3
×
3卷积层和校正线性单元的组合进行特征细化;接着,经过
一个1
×
1的卷积层及sigmoid函数生成行人概率图然后,使用该概率图f
p
对输入的多通道特征f调制得到加权特征fm;具体是将f中每个通道的特征fi分别与f
p
进行元素点乘生成f
mi

[0038]fp
=δsconv1(δrconv3(δrconv3(f)))
[0039][0040]
其中i指示通道;表示元素点积。最后,调制后的特征fm被输入检测分支进行行人检测。
[0041]
mg调制模块的损失函数l
mg
使用二元交叉熵损失计算如下:
[0042][0043]
式中为mg模块生成的预测结果,yi(x,y)表示真值。
[0044]
步骤(4)检测分支进行行人检测:
[0045]
经过掩膜调制模块细化后的特征图被输入到检测分支中进行最后的行人检测,具体为:首先经过一个3
×
3的卷积层来减小该特征图的通道维度,接着通过三个并行的1
×
1卷积层,生成中心点热图、尺度热图及偏移预测结果,分别用于中心点位置预测、尺度回归(行人的高度和/或宽度)以及用于调整中心点位置的偏移预测;结合三个并行分支的预测结果,生成行人位置包围框,重新映射到原始行人图像的大小,然后经过非极大值抑制nms操作后得到图像的行人检测结果。
[0046]
本发明的有益效果:
[0047]
(1)本发明中,针对传统神经网络的不足,本发明设计了一个轻量级的注意力模块,并将其嵌入到检测器的特征提取骨干网络中以提高性能。具体地,在检测器的特征提取阶段,本发明在resnet-101堆叠的标准残差块中嵌入提出的skg注意力模块,生成一个更为鲁棒和高效的特征提取网络skgnet-101,有助于在提取过程中增强并细化特征图。该轻量级skg注意力模块显著提高了网络检测性能,并且仅增加了少量的额外参数和计算,可以被集成到其他主流的行人检测网络中。
[0048]
(2)此外,针对拥挤遮挡场景下的行人检测,提出掩膜调制模块(mg),利用行人的可见身体信息产生像素级的空间掩膜,以调节细化前一阶段输出的多通道全身特征,从而提高后续的行人检测准确率。该模块不局限于某个遮挡类别,很容易嵌入标准的行人检测器中。
附图说明
[0049]
图1为本发明的整体架构图。
[0050]
图2为本发明的skg注意力模块的网络结构图。
[0051]
图3为本发明的mg掩膜调制模块的示意图。
具体实施方式
[0052]
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
[0053]
本发明可用于各种场景下的行人检测任务,本发明的整体流程如图1所示,所采用
的skg注意力模块的结构如图2所示,mg掩膜调制模块的如图3所示。
[0054]
本实施例应用到了对交通场景下的行人检测任务,所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。
[0055]
下面主要针对交通场景下的行人检测问题对本发明的实施方式进行详细说明,具体包括以下步骤(如图1所示):
[0056]
(1)首先将待检测行人图像的分辨率统一调整为640
×
1280,这有助于节省检测时间和内存,然后输入到本发明的行人检测器的特征提取骨干网络skgnet-101中提取用于检测的有效特征;对于本发明使用的骨干网络skgnet-101,为了克服原始resnet-101网络中批归一化层(bn)不适合处理小批量任务的缺陷,统一采用可切换归一化层(sn)代替bn层。该sn层是对批处理归一化、实例归一化和层归一化的不同均值和方差统计量的加权平均,可以充分利用特征图中的高级语义信息获得更好的性能;此外,骨干网络skgnet-101的残差块中还嵌入了本发明提出的skg注意力模块,进一步增强了网络的特征提取能力。
[0057]
(2)输入网络的图像依次被输入骨干网络的四个阶段中进行特征图的提取和增强,其中每个阶段堆叠的标准残差块中都嵌入了本发明提出的skg注意力模块,这有助于提取更关键且有效的检测特征。该skg注意力模块由动态核选择(sk)和空间分组增强(sge)组合形成,其目标是基于关键注意信息增强特定的特征图。动态核选择机制使得每个神经元可以基于不同的输入尺度自适应地调整其感受野的大小;空间分组增强在每个特征组中建模一个空间增强机制,通过在每个语义组中的每个空间位置上生成一个注意因子来缩放特征向量以此调整每个子特征的重要性,从而使每个语义组能够自主增强其学习表达能力。skg注意力模块的具体嵌入方式及细节如图1中骨干网络的第3阶段所示。假设该阶段残差块的输出特征图为x,x被输入到skg注意力模块经过动态核选择和空间分组增强进行特征增强。该增强过程可以被概况如下:
[0058]
u=m
sk
(x)
[0059]
v=m
sge
(u)
[0060]
其中m
sk
表示动态核选择,m
sge
表示空间分组增强,u和v为依次被m
sk
和m
sge
优化的特征图。
[0061]
整个skg注意力模块的特征增强过程可细分为以下四步:划分、聚合、选择以及空间分组增强,以两个分支为例,即只有两个不同核大小可供选择时,具体处理过程如下(当核的数量大于两个时,方法一致):
[0062]
(2.1)划分:设骨干网络某个阶段的残差块输出的特征图为x首先被送入卷积核大小为3
×
3和5
×
5的两个卷积层分别进行处理,生成两个携带不同语义信息的特征图y1和y2,两个卷积层都依次包括三个算子:分组卷积,可切换归一化以及relu激活函数;下面是y1和y2的生成过程:
[0063]
y1=conv3
×
3(δ(sn(x)))
[0064]
y2=conv5
×
5(δ(sn(x)))
[0065]
式中,sn,δ和conv分别表示可切换归一化、relu激活函数和卷积层。
[0066]
(2.2)聚合:首先采用元素求和运算简单融合划分后的两个特征图y1和y2得到特征图y,然后通过全局平均池化生成信道统计特征以嵌入y的全局信息,具体地,在空间维度h
×
w上调节特征图y得到s的第k个元素;接着,利用一个基本的1
×
1全连接层降维s
并生成紧凑特征以此提高动态核选择的准确性和效率;d与c分别表示z和s的维度,它们的关系由缩减率r决定:d=max(c/r,l),其中l为d的最小值,通常不低于32。聚合流程的公式如下:
[0067]
z=f
fc
(f
gp
(y1 y2))
[0068]
其中,f
gp
和f
fc
分别表示全局平均池化和全连接层。
[0069]
(2.3)选择:选择操作将softmax算子应用于聚合得到的紧凑特征z,以便自适应选择不同空间尺度的信息,经计算得到的a和b分别为y1和y2的注意权值向量;然后利用这两个注意权值a和b对(2.1)划分的特征图y1和y2进行加权求和,最后得到特征图整个过程如下式所见:
[0070]
[a,b]=softmax(z)
[0071]
u=a
·
y1 b
·
y2[0072]
(2.4)空间分组增强(sge):
[0073]
经步骤(2.1)~步骤(2.3)提取细化的特征,通过sge进一步分组增强。sge将多通道特征图分组,目的是提高每个组内不同语义子特征的学习能力,自主增强其在组内的空间分布,使每个特征组在空间上分布良好并具有鲁棒性;所有分组增强过程都在组内进行,几乎不需要额外的参数和计算;公式可概括如下:
[0074]
v=sge(u)
[0075]
首先,将前一步骤输出的注意权值特征图沿通道维度划分为g组;对于其中每组理想情况下,在该组空间中,可以获得分布良好的特征图,即人体位置的特征响应较强,而其他无关位置几乎没有响应,即为0向量。然而,由于无法避免的噪声和特征间的相似性,这种情况很难真正实现。由于整个组空间的全局特征受噪声影响较小,本发明利用整个组空间的全局统计信息进一步增强关键区域中语义特征的学习来获得理想分布的特征图;具体地,通过全局平均池化函数f
gp
(
·
)来近似计算该组学习表示的语义特征向量得到全局统计特征;接着,对全局统计特征和局部特征进行点积计算,以度量它们之间的相似性;然后,为避免不同样本间的系数偏差造成影响,对点积结果进行归一化处理,得到归一化系数c;最后,归一化后的系数c通过sigmoid函数σ(
·
)对原始特征u

进行空间上的尺度变换,得到最终的增强特征组v

。整体的特征增强过程可以总结如下:
[0076]
c=n(u

·fgp
(u

))
[0077]v′
=u

·
σ(c)
[0078]
其中,f
gp
、n和σ分别表示全局平均池化、正则化和sigmoid激活函数;
[0079][0080]
(3)由图1可见,待检测行人图像输入嵌入注意力模块的骨干网络进行特征提取及增强后,网络的四个阶段输出的不同尺度特征图被连接融合成单个特征图,接着该特征图被输入到网络的掩膜调制模块中进行特征细化;该模块使用可见人体信息对输入特征图的全身特征进行调制,输出一个像素级别的特征图用于最终的行人检测,调制后的特征图能够突出行人身体的可见部分,同时抑制被遮挡的部分。
[0081]
下面是掩膜调制模块的详细描述:
[0082]
定义融合后的单个特征图为其中h
×
w代表分辨率,c表示特征通道数;f首先被输入两个连续的3
×
3卷积层和校正线性单元的组合进行特征细化;接着,经过一个1
×
1的卷积层及sigmoid函数生成行人概率图然后,使用该概率图f
p
对输入的多通道特征f调制得到加权特征fm;具体是将f中每个通道的特征fi分别与f
p
进行元素点乘生成f
mi

[0083]fp
=δsconv1(δrconv3(δrconv3(f)))
[0084][0085]
其中i指示通道;表示元素点积。最后,调制后的特征fm被输入检测分支进行行人检测。
[0086]
(4)经过掩膜调制模块细化后的特征图被输入到后面的检测分支中进行最后的行人检测。首先经过一个3
×
3的卷积层来减小该特征图的通道维度,接着通过三个并行的1
×
1卷积层,生成中心点热图、尺度热图及偏移预测结果,分别用于中心点位置预测、尺度回归(行人的高度和/或宽度)以及用于调整中心点位置的偏移预测;结合三个并行分支的预测结果,生成行人位置包围框,重新映射到原始行人图像的大小,然后经过非极大值抑制nms操作后得到图像的行人检测结果。至此,检测结束,整个行人检测模型的流程结束。
[0087]
本发明使用adam优化器来优化训练网络的学习参数,使用dropout来防止过拟合,初始学习率设置为2
×
10-4
。本发明在开源数据集citypersons上进行实验,计算对数平均误报率mr-2
作为评估指标(值越小越好),在其4个验证子集(合理、遮挡、部分、稀疏)上的实验结果如下:
[0088]
表1本发明所提发方法与各个先进方法的实验结果对比
[0089][0090]
表1中展示了本发明的模型在citypersons数据集上与经典及先进方法的实验结
果对比。表中的实验数据证明了本发明提出的行人检测方法的有效性。本发明在citypersons数据集上取得了优越的性能表现,同时不会产生过多额外的参数和计算量,简单有效且易于实现。尤其是在该数据集上的遮挡子集和稀疏子集上实现了最佳检测结果,表中用黑体标出。
[0091]
尽管本发明以交通场景中的行人为例介绍提出的方法,但实际应用中,利用训练好的网络模型可以针对不同场景下的行人进行检测,此外,除了发明中使用的sk、sge注意力机制外,还可以尝试其他便捷有效的注意力机制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献