一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向行人检测的轻量级卷积神经网络模型

2022-08-11 08:05:50 来源:中国专利 TAG:


1.本发明属于人工智能技术领域,具体涉及神经网络模型压缩与加速,轻量级神经网络模型结构的设计,以及计算机视觉中的行人检测,特别是涉及一种面向行人检测的轻量级卷积神经网络模型。


背景技术:

2.近年来,随着硬件设施的快速发展以及神经网络技术的日趋成熟,作为在自动驾驶、智慧城市等诸多场景中都承担着重要作用的行人检测任务,对于检测速度的要求越来越高,实时检测场景逐渐增加,将行人检测算法部署在嵌入式终端已经成为一大趋势。
3.目前已有的行人检测算法主要分为两类,一类是基于传统机器学习中的二分类法,另一类是基于卷积神经网络的目标检测方法。传统的行人检测算法通常包含手工设计的特征和分类器两个组成部分,首先根据行人自身的外观特征,手工设计出特征,然后用这种特征来训练分类器,从而达到区别行人和背景的目的,这类算法往往存在很大的局限性,手工设计的特征缺乏足够的能力去匹配实际应用中的复杂场景,从而导致算法的稳定性和泛化性较差,检测精确度也不尽人意,所以并未得到广泛的应用。在第二类基于卷积神经网络的通用目标检测算法中,主要是以主干网络提取特征、颈部网络融合特征、然后组合头部网络进行回归定位的架构为主,如一阶段网络的代表ssd系列、yolo系列以及二阶段网络的代表fast r-cnn系列,这类网络具备更良好的特征表达能力,泛化性和检测精确度通常较好,结构设计相对于传统的行人检测算法也比较简单。但是,卷积神经网络优异表现的背后堆砌着的是庞大的复杂度以及计算需求,对于计算资源和存储资源都极为有限的嵌入式设备来说,并没有足够的能力去容纳这些复杂的神经网络,想要成功部署在嵌入式设备上并取得良好的推理效果和实时性,神经网络模型需要更为轻量。
4.近些年来诞生了很多优秀的轻量级的通用目标检测网络,比如2015提出的通过组合多尺度卷积增加网络的宽度并减少网络深度的inceptionv1,2017年提出的将标准的卷积更换为深度可分离卷积从而大幅降低网络复杂度的mobilenetv1,2018年创造性地提出了携带逆残差结构的mobilenetv2,以及后来的shufflenet系列和基于神经网络结构搜索的mnasnet等。然而,上述轻量级网络的设计初衷都是最大程度缩小网络规模,针对由于摄像头拍摄点距离行人的远近和拍摄角度不同而导致的行人目标尺度多变的问题,小模型缺乏足够的容量去匹配多变的尺度,模型的表达能力不强。并且,轻量级的通用目标检测网络在遇到遮挡的复杂场景的时候,检测效果会大打折扣。总体来说,轻量级的通用目标检测网络和基于卷积神经网络的通用目标检测网络各有利弊,前者复杂度较小,推理速度较快,但是表达能力较弱,缺乏足够的能力应对复杂的行人检测任务,检测精确度较低,而后者表达能力较强,行人检测的精确度较高,但是网络复杂度较高,推理速度较慢。
5.针对上述问题,本发明需要解决的技术难点是,设计一个参数量和计算量都较小的轻量级行人检测网络,提高其应对行人检测尺度多变和遮挡问题的能力,从而使其能够取得良好的行人检测精确度,并具备较快的推理速度。


技术实现要素:

6.本发明的目的是克服现有技术的不足,提出一种面向行人检测的轻量级卷积神经网络模型,该网络的参数量和计算量都显著少于常见的基于卷积神经网络的通用目标检测网络,行人检测精确度高于常见的轻量级通用目标检测网络,在具备较快推理速度的同时,能够取得良好的检测效果。
7.本发明所采用的技术方案为:
8.一种面向行人检测的轻量级卷积神经网络模型,该轻量级卷积神经网络模型由多个基本组成模块堆叠而成,每个所述基本组成模块采用多分支的并行结构获取不同尺度感受野下的特征,每个分支包含不同扩张率的空洞卷积和分组卷积;在基本组成模块之后,连接空间注意力机制模块。
9.进一步地,所述基本组成模块包含三个分支的并行结构,分别采用扩张率为3、5、7的空洞卷积,以及分组数分别为4、8、16的分组卷积,卷积核大小都为3
×
3,在卷积操作后添加批归一化层和激活函数;
10.所述空洞卷积具体是指向普通卷积层引入新参数“扩张率”,该参数定义了卷积核处理数据时每个值相互之间的间距,根据扩张率往卷积核中间填充0,随后再做卷积操作;
11.所述分组卷积是指将整个卷积过程拆成若干组规模更小的子运算来并行进行,具体包含如下两个子步骤:
12.步骤一:保持输入数据的高度和宽度不变,根据通道数将其分成若干组;
13.步骤二:分别对每个组执行卷积运算,随后将所有组的输出矩阵进行拼接得到最终结果。
14.进一步地,将所述基本组成模块包含的三个分支的结果进行相加操作。
15.进一步地,所述空间注意力机制模块包含以下子模块:
16.子模块一:全局最大池化层和全局平均池化层,用于将输入的特征图(h
×w×
c)分别进行全局最大池化和全局平均池化操作从而降低通道数,得到两个h
×w×
1的特征图,然后将这2个特征图进行拼接操作得到通道数为2的特征图,其中,h表示特征图的高度,w表示特征图的宽度,c表示特征图的通道数;
17.子模块二:一维卷积层和激活函数层,用于将子模块一输出的特征图输入一个3
×
3的一维卷积进行学习,从而将通道数降为1,即h
×w×
1,再经过激活函数生成空间注意力特征图;
18.子模块三:通道相乘层,用于将子模块二输出的空间注意力特征图和最开始的输入特征图进行通道相乘操作,以突出输入特征图中与行人目标相关的区域,抑制无用的背景信息,进而辅助网络对被遮挡的行人目标进行检测。
19.进一步地,网络中的激活函数均使用hard swish函数,相比于常见的relu激活函数,hard swish激活函数具备更平滑的拟合能力,并且在资源有限的嵌入式设备上能够取得更快的推理速度,具体公式如下:
20.relu6(x)=min(6,max(0,x))
21.与现有技术相比,本发明具有如下优点和有益效果:
22.1、本发明利用空洞卷积能够扩大感受野的特性,使用多个不同扩张率的空洞卷积
并行的结构,捕获多尺度的上下文信息,从而增加模型的容量,提高模型表达能力,增强模型应对行人尺度多变问题的能力;
23.2、本发明使用分组卷积的思想,大幅降低网络的参数量和计算量,从而提升推理速度,使得资源有限的嵌入式系统也能够成功部署并运行;
24.3、本发明使用空间注意力机制,突出特征图中与行人目标相关的区域,抑制无用的背景信息,进而增强模型应对行人尺度多变问题的能力。
附图说明
25.图1是本发明的最终网络架构图;
26.图2是本发明中所述的空洞卷积的示意图;
27.图3是本发明中所述的分组卷积的示意图;
28.图4是本发明中所述的空间注意力机制模块的示意图;
具体实施方式
29.下面结合附图和实施例对本发明的技术方案作进一步的说明。
30.本发明的最终网络架构如图1所示,具体步骤如下:
31.一种面向行人检测的轻量级卷积神经网络模型,该轻量级卷积神经网络模型由多个基本组成模块堆叠而成,每个所述基本组成模块采用多分支的并行结构获取不同尺度感受野下的特征,每个分支包含不同扩张率的空洞卷积和分组卷积;在基本组成模块之后,连接空间注意力机制模块。采用上述方案的主要思想方法是:首先利用空洞卷积能够扩大感受野的特性,使用多个不同扩张率的空洞卷积并行的结构,捕获多尺度的上下文信息,从而增加模型的容量,提高模型表达能力,增强模型应对行人尺度多变问题的能力。然后使用分组卷积切分输入通道数的思想,大幅降低网络的参数量和计算量,从而提升推理速度,使得资源有限的嵌入式系统也能够成功部署并运行。最后,使用空间注意力机制,突出特征图中与行人目标相关的区域,抑制无用的背景信息,进而增强模型应对行人尺度多变问题的能力。
32.本实施例中所述网络模型由若干个基本组成模块堆叠而成,该模块包含三个并行分支,每个分支分别采用扩张率为3、5、7的空洞卷积获取不同尺度感受野下的特征,以及分组数分别为4、8、16的分组卷积,卷积核大小都为3
×
3,在卷积操作后添加批归一化层和激活函数
33.本实施例中所述空洞卷积如图2所示,具体是指向普通卷积层引入新参数“扩张率”,该参数定义了卷积核处理数据时每个值相互之间的间距,根据扩张率往卷积核中间填充0,随后再做卷积操作。空洞卷积能够扩大感受野,不同扩张率的并行分支能够捕获多尺度的上下文信息,从而增加模型的容量,提高模型表达能力,增强模型应对行人尺度多变问题的能力;
34.本实施例中所述分组卷积如图3所示,具体是指将整个卷积过程拆成若干组规模更小的子运算来并行进行,从而大幅降低整个过程需要的参数量和计算量,提升模型推理速度,由于扩展率越大的空洞率所需要的参数量和计算量就越大,所以本发明中越大的空洞率就采用越大的分组数,分组卷积具体包含如下两个子步骤:
35.子步骤1:保持输入数据的高度和宽度不变,根据通道数将其分成若干组;
36.子步骤2:分别对每个组执行卷积运算,随后将所有组的输出矩阵进行拼接得到最终结果;
37.本实施例中所述基本组成模块包含的三个并行分支的结果进行融合,使用相加操作而不是拼接操作,从而减少部分计算量和内存占用
38.在堆叠若干个基本组成模块之后,将特征图送入空间注意力机制模块,在增加少量参数量和计算量的前提下,突出输入特征图中与行人目标相关的区域,抑制无用的背景信息,从而提高模型应对遮挡目标的检测能力,空间注意力机制模块如图4所示,具体包含以下子模块:
39.子模块一:全局最大池化层和全局平均池化层,用于将输入的特征图(h
×w×
c)分别进行全局最大池化和全局平均池化操作从而降低通道数,得到两个h
×w×
1的特征图,然后将这2个特征图进行拼接操作得到通道数为2的特征图,其中,h表示特征图的高度,w表示特征图的宽度,c表示特征图的通道数;
40.子模块二:一维卷积层和激活函数层,用于将子模块一输出的特征图输入一个3
×
3的一维卷积进行学习,从而将通道数降为1,即h
×w×
1,再经过激活函数生成空间注意力特征图;
41.子模块三:通道相乘层,用于将子模块二输出的空间注意力特征图和最开始的输入特征图进行通道相乘操作,以突出输入特征图中与行人目标相关的区域,抑制无用的背景信息,进而辅助网络对被遮挡的行人目标进行检测。
42.本实施例的网络中的激活函数均使用hard swish,相比于常见的relu激活函数,hard swish激活函数具备更平滑的拟合能力,并且在资源有限的嵌入式设备上能够取得更快的推理速度,具体公式如下:
43.relu6(x)=min(6,max(0,x))。
44.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献