一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于超大卷积核的近距离人体检测的方法及系统与流程

2023-01-15 12:34:06 来源:中国专利 TAG:


1.本发明涉及人体检测技术领域,尤其涉及一种基于超大卷积核的近距离人体检测的方法及系统。


背景技术:

2.在深度学习视觉领域,智慧城市,智慧社区,智能安防,智慧校园,人机互动游戏等领域,人体检测识别是一项重要的任务。为了确保算法在各个场景的速度和精度,需要提高人体检测的速度和精度。
3.目前深度学习视觉领域出名的算法有单阶段的yolo系列,centernet;双阶段的faster rcnn(faster regions with cnn features)等网络算法,对图片进行特征提取,进行深度学习算法训练和测试。
4.但在很多人机互动游戏里,人体距离摄像头距离很近,大约只有二米到三米的距离,且人体检测算法主要检测最核心的一个人或二个人,人体占据整个屏幕很大的面积,这就对算法的速度和精度要求很高。现有的神经网络检测算法无法对距离摄像头很近的场景有更强的针对性,无法对当前场景的人体进行更为准确的检测。


技术实现要素:

5.本发明主要解决现有的神经网络检测算法无法对距离摄像头很近的场景有更强的针对性,无法对当前场景的人体进行更为准确检测的技术问题,提出一种基于超大卷积核的近距离人体检测的方法及系统,以提高近距离人体检测的速度和精度。
6.本发明提供了一种基于超大卷积核的近距离人体检测的方法,包括以下过程:
7.步骤100,获取检测图片;
8.步骤200,将检测图片输入特征提取网络中,进行特征提取,得到特征图;其中,所述特征提取网络采用slak网络;所述slak网络结构,包括:stem模块、res2模块、res3模块、res4模块、res5模块;所述res2模块、res3模块、res4模块、res5模块的重复个数依次为2、3、5、2;
9.步骤300,将输出的特征图,依次输入一个3
×
3的卷积层和一个1
×
1的卷积层,预测出一个类别信息和二个候选框;
10.步骤400,用非最大抑制去除冗余候选框,得到最终的人体信息。
11.优选的,所述stem模块由2d卷积层搭建,其卷积核和步长都是4。
12.优选的,所述res2模块、res3模块、res4模块、res5模块卷积核大小依次为61、49、17、7。
13.优选的,所述res2模块、res3模块、res4模块、res5模块分别由逆瓶颈层组成;所述逆瓶颈层,包括:级联的slak block模块和二个1
×
1卷积层;其中,slak block模块采用61
×
5和5
×
61和5
×
5三个卷积核,在slak block模块后采用layer norm归一化层;在二个1
×
1卷积层之间使用gelu激活函数。
14.优选的,在slak网络结构中,各模块之间具有降采样模块;
15.所述降采样模块包括级联的归一化层和卷积核为2步长也为2的卷积层。
16.优选的,输入检测图片大小为416
×
416
×
3,得到最终的特征图大小为13
×
13
×
11。
17.优选的,每个候选框要预测物体的坐标信息(x,y,w,h)和置信度共5个值;其中,x表示预测物体中心点横坐标,y表示预测物体中心点纵坐标,w表示预测物体的宽度,h表示预测物体的高度。
18.对应的,本发明还提供一种基于超大卷积核的近距离人体检测的系统,包括:图片获取模块、特征提取模块、预测模块和去冗余候选框模块;
19.所述图片获取模块,用于获取检测图片;
20.所述特征提取模块,用于将检测图片输入特征提取网络中,进行特征提取,得到特征图;
21.所述特征提取网络采用slak网络;所述slak网络结构,包括:stem模块、res2模块、res3模块、res4模块、res5模块;res2模块、res3模块、res4模块、res5模块的重复个数依次为2、3、5、2;
22.所述预测模块,用于将输出的特征图,依次输入一个3
×
3的卷积层和一个1
×
1的卷积层,预测出一个类别信息和二个候选框;
23.所述去冗余候选框模块,用于用非最大抑制去除冗余候选框,得到最终的人体信息。
24.本发明提供的一种基于超大卷积核的近距离人体检测的方法及系统,采用拥有超大卷积核的slak作为骨干网络,把拥有超大卷积核的backbone对图片进行特征提取,该基准网络整合了大量最前沿的计算机视觉技术,改善了纯卷积神经网络的性能,可以提取更好的特征。同时,模型的参数量和计算复杂度没有大量增加,保持了网络的轻便。不同于传统的广泛应用的3*3卷积核,不能为深层的网络提供有效的感受野,学习能力有限;本发明增大卷积核,卷积核大小可以取到7
×
7、31
×
31,甚至最大取到61
×
61,本发明网络具有大卷积核,超大卷积网络具有更强的计算能力和更大的感受野,学习和建模能力更强大,从而提高网络特征性能,用于最后的人体检测,进一步提升模型对人体检测的准确度和性能。
附图说明
25.图1是本发明提供的基于超大卷积核的近距离人体检测的方法的实现流程图;
26.图2是本发明提供的slak网络结构的示意图;
27.图3是本发明提供的res2模块的示意图;
28.图4是本发明提供的res3模块的示意图;
29.图5是本发明提供的res4模块的示意图;
30.图6是本发明提供的res5模块的示意图;
31.图7是本发明提供的slak block模块的示意图;
32.图8是本发明提供的降采样模块的示意图;
33.图9是本发明提供的基于超大卷积核的近距离人体检测的系统的示意图。
具体实施方式
34.为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
35.实施例一
36.如图1所示,本发明实施例提供的基于超大卷积核的近距离人体检测的方法,包括以下过程:
37.步骤100,获取检测图片。
38.检测图片可通过图像采集设备进行采集,也可以上传设备自身保存的图片。所述图像采集设备不限于手机、高速运动相机等。采集后的检测图片,进行数据预处理。
39.步骤200,将检测图片输入特征提取网络中,进行特征提取,得到特征图。
40.所述特征提取网络采用slak网络;slak网络结构清晰,是拥有超大卷积核的卷积神经网络,增大卷积核从而提高特征性能,用于最后的近距离人体检测,提高对近距离人体检测的准确率。
41.如图2所示,所述slak网络结构,有5个stage(阶段);具体包括:stem模块、res2模块、res3模块、res4模块、res5模块;其中,stem模块由2d卷积层搭建,其卷积核和stride(步长)都是4。res2模块、res3模块、res4模块、res5模块的重复个数依次为2、3、5、2,保证网络的速度和精度。res2模块、res3模块、res4模块、res5模块均拥有超大卷积核卷积,卷积核的大小最大可以到达61
×
61。具体地,res2模块、res3模块、res4模块、res5模块卷积核大小依次为61、49、17、7。
42.如图3-6所示,res2模块、res3模块、res4模块、res5模块分别由逆瓶颈层组成。所述逆瓶颈层,包括:级联的slak block模块和二个1
×
1卷积层;其中,slak block模块采用61
×
5和5
×
61和5
×
5三个卷积核,在slak block模块后采用layer norm归一化层;在二个1
×
1卷积层之间使用gelu激活函数,且逆瓶颈层只采用此处一个激活函数。
43.本发明slak block模块采用61
×
5和5
×
61和5
×
5三个卷积核,能够节省参数和计算量。如图7所示。具体地,超大的方形卷积核分解为长方形卷积核,这种分解不仅继承了大卷积核捕获远程依赖关系的能力,而且可以利用短边提取局部上下文特征。
44.在slak网络结构中,各模块之间具有降采样模块(五次降采样),所述降采样模块包括级联的layer norm归一化层和卷积核为2步长也为2的卷积层,如图8所示。
45.本发明卷积网络整体采用拥有超大卷积核的卷积神经网络slak的结构设计,网络结构清晰,有5个strage组成,一共对原始图片有五次下采样,最后特征图的分辨率变为原图高度(h)和宽度(w)的1/32。
46.步骤300,将输出的特征图,依次输入一个3
×
3的卷积层和一个1
×
1的卷积层,预测出一个类别信息和二个候选框。
47.本发明采用拥有超大卷积核的网络作为backbone(主干网络)提取数据,经过五次降采样(downsample)后,在网络的结尾处加一个3
×
3普通卷积和一个1
×
1的卷积层,得到人体检测信息。
48.具体的,输入检测图片大小为416
×
416
×
3,经过backbone的五次降采样后,特征
图的尺寸大小为13
×
13
×
512;然后经过3
×
3的卷积核,步长为1,特征图大小为13
×
13
×
128;最后经过1
×
1的卷积核,得到最终的特征图13
×
13
×
11。
49.由于是近距离的人体检测算法,人体距离摄像头距离很近,人体个数较少(不多于五人),而且人体面积占据整个图片较大比例,针对此场景,最终的特征图可以看做是13
×
13的网格,维度是11;如果某个物体的中心落在这个网格中,则这个网格就负责预测这个物体。
50.在本步骤中,一个网格预测出一个类别信息和二个候选框(bounding box),每个候选框要预测物体的坐标信息(x,y,w,h)和confidence(置信度)共5个值。其中,x表示预测物体中心点横坐标,y表示预测物体中心点纵坐标,w表示预测物体的宽度,h表示预测物体的高度。
51.步骤400,用非最大抑制去除冗余候选框,得到最终的人体信息。
52.本发明的近距离人体检测方法,获取一个检测图片,首先将检测图片经过拥有超大卷积核的网络划分成13
×
13的网格,对于每个网格,预测2个目标窗口,故一共预测出13
×
13
×
2个目标窗口;最后用非最大抑制去除冗余候选框得到最终的人体信息。本发明由于包含超大卷积核模块,网络学习能力强,能保证网络轻量化的同时学习到更好的特征。
53.本发明由于超大卷积核拆分为小卷积核的组合,且模型大量使用1
×
1卷积核,因此模型的参数量并未大幅度上升,计算的复杂度较低。相较于普通小卷积核,超大卷积核的使用使模型拥有几乎整个图片的感受野,能够提取更优的特征,从而提高整个图片人体检测的准确率。
54.本发明的方法通过对应用场景的分析,针对近距离的单人场景,通过特征提取网络的重新搭建和超大卷积核的使用,能够提高近距离的人体检测场景下人体检测的精度和速度。
55.实施例二
56.如图9所示,本发明提供一种基于超大卷积核的近距离人体检测的系统,包括:图片获取模块、特征提取模块、预测模块和去冗余候选框模块;
57.所述图片获取模块,用于获取检测图片;
58.所述特征提取模块,用于将检测图片输入特征提取网络中,进行特征提取,得到特征图;
59.所述特征提取网络采用slak网络;所述slak网络结构,包括:stem模块、res2模块、res3模块、res4模块、res5模块;res2模块、res3模块、res4模块、res5模块的重复个数依次为2、3、5、2;
60.所述预测模块,用于将输出的特征图,依次输入一个3
×
3的卷积层和一个1
×
1的卷积层,预测出一个类别信息和二个候选框;
61.所述去冗余候选框模块,用于用非最大抑制去除冗余候选框,得到最终的人体信息。
62.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献