一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种轻量的无先验框的目标检测系统

2022-07-02 13:45:54 来源:中国专利 TAG:


1.本发明涉及深度神经网络领域以及目标检测领域,具体涉及一种轻量的无先验框的目标检测系统。


背景技术:

2.随着yolo系列目标检测网络的不断更新,例如yolo4、yolo5以及yolox等基于预选框将目标检测的map不断提高,领域内将研究的重点逐渐从致力于提高map的anchor based的网络结构转向了anchor free的目标检测网络。centernet(zhou,xingyi and wang,dequan and krahenbuhl,philipp,“objects as points,”in arxiv preprint arxiv:1904.07850,2019.)将目标框的检测转化为中心点以及宽高的预测,其单单使用一个特征层,在颈部结构使用三个上采样卷积得到(128,128)的特征层进而使用1*1的卷积核分别预测热力图,中心点以及宽高。然而centernet的颈部结构仅使用三个上采样,没有能够利用多尺度的信息进而提高对于不同大小的目标的检测效果。2021年在ieee计算机视觉以及模式识别会议上公开的yolof网络(chen,qiang and wang,yingming and yang,tong and zhang,xiangyu and cheng,jian and sun,jian,“you only look one-level feature,”in ieee conference on computer vision and pattern recognition,2021.),在同样使用一个特征层进行预测的情况下得到更高的map。在yolof的颈部结构中,串联了4个不同膨胀系数的空洞卷积,使得用于头部结构预测的特征包含了多尺度信息,提高了目标检测的map。然而yolof仍然是一个anchor based的目标检测网络,对于特殊大小的目标使用设定的anchor尺寸会影响检测结果。


技术实现要素:

3.为解决上述技术问题,本发明提出一种轻量的无先验框的目标检测系统。
4.本发明至少通过如下技术方案之一实现。
5.一种轻量的无先验框的目标检测系统,包括特征提取网络以及预测模块,
6.所述特征提取网络为深度卷积网络,使用深度卷积网络对输入图像进行特征提取;
7.所述预测模块包括目标检测网络模型,在目标检测网络模型的颈部结构中使用空间金字塔空洞卷积结构优化目标检测任务,最后输出预测结果。
8.在目标检测网络模型的颈部结构中使用空间金字塔空洞卷积结构优化目标检测任务,使特征更适合目标检测任务进而提高目标检测的平均准确率map以及每秒处理帧数fps,最后输出预测结果。
9.进一步地,所述目标检测网络模型是无先验框网络,检测结果不受预先设置的先验框约束,对位置物体有更好的检测结果。
10.进一步地,所述特征提取网络选用mobilenet3。
11.进一步地,mobilenet3使用a*a的卷积进行特征升维,使用深度可分离卷积代替标
准卷积降低模型参数,并引入压缩激励模块。
12.进一步地,所述预测模块的输入为特征提取网络输出的特征图,并在目标检测网络模型的颈部结构中使用空间金字塔空洞卷积结构。
13.进一步地,所述空间金字塔空洞卷积结构的流程为:首先经过a*a卷积升维,再并联不同膨胀系数的空洞卷积在获取到不同大小感受野,接着将得到不同的膨胀系数的特征以及预测模块的输入堆叠并经过eca模块进行特征增强,最后经过若干卷积层得到预测结果。
14.进一步地,所述并联不同膨胀系数的空洞卷积是在yolof网络的编码器上进行优化。
15.进一步地,yolof的编码器结构为串联多个膨胀系数不同的空洞卷积,且每个空洞卷积的前后均使用a*a的标准卷积减低通道数后再提升通道数。
16.进一步地,eca模块是赋予每一特征层一个大小为0-1的权重,使用eca模块将se模块使用的全连接层计算权重替换为一维卷积计算权重。
17.进一步地,所述深度卷积网络选用shufflenet、resnet、efficientnet。
18.与现有的技术相比,本发明的有益效果为:
19.本发明的一种轻量的无先验框的目标检测系统,选用mobilenet3作为骨架结构;提出了一个能够结合多尺度特征的颈部结构,同时该颈部结构通过空间金字塔结构避免了重复计算,并使用了eca模块增强了模型的注意力;使用centernet网络的头部结构实现anchor free的目标检测,得益于以上的创新点,在2007voc数据集上该系统的fps达到132.8,map达到69.89%,远高于centernet网络选用mobilenet3作为骨架结构并保持原颈部结构与头部结构时的94.9fps,map与centernet网络选用mobilenet3作为骨架结构并保持原颈部结构与头部结构时的69.20%map相近;且高于选用mobilenet3作为骨架结构,yolof的串联空洞卷积作为颈部结构的129fps,58.36%map。
附图说明
20.图1为实施例一种轻量的无先验框的目标检测系统流程图;
21.图2为实施例通过视觉传感器获取的待检测图片;
22.图3为实施例的解析模块得到的目标框信息;
23.图4为实施例的检测结果图;
24.图5为实施例的map统计结果图;
25.图6为使用centernet原颈部结构的检测结果图;
26.图7为实例预测模块的颈部结构。
具体实施方式
27.下面结合附图和实施例对本发明的具体实施做进一步的说明。
28.实施例1
29.一种轻量的无先验框的目标检测系统包括视觉传感器模块、特征提取网络、预测模块以及解析模块;所述视觉传感器模块是通过视觉传感器获取目标场景的二维图像并作为后续模块的输入数据;
30.所述特征提取网络使用mobilenet3深度卷积网络对输入图像进行特征提取;
31.所述预测模块是对提取得到的特征针对目标检测任务进一步优化,使特征更适合目标检测任务进而提高目标检测的平均准确率map以及每秒处理帧数fps。
32.所述预测模块将特征提取网络得到的特征作为颈部结构的输入,在颈部结构中使用空间金字塔的并联结构避免重复计算,并使用不同膨胀系数的空洞卷积在获取到不同大小感受野的同时不增加模型的参数;在空间金字塔空洞卷积之后使用eca模块进行特征增强;同时该目标检测系统是无先验框网络,减少了训练网络需要的人工通过聚类等方式获取先验框的步骤,进而也减少了解析先验框带来的额外计算量。空间金字塔膨胀卷积的颈部结构如附图7所示。
33.所述预测模块包括目标检测网络模型,目标检测网络模型是无先验框(anchor free)网络,检测结果不受预先设置的先验框约束,对位置物体有更好的检测结果。
34.选用mobilenet3作为骨架结构来提取特征,使用1*1的卷积进行特征升维,加强模型的表征能力;使用深度可分离卷积代替标准卷积,减少了模型参数,加快了模型推理时间;引入了压缩激励模块(se模块,squeeze and excitation)使得更有效的特征层对目标检测结果有更大的影响。结合以上特点使得选用mobilenet3作为特征提取骨架达到在减少参数量的同时加强了模型的表征能力。
35.所述的选用空间金字塔的并联结构避免了重复计算,并使用不同膨胀系数的空洞卷积在获取到不同大小感受野的同时不增加模型的参数。该结构在yolof网络的编码器基础上进行优化,yolof的编码器结构为串联4个膨胀系数不同的空洞卷积,且每个空洞卷积的前后均使用1*1的标准卷积减低通道数后再提升通道数,并联的空间金字塔则避免不同膨胀系数的空洞卷积前后的1*1标准卷积的重复计算,并加快网络在多核设备上的运行速度,同时加入恒等映射捷径保证模块的有效性。相比不同卷积核大小的标准卷积,不同膨胀系数的空洞卷积在同样能获取不同大小感受野的同时不增加目标检测网络模型的参数。
36.在空间金字塔空洞卷积之后使用eca模块进行特征增强,eca与se模块均是赋予每一特征层一个大小为0-1之前的权重,加强有效特征层对目标检测结果的影响,一种轻量的无先验框的目标检测系统中使用eca代替se使得se模块使用的全连接层计算权重替换为一维卷积计算权重,可以进一步降低模型的参数量,并实现相同的注意力机制,在效果相近的情况下减少了全连接层带来的参数量和计算量,使得该目标检测系统更加轻量化。
37.不同膨胀系数代表着不同大小的待检测物体,所述的堆叠不同膨胀系数的特征层并经过eca模块过程,则可以赋予关注的目标其大小所对应特征层更大的权重,使网络能更好的检测出该目标。
38.所述一种轻量的无先验框的目标检测系统的实现方法如图1所示,包括以下步骤:
39.首先是视觉传感器模块,该模块是通过视觉传感器获取目标场景的二维图像并作为后续模块的输入数据,该模块获取的目标场景待检测的二维图像如图2所示。
40.待检测的二维图像作为特征提取网络的输入,首先经过尺寸的调整,再将其进行特征提取,并将提取后的特征作为预测模块的输入,得到目标框的信息。本系统将输入的图像尺寸调整为(512,512),并使用mobilenet3作为骨架,对输入的图像进行特征提取;在颈部结构中使用空间金字塔空洞卷积的并联结构避免了串联结构需要使用1*1的卷积进行维度调整带来的重复计算,并使用不同膨胀系数(比如膨胀系数为1、2、3、4)的空洞卷积(而不
选用不同大小卷积核的普通卷积)在获取到不同大小感受野的特征图,同时不增加模型的参数;在空间金字塔空洞卷积之后使用eca模块(高效通道注意力模块,efficient channel attention)进行特征增强,可以加强对应目标物体大小的那个特征层对结果的影响。经过预测模块可以得到目标框的置信度、中心点以及长宽信息,如图3所示。
41.最后经过解析模块,该模块则是对预测模块得到的目标框的置信度、中心点以及长宽信息进行恒等映射使其适应输入图片的尺寸,使用带置信度的检测框更形象表现在二维图像上。结果如图4所示。系统会将该结果展现在结果检测显示设备上。
42.对比原centernet网络(同样选用mobilenet3作为骨架,对比被系统的颈部结构的性能提升)的检测结果图,本系统得到的检测结果包含多尺寸的目标,由此可见本系统设计的颈部结构能够更好的结合多尺度信息,在fps提升的情况下,得到更全面的检测结果。
43.此外,若需要应用于全新的应用场景,则需要对该系统的模型参数进行更新,并对更新后的模型性能进行评估,评估指标为map,如图5所示。图5中,纵轴为voc数据集包含的待检测目标分类,横纵为网络对各类物体的评卷准确率,map则是对各类的平均准确率求平均值的结果。若map值表现良好,则表明更新的模型可以有效完成目标检测任务。
44.在2007voc数据集上该系统的fps达到132.8,map达到66.79%,高于centernet网络选用mobilenet3作为骨架结构并保持原颈部结构与头部结构时的94.9fps;高于选用mobilenet3作为骨架结构,yolof的串联空洞卷积作为颈部结构的129fps,58.36%map。
45.实施例2
46.首先是视觉传感器模块,该模块是通过视觉传感器获取目标场景的二维图像并作为后续模块的输入数据,该模块获取的目标场景待检测的二维图像如图2所示。
47.待检测的二维图像作为特征提取网络的输入,首先经过尺寸的调整,再将其进行特征提取,并将提取后的特征作为预测模块的输入,得到目标框的信息。本系统将输入的图像尺寸调整为(512,512),并使用经典骨架提取特征,可以选用shufflenet、resnet、efficientnet等。选用不同的网络对目标检测系统的map以及fps值有一定的影响;在颈部结构中使用空间金字塔空洞卷积的并联结构避免了串联结构需要使用1*1的卷积进行维度调整带来的重复计算,并使用不同膨胀系数的空洞卷积(而不选用不同大小卷积核的普通卷积)在获取到不同大小感受野的特征图,同时不增加模型的参数;在空间金字塔空洞卷积之后使用eca模块进行特征增强,可以加强对应目标物体大小的那个特征层对结果的影响。经过预测模块可以得到目标框的置信度、中心点以及长宽信息。
48.最后经过解析模块,该模块则是对预测模块得到的目标框的置信度、中心点以及长宽信息进行恒等映射使其适应输入图片的尺寸,使用带置信度的检测框更形象表现在二维图像上。结果如图4所示。系统会将该结果展现在结果检测显示设备上。
49.实施例3
50.首先是视觉传感器模块,该模块是通过视觉传感器获取目标场景的二维图像并作为后续模块的输入数据,该模块获取的目标场景待检测的二维图像如图2所示。
51.待检测的二维图像作为特征提取网络的输入,首先经过尺寸的调整,再将其进行特征提取,并将提取后的特征作为预测模块的输入,得到目标框的信息。本系统将输入的图像尺寸调整为(512,512),并使用mobilenet3作为骨架,对输入的图像进行特征提取;在颈部结构中使用空间金字塔空洞卷积的并联结构避免了串联结构需要使用1*1的卷积进行维
度调整带来的重复计算,并使用不同膨胀系数的空洞卷积(而不选用不同大小卷积核的普通卷积)在获取到不同大小感受野的特征图,同时不增加模型的参数;在空间金字塔空洞卷积(spd模块)之后,对得到的5个张量结果对应位置取极大值,结果与任一张量保持维度相同。进行特征增强,可以加强对应目标物体大小的那个特征层对结果的影响。经过预测模块可以得到目标框的置信度、中心点以及长宽信息。
52.最后经过解析模块,该模块则是对预测模块得到的目标框的置信度、中心点以及长宽信息进行恒等映射使其适应输入图片的尺寸,使用带置信度的检测框更形象表现在二维图像上。结果如图4所示。系统会将该结果展现在结果检测显示设备上。
53.上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献