一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进FCOS的道路场景多类别检测方法及系统与流程

2022-03-05 00:11:51 来源:中国专利 TAG:

基于改进fcos的道路场景多类别检测方法及系统
技术领域
1.本发明涉及图像处理和计算机视觉技术领域,特别涉及一种基于改进 fcos的道路场景多类别检测方法及系统。


背景技术:

2.无人驾驶系统主要包括环境感知、决策和运动控制三个模块,环境感知的结果直接作用于其他模块,是整个系统的核心。其中,基于道路环境感知下的目标检测算法的准确率和实时性直接影响无人驾驶车辆的安全性能。然而由于道路场景的特殊性,道路场景下存在尺度差异较大的目标,这对网络的多尺度表达能力有更高的要求,同时由于道路场景下视野较大,目标特征较为模糊,如何在保持检测算法实时性的情况下提取更加显著的特征并提高算法检测精度,成为无人驾驶领域的热点问题。
3.与传统图像处理方法相比,基于深度学习的道路场景目标检测算法凭借其更高的检测精确度与强鲁棒性,逐渐成为主流。根据候选框的生成规则,目标检测可以分为基于候选区域的双阶段目标检测算法和基于目标回归的单阶段目标检测算法。其中以fast r-cnn双阶段目标检测算法,需要首先提取roi区域,后进行目标检测,复杂的网络结构限制了其实时性的提升,难以用于满足道路场景下目标检测的实时性要求。ssd、yolo系列以及 retinanet等单阶段算法应运而生,由于单阶段算法无需提取roi区域,仅由单个网络实现分类和候选框回归功能,因此拥有较好的实时性。
4.但是由于单阶段算法需要手工设计锚定框(anchor)以提取局部特征进行密集预测,不可避免地需要引入大量锚定框相关超参数,增加了算法的复杂度。因此,以fcos为代表的无锚定框凭借更优的锚定框表达方式而快速兴起。fcos提出以中心点和中心点到包围框四条边的距离预测包围框的方法,简化了锚定框的生成方式,免除了手工设计锚定框大小、长宽比等超参数,简化了模型,并提高了检测精度。
5.但fcos算法应用于道路场景下多目标检测时,由于各类目标样本不均衡,特征提取网络无法提取各类别目标最优的特征,且其检测精度仍存在提升空间。同时,由于道路场景下目标尺寸跨越较大,fcos算法中的多尺度策略难以适应道路场景下的多尺度目标检测。此外,尽管fcos算法的 center-ness子网络提升了整体的运行速度,然而也由于结构简单,导致预测中心点恰好为真值框中心点的概率极低,对剔除低质量的候选预测框有显著效果,然而却无法保证与真值框有最高iou的候选预测框有最高中心度。


技术实现要素:

6.有鉴于此,本发明提供一种基于改进fcos的道路场景多类别检测方法及系统。
7.一种基于改进fcos的道路场景多类别检测方法,包括如下步骤:
8.s1、数据集预处理:根据道路场景下待检测目标的不同,将kitti数据集中类别进行合并;
9.s2、特征提取与融合:使用resnet-50网络进行特征提取,并对原fcos 算法采用的
特征金字塔网络fpn算法的多尺度策略进行改进,新增p2层,放大最低层特征,并融合p3层语义信息,增加网络的多尺度表达能力;
10.s3、针对道路场景各类别之间特征模糊的问题以及检测时出现偶然性误差的情况,使用特征退化策略与重检测策略,完成对多任务输出子网络head 的检测,同时从边框回归分支获得目标预测边界框(bounding box,bbox) 输出;
11.s4、使用直接表示预测框定位精度的交并比(intersection over union, iou)预测值代替中心度center-ness预测值对分类分数进行约束,并将iou 预测分支添加在边框回归分支上,构成iou预测子网络,预测框与真值框的 iou值越大则认为其定位质量越高;
12.s5、通过共享卷积层的参数,并通过非极大值抑制nms完成后处理操作得到最终结果。
13.在本发明所述的基于改进fcos的道路场景多类别检测方法中,
14.所述步骤s1包括:
15.s11、类别合并:对kitti数据集中类别进行合并,合并策略为小型客运汽车car、厢式货车van、皮卡车truck、有轨电车tram合为一类,记为 car;行人pedestrian、坐轮椅的行人person_sitting合为一类,记为行人类别 person;骑自行车的行人cyclist自成一类;忽略杂项misc和用于表示该区域没有被标注的dontcare。
16.s12、图像大小调整:对kitti数据集中的所有图像进行调整,使所有图像最短边小于第一预设值,最长边小于第二预设值。
17.在本发明所述的基于改进fcos的道路场景多类别检测方法中,
18.所述步骤s2包括:
19.s21、对于resnet-50网络:采用resnet-50网络进行特征提取,resnet-50 采用残差结构,其内部的残差块使用跳跃连接;对输入的图像,进行多次卷积和下采样操作逐级减小特征图分辨率;
20.步骤s22、跨尺度改进策略进行特征融合:提出am-fpn(amplificationof fpn)跨尺度改进策略,将骨干网络输出层数由3层上升为4层,得到了包含更多极小目标特征的高分辨率的c2层,并融合p3层的语义信息得到更利于检测极小目标的p2层;将道路场景下待检测目标划分成6类,大小为 {(0,32],[32,64],[64,128],[128,256],[256,512],[512, ∞)}的目标分别在{p2,p3,p4,p5,p6,p7}层上进行检测。
[0021]
在本发明所述的基于改进fcos的道路场景多类别检测方法中,
[0022]
所述步骤s3包括:
[0023]
s31、特征退化策略:所述特征退化策略为每个类别单独设计分类特征提取分支,通过h
×w×
256的卷积层提取各类别差异特征,h指通道高度、w指通道宽度、256指通道数;在每个分类特征上仅进行其对应的类别分类任务得到h
×w×
1的特征层,之后将各类别分类结果融合得到最终的道路场景目标分类任务,得到h
×w×
3的特征层;
[0024]
s32、重检测策略:所述重检测策略为在原有h
×w×
256卷积层的基础上并联h
×w×
256卷积层,对各类别分类特征进行多次分类,并结合多次分类的结果减小偶然性误差,进行两次检测的计算公式为:
[0025]
[0026]
式中x1,x2为两次检测计算中两个分类网络的输出,f(x1,x2)为类别预测结果:
[0027]
s33、边框回归分支获得bbox输出:所述边框回归分支为提取am-fpn 每一层特征进行密集预测,从边框回归分支获得目标预测bbox输出;边框回归通过包围框的中心点坐标,及中心点到包围框的上下左右四条边的距离表示包围框。
[0028]
在本发明所述的基于改进fcos的道路场景多类别检测方法中,
[0029]
所述步骤s4中预测框与真值框的iou值越大则认为其定位质量越高的计算公式如下:
[0030][0031]
式中,a表示预测框,b表示真值框。
[0032]
在本发明所述的基于改进fcos的道路场景多类别检测方法中,
[0033]
所述步骤s5包括:
[0034]
s51、共享head网络部分卷积层的特征:所述特征共享策略将4个特征提取分支的前i层卷积层进行参数共享,i=1,2,3,仅使用(4-i)层卷积层用于提取差异性特征,弥补改进策略带来的实时性代价;
[0035]
s52、通过nms后处理操作滤除掉重复的预测框,保留效果最好的预测框,使得对每一个目标只得到一个预测框,得到最终结果。
[0036]
本发明还提供一种基于改进fcos的道路场景多类别检测系统,其通过如上述任一项所述的基于改进fcos的道路场景多类别检测实现。
[0037]
有益技术效果:本发明的基于改进fcos的道路场景多类别检测方法及系统相对于现有技术,基于fcos算法应用于道路场景下多目标检测时,由于各类目标样本不均衡,特征提取网络无法提取各类别目标最优的特征,提出特征退化结构,期望得到各类别目标最优的特征;为了消除fcos算法检测中出现的偶然性误差,提高算法检测精度,提出重检测结构,通过融合多个分类子网络的分类结果可以得到准确的更高、误差更小的分类结果;由于 fcos算法中的多尺度策略难以适应道路场景下的多尺度目标检测,提出跨尺度改进策略;fcos算法提出center-ness策略并不能完全正确地反映检测框质量,提出iou-better策略,在用于边框回归的特征图上使用iou预测网络替代center-ness网络,iou值为最终用于约束分类分数的指标;为了克服上诉基于道路场景的fcos改进策略增加网络的复杂性和计算量,导致算法实时性降低,提出参数共享策略,通过共享head网络部分卷积层的特征提升算法实时性。
附图说明
[0038]
图1是本发明实施例提供的基于改进fcos的道路场景多类别检测方法流程图;
[0039]
图2是本发明实施例提供的改进fcos算法框架示意图;
[0040]
图3是本发明实施例提供的跨尺度改进策略原理图;
[0041]
图4是本发明实施例提供的特征退化策略原理图;
[0042]
图5是本发明实施例提供的重检测策略原理图;
[0043]
图6是本发明实施例提供的iou预测子网络示意图;
[0044]
图7是本发明实施例提供的参数共享策略原理图。
具体实施方式
[0045]
本发明实施例提供的基于改进fcos的道路场景多类别检测方法的原理如图1所示,算法框架如图2所示。首先对使用数据集进行预处理,包括类别合并和图像大小调整。其次在特征提取与特征融合阶段,提出跨尺度改进策略,骨干网络新增包含更清晰小目标特征的c2层输出,融合p3层语义信息用于检测道路场景中的极小目标,在p2~p7层上检测不同尺度的道路场景目标,增加算法跨尺度检测性能。
[0046]
然后在head检测阶段,为了克服道路场景各类别之间特征模糊的问题,提出了特征退化策略,为每个类别单独设计分类特征提取分支,提取各类别差异特征。在每个分类特征上仅进行其对应的类别分类任务,完成分类任务后,将各类别分类结果融合得到最终的道路场景目标分类任务。同时为了加深网络对特征的理解能力,本发明实施例还提出了重检测策略,对各类别分类特征进行多次分类,并结合多次分类的结果减小偶然性误差,以此得到更准确的分类结果。
[0047]
由于fcos算法中的center-ness策略无法直接表示预测框定位精度,本发明实施例提出iou-better策略,删除原有center-ness分支,在定位特征上新增iou预测分支,使用可以直接表示预测框定位精度的iou预测值代替 centerness预测值对分类分数进行约束,同时由于使用定位特征对iou值进行预测,这也增加了分类网络与回归网络之间的关联性。
[0048]
此外,由于上述策略新增特征层与任务分支,带来了额外的超参数,使网络实时性下降。为了解决这一问题,本发明实施例还提出了特征共享策略,对各分类任务与回归任务的特征进行共享,仅使用一层卷积层提取差异特征,大大提高了算法的实时性。
[0049]
具体实施步骤如下:
[0050]
步骤s1数据集预处理
[0051]
选择kitti数据集作为道路场景下的目标检测数据集,并将数据集中的类别进行合并,然后对数据集中图像大小进行调整。
[0052]
步骤s11类别合并
[0053]
选择kitti数据集作为道路场景下的目标检测数据集,将训练集分成 10份,其中9份用作训练集,1份用作测试集,共7481张图片。kitti数据集中标注了九个类别的目标,分别为car、van、truck、pedestrian、 person_sitting、cyclist、tram、misc、dontcare。针对本发明提出算法的应用场景,对kitti数据集中类别进行合并,合并策略为car、van、truck、 tram合为一类,记为car;pedestrian、person_sitting合为一类,记为person; cyclist自成一类;忽略misc和dontcare。
[0054]
步骤s12图像大小调整
[0055]
对kitti数据集中的所有图像都进行了调整,使其最短边小于800,最长边小于1334。
[0056]
使用精度(precision,p)、召回率(recall,r)曲线、平均准确度(averageprecision,ap)、全类平均准确度[18,34](mean average precision,map)衡量算法性能,map值越高,表示检测性能越强,并使用每秒传输帧率(framesper second,fps)作为衡量算法实时性的指标。
[0057]
步骤s2特征提取与融合
[0058]
fcos算法采用基于fpn算法的跨尺度策略可以一定程度上解决检测目标尺度差异的问题。但是对于道路场景下的目标,由于场景特殊性,目标尺寸差异较大,存在极小目标与极大目标,使用原始fcos算法难以完成该场景下的多尺度目标检测任务。本发明实施例针对道路场景中存在极端目标的情况提出了(amplification of fpn,am-fpn),新增p2层,放大最低层特征,并融合p3层语义信息,增加网络的多尺度表达能力。
[0059]
步骤s21 resnet-50网络:resnet-50采用残差结构,其内部的残差块使用了跳跃连接,很好的抑制了在深度神经网络中增加深度带来的梯度消失问题或者爆炸现象。残差结构使用了relu激活函数,使得特征学习更加容易。对输入的图像,进行多次卷积和下采样操作逐级减小特征图分辨率。
[0060]
步骤s22跨尺度改进策略进行特征融合:本发明实施例针对道路场景中存在极端目标的情况提出了(amplification of fpn,am-fpn),新增p2层,放大最低层特征,并融合p3层语义信息,增加网络的多尺度表达能力如图3 所示。am-fpn策略将backbone网络输出层数由3层上升为4层,得到包含更多极小目标特征的高分辨率的c2层,并融合p3层的语义信息得到更利于检测极小目标的p2层。a-fpn依据目标大小将道路场景目标划分成6类,分别在不同尺度的特征图上进行检测,大小为{(0,32],[32,64],[64, 128],[128,256],[256,512],[512, ∞)}的目标分别在{p2,p3,p4,p5, p6,p7}层上进行检测。所述极小目标就是图片中的很小的目标,可以通过设置大小阈值来判断是否为极小目标,小于或等于大小阈值的即为极小目标。
[0061]
步骤s3分类与回归
[0062]
在head检测阶段,改进fcos算法为了克服道路场景各类别之间特征模糊的问题,提出了特征退化策略,为每个类别单独设计分类特征提取分支,提取各类别差异特征。在每个分类特征上仅进行其对应的类别分类任务,完成分类任务后,将各类别分类结果融合得到最终的道路场景目标分类任务。在类别预测分支采用r-detection进行重复检测,在原有h
×w×
256卷积层的基础上并联h
×w×
256卷积层。对各类别分类特征进行多次分类,并结合多次分类的结果减小偶然性误差,以此得到更准确的分类结果。同时提取am-fpn每一层特征进行密集预测,从边框回归分支获得目标预测bbox 输出。
[0063]
步骤s31特征退化策略
[0064]
考虑到道路场景下待检测目标可以合并为3类:car、person和cyclist。本发明基于此提出特征退化策略(feature degradation strategy,fds)如图 4所示,为每个类别单独设计分类特征提取分支,提取各类别差异特征。在每个分类特征上仅进行其对应的类别分类任务,完成分类任务后,将各类别分类结果融合得到最终的道路场景目标分类任务。
[0065]
步骤s32重检测策略
[0066]
在类别预测分支采用r-detection进行重复检测,以进行2次检测为例,如图5所示。在原有h
×w×
256卷积层的基础上并联h
×w×
256卷积层。对各类别分类特征进行多次分类,并结合多次分类的结果减小偶然性误差,以此得到更准确的分类结果。进行两次检测的计算公式为:
[0067]
[0068]
式中x1,x2分别为两个分类网络的输出,f(x1,x2)为类别预测结果。
[0069]
步骤s33边框回归分支获得bbox输出
[0070]
通过包围框的中心点坐标,及中心点到包围框的上下左右四条边的距离表示包围框。具体的,设第i个包围框的左上角的角点坐标为右下角的角点坐标为则fcos的边框回归子网络训练目标为:
[0071][0072]
其中,以l
*
表示当前中心点像素与包围框的左边框距离,r
*
表示右边框距离,t
*
表示顶部边框距离,b
*
表示底部边框距离。
[0073]
步骤s4 iou-better策略
[0074]
考虑到fcos算法中的center-ness策略无法直接表示预测框定位精度,本发明实施例提出iou-better策略,删除原有center-ness分支,在边框回归上新增iou预测分支,使用可以直接表示预测框定位精度的iou预测值代替center-ness预测值对分类分数进行约束。
[0075]
步骤s41 iou-better策略替代center-ness网络:
[0076]
在用于边框回归的特征图上使用iou预测网络替代center-ness网络,并删除center-ness网络分支,如图6所示。预测框与真实框的iou值是衡量包围框精度的唯一指标,同时也是用于nms后处理的指标,因此检测框的iou值可以直接反映检测框的质量。预测框与真值框的iou值越大则认为其定位质量越高,其计算式为
[0077][0078]
式中,a表示预测框,b表示真值框。
[0079]
步骤s42 iou预测分支添加在边框回归分支上
[0080]
在边框回归分支上新增iou预测分支。这一定程度上增加了iou值与边框回归的关联性,当iou值被用于约束分类分数时,也就增加了分类分数与包围框的关联性,使得目标检测结构更加合理。
[0081]
步骤s5特征共享策略获取预测结果
[0082]
上诉基于道路场景的fcos改进策略虽然可以提高目标检测的准确率,但是新增的特征层以及任务分支会增加网络的复杂性和计算量,使得算法实时性降低。基于此问题,本发明实施例提出特征共享策略(feature sharingstrategy,fss)如图1所示,通过共享卷积层的参数提升算法实时性。
[0083]
步骤s51共享head网络部分卷积层的特征:将4个特征提取分支的前i 层卷积层进行参数共享,仅使用(4-i)层卷积层用于提取差异性特征,通过融合上述改进方法,从而获取预测结果。
[0084]
步骤s52 nms后处理:首先将所有框的置信度排序,选中最高分及其对应的框。然后遍历其余的框,如果和当前得分最高的框的iou大于所设定的阈值,则将该框删除。最后从未处理的框中继续选择一个得分最高的,继续上述过程,直到每个类只保留一个得分最高的bbox。
[0085]
本发明基于控制变量法,在固定其余条件不变时分别验证跨尺度改进策略对克服道路场景中跨尺度目标检测困难的问题是否有效,特征退化与重检测策略能否提取并理解各类别更显著的特征,iou-better策略对算法检测性能的影响,共享参数策略对提高网络实时性的有效性。
[0086]
进一步的,在训练中使用随机梯度下降(sgd)优化器。学习率设置为 0.001,权重更新的动量设置为0.9。将批处理大小设置为1,并训练323184 次迭代,并在第161592和第242388次迭代时将学习率下降为0.0001和 0.00001。每6733次迭代保存每个网络临时模型,然后选取map值最高的模型作为最终评价结果。
[0087]
进一步的,仅使用am-fpn作为改进策略进行有效性验证,实验结果如表1所示。
[0088]
表1 am-fpn改进算法实验结果
[0089][0090]
由表1分析可得,虽然道路场景中相对较大的检测类别car的检测精度下降了1.4%,但是较小的检测类别person与cyclist的检测精度平均提高了 3.05%,最终本策略使得算法map提高了1.6%,显然am-fpn提升了算法的跨尺度检测能力。但是同样可以发现算法的检测速度下降,实时性降低了 10.3fps。
[0091]
进一步的,仅使用特征退化策略作为改进策略进行有效性验证,如图表 2所示。
[0092]
表2 fds改进算法实验结果
[0093][0094]
由表2分析可得,fds对各类别检测精度都有不同程度的提高,最终 map提高了1.5%,这是因为特征退化策略为每个检测类别提供了更显著的特征,使得检测任务更加轻松,显然fds达到了预期的效果。同时可以发现算法实时性下降了4.2fps,这是由于新增的特征提取分支带来的超参数影响。
[0095]
进一步的,在fds的基础上使用重检测策略作为改进策略进行有效性验证,本实验的baseline为应用了fds的fcos算法,检测次数m设定为2 次。实验结果如图表3所示。
[0096]
表3 r-detection改进算法实验结果
[0097][0098]
由表3分析可得,算法map提高了1%,显然r-detection策略是有效的。同时可以发现算法的实时性降低0.1fps,这是由于多次预测的卷积层参数带来的损失。
[0099]
进一步的,仅使用iou-better策略进行改进策略有效性验证,实验结果如图表4所示。
[0100]
表4不同约束指标检测性能分析
[0101][0102]
由表4分析可得,当不使用约束条件时,算法对所有类别的目标检测精度均最低。而center-ness策略通过约束分类分数,可以显著提高所有类别的检测精度,但是其没考虑到分类分数与包围框的关联性,仍有改进空间。 iou-better策略对目标检测精度的提升最大,各类别检测精度均得到最大幅度的提高,相较于center-ness策略,map达到了88.6%,提高了0.7%,显然本发明实施例提出的iou-better策略有效。同时算法的实时性降低了 0.1fps,这是由预测center-ness值或iou值的卷积层参数造成的实时性损失。
[0103]
进一步的,在使用上诉所有改进策略的基础上进行fss有效性验证。本发明根据共享参数的卷积层数量n的不同进行4组实验,n={0,1,2,3},其中 n=0即不使用fss,并以原始fcos算法为baseline,分别训练检测模型。实验结果如表5所示。
[0104]
表5fss改进算法实验结果
[0105][0106][0107]
由表5分析可得,fss在牺牲很小的精度的情况下,大幅提升算法实时性。特别当n=3时,虽然map降低了0.1%,但是其实时性提高了25.5%,虽然fss大幅提高了算法实时性,但是相较于原始fcos算法,实时性仍有待提高。
[0108]
进一步的,对各改进算法进行融合实验验证有效性,验结果如表6所示。
[0109]
表6改进算法融合实验结果
[0110][0111]
由表6分析可得,当将fds、r-detection与iou-better融合后,使算法 map提升了0.6%,将am-fpn加入融合实验。我们发现最终的car检测精度ap提高0.9%,person检测精度ap提高0.7%,cyclist检测精度ap提高 1.1%,算法map提高了0.9%。本发明提出的改进策略虽然可以得到最高的检测精度,但是相较于baseline,虽然检测精度map提升3.9%,但是fps 显著下降。对表6进行分析,显然am-fpn是造成算法实时性显著下降的原因。
[0112]
进一步的,本发明实施例将使用了所有改进策略的算法命名为 stronger-fcos,并提出faster-fcos即仅不使用多尺度策略,在其他改进策略的基础上使用n=3的特征共享策略。
[0113]
进一步的,将本发明实施例提出的stronger-fcos算法和faster-fcos 算法与其他典型算法进行对比分析,在设置了相同实验参数的情况下,实验结果如表7所示。
[0114]
表7 kitti数据集检测性能对比
[0115][0116]
由表7分析可得,本发明提出的我们发现faster-fcos算法相较于 stronger-fcos算法,虽然检测精度map下降了0.9%,但是实时性提升了 9.6fps,且相较于fcos算法,在map提升了3%的情况下,算法实时性提升了2.5fps。本发明实施例提出的stronger-fcos得到了最高的检测精度 91.8%,相较于原始fcos算法提高了3.9%,且保持了较高的实时性。
[0117]
以上,包括本发明实施例提供的基于改进fcos的道路场景多类别检测方法及系统不局限于具体实现实施方式,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献