一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于特征增强与多层级融合的YOLOv3目标检测方法

2022-09-03 20:25:02 来源:中国专利 TAG:

基于特征增强与多层级融合的yolov3目标检测方法
技术领域
1.本发明涉及计算机视觉技术领域,尤其是基于特征增强与多层级融合的yolov3目标检测方法。


背景技术:

2.目标检测作为图像处理和计算机视觉领域中的经典课题,在交通监控、图像检索、人机交互、机器人视觉、自动驾驶等方面有着广泛的应用。
3.由于各类物体有不同的外观、形状、姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。
4.从目前深度学习用于目标检的检测方法思路上来看,可以大致分为两类:
5.一类是一阶段目标检测(one stage)的方法:经过检测直接给出最终检测结果,其经典检测方法主要包含ssd,yolo系列等检测方法。
6.另一类是二阶段目标检测(two stage)的方法:首先产生候选区域,然后利用卷积神经网络对候选区域分类,其经典检测方法主要包括fast-rcnn,faster-rcnn等检测方法。
7.相比于two-stage检测方法,one-stage检测方法检测速度快,模型更小,可以更好的适应于工业生产及应用,也大幅提升了目标检测方法的计算效率。yolov3算法虽然检测速度快,但也存在着问题:如yolov3网络结构(如图1所示)较为简单,骨干网络部分特征获取能力较弱,鲁棒性较差,导致提取到的特征不够全面;并且特征融合部分也会丢失大量的位置信息,存在多尺度融合不充分,对小目标的检测效果不佳的问题。


技术实现要素:

8.本发明需要解决的技术问题是提供基于特征增强与多层级融合的yolov3目标检测方法,解决了现有技术中存在的问题,检测速度快,能够广泛应用于各行各业。
9.为解决上述技术问题,本发明所采用的技术方案是:
10.一种基于特征增强与多层级融合的yolov3目标检测方法,分别在骨干结构和特征融合部分对原有yolov3网络结构进行优化,包括以下步骤:
11.s1,骨干结构部分引入残差网络形成双分支骨干网络结构;
12.s2,双分支骨干网络结构的分支上引入空间可分离卷积形成基于特征增强的双分支骨干网络结构;
13.s3,建立多层级特征融合结构;
14.s4,在骨干结构改进基础上对特征融合部分进行改进,在特征融合部分特征金字塔结构中引入多层级特征融合结构并加入空洞卷积模块形成基于多层级特征融合的特征金字塔结构;
15.s5,进行训练测试,并进行可视化分析。
16.本发明技术方案的进一步改进在于:在s1、s2中,针对yolov3网络骨干结构特征提取不充分导致精度不高和鲁棒性较差的问题,在yolov3的骨干网络基础上构建基于特征增
强的双分支骨干网络结构,其约束条件包括:
17.1)引入残差网络形成双分支网络结构保留原有特征信息,丰富骨干网络对于图像特征信息提取的全面性,增强了骨干网络对于图像特征的提取能力;
18.2)针对双分支骨干网络分支结构中鲁棒性较差的问题,对分支网络再次改进,将空间可分离卷积模块加入分支网络结构中,利用不同尺寸的空间可分离卷积模块对分支结构中的两层特征层进行不同程度的特征细化,保证了分支特征细节信息的全面,并在空间可分离卷积模块后端加入bn层与leakyrelu层有效缓解了网络因参数量巨大而产生过拟合的现象,提高网络的鲁棒性。
19.本发明技术方案的进一步改进在于:针对图像位置信息定位能力不强,多尺度融合不充分,对小目标的检测效果不佳的问题,在修改骨干网络的基础上对网络的特征融合部分进行结构改进,提出了基于多层级特征融合的特征金字塔结构的算法,其约束条件包括:
20.a)提出多层级特征融合结构,利用深层有效特征层进行特征提取获取浅层特征信息,进行不同层级间的特征叠加,丰富了原有特征层上的位置信息,通过卷积进行特征整合与通道压缩进而与有效特征层特征进行特征融合,细化了图像特征,在特征层深度相同的情况下基于多层级特征融合结构特征层信息密度更大,所包含的位置信息更多,使得多层级特征融合结构的多尺度融合更为充分,增强图像位置信息定位能力;
21.b)针对原特征金字塔结构语义信息与位置信息交互不平衡问题,在特征金字塔引入多层级特征融合结构,并加入空洞卷积模块,提出基于多层级特征融合的特征金字塔结构,能够增大整体网络的感受野,保证浅层信息与深层信息交互的平衡性,提高了对小目标的检测效果。
22.由于采用了上述技术方案,本发明取得的技术进步是:
23.本发明在yolov3算法的骨干网络引入残差结构构建双分支结构进行特征提取,在残差分支网络结构运用空间可分离卷积模块进行特征细化;在特征融合部分改进为多层级特征融合的特征金字塔网络结构,利用特征整合与特征叠加的方式增强浅层信息与深层信息之间的信息流动,引入空洞卷积模块进一步解决深层语义信息与浅层位置信息获取不平衡的问题,使网络在检测精度上有更进一步的提升,并增强网络对图像位置的信息定位能力。
附图说明
24.图1为本发明实施例中yolov3网络原结构图;
25.图2为本发明实施例中残差网络示意图;
26.图3为本发明实施例中双分支骨干网络结构图;
27.图4为本发明实施例中基于特征增强的双分支骨干网络结构图;
28.图5为本发明实施例中空间可分离卷积示意图;
29.图6为本发明实施例中多层级特征融合结构图;
30.图7为本发明实施例中普通卷积示意图;
31.图8为本发明实施例中空洞卷积示意图;
32.图9为本发明实施例中基于多层级特征融合的特征金字塔结构图;
33.图10为本发明实施例中改进的yolov3网络结构图。
具体实施方式
34.本技术实施例通过提供一种基于特征增强与多层级融合的yolov3目标检测方法,解决了现有技术中yolov3算法存在鲁棒性差以及网络对图像位置信息定位能力弱的问题,分别在骨干结构和特征融合部分对原有yolov3网络结构进行优化,使yolov3网络在检测精度上有更进一步的提升,并增强yolov3网络对图像位置的信息定位能力。
35.下面结合附图及实施例对本发明做进一步详细说明:
36.基于特征增强与多层级融合的yolov3目标检测方法,包括以下步骤:
37.s1,针对yolov3算法的骨干网络特征提取不充分导致精度不高的问题,首先引入残差网络形成双分支骨干网络结构来进行特征提取,残差网络示意图如图2所示,双分支骨干网络结构如图3所示:
38.s2,针对特征增强的双分支骨干网络分支结构鲁棒性较差的问题,对双分支骨干网络再次改进,引入空间可分离卷积构建基于特征增强的双分支骨干网络结构,如图4所示;
39.利用不同尺寸的空间可分离卷积模块对双分支骨干网络分支结构中的两层特征层进行不同程度的特征细化,保证分支特征细节信息的全面;
40.加入bn层与leakyrelu层在空间可分离卷积模块后端缓解网络因参数量巨大而产生过拟合的现象,提高网络鲁棒性。
41.对于s2做消融实验,分析结果。
42.s3,在特征融合部分改进为多层级特征融合结构,如图6所示;
43.利用深层有效特征层进行特征提取获取浅层特征信息,进行不同层级间的特征叠加,丰富了原有特征层上的位置信息;
44.通过卷积进行特征整合与通道压缩进而与有效特征层特征进行特征融合,细化了图像特征,在特征层深度相同的情况下基于多层级特征融合结构特征层信息密度更大,所包含的位置信息更多,使得多层级特征融合结构的多尺度融合更为充分,增强图像位置信息定位能力。
45.不过在卷积神经网络中,浅层特征只能看到图片的细节和纹理信息,随着网络层数的加深,网络的感受野不断增大,才能感知到图片的整体信息,因此,感受野对于卷积网络尤为重要,多层级特征融合的特征金字塔结构虽然在浅层特征位置信息的获取以及对深层特征与浅层特征之间的信息交互均有所加强,但是充分的获取语义信息会导致网络特征图尺度的减小,图像虽有丰富的语义信息但也丢失了原有的位置信息。
46.所以采用空洞卷积代替普通卷积进行特征提取来增大网络的感受野从而提升对图像的位置信息定位能力,空洞卷积示意图如图7所示。
47.加入空洞卷积模块可以在不损失特征图尺寸的情况下,提升网络整体的图片分辨率,平衡深层特征的语义信息与浅层特征的位置信息,增强了整体网络对于图像位置信息定位的能力,精度达到更进一步的提升。
48.s4,在骨干网络改进基础上,在特征融合部分特征金字塔结构中引入多层级特征融合结构并引入空洞卷积进行浅层特征提取,提出基于多层级特征融合的特征金字塔结
构,如图8所示。
49.基于多层级特征融合的特征金字塔结构利用空洞卷积进行浅层特征提取。可以更好利用浅层特征的位置信息,并将语义信息与位置信息间进行充分融合,改进多尺度融合不充分的问题,提高对小目标的检测效果。
50.对于s4做消融实验,分析结果。
51.s5,进行训练测试,并进行可视化分析。
52.实施例:
53.基于特征增强与多层级融合的yolov3目标检测方法,包括以下步骤:
54.相关准备工作:
55.选择nvidia rtx geforce 1080ti,11g显存的显卡,intel core i7-6700k的处理器,ubuntu16.04 64位的服务器作为实验硬件设备搭建深度学习框架:pytorch1.5.0,下载numpy、pandas等软件包,选择python3.5.6语言;
56.选取voc2007 voc2012 coco部分数据集作为自己的数据集支撑;
57.对数据集做数据增强处理,具体方式如下:
58.增加高斯噪声,随机旋转,灰度化,随机剪裁等方式提高了训练的数据量,提高了网络对于图像检测的鲁棒性,如图8所示。
59.构建改进的yolov3网络结构:
60.s1,引入残差网络形成双分支骨干网络结构;
61.残差网络结构如图2所示,双分支骨干网络结构如图3所示。
62.保证分支结构特征图输出尺寸与骨干网络输出尺寸以及网络深度相一致可以进行特征融合,需通过下列公式计算出分支网络结构中所需的卷积核尺寸:
[0063][0064]
式中,x1代表输入图片的尺寸大小,x2代表输出得到的图片尺寸大小,f代表卷积核尺寸大小,p代表充零行的行数,s代表步长。
[0065]
输入尺寸为416
×
416的图片,选用尺寸为3
×
3的卷积进行特征提取,充零行为0,步长为2,卷积核数量为64经过特征提取后特征图尺寸变为208
×
208,特征图深度变为64。
[0066]
输出的特征图进行尺寸为3
×
3的卷积,其步长为2,卷积核数量为128,充零行为0,分支输出的特征图尺寸为104
×
104,其深度为128,与骨干网络输出特征图尺寸相当。
[0067]
将分支特征所提取到的特征与原骨干网络特征进行特征融合,增强骨干网络对于图像特征的提取能力。
[0068]
s2,在双分支骨干网络的分支结构引入空间可分离卷积形成基于特征增强的双分支骨干网络结构,如图4所示。
[0069]
空间可分离卷积本质上是将卷积核操作拆分成多个步骤。用y=conv(x,k)表示卷积操作,其中y为输出图像,x为输入图像,k为卷积核,而k可以用以下公式得出:
[0070]
k=k1.dot(k2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0071]
式中,k1和k2表示由k拆分的可分离卷积,所谓空间可分离卷积操作就是通过对k1和k2做两次一维卷积来代替k所作的一次二维卷积来取得相同的结果。其运算流程如图5所示。
[0072]
对于常规卷积操作是利用9次乘法进行一次卷积,而图中的空间可分离卷积是利用3次乘法进行两次卷积,在相同效果下,空间可分离卷积操作有效的降低了计算复杂度,使得网络运行速度更快。
[0073]
如图4结构所示,conv1与conv2为特征提取模块,conv1建立双分支结构,使粗糙的特征并行输入空间可分离卷积模块,空间可分离卷积模块尺寸分别为5
×
1和1
×
5,通过空间可分离卷积进行特征的细化,在送入到下一层卷积操作前进行特征融合。
[0074]
将细化后的特征送入bn层,防止数据过大引起网络性能的不稳定,导致网络落入饱和区,经过bn层后使得输出结果更加稳定,并且可以提升网络的训练速度。将输出特征输入到激活函数层,激活函数层选用的激活函数为leakyrelu,加快网络权重的更新。
[0075]
将细化后的特征输入到conv2进行特征提取,conv2的输出仍然建立双分支结构进行细化特征的并行运算,但考虑到此时的特征图尺寸已变为原来的一半,使用卷积尺寸分别为5
×
1与1
×
5的空间可分离卷积进行特征细化虽然可以提升特征细化的速度,但使用大尺寸卷积对小尺寸特征图进行特征细化会丢失特征细节信息,并且在特征图的细化程度上会有所下降,因此选用尺寸分别为3
×
1和1
×
3的空间可分离卷积进行特征细化;
[0076]
然后特征融合后的细化特征经过bn层与leakyrelu激活函数层。
[0077]
最后,将分支所提取到的特征与主干网络特征进行特征融合并输入到有效特征层,实现骨干网络的特征增强并提高鲁棒性。
[0078]
s3,建立多层级特征融合结构,如图6所示。
[0079]
对于有效特征层输入,多层级特征融合结构采用上、中、下三支路进行层级间的融合;
[0080]
下路分支通过卷积操作并进行通道数量压缩来提取各有效特征层的浅层特征信息,所提取的浅层特征有更高的分辨率与更强的位置信息定位能力。
[0081]
中路分支将有效特征层的深层特征信息与下路分支提取到的浅层特征信息进行特征叠加,叠加后的特征既包含深层特征丰富的语义信息也包含了浅层特征丰富的位置信息,此时的特征层通道数量为c1 c2。
[0082]
将中、下支路叠加后的特征进行卷积核尺寸为3
×
3的特征整合与通道压缩,利用特征整合将特征信息无序排列的多层特征转化为特征表征明显的有序特征,有利于检测网络部分进行解码预测,此时特征层通道数量为c1。
[0083]
将中、下支路整合后的特征信息与上支路特征进行特征融合,将融合特征进行回传用于与中下层有效特征层进行特征融合,此时的特征层信息包含了原有效特征层丰富的语义信息,也包含了经过多层级特征融合结构处理后的位置信息。
[0084]
最后将融合后的特征层深度进行通道数压缩并进行与有效特征层进行特征融合,为多尺度融合做准备,有效的改善了特征金字塔网络结构中不同尺度特征融合的质量,使得多层级特征融合结构的多尺度融合更为充分,增强对位置信息的定位能力。
[0085]
s4,利用空洞卷积进行浅层特征提取,空洞卷积示意图如图8所示(图7为普通卷积示意图),加入空洞卷积模块形成基于多层级特征融合的特征金字塔结构,如图9所示:
[0086]
对于空洞卷积的空洞率的设置需要经过一定的计算,防止输入输出特征图尺寸不对等的情况出现,空洞卷积的输入核输出特征图的尺寸的具体公式如下所示:
[0087][0088]
式中,p为充零行,d为扩张率,n为原卷积核尺寸,s为步长,z1和z2分别为输入和输出特征图的尺寸;
[0089]
设置步长为1及原卷积核大小为3
×
3,为保证输入输出尺寸相同,代入公式可以得出扩张率和充零行大小应该相同,设置为2;
[0090]
如图9所示,特征金字塔结构为一个由下向上的顺序结构,x1~x3分别表示网络中层、中下层、下层有效特征层,f1~f3表示经过多层级融合后的特征;
[0091]
对于x3,首先x31保留原下层有效特征层信息,x32进行空洞卷积操作(使尺寸变为52
×
52)的特征提取并压缩通道数获取浅层特征;
[0092]
将x31与x32所得到的特征进行特征叠加并采用卷积尺寸为3
×
3,通道数为128的卷积进行特征整合和通道压缩得到f3,f3的输出分为检测分支与融合分支,f3特征的检测分支对f3特征进行1
×
1的特征细化输入到网络的检测部分,f3融合分支传入中下层为尺寸特征融合做准备。
[0093]
对于x2,首先将x21的原中下层有效特征层信息与x22经过空洞卷积(使尺寸变为26
×
26)获取的浅层特征进行特征叠加,并进行卷积尺寸为3
×
3,通道数为256的特征整合与通道压缩得到f2;
[0094]
将f2特征与u23原有特征进行特征融合,f2检测分支对f2特征进行1
×
1的特征细化输入到网络的检测部分,f2融合分支传入中层为尺寸特征融合做准备。
[0095]
对于x1,首先,x11保留原下层有效特征层信息,x12进行空洞卷积操作(尺寸为13
×
13)的特征提取并压缩通道数获取浅层特征,将x11与x12所得到的特征进行特征叠加,并进行卷积尺寸为3
×
3,通道数为1024的特征整合得到f1;
[0096]
f1特征与x13原有特征进行特征融合。
[0097]
最后,f1特征的检测分支对f1特征进行1
×
1的特征细化输入到网络的检测部分。
[0098]
增大了整体网络的感受野,保证浅层信息与深层信息交互的平衡性,提高了对小目标的检测效果。
[0099]
对改进的yolov3网络结构(如图10所示)进行训练测试,并进行可视化分析。
[0100]
s5,进行训练测试,网络训练轮次(epoch)为120个轮次,冻结60个轮次,继而60至120轮次进行解冻训练,每批次样本数量batch size设置为8,解冻训练后,每批次样本数量batch size设置为4,得到map值进行分析。
[0101]
本发明使用平均精度(average precision,ap)、均值平均精度(mean average precision,map)进行评价和对比。均值平均精度(map)用来衡量目标检测的精确度,表示了算法在整个数据集上检测精确度的表现,具体公式如下所示:
[0102][0103]
式中,m代表数据集中物体类别总数。平均精度是评价算法对当前数据集中单个类别检测精度的评价指标。
[0104]
分析结果,本实施例的检测精度与原yolov3算法检测精度进行对比,精度对比如表1所示。
[0105]
表1精度对比表
[0106][0107][0108]
实验结果可视化分析:由可视化分析检测结果(参见表1)可知,在对单个目标检测,原yolov3算法易进行误检,比如sheep,置信度仅为0.62,改进的yolov3结构检测到
sheep置信度为0.83。说明改进的yolov3结构由于利用了充分的深层语义信息,因此没有漏检与误检,检测效果优于原yolov3算法。进行多目标检测时原yolov3算法对各类别的置信度很低,改进的yolov3结构所采取的多层级特征融合的特征金字塔结构加强了对浅层特征的高分辨率与信息定位能力的运用,在多目标检测中提升了置信度。对于小目标检测,原yolov3算法对左下角、右上角的小目标无法检测到,改进的yolov3结构对于角落的所有小目标全部都能检测到,说明改进的yolov3结构利用了扩展卷积增大了网络的感受野,对小目标与尺度变化较大目标检测效果最优。对于遮挡及部分缺失目标,原yolov3算法大多无法检测到,改进的yolov3结构可以大致全部检测到,说明改进的yolov3结构通过对浅层位置信息与深层语义信息的交互以及对粗糙特征的细化,检测效果优于原yolov3算法。
[0109]
实验结果表明,采用本发明的基于特征增强与多层级融合的yolov3目标检测方法在pascal voc数据集上与原yolov3算法相比精度提高了3.94%,达到了良好的效果。
[0110]
以上所述的实施仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献