一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于轻量级YOLOV3的图像目标提取方法与流程

2022-02-20 00:48:34 来源:中国专利 TAG:

一种基于轻量级yolov3的图像目标提取方法
技术领域
1.本发明涉及目标检测领域,具体涉及一种基于改进yolov3的图像目标提取方法。


背景技术:

2.目标检测的任务是找出图像中所有感兴趣的目标,并确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战性的问题。
3.基于深度学习的目标检测算法主要分为两类:two stage和one stage。tow stage的网络先进行区域生成,该区域称之为region proposal,简称rp,即一个有可能包含待检物体的预选框,再通过卷积神经网络进行样本分类。常见tow stage目标检测算法有:r-cnn、spp-net、fast r-cnn、faster r-cnn和r-fcn等。one stage网络追求速度舍弃了two-stage架构,即不再设置单独网络生成region proposal,而是直接在特征图上进行密集抽样,产生大量的先验框。常见的one stage目标检测算法有:yolo、ssd和retinanet等。
4.其中yolo系列网络是one stage中最经典的算法。首先,yolo算法会提取出三个不同尺度的特征图,分别来进行大目标,中目标,小目标的检测,之后会在三个特征图上生成大量的先验框,再通过非极大值抑制算法对先验框进行挑选。相较于其他的网络,yolo系列的网络速度有了很大的进步,但是,在将yolo应用于嵌入式设备等低算力的设备处,会出现以下的问题:1、yolov3的主干网络darknet借鉴了resnet的思想,提高了网络的特征提取能力,但是也大大增加了网络的深度与参数,使得网络训练出的模型较大,无法部署到低算力的嵌入式设备上,加大了应用落地的成本。
5.2、yolov3的先验框机制增加了网络头部的复杂度,加大了网络的参数,同时,由于网络需要使用非极大值抑制算法对先验框进行筛选,所以模型在推理的时候会花费更多的时间。


技术实现要素:

6.发明目的:针对上述现有技术,提出一种基于轻量级yolov3的图像目标提取方法,大大减少传统yolov3网络的参数,使得训练出的模型更易部署到低算力的嵌入式设备上。
7.技术方案:一种基于轻量级yolov3的图像目标提取方法,包括:步骤1:构建轻量级yolov3网络;所述轻量级yolov3网络的主干网络包括一个cbl模块以及依次连接的若干res模块,所述cbl模块由1*1的点卷积、深度可分离卷积、bn层和leakyrelu构成,所述res模块包括连接的两个所述cbl模块;输入的图片经所述主干网络下采样和特征融合后输出三个尺度的特征图,所述下采样的倍数分别为8、16、32倍;在所述下采样倍数的情况下,通过调整所述res模块的数量来平衡网络的特征提取能力与网络参数数量;所述轻量级yolov3网络的head网络由三个conv卷积层构成,尺寸分别为:1*1*
cls、1*1*2、1*1*2,其中cls表示数据集的类别数;三个conv卷积层分别输出:数据集的每一类别目标的中心点坐标预测值、目标中心点的偏移量预测值、目标尺寸预测值,所述目标尺寸即指目标所在目标框的宽和高;步骤2:对所述轻量级yolov3网络进行训练;首先,对训练集图片进行标注,包括目标尺寸、目标的中心点坐标、目标的类别c;并根据标注信息计算得到网络输出的特征图尺寸、目标在特征图中的中心点坐标,其中,,表示向下取整,r表示下采样倍数;所述目标尺寸由图片中目标所在目标框的宽w和高h构成;然后,对目标的中心点周围以r为半径的像素圆进行高斯平滑处理,得到:其中,表示像素坐标处c类别的置信度,的值在0和1之间,为根据目标尺寸自适应得到的标准差;像素圆之外的置信度值均设为0;最后,使用高斯平滑处理的图像数据对网络进行训练;步骤3:将测试图片输入训练好的所述轻量级yolov3网络进行目标特征提取,网络输出每一类别目标的中心点坐标预测值、目标中心点的偏移量预测值、目标尺寸预测值,再根据如下公式解码出目标框左上角和右下角的坐标:其中,和分别表示目标尺寸的宽和高的预测值。
8.进一步的,所述步骤2中,若同一图片中存在两相邻目标,则分别以各目标为中心进行所述高斯平滑处理,两个像素圆交叠部分的各像素的置信度则对应取较大值。
9.进一步的,半径r由以下公式确定:其中,w和h为标注的目标所在目标框的宽和高;overlap为设定的阈值,表示偏移后的框与目标框的交并比。
10.进一步的,所述步骤2中,对网络进行训练中,采用的损失函数如下:其中,,为调节损失函数的系数,为损失函数值;为目标中心点的损失函数:
其中,n表示图片中目标的个数,表示c类别所在通道所有坐标点,表示坐标处c类别预测所得的置信度,和 表示超参数;为中心点偏移损失函数:其中,为目标的中心点坐标的简略表示,表示预测所得的目标中心点偏移量,为目标在特征图中的中心点坐标的简略表示;为目标尺寸的损失函数:其中, 为目标尺寸预测值。
11.有益效果:1、本发明对现有yolov3的主干网络结构进行改进,采用深度可分离卷积作为基本卷积块,并在深度可分离卷积之前引入一个用于升维的点卷积来加强对特征的提取能力,同时在保证同样的下采样倍数的前提下,引入残差连接,这样能大大减少网络的参数,使得训练出的模型更易部署到低算力的嵌入式设备上。
12.2、本发明采用预测目标中心的方式来实现对目标的检测,相较于现有的yolov3,减少了网络头部所需要的参数以及复杂度,同时由于不再有大量的先验框,网络在推理的时候不需要使用非极大值抑制算法,从而能够大大增加推理的速度。
附图说明
13.图1为本发明方法流程图;图2为本发明轻量级yolov3的主干网络结构图;图3为本发明轻量级yolov3中cbl模块的结构图;图4为本发明轻量级yolov3中res模块的结构图;图5为本发明轻量级yolov3中head网络的结构图;图6为本发明轻量级yolov3的完整结构图。
具体实施方式
14.下面结合附图对本发明做更进一步的解释。
15.如图1所示,一种基于轻量级yolov3的图像目标提取方法,包括:步骤1:构建轻量级yolov3网络。
16.轻量级yolov3网络的主干网络包括一个cbl模块以及依次连接的若干res模块,如图2所示。其中,cbl模块由1*1的点卷积、深度可分离卷积、bn层和leakyrelu构成,如图3所示。本实施例中,输入图片尺寸为608*608,经主干网络下采样和特征融合后输出76*76、38*
38、19*19三个尺度的特征图,即下采样的倍数分别为8、16、32倍。
17.res模块包括连接的两个cbl模块,如图4所示;通过加入res模块来引入残差连接,减少卷积层的简单重复,从而减轻网络的训练难度。在保证相同下采样倍数的情况下,可根据图片的特征复杂度,通过调整res模块的数量来平衡网络的特征提取能力与网络参数数量。具体的,图片较为复杂的时可增加res模块的数量来增加网络的特征提取能力,图片较为简单时可减少res模块的数量来减小网络的参数量和计算量。主干网络与yolov3网络的neck网络连接。
18.轻量级yolov3网络的head网络由三个conv卷积层构成,尺寸分别为:1*1*cls、1*1*2、1*1*2,其中cls表示数据集的类别数。head网络的三个conv卷积层分别输出:数据集的每一类别目标的中心点坐标预测值、目标中心点的偏移量预测值、目标尺寸预测值。本实施例中,三个conv卷积层输出尺寸分别为:19*19*cls、19*19*2、19*19*2;其中,目标尺寸即指目标所在目标框的宽和高。
19.与现有技术相比,当类别数为80时,现有技术中head网络计量为:76*76*255*128 38*38*255*256 19*19*255*1024=377057280(377mflops),采用本发明方案后计算量变为:76*76*84*128 38*38*84*256 19*19*84*1024=124207104(124mflops)。参数量由原来的255*128 255*256 255*1024=359040变为84*128 84*256 84*1024=11827。同时,相对现有技术,由于不需要生成大量的先验框,在网络推理的时候省去了进行非极大值抑制的时间,从而提高了网络推理的速度。
20.本发明构建的完整yolov3网络如图6所示。
21.步骤2:对构建的轻量级yolov3网络进行训练。
22.首先,对训练集图片进行标注,包括目标尺寸、目标的中心点坐标、目标的类别c;并根据标注信息计算得到网络输出的特征图尺寸、目标在特征图中的中心点坐标,其中,,表示向下取整,r表示下采样倍数;其中,目标尺寸由图片中目标所在目标框的宽w和高h构成。
23.为了使训练过程更顺利,对目标的中心点周围以r为半径的像素圆进行高斯平滑处理,得到:其中,表示像素坐标处c类别的置信度,的值在0和1之间,的值越大就代表越可能是要检测的目标;为根据目标尺寸自适应得到的标准差。
24.半径r由以下公式确定:其中,w和h为标注的目标所在目标框的宽和高;overlap为设定的阈值,表示偏移后的框与目标框的交并比,本实施例中设置为0.7。像素圆之外的置信度值均设为0。
25.若同一图片中存在两相邻目标,则分别以各目标为中心进行以上高斯平滑处理,
两个像素圆交叠部分的各像素的置信度则对应取较大值。
26.最后,使用高斯平滑处理的图像数据对网络进行训练。
27.本实施例中采用人脸数据进行网络训练,因此目标的类别c设置为2,即代表两类:一类是人脸,另一类不是人脸。对网络进行训练中,采用的损失函数如下:其中,,为调节损失函数的系数,本实施例设置为0.1和1;为损失函数值。
28.为目标中心点的损失函数:其中,n表示图片中目标的个数,表示c类别所在通道所有坐标点,表示坐标处c类别预测所得的置信度;和 表示可调整的超参数,本实施例中分别设置为2和4。
29.为中心点偏移损失函数:其中,为目标的中心点坐标的简略表示,表示预测所得的目标中心点偏移量,为目标在特征图中的中心点坐标的简略表示。
30.预测得到的目标中心点坐标是对应特征图的,通过网络预测所得的目标中心点偏移量能够将预测得到的目标中心点坐标映射回原图。
31.为目标尺寸的损失函数:其中, 为目标尺寸预测值。
32.步骤3:将测试图片输入训练好的轻量级yolov3网络进行目标特征提取,网络输出每一类别目标的中心点坐标预测值、目标中心点的偏移量预测值、目标尺寸预测值,再根据如下公式解码出目标框左上角和右下角的坐标:其中,和分别表示目标尺寸的宽和高的预测值。
33.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献