一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进Yolov3的获取道路交通信息方法与流程

2021-11-05 21:13:00 来源:中国专利 TAG:

基于改进yolov3的获取道路交通信息方法
技术领域
1.本发明涉及一种目标检测技术,特别涉及一种基于改进yolov3的获取道路交通信息方法。


背景技术:

2.随着计算机视觉相关技术的不断发展与创新,目标检测算法在自动驾驶领域取得了重大进展,行人、车辆、道路线等各类道路目标检测算法应运而生。此外,随着深度学习近年来的迅猛发展,越来越多的深度学习模型开始广泛应用于计算机视觉的各项技术中。
3.深度卷积神经网络由于能够自主完成对目标特征的学习,提取关键信息,因而具有较强的鲁棒性。近年来,基于卷积神经网络的深度学习得到迅速发展,主要分为两类:一类是r

cnn、fast r

cnn、faster r

cnn等基于目标候选框思想的two

stage检测算法,需要先使用启发式方法(selective search)或者cnn网络(rpn)产生region proposal,然后再在region proposal上做分类与回归,虽然精度很高,但速度非常慢。另一类是基于yolo(you only look once)、ssd(single shot multi

box detector)这类算法,其仅仅使用一个cnn网络直接预测不同目标的类别与位置,拥有更高的检测速度。但现有的yolov3模型提取的特征过于单一,导致在识别时的精准度不高。


技术实现要素:

4.本发明是针对深度卷积神经网络运用到视觉识别检测存在的问题,提出了一种基于改进yolov3的获取道路交通信息方法。
5.本发明的技术方案为一种基于改进yolov3的获取道路交通信息方法,具体包括如下步骤:
6.1)从已有道理交通信息图像中选取训练样本;
7.2)建立识别网络:主干网络是darknet

53网络,引入多尺度特征融合,选择输出为5种不同尺度的特征图,除顶层特征图外,其余特征图均融合相邻下层特征图的特征信息;
8.3)采用了非线性映射将步骤1)训练样本映射到高维度空间中,在高维度空间进行k

means值聚类计算,对样本进行优化,使用最终生成的聚类结果计算符合本网络模型使用的anchors值,获得新的anchors值,将新的anchors值替换原始yolov3模型中的数据集参数;
9.4)利用高斯分布特性对每个边界框进行损失函数计算,增加对边界框准确度的判断;
10.5)训练后的改进yolov3模型对车辆、行人和信号灯进行检测,得到检测结果。
11.优选的:所述步骤3)实现的具体方法如下:
12.采用了非线性映射θ,将样本p
i
,i=1,2,...,l映射到高维度空间g中,即样本为θ(p1),

,θ(p
i
),...,θ(p
l
),其中p
i
∈r
n
,i=1,2,...l;根据mercer定理存在映射:θ:r
n

r
g
使得核函数n(p
i
,p
j
)=θ(p
i
)
t
θ(p
j
);设在r
g
空间中,把样本分为k类,m
k
为第k类的均值,k=
1,2,...,k;在高维度空间进行k

means值聚类操作,将函数最优化,目标函数为:
[0013][0014]
其中,minj为最小化误差平方和;θ(p
i
)为高维度空间g中第i个样本;
[0015]
m
k
可由下式得到:
[0016]
l
k
为第k类的样本数;
[0017]
在核空间中,计算两个特征点的核距离:
[0018][0019]
将聚类得到的所有样本子集进行合并,则样本子集的并集中包含了k个目标类别计算其均值:
[0020][0021]
其中α为簇,α
k
为第k个质心,即簇的最小化j的最佳质心是簇中各点的均值;在核空间中,计算两个特征点的核距离,再将聚类得到的所有样本子集进行合并,则样本子集的并集中包含了k个目标类别计算其均值,计算任意两个类均值间的距离为:其中dist为任意两个类均值间的距离,代表任意两个不同类均值;
[0022]
若两个目标类别均值之间的距离小于预先设定的阈值,则将这两个目标类别合并为一个类;再继续通过上式计算类均值的距离,经过对样本子集的并集进行合并,得到最终的k

means值聚类结果;使用最终生成的聚类结果计算符合本模型使用的anchors值,将新的anchors值替换原始yolov3模型中的数据集参数。
[0023]
优选的:所述步骤4)实现的具体方法如下:从边界框坐标预测误差、边界框置信度误差、类别预测误差进行损失函数计算,预测目标的损失函数loss(object)公式表示为:
[0024][0025]
其中,s2表示图像的网格数;b表示每个网格中预测的边界框数;m表示总类别数;p
i
(c)表示第i个网格属于c类别的概率,c为类别序号,c=0,1,...,m;c为第i个网格的置信度得分,i为网格序号i=0,1,...,s2,j为边框序号,j=0,1,...,b;x
ij
代表第i个网格中第j个边界框中心点的横坐标,y
ij
代表第i个网格中第j个边界框中心点的纵坐标,w
ij
代表第i个网格中第j个边界框的宽度,h
ij
代表第i个网格中第j个边界框的高度,λ
coord
为确定边界框位置信息的权重系数,λ
noobj
为网格中没有目标时的惩罚权重系数,定义为,如果第i个网格中存在目标,则该网格的第j个边界框预测值对该预测有效,且取值为1,如果第i个网格
中不存在目标,则取值为0;定义为,如果第i个网格中不存在目标,则该网格的第j个边界框预测值对该预测有效,且取值为1,如果第i个网格中存在目标,则取值为0;定义为,如果第i个网格中存在目标,则取值为1;如果第i个网格中不存在目标,则取值为0;有上标^的值代表真实值,无上标的代表预测值;
[0026]
利用高斯分布特性改进损失函数,增加对边界框准确度的判断,以边界框中心点x方向坐标为例,修改后的边界框x坐标预测误差计算方法如下式:
[0027][0028]
式中,t
x
表示边界框中心点坐标相对于所在网格,输入图片分为w*h个网格,左上角x坐标的偏移量,w对应预测层中网格横方向的数目,h对应预测层中网格纵方向的数目,v对应先验框的数目,表示输出层第(i,j)个网格中第v个先验框的t
x
的均值;表示对应的t
x
的不确定性,表示t
x
的真值,γ
ijv
表示针对修改后边界框x坐标预测的权重系数,ε为常数项。
[0029]
优选的:所述步骤5)具体实现步骤如下:
[0030]
5.1)输入模型时,先自适应调整图像的尺寸,将图像调整为正方形,然后使用n*n大小的网格进行栅格化;
[0031]
5.2)每个单元格负责去检测那些中心点落在该格子内的目标,并对此目标进行位置预测和类别预测,当某个目标的中心点落入被划分出的n*n个网格中,则该网格将生成b个预测框对该目标进行检测,即每个网格有b个由anchors值预测生成的边界框以及表明该网格是否包含目标的置信度cs,以综合反映基于当前模型的边界框内存在目标的可能性和预测目标位置的准确性:
[0032][0033]
其中,pr(object)表示该网格内是否包含目标的中心点,包含则pr(object)=1;反之则pr(object)=0;是预测框与实际框的交并比,用于表征边界框的准确度;每个网格生成b个预测的边界框对网格中的目标进行检测,其中每个边界框包含5个参数(x,y,w,h,confidence),(x,y)表示边界框的中心点坐标,(w,h)表示边界框的宽和高,confidence表示预测边界框和该物体真实边界框的交并比,每个网格对应一个预测是否包含目标的置信度得分c
i
,其表达式为:
[0034]
c
i
=pr(class
i
|object)
[0035]
5.3)将每个边界框的5个参数用向量y
i
表示,具体表示为
[0036]
y
i
=(b
x
,b
y
,b
w
,b
h
,con)
[0037]
其中,(b
x
,b
y
)代表目标中心点的坐标,(b
w
,b
h
)代表网格对目标预测生成的边界框的宽和高,con代表该预测框总的置信度得分;
[0038]
5.4)完成对n*n个网格的预测后,将所有网格的参数进行汇总,输出整个图像的检测结果。
[0039]
本发明的有益效果在于:本发明基于改进yolov3的获取道路交通信息方法,通过k值聚类计算新的anchors值以替换原始yolov3数据集参数,从而提高了检测算法的准确性和鲁棒性;利用高斯分布优化损失函数,增加对边界框准确度的判断,在兼具检测速度的同时,还提高了检测精度。
附图说明
[0040]
图1是本发明基于改进yolov3的获取道路交通信息方法流程示意图;
[0041]
图2是本发明yolov3网络体系结构图。
具体实施方式
[0042]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0043]
如图1所示,本发明提供一种基于改进yolov3的获取道路交通信息方法,包括以下步骤:
[0044]
(1)样本数据准备
[0045]
从公开数据集apolloscape数据集中选取其中的图像,以训练集:测试集为2:1的比例进行训练,分别将训练集和测试集记为与其中tr表示训练集,te表示测试集,分别表示输入的训练集、测试集中第n个样本图像,分别表示训练集、测试集中第n个样本图像对应的标签,tr、te分别表示训练集、测试集数据集的数量。
[0046]
(2)多尺度特征融合
[0047]
其中darknet

53网络作为主干网络,一般的cnn特征提取网络采取层级的下采样结构,使用单尺度特征图进行检测与输出。为了使模型对小目标行人检测鲁棒性更高,引入了多尺度融合,选择输出为5种不同尺度的特征图,除顶层特征图外,其余特征图均融合相邻下层特征图的特征信息;
[0048]
(3)k

means值聚类计算,获得新的anchors值
[0049]
本发明的检测网络沿用k

means聚类的方法确定初始锚点框bbox的位置。k

means值聚类算法随机选取数个目标点,具体对象是训练集的边界框。这种方式在数据集足够大的情况下更贴近实际,特别是行人整体特征长宽比范围有一定特性;
[0050]
根据(1)中的tr训练集读取行人的宽度、高度作为待分类数据,并初始化聚类中心点,其坐标描述了矩形框的宽度、高度、计算聚类中心点与待分类数据所分别描述的矩形框的iou值(iou值是一种测量在特定数据集中检测相应物体准确度的一个标准),以1

iou的距离作为分类依据,最终得到9组的anchors值,其中包括预测中心点的坐标值,锚点框的宽度和高度以及预测目标的类别;
[0051]
[0052]
其中,s表示下标所示矩形框的面积;
[0053]
采用了非线性映射θ,将样本p
i
(i=1,2,...,l)映射到高维度空间g中,即样本为θ(p1),

,θ(p
i
),...,θ(p
l
),其中p
i
∈r
n
,i=1,2,...l。根据mercer定理存在映射:θ:r
n

r
g
使得核函数n(p
i
,p
j
)=θ(p
i
)
t
θ(p
j
)。设在r
g
空间中,把样本分为k类,m
k
为第k类的均值(k=1,2,...,k)。在高维度空间进行k

means值聚类操作,将函数最优化,目标函数为:
[0054][0055]
其中,minj为最小化误差平方和;θ(p
i
)为高维度空间g中第i个样本。
[0056]
m
k
可由下式得到:
[0057]
l
k
为第k类的样本数。
[0058]
在核空间中,计算两个特征点的核距离:
[0059][0060]
其中,n是核函数,n(p
i
,p
j
)=θ(p
i
)
t
θ(p
j
);
[0061]
将聚类得到的所有样本子集进行合并,则样本子集的并集中包含了k个目标类别计算其均值:
[0062][0063]
其中α为簇,α
k
为第k个质心。即簇的最小化j的最佳质心是簇中各点的均值。
[0064]
在核空间中,计算两个特征点的核距离,再将聚类得到的所有样本子集进行合并,则样本子集的并集中包含了k个目标类别计算其均值。计算任意两个类均值间的距离为:其中dist为任意两个类均值间的距离,代表任意两个不同类均值。
[0065]
若两个目标类别均值之间的距离小于预先设定的阈值,则将这两个目标类别合并为一个类;再继续通过上式计算类均值的距离。经过对样本子集的并集进行合并,得到最终的k

means值聚类结果;使用最终生成的聚类结果计算符合本模型使用的anchors值,将新的anchors值替换原始yolov3模型中的数据集参数。
[0066]
(3)在yolov3损失函数中利用高斯分布特性增加对每个边界框准确度的预测,以提升网络的精度。
[0067]
yolov3算法的损失函数主要从边界框坐标预测误差、边界框置信度误差、类别预测误差这三个方面考虑,其损失函数公式表示为:
[0068]
[0069]
其中,s2表示图像的网格数,b表示每个网格中预测的边界框数,m表示总类别数,p
i
(c)表示第i个网格属于c类别的概率,c为类别序号(c=0,1,...,m),c为第i个网格的置信度得分,i为网格序号(i=0,1,...,s2),j为边框序号(j=0,1,...,b);x
ij
代表第i个网格中第j个边界框中心点的横坐标,y
ij
代表第i个网格中第j个边界框中心点的纵坐标,w
ij
代表第i个网格中第j个边界框的宽度,h
ij
代表第i个网格中第j个边界框的高度,λ
coord
为确定边界框位置信息的权重系数,λ
noobj
为网格中没有目标时的惩罚权重系数,定义为,如果第i个网格中存在目标,则该网格的第j个边界框预测值对该预测有效,且取值为1;如果第i个网格中不存在目标,则取值为0。定义为,如果第i个网格中不存在目标,则该网格的第j个边界框预测值对该预测有效,且取值为1;如果第i个网格中存在目标,则取值为0。定义为,如果第i个网格中存在目标,则取值为1;如果第i个网格中不存在目标,则取值为0。loss(object)代表预测目标的损失函数。有上标^的值代表真实值,无上标的代表预测值。
[0070]
利用高斯分布特性改进损失函数,增加对边界框准确度的判断,以边界框中心点x方向坐标为例,修改后的边界框x坐标预测误差计算方法如下式:
[0071][0072]
式中,t
x
表示边界框中心点坐标相对于所在网格(输入图片分为w*h个网格)左上角x坐标的偏移量,w对应预测层中网格横方向的数目,h对应预测层中网格纵方向的数目,v对应先验框的数目,表示输出层第(i,j)个网格中第v个先验框的t
x
的均值;表示对应的t
x
的不确定性,表示t
x
的真值,γ
ijv
表示针对修改后边界框x坐标预测的权重系数,ε为常数项。
[0073]
(4)使用改进后的yolov3模型对车辆、行人和信号灯进行检测。
[0074]
(4.1)输入模型时,先自适应调整图像的尺寸,将图像调整为正方形,然后使用n*n大小的网格进行栅格化;
[0075]
(4.2)每个单元格负责去检测那些中心点落在该格子内的目标,并对此目标进行位置预测和类别预测。当某个目标的中心点落入被划分出的n*n个网格中,则该网格将生成b个预测框对该目标进行检测,即每个网格有b个由anchors值预测生成的边界框以及表明该网格是否包含目标的置信度cs(confidence score),以综合反映基于当前模型的边界框内存在目标的可能性和预测目标位置的准确性:
[0076]
其中,pr(object)表示该网格内是否包含目标的中心点,包含则pr(object)=1;反之则pr(object)=0;是预测框与实际框的交并比,用于表征边界框的准确度;
[0077]
每个网格生成b个预测的边界框对网格中的目标进行检测,其中每个边界框包含5个参数(x,y,w,h,confidence),(x,y)表示边界框的中心点坐标,(w,h)表示边界框的宽和高,confidence表示预测边界框和该物体真实边界框的交并比,每个网格对应一个预测是否包含目标的置信度得分c
i
,其表达式为:
[0078]
c
i
=pr(class
i
|object)
[0079]
(4.3)将每个边界框的5个参数用向量y
i
表示,具体表示为
[0080]
y
i
=(b
x
,b
y
,b
w
,b
h
,con)
[0081]
其中,(b
x
,b
y
)代表目标中心点的坐标,(b
w
,b
h
)代表网格对目标预测生成的边界框的宽和高,con代表该预测框总的置信度得分;
[0082]
(4.4)完成对n*n个网格的预测后,将所有网格的参数进行汇总,输出整个图像的检测结果。
[0083]
如图2所示,输入的图像分辨率调整为1280*720,首先对其尺寸自适应调整为416*416,然后使用n*n大小的网格进行划分,作为新的输入图像;
[0084]
将新的输入图像通过改进的yolov3网络,完成对n*n个网格的预测后,根据其网络输出结果,判断目标车辆、行人和信号灯所在位置,输出其构成的矩形框坐标值以及置信度分数,最后将所有网格的参数进行整理汇总,输出对整幅图像的检测结果;
[0085]
为了定量评估本发明改进yolov3算法在性能上的优越性,实验使用相同的数据集进行训练与测试,最终分析出各项性能测试结果如下表1。
[0086]
表1
[0087]
模型precisionrecallavg iouyolov376%72%72.89%改进yolov378%74%74.55%
[0088]
从表1的数据中可以看出,相比于原始的yolov3模型,本发明的改进的yolov3模型在准确度、召回率和平均iou值上均有提升。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献