基于YOLOv3改进的复杂环境下的行人检测方法及装置与流程

2022-03-09 02:06:19 来源：中国专利 TAG：

技术特征：
1.一种基于yolov3改进的复杂环境下的行人检测方法，其特征在于，所述方法包括：准备数据集，并进行数据增强模拟复杂环境下的数据；搭建yolov3改进网络模型；对所述yolov3改进网络模型进行训练；使用训练最佳模型对行人进行检测。2.根据权利要求1所述的方法，其特征在于，所述准备数据集，并进行数据增强模拟复杂环境下的数据，包括：准备yolo网络所需图像和标签数据，得到训练集；对所述训练集进行数据增强，具体包括：选择mixup数据增强，将所述训练集中随机两张图片进行数据混合，利用线性插值将两张图片按照不同的权重混合生成新图像，新样本的标签由原来标签混合而来。3.根据权利要求2所述的方法，其特征在于，所述新图像满足下述关系式：(x
n
,y
n
)＝λ(x
i
,y
i
) (1-λ)(x
j
,y
j
)式中，(x
n
,y
n
)为新图像，λ∈[0,1]，其取值符合beta分布β(α，α)，参数α满足α∈(0，∞)；(x
i
,y
i
)和(x
j
,y
j
)是从需要增广数据中随机抽取的两个样本。4.根据权利要求1至3任一项所述的方法，其特征在于，所述搭建yolov3改进网络模型，包括：对yolov3主干进行改进，将darknet53替换为efficientnet-b0；对efficientnet网络进行了优化，将efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉，分别输出经过主干网络5次，4次，3次下采样后的部分，将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测；在检测头部分加入空间池化金字塔模块，并采用三种不同的池化核对输出特征图分别进行池化，将池化后的三个特征图和原始输入进行通道合并，其中最大池化核的尺寸分别为5*5，9*9，13*13，对输入填充的大小padding为：padding＝(kernel
size-1)/2使用diou算法作为边界损失函数，其中diou的计算公式如下：diou＝iou-(ρ2(b,b
gt
))/c2l
diou
＝1-diou式中：b,b
gt
分别代表了预测框和真实框的中心点，且ρ代表的是计算两个中心点间的欧式距离；c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离，l
diou
则作为边界框损失函数；soft-nms的计算公式如下：式中，m为当前得分最高框，b
i
为待处理框，当b
i
和m的重叠度超过重叠阈值n
t
时，检测框的检测分数呈线性衰减，与m相邻很近的检测框衰减程度很大，而远离m的检测框并不受影响；使用k-means 算法来进行聚类，随机选中第一个聚类中心，之后通过选取远离这个聚类中心的点作为一个新的聚类中心，依次类推，选取出多个框作为模型的anchor值，通过上
述方法，k-means 能够有效的加速模型收敛。5.根据权利要求1至3任一项所述的方法，其特征在于，所述对所述yolov3改进网络模型进行训练，包括：图片输入尺寸设置为608大小，初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失，通过损失函数来进行反向传播更新网络中的各种参数，经过多次迭代后损失值会趋于稳定，将此时的网络参数保存为模型。6.一种基于yolov3改进的复杂环境下的行人检测装置，其特征在于，所述装置包括：采集模块，用于准备数据集，并进行数据增强模拟复杂环境下的数据；搭建模块，用于搭建yolov3改进网络模型；训练模块，用于对所述yolov3改进网络模型进行训练；检测模块，用于使用训练最佳模型对行人进行检测。7.根据权利要求6所述的装置，其特征在于，所述采集模块，具体用于：准备yolo网络所需图像和标签数据，得到训练集；对所述训练集进行数据增强，具体包括：选择mixup数据增强，将所述训练集中随机两张图片进行数据混合，利用线性插值将两张图片按照不同的权重混合生成新图像，新样本的标签由原来标签混合而来。8.根据权利要求7所述的装置，其特征在于，所述新图像满足下述关系式：(x
n
,y
n
)＝λ(x
i
,y
i
) (1-λ)(x
j
,y
j
)式中，(x
n
,y
n
)为新图像，λ∈[0,1]，其取值符合beta分布β(α，α)，参数α满足α∈(0，∞)；(x
i
,y
i
)和(x
j
,y
j
)是从需要增广数据中随机抽取的两个样本。9.根据权利要求6至8任一项所述的装置，其特征在于，所述搭建模块，具体用于：对yolov3主干进行改进，将darknet53替换为efficientnet-b0；对efficientnet网络进行了优化，将efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉，分别输出经过主干网络5次，4次，3次下采样后的部分，将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测；在检测头部分加入空间池化金字塔模块，并采用三种不同的池化核对输出特征图分别进行池化，将池化后的三个特征图和原始输入进行通道合并，其中最大池化核的尺寸分别为5*5，9*9，13*13，对输入填充的大小padding为：padding＝(kernel
size-1)/2使用diou算法作为边界损失函数，其中diou的计算公式如下：diou＝iou-(ρ2(b,b
gt
))/c2l
diou
＝1-diou式中：b,b
gt
分别代表了预测框和真实框的中心点，且ρ代表的是计算两个中心点间的欧式距离；c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离，l
diou
则作为边界框损失函数；soft-nms的计算公式如下：式中，m为当前得分最高框，b
i
为待处理框，当b
i
和m的重叠度超过重叠阈值n
t
时，检测框
的检测分数呈线性衰减，与m相邻很近的检测框衰减程度很大，而远离m的检测框并不受影响；使用k-means 算法来进行聚类，随机选中第一个聚类中心，之后通过选取远离这个聚类中心的点作为一个新的聚类中心，依次类推，选取出多个框作为模型的anchor值，通过上述方法，k-means 能够有效的加速模型收敛。10.根据权利要求6至9任一项所述的装置，其特征在于，所述训练模块，具体用于：图片输入尺寸设置为608大小，初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失，通过损失函数来进行反向传播更新网络中的各种参数，经过多次迭代后损失值会趋于稳定，将此时的网络参数保存为模型。

技术总结
本公开提供一种基于YOLOv3改进的复杂环境下的行人检测方法及装置。所述方法包括：准备数据集，并进行数据增强模拟复杂环境下的数据；搭建YOLOv3改进网络模型；对所述YOLOv3改进网络模型进行训练；使用训练最佳模型对行人进行检测。本公开的基于YOLOv3改进的复杂环境下的行人检测方法，对YOLOv3的主干网络进行了改进，同时在输出特征层方面进行了改进，实现了高分辨图像下对行人的检测，提高了算法识别精度，解决了在复杂环境下行人互相遮挡，尺寸不一导致大量目标漏检的问题。不一导致大量目标漏检的问题。不一导致大量目标漏检的问题。

技术研发人员：曹利蒲李丹阳陈岩磊张澈杨继明田长风王军陈婷婷李涛
受保护的技术使用者：北京华能新锐控制技术有限公司
技术研发日：2021.11.19
技术公布日：2022/3/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于浅深皮层双路径构架的卷积神经网络模型压缩优化方法与流程

基于YOLOv3改进的复杂环境下的行人检测方法及装置与流程

相关文献

最热文献