一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于YOLOv3的乘客检测模型的改进方法,及模型训练方法与流程

2021-10-22 22:04:00 来源:中国专利 TAG:模型 方法 检测 乘客 改进

一种基于yolov3的乘客检测模型的改进方法,及模型训练方法
技术领域
1.本发明涉及人工智能和目标检测研究领域,具体涉及一种基于yolov3的乘客检测模型的改进方法,及模型训练方法。


背景技术:

2.客流数据的有效获取,既能够帮助管理者合理地进行规划管理和运营调度,同时也能改善公共交通服务质量,减少乘客等待时间和拥挤的乘车体验,提高乘客的满意度。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:随着城市智慧交通的不断推进以及深度学习技术的不断发展,越来越多的智能手段应用于客流数据统计,目前大多数智能化客流统计,都是对乘客进行局部检测,提取的特征信息十分有限,对乘客的检测容易被其他因素干扰,提供的数据维度也比较单一。基于人脸识别的客流统计,在实际的乘车场景中,会有乘客佩戴口罩或者帽子,脸部被遮挡,此时系统无法识别出该乘客,造成客流统计遗漏。基于俯视的角度识别乘客的头和肩进行客流统计,无法对乘客特征和属性进行多维度识别,因此不能很好的区分乘客和物体,无法获得精准的乘客人数。公共交通场景较为复杂,乘客之间距离较近,且乘客外观服饰等对检测的干扰也较大,如何提高客流统计的精度是亟需解决的问题。


技术实现要素:

3.为了克服现有技术的不足,本公开实施例提供了一种基于yolov3的乘客检测模型的改进方法,及模型训练方法,通过将mobilenetv3与yolov3框架的有效结合,对mobilenetv3结构中添加注意力感知模块,提高有效特征的权重,从而提高模型客流统计的精度;技术方案如下。
4.第一方面,提供了一种基于yolov3的乘客检测模型的改进方法,所述方法包括:
5.选用mobilenetv3作为框架的主干网络,并对整体网络结构进行了修改,在最后两个降采样的卷积操作后面加上注意力感知模块,所述注意力感知模块具体内容如下:
6.在每个特征图上计算出特征值的均值x
mean
,获取当前特征图的最大特征值x
max
和最小特征值x
min
;设置分段i
max
=(x
max-x
mean
)/θ1,i
min
=(x
mean-x
min
)/θ2,其中θ1、θ2为分割因子,取值范围为开区间(0,10)之间的正整数;对特征图上的每个特征值f进行权重w
f
计算,具体公式如下:
[0007][0008]
其中δ为设定的初始权重,δ∈(0,1),且δ≥0.1
×
θ2,
[0009]
得到每个特征图中每个特征值f的权重,即获得与特征图维度相同的权重矩阵,将特征图与权重矩阵进行点乘,其结果作为此模块的输出。
[0010]
优选的,所述对整体网络结构进行了修改,还包括,将图像尺寸压缩为176
×
144后
作为网络输入,将网络的第一个步长设为1,来减少图像下采样的次数,使得图像在经过更深的网络层时能够保留更多特征。
[0011]
进一步的,所述对整体网络结构进行了修改,具体网络参数如表1所示:
[0012]
表1网络参数表
[0013][0014]
优选的,所述对整体网络结构进行了修改,修改后的网络进行了两次检测,分别是在16倍降采样和8倍降采样,主干网络的最后一个注意力感知层的输出对应8倍降采样,最后一个卷积层的输出对应16倍降采样,对16倍降采样的特征图进行上采样后,再与8倍降采样的特征图进行融合。
[0015]
优选的,替换所述上采样层为解码层,所述解码层依次包括反卷积操作和注意力感知模块。
[0016]
优选的,所述图像为通过安装在车门对面的摄像头获得,为乘客上车时的正视图像。
[0017]
第二方面,提供了一种基于yolov3的乘客检测模型的模型训练方法,该方法包括,采用图像集对通过上述所有可能的实现方法中任一项所述的一种基于yolov3的乘客检测模型的改进方法得到的模型进行训练。
[0018]
优选的,在整个模型的训练阶段采用focal loss作为目标判断的损失函数,采用giou作为目标框回归的损失函数,
[0019]
focal loss公式为:
[0020]
其中α为平衡因子,γ为调节因子
[0021]
giou的公式为:
[0022]
其中i和u分别为预测框b
pred
与标签b
gt
的交集和并集,a
pred
为b
pred
的面积,a
gt
为b
gt
的面积,a为包含b
pred
和b
gt
的最小边界框的面积。
[0023]
总的损失函数为:其中与β为两个损失函数的权重系数。
[0024]
优选的,所述训练采用的图像集为通过安装在车门对面的摄像头获得,即获取乘客上车时的正视图像作为检测算法训练集的原始输入,训练集标签的制作原则是,标出乘客在图像中显示出来的上半身区域。
[0025]
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过将mobilenetv3与yolov3框架的有效结合,对mobilenetv3结构中添加注意力感知模块,提高有效特征的权重,从而提高模型客流统计的精度;同时还具有如下优点:
[0026]
(1)提高客流统计的精度;
[0027]
(2)对精准的客流od提供更加全面的特征信息;
[0028]
(3)能够辅助公安系统进行人物追踪;
[0029]
(4)此方法可在移动端进行部署,对配置要求较低。
附图说明
[0030]
图1为本公开实施例提供的一种基于yolov3改进后的乘客检测模型的主干网络结构图。
[0031]
图2为本公开实施例提供的另一种基于yolov3改进后的乘客检测模型的主干网络结构图。
具体实施方式
[0032]
为了阐明本发明的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。
[0033]
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0034]
以下采用在公共交通车辆车门处采集客流为本技术实施例的示例性应用场景,本技术实施例提供了一种基于yolov3的乘客检测模型的改进方法。当然本发明的使用场景不限于在公共车辆车门处采集客流的情况,还包括有着同样模式的商场门口,景点入口等。
[0035]
第一方面:本公开实施例提供了一种基于yolov3的乘客检测模型的改进方法,图1为本公开实施例提供的一种基于yolov3改进后的乘客检测模型的主干网络结构图,结合改图,改进方法具体包含如下内容。
[0036]
本公开实施例中,检测算法是基于yolov3的框架,然而yolov3的主干网络参数过多,不利于移动端的部署和开发。因此,选用mobilenetv3作为框架的主干网络,并对整体网络结构进行了修改,在最后两个降采样的卷积操作后面加上注意力感知模块,提高特征图中与目标相关区域的特征权重;所述注意力感知模块具体内容如下。
[0037]
在每个特征图上计算出特征值的均值x
mean
,获取当前特征图的最大特征值x
max
和最小特征值x
min
;设置分段i
max
=(x
max-x
mean
)/θ1,i
min
=(x
mean-x
min
)/θ2,其中θ1、θ2为分割因子,取值范围为开区间(0,10)之间的正整数,θ1、θ2值决定每个分段的特征值范围;对特征图上的每个特征值f进行权重w
f
计算,具体公式如下:
[0038][0039]
其中δ为设定的初始权重,δ∈(0,1),且δ≥0.1
×
θ2,δ和θ的取值可根据具体应用场景需求进行更改。
[0040]
得到每个特征图中每个特征值f的权重,即获得与特征图维度相同的权重矩阵,将特征图与权重矩阵进行点乘,其结果作为此模块的输出。
[0041]
通过注意力感知模块,可以提高目标相关特征的重要性,减少无关特征的干扰。之所以选择在降采样卷积操作后面添加,是因为后面的多个非采样卷积能够进一步从加权后的特征图中提取出更加有效的特征;没有选择在网络前面的降采样卷积后面添加,则是由于此时的特征图只经过少量网络层,特征信息判别性不够强,计算出的权重矩阵不具代表性。
[0042]
优选的,所述对整体网络结构进行了修改,还包括,将图像尺寸压缩为176
×
144后作为网络输入,相比原始的244
×
244的输入尺寸,此方法能够提高模型运行效率;将网络的第一个步长设为1,来减少图像下采样的次数,使得图像在经过更深的网络层时能够保留更多特征。
[0043]
进一步的,所述对整体网络结构进行了修改,具体网络参数如表1所示:
[0044]
表1网络参数表
[0045][0046]
优选的,所述对整体网络结构进行了修改,修改后的网络进行了两次检测,分别是在16倍降采样和8倍降采样,主干网络的最后一个注意力感知层的输出对应8倍降采样,最后一个卷积层的输出对应16倍降采样,对16倍降采样的特征图进行上采样后,再与8倍降采样的特征图进行融合,这样在多尺寸的特征图上获得的特征表达效果更好,并且特征包含的信息也更加全面。
[0047]
图2为本公开实施例提供的另一种基于yolov3改进后的乘客检测模型的主干网络结构图,替换所述上采样层为解码层,所述解码层依次包括反卷积操作和注意力感知模块,
原始结构的采用的是内插值算法,而本方法采用反卷积操作,该操作可以通过训练获得最佳的参数,从而较好地还原特征图,在反卷积后面添加一个注意力感知模块,进一步对还原的特征图做特征优化。
[0048]
每次检测输出对应3个锚框,两次检测的锚框尺寸不同,通过k-mean算法获得。
[0049]
优选的,所述图像为通过安装在车门对面的摄像头获得,为乘客上车时的正视图像。
[0050]
第二方面,提供了一种基于yolov3的乘客检测模型的模型训练方法,该方法包括,采用图像集对通过上述所有可能的实现方法中任一项所述的一种基于yolov3的乘客检测模型的改进方法得到的模型进行训练。
[0051]
优选的,考虑到公交乘车场景的复杂性,乘客之间遮挡较为严重,且图像中正负样本比列差距较大,在整个模型的训练阶段采用focal loss作为目标判断的损失函数,采用giou作为目标框回归的损失函数,
[0052]
focal loss公式为:
[0053]
其中α为平衡因子,可以较好地解决正负样本比例不均衡的问题,即平衡正负样本的重要性;γ为调节因子,能够减少较易分辨的简单样本的损失,使得模型更加关注于难以分辨的样本,通过设置不同的γ值,来控制简单样本权重下降的速率。
[0054]
giou的公式为:
[0055]
其中i和u分别为预测框b
pred
与标签b
gt
的交集和并集,a
pred
为b
pred
的面积,a
gt
为b
gt
的面积,a为包含b
pred
和b
gt
的最小边界框的面积。
[0056]
总的损失函数为:其中与β为两个损失函数的权重系数,在实际应用中可灵活调节。
[0057]
优选的,所述图像集为通过安装在车门对面的摄像头获得,即获取乘客上车时的正视图像作为检测算法训练集的原始输入,训练集标签的制作原则是,标出乘客在图像中显示出来的上半身区域。通过在前门对面布置摄像头的方式获取乘客正面的上车图像,再使用改进的yolov3检测算法根据图像中乘客上半身特征检测出乘客,乘客上半身特征包含更多维度信息,如头部、脸部、服饰纹理和色彩等,从而进一步提高乘客检出率。
[0058]
需要说明的是,上述实施例提供的一种基于yolov3的乘客检测模型的改进方法与一种基于yolov3的乘客检测模型的模型训练方法实施例属于同一构思,其具体实现过程详见模型的改进方法实施例,这里不再赘述。
[0059]
以上结合附图对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜