一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于YOLOv3-SPP的人体行为识别方法及系统与流程

2021-10-23 02:06:00 来源:中国专利 TAG:识别 人体 方法 系统 深度

技术特征:
1.一种基于yolov3

spp的人体行为识别方法,其特征在于,包括以下步骤:步骤1,在yolov3网络中引入空间金字塔池化spp模块,构建基于yolov3

spp目标检测模型;步骤2,对斯坦福人类行为数据集stanford40预处理:从stanford40标注文件中面部动作、通过物体操纵进行面部动作、全身动作、与物体互动的身体动作以及与人体互动的身体动作这五类人体行为目标的标注信息,并将这五类标注信息转换为yolo的特征提取网络darknet框架下支持的格式;步骤3,依据stanford40中训练集图像分辨率,利用kmean聚类算法对步骤2中转换为darknet框架下支持的格式的标注信息框重新聚类,得到新的初始anchor box,并按照设定的锚框anchor box分配规则,为yolov3

spp目标检测模型中的每个检测尺度分配相应个数的锚框anchor box;步骤4,将stanford40中的训练集和验证集分别输入到yolov3

spp目标检测模型中进行检测模型的训练与评估;步骤5,利用步骤4训练后的yolov3

spp目标检测模型对测试视频进行检测,在视频的每一帧进行动作的识别,最后将检测结果重新拼接成视频。2.根据权利要求1所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤1具体包括如下步骤:步骤1.1,其中ssp模块由卷积核kernel size分别为1
×
1,5
×
5,9
×
9,13
×
13的四个并行池化层组成,将ssp模块集成在yolov3网络中第一个检测尺度的第5和第6个卷积之间;步骤1.2,完成构建基于yolov3

spp目标检测模型,实现不同尺度特征的融合。3.根据权利要求1所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤2具体包括如下步骤:步骤2.1,从stanford40标注文件中提取面部动作,通过物体操纵进行面部动作,全身动作,与物体互动的身体动作,与人体互动的身体动作这五类人体行为目标的标注信息步骤2.2,将步骤2.1中的五类行为标注信息写入以图片命名的xml文件中;步骤2.3,将stanford40数据集文件目录结构转化为形如pascal voc数据集文件目录结构。4.根据权利要求3所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤2.2具体包括如下步骤:步骤2.21,将步骤2.1中的五类行为标注信息写入以图片命名的xml文件中;步骤2.22设计代码按照如下公式:x
center
=(box
xmin
box
xmax
)/(2
×
picture—width)y
center
=(box
ymin
box
ymax
)/(2
×
picture_height)width=(box
xmax

box
xmin
)/picture_widthhight=(box
ymax

box
ymin
)/picture_height其中:x
center
为锚框x轴中心点坐标,y
center
为锚框的y轴中心点坐标;box
xmin
为锚框x轴坐标最小值;box
max
为锚框x轴坐标最大值;picture_width为原始图像的宽度;picture_height为原始图像的高度;width为锚框宽度;hight为锚框高度;将标注信息转换成darknet框架下的格式;
步骤2.23,检查转换后每个图片的txt标注框格式需为:<object

class><x_center><y_center><width><height>;其中:object

class为类别,x_center为锚框x轴中心点坐标,y_center为锚框的y轴中心点坐标;width为锚框宽度;hight为锚框高度。5.根据权利要求1所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤3具体包括如下步骤:步骤3.1,观察stanford40训练集标注框坐标信息分布,随机选取选择k个簇中心(ω
i
,h
i
),i∈{1,2
……
,k},其中,w
i
和h
i
为框的宽和高;步骤3.2,分别计算每个标注框和每个簇中心的距离d,计算公式如下:步骤3.3,重新计算k个簇中心所属的标注框宽和高的平均值,作为新的簇中心;步骤3.4,重复步骤3.2和3.3,当聚类中心不再改变时,输出聚类结果;步骤3.5,输出最后聚类结果;步骤3.6,分别为yolov3

spp目标检测模型中三个检测尺度分配2个、1个和6个anchor box;步骤3.6具体包括如下步骤:步骤3.6.1,调整yolov3

spp网络结构中所有yolo层filter数量;步骤3.6.2,更改配置文件中对应mask。6.根据权利要求1所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤4具体包括如下步骤:步骤4.1,采用imagenet数据集上预先训练好的模型参数darknet53.conv.74作为初始化权重以减少训练时间;步骤4.2,设置网络模型的训练超参数,得到基于yolov3

spp的行为目标检测模型;步骤4.3,将stanford40验证集中行车道路图片输入到基于yolov3

spp的行为目标检测模型中,得到基于yolov3

spp网络的行为目标检测模型的评估指标。7.根据权利要求6所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤4.2具体包括如下步骤:步骤4.21,设置网络模型的训练超参数;步骤4.22,将stanford40数据集中的图片作为训练输入;步骤4.23,进一步的利用darknet

53深度学习框架进行网络训练,当训练平均损失达到稳定值并且不再降低时得到基于yolov3

spp的行为目标检测模型。8.根据权利要求1所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤5具体包括如下步骤:步骤5.1,调整测试数据集图片分辨率为1280x720,然后输入到步骤4训练后的yolov3

spp目标检测模型中,进一步的,经过32倍下采样特征提取,最终网络输出三个尺度的特征图;步骤5.2,为每个尺度的每个网格分配不同anchor box进行检测;步骤5.3,针对重叠的检测框,通过nms算法抑制置信度较低和重叠率高于设定阈值的检测边框,得到最优检测框;步骤5.4,在待检测行为图片中用矩形框框出目标位置并标注所属类别。
9.根据权利要求8所述的一种基于yolov3

spp的人体行为识别方法,其特征在于,步骤5.2具体包括如下步骤:步骤5.21,为每个尺度的每个网格分配2、1、6个不同anchor box进行检测,每个anchor box预测包括4个边界框偏移量、1个置信度t0和c个检测目标类别,4个边界偏移量包括t
x
,t
y
,t
w
,t
h
;其中置信度定义如下:pr(object)表示该anchor box(锚框)中存在目标的概率,如果不包含目标,其值为0,表示预测边界框与真实边界框ground truth box的交并比:每一个网格都会预测c个类别概率,pr(class
i
|object)表示网格在包含目标条件下属于某个类别的概率,则预测bounding box属于类别的概率表示为:步骤5.22,根据预测的anchor box相对于标注框的偏移值,得到所预测的边界框的位置信息,计算公式如下:b
x
=σ(t
x
) c
x
b
y
=σ(t
y
) c
yy
σ(t0)=pr(object)*iou(b,object)其中,σ(t0)为预测定位框对应的置信度,是t
x
,t
y
经过sigmoid函数归一化值表示网格中心相对于网格左上角的横纵坐标b
x
,b
y
,b
w
,b
h
是最终输出的边界框。10.一种基于yolov3

spp的人体行为识别系统,其特征在于,包括:目标检测模型构建模块用于在yolov3网络中引入空间金字塔池化spp模块,构建基于yolov3

spp目标检测模型;stanford40预处理模块用于对stanford40预处理:从stanford40标注文件中面部动作、通过物体操纵进行面部动作、全身动作、与物体互动的身体动作以及与人体互动的身体动作这五类人体行为目标的标注信息,并将这五类标注信息转换为darknet)框架下支持的格式;检测尺度分配模块用于依据stanford40中训练集图像分辨率,利用kmean算法对步骤2中转换为darknet框架下支持的格式的标注信息框重新聚类,得到新的初始anchor box,并按照设定的anchor box分配规则,为yolov3

spp目标检测模型中的每个检测尺度分配相应个数的anchor box;检测模型的训练与评估用于将stanford40中的训练集和验证集分别输入到yolov3

spp目标检测模型中进行检测模型的训练与评估;动作识别模块利用步骤4训练后的yolov3

spp目标检测模型对测试视频进行检测,在视频的每一帧进行动作的识别,最后将检测结果重新拼接成视频。

技术总结
一种基于YOLOv3


技术研发人员:贠卫国 南星辰
受保护的技术使用者:西安建筑科技大学
技术研发日:2021.04.02
技术公布日:2021/10/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜