一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种头部姿态定位与检测方法及其应用和系统与流程

2022-02-19 01:34:48 来源:中国专利 TAG:


1.本发明属于姿态检测技术领域,更具体地,涉及一种头部姿态定位与检测方法及其应用和系统。


背景技术:

2.头部姿态检测技术有着广泛的应用领域,例如:驾驶员疲劳状态检测、课堂注意力检测、协同表情识别等。一方面,虽然利用深度像机获取图像的深度信息可以使得头部姿态估计取得非常精确的结果,但在现实生活中,深度相机的成本较高,不具有普适性。另一方面,传统的头部姿态估计方法对于高质量图像或视频能够表现出较好的性能,但对于低分辨率图像或远场景下的人物头部姿态估计效果较差,实际中难以应用。
3.真实环境中伴随着光线强度的变化,光线的变化会对头部姿态估计产生一定的干扰。当图像或视频中的人物存在大范围的面部遮挡、较大角度的头部偏转时,传统基于机器学习的头部姿态估计方法很难检测出人物头部,故无法据此进行头部姿态估计。
4.深度学习方法在图像领域有着较优的表现,比机器学习方法更适用于真实场景下的头部姿态估计,具体表现在以下三点:(1)在低分辨率场景下展现出良好的鲁棒性;(2)对于场景中光线的变化不敏感;(3)可通过一定方法(如:生成式对抗网络)对于图像中存在的遮挡、偏转人像进行修复,从而提高预测准确率。
5.同时,深度学习方法在进行头部姿态估计任务时也存在一定的缺陷:就检测效果而言,头部姿态的估计效果直接受到模型质量好坏的影响;就时间开销而言,深度学习方法往往需花费大量时间进行模型训练,而在模型训练过程中,无关的背景因素会对训练造成干扰,拖慢了参数整体优化的速率。


技术实现要素:

6.针对现有技术的缺陷,本发明的目的在于提供一种头部姿态定位与检测方法及其应用和系统,旨在解决传统头部姿态估计中存在的问题(易受环境光线等客观因素,人物头部偏转、遮挡等主观因素影响),同时提升模型学习的速率。
7.为实现上述目的,第一方面,本发明提供了一种头部姿态定位与检测方法,包括如下步骤:
8.(1)获取待测头部姿态的图像集,并将所述图像集中的所有图像进行标准亮度转换,所述图像集包括图像数据中按照顺序排列的图像集合、或视频数据中按照帧列顺序排列的图像集合;
9.(2)将标准亮度转换后的所有图像分别利用人物检测模型、头部检测模型得到全身位置信息pa和头部位置信息ph,将所述全身位置信息pa和所述头部位置信息ph输入到预先构建的深度学习卷积神经网络中,转换得到两种位置信息的中间特征pa^和ph^;
10.(3)将所述两种位置信息的中间特征pa^和ph^按一定权重进行融合,根据融合后的特征p_site计算得到头部偏转欧拉角。
11.在其中一个实施例中,步骤(1),具体包括:
12.对于图像数据,直接将图像集中各图像的r、g、b三通道进行标准亮度转换为y单通道图像;对于视频数据,获取图像集中连续三帧图像,并将所述三帧图像中各图像的r、g、b三通道进行标准亮度转换,得到(y1,y2,y3)短时帧间关联的三帧亮度信息,其中,所述三帧图像中的中间帧图像亮度信息y2为基准亮度,前后两帧图像的亮度信息y1、y3为变换亮度。
13.在其中一个实施例中,步骤(1),还包括:
14.将获取的图像集进行预处理,并将预处理后的所述图像集中的所有图像进行标准亮度转换,其中,所述预处理包括旋转、镜像、校正对齐和去中心化裁剪中的一种或多种。
15.在其中一个实施例中,所述标准亮度转换公式为:y=sqrt(0.241*r^2 0.691*g^2 0.068*b^2)。
16.在其中一个实施例中,所述中间特征pa^和ph^融合公式为:
17.p_site=(0.4pa^

e (0.6ph^

e α))
18.其中,

表示元素之间的点乘;α是0常量矩阵;pa^

e表示将所述全身位置信息pa经所述深度学习卷积神经网络的卷积层运算后得到的中间特征、与所述深度学习卷积神经网络的全连接层的输入维度相统一;ph^

e表示将所述头部位置信息ph经深度学习卷积神经网络的卷积层运算后得到的中间特征、与所述深度学习卷积神经网络的全连接层的输入维度相统一。
19.在其中一个实施例中,所述深度学习卷积神经网络的工作流程为:
20.经过一层卷积层conv1,一层归一化处理bn1,线性单元修正relu,最大池化操作max

pooling,再经由四层上采样操作,对结果进行平均池化mean

pooling,再输送到全连接层中。
21.在其中一个实施例中,所述深度学习卷积神经网络采用upan数据集进行训练。
22.在其中一个实施例中,所述深度学习卷积神经网络的损失函数采用均方误差损失。
23.第二方面,本发明提供了一种上述所述的头部姿态定位与检测方法在驾驶预警、课堂注意力检测、儿童行为诱导中的应用。
24.第三方面,本发明提供了一种头部姿态定位与检测系统,包括:
25.图像集输入模块,用于获取待测头部姿态的图像集,并将所述图像集中的所有图像进行标准亮度转换,所述图像集包括图像数据中按照顺序排列的图像集合、或视频数据中按照帧列顺序排列的图像集合;
26.位置信息融合模块,用于将标准亮度转换后的所有图像分别利用人物检测模型、头部检测模型得到全身位置信息pa和头部位置信息ph,将所述全身位置信息pa和所述头部位置信息ph输入到预先构建的深度学习卷积神经网络中,转换得到两种位置信息的中间特征pa^和ph^;
27.深度学习模块,用于将所述两种位置信息的中间特征pa^和ph^按一定权重进行融合,根据融合后的特征p_site计算得到头部偏转欧拉角。
28.本发明提供的头部姿态定位与检测方法及其应用和系统,具有如下有益效果:1)将获取的图像集进行标准亮度转换可去除与头部姿态估计无关的颜色信息,同时亮度维度y由r、g、b三者线性组合而来,保留了原有维度的信息;2)人物检测模型和头部检测模型采
用不同的模型,提高了模型整体的健壮性;将两种模型得到的信息经由同一网络输出,保证了两种位置中间特征具有相同的空间结构;3)将两种位置的中间特征进行融合,融合后的位置特征保留了头部位置信息的精准性和全身位置信息的容错性,可提升模型的学习速率,减小头部姿态估计的角度偏差。
附图说明
29.图1为一实施例中头部姿态定位与检测方法的流程图;
30.图2为一实施例中头部姿态定位与检测系统的模块示意图;
31.图3为一实施例中头部姿态定位与检测系统的技术框图;
32.图4为一实施例中图像标准亮度的计算原理图;
33.图5为图4中图像标准亮度的计算流程图;
34.图6为一实施例中头部位置信息和全身位置信息融合的原理示意图;
35.图7为一实施例中教室场景下头部姿态估计示意图;
36.图8为一实施例中学生头部偏转角度曲线图;
37.图9为一实施例中背景差分获取到的人物位置信息图;
38.图10为一实施例中真实场景下的人物位置检测效果图;
39.图11为本发明提供的人脸检测模型(右)与dlib模型(左)真实场景下测试对比图;
40.图12为一实施例中动态头部边框调整(a)和模型注意力收敛(b)图;
41.图13为一实施例中数据集损失折线图;
42.图14为一实施例中消融实验探究示意图。
具体实施方式
43.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
44.为解决传统头部姿态估计中存在的问题(易受环境光线等客观因素,人物头部偏转、遮挡等主观因素影响),同时提升模型学习的速率,本发明提供了一种新的方案,其具体构成将在后续实施例中加以阐述。
45.请先参阅图1,图1是本发明一实施例提供的头部姿态定位与检测方法,可应用于驾驶预警、课堂注意力检测、儿童行为诱导等领域,包括步骤s10、步骤s20和步骤s30,详述如下:
46.s10,获取待测头部姿态的图像集,并将图像集中的所有图像进行标准亮度转换,图像集包括图像数据中按照顺序排列的图像集合、或视频数据中按照帧列顺序排列的图像集合。
47.s20,将标准亮度转换后的所有图像分别利用人物检测模型、头部检测模型得到全身位置信息pa和头部位置信息ph,将全身位置信息pa和头部位置信息ph输入到预先构建的深度学习卷积神经网络中,转换得到两种位置信息的中间特征pa^和ph^。
48.s130,将两种位置信息的中间特征pa^和ph^按一定权重进行融合,根据融合后的特征p_site计算得到头部偏转欧拉角,即头部偏转角度yaw、pitch、roll。
49.在一个具体的实施例中,实现上述发明目的的技术方案为:一种头部姿态定位与检测方法,包括如下步骤:
50.(一)获取待测头部姿态的图像或视频数据,亦可采用标准数据集中的图像,对获取到的人物图像进行本领域常用的数据预处理操作,比如背景裁剪、校正对齐、旋转、镜像和去中心化裁剪等;
51.(二)利用基于深度学习的人物检测模型(yolo v3),检测经步骤(一)预处理的图像,得到图像中人物的全身位置信息pa;利用基于深度学习的头部检测模型(mmod_human_face_detector),得到图像中人物的头部位置信息ph;同一图像中每个人物的位置信息pa、ph皆以坐标形式来表示,信息格式如下:
[0052][0053]
其中,n代表当前坐标所属人物的编号,pn代表图像中所有被检测出的人按照序号进行排列,(x1,y1,x2,y2)为包含人物全身或头部的矩阵框四个顶点的坐标。
[0054]
采用resnet 50作为骨干网络,将位置信息pa与ph作为特征输入,分别经由卷积层输出到全连接层中,卷积层输出的中间位置特征记作pa^与ph^。
[0055]
(三)将步骤(二)中得到的中间位置特征pa^、ph^,按照一定的权重比例融合,作为深度学习卷积神经网络中的最终位置特征(人物的全身位置信息pa^占有0.4的权重比,人物的头部位置信息ph^占有0.6的权重比),融入到网络全连接层的输入中,位置特征融合的具体计算公式如下:
[0056]
p_site=(0.4pa^

e (0.6ph^

e α))
[0057]
其中,p_site为经过加权计算后的人物位置信息,作为整合后的特征融入到resnet网络中;pa^、ph^为人物的全身与头部位置信息,

表示元素之间的点乘;pa^

e表示将pa经一次卷积运算后得到的中间位置特征与全连接层的输入维度相统一;ph^

e表示将ph经一次卷积运算后得到的中间位置特征与全连接层的输入维度相统一;α是0常量矩阵,其作用是防止在头部检测中因未检测到头部相关的信息而导致ph^为空值。
[0058]
(四)根据国际光电协议的图片亮度计算标准,计算步骤(一)中获取的视频中每一帧图片的亮度信息,在视频中取连续的三帧,以中间帧为基准,以每一帧图片的亮度信息取代传统图片的r、g、b三通道矩阵(第一帧的亮度信息代替r通道,第二帧的亮度信息代替g通道,以此类推),作为模型的输入。每一帧图片的亮度计算公式如下:
[0059][0060]
其中,式(1)为国际光电协议的图片标准亮度计算公式,式(2)为标准亮度计算的经验公式;a与y都代表经过计算之后的图片像素标准亮度矩阵,r、g、b代表存储像素颜色参数的矩阵。
[0061]
具体来说,对于步骤(一)中获取的图像或视频数据,首先进行数据的预处理,包括
但不仅限于旋转,镜像和去中心化裁剪等操作;经步骤(一)后,得到网络的原始图层,此时不采用传统的r、g、b三通道作为输入,而是采用连续三帧亮度信息替代作为卷积网络的输入,即进行步骤(四)。在网络的卷积层中,利用步骤(二)与步骤(三)中的信息特征,加快模型的收敛,并将两种位置特征在全连接层之前进行特征融合,将融合后的特征作为全连接层的输入。最后,将经由池化层处理后的特征作为输出,利用深度学习方法计算头部姿态三种偏转角的预测值。
[0062]
本发明各步骤涉及的思路总体介绍如下:
[0063]
若存在图像质量较低或人物面部遮挡(导致人脸难以检测)的情况,可利用步骤(二)中人物的位置信息增强图像中人物在训练过程的权重比,使得模型的注意力收敛于人物附近,从而降低无关背景因素影响。更进一步,利用人物的头部位置信息,可更好的降低人物自身其余身体部位影响(即:将人物自身除却头部外的身体部位,亦视为

环境’的一部分)。在低质量场景(人物佩戴口罩,眼镜、或存在大角度的头部偏转)下,头部检测的效果较差,此时人物的全身位置信息pa与常量矩阵α占有的权重比例上升。经步骤(三)后得到的融合位置信息p_site,结合了全身位置信息pa的容错性(pa的坐标信息可存在以人物为中心的小范围浮动)和头部位置信息ph的精准性(收敛于头部,更加精确)。需要说明的是,位置信息的约束使得训练中模型的注意力更为集中,提升了模型的学习速率。最后,图片每个像素的颜色信息改由亮度值代替,亮度值由r、g、b三者线性组合而成,连续三帧的输入融入了帧与帧之间的时间关联,且去除了与头部姿态估计无关的光线因素影响。
[0064]
相较于传统的头部姿态估计方法,本发明具有如下有益效果:
[0065]
本发明将与头部姿态估计目标人物有关的双重位置信息,融入深度学习头部姿态估计中,相较于传统的头部姿态估计方法而言,降低了背景因素的干扰,使得头部姿态估计的结果拥有更小的偏差。传统神经网络对于未检测到的(因大范围遮挡或偏转造成人物未被识别)人物不进行头部姿态估计的输出,而本发明在结合位置信息的基础上,对于图像中的每个人物都进行头部姿态估计的输出。此外,本发明采用亮度信息代替r、g、b通道降低了光线与色彩变换的影响,利用位置信息降低了背景环境的影响,使得深度神经网络具有更快的收敛速度。
[0066]
图2是本发明一实施例提供的头部姿态定位与检测系统的模块示意图,该头部姿态定位与检测系统主要包括图像集输入模块100、位置信息融合模块200和深度学习模块300。
[0067]
其中,图像集输入模块100,用于获取待测头部姿态的图像集,并将图像集中的所有图像进行标准亮度转换,图像集包括图像数据中按照顺序排列的图像集合、或视频数据中按照帧列顺序排列的图像集合。
[0068]
位置信息融合模块200,用于将标准亮度转换后的所有图像分别利用人物检测模型、头部检测模型得到全身位置信息pa和头部位置信息ph,将全身位置信息pa和头部位置信息ph输入到预先构建的深度学习卷积神经网络中,转换得到两种位置信息的中间特征pa^和ph^。
[0069]
深度学习模块300,用于将两种位置信息的中间特征pa^和ph^按一定权重进行融合,根据融合后的特征p_site计算得到头部偏转欧拉角。
[0070]
图3是本发明一实施例提供的头部姿态与检测系统的技术框图,如图3所示,该头
部姿态与检测系统包括图像集输入模块100、位置信息融合模块200和深度学习模块300,各模块涉及到的具体操作步骤如下:
[0071]
关于图像集输入模块100:首先,获取待检测头部姿态的人物图像或视频数据,进行预处理操作,具体的操作过程包括但不限于:将图片进行resize,将图片的尺寸调节为224x224像素大小;将视频中的图片按照帧序排列(fps=60),将图片集中的图片按照顺序排列;需要注意的是,图片的尺寸调节与图片的排序两个步骤无特定的先后顺序要求。完成前需处理后,需要对所有图片进行转换操作,即将图片由原本的r、g、b三通道信息转换为只有y亮度信息的单通道图片。
[0072]
图4为本发明提供的图片标准亮度计算原理图,如图4所示,将视频中的图片以帧序进行排列后,从中选取连续的三帧图片,按原有顺序依次存储在列表中,存放格式为:l=(pic1,pic2,pic3)。其中,pic1、pic2、pic3每个像素的颜色信息都存储在r、g、b三个通道内,即存放在一个224x224x3的列表内;根据标准亮度计算公式计算图片亮度,可供选择的计算公式如下:
[0073]
a=(0.2126*r) (0.7152*g) (0.0722*b)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(a)
[0074]
y=0.299*r 0.587*g 0.114*b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(b)
[0075]
y=sqrt(0.241*r^2 0.691*g^2 0.068*b^2)
ꢀꢀꢀꢀꢀꢀ
(c)
[0076]
其中,式(a)、式(b)皆为国际光电协议提供的标准亮度计算公式,由于计算机本身的计算机制,在实际操作中选用式(c)能够达到更快地计算速度,而效果相近,故采用式(c)进行计算;将原本的三通道转换为单通道后,得到一个224x224x1的列表,由于所取为连续的三帧,用三帧的亮度信息代替原本的三通道,即再次得到一个224x224x3的列表,维度保持不变。以连续三帧的中间帧为亮度基准,前后两帧反应亮度随时间的变化,得到一个短时帧间的关联性序列。将三帧的亮度信息存储在列表中,存放格式为(y1,y2,y3),y1、y2、y3皆由式(c)计算得到。
[0077]
图5为本发明提供的图像标准亮度计算流程图,与图4提供的图像标准亮度计算原理图相结合,旨在阐明计算图片标准亮度的方法,具体的步骤已在前述方法实施例中详细介绍过,此处不再赘述,此处仅列出图5涉及的操作步骤,包含的操作步骤如下:
[0078]
s101,将图片以帧序排列;
[0079]
s102,取连续三帧图像;
[0080]
s103,计算像素亮度;
[0081]
s104,替换原有r、g、b维度;
[0082]
s105,输入神经网络。
[0083]
关于位置信息融合模块200:如图3所示,位置信息融合模块位于图像集输入模块的下方,用于接收图像集输入模块所输出的标准化图像,以及向深度学习模块输入经融合后的位置特征。位置信息融合模块包含的操作步骤有:首先,接收形如(y1,y2,y3)样式的标准化图片输入,假设共有n张图片,则得存储序列p={x1,x2,x3,x4...xn},其中x1,x2...xn每个图片又由(y1,y2,y3)组成。利用人物检测模型(yolo v3)检测输入的图片,根据检测的结果执行下一步骤:如果检测到图片中有人物存在,则执行下一步操作,对检测出的人物进行位置检测,包括头部位置检测和全身位置检测。在实际操作过程中,可用人物检测模型(yolo v3)来实现对人物全身位置的检测,二者存在大部分功能交叉。yolo v3由dbl
(darknetconv2d_bn_leaky)基本组件构成,检测过程中对图像中的object采用k

means聚类,对图像中检测到的对象执行多标签分类。
[0084]
如果人物检测模型未检测到人物,则判定图片中不包含人物,执行对下一张图片的检测,即由当前检测序列xn跳转到xn 1,若xn已为序列中的最后一张图片,则结束当前位置信息融合模块的循环检测操作,执行深度学习模块;若模型检测到人物,对检测的人物,利用yolo v3模型得到人物的全身位置信息pa,利用dlib下的头部检测模型mmod_human_face_detector得到人物的头部位置信息ph,形式如下:
[0085][0086][0087]
其中,pa序列代表{x1,x2,x3...xn}的全身位置信息,ph序列代表{x1,x2,x3...xn}的头部位置信息,每一张图片都有一个存储图片内人物位置信息的序列,横向维度为图片的总数n,竖向维度为图片内人物的数量pn。在yolo v3和mmod_human_face_detector模型的检测过程中,如果未检测到人物的头部从而导致人物的头部位置信息为空值,此时使用同维度大小的0矩阵α来填补空缺值,使用0矩阵的原因是由于图片内无人物,默认yaw、pitch、roll三种角度为0
°
。由于全身位置信息与人物检测为同一模型,因此当全身位置信息为空值时,检测下一张图片,若当检测到最后一张图片时,停止检测。
[0088]
图6为本发明一实施例提供的全身位置信息和头部位置信息融合的原理示意图,如图6所示,头部位置信息与全身位置信息采用two stream结构,分别作为额外的维度,经由网络的卷积训练后得到中间位置特征pa^与ph^,卷积主体包含四个部分:layer1(64x64)、layer2(128x128)、layer3(256x256)、layer4(512x512),经过四层维度扩展后,将中间特征pa^与ph^在网络的全连接层之前按照一定权重进行融合,计算公式为:p_site=(0.4pa∧

e (0.6ph∧

e α)),pa∧

e、ph∧

e为经过卷积层后两个位置信息的中间特征,pa占有0.4的权重,ph占有0.6的权重,α为位置0矩阵。
[0089]
关于深度学习模块:深度学习模块接收来自位置信息融合模块输出的融合位置特征,输出经由计算后的三种头部偏转角度yaw、pitch、roll。深度学习模块涉及到的主要操作有:经过一层卷积层conv1,输入维度为3,输出维度为64,卷积核尺寸大小设置为7,步长设为2,填充为3,此处需要说明的是,输入的不是传统的(r,g,b)维度,而是连续三帧的亮度(y1,y2,y3);对输出的64维度特征进行归一化处理,采用的归一化方式如下:
[0090][0091]
其中,eps常数,设为1e

5,gamma与beta为权重系数,y为进行归一化后的输出,x为
输入。进行归一化处理后,利用线性修正单元relu进行线性修正;此时维度大小仍保持在64,将线性修正单元的输入经过最大池化层(max

pooling),卷积核大小设置为3,步长设置为2,填充为1;再进行四组上采样操作,即经过layer1、layer2、layer3、layer4,如图3所示,每层步长设置为2;经过四层上采样后,网络的维度变为512,将其放入平均池化层(mean

pooling)后再接入到全连接层,将全连接层的输出进行soft max,经计算后得到头部姿态的三个偏转角度yaw、pitch、roll,将三种偏转角度在原图像层次显现,此时本发明提供的结合位置信息和深度学习的头部姿态定位与检测系统操作步骤完成。
[0092]
为了更好地对本发明提供的结合位置信息和头部姿态定位与检测系统做出进一步解释,以下结合实施例进行具体说明。
[0093]
实施例一
[0094]
图7为本发明一实施例提供的教室场景下头部姿态估计示意图,如图7所示,在教室场景下,摄像头捕捉学生的上课状态,通过相机坐标系与世界坐标系的转换,得到学生修正后的位置信息。将修正后的位置信息传入到本发明提供的头部姿态定位与检测系统中,得到学生个体的头部位置信息与全身位置信息,根据得到的位置信息,系统进一步缩小头部姿态检测的范围,使得模型的注意力范围更为集中,最终根据深度学习训练的结果得到当前状态下学生头部的三种偏转角度yaw、pitch、roll,以线形表示学生头部三种角度的朝向,具体操作步骤如下:
[0095]
s201,相机检测人物;
[0096]
s202,得到位置参数;
[0097]
s203,计算偏转角度;
[0098]
s204,人物发生位移。
[0099]
当学生的位置发生移动后,相机捕捉到学生新时刻的位置进行反馈,本发明再对当前时刻学生的位置进行捕捉,重读上述步骤,以达到实时检测的目的。
[0100]
实施例二
[0101]
图8为本发明一实施例提供的学生头部偏转角度曲线图,如图8所示,反映了学生个体在一分钟内的头部偏转情况。选取一分钟的学生课堂视频,视频帧率fps=60,共计1800张图片,横轴为按照时间顺序排列的帧,单位间距为200帧,纵轴为偏转角度,单位间距为5
°
;图8记录了该学生一分钟内三种角度的偏转情况,以三条曲线表示三种偏转角,图中可见偏转角度在

15
°
到25
°
之间。实际应用中,可据此作为判断学生的上课状态的依据,此为本发明可应用的一种场景。
[0102]
为证明本发明的效果,本发明在实验过程中所涉及的一些具体数据及其说明、所采用的方法原理及其效果表现,并在真实场景下对本发明提出的方法进行了测试。实验结果表明,本发明对于图像低分辨率,人脸大面积遮挡和头部大角度偏转情况均有较强的鲁棒性。
[0103]
(1)发明原理
[0104]
本发明提出了一种头部姿态定位与检测方法,在卷积神经网络中融入人物头部位置信息和人物全身位置信息,使得头部姿态估计模型拥有更快的收敛速,额外的位置信息辅助也使得头部姿态估计的准确率提高;此外,本发明利用连续三帧标准亮度取代传统r、g、b通道、通过调整头部边缘检测位置优化头部姿态估计效果、特征融合的方式充分利用了
人物的全身信息、最后通过选取最佳损失函数来完善模型效果。前述实施例已详细介绍了本发明采用的原理方法,此处不再赘述。
[0105]
(2)实验过程
[0106]
关于人物位置检测探究:在尝试获取图像中人物的位置信息方面,本发明尝试了以下几种方法:1.像素差分、2.背景差分、3.深度学习。其中,像素差分和背景差分的原理相似,都是利用无人物背景图片和有人物的图片作差分,用来提取出图像中的人物,区别在于:像素差分是从像素的角度出发,差分后会得到图像中的每一个变化,而背景差分在像素差分的基础上更进一步,通过将两张图片进行相减,设定变化阈值,得到图像中人物的轮廓信息。本发明在利用背景差分处理图像时,先对图片进行灰度化处理,再做背景减法,得到背景和前景分离的灰度图像;之后将分离后的图像进行二值化处理,将背景用0灰度表示,将前景用255灰度表示;再进行降噪,消除噪声,根据灰度值得到前景图片边界,绘制人物边框;实验效果图如图9所示。
[0107]
虽然背景差分操作简便、耗时少,但当场景中存在多个人物时,背景差分的方法无法有效的分离出所有人物的轮廓,且该方法需要额外的背景图片,因此在真实场景下的适用性不高,本发明最终选定深度学习的人物检测方法(yolo v3)。由于该方法同样以深度学习为基础,因此该方法提取出的人物位置特征便于与本发明提出的头部姿态检测方法做融合,通过调整物体置信度阈值以及选择人物为检测对象,该方法甚至能够识别出图片中只有部分身体的人物,该模型在真实场景下的人物位置检测效果如图10所示。
[0108]
关于头部位置检测探究:已有的dlib_68人脸检测模型或human mod人脸检测模型对于存在遮挡、偏转下的人物头部检测效果不能满足真实场景需求,如图11所示。本发明在human mod模型检测的基础上,添加了头部位置的bounding box,使得图片中所有人物的头部位置信息都能被检测到,与人物全身位置信息一样,经模型检测后将人物头部的位置信息保存。此外,本发明还将添加了人物头部位置边框的自动调整,通过将人物头部四周的bounding box放大至原来的1.1倍或缩小至原来的0.9倍,再利用头部检测模型检测放大或缩小后头部边框内人脸的置信度,选取置信度最高的一个保存。由于不同的人物存在不同的置信结果,因此该方法是动态而非静态的,不同人物头部的bounding box大小可能不一致,具体取决于模型识别的置信度,实验数据表明,动态的边框变换效果由于单一的边框大小,头部姿态估计在置信度高的人脸上进行使得估计结果更为精确。
[0109]
从图11中可以看出,添加bounding box信息和经过边框自动调整后,本发明对佩戴口罩、半身人物以及远距离下的人物检测都表现良好,更适用于真实场景。为了进一步说明本发明的头部位置获取方式,在图12(a)中对于头部边框位置选取做出进一步阐释。为从特征角度进一步对于本发明所提出的头部位置特征和全身位置特征融合所起到的效果直观的展示,本发明采用注意力热图的方式探究经融合特征后模型的注意力区域。如图12(b)所示,经过双重的位置信息特征辅助后,模型的注意力明显收敛于头部区域,这也解释了模型收敛速度快的原因。模型的注意力集中在头部,头部的信息得到有效利用,头部姿态估计的精准度更高。
[0110]
如图12所示,图(a)中展示了本发明头部边框调整的动态变化过程,以原图像边框大小为基准,模型对变换后的边框内容进行检测,选取置信度最高的一个作为当前图像的边框。图(b)中,从左到右依次为:不使用位置信息模型的注意力区域;使用全身位置信息后
模型的注意力区域;使用头部信息后模型的注意力区域;使用全身 头部位置信息后模型的在注意力区域。
[0111]
(3)实验结果
[0112]
本发明对于数据集的操作有:选取偏转角度在(

99
°
,99
°
)图像,抛弃超过此种偏转角度的图像;将图片的大小尺寸统一调节为224x224大小;设置批处理大小batch_size=32,工作线程num_workers=2;将数据集的80%作为训练集,10%作为测试集,10%作为验证集;将aflw2000数据集和300w

lp数据集的图像,选取出80%作为训练集,对于训练集中的图像进行标准亮度转化,将转换后的图像放入网络的输入层中,将upan(视频格式数据集)进行处理,upan数据集中每个视频有十秒,每秒选取3帧图像(开始帧,中间帧,结束帧)进行亮度转化,每个视频30张图片,共10个人物,每个人物12个单向偏转视频,共计3600张图片,共计训练10轮。
[0113]
训练过程中三种角度的损失曲线如图13所示,aflw2000数据集的训练损失曲线记为曲线af,数据集300w

lp的训练损失曲线记为lp,数据集upan的损失曲线记为up,每个数据集的损失曲线都分为yaw、pitch、roll三种,损失函数采用均方误差损失(mse)。从图9中可以看出,upan数据集中,头部姿态估计的三种角度偏差损失最终收敛到3
°
附近,其中yaw为3.2
°
、pitch为2.4
°
、roll为3.8
°
,平均误差mae=3.1
°
;300w

lp数据集中,三种角度的偏差收敛在4
°
左右,其中yaw为2.7
°
、pitch为3.9
°
、roll为4.3
°
,平均误差mae=3.6
°
;aflw数据集中,三种角度的偏差收敛在6
°
附近,其中yaw为4.2
°
、pitch为5.1
°
、roll为5.9
°
,平均误差mae=5.06
°

[0114]
在进行跨数据集测试时,upan数据集训练的模型表现最佳,aflw2000数据集训练的模型表现最差,300w

lp数据集训练的模型基于两者之间,其中:模型up,在跨数据集测试时三种欧拉角的平均估计误差在3.15左右;模型lp,平均偏差在3.5左右,模型af的跨数据集测试偏差平均在5.6左右。各模型的跨数据集头部姿态估计误差详细见表1,模型在真实场景下的测试结果见图11。
[0115]
表1数据集偏转损失
[0116][0117]
(4)结果对比
[0118]
本发明在公共数据集的测试上取得了较优表现。在跨数据集验证上的较佳表现证明了本发明采用双重位置特征的有效性。
[0119]
(5)消融实验
[0120]
为探究本发明提出的一种头部姿态定位与检测方法的各个优化方法的必要性,采用消融实验的方式对本发明提出的:1、动态头部边框调整;2、标准亮度转换这两大优化方式必要性做出探究。在本发明的消融实验中,为使数据呈现简介明了,将yaw、pitch、roll三者的损失加和,以总损失的形式呈现;将消融实验总体分为实验组与对照组两部分,实验组:(1)包含标准亮度转换而不包含自动边框调整的实验探究,记作y wb;(2)包含自动边框
调整而不包含标准亮度转换的实验探究,记作b wy;(3)既不包含自动边框调整也不包含标准亮度转换的实验探究,记作wb wy。对照组:本发明方法,即二者都包含,记作y b。
[0121]
从图14中看出,采用自动边框调整置信度水平和标准亮度转换状态下的曲线(即y b曲线,位于最下方的曲线)拥有最快的首先收敛速度,且该曲线最终的总偏转损失最小;四条曲线起点的不同是由于函数参数的部分随机性导致的,wb wy曲线的最终损失在17
°
以上、y wb曲线表现第二、b wy曲线第三;这说明自动调整边框位置信息能起到辅助效果,小范围的微调对于部分图片效果较佳,对于大部分图片效果不明显,因此自动边框位置调整的辅助效果不如标准亮度转换明显,标准亮度转换对于每一个图片都生效。
[0122]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献