一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于时空和运动深度学习的驾驶员行为识别方法及设备

2022-12-20 00:07:33 来源:中国专利 TAG:


1.本发明涉及智能交通技术领域和计算机视觉领域,特别涉及一种基于时空和运动深度学习的驾驶员行为识别方法及设备。


背景技术:

2.交通事故是世界上最严重的公共问题之一。在导致交通事故的诸多因素中,分心驾驶行为约占80%,nhtsa(国家公路交通安全管理局)将分心驾驶行为定义为分散驾驶员注意力的任何活动,包括打电话、发短信、饮食、与车内人员交谈以及调整收音机等,因此,驾驶员行为识别是驾驶员监控系统中一项关键任务,旨在识别驾驶员的不同驾驶行为,通过驾驶员行为识别,驾驶员行为监控系统可以实时捕获和识别分心驾驶行为,从而及时提供警告,防止交通事故。
3.随着深度学习的快速发展,卷积神经网络已经被证明了其图像处理领域的优越性,基于深度学习的驾驶员行为识别方法受到越来越多研究人员的关注,现有的相关研究可以分为两类:基于单帧图像的驾驶员行为识别和基于视频的驾驶员行为识别。基于单帧图像的驾驶员行为识别通过2dcnn(二维卷积)提取单帧静态图像的特征,因此只能学习空间特征,无法利用视频中的时间信息和运动信息,因此目前的研究主要集中在基于视频的驾驶员行为识别。
4.然而,与普通的行为不同,驾驶行为之间非常相似,例如,如何确定驾驶员是在放置物体还是获取物体?这两个动作几乎相同,只是顺序不同。此外,单手安全驾驶和放置/取出物体的身体姿势也是非常相似,只是在身体角度和另一只手在移动方面略有不同。现有的基于视频的驾驶员行为识别方法仍然难以区分这些具有高度相似度的的驾驶行为。这主要是由于两点技术上的不足,第一点是缺乏全局时空特征的提取,现有的方法通常是通过3dcnn(三维卷积)、conv-rnn实现时空建模,然而由于卷积的局部运算,上述方法过于依赖局部特征而忽略了全局时空特征,而众所周知,上下文感知全局时空信息更有利于判断驾驶员的行为,例如,对于上述单手安全驾驶和放置/取物体的行为,如果我们只是关注一只手是否在方向盘上,而忽略身体的角度和另一只手的行为,就会导致错误的识别。第二点是无法提取最具判断力的特征,难以捕捉驾驶行为之间的细微差异,例如上述的防止/获取物体的动作。虽然有研究通过预计算光流以捕捉驾驶员动作的运动特征。然而,像素级的光流计算量十分巨大,耗费额外的存储,并且这种预计算方法使得光流无法集成到时空建模中。


技术实现要素:

5.本发明的目的在于克服现有技术中所存在的一是缺乏对全局时空特征的提取,导致错误的识别;二是无法提取最具判断力的特征,难以捕捉驾驶行为之间的细微差异,提供一种基于时空和运动深度学习的驾驶员行为识别方法及设备。
6.为了实现上述发明目的,本发明提供了以下技术方案:
7.一种基于时空和运动深度学习的驾驶员行为识别方法,包括以下步骤:
8.s1:获取驾驶员行为视频段,例将所述视频段划分为训练集和测试集;
9.s2:对所述训练集和所述测试集的视频段进行帧采样,获得固定长度的视频帧,并对所述视频帧进行图像增强;
10.s3:并基于所述训练集中进行图像增强后的视频帧训练得到基于时空和运动特征深度学习的驾驶员行为识别网络;
11.所述驾驶员行为识别网络以resnet-50为主干,采用全局时空特征模块替代所述resnet-50残差块中的3
×
3卷积核,形成替换后的残差块;再将运动-时空联合注意力模块插入到所述驾驶员行为识别网络每层的第一个所述替换后的残差块之前,所述运动-时空联合注意力模块包括用于激发原始特征运动模式的双路径运动注意力子模块和用于激发显著时空特征的时空注意力子模块;
12.s4:将所述测试集中进行图像增强后的视频帧输入到所述训练好的驾驶员行为识别网络中,并输出驾驶行为识别结果。
13.采用上述技术方案,通过将时空可分离卷积块嵌入到一种分层残差连接结构中,扩大了时空维度的等效感受野,有效地提取全局时空特征,从而结合整个视频的上下文信息来识别驾驶行为,增强了所述驾驶员行为识别网络的鲁棒性,提升了驾驶行为的识别准确率,同时,通过联合应用双路径运动注意力和时空注意力激发原始特征的运动模式和显著时空特征,迫使所述的驾驶员行为识别网络关注最具辨别力的特征,从而捕捉驾驶行为间得到细微差异,从而提高了对具有高相似度的驾驶行为的识别能力。
14.作为本发明的优选方案,所述步骤s1包括预先获取驾驶室的监控视频,将所述监控视频划分为1s≤t≤3s的所述驾驶员行为视频段。
15.作为本发明的优选方案,所述步骤s2包括:将长度不等的所述视频段均匀的划分为t个子段,对于所述训练集的数据,从每个子段中随机地选择一帧,对于所述测试集的数据,从每个子段的固定位置处选择一帧,对所述训练集的视频帧进行随机反转和随机剪裁,得到所述训练集中进行图像增强后的视频帧,对所述测试集的视频帧进行中心裁剪,得到所述测试集中进行图像增强后的视频帧。
16.作为本发明的优选方案,所述步骤s3中,所述全局时空特征模块包括通道分割层、三层时空卷积(sts conv)层和特征维度连接(concat)层;其中,所述时空卷积层由一层用于时间建模的卷积核大小为3的一维深度可分离卷积(1d ds conv)层和一层用于空间建模的卷积核大小为3
×
3的二维卷积(2dconv)层组成;每层所述时空卷积层是并连的,且相邻的所述时空卷积层之间包括一层特征相加层,从而形成一种分层残差连接结构,这种结构能扩展时空维度的等效感受野,从而捕获全局时空特征;
17.所述双路径运动注意力子模块包括用于降维的二维卷积层、时间维度分割层、特征差异性运动建模层、特征相关性运动建模层、用于提升运动特征维度的二维卷积层、空间平均化压缩层、空间最大化压缩层、用于恢复维度的二维卷积层、sigmoid层、特征相乘层和特征相加层;其中,所述特征差异性运动建模层由特征相减层和特征维度连接层组成;所述特征相关性运动建模层由相关性张量计算层、soft-argmax层、一层二维卷积层和特征维度连接层组成;所述特征差异性运动建模层和所述特征相关性运动建模层是并连的,二者之间包括一层所述特征相加层;所述空间平均化压缩层和所述空间最大化压缩层也是并连的,二者之间包括一层所述特征相加层;
18.所述时空注意力子模块包括张量形状重塑层、通道平均化压缩层、通道最大压缩化层、特征维度连接层、用于学习时空特征依赖性的三维卷积层、sigmoid层、张量形状重塑层、特征相乘层和特征相加层;其中,所述通道平均化压缩层和通道最大压缩化层是并连的。
19.作为本发明的优选方案,所述驾驶员行为识别网络从上至下包括:1个所述运动-时空联合注意力模块加3个所述替换后的残差块层、1个所述运动-时空联合注意力模块加4个所述替换后的残差块层、1个所述运动-时空联合注意力模块加6个所述替换后的残差块层、1个所述运动-时空联合注意力模块加3个所述替换后的残差块层、全连接层、时间平均层;
20.所述全连接层用于对提取的特征进行预测和分类,所述时间平均层用于对每个图像增强后的视频帧的预测结果进行平均,并输出驾驶行为识别结果。
21.作为本发明的优选方案,所述步骤s3包括以下步骤:
22.s31:对输入的t帧图像增强后的视频帧执行7
×
7卷积操作得到特征f;
23.s32:所述运动-时空联合注意力模块首先对所述特征f使用1
×
1卷积来降低通道维数,对于降维后的特征fr,令时间t处的特征为f
t
r,然后对相邻的所述图像增强后的视频帧执行特征差异性运动建模和特征相关性运动建模。
24.作为本发明的优选方案,所述步骤s3还包括:采用交叉熵损失函数进行反向传播,用imagenet对所述驾驶员行为识别网络进行预训练;采用sgd作为优化器,其中权重衰减率和动量分别设置为5e4和0.9。
25.另一方面,提供了一种基于时空和运动深度学习的驾驶员行为识别设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
26.与现有技术相比,本发明的有益效果在于:通过将时空可分离卷积块嵌入到一种分层残差连接结构中,扩大了时空维度的等效感受野有效地提取全局时空特征,从而结合整个视频的上下文信息来识别驾驶行为,增强了所述驾驶员行为识别网络的鲁棒性,提升了驾驶行为的识别准确率,同时,通过联合应用双路劲运动注意力和时空注意力激发原始特征的运动模式和显示时空特征迫使所述驾驶员行为识别网络,关注最具辨别力的特征,从而捕捉驾驶行为间得到细微差异,从而提高了对具有高相似度的驾驶行为的识别能力。
附图说明
27.图1为本发明实施例1所述的一种基于时空和运动深度学习的驾驶员行为识别方法的流程图;
28.图2为本发明实施例1所述的一种基于时空和运动深度学习的驾驶员行为识别方法的驾驶员行为识别网络的总体结构图;
29.图3为本发明实施例1所述的一种基于时空和运动深度学习的驾驶员行为识别方法的双路径运动注意力子模块的结构图;
30.图4为本发明实施例1所述的一种基于时空和运动深度学习的驾驶员行为识别方法的时空注意力子模块的结构图;
31.图5为本发明实施例1所述的一种基于时空和运动深度学习的驾驶员行为识别方法的全局时空建模模块的结构图;
32.图6为本发明实施例1所述的一种基于时空和运动深度学习的驾驶员行为识别方法的分别使用基线模型tsn、全局时空特征模块和驾驶员行为识别网络对一段视频帧进行识别的结果的可视化热力图。
33.图7为本发明实施例2所述的一种基于时空和运动深度学习的驾驶员行为识别设备的结构图。
具体实施方式
34.下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
35.实施例1
36.一种基于时空和运动深度学习的驾驶员行为识别方法,如图1所示,包括以下步骤:
37.s1:获取驾驶员行为视频段,并按照7:3的比例将所述视频段划分为训练集和测试集,本实施例使用公开的drive&act驾驶行为数据集中提供的划分方式;
38.所述步骤s1包括预先获取驾驶室的监控视频,将所述监控视频划分为1s≤t≤3s的所述驾驶员行为视频段,本实施例使用公开的drive&act驾驶行为数据集中提供的驾驶行为视频段;
39.s2:对所述训练集和所述测试集的视频段进行帧采样,获得固定长度的视频帧,并对所述视频帧进行图像增强;
40.s3:并基于所述训练集中进行图像增强后的视频帧训练得到基于时空和运动特征深度学习的驾驶员行为识别网络;
41.所述驾驶员行为识别网络以resnet-50为主干,构建一个全局时空特征模块(global spatial-temporal modeling,gstm)来替代所述resnet-50残差块中的3
×
3卷积核,形成替换后的残差块(replaced residual block,rrb);再构建一个运动-时空联合注意力模块(motion-spatial-temporaljoint attention,mstja),将所述运动-时空联合注意力模块插入到所述驾驶员行为识别网络每层的第一个所述替换后的残差块之前,所述运动-时空联合注意力模块包括用于激发原始特征运动模式的双路径运动注意力子模块(dualpathmotion attention,dpma)和用于激发显著时空特征的时空注意力子模块(spatial-temporal attention,sta);
42.如图5所示,所述全局时空特征模块包括通道分割层、三层时空卷积(sts conv)层和特征维度连接(concat)层;其中,所述时空卷积层由一层用于时间建模的卷积核大小为3的一维深度可分离卷积(1d ds conv)层和一层用于空间建模的卷积核大小为3
×
3的二维卷积(2d conv)层组成;每层所述时空卷积层是并连的,且相邻的所述时空卷积层之间包括一层特征相加层,从而形成一种分层残差连接结构,这种结构能扩展时空维度的等效感受野,从而捕获全局时空特征;
43.如图3所示,所述双路径子模块包括用于降维的二维卷积层、时间维度分割层、特
征差异性运动建模层、特征相关性运动建模层、用于提升运动特征维度的二维卷积层、空间平均化压缩层、空间最大化压缩层、用于恢复维度的二维卷积层、sigmoid层、特征相乘层和特征相加层;其中,所述特征差异性运动建模层由特征相减层和特征维度连接层组成;所述特征相关性运动建模层由相关性张量计算层、soft-argmax层、一层二维卷积层和特征维度连接层组成;所述特征差异性运动建模层和所述特征相关性运动建模层是并连的,二者之间包括一层所述特征相加层;所述空间平均化压缩层和所述空间最大化压缩层也是并连的,二者之间包括一层所述特征相加层;相比起常用的提取运动特征的像素级的光流法,本发明这种特征级的运动建模方法计算效率更高,且通过两条路径可以提取出更平滑的运动特征;并且结合注意力机制,对提取后的运动特征进行压缩和激发,从而激发原始特征的运动模式;
44.如图4所示,所述时空注意力子模块包括张量形状重塑层、通道平均化压缩层、通道最大压缩化层、特征维度连接层、用于学习时空特征依赖性的三维卷积层、sigmoid层、张量形状重塑层、特征相乘层和特征相加层;其中,所述通道平均化压缩层和所述通道最大压缩化层是并连的;所述时空注意力子模块结合注意力机制,对时空特征进行压缩和激发,从而激发原始特征中的显著的时空特征;
45.如图2所示,所述驾驶员行为识别网络从上至下包括:1个所述运动-时空联合注意力模块加3个所述替换后的残差块层、1个所述运动-时空联合注意力模块加4个所述替换后的残差块层、1个所述运动-时空联合注意力模块加6个所述替换后的残差块层、1个所述运动-时空联合注意力模块加3个所述替换后的残差块层、全连接层、时间平均层;
46.所述全连接层用于对提取的特征进行预测和分类,所述时间平均层用于对每个图像增强后的视频帧的预测结果进行平均,并输出驾驶行为识别结果;
47.具体的,使用一层全连接层作为分类器,输出当前视频中每一帧的识别结果;使用时间平均层平均所有帧的识别结果,以获得视频级的驾驶员行为识别结果;
48.s4:将所述测试集中进行图像增强后的视频帧输入到所述训练好的驾驶员行为识别网络中,并输出驾驶行为识别结果.
49.所述步骤s2包括:将长度不等的所述视频段均匀的划分为t个子段,对于所述训练集的数据,从每个子段中随机地选择一帧,对于所述测试集的数据,从每个子段的固定位置处选择一帧,并对所述训练集的视频帧进行随机反转和随机剪裁(裁剪尺寸为224
×
224),得到所述训练集中进行图像增强后的视频帧,对所述测试集的视频帧进行中心裁剪(裁剪尺寸为224
×
224),得到所述测试集中进行图像增强后的视频帧。
50.所述步骤s3包括以下步骤:
51.s31:对输入的t帧图像增强后的视频帧执行7
×
7卷积操作得到特征f;
52.具体的,将t设置为10,在训练阶段,从每段中随机选择一帧,在测试阶段,从每段的指定位置处进行帧采样,即,最后的输入是10帧视频帧;
53.s32:所述运动-时空联合注意力模块首先对所述特征f使用1
×
1卷积来降低通道维数,对于降维后的特征fr,令时间t处的特征为然后对相邻的所述图像增强后的视频帧执行特征差异性运动建模和特征相关性运动建模。
54.所述双路径运动注意力子模块从特征差异性和特征相关性两条路径来实现特征级的运动建模,从而提取平滑的运动特征,所述运动特征视为短期时间特征,所述运动特征
反映所述图像增强后的视频帧之间的变化或位移,所述运动特征用于捕捉驾驶员动作中的细微差异,然后,将提取到的所述运动特征进行重新校准原始特征来激发运动模式,关于特征差异性运动建模,即对相邻视频帧的特征逐元素相减以计算运动特征:
[0055][0056]
其中,是t时刻的使用特征差异性计算的运动特征;令t时刻运动特征为0,在时间维度上对所有运动特征执行时间维度拼接操作,得到通过特征差异性计算的运动特征:
[0057][0058]
其中,concat是时间维度拼接操作;
[0059]
关于所述特征相关性运动建模,首先,计算相邻帧的相关性张量,具体的,采用点积运算计算t时刻p位置处的特征与(t 1)时刻位移d处的特征的相关性分数:
[0060][0061]
其中,c
t
(p,d)为相关性张量;
[0062]
一般而言,d∈[-h,h]
×
[-w,w],为了提高计算效率,将最大位移设置为d,即位移的邻域大小为p=2d 1。在通道维度对所有位置的相关性分数执行concat操作,获得时间t处相邻帧的相关性张量c
t
,为了操作可微,再使用soft-argmax来估计位移向量,即具有最高相关性分数的位置的映射:
[0063][0064]
其中,d
t
(p)是t时刻p位置处的位移向量;所有位置处的位移向量d
t
(p)形成了位移张量d
t
,使用1
×
1卷积恢复位移张量d
t
的通道数,从而得到t时刻的运动特征最后,令t时刻运动特征为0,在时间维度上拼接所有时刻的运动特征,即得到使用特征相关性计算的运动特征m
corr

[0065][0066]
其中,concat是时间维度拼接操作;
[0067]
将分别由特征差异性和特征相关性计算得到的运动特征执行逐元素相加,并通过1
×
1卷积恢复通道数:
[0068]
m=conv
inc
*(m
diff
m
corr
)
[0069]
其中,conv
inc
是卷积核大小为1
×
1的二维卷积操作,m是由特征差异性和相关性两条路径计算得到的运动特征;
[0070]
结合注意机制来激发原始特征的运动模式,而不是直接编码运动特征和原始特征,首先,分别通过平均化和最大化操作来压缩全局空间特征形成通道描述符:
[0071][0072]
[0073]
其中,m
avg
和m
max
分别是平均化通道描述符和最大化通道描述符;
[0074]
然后,分别对两个通道描述符应用两个1
×
1卷积来学习运动通道间的特征依赖性,将学习到的特征相结合,并执行sigmoid操作进行归一化:
[0075][0076][0077][0078]
其中,m
dpma
为运动激励符,为平均运动激励符,为最大运动激励符,使用m
dpma
增强原始特征中的运动通道,从而激发运动模式,并采用残差连接保留静态场景特征:
[0079][0080]
其中,f
dpma
为dpma的输出,它通过特征差异性和特征相关性两条路径计算运动特征,并激发特征运动模式,从而帮助捕捉驾驶员动作中的细微差异。
[0081]
所述时空注意力子模块重新校准时空特征响应,激发显著的时空特征,所述时空注意力子模块和所述双路径运动注意力子模块能够同步并行执行,也能够分步执行,通过平均和最大化来压缩通道特征来获得时空描述符:
[0082][0083][0084]
其中,f
avg
和f
max
分别是平均化时空描述符和最大化时空描述符;
[0085]
然后,对两个时空描述符在通道维度上执行拼接操作,并使用大小为3
×3×
3的3d卷积核conv
sta
来学习时空间的特征依赖性:
[0086]fsta
=sigmoid(conv
sta
(concat(f
avg
,f
max
)))
[0087]
其中,f
sta
为sta的输出,是时空激励符号,使用该激励符号用于增强时空特征,它激发了显著的时空特征;
[0088]
采取残差连接保留静态场景特征:
[0089][0090]
所述运动-时空联合注意力模块通过联合应用运动和时空注意使网络关注最具辨别力的特征,输出是所述的dpma和所述的sta的输出之和:
[0091]fmstja
=f
dpma
f
sta
[0092]
所述全局时空特征模块将所述f
mstja
沿通道维度均匀地划分为4个子特征fi,对4个所述子特征执行以下分层残差连接操作:
[0093][0094]
sts(x)=convs*r2(conv
t
*r1(x))
[0095]
其中,为经过时空特征提取后的第i个子特征,conv
t
是大小为1的深度可分离
1d卷积核;convs是大小为3
×
3的2d卷积核;r1和r2是重塑张量形状操作;
[0096]
所述分层残差连接结构为每个子输入提取时空特征;因此除最后一个子输入外,每个子输入都是先前输出的子特征和当前子特征的叠加,每个子特征的感受野不同,后一个子特征的感受野将逐渐增加,最后,将所有子特征在通道维度中拼接,从而使输出包含全局时空特征:
[0097][0098]
所述步骤s4还包括:采用交叉熵损失函数进行反向传播,用imagenet对所述驾驶员行为识别网络进行预训练;采用sgd作为优化器,其中权重衰减率和动量分别设置为5e4和0.9。
[0099]
具体的,如图6所示,该视频帧的驾驶行为是“从后座拿物品”;使用的可视化方法是cam算法。
[0100]
得到各算法对在drive&act数据集上对驾驶行为的示识别结果意表,如下:
[0101][0102]
注:gflops表示每秒10亿次的浮点运算数;n/a表示由于光流的预计算而无法准确计算gflops。
[0103]
采用上述技术方案,通过将时空可分离卷积块嵌入到一种分层残差连接结构中,扩大了时空维度的等效感受野有效地提取全局时空特征,从而结合整个视频的上下文信息来识别驾驶行为,增强了所述驾驶员行为识别网络的鲁棒性,提升了驾驶行为的识别准确率,同时,通过联合应用双路劲运动注意力和时空注意力激发原始特征的运动模式和显示时空特征迫使所述驾驶员行为识别网络,关注最具辨别力的特征,从而捕捉驾驶行为间得到细微差异,从而提高了对具有高相似度的驾驶行为的识别能力。
[0104]
实施例2
[0105]
如图5所示,一种基于时空和运动深度学习的驾驶员行为识别设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述实施例所述的一种面向空管模拟培训的文本指令生成方法与装置。所述输入输出接口可以包括显示器、键盘、鼠标、以及usb接口,用于输入输出数据;电源用于为电子设备提供电能。
[0106]
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0107]
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技
术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0108]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献