一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多模态多时间尺度的步态识别方法

2022-05-26 22:50:07 来源:中国专利 TAG:


1.本发明涉及步态识别技术领域,具体而言,涉及一种基于多模态多时间尺度的步态识别方法。


背景技术:

2.步态识别是一种基于人行走模式的人体识别技术。与其他使用指纹、虹膜和面部等生物特征识别技术的人类识别方法相比,步态识别具有容易获取、不易造假和适合远距离行人识别等优点。它是生物特征识别和计算机视觉领域的研究热点,在公共安全、犯罪侦查等领域具有广泛的应用前景。与大部分行人识别的不同,步态识别采用行人轮廓图而非rgb图像识别行人,这有以下两点好处:1.轮廓图不包含行人人脸信息,能够有效地保护行人隐私。2.轮廓图不包含行人服装的颜色及纹理,迫使模型关注行人步态生物特征,使得行人识别模型具有更强的鲁棒性。
3.然而,目前基于轮廓序列的步态识别方法在行人换装的场景下,识别准确率会大大下降;以gaitset(chao,hanqing,et al."gaitset:regarding gait as a set for cross-view gait recognition."proceedings ofthe aaai conference on artificial intelligence.vol.33.no.01.2019.)为例,在正常场景下模型的识别准确率为95.0%,而在换装场景下模型的识别准确率为70.4%,降低了近25%。这是由于行人如果更换服装种类,如从t恤换成大衣,行人的轮廓图依然会受到影响,发生剧烈变化,导致识别精度降低。并且,在步态识别中,时间建模是关键,而目前主流的步态识别方法没有充分挖掘步态序列的时间信息。因此这些方法提取的步态特征判别性较差,导致识别准确率较低。


技术实现要素:

4.本发明解决的问题是如何降低行人换装对步态特征识别的影响,提高识别准确率。
5.为解决上述问题,本发明提供一种基于多模态多时间尺度的步态识别方法,其特征在于,包括如下步骤:
6.步骤1、采集步态数据集,所述步态数据集包括若干个行人行走序列的rgb图像;
7.步骤2、依次从每帧rgb图像中获取行人轮廓图和行人姿态热图并裁剪生成相应的轮廓图序列和姿态热图序列;
8.步骤3、构建多模态步态识别模型,所述多模态步态识别模型包括用于从轮廓图序列和姿态热图序列中提取轮廓特征图序列和姿态特征图序列的特征提取模块、用于将轮廓特征图序列和姿态特征图序列拼接生成全局步态特征图序列的特征融合模块、用于对每帧全局步态特征图进行水平切分、池化得到局部步态特征块序列的水平池化模块以及通过自注意力网络将所有帧局部步态特征块序列之间同一序列位置的局部特征块建立多时间尺度依赖关系并输出局部步态特征序列的时间建模模块;
9.步骤4、采集训练样本输入到所述多模态步态识别模型,并利用损失函数训练所述
多模态步态识别模型,使得所述多模态步态识别模型得到鲁棒的局部步态特征;
10.步骤5、测试所述多模态步骤识别模型。
11.本发明的有益效果是:本技术采用结合行人轮廓图和行人姿态热图能够有效降低行人换装对步态识别的影响;同时采用自注意网络提取所有帧局部步态特征块序列之间同一序列位置的多时间尺度的局部特征特征块,充分挖掘行走序列所有帧之间步态特征的依赖关系,进而提升步态识别的准确率。
12.作为优选,所述步骤2中采用背景差分法从每帧rgb图像中获取行人轮廓图,采用人体姿态估计模型cpm从每帧rgb图像中获取行人姿态热图;所述步骤2中裁剪行人轮廓图和行人姿态热图时将行人处于图像正中的位置,裁剪处宽度为w,高度为h的行人轮廓图和行人姿态热图,组成轮廓图序列和姿态热图序列,从而避免行人换装的颜色和纹理对步态识别产生影响。
13.作为优选,所述特征提取模块包括:轮廓特征提取器和姿态特征提取器,所述轮廓特征提取器、姿态特征提取器均包括依次连接的第一卷积块、第二卷积块、第一focal_4卷积块、第二focal_4卷积块、第一focal_8卷积块、第二focal_8卷积块,所述第一卷积块包括第一基本2d卷积层;所述第二卷积块包括第二基本2d卷积层和第一最大池化层;所述第一focal_4卷积块包括第一focal_4卷积层;所述第二focal_4卷积块包括第二focal_4卷积层和第二最大池化层;所述第一focal_8卷积块包括第一focal_8卷积层;所述第二focal_8卷积块包括第二focal_8卷积层;
14.所述时间建模模块包括若干个自注意力网络,所述自注意力网络的数量与全局步态特征图水平切分的数量相等;所述自注意力网络包含第一多头注意力层、第二多头注意力层和时间池化层,所述第一多头注意力层和第二多头注意力层均包括q全连接层、k全连接层、v全连接层和前馈网络全连接层。
15.作为优选,所述步骤4训练多模态步态识别模型具体包括:
16.步骤401、采集训练样本,将训练样本随机分成k个样本组,每个样本组包括pb个行人,每个行人包含kb个行走序列,其中,同一个人的kb个行走序列互为正样本;不通过人之间的行走序列互为负样本;
17.步骤402、将样本组q输入到多模态步态识别模型中,q∈[1...k],多模态步态识别模型输出多个行人的多个局部步态特征序列;
[0018]
步骤403、计算局部步态特征序列之间对应序列位置的局部步态特征的欧式距离;
[0019]
步骤404、采用损失函数计算样本组中每个样本的损失值:
[0020]
loss=relu(ξ d
α,β-d
α,γ
)
[0021]
式中,d
α,β
为特征与正样本局部步态特征之间的欧式距离,d
α,γ
为特征与负样本局部步态特征之间的欧式距离,ξ为超参数,含义是欧式距离之间的边缘;
[0022]
步骤405、根据计算得到的损失值,判断loss是否收敛不变,若是,则训练结束;若否,采用反向传播算法更新多模态步态识别模型中模块的参数,以减小损失,且q=q 1,q∈[1...k],返回步骤402。
[0023]
作为优选,所述步骤5中测试所述多模态步态识别模型具体包括:
[0024]
步骤501、从步态数据集中任意获取行人行走序列,并获取对应的轮廓图序列和姿态热图序列,并将轮廓图序列和姿态热图序列输入到多模态步态识别模型中,输出相应的
局部步态特征序列;
[0025]
步骤502、计算输出的局部步态特征序列与步态数据集中所有局部步态特征序列之间对应序列位置的局部步态特征之间的欧式距离,并对欧式距离从小到大进行排序;
[0026]
步骤503、若步态数据集中对应欧式距离最小的行人序列与输入的行人序列为同一人,则识别成功;否则,识别失败。
附图说明
[0027]
图1为本发明中的多模态步态识别模型的结构示意图。
具体实施方式
[0028]
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
[0029]
一种基于多模态多时间尺度的步态识别方法,其特征在于,包括如下步骤:
[0030]
步骤1、采集步态数据集,所述步态数据集包括若干个行人行走序列的rgb图像,本具体实施例的步态数据集包括p个行人,每个行人包括至少2个不同的行走序列,每个行走序列包括k帧rgb图像;p,k为正整数,p≥70,k≥30;
[0031]
步骤2、采用背景差分法从每帧依次从每帧rgb图像中获取行人轮廓图,同时采用人体姿态估计模型cpm从每帧rgb图像中获取行人姿态热图,裁剪行人轮廓图和行人姿态热图时将行人处于图像正中的位置,裁剪处宽度为w,高度为h的行人轮廓图和行人姿态热图,组成轮廓图序列和姿态热图序列,从而避免行人换装的颜色和纹理对步态识别产生影响;本具体实施例采用的背景差分法、人体姿态估计模型cpm均为现有技术,此处不做过多赘述;
[0032]
步骤3、构建多模态步态识别模型,如图1所示,所述多模态步态识别模型包括用于从轮廓图序列和姿态热图序列中提取轮廓特征图序列和姿态特征图序列的特征提取模块、用于将轮廓特征图序列和姿态特征图序列拼接生成全局步态特征图序列的特征融合模块、用于对每帧全局步态特征图进行水平切分、池化得到局部步态特征块序列的水平池化模块以及通过自注意力网络将所有帧局部步态特征块序列之间同一序列位置的局部特征块建立多时间尺度依赖关系并输出局部步态特征序列的时间建模模块;
[0033]
所述特征提取模块包括轮廓特征提取器和姿态特征提取器,所述轮廓特征提取器、姿态特征提取器均包括依次连接的第一卷积块、第二卷积块、第一focal_4卷积块、第二focal_4卷积块、第一focal_8卷积块、第二focal_8卷积块,所述第一卷积块包括第一基本2d卷积层;所述第二卷积块包括第二基本2d卷积层和第一最大池化层;所述第一focal_4卷积块包括第一focal_4卷积层;所述第二focal_4卷积块包括第二focal_4卷积层和第二最大池化层;所述第一focal_8卷积块包括第一focal_8卷积层;所述第二focal_8卷积块包括第二focal_8卷积层;本具体实施例中轮廓特征提取器和姿态特征提取器的参数不共享;本具体实施例中的第一卷积块的卷积核数量为32,卷积核大小为5
×
5,补零参数值为2,步长为1;第二卷积块的卷积核数量为32,卷积核大小为3
×
3,补零参数值为1,步长为1;第一最大池化层的卷积核数量为32,步长为1;第一focal_4卷积层的卷积核数量为64,卷积核大小为3
×
3,补零参数值为1,步长为1,分块参数n为4;第二最大池化层的卷积核数量为64,卷积
核大小为2
×
2,步长为1;第一focal_8卷积层的卷积核数量为128,卷积核大小为3
×
3,补零参数值为1,步长为1,分块参数n为8;第二focal_8卷积层的卷积核数量为128,卷积核大小为3
×
3,补零参数值为1,步长为1,分块参数n为8;本具体实施例的focal_4卷积层和focal_8卷积层统称为focal_n卷积层,focal_n卷积层和基本2d卷积层的区别在于focal_n卷积层将轮廓特征图或姿态特征图进行水平切分成n块,然后对每块单独卷积之后再拼接为轮廓特征图或姿态特征图,以限制感受野;
[0034]
例如,特征提取模块在提取轮廓特征图序列时,第一卷积块的输入端接收单通道大小为s
×h×
w轮廓图序列,其中s=30,将其输入第一基本2d卷积层和leaky_relu激活函数,输出32通道的大小为s
×h×
w的轮廓特征图;第二卷积块接收第一卷积块输出的轮廓特征图并输入到第二基本2d卷积层、leaky_relu激活函数和第一最大池化层,输出32通道大小为的轮廓特征图;第一focal_4卷积块接收第二卷积块输出的轮廓特征图并输入到第一focal_4卷积层和leaky_relu激活函数,输出64通道大小为的轮廓特征图;第二focal_4卷积块接收第一focal_4卷积块输出的轮廓特征图,并输入到第二focal_4卷积层、leaky_relu激活函数和第二最大池化层,输出64通道大小为的轮廓特征图;第一focal_8卷积块接收第二focal_4卷积块输出的轮廓特征图并输入到第一focal_8卷积层和leaky_relu激活函数,输出128通道大小为的轮廓特征图;第二focal_8卷积块接收第一focal_8卷积块输出的轮廓特征图后输入第二focal_8卷积层和leaky_relu激活函数,输出128通道大小为的轮廓特征图;同理,姿态特征提取器提取得到128通道大小为的姿态特征图;
[0035]
特征融合模块为将128通道大小为的姿态特征图和128通道大小为的轮廓特征图进行特征拼接得到256通道大小为的全局步态特征图;
[0036]
水平池化模块为将256通道大小为的全局步态特征图进行水平切分,得到256通道大小为的局部步态特征块;本具体实施例的n=16,即水平切分得到16块局部步态特征块,并对水平切分后的局部步态特征块进行全局均值池化和全局最大池化操作,将全局均值池化操作和全局最大池化操作后的结果相加,得到s
×n×
c1的局部步态特征块,本具体实施例中c1=256;
[0037]
所述时间建模模块包括若干个自注意力网络,所述自注意力网络的数量与全局步态特征图水平切分的数量相等;所述自注意力网络包含第一多头注意力层、第二多头注意力层和时间池化层,所述第一多头注意力层和第二多头注意力层均包括q全连接层、k全连
recognition.2020.)、gln(hou,saihui,et al."gait lateral network:learning discriminative and compact representations for gait recognition."european conference on computer vision.springer,cham,2020.)以及mt3d(lin,beibei,shunli zhang,and feng bao."gait recognition with multiple-temporal-scale 3d convolutional neural network."proceedings ofthe 28th acm international conference on multimedia.2020.);为了进行系统、全面的比较,本对比实验将所有交叉视角和交叉状态的情况都纳入比较范围,结果如表1所示,本发明申请在所有条件下都能获得最佳的平均精度;目前在nm(正常)和cl(换装)条件下,mt3d在所有视角下的平均精度最高,为96.7%和81.5%;在bg(携带物)条件下,gln在所有视角下的平均精度最高,为94.04%;在nm(正常)条件下,本发明申请在所有视角下的平均精度比mt3d提升了大约1.3%;在bg(携带物)条件下,本发明申请在所有视角下的平均精度比gln提升了约1%;而在cl(换装)条件下,本发明申请在所有视角下的平均精度比mt3d提升了4%以上;可以看到,与目前最先进的方法相比,本发明申请在换装条件下提升最多,这得益于引入姿态信息,使得模型对于行人外观的变化更加鲁棒;
[0053][0054][0055]
表1
[0056]
2)消融实验:为了验证特征融合模块、水平池化模块和时间建模模块的有效性,本
次实验在casia-b数据集上进行消融实验;实验设置了4组对照实验(分别记为a,b,c,d),结果如表2所示,实验结果分析如下:特征融合模块分析:在本发明中提出了轮廓姿态融合的多模态步态识别。为了验证特征融合模块的重要性,实验设置只使用行人轮廓图的a组、只使用行人姿态热图的b组和将行人轮廓图和行人姿态热图融合的d组。可以看到d组在三个不同条件下的平均精度都比a、b两组高,这说明了轮廓-姿态结合的步态特征识别比只基于行人轮廓或行人姿态的步态特征更加具有判别性。
[0057][0058][0059]
表2
[0060]
时间建模模块的有效性分析:实验将不使用自注意力网络的c组和使用自注意力网络的d组进行比较。可以看到,自注意力网络大大提升了步态识别的精度。不仅如此,为了证明多种不同的运动模式对步态识别的重要性,实验将本发明申请的方法和只基于局部步态信息的gaitpart(fan,chao,et al."gaitpart:temporal part-based model for gait recognition."proceedings of the ieee/cvf conference on computer vision and pattern recognition.2020.)进行比较;只使用行人轮廓图和自注意力网络(即表2中的a组),然后与gaitpart在casia-b数据集上进行比较;结果如表3所示,可见本发明的多模态步态识别模型的效果超越了gaitpart的效果,这证明了除了局部微运动,其他运动模式对步态识别也是十分关键的。
[0061]
methodnmbgclgaitpart[1]96.291.578.7ours96.392.880.6
[0062]
表3
[0063]
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员,在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献