一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度自注意力变换网络的步态识别方法

2022-05-06 11:26:15 来源:中国专利 TAG:


1.本发明属于计算机视觉及视频分析技术领域,具体而言,涉及一种基于深度自注意力变换网络的步态识别方法,可用于针对步态的生物信息识别。


背景技术:

2.步态识别是一种旨在通过人们走路的姿态进行身份识别的生物特征识别技术,步态作为一种能够远距离识别的生物特征,在犯罪预防、司法鉴定和社会保障等方面有着广泛的应用前景。在生物特征识别领域,基于人脸、指纹、衣着等特征的识别技术已经十分完善,而步态识别因其具有无接触和不易伪装的特点,在生物特征识别领域有着广泛的应用前景。
3.典型的步态识别主要分为五个阶段:首先是步态检测,即对视频每一帧图像中的行人目标进行识别和定位;第二步是步态分割,根据检测结果将行人与背景进行分割;第三步是步态追踪,每一帧图像的分割结果组合成一个图像序列;第四步是特征提取,提取图像序列的特征,方便进行匹配,这一步是步态识别的关键;最后一步是步态比对和识别,将提取的特征与在数据库中存储的特征进行比对和识别,得到最终结果。
4.主流的步态识别特征提取主要分为两种,一种是将输入的步态剪影序列融合成为单张图像进行识别,代表方法有步态能量图,这种方法没有很好的利用输入序列的时域信息;另一种则是将步态序列直接作为输入,通过对其空间和时间特征的提取进行进一步的识别,但是在这种方法会引入大量的冗余信息,降低步态识别的效率和灵活性。
5.授权公告号为cn113159007b,名称为“一种基于自适应图卷积的步态情感识别方法”的专利,公开的实现步骤包括从步态视频中获取步态数据,构造网络输入;构建自适应图卷积网络;将获得的步态数据输入到自适应图卷积网络中,根据网络提取到的特征进行步态情感类别的预测。该自适应图卷积网络主要包括三个依次连接的自适应图卷积块;自适应图卷积块主要依据自适应图的邻接矩阵进行图卷积操作。自适应图包括以下三部分:第一,自然链接,按人体物理结构将骨架上关节点相连形成的自然链接;第二,全局链接,是以脊椎节点为中心,其他节点与中心节点相连构成的全局链接;第三,可训练链接,是一种可训练的图结构构造方式,将其转化为图结构的邻接矩阵形式放入网络中训练。该方法存在三点不足之处:其一,在提取步态的空间特征时采用的是提取关节点的方式,这种方式丢失了大量的空间信息;其二,该网络并没有对步态序列的时间特征进行充分的提取;其三,该网络最终的目的是通过步态进行情感识别,但是只能识别提前训练集中存在的情感,不能识别出新的情感。
6.授权公告号为cn111967358b,名称为“一种基于注意力机制的步态识别方法”的专利提出的方法包括以下步骤:从基准数据集中分割出训练集和测试集;通过未嵌入注意力机制的步态提取模型预训练网络,以此来使得模型对人体步态有好的适应性;在网络中嵌入时域和空域注意力机制模块,并加载预训练的网络模型参数;重新运用数据集训练基于注意力机制的步态识别特征提取模型,以此可以获得较好的步态识别结果。该方法存在两
点不足之处:其一,单纯的注意力机制并不能很好地提取步态序列的空间和时间特征;其二,由于需要进行预训练,因此网络训练较为复杂,训练时的参数调整较为困难,并不是一个端到端的网络。
7.综上所述,现有的步态识别方法中存在未充分提取步态序列的空间特征与时间特征和深度自注意力变换网络容易过拟合的问题。


技术实现要素:

8.本发明的目的在于,针对上述现有技术中的不足,提供一种基于深度自注意力变换网络(transformer)的步态识别方法,以解决现有技术中未充分提取步态序列的空间特征与时间特征和深度自注意力变换网络容易过拟合的问题。从而提升步态识别的准确率。
9.为实现上述目的,本发明的技术思路是:通过卷积神经网络提取步态序列每一帧步态剪影图像的空间特征,将得到的步态序列特征在时间维度进行池化操作得到整体特征,将步态序列从图像高度维度进行分割,得到的局部特征分别使用transformer提取时间特征,之后在时间维度上进行全局最大池化操作得到最终的局部特征,将整体特征进行同样的分割后与局部特征进行融合,此过程在训练时采用平均的计算方式,在推理时采用加权平均的计算方式。本发明方法对步态序列时间特征显性建模,充分提取步态序列的空间特征和时间特征;通过训练多个弱分类器的方式解决深度自注意力变换网络易过拟合的问题。本发明步态识别方法的准确率较高。
10.本发明采用的技术方案如下:
11.本技术提供一种基于深度自注意力变换网络的步态识别方法,该方法包括如下步骤:s1,步态数据的获取及预处理;s2,基于transformer的步态识别网络的构建;s3,对步态识别网络进行训练和测试。
12.更进一步地,步态数据输入基于transformer的步态识别网络时的输入维度为n*s*c*h*w,其中n表示批的大小,s表示输入步态序列的帧数,c表示步态剪影图像的通道数,h表示步态剪影图像的高度,w表示步态剪影图像的宽度。
13.更进一步地,步骤s2构建的基于transformer的步态识别网络包括空间特征提取模块、时间特征提取模块、分类器融合模块。
14.更进一步地,空间特征提取模块包括局部空间特征提取部分和整体空间特征提取部分。
15.更进一步地,局部空间特征提取部分包括输入层和六个卷积层级联组成的特征提取网络。
16.更进一步地,六个卷积层中的两个卷积层包括最大池化操作。
17.更进一步地,整体空间特征提取部分包括全局最大池化操作和四个卷积层级联组成的特征提取网络。
18.更进一步地,四个卷积层中的一个卷积层包括最大池化操作。
19.更进一步地,时间特征提使用改进的transformer网络提取步态序列的时间特征。
20.更进一步地,基于transformer的步态识别网络的损失函数为三元损失函数。
21.与现有技术相比,本发明的有益效果:
22.(1)本发明针对步态序列的时间变化进行了显性建模,并且使用transformer网络
更加有效地完成了时间特征的提取,充分考虑步态序列的时间特征,本发明方法的步态识别准确率较高。
23.(2)本发明采用boosting的思想,训练多个弱分类器融合成为一个强分类器,使得本发明方法的步态识别准确率较高,并且避免了单分类器容易造成过拟合的问题。同时,在进行分类器融合时,有效地考虑了步态剪影图像本身的性质,为各个分类器设置了不同的权重,进一步提高本发明方法的步态识别准确率。
24.(3)本发明通过对transformer网络中encoder模块的优化,减少了模型的参数量和计算量,使得本发明方法的步态识别速度和准确率较高。
附图说明
25.图1为本发明提供的基于深度自注意力变换网络的步态识别方法的示意图;
26.图2为本发明提供的基于深度自注意力变换网络的步态识别方法中步骤s2构建的步态识别网络的整体结构图;
27.图3为本发明提供的基于深度自注意力变换网络的步态识别方法中步骤s2中transformer网络的结构图。
具体实施方式
28.为了使本发明的实施过程更加清楚,下面将会结合附图进行详细说明。
29.本发明提供了一种基于深度自注意力变换网络的步态识别方法,如图1所示,具体步骤如下:
30.s1,步态数据的获取及预处理;
31.步态数据可以来自于直接采集的视频,也可以来自于现有的数据集,具体地,本发明以casia-b数据集为例进行阐述。casia-b数据集由中科院自动化所模式识别国家重点实验室所建,国内外步态识别相关论文均以该数据集评估识别精度。casia-b数据集是一个大规模、多视角的步态数据集,采集于2005年1月,共有124个人,每个人的拍摄视角有11个(0,18,36,
……
,180度,其中0度代表正前方拍摄),在三种行走条件下(分别为普通条件,穿大衣,携带包裹条件)采集,其中三种行走条件的数据量比例为6:2:2,即普通条件包含六组数据,穿大衣条件包含两组数据(两组数据中行人穿衣的厚度略有不同),携带包裹条件数据包含两组数据(一组为单肩挎包,一组为手提包)。数据集中包含步态序列形式,步态能量图形式和视频形式,其中步态序列形式是中科院利用算法对视频形式的数据进行步态检测、步态分割和步态追踪后得到的由步态剪影构成的图像序列,步态能量图形式的数据是对步态剪影形式的数据在时间维度进行平均池化后得到的,本发明使用的是数据集中经过步态检测、步态分割和步态追踪后的步态序列形式的数据。
32.在使用casia-b数据集前,对其进行预处理,具体地,对casia-b数据集中的步态剪影图像进行归一化操作,由于数据集中每个步态序列中的步态剪影图像都包含大量的背景信息,因此需要将行人部分提取出来,同时为了保证输入本发明方法中使用的步态识别网络的步态剪影图像大小相同,方便该步态识别网络的训练和测试,即需要进行归一化处理。更具体地,归一化的方式为:因为步态剪影图像为二值图像,因此分别按行和按列遍历步态剪影图像寻找第一个值不全为零和最后一个值不全为零的索引,由此得到行人图像并且将
图像大小按比例调整为64*64大小,最后,因为一般情况下行人的高度大于宽度,所以将图像左右各按列截去10个像素,得到最终图像大小为64*44。
33.将casia-b数据集中步态序列形式的数据任意选取74人作为训练集,50人作为测试集。在训练时,训练集的所有数据均输入步态识别网络进行训练;在测试时,将测试集中每个人在普通条件下的前四组数据作为注册数据,其余数据作为测试数据,通过对测试集中所有数据提取特征并计算测试数据与注册数据的欧氏距离,得到每组测试数据欧氏距离最近的注册数据所对应的标签即为测试数据的预测标签,最终通过对比预测标签和测试数据本身的标签是否一致并统计得到本发明方法的步态识别准确率。这样的分配方式便于本发明方法使用的步态识别网络在训练时学习到提取不同条件、不同角度下的步态序列特征的能力,同时在测试时可以有效地检测该步态识别网络的泛化能力并且和其他人的实验条件相同,方便对比实验结果。
34.s2,基于transformer的步态识别网络的构建;
35.步态识别网络用于对步骤s1得到的步态序列形式的数据进行特征提取,其输入维度为n*s*c*h*w,其中n表示批的大小,s表示输入步态序列的帧数,c表示步态剪影图像的通道数,h表示步态剪影图像的高度,w表示步态剪影图像的宽度。参照图2,步态识别网络的整体结构包括空间特征提取模块、时间特征提取模块、分类器融合模块,具体如下:
36.空间特征提取模块:采用二维卷积神经网络提取步态序列每一帧的空间特征。如图2所示,输入层、卷积层1、卷积层2、卷积层3、卷积层4、卷积层5、卷积层6级联组成的特征提取网络,用于提取步态序列的局部空间特征,局部空间特征即步态序列中每一帧步态剪影图像的空间特征构成的特征集合。卷积层2和卷积层4后还分别包括最大池化1和最大池化2操作,最大池化1和最大池化2将张量变为n*s*c*h*w,其中h=h/4,w=w/4,这样,能够对局部空间特征在步态剪影图像高度和宽度维度上实现降维并且防止过拟合,提高步态识别网络的泛化能力,从而提升本发明方法的步态识别准确率。卷积层1、卷积层2、卷积层3、卷积层4、卷积层5、卷积层6、最大池化1、最大池化2的详细的参数设置见表1。
37.得到的步态序列的局部空间特征通过全局最大池化1和全局平均池化1在宽度维度上进行池化,其中全局最大池化1针对纹理特征,全局平均池化1针对背景特征,二者同时进行,具体地,为对局部空间特征分别进行全局最大池化1和全局平均池化1,将二者结果相加;由于全局最大池化操作更关注步态剪影图像的纹理特征,全局平均池化操作更加关注步态剪影图像的背景特征,同时使用两种池化方式能够充分利用两种池化方式的特性,从而获得更好的步态识别效果,提高本发明方法步态识别的准确率。需要说明的是,全局池化,包括全局最大池化和全局平均池化,是在一个维度上进行对应池化操作,将该维度上的数据压缩为一个值,因此只需要明确维度,不需要设置相关参数。而一般的池化操作,包括最大池化和平均池化,可以在多个维度上进行操作,本发明中的一般池化操作均在图像的高度和宽度维度上进行,并且一般的池化操作需要设置相关参数以确定池化后在相应维度值的数量,本发明中的一般池化操作均将相应维度值的数量变为原来的二分之一。接着通过分割1在步态剪影图像高度维度上进行分割,得到维度为n*s*c*h的张量,其中h是h的四分之一,输入到时间特征提取网络,时间特征提取网络的输入格式要求输入张量必须是三维的,由此需要上述全局最大池化1和全局平均池化1操作进行降维,但是如果对图像高度维度和宽度维度均进行降维会损失大量的信息,降低网络的泛化能力,因此采用分割1操
作,保留图像高度维度的信息。具体地,分割1操作将维度为n*s*c*h的张量采用循环的方式每次输入维度为n*s*c的张量,输入时间特征提取网络。
38.如图2所示,在卷积层2和最大池化1操作后,将还未完成空间特征提取的局部空间特征,在时间维度上进行全局最大池化1操作,用于提取步态序列的整体空间特征。整体特征即将步态序列视作一个整体,不再细分为多帧步态剪影图像的组合,因此需要在时间维度上进行池化,将多帧步态剪影图像压缩为一张图像,具体地,可以使用全局最大池化也可以或使用全局平均池化,更具体地,本发明使用全局最大池化。由于在时间维度上进行了全局最大池化3操作,因此整体特征中不再包含时间特征,仅有空间特征。如图2所示,初步提取的步态序列整体空间特征进入卷积层7、卷积层8、卷积层9、卷积层10级联组成的特征提取网络,用于进一步提取步态序列的整体空间特征。用于提取整体空间特征的网络在结构上与提取局部空间特征的网络相似,即卷积层8操作后在图像高度和宽度维度上进行最大池化3操作,并且在图像宽度维度上进行全局最大池化6和全局平均池化2操作,最后通过分割2在图像高度维度进行分割,得到维度为n*c*h的张量,具体实施步骤和原理均与局部空间特征提取网络中对应操作相同。
39.需要注意的是,将提取局部空间特征的卷积层分为三组,每两个卷积层为一组,即三组分别为卷积层1和卷积层2、卷积层3和卷积层4、卷积层5和卷积层6。为了充分利用各组卷积层提取后的局部空间特征,在卷积层3和卷积层4、卷积层5和卷积层6提取局部空间特征的卷积层完成后,均对当前的局部空间特征进行全局最大池化操作,分别为全局最大池化4、全局最大池化5,并且与对应阶段的整体空间特征相加,如图2所示,该操作可以将未完成特征提取的局部空间特征和整体空间特征相结合,且实现较为简单,这样可以有效地利用各个阶段的局部空间特征来提取整体空间特征,使整体空间特征更加丰富,利于最终步态识别准确率的提升,因此本发明方法的步态识别准确率较高。卷积层7、卷积层8、卷积层9、卷积层10、最大池化3的详细的参数设置见表1。由于本发明的空间特征提取模块分别设置了用于提取步态序列整体空间特征和局部空间特征的网络来充分提取步态序列的局部空间特征和整体空间特征,因此,本发明方法的步态识别准确率较高。具体而言,卷积层用于进行特征提取;最大池化操作用于防止步态识别网络过拟合,提升网络的泛化能力;同时使用全局最大池化和全局平均池化充分利用两种池化方式的特性,综合纹理特征和背景特征,获得更好的步态识别效果,提高本发明方法步态识别的准确率;分割操作为后续分类器融合模块进行预处理,这样本发明方法充分提取了步态序列的空间特征,且泛化能力较强,从而本发明方法的步态识别准确率较高。
40.时间特征提取模块:采用transformer网络提取步态序列的时间特征。transformer网络常用于自然语言处理领域,近年来在图像识别领域也有着广泛应用,其网络结构公开在由ashish vaswani等人于2017年发表的名称为“attention is all you need”的学术论文。本发明中采用的transformer网络由输入层、两个结构完全一致的encoder模块、一个全连接层级联组成的特征提取网络,将空间特征提取模块中提取的局部空间特征作为输入,计算其query向量、key向量和value向量。如图3所示,输入直接进行矩阵重组操作得到value向量;输入进行权重矩阵2点乘、矩阵重组、矩阵内部求和、位置编码后得到key向量;输入进行权重矩阵1点乘、矩阵重组、矩阵内部求和、位置编码后得到query向量。将query向量、key向量、value向量输入多头注意力机制部分,多头注意力机制的公式
为:
[0041][0042]
其中q、k、v分别表示query向量、key向量、value向量;t表示向量的转置操作,该操作是为了完成query向量和key向量相乘的必要操作,进而求得向量query和向量key各部分相关性;dk表示一个超参数,其目的是为了防止softmax函数的输入过大,造成超出计算机计算范围的情况;softmax表示softmax函数,其公式为:
[0043][0044]
其中xi表示输入向量x的第i个值,e表示以e为底的指数函数,该函数是一个归一化函数,可以将输入x的值变换到0到1之间,即将向量query和向量key各部分相关性控制在0到1之间。
[0045]
多头注意力机制得到的结果经过批归一化1、残差链接、全连接层1、全连接层2、批归一化2、残差链接后,完成一个encoder模块。进行批归一化操作是为了防止步态识别网络过拟合,提升泛化能力;残差链接是为了防止训练过程中出现梯度消失的问题,加速步态识别网络的训练;全连接层1和全连接层2是为了增加步态识别网络的非线性拟合能力,进而提升网络步态识别络性能,从而,本发明方法泛化能力较强,步态识别速度较快,步态识别准确率较高。本发明中的transformer网络含有两个结构完全相同的encoder模块,两个encoder模块串连,设置两个encoder模块的原因在于单一的encoder模块难以完全提取步态序列的时间特征,而过多的encoder模块则会使transformer网络过于复杂,降低训练和测试的效率并且容易造成过拟合问题,encoder模块为两个,即能够完全提取步态序列的时间特征,又不容易造成过拟合,因此本发明步态识别方法的效率和准确率较高。最后全连接层5的作用在于将经过两个encoder模块提取的局部特征升维,丰富特征,这使得本发明步态识别网络的识别准确率较高。权重矩阵1、权重矩阵2、批归一化1、全连接层1、全连接层2、批归一化2、权重矩阵3、权重矩阵4、批归一化3、全连接层3、全连接层4、批归一化4、全连接层5的详细参数设置见表1。
[0046]
在transformer网络后得到维度为n*s*c*h的包含空间特征和时间特征的步态序列局部特征,对于局部特征在时间维度上进行全局最大池化2操作,得到维度为n*c*h的局部特征,这样操作使得局部特征和整体空间特征在维度上相同,便于进一步的融合操作,同时,因为步态序列的特性原因,步态序列的时间特征存在大量冗余,需要全局池化进行降维,经实验全局最大池化的效果最好。本发明使用的transformer网络的设置与现有的transformer网络基本一致,仅在求得query向量,key向量和value向量部分有所改进,具体改进如下述。
[0047]
本发明对transformer网络进行了改进,如图3所示,针对多头注意力机制,设输入向量的维度为c,输入向量经过多头注意力机制后生成h个维度为k的向量,存在c=h*k。本发明将权重矩阵由c*c精简为c*k,因为通过理论推导发现权重矩阵中存在冗余,因此精简权重矩阵能够保证计算结果相近的同时减少计算量,从而本发明步态识别方法的识别效率
较高。具体地,将之前直接进行矩阵相乘后矩阵重组的计算方式改为先进行点乘,之后进行矩阵重组,最后矩阵内部求和的方式,如图3所示。所利用的原理是矩阵乘法本质是先进行点乘,后矩阵内部求和,因此在其中插入矩阵重组,即改变计算顺序,不会影响最终的结果。这样的计算方式允许权重矩阵缩小并保证了计算效率,因此,本发明步态识别方法的识别效率较高。本发明使用transformer网络对步态序列的时间特征进行显性建模,所谓显性建模就是专门设计一个用于提取步态序列时间特征的模块,利用了transformer网络对于序列的特征提取能力较强,充分提取步态序列的时间特征,同时对于transformer网络进行了优化,在保证特征提取能力的基础上提升了计算效率。由于本发明充分考虑了步态序列的时间特征,本发明识别方法的准确率较高。
[0048]
将步态剪影图像的整体空间特征,即维度为h*n*s*c的张量,与步态剪影图像的局部特征进行融合,具体地,局部特征包含局部空间特征和局部时间特征。
[0049]
定义三元损失函数为步态识别网络的损失函数loss,公式如下:
[0050]
l=max(d(a,p)-d(a,n) margin,0)
[0051]
其中,l表示损失,三元损失函数的输入是一个三元组《a,p,n》,a表示目标样本,p表示与a是同一样本标签的样本,n表示与a是不同样本标签的样本,max表示一个函数,输入两个值,返回其中的最大值;d表示一个函数,计算输入的两个向量的欧氏距离,计算公式为:
[0052][0053]
x,y表示n维向量,xi,yi分别表示向量x和y在第i维的值;margin是一个预设的超参数,其意义在于保证a与p之间的距离和a与n之间的距离有一个间隔。当a与n之间的距离大于a与p之间的距离加margin时,损失函数输出为0,步态识别网络不更新参数;当a与n之间的距离小于或等于a与p之间的距离加margin时,损失函数输出大于0,步态识别网络进行参数更新。本发明中损失函数的输入是三组神经网络提取的步态序列的特征,包含整体空间特征和局部特征,具体的输入方式是对于最终得到的特征。在图像高度维度上分别计算其三元损失函数,这样在训练阶段计算三元损失函数后,通过随机梯度下降的方式反向传播,更新步态识别网络的参数,使得步态识别网络对于拥有相同标签的步态序列计算出的特征在欧氏距离更为接近,而对于不同标签的步态序列计算出的特征在欧氏距离更为疏远,达到更好的步态识别效果,因此,本发明方法的步态识别准确率较高。之后在测试集上得到步态识别结果和准确率的过程会在步骤s3中详细描述。
[0054]
分类器融合模块:步态识别问题本质上为一种分类问题,即对于输入的步态序列进行分类,判断其所属的样本标签,实现方式是通过训练集的数据和随机梯度下降的方法训练上述步态识别网络,即训练一个分类器,并且在测试集上验证该分类器的分类性能。解决步态识别问题时,因为人体在行走的过程中各个部位的动作幅度并不相同,使用一个上述步态识别网络往往不能达到目的,因此由多个共用一个transformer网络的上述步态识别网络来完成,即由多个分类器共同完成,每个分类器针对人体的不同部位进行训练。本实施例采用32个弱分类器,局部特征和整体空间特征部分分别有16个弱分类器,这样的设计是针对casia-b数据集专门设置,因为预处理后步态序列中每帧步态剪影图像的大小均为64*44,如遇到其他数据集还需要根据数据集特性进行分析和设置上的调整。
[0055]
步态序列输入空间特征提取模块后,经过两次最大池化操作,在图像高度和宽度维度上变为16*11,再经过全局最大池化和全局平均池化后(全局最大池化1、全局平均池化1、全局最大池化6和全局平均池化2),局部空间特征提取模块和整体空间特征提取模块上在图像宽度维度上实现降维,而图像高度维度上均保持16不变。此时对于整体空间特征,通过分割2操作,将张量在图像高度维度分割为16个二维张量(n*c,如整体空间特征提取模块所述),对于局部空间特征,通过分割1操作,将张量在图像高度维度分割为16个三维张量(n*s*c,如局部空间特征提取模块所述),构成总计32个弱分类器。本发明中通过图像高度维度上的等分,按从头到脚的顺序决定弱分类器训练的部位,由于张量在图像高度维度分割,所以每一部分张量对应人体从头到脚16等分后的身体部位。每个弱分类器的输入不相同,每个弱分类器只进行对应部位的训练,通过融合形成一个强分类器,如图2所示。对于所有的分类器,都采用同一个transformer网络提取时间特征,这样可以减少网络的参数量,提高网络的训练效率,防止过拟合问题,本发明方法的步态识别效率较高。将上述多个弱分类器的结果进行融合得到最终的步态识别结果,即判断了一组步态序列所对应的样本标签,这样的方式可以有效地反映人体不同部位在行走时动作幅度差异,进而提高步态识别的准确率。
[0056]
融合前通过训练得到的多个分类器称为弱分类器,弱分类器的分类性能相对较弱,而将多个弱分类器融合称为一个强分类器,强分类器综合了多个弱分类器的结果,因而一般情况下强分类器的分类性能较强,该步骤的核心在于弱分类器融合的方式。具体地,将弱分类器的损失函数进行融合,融合的方式在训练时和测试时略有不同,训练时采用直接求均值的方式,测试时采用加权求均值的方式,这种不同是由在训练时和测试时的数据利用方式的差异决定的。训练时周期较长,对训练集中的数据多次重复使用,步态识别网络可以通过随机梯度下降学习到人体不同部位在行走时动作幅度差异,所以选用直接求均值的方式简化运算;在测试时,为了模拟真实使用场景,测试集中的数据仅使用一次,步态识别网络难以直接捕捉到人体不同部位在行走时动作幅度差异,因此需要通过加权求均值的方式辅助识别。多个弱分类器融合成为强分类器,能够有效提升本发明方法步态识别的准确率。
[0057]
表1:基于transformer的步态识别网络中各个模块的参数设置如下:
[0058][0059]
综上所述,本发明通过由多个弱分类器融合后的强分类器进行步态序列的识别,构成分类器的基于transformer的步态识别网络由三个模块构成,如图2所示,分别为空间特征提取模块、时间特征提取模块、分类器融合模块。首先将步态序列输入空间特征提取模块,得到步态序列的整体空间特征和局部空间特征,之后将局部空间特征输入时间特征提取模块得到包含局部空间特征和局部时间特征的局部特征,最后将整体空间特征和局部特征输入分类器融合模块得到最终的识别结果,即得到步态序列对应的样本标签。
[0060]
s3,对步态识别网络进行训练和测试。
[0061]
通过梯度下降策略,利用步骤s1得到的训练集样本和样本标签,对步态识别网络进行训练,通过步骤s1得到的测试集样本和样本标签验证模型的识别能力。其中样本标签是指步态序列对应的行人的编号,casia-b数据集将124个行人的步态序列数据进行编号。
[0062]
s31,初始化网络参数,设置迭代次数、学习率、批的大小、三元损失函数中的间隔和序列帧数等关键参数;
[0063]
s32,将训练集中的步态序列输入到步态识别网络中,得到按照输入图像高度维度划分的步态序列整体空间特征和局部特征,此时的局部特征是先提取空间特征后提取时间特征后得到的。按照图像高度维度进行划分的方式更加符合人脑进行步态识别时的过程,即人脑进行步态识别时对目标从头到脚进行观察,并且更加关注手脚等动作幅度较大的部分。对于这种有着明显注意力的观察方式的模仿对应为分类器的融合,具体内容下s35中详
述;
[0064]
s33,在训练时,训练集中样本较多,全部输入步态识别网络难以训练,因此每次从数据集中选取部分数据输入步态识别网络进行训练,每次选取的数据称为一批数据。在本发明中,数据选取的方式为,首先随机选取8个行人编号,即样本标签,之后在每个样本标签下各随机选取16组步态序列,因此本发明中一批数据包含128组步态序列。将这128组步态序列输入到神经网络中输出一个维度为128*32*256的张量,其中128指该批数据总计有128步态序列,32指本发明中为32个弱分类器,256指每个弱分类器中需要计算的向量长为256。对同一批中的每一组步态序列,随机采样与其拥有相同样本标签和不同样本标签的序列各一组构成三元组,计算各分类器的三元损失函数loss,每一组步态序列中的各个弱分类器均使用相同的三元组。计算损失函数的具体方式为,对于每组步态序列,找出其所随机选择的三元组中,并且将32个弱分类器的计算结果求均值得到步态识别网络的损失,之后采用梯度下降法对整个步态识别网络的参数进行更新;
[0065]
s34,达到预先设置的迭代次数或损失小于阈值时结束训练,本发明中设置的迭代次数为110000次,阈值为1e-9;
[0066]
s35,将测试集中的步态序列输入到步态识别网络中,按照步骤s1中所属方式划分,每一个样本标签,即同一个行人中的部分序列作为注册数据集,剩余部分为测试数据集,划分方式如s1所述,50人作为测试集,在测试时,将测试集中每个人普通条件下的前四组数据作为注册数据,其余数据作为测试数据。这样的分配方式便于步态识别网络在训练时学习到提取不同条件、不同角度下的步态序列特征的能力,同时在测试时可以有效地检测步态识别网络的泛化能力并且和其他人的实验条件相同,方便对比实验结果。首先将测试集中的所有步态序列输入已经完成训练的步态识别网络提取特征,得到的步态序列特征包含注册数据和测试数据的步态序列特征,假设注册数据包含n组步态序列,测试数据包含m组步态序列,对于测试数据中每一组步态序列,均计算其特征与注册数据中每组步态序列的特征的欧氏距离,即对于测试数据中每一组步态序列可以得到n个结果,寻找其中值最小的结果所对应的样本标签即为本组步态序列的测试标签,与本组步态序列的样本标签进行对比,如果相同代表识别正确,不同则代表识别错误,最终统计测试数据中所有步态序列的识别结果并计算识别的准确率。
[0067]
在测试时,弱分类器的融合方式为加权求和,因为步态序列中,行人行走时动作幅度较大的部位,如手、脚等,在步态能量图中存在大量的介于0到1之间的值,这种融合方式很好地利用了这一特性对这些部分给予较大权重,更好地模拟了人脑进行步态识别的方式。对应权重通过对训练集中的步态序列计算得到,具体的计算方式为对步态序列在时间维度全局平均池化得到步态能量图,统计每个弱分类器所对应的感受野中值在0到1之间的数量与值为1的数量的比值,归一化后得到每个弱分类器对应的权重,这种求权重的方式实现较为简单不会增加大量的额外计算。
[0068]
除背景技术部分,本发明中“步态识别网络”的含义与“基于transformer的步态识别网络”含义相同,均指如图2所示的基于transformer的步态识别网络。
[0069]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献