一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于增强连接时序分类网络的步态识别方法与流程

2022-03-05 00:15:09 来源:中国专利 TAG:


1.本发明属于图像识别技术领域,涉及一种基于增强连接时序分类网络的步态识别方法。


背景技术:

2.在过去20年,基于步态的识别技术得到了长足的发展,广泛应用于视频监控、身份识别、物联网等诸多领域。步态特征提取在步态识别中起着重要的作用,其精度直接影响了步态识别的准确性。通常的,步态特征提取方法包括基于外观和基于模型的特征提取方法。
3.基于外观的特征提取方法主要是从一个步态周期中提取外观特征,使用人体轮廓作为原始输入数据。步态能量图是通过对一个完整步态周期内的人体轮廓进行平均而构建的能量图,这也是目前使用的比较多的一种较为流行的步态特征表示方法,图像平均过程中对随机噪声进行了抑制具有较强的鲁棒性,在一个周期内不改变步行条件时,gei简单有效,但是gei易受各种协变条件的影响,如携带状态、服装、步行速度、视角等。基于gei的方法能够保留一定的空间信息,但在轮廓平均的过程中往往会丢失连续图像之间的变化特征信息。一些其他的为了减轻图像的不完整带来的影响方法包括步态光流图,步态熵图像,帧差能量图。这一类基于统计的方法是将多帧步态图像数据压缩到了一幅图像上,往往会丢失步态行为重要的时序特征而影响其应用。并且生成能量图需要完整周期的步态图像序列,所以此类方法对步态周期及一些协变条件的实时变化仍然不具有较强的鲁棒性。
4.基于模型的特征提取方法主要是试图从人体行走序列建立模型来重建人的身体结构,利用构建的模型提取步态参数进行个体识别。因此,基于模型的方法是基于先验知识的。与基于外观的方法相比,基于2d或3d模型的方法能够在一定程度上解决遮挡和旋转等问题,相对于外观变化更具优势。
5.近年来,基于深度学习的方法广泛应用于语音、图像和视频处理等相关领域,也包括步态识别。尤其是随着深度神经网络网络和大规模步态数据集的发展,步态识别也引起了广泛的关注,利用深度网络来提取视图不变特征也越来越流行。然而,在实际生活中,由于我们的受试者容易受到遮挡或者外界遮挡,往往获取到的步态周期不够完整,而且当受试者在曲线行走而不是直线行走时,提取的步态轮廓的视角一直处于变化中,视角变化是我们众多协变条件最为棘手的一种,因为没办法在实际应用中控制受试者的行走方方向。
6.目前大多数的步态识别方法都是基于至少一个完整的步态周期,并且在各种协变条件不变的情况下,取得很好地识别性能。然而在大多数公众场所,遮挡是不可避免的。因此,监控摄像头只能捕捉到小部分的步态周期数据,周期内的步行条件变化也十分常见,行走速度也可以在帧与帧之间不断进行变化。但是,到目前为止,解决这一类问题的处理方法不多。
7.在大多数的步态识别方法中,都隐式的假设受试者沿着直线行走,并且是基于一个完整的步态周期。在不同的步态识别条件下,尤其是在训练中使用随机步态数据,在测试中使用不同的步行变化时步态识别算法还具有一定的挑战,还需要通过更加准确的内在描
述符和更加灵活的方法来提高算法的准确率。


技术实现要素:

8.针对现有技术的不足,本发明的目的在于提供一种基于增强连接时序分类网络的步态识别方法,该方法利用连接时序分类方法的优势,通过随机的步态帧进行步态识别,不仅能够减小步态周期不完成带来的影响,而且能够有效抑制各种协变条件对步态识别性能带来的影响,得到一种周期弱相关的步态识别方法。
9.为了达到上述目的,本发明的技术方案如下:
10.本发明提供一种基于增强连接时序分类网络的步态识别方法,包括:
11.s1、将步态图片依据时序进行分组,并按组构建非完整周期的子步态能量图(nc-geis);
12.s2、随机抽取预定长度的子步态能量图,依据时序先后构建具有相同序列标签的步态训练数据;通过深度卷积网络和具有时序特征的双向长短期记忆网络来提取步态的静态和动态时序特征,利用连接时序分类器在训练过程中自动对齐序列标签的优势,结合三元组损失,将样本分为正样本、负样本和自身样本,以提高分类器对细小差异的鉴别能力;
13.s3、在仅对周期内固定行走条件的各类数据进行时序分类训练的前提下,针对周期内变化行走角度的曲线行走和合成的行走条件变化数据进行测试。
14.优选的方案,所述步骤s1中,将步态图片依据时序分成3~5帧/组。
15.优选的方案,所述步骤s2中,包括:
16.(1)采用前馈的方式,利用深度卷积神经网络(densenet)的稠密连接机制,直接将所有层相连接,从而减少梯度消失,加强特征间的传递,同时减少相关参数和计算量;
17.(2)利用长短期记功能的的循环神经网络(bi-directional long short-term memory,bi-lstm)来提取步态时序特征;
18.(3)利用深度卷积神经网络、循环神经网络和基于ctc(connectionist temporal classification)的连接时序分类器,来构建端到端的增强连接时序分类网络模型en-ctcnet(enhanced ctc network),以实现更加灵活的局部标签预测和步态识别;
19.(4)构建增强连接时序分类网络en-ctcnet的多目标混合损失函数,包括ctc损失函数、triplet loss损失函数(三元组损失函数)和softmax损失函数,利用triplet loss损失函数的优势扩大类间差异,缩小类内差异,提高识别效率。
20.进一步,所述步骤(1),具体为:
21.1.1)令s为固定分布中的步态训练样本集;输入空间是所有i维向量的有限序列集合;目标空间(预测空间)表示为有限字符id条件下所有序列的集合,通常将元素称为标记或标记序列;每个步态训练样本都由一组序列(x,z)组成;目标序列z=(z1,z2,...,zm)小于或等于输入序列x=(x1,x2,...,x
t
),即m≤t;因为输入序列与目标序列通常具有不同的长度,输入序列可以是随机大小,而输出序列只能是一个或者几个id,所以没有先验的方法对输入序列和输出序列进行预对齐处理;
22.本发明的目标就是利用步态样本集s来训练一个增强连接时序分类器,并能对任意长度的步态测试序列数据进行分类,输出最有可能的序列标签,即:
[0023][0024]
1.2)利用densenet网络进行步态特征的降维和提取,其输出特征定义为
[0025]
1.3)使用长度为t的序列向量x=(x1,x2,...,x
t
),其中并将x作为bi-lstm网络的输入。
[0026]
进一步,所述步骤(2),具体为:
[0027]
2.1)长短期记功能的循环神经网络是基于x
t
和h
t-1
来计算h
t
,只不过对内部的结构进行了更加精心的涉及,加入了输入门i
t
、遗忘门f
t
以及输出门o
t
三个门和一个内部记忆单元c
t

[0028]
其中,输入门控制当前计算的新状态以多大程度更新到记忆单元中,遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉,输出门控制当前的输出有多大程度上取决于当前的记忆单元;
[0029]
2.2)在步态序列标记任务中,步态id的集合用a表示,在本发明提出的增强时序分类方法中,有softmax输出层单元|a|,表示为在时间节点t所观测到的相应标签概率;
[0030]
本发明还引入了一个额外的标签单元,名称为“边界间隔”,用表示;
[0031]
边界间隔用来观察和标记行条件的变化;带有的扩展步态id集合表示为在不同时间节点t,softmax输出层定义了所有id的概率,每一个时间节点取一个id并连接起来便构成了一条路径π;将这条路径所有时刻的id观察概率相乘得到路径总概率,它体现了输入序列到输出路径序列的概率;
[0032]
2.3)利用densenet网络输出特征定义为长度为t的序列向量x=(x1,x2,...,x
t
),其中并将x作为bi-lstm网络的输入;bi-lstm网络的输出与softmax层相连,连接权重定义为w
blstm
;bi-lstm网络输入与输出的关系为:
[0033][0034]
即通过该子网络实现了序列空间的连续映射通过该映射将输入序列x映射到连续输出将输入序列x映射到连续输出定义为在时间t时观测到标签k的概率。
[0035]
进一步,所述步骤(3),具体为:
[0036]
3.1)令a

t
为步态id集合上长度为t的序列集合;假设每次观察的条件概率都是输出独立的,可以通过输入序列x来获得集合中任何路径π的概率分布,输入序列x是原始步态序列图经过densenet步态空间特征提取网络和bi-lstm步态时序特征提取网络后输出的序列特征,其对应路径π的概率分布表示为:
[0037][0038]
3.2)定义集合a

的一个id标签序列为l,因为集合a

可能有多个路径映射到同一
序列,因此需要重新定义多对一的函数来重新映射路径集,并获得预测的id标签序列,即:fm:a

t
→a≤t
,其中a
≤t
表示可能的路径集,即在原始路径的基础上,预测的id序列的长度不大于输入序列的长度;
[0039]
定义映射函数fm的思想:从路径中删除所有重复的标签和区间边界例如:
[0040][0041]
相当于网络从原始输入序列标签转换为预测标签,或者从预测到的标签转换为另一个新标签;与文本序列中有多个字母的情境不同,在步态识别中,步态序列通常具有相同的id,因此,如下的预测结果“id1id2id2id
2”就显得不那么合理了,因此引入投票策略来获得最终预测结果,即:
[0042]
p
vote
(id1id2id2id2)=id2id2id2[0043]
显然,基于ctc算法的识别方法不需要输入数据与预测标签之间的一一对齐,注意力更多的集中在整个序列的最终预测结果;
[0044]
最终将l∈a
≤t
标记为其对应的所有路径的概率之和,那么id标签序列的实际预测概率可以表示为:
[0045]

[0046]
进一步,所述步骤(4),具体为:
[0047]
4.1)构建增强连接时序分类网络en-ctcnet的多目标混合损失函数,包括ctc损失函数、triplet loss损失函数以及softmax损失函数,根据id标签序列实际概率,定义ctc损失函数为:
[0048]
l
ctc
=-lnp(l|x)
[0049]
4.2)本发明提出的基于ctc的步态识别方法可以输出一个序列的id,该序列id非常适用于以随机步态帧作为输入来实现周期弱相关的步态识别,并且其还具有处理周期内步行条件变化的潜力;
[0050]
4.3)为了尽可能保留更多的步态识别信息,训练中对所有的样本,按照三元组进行分类,分为自身样本、正样本和负样本;
[0051]
其中,正样本与自身样本是属于同一类的样本,而负样本是与自身样本不在同一类的样本。定义基于三元组的能量损失函数:
[0052][0053]
通过最小化三元组能量损失函数,完成对三元组分类器的学习,基于三元组的分类器,可以将同类样本差异极小化,不同类样本之间的差异最大化,很好地完成对测试样本的分类识别;同时,eh-ctcnet有效结合ctc损失函数、triplet loss损失函数以及softmax损失函数,总权重损失函数定义为:
[0054]wloss
=ω1l
ctc
ω2l
triples
ω3l
softmax
[0055]
上式中ω1,ω2,ω3表权重值,满足ω1 ω2 ω3=1;
[0056]
通过控制ω1,ω2,ω3的大小,以提取到最适合网络训练的特征,实现不影响网络
分类识别的同时,在一定程度上加快网络的收敛速度。
[0057]
优选的方案,步骤s3中,利用ky4d和casia-b步态数据库的训练样本对基于增强连接时序分类网络模型进行训练,并对casia-b测试数据进行人为拼接测试。
[0058]
进一步,所述步骤s3中,具体为:
[0059]
1)ky4d数据集包含42位具有3d视觉人体模型和2d步态图像序列的受试者;该步态数据序列有16个摄像头进行捕获,图像分辨率为1032
×
776;每一个视角下都包含有4个正常行走序列{t1,t2,t3,t4}和2个曲线轨迹行走序列{t5,t6};
[0060]
casia-b数据集是一个多视图的步态数据集,主要考虑2个协变条件,即:服装变化和物体携带;该数据集包含有124名受试者的视频序列,对于每名受试者都有10个步态序列:6个正常行走条件序列(nm-01~nm-06)、2个携带背包序列,2个大衣序列,每个序列都有11个不同的视角,在0
°
~180
°
范围内,间隔为18
°
;每位受试者包含有11
×
(6 2 2)=110个序列;casia-b提供了背景减除法后的剪影基准图像,只需要通过对齐其质心来对齐这些轮廓,并将这些轮廓归一化处理为120
×
80;
[0061]
2)对于casia-b步态数据集验证所述的增强连接时序分类网络性能时,将正常行走背包、穿大衣协变条件下的数据各人为的选取1/2周期进行拼接测试。
[0062]
本发明提出了一种基于增强连接时序分类网络的步态识别方法,通过构建增强连接时序分类网络,得到一种基于随机帧且周期内行走条件可变的步态识别方法,以提高其在面对复杂应用场景时的应用效果。
[0063]
本发明的增强连接时序分类方法综合了连接时序分类网络和三元组损失函数的优势,使得我们的步态识别方法对步态周期的依赖性降低,对协变条件具有更强的鲁棒性,能在步态周期不完整的条件下,并且面对步态行走条件实时变化的场景时,都能取得较好的识别效果。
[0064]
本发明的有益技术效果为:
[0065]
(1)首选随机选取少量二值轮廓图来构建步态子能量图,使用子步态能量图(nc-geis)依据时序来构建具有时序的训练数据。
[0066]
(2)在步态识别分类的过程中,利用深度卷积神经网络(densenet)提取步态的静态特征,使用循环神经网络(bi-lstm)进一步提取其时空特征。
[0067]
(3)本发明提出的方法能够保留步态的时序信息,不需要对输入序列和输出序列进行对齐,并且也不需要将将序列划分步态周期。同时通过引入triplet loss损失函数,使得不同类样本具有更高的可区分性。
附图说明
[0068]
图1为本发明增强连接时序分类网络架构;
[0069]
图2为ctc softmax输出图示;
[0070]
图3为本发明不同视角训练数据rank-1步态识别率;
[0071]
图4为合成样例图示;
[0072]
图5为本发明合成数据与单协变条件识别率比较。
具体实施方式
[0073]
下面结合实施例和附图对本发明的实施方式作进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0074]
实施例1
[0075]
本实施中所述的方法,采用python编程语言实现,使用公开发布的九州大学的ky4d步态数据集、中科院的caisa-b数据集,ky4d数据集(iwashita等,2014)包含42位具有3d视觉人体模型和2d步态图像序列的受试者。该步态数据序列有16个摄像头进行捕获,图像分辨率为1032
×
776。每一个视角下都包含有4个正常行走序列{t1,t2,t3,t4}和2个曲线轨迹行走序列{t5,t6}。casia-b数据集(yu等,2006)是一个多视图的步态数据集,主要考虑2个协变条件,即:服装变化和物体携带。该数据集包含有124名受试者的视频序列,对于每名受试者都有10个步态序列:6个正常行走条件序列(nm-01~nm-06)、2个携带背包序列,2个大衣序列,每个序列都有11个不同的视角,在0
°
~180
°
范围内,间隔为18
°
。每位受试者包含有11
×
(6 2 2)=110个序列。
[0076]
本发明一种基于增强连接时序分类网络的步态识别方法,包括:
[0077]
步骤1、将步态图片依据时序进行分组,并按组构建非完整周期的子步态能量图(nc-geis);
[0078]
步骤2、随机抽取预定长度的子步态能量图,依据时序先后构建具有相同序列标签的步态训练数据;通过深度卷积网络和具有时序特征的双向长短期记忆网络来提取步态的静态和动态时序特征,利用连接时序分类器在训练过程中自动对齐序列标签的优势,结合三元组损失,将样本分为正样本、负样本和自身样本,以提高分类器对细小差异的鉴别能力;
[0079]
步骤2.1:利用深度卷积神经网络(densenet)以前馈的方式建立每一层之间的连接,进一步减小梯度消失问题,同时减少相关参数和计算量;
[0080]
1)令s为固定分布中的步态训练样本集。输入空间是所有i维向量的有限序列集合。目标空间(预测空间)表示为有限字符id条件下所有序列的集合,通常将元素称为标记或标记序列。每个步态训练样本都由一组序列(x,z)组成。目标序列z=(z1,z2,...,zm)小于或等于输入序列x=(x1,x2,...,xt),即m≤t。因为输入序列与目标序列通常具有不同的长度,输入序列可以是随机大小,而输出序列只能是一个或者几个id,所以没有先验的方法对输入序列和输出序列进行预对齐处理。本发明的目标就是利用步态样本集s来训练一个连接时序分类器,并能对测试序列数据进行分类,输出最有可能的序列标签,即:
[0081][0082]
2)利用densenet网络用于步态特征的降维和提取,其输出特征定义为
[0083]
3)使用长度为t的序列向量x=(x1,x2,...,xt),其中并将x作为bi-lstm网络的输入。
[0084]
步骤2.2:利用长短期记功能的循环神经网络(bi-directional long short-term memory,bi_lstm)来提取步态时序特征;
[0085]
1)所述长短期记功能的循环神经网络是基于x
t
和h
t-1
来计算h
t
,只不过对内部的结构进行了更加精心的涉及,加入了输入门i
t
、遗忘门f
t
以及输出门o
t
三个门和一个内部记忆单元c
t
。其中,输入门控制当前计算的新状态以多大程度更新到记忆单元中,遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉,输出门控制当前的输出有多大程度上取决于当前的记忆单元。
[0086]
2)在步态序列标记任务中,步态id的集合用a表示,在本发明提出的增强时序分类方法中,有softmax输出层单元|a|,表示为在时间节点t所观测到的相应标签概率。本发明还引入了一个额外的标签单元,名称为“边界间隔”,用表示。边界间隔用来观察和标记行条件的变化。带有的扩展步态id集合表示为。在不同时间节点t,softmax输出层定义了所有id的概率,每一个时间节点取一个id并连接起来便构成了一条路径π。将这条路径所有时刻的id观察概率相乘得到路径总概率,它体现了输入序列到输出路径序列的概率;
[0087]
3)利用densenet网络输出特征定义为长度为t的序列向量x=(x1,x2,...,x
t
),其中并将x作为bi-lstm网络的输入。bi-lstm网络的输出与softmax层相连,连接权重定义为w
blstm
。bi-lstm网络输入与输出的关系为:
[0088][0089]
即通过该子网络实现了序列空间的连续映射通过该映射将输入序列x映射到连续输出将输入序列x映射到连续输出定义为在时间t时观测到标签k的概率。
[0090]
步骤2.3:利用基于ctc的增强连接时序分类网络(en-ctcnet)以实现更加灵活的局部标签预测和步态识别;
[0091]
1)令a

t
为步态id集合上长度为t的序列集合。假设每次观察的条件概率都是输出独立的,可以通过输入序列x来获得集合中任何路径π的概率分布,输入序列x是原始步态序列图经过densenet步态空间特征提取网络和bi-lstm步态时序特征提取网络后输出的序列特征,其对应路径π的概率分布表示为:
[0092][0093]
2)定义集合a

的一个id标签序列为l,因为集合a

可能有多个路径映射到同一序列,因此需要重新定义多对一的函数来重新映射路径集,并获得预测的id标签序列,即:fm:a

t
→a≤t
,其中a
≤t
表示可能的路径集,即在原始路径的基础上,预测的id序列的长度不大于输入序列的长度。定义映射函数fm的思想:从路径中删除所有重复的标签和区间边界例如:
[0094][0095]
相当于网络从原始输入序列标签转换为预测标签,或者从预测到的标签转换为另一个新标签。与文本序列中有多个字母的情境不同,在步态识别中,步态序列通常具有相同
的id,因此,如下的预测结果“id1id2id2id
2”就显得不那么合理了,因此引入投票策略来获得最终预测结果,即:
[0096]
p
vote
(id1id2id2id2)=id2id2id2[0097]
显然,基于ctc算法的识别方法不需要输入数据与预测标签之间的一一对齐,注意力更多的集中在整个序列的最终预测结果。最终将l∈a
≤t
标记为其对应的所有路径的概率之和,那么id标签序列的实际预测概率可以表示为:
[0098][0099]
步骤2.4:构建增强连接时序分类网络en-ctcnet的多目标混合损失函数,包括ctc损失函数、triplet loss损失函数以及softmax损失函数,使得所述网络对步态周期的依赖性较低,实现局部预测;
[0100]
1)所述增强连接时序分类网络en-ctcnet的多目标混合损失函数,包括ctc损失函数、triplet loss损失函数以及softmax损失函数,根据id标签序列实际概率,定义损失函数为:
[0101]
l
ctc
=-lnp(l|x)
[0102]
2)本发明提出的基于ctc的步态识别方法可以输出一个序列的id,该序列id非常适用于以随机步态帧作为输入来实现周期弱相关的步态识别,并且其还具有处理周期内步行条件变化的潜力;
[0103]
3)为了尽可能保留更多的步态识别信息,训练中对所有的样本,按照三元组进行分类,分为自身样本、正样本和负样本。其中,正样本与自身样本是属于同一类的样本,而负样本是与自身样本不在同一类的样本。定义基于三元组的能量损失函数:
[0104][0105]
通过最小化三元组能量损失函数,完成对三元组分类器的学习,基于三元组的分类器,可以将同类样本差异极小化,不同类样本之间的差异最大化,很好地完成对测试样本的分类识别。同时,eh-ctcnet有效结合ctc损失函数、triplet loss损失函数以及softmax损失函数,总权重损失函数定义为:
[0106]wloss
=ω1l
ctc
ω2l
triples
ω3l
softmax
[0107]
上式中ω1,ω2,ω3表权重值,满足ω1 ω2 ω3=1。通过控制ω1,ω2,ω3的大小,以提取到最适合网络训练的特征,实现不影响网络分类识别的同时,在一定程度上加快网络的收敛速度。
[0108]
步骤3、在仅对周期内固定行走条件的各类数据进行时序分类训练的前提下,针对周期内变化行走角度的曲线行走和合成的行走条件变化数据进行测试;
[0109]
利用ky4d和caisa-b训练样本对基于增强连接时序分类网络模型进行训练,并对casia-b测试数据进行人为拼接。
[0110]
1)ky4d数据集包含42位具有3d视觉人体模型和2d步态图像序列的受试者。该步态数据序列有16个摄像头进行捕获,图像分辨率为1032
×
776。每一个视角下都包含有4个正
常行走序列{t1,t2,t3,t4}和2个曲线轨迹行走序列{t5,t6};casia-b数据集是一个多视图的步态数据集,主要考虑2个协变条件,即:服装变化和物体携带。该数据集包含有124名受试者的视频序列,对于每名受试者都有10个步态序列:6个正常行走条件序列(nm-01~nm-06)、2个携带背包序列,2个大衣序列,每个序列都有11个不同的视角,在0
°
~180
°
范围内,间隔为18
°
。每位受试者包含有11
×
(6 2 2)=110个序列。casia-b提供了背景减除法后的剪影基准图像,只需要通过对齐其质心来对齐这些轮廓,并将这些轮廓归一化处理为120
×
80。
[0111]
2)对于casia-b步态数据集验证我们提出的增强连接时序分类网络性能时,将正常行走背包、穿大衣协变条件下的数据各人为的选取1/2周期进行拼接测试。测试结果显示,所述方法不仅对步态周期的依赖性降低,对协变条件具有更强的鲁棒性,能在步态周期不完整的条件下,并且面对步态行走条件实时变化的场景时,都能取得较好的识别效果,包括:协变条件变化的步态识别,周期不完整步态识别,跨视角步态识别等,具有很好的经济和社会效益。
[0112]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。对于本技术领域的技术人员来说,在不脱离本发明技术构思前提下所得到的改进和变换也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献