一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多任务学习的步态识别方法和装置与流程

2022-12-13 20:52:26 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,具体涉及一种多任务学习的步态识别方法和装置。


背景技术:

2.随着时代的发展,保障公民和社会的安全,至关重要。在公共交通区域进行监控是提供可靠保障的必要措施,而行人作为监控视频中的核心,如何准确地识别行人身份,及时了解环境中行人的身份变化成为研究热点。目前智能监控系统,可以借助人工智能,提取人体原有的生理或行为特征来识别个人身份,实现全天候自动实时工作。例如步态识别在安防、刑警勘测领域更具发展潜力。
3.步态可以被定义为人类行走过程中一系列协调、周期性的动作,包含人类相关的线索和信息,每个人的步态都是独一无二的。步态特征是人的一种长期的行为习惯,不容易改变、伪装和隐藏。基于以上优势,步态识别已经被广泛用于不同的应用领域,例如情感分析、运动科学、健康监测和用户标识,在计算机视觉领域极具发展潜力。
4.目前步态识别系统的一般识别过程为:首先由视频监控或者摄像头采集一系列的行人的步态,然后对采集的图像序列进行目标检测、目标追踪和对象分割等操作,从而获取一系列连续的行人的步态黑白轮廓图。再对黑白轮廓图进行特征提取,与已存储的步态特征进行对比,实现步态识别。但是在采集行人步态的图像、照片时,由于拍摄图像与视角的变化有关,不同的视角变化,会导致视觉系统提取的人体轮廓产生巨大差异,进而影响识别人体步态的准确率。


技术实现要素:

5.本发明主要解决:由于拍摄图像视角不同或者变化,影响视觉特征提取产生较大差异的技术问题,为了解决该技术问题,本发明实施例提供了以下技术方案:
6.第一方面,本发明实施例公开了一种多任务学习的步态识别方法,该方法可通过服务器或云端网络设备实现,该方法包括:
7.获取人体行走的步态特征,所述步态特征包括描述人体的帧级步态特征和集合级步态特征;将所述步态特征输入至视角特征学习网络,得到人体步态特征的多个视角特征;利用分类器对所述多个视角特征中的每一个进行分类,并将得到的分类结果通过第一损失函数处理,得到第一损失参数;将所述步态特征输入至步态特征学习网络,输出的特征图,再通过第二损失函数处理,得到第二损失参数;按照预设配比,结合所述第一损失参数和所述第二损失参数,得到损失结果。
8.其中,所述第一损失函数为交叉熵损失函数,该损失函数是按熵计算的,可以不断的优化类间余弦距离。所述第二损失函数为三元组损失函数,该损失函数用于不断地增大类间欧式距离,缩小类内距离。
9.本发明提出了一种用于步态识别的视角和步态双流结合方法,该方法通过联合学
习使模型利用角度信息的先验数据,将步态特征数据输入至视角特征学习网络,得到人体步态特征的多个视角特征,学习视角增强特征,将学到的角度特征与步态特征联合训练,从局部特征中捕获更多细粒度信息,从而解决跨视角识别性能不佳的问题,并且,还借助第一损失函数增大类间距离,借助第二损失函数缩小类内距离,从而让模型学习到更多有区分的特征,有助于准确地识别出人体步态,提高了步态识别的准确率。
10.可选的,在第一方面的一种可能的实现方式中,上述获取人体行走的步态特征,包括:获取人体行走状态的多个角度的至少一组图像;利用卷积神经网络对所述至少一组图像中的每个图像提取步态轮廓特征,得到第一特征图,所述第一特征图反映人体的帧级步态特征;将所述第一特征图经过池化处理得到第二特征图,所述第二特征图反映人体的集合级步态特征;将所述第一特征图和所述第二特征图在通道维度上进行合并,生成第三特征图,所述第三特征图反映所述人体行走的步态特征。
11.可选的,在第一方面的另一种可能的实现方式中,将所述步态特征输入至视角特征学习网络,得到人体步态特征的多个视角特征,包括:将所述步态特征通过卷积神经网络、以及特征分块处理,得到人体行走步态的多个局部特征;根据所述多个局部特征得到人体行走的所述多个视角特征。
12.可选的,上述多个视角特征包括:人体在rgb通道维度上划分的人体的头颈、上身、大腿和小腿等。
13.可选的,在第一方面的又一种可能的实现方式中,利用分类器对所述多个视角特征中的每一个进行分类,包括:获取目标分类器,所述目标分类器为最大值池化网络;利用所述最大化池化网络对所述多个视角特征中的每一个视角特征对应的数据做下采样,得到所述分类结果。
14.可选的,在第一方面的又一种可能的实现方式中,将所述步态特征输入至步态特征学习网络,输出的特征图,包括:获取所述步态特征对应的步态数据;将所述步态数据按相似度进行划分,将相似度超过阈值的步态数据归纳为同一类,得到所述输出特征图。
15.可选的,在第一方面的又一种可能的实现方式中,所述第二损失函数为三元组损失函数;所述三元组损失函数表示为:
[0016][0017]
其中,l
t
为第二损失参数,n为样本数,xa为锚点,x
p
为正样本,xn为负样本,m为常量,i为样本标识,f(.)为映射函数。
[0018]
第二方面,本发明实施例还提供了一种多任务学习的步态识别装置,所述装置包括:
[0019]
获取单元,用于获取人体行走的步态特征,所述步态特征包括描述人体的帧级步态特征和集合级步态特征;
[0020]
第一处理单元,用于将所述步态特征输入至视角特征学习网络,得到人体步态特征的多个视角特征;
[0021]
分类单元,用于利用分类器对所述多个视角特征中的每一个进行分类,并对分类结果通过第一损失函数处理,得到第一损失参数;
[0022]
第二处理单元,用于将所述步态特征输入至步态特征学习网络,输出的特征图,再通过第二损失函数处理,得到第二损失参数;
[0023]
结合单元,用于按照预设配比,结合所述第一损失参数和所述第二损失参数,得到损失结果。
[0024]
此外,上述装置中的各个功能单元/模块,还用于实现前述第一方面各种实现方式所述的方法。
[0025]
第三方面,本发明实施例还公开了一种电子设备,包括:处理器和存储器,所述处理器和所述存储器耦合;所述存储器中存储有计算机可读程序指令;当所述指令被所述处理器读取并执行时,实现第一方面或第一方面任一可选实施方式所述的多任务学习的步态识别方法。
[0026]
可选的,所述电子设备为一种网络设备,比如服务器,或服务器集群、云服务器等。
[0027]
另外,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的多任务学习的步态识别方法的步骤。
[0028]
本发明提供的一种多任务学习的步态识别方法和装置,解决了行人外观变化、视角变化对步态识别性能的影响,提升了多视角场景下步态识别的性能。
[0029]
本方法旨在通过联合学习使模型充分利用角度信息的先验知识,更好地观测步态规律信息,同时对步态特征分块处理,让模型从局部特征中捕获更多细粒度信息,从而弱化外观变化的影响。设计融合交叉熵损失函数和三元组损失的损失函数,借助交叉熵损失函数增大类间距离,借助三元组损失缩小类内距离,可以让模型学习到更多有区分性的特征,提升步态识别性能。
附图说明
[0030]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0031]
图1为本发明实施例提供一种步态识别系统的场景结构图;
[0032]
图2为本发明实施例提供的一种多任务学习的步态识别方法的流程图;
[0033]
图3为本发明实施例提供的一种描述行人行走步态轮廓序列的一套完整动作的示意图;
[0034]
图4为本发明实施例中一种行人在行走过程中划分不同部位的运动模式和形状的示意图;
[0035]
图5为本发明实施例提供的一种gaitset网络结构处理拍摄图像的流程图;
[0036]
图6为本发明实施例提供的一种多任务学习的步态识别方法的流程图;
[0037]
图7为本发明实施例提供的一种特征学习部分的网络结构示意图;
[0038]
图8为本发明实施例提供的一种步态特征学习中归一化处理的流程图;
[0039]
图9为本发明实施例提供的一种多任务学习的步态识别装置的结构图;
[0040]
图10为本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
[0041]
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042]
本技术的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本技术的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
[0043]
参见图1,为本发明实施例提供一种步态识别系统的场景结构图,该场景图中包括服务器100、终端设备200和图像传感器300,其中,服务器100、终端设备200和图像传感器300之间可通过网络连接。
[0044]
其中,服务器100可以用独立的服务器或者是多个服务器组成的服务器集群来实现。进一步地,服务器100可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的服务器。
[0045]
终端设备200包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。
[0046]
图像传感器300可以是摄像头、或图像采集装置,用于采集行人的图像、照片。可选的,图像传感器300可以设置在终端设备200中,比如图像传感器300作为一摄像头配置在手机终端上,或者也可以是单独的外设与终端设备200连接。
[0047]
终端设备200用于显示图像传感器300采集的图像、照片,以及接收服务器100发送的数据、信息等,并显示人体步态特征的相关图片/照片。
[0048]
此外,终端设备200、图像传感器300与服务器100之间连接的网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。在一示例中,用户可以使用终端设备通过网络与服务器通信,以实现终端设备与服务器间的信息接收和/或者发送。
[0049]
需要说明的是,本公开实施例所提供的方法可由服务器100执行。
[0050]
应理解,图1中的终端设备200、图像传感器300和服务器100的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本实施例对此不予限制。
[0051]
步态识别研究随着深度学习的发展成了视觉方向研究的一个热点,虽然步态识别具有明显的优势,但也存在一些局限性。步态识别结果易受环境因素的影响,例如受视角变化、行人被遮挡、阴影和分割误差等影响。其中,视角的变化影响最大,这里的视角指行人行走方向与摄像机拍摄角度的夹角,同一个人不同视角下的黑白轮廓图有很大差异,甚至会影响最终的识别结果。
[0052]
本发明为了解决视角变化对步态识别性能的影响,提出了一种基于视角增强的多任务学习步态识别方法,以提升多视角场景下步态识别的性能。
[0053]
下面对发明实施例提供的技术方案进行详细说明。
[0054]
参见图2,为本技术实施例提供的一种多任务学习的步态识别方法的流程图,该方
法用于提高步态识别性能,具体地,该方法包括:
[0055]
步骤101:获取人体行走的步态特征,所述步态特征包括描述人体的帧级步态特征和集合级步态特征。
[0056]
其中,步态特征可以是基于模型的识别方法通过对人的角速度、关节角度、肢体等人的一些基本结构进行建模来提取步态特征。具体地,一种实施方式是,借助gaitset网络用来提取帧级步态特征和集合级步态特征,其中gaitset是一种针对步态识别问题提出的模型。
[0057]
基于模型的步态识别方法能够学习不同视频帧间步态特征的差异,从而预测任意时刻的行人状态。但基于模型的算法都需要根据行人步态信息构建模型,这对被测人建模时的拍摄角度和关键部分是否被遮挡有着很高的要求。因此基于模型的算法相比于基于非模型的算法计算复杂度更高且需要较高的视频分辨率。所谓基于非模型识别方法,是指通过学习外观、速度、位置等步态特征构建步态轮廓图的帧间关系,基于外观特征的方法可以看作是图像测量方法,利用被摄体的移动形状得出步态特征。本实施例中,采用非模型识别方法。
[0058]
其中,步态轮廓序列中存在步态周期,步态周期指行走时,同一只脚从脚跟离地准备跨出,到再次脚跟着地的一套完整动作,如图3所示,一套完整动作包含6个步行姿态。在步态周期中每个位置的步态轮廓有着唯一的特征,即使步态轮廓的次序被扰乱了,也可以通过步态轮廓特征重新排列它们,因此每个步态轮廓都包含其位置和方向信息,因此,本实施例中可以从每帧步态特征(即帧级步态特征)中提取并获得视角特征。
[0059]
视角特征与步态视角有关,所谓步态视角表示行人的行走方向与步态图像的拍摄方向之间的夹角。例如步态图像中,行人向右行走,拍摄步态图像的摄像机/图像传感器所指向的方向与行走方向之间的夹角可以被称为步态视角。
[0060]
此外,考虑到每帧图像中的行人步态视角可能会偶然发生变化,但是整个序列中行人总体的视角方向是不变的,因此将帧级步态特征通过池化聚合为集合级步态特征,集合级步态特征包含整个序列的特征,再从中提取视角信息也会更具全局性。
[0061]
步骤102:将所述步态特征输入至视角特征学习网络,得到人体步态特征的多个视角特征。
[0062]
其中,所述步态特征分别经过两个分支网络学习:一个分支是视角增强特征学习网络,另一个步态特征学习网络。所述视角特征学习网络和步态特征学习网络都可以通过预先训练获得。
[0063]
在视角增强特征学习网络中,人体的不同姿态在行走的过程中有着非常明显的不同形状以及运动模式,行人的一些部分特征可以用来提供更加精细的信息,适合一些复杂场景下或更具特性的识别任务。
[0064]
本实施例对步态特征的特征图进行分块处理,根据生物学的知识,人的身体一般可分为头颈、上身、大腿和小腿4个部分,如图4所示,而且通过分析行人在行走过程中不同部位的运动模式和形状,确定这4个部位中的每个部位的运动模式也更具规律性和周期性,如图3所示。可选的,还可以将步态特征的特征图分为:两个部分、8个部分,16个部分等。
[0065]
步骤102中,将步态特征经过视角特征学习网络处理后,可得到多个视角特征。这些视角特征可基于拍摄/采集的视角角度确定。例如,本实施例中采用的是casia-b数据集,
casia-b是一个比较经典的步态识别数据集,其包含124个目标(subjects),每个目标有3种步行情况和11个视觉角度。3种步行情况指“normal(nm,正常)”、“walking with bag(bg,背包)”、“wearing coar or jacket(cl,穿外套或夹克)”,其中每个目标有6段nm序列、2段bg序列、2段cl序列。11个视觉角度是指0
°
、18
°
、36
°
、54
°
、72
°
、90
°
、108
°
、126
°
、144
°
、162
°
和180
°

[0066]
应理解,本实施例中还可以使用更多数量的摄像机,采集更多数量的视角角度,比如14、18个等。
[0067]
步骤103:利用分类器对所述多个视角特征中的每一个进行分类,并将得到的分类结果通过第一损失函数处理,得到第一损失参数。
[0068]
具体地,在一示例中,基于上述步骤得到的11个视角特征,利用分类器或分量模型对上述11个视角特征进行分类可得到11个分类结果。
[0069]
通常用于分类问题的第一损失函数是交叉熵损失(cross entropy loss),定义l为ground truth的id标签,pi为类别i的id的实际输出概率,qi为类别i的id的期望输出概率,则交叉熵损失计算公式为:
[0070][0071]
其中,交叉熵损失函数用于描述两种概率分布之间的距离,两种概率分布越接近,交叉熵的值越小,反之,如果分布越远,则交叉熵的值越大。由于神经网络输出值不在0与1之间,因此需要先借助归一化指数函数(softmax)将多个神经元的输出的特征图归一到(0,1)区间内,转化成概率分布后,再借助交叉熵损失函数计算相似度,得到损失参数。
[0072]
利用交叉熵损失函数分类,构造多个超平面,将嵌入空间划分为多个不同的区域,在每个区域中包含不同的类。交叉熵损失按熵计算,它呈现的效果是在不断优化余弦距离,让每个类间的余弦距离变大。
[0073]
步骤104:将所述步态特征输入至步态特征学习网络,输出的特征图,再通过第二损失函数处理,得到第二损失参数。
[0074]
该步态特征学习网络是为了弱化外观变化(服装、携带物的变化)对步态识别性能的影响,进而在获取步态特征后,利用第二损失函数进行分类。
[0075]
由于步态识别没有固定类别数,它是将输入的步态数据按相似度进行划分,将相似的数据归为一类,故不能使用输出类别数固定的归一化指数函数。在步态识别学习网络中,常使用三元组损失(triplet loss)函数作为所述第二损失函数。因为三元组损失函数是学到一个好的映射空间,相似的图片在映射空间中是相近的,从而可以判别是否是同一个人的特征。
[0076]
具体地,三元组损失函数的输入可以是一个三元组《a,p,n》,其中,a表示锚点(anchor)为待判别目标,p表示正样本(positive),表示和锚点a是同一类别的样本,n表示负样本(negative),是和锚点a不同类别的样本,d表示两者间的距离,本实施例中采用的是欧氏距离,进一步地,所述三元组损失的公式可用公式(2)表示:
[0077]
l=max(d(a,p)-d(a,n) margin,0)
ꢀꢀꢀ
(2)
[0078]
本示例中,利用三元组损失函数的目标是:不断拉近a和p的距离,拉远a和n的距离,进而输出结果更靠近期望的结果,得到第二损失参数。
[0079]
步骤105:按照预设配比,结合所述第一损失参数和所述第二损失参数,得到损失结果。
[0080]
可选的,第一损失参数与第二损失参数比值(即预设配比)为1:10。所述损失结果为按照预设配比1:10之后相加的结果。
[0081]
本实施例提出了一种用于步态识别的视角和步态双流结合方法,该方法通过联合学习使模型利用角度信息的先验知识,更好地观测步态规律信息,同时对步态特征分块处理,从局部特征中捕获更多细粒度信息,解决跨视角识别性能不佳的问题。同时,还设计了融合交叉熵损失和三元组损失的新损失函数,借助交叉熵损失增大类间距离,同时借助三元组损失缩小类内距离,使模型学习到更多有区别的特征。
[0082]
另外,实施例的方法设计和实现了基于python语言的集目标检测与追踪、对象分割和步态识别功能于一体的步态识别应用系统。
[0083]
下面对本实施例提供的方法的各个阶段步骤进行详细说明。
[0084]
参见图5,给出了一种基于gaitset网络处理摄像头采集的行人图片/照片的流程。该gaitset网络主要包括以下三个处理过程:
[0085]
第一处理过程:特征提取。采用卷积神经网络从至少一组图像中每个步态轮廓图中提取步态特征,称此类特征为帧级步态特征,或称为第一特征图。
[0086]
第二处理过程,池化处理。即将一个序列的帧级步态特征通过池化模块进行池化聚合后,得到的特征包含了整个序列信息,称此特征为集合级步态特征,或称为第二特征图。
[0087]
第三处理过程,联合特征。该过程可用水平金字塔(horizontal pyramid mappint,hmp)来实现,hpm用于将特征图分割成条,根据行人大小剪裁图像并将其尺寸调整为均匀大小。
[0088]
本实施例中,将不同角度下的一组黑白轮廓图(包括至少一帧),如180
°
下行人a走路的一系列图像,这组黑白轮廓图中包含有五个维度的特征,分别是:批尺寸batch_size,frame_num,通道数channel、高度height和宽度width。例如:batch_size为8*16,frame_num为30,表示输入了8个人的16段视频。其中每段视频中抽取30帧。输入为rgb图像,通道数channel为3,height和width为图片的高度和宽度。
[0089]
本实施例中,获取第一特征图的一种实施方式为:用cnn网络提取帧级特征,维度(n,c,h,w)n=batch_size*frame_num。获取第二特征图的实施方式为:将帧级特征聚合为集合级特征,维度(1,c,w,h);然后将.帧级特征和集合级特征在通道(c)维度上合并,得到第三特征图。
[0090]
本实施方式能够解决外观变化带来识别不佳的影响,尤其在行人穿着外套或夹克(coat or jacket,cl)状态数据集上相较于传统网络cnn-lb正确率提高了20%。采用gaitset网络识别得到特征图的有益效果包括以下三个方面:
[0091]
模型灵活,它未对输入数据施加任何限制,输入集合可以是包含任意数量的非连续黑白轮廓图;运行速度快,网络模型直接学习步态的深层特征,并不是一一测量每对步态模型或者序列之间的相似度,因此每个样本只需要计算一次,通过比对不同样本间的欧式距离即可;性能高效,相较于传统网络,在casia-b数据集上正确率显著提高,显示出对行人外观变化的强大鲁棒性和对大数据集的高泛化能力。
[0092]
在另一实施例中,参见图6和图7所示,为本实施例提供的一种多任务学习的步态识别方法的流程图,结合前述实施例的步骤101至步骤104,该方法包括以下几个处理过程:
[0093]
将采集的至少一组帧图片/照片经过gaitset网络识别得到联合特征图、联合特征图经过视角增强特征学习网络,以及交叉熵损失函数处理得到第一损失参数;联合特征图经过步态特征学习网络,以及三元组损失函数处理,得到第二损失参数;按照预设配比,结合第一损失函数和第二损失函数得到损失结果。
[0094]
具体地,将联合特征,即经过第一特征图和第二特征图得到的第三特征图,分别经过两个分支的神经网络学习,输出两个特征图,即图7所示的第五特征图和第六特征图。将第三特征值通过卷积神经网络(cnn)处理后,将得到的第四特征图,在rgb通道维度上划分为4个部分,得到视角特征图,即第五特征图。在这一过程中对视角特征继续分块处理,得到诸如图4所示的头颈、上身、大腿和小腿的4个部分。
[0095]
获得人体不同部分的视角特征后,考虑设计一个分类器,能够识别出特征的角度信息。本实施例中,由于最大值池化(max pooling)网络是对领域内的特征点取最大值,并能记住最大值的索引位置,能够很好的保留纹理特征,最大值池化和平均值池化(average pooling)都是对数据做了下采样,但最大值池化能够选择出分类辨识度更好的特征,故分类器最后采用最大值池化网络;经过最大值池化网络处理后,再将输出的特征图通过交叉熵损失函数进行训练。
[0096]
另一个分支是步态特征学习网络,该网络是为了弱化外观变化(服装、携带物的变化)对步态识别性能的影响,因此在获取步态特征后需要对损失函数进行分类。将联合特征(第三特征图)在rgb通道维度上划分为四个部分得到步态特征,然后通过本发明设计一种增强的三元组损失函数(triplet_cos loss),用于计算损失参数。
[0097]
一种实现方式是,基于原三元组损失函数(triplet loss),计算特征间距离时采用余弦距离,得到新的三元组损失函数(triplet_cos loss)。具体地,设有n个采样样本,xa为锚点,x
p
为正样本,xn为负样本,m为常量margin,i为样本标识,且i的取值范围是[1,n],f(.)为映射函数,该映射函数用于将采样样本映射到易区分空间中,进而得到新的三元组损失函数用公式(3)表示为:
[0098][0099]
其中,新的三元组损失函数用于学习步态信息,本发明采用余弦距离来训练三元组损失函数,得到新的三元组损失函数,进而训练联合特征图,得到第二损失参数,相比于原三元组损失函数triplet loss而言更容易收敛,因为能够最大化地扩大类间距离,从而得到全局最优解。
[0100]
可选的,在步态特征学习网络的处理过程中,还包括:将上述第四特征图和第三特征图合并生成第六特征图,然后将该第六特征图进行归一化处理,得到第七特征图,最后利用新的三元组损失函数对该第七特征图进行损失运算,得到第二损失参数。
[0101]
本实施例中,在获得步态特征f,即上述第六特征图后,增加一个批量归一化(batch normalization,bn)处理过程,用于归一化平衡步态特征f的各个维度,使得归一化后的这些步态特征在超球面附近呈高斯分布,这种分布使得本技术中采用余弦距离来训练的三元组损失参数值时,损失函数更容易收敛。
[0102]
本技术由于采用的是多任务学习,包括识别角度这个任务的损失,以及识别步态特征这个任务的损失,并且它们优化的是同一个特征向量,当两种损失优化同一个特征向量时,目标可能不同,因此在不断地迭代训练过程中,损失值可能会增加或者发生振荡。本实施例采用归一化处理方法,归一化平衡了步态特征f的各个维度,使得这些归一化后的步态特征在超球面附近呈高斯分布,进而在利用增强的三元组损失函数训练时,得到的损失参数值更收敛。
[0103]
此外,上述步骤105中,设计所述预设配比为1:10。设计原则是由于交叉熵损失函数用于学习视角信息,视角特征的损失函数是用于辅助学习步态特征信息,因此交叉熵损失权重设置较小,进行了多次实验,设定交叉熵损失函数所对应的第一损失参数与增强的三元组损失函数所对应的第二损失参数之间的比值为1:10。
[0104]
并且利用公式(4)得到最后损失值,即损失结果。
[0105]
loss=l
t
0.1
×
lc(4)
[0106]
其中,l
t
表示第一损失参数,lc表示第二损失参数,loss表示损失结果,即总损失值。
[0107]
该总损失值loss,经过不断迭代学习,实现了基于步态识别的视角特征和步态特征双流结合算法的优化,为多任务步态特征的学习提供依据,从而有助于提高步态识别准确性,减小了环境因素对步态特征识别的影响。
[0108]
应理解,本实施例中还可以配置并采用其他配比,来结合得到最终的损失结果。
[0109]
本发明实施例还公开了一种多任务学习的步态识别装置,如图9所示,该装置包括:获取单元910、第一处理单元920、分类单元930、第二处理单元940和结合单元950。
[0110]
其中,获取单元910用于获取人体行走的步态特征,所述步态特征包括描述人体的帧级步态特征和集合级步态特征。
[0111]
第一处理单元920用于将所述步态特征输入至视角特征学习网络,得到人体步态特征的多个视角特征。
[0112]
分类单元930用于利用分类器对所述多个视角特征中的每一个进行分类,并将得到的分类结果通过第一损失函数处理,得到第一损失参数。
[0113]
第二处理单元940用于将所述步态特征输入至步态特征学习网络,输出的特征图,再通过第二损失函数处理,得到第二损失参数。
[0114]
结合单元950用于按照预设配比,结合所述第一损失参数和所述第二损失参数,得到损失结果。
[0115]
可选的,在本实施例的一种具体的实施方式中,获取单元910具体还用于:获取人体行走状态的多个角度的至少一组图像;利用卷积神经网络对所述至少一组图像中的每个图像提取步态轮廓特征,得到第一特征图,所述第一特征图反映人体的帧级步态特征;将所述第一特征图经过池化处理得到第二特征图,所述第二特征图反映人体的集合级步态特征;将所述第一特征图和所述第二特征图在通道维度上进行合并,生成第三特征图,所述第三特征图反映所述人体行走的步态特征。
[0116]
可选的,在本实施例的另一种具体的实施方式中,第一处理单元920具体还用于:将所述步态特征通过卷积神经网络、以及特征分块处理,得到人体行走步态的多个局部特征;以及根据所述多个局部特征得到人体行走的所述多个视角特征。
[0117]
其中,所述多个视角特征包括:人体在rgb通道维度上划分的人体的头颈、上身、大腿和小腿等特征。
[0118]
可选的,在本实施例的又一种具体的实施方式中,分类单元930具体还用于获取目标分类器,所述目标分类器为最大值池化网络;利用所述最大化池化网络对所述多个视角特征中的每一个视角特征对应的数据做下采样,得到所述分类结果。
[0119]
可选的,在本实施例的又一种具体的实施方式中,分类单元930具体还用于:获取所述步态特征对应的步态数据;将所述步态数据按相似度进行划分,将相似度超过阈值的步态数据归纳为同一类,得到所述输出特征图。
[0120]
需要说明的是,上述装置还可以包括其他更多或更少的单元、模块,比如接收单元、发送单元、存储单元等,本实施例对此不予限制。
[0121]
本发明实施例还提供了一种电子设备,如图10所示,该电子设备可以包括处理器110、存储器120和至少一个接口130,其中处理器110、存储器120和至少一个接口130可以通过总线或者其他方式连接,图10中以通过总线连接为例。
[0122]
处理器110可以为中央处理器(central processing unit,cpu)。处理器110还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
[0123]
存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的视频合成方法对应的程序指令/模块。处理器110通过运行存储在存储器120中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的多任务学习的步态识别方法。
[0124]
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器110所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至处理器110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0125]
至少一个接口130中包括通信接口和输入输出接口,例如usb接口,其中,通信接口用于实现电子设备与其他设备的通信,比如与服务器或终端设备之间的信息传输。输入输出接口则用于连接外部设备,比如连接摄像头、显示器、鼠标、键盘等等。
[0126]
上述电子设备可以是如图1所示一种服务器100,或者是一种终端设备200,或者是图像传感器300,或者还可以是其他终端设备,本实施例对此不予限制。
[0127]
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,hdd)或固态硬盘
(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0128]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献