一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的行人属性识别方法与流程

2022-07-20 02:52:41 来源:中国专利 TAG:


1.本发明涉及一种基于深度学习的行人属性识别方法,属于行人识别技术领域。


背景技术:

2.计算机技术和互联网的发展使得视频监控系统变得更加智能与高效。在监控场景下,相机通常架设于高处来获取广阔的视野,导致行人以较低的分辨率呈现于图像中。在面部等细节信息缺失的情况下,根据远距离的行人全身图像来获得行人属性特征和高级语义信息,可实现人员检索、重识别等任务。
3.经典的行人属性识别是使用多标签分类任务的方法,设计一个端到端的属性识别网络,网络的任务是给定一张行人图像,预测一个1
×
n维属性向量。向量与预定义的属性名称列表an={an1,an2,an3,..ann}依次对应以描述行人特征。
4.随着技术的发展,基于深度学习的多属性识别(deep learning based multiple attributes recognition,deepmar),首次将行人属性识别作为多标签分类任务,该算法充分考虑属性之间的关系,如头发长短与性别,并设计了一种带权重的交叉熵损失以缓解属性样本的不均衡,对比经典的行人属性识别,取得了更好的识别精度。
5.然而行人属性识别和常见的图像分类并不相同,一般需要分析识别行人的数十种属性,且图片来源复杂多变:行人姿态多变、行人身体遮挡或者缺失、光照变化、分辨率低等各种不同的图片,导致识别准确度低。为此有人提出将注意力机制引入识别网络中,神经网络中的注意力机制起源于人类的视觉注意力机制,基于多方向注意力网络(multi-directional and attention-based net,hp-net),将多层注意力特征图映射到不同特征层,提供更多可选特征表达,进行细粒度的行人分析。alm算法针对每类属性独立使用定位模块(attribute localization module,alm),用弱监督的方式学习属性所对应的局部区域,进而根据定位到的区域进行属性判断。
6.近几年来研究者们提出的算法有的增加大量注意力模块,增加了网络结构复杂度。例如:电子科技大学,作者为石方炎的硕士学位论文,该论文公开了一种人体检测与外观属性识别一体化算法研究,提出一种新的行人属性识别网络,将注意力机制引入主干网络resnet-50的残差模块中,取得了较高的识别精度。然而resnet-50网络中残差模块由两个1
×
1卷积和一个3
×
3卷积构成,包括4个大残差模块组,16个小标准残差模块,在每个残差模块中增加注意力模块,使得resnet-50网络增加大量的注意力模块,增加了网络结构的复杂度,降低了识别的效率。


技术实现要素:

7.本技术的目的在于提供一种基于深度学习的行人属性识别方法,用以解决现有识别方法中识别网络结构复杂,效率低的问题。
8.为实现上述目的,本技术提出了一种基于深度学习的行人属性识别方法的技术方案,包括以下步骤:
9.1)构建行人属性识别网络;所述行人属性识别网络包括主干网络、第一池化层、全连接层,且主干网络和第一池化层之间引入注意力模块;所述主干网络用于接收图片信息并输出图片信息的高层语义特征;所述注意力模块用于对高层语义特征的重要性进行区分;所述第一池化层用于对主干网络输出的高层语义特征以及重要性区分后的高层语义特征进行选择处理;
10.2)训练行人属性识别网络;
11.3)根据训练好的行人属性识别网络进行行人属性的识别。
12.本发明的基于深度学习的行人属性识别方法的技术方案的有益效果是:本发明进行行人属性识别的行人属性识别网络在主干网络和第一池化层之间引入注意力模块,通过注意力模块对高层语义信息的重要性进行区分后,以便被第一池化层有目的性的选择处理,重视了高层语义信息对应的全局特征,提高了识别的准确性。本发明的行人属性识别网络结构简单,避免的大规模的增加网络结构的复杂性,提高了识别的效率。
13.进一步的,所述注意力模块按照输入至输出的顺序依次包括第二池化层、第一卷积层、第一激活层、第二卷积层、第二激活层。
14.进一步的,所述第一池化层和第二池化层均为global pool。
15.进一步的,所述第一卷积层为1
×
1卷积。
16.进一步的,所述第二卷积层为1
×
1卷积。
17.进一步的,所述第一激活层采用的激活函数为relu。
18.进一步的,所述第二激活层采用的激活函数为sigmoid。
19.进一步的,所述主干网络为resnet50。
20.进一步的,为抑制数据不平衡带来的类间差异,在训练中平衡各个任务,所述步骤2)中训练行人属性识别网络时,所采用的损失函数loss为:
[0021][0022][0023]
其中,n为行人属性的数目;wi为权重参数;yi为训练集中图片对应的属性标签;σ
out-i
为第i个属性前馈的概率;ai为训练集中第i个属性正样本所占比例,属于类别数量不平衡的权重部分。
附图说明
[0024]
图1是本发明行人属性识别网络的结构示意图;
[0025]
图2是本发明的行人属性识别方法与deepmar算法的识别对比图。
具体实施方式
[0026]
基于深度学习的行人属性识别方法实施例:
[0027]
本发明的主要构思在于,基于现有技术中在主干网络中增加大量的注意力模块,增大了网络结构的复杂度的问题,本发明将注意力模块添加在主干网络和池化层之间,该
注意力模块可以对高层语义信息的重要性进行区分,以便被池化层有目的性地选择处理,不仅重视高层语义信息对应的全局特征,还简化了网络结构。
[0028]
具体的,基于深度学习的行人属性识别方法包括以下步骤:
[0029]
1)构建行人属性识别网络。
[0030]
本发明构建的行人属性识别网络如图1所示,包括主干网络resnet50、第一池化层global pool、全连接层fc,且主干网络resnet50和第一池化层global pool之间引入注意力模块。
[0031]
其中,注意力模块来自alm算法,注意力模块按照输入至输出的顺序依次包括第二池化层global pool、第一卷积层1
×
1卷积、第一激活层relu、第二卷积层1
×
1卷积、第二激活层sigmoid。
[0032]
主干网络resnet50用于接收图片信息(inputimg),提取并输出图片信息的高层语义特征;注意力模块在此处以通道加权的形式对高层语义特征的重要性进行区分;第一池化层global pool用于对主干网络输出的高层语义特征以及重要性区分后的高层语义特征进行选择处理,起到融合特征的作用;全连接层fc用于对选择处理后的特征进行整合分类,得到各类属性:att0、att1、att2、

、attn。
[0033]
作为其他实施方式,注意力模块还可以采用senet、sknet等算法的注意力模块,其中,基于senet算法的注意力模块与基于alm算法的注意力模块的不同在于,基于alm算法的注意力模块中的卷积层在基于senet算法的注意力模块中为全连接层。
[0034]
2)训练行人属性识别网络。
[0035]
在多任务学习中,全局损失函数与单个任务线性相关,不同属性任务由于其尺度、数据量、位置的不同,最终计算时对损失函数的贡献不同,常采用线性叠加的方式来计算全局任务的损失。现有的行人属性数据集存在属性间数量不平衡的问题,常导致模型侧重样本数量相对多的类别,降低了模型在测试数据上的泛化能力。这一问题在很大程度上影响模型整体识别效果,解决方法通常是依据属性正样本数量占比在损失函数上对不同属性的损失赋予不同的权值。这种针对某一类别的所有样本,通过增加小样本错分的惩罚权重并将其体现于损失函数的方法目前在属性识别领域中得到了广泛应用,且取得了不错的效果。
[0036]
此外,由于样本数量以及尺度大小等不同导致训练样本有难易之分,为提高整体识别精度,模型训练时应该更关注难分类样本,对其赋予更高的权重。focal loss损失函数综合考虑样本数量不平衡与学习难度差异,处理多任务类别失衡问题。针对训练难易程度加权方面,focal loss认为每个任务的损失权值与该任务的概率负相关,这样可以在训练时平衡各个任务的收敛快慢,使得每个任务都可以充分训练最终达到更好的识别精度。
[0037]
本发明在训练行人属性识别网络时,为抑制数据不平衡带来的类间差异,基于focal loss损失函数思想,将训练难易程度引入权重,在训练中平衡各个任务,所采用的损失函数loss为:
[0038]
[0039][0040]
其中,n为行人属性的数目;wi为整体的权重参数,包含类别不平衡权重和学习难易程度的权重;yi为训练集中图片对应的属性标签;σ
out-i
为第i个属性前馈的概率;ai为训练集中第i个属性正样本所占比例,属于类别数量不平衡的权重部分。
[0041]
3)根据训练好的行人属性识别网络进行行人属性的识别。
[0042]
以下通过具体的数据验证本发明行人属性识别方法的准确性。
[0043]
本发明实验采用的数据集为peta和pa100k。其中peta数据集共包含19000张图片,标注35个行人属性,分辨率从17
×
39到169
×
365变化。该数据分三个部分,训练集包含9500张图像,验证集包含1900张图像,测试集包含7600张图像。pa100k数据集共包含10万张图片,是目前最大的行人属性数据集,标注26个行人属性,分辨率从50
×
100到754
×
454变化,按8:1:1的比例分为训练集,验证集以及测试集。
[0044]
为了验证本文算法的性能,在以上两个数据集基础上,用现有技术中的deepmar算法与alm算法作对照组,列出平均准确率ma,准确率accu,精确率prec,召回率recall,f1值共5个指标,对比结果如表一所示。
[0045]
表一 不同方法在peta数据集和pa100k数据集性能对比(%)
[0046][0047]
从表一可以看出,本方法主要在ma和accu这两个指标上超过了deepmar和alm这两种方法,其中ma是独立计算各属性准确率后求均值,是属性识别的关键评估指标,可以看出本文提出的算法优于以上两种算法。
[0048]
通过本发明的识别方法和现有技术的deepmar算法对图像进行识别,得到如图2所示的识别对比图,图2中为deepmar算法加入通道注意力模块前、后在peta数据集中的表现,而且为验证本发明算法,且突出注意力机制的性能,列出20个宏观属性识别的准确率。通过计算,在这些宏观属性上,增加通道注意力的算法平均准确率ma提高了0.51%。
[0049]
最后,在以rtx2070为显卡的测试平台上选取peta数据集中1000张图像进行推理,在此以时间为考核算法性能的指标,取平均每张图片的推理时间为最终结果。本发明提出的识别方法与deepmar算法时间分别为18.61ms和18.25ms,由此可知本文算法推理耗时并没有显著增加,具有应用价值。
[0050]
本发明的网络结构在deepmar算法框架上进行改进,在主干网络resnet50和第一池化层global pool之间引入注意力模块attention,在进行行人属性识别时,不仅识别的准确率提高了,而且识别速率并没有明显增加。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献