一种基于自监督模式特征增强的行人属性识别方法

2022-07-02 12:05:26 来源：中国专利 TAG：

1.本发明属于计算机视觉、机器学习等技术，特别涉及基于深度学习和特征增强的行人属性识别技术。

背景技术：

2.行人属性识别技术运用模式识别、机器学习、计算机视觉、图像处理以及计算机应用等多个学科知识，构成了一种在行人图像中获取目标人物属性的方法，为后续的高层计算机视觉任务比如行人重识别、行人检测、行为分析等奠定了基础。目前，行人属性识别技术广泛应用于智能视频监控、行人重识别、行人跟踪、行人检索等领域中，有着广泛的应用前景及巨大的商业价值。如何将行人图像提取出具有强鲁棒性及表示性的属性特征是计算机视觉领域中的热门问题。
3.随着深度学习的发展，行人属性识别方法越来越依赖于好的特征提取结构。特征提取网络要提取对光照、环境和行人姿态、图像结构等具有较好的鲁棒性的特征，这样可以使得行人特征更好地表示行人图像，从而提高行人属性识别的性能。然而因为行人属性类别中有很大的类内变化(外观多样性和外观模糊性)，如相机从不同角度拍摄的图像会导致行人属性识别的视角问题；由于人体的非刚性进一步使得行人属性识别更加复杂、人体被他人或事物遮挡引入的像素可能会使模型混乱，导致错误的预测，从而增加行人属性识别的难度；不同时间采集的行人图像会由于采光不同而导致曝光变化；这些类内变化需要鲁棒性更好的特征来表示。其中，行人图像结构也会干扰模型对特征的提取，而设计出针对行人图像结构鲁棒性更强的特征也是目前行人属性识别面临的很大难题。

技术实现要素：

4.本发明所要解决的技术问题是，针对减少行人图像结构对于行人属性识别的影响难题对行人属性识别基础网络进行改进，并提出一个准确性更高的行人属性识别方法。
5.本发明为解决上述技术问题所采用的技术方案是，一种基于自监督模式特征增强的行人属性识别方法，包括以下步骤：
6.1)接收输入的待识别的图像通过分解重组提取行人图像和水平翻转行人图像的属性特征和结构特征；
7.分解重组的具体方式为：先通过属性特征提取网络和结构特征提取网络分提取输入图像的属性特征attr1、结构特征struc1以及水平翻转输入图像的属性特征 attr2、结构特征struc2，分解重组分支网络对特征提取网络输出的特征进行两两重组得到4个重组特征attr1_struc1、attr1_struc2、attr2_struc1、attr2_struc2；
8.2)分解重组分支网络训练过程中，首先将attr2_struc1特征图水平翻转，并对翻转后的attr2_struc1特征图与attr1_struc2特征图采用水平翻转一致性损失进行约束。然后将attr1_struc1特征图和attr2_struc2特征图经过全局平均池化层再经过全连接注意力层进行特征增强，最后将该增强特征输入到全连接层中获得预测结果，在对预测结果与
属性真实标签采用交叉熵损失进行约束同时，对两个特征图的预测结果也采用属性预测一致性损失进行约束；
9.本发明旨在减少行人图像结构对行人特征的影响，通过将行人图像以及水平翻转行人图像输入到深度学习网络中，将属性特征以及结构特征以自监督模式的方式进行分解并且重组以减少图像结构对行人特征的影响，同时利用属性之间的关联关系，通过属性分类损失、属性分类一致性损失以及水平翻转一致性约束下的自监督模式学习对行人图像的特征进行增强。通过自监督模式方式特征增强后的行人属性识别网络取得了良好的性能提升。
10.具体的，本发明的框架在resnet101网络的基础上进行改进。基于resnet101 网络，我们设计了一个针对行人属性识别任务中图像结构干扰难题的特征增强网络，本发明提出将行人图像及其水平翻转行人图像输入到以resnet101网络为 backbone的深度学习网络中，将属性特征以及结构特征以自监督模式的方式进行分解并且重组后，通过属性学习以及水平翻转一致性约束下的自监督模式学习对行人图像的特征进行增强。此外，行人属性之间的关系不是独立的而可能是有关联的，为了利用属性之间的关联关系进一步增强学习到的属性特征，本发明在 resnet101网络结构嵌入了non-local模块，以学习属性之间的关联性。
11.本发明的有益效果是，经本发明训练完成的网络结构提取的图像特征，对水平结构信息具有鲁棒性，进而减少了行人图像结构对于行人属性识别的影响；在 resnet101模块中嵌入non-local模块，使得网络可以将可能存在关联的行人属性关联起来，从而学习到更加能够代表行人图像的行人特征；使用全连接注意力层增强特征其使得特征具有更好的表示性，可以进一步提高行人属性识别的性能。
附图说明
12.图1为基于自监督模式特征增强的行人属性识别网络的结构示意图。
13.图2为嵌入non-local模块的resnet101示意图。
14.图3为全连接注意力层模块示意图。
15.图4为属性分类一致性模块示意图。
具体实施方式
16.如图1所示，基于自监督模式特征增强的行人属性识别网络由4个嵌入了 non-local模块的特征提取网络resnet101和本发明所提出的分解重组分支网络组成，嵌入了non-local模块的resnet101网络主要用于提取输入的行人图像及其水平翻转行人图像的属性特征和结构特征，用于提取属性特征的特征提取网络的参数是共享的，用于提取结构特征的特征提取网络的参数是也共享的。
17.行人属性识别网络首先将行人图像及其水平翻转行人图像通过嵌入了 non-local模块的resnet101网络生成行人图像的属性特征attr1、结构特征struc1 以及水平翻转行人图像的属性特征attr2、结构特征struc2。将这些特征两两重组可以得到4个重组特征attr1_struc1、attr1_struc2、attr2_struc1、attr2_struc2。将 attr2_struc1特征图水平翻转后，对该特征图与attr1_struc2特征图采用水平翻转一致性损失进行约束；对
attr1_struc1特征图和attr2_struc2特征图分别经过全局平均池化层后经过全连接注意力层进行特征增强，然后将增强特征图经过全局平均池化gap得到特征向量，再将这个向量通过全连接层fc进行属性分类，最后对这两个特征输出的结果采用属性分类一致性损失以及属性分类损失进行约束。
18.下面给出该发明技术方案中所涉及的各个细节问题的详细说明。
19.(1)构建自监督特征分解和重组网络模型
20.特征提取最重要的是提取对光照、角度和行人的姿态等等干扰信息具有较好的鲁棒性的特征，使得行人特征更好地表示行人图像，从而提高模型的识别性能。图像结构也会干扰模型对特征的提取。为了减少图像结构对行人特征的影响，我们采用自监督模式的方式引导网络的学习，使得网络可以将结构信息从行人特征中分解出来。自监督学习主要是通过构造的监督信息对网络进行训练，从而可以学习到有价值的表征。借鉴自监督学习的思想，我们提出将行人图像以及水平翻转的行人图像输入到以resnet101为backbone的深度学习网络中，并在构造的水平翻转一致性损失的监督下将结构信息从行人特征中分解出来。我们设计的模型由4个嵌入了non-local模块的特征提取网络resnet101和本发明所提出的分解重组分支网络组成，resnet101的四个特征提取网络主要用于提取输入的行人图像和水平翻转行人图像的属性特征和结构特征，其中属性特征提取网络的参数是共享的，结构特征提取网络的参数也是共享的。基于自监督模式特征增强的行人属性识别网络首先将行人图像和水平翻转行人图像通过resnet101生成各自的属性特征和结构特征，其中resnet101_attr分别生成行人图像和水平翻转行人图像的属性特征attr1和attr2，resnet101_struc分别生成行人图像和水平翻转行人图像的结构特征struc1和struc2。将行人图像的属性特征和行人图像的结构特征在通道上组合起来得到attr1_struc1特征；将行人图像的属性特征和水平翻转的行人图像的结构特征在通道上组合起来得到attr1_struc2特征；将水平翻转行人图像的属性特征和行人图像的结构特征在通道上组合起来起来得到 attr2_struc1特征，将水平翻转行人图像的属性特征和水平翻转行人图像的结构特征在通道上组合起来起来得到attr2_struc2特征。将属性特征以及水平结构特征重组后，通过属性分类损失、属性分类一致性损失以及自监督模式下构造的水平翻转一致性约束对行人图像的特征进行增广和增强。其中，水平翻转一致性约束是用自监督模式的方式对属性特征和结构特征进行分解。
21.具体如下，得到重组特征attr1_struc2以及attr2_struc1后将其分别命名为 cam1和cam2,然后将cam2水平翻转得到cam2_flip。得到cam2_flip之后，对cam1和cam2_flip采用水平翻转一致性损失进行约束:
22.l
flip
＝||cam1-cam2_flip||
2-loss
23.其中||
·
||
2-loss
为像素级l2-损失。
24.通过这样的方式对属性特征和结构特征进行分解以及重组不仅可以让网络看到更多属性信息和结构信息组合下的行人特征，使得网络对行人图像结构的变化具有更好的鲁棒性；同时也对行人特征进行了增广，从两个行人特征通过分解和重组的方式增广到了四个特征，网络看到的行人特征增多，网络的识别性能也就越强大。
25.(2)设计non-local模块嵌入的resnet101网络
26.我们在行人身上的某些属性可能与其他属性产生关联的基础上，为了将特征图上
某个区域的属性与其他区域上可能与其相关的属性产生关联，从而提高特征图对于行人属性的表示性，我们在resnet101结构中嵌入non-local模块。嵌入 non-local模块的resnet101结构如图2所示，resnet101包含4层，分别是layer1、 layer2、layer3、layer4。non-local模块本质上是对自注意力的应用，其核心思想是通过关注所有位置并将特征图上所有的位置的响应求加权平均值来计算当前位置的响应。因此，我们将non-local模块嵌入到resnet101网络以期构建属性之间的关联性。在本发明中，我们发现在layer3层(输出通道数为1024维的层) 后面嵌入non-local模块得到的模型性能最好，分析原因是局部区域属性以及全局高级属性在该特征维度上得到了最好的结合。
27.(3)采用全连接注意力层进一步增强特征
28.全连接注意力层模块见图3，特征图attr1_struc1、attr2_struc2先经过全局平均池化层gap得到两个特征向量，然后将两个特征向量分别送入参数共享的全连接层fc，然后将全连接层的参数映射到attr1_struc1、attr2_struc2上就得到了增强特征图cam3、cam4。经过全连接层系数加权后得到的增强特征表示性更好，对于属性分类任务具有更强的判别力，这对行人属性识别任务性能的提升是有益的。之后，我们将增强特征图经过全局平均池化层得到相应的特征向量，然后将得到的特征向量分别输入到参数共享的全连接层fc中预测输出。
29.图1中在得到重组的特征attr1_struc1、attr2_struc2后，我们将其经过全局平均池化gap层得到两个特征向量vector3、vector4，然后将vector3、vector4分别送入参数共享的全连接层fc，然后将全连接层fc的参数映射到attr1_struc1、 attr2_struc2上就得到了增强特征图cam3、cam4，之后会将增强特征图用于属性分类。
30.对于属性分类损失，在行人属性识别数据集中某个属性正样本所占的比例可能会很高，而负样本所占的比例很低，在训练的时候由于正负样本分布不平衡会让网络看到的正样本比较多，而看到的负样本比较少，这会导致网络倾向于学习占比大的类别的属性特征，不利于网络参数的学习，反之亦然。为了改善正负样本分布不平衡带来的影响，本发明采用了带权重的sigmoid交叉熵损失lc，该损失函数会加大对错分的占比小的类别的惩罚，使得网络能关注到占比小的类别，从而减小样本分布不平衡的影响。其形式如下
[0031][0032][0033]
其中n和l分别是输入网络的样本数量和属性的数量；y
ij
为图像i中第j 个属性的真实标签，x
ij
为对图像i预测的第j个属性出现的概率；pj是属性j中正样本所占的比例；w
ij
是对损失的加权，通过对pj做指数操作得到的权重加大对错分样本的惩罚。
[0034]
(1)设计属性分类一致性损失
[0035]
本发明基于两张输入图像的属性是一致的，从而通过采用行人属性分类预测一致性进行约束，让网络对于重组得到的行人特征attr1_struc1、attr2_struc2的属性分类一致，从而提高网络对于属性分类的准确性，属性分类一致性模块如图4。属性分类一致性损失函数l
ide
如下：
[0036]
l
ide
＝||y
1-y2||2[0037]
y1和y2分别是attr1_struc1的类激活映射图cam3和attr2_struc2的类激活映射图cam4的属性分类预测结果；l是行人属性的数量，||
·
||2为l2-范数。
[0038]
通过上述行人属性识别网络的构建与训练后，训练完成的人属性识别网络将通过下面的实验验证来检验其效果。
[0039]
(2)实验验证
[0040]
为了证明本发明中所提出的基于自监督特征增强的行人属性识别方法的有效性，我们在权威的行人属性识别公共基准wider和pa100k以及peta上测试了我们的模型。
[0041]
行人属性识别的指标有两种，分别是基于标签的指标ma和基于实例的指标 acc、pre、rec、f1：
[0042]
基于标签(label-based)的指标ma分别计算行人属性的正样本和负样本的准确率，然后求两者的平均值：
[0043][0044]
其中，l为标签数量，n为样本数量，pi为第i类属性的正样本数量，ni为第i类属性的负样本数量，tpi为测试中第i类属性中预测正确的正样本个数，tni为测试中第i类属性中预测正确的负样本个数；
[0045]
基于实例(sample-based)的指标：
[0046][0047][0048][0049][0050]
其中，l为属性数量，n为样本数量，xi为输入样本，yi为输入样本的真实标签，f(xi)为输入样本的预测结果。
[0051]
将实施例我们的基于自监督模式特征增强的行人属性识别方法与其他较先进的现有行人属性识别方法进行了比较。
[0052]
实施例方法(ours)与现有方法在widre数据集上的比较如表1所示，最优的指标通过加粗字体体现：
[0053][0054]
表1
[0055]
实施例方法与现有方法在pa100k数据集上的比较如表2所示，最优的指标通过加粗字体体现：
[0056][0057][0058]
表2
[0059]
实施例方法与当前先进方法在peta数据集上的比较如表3所示，最优的指标通过加粗字体体现：
[0060][0061]
表3
[0062]
可见实施例方法在三个基准上的识别性能都达到了先进水平。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于自监督模式特征增强的行人属性识别方法

相关文献

最热文献