一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于去相机偏差和动态更新记忆模型的无监督行人重识别方法

2022-04-30 12:32:02 来源:中国专利 TAG:


1.本发明属于计算机视觉领域,具体的说是一种基于去相机偏差和动态更新记忆模型的无监督行人重识别方法。


背景技术:

2.完全无监督方法不使用任何的标注数据,所以第一步一般都是为无标记样本数据生成伪标签,这也是目前主流的技术路线。该类方法具有思路简单清晰、性能良好的优点,特别是一些基于聚类的伪标签生成方法,可以展现出与有监督学习方法相接近的性能。在buc中,提出了一种自底向上的聚类方法,以逐步获得更多的合理的聚类以用于网络训练。在ssl中通过挖掘每个训练样本的k近邻为样本分配软性伪标签用于训练。hct用层次聚类生成伪标签和挑选出部分样本用于三元组损失的计算。在对比学习出现后,spcl尝试通过记忆模型将样本与数据集中其他样本进行对比,拉近同一伪标签下图片的距离,推远不同标签下的特征距离。因为提出的统一对比损失函数,将会使样本靠近聚类的中心,远离其他类别,可以取得很好的类内集聚、类间均匀分布的效果。这些基于聚类的方法通常以与忽视相机标签的方式工作,这可能会导致由摄像头差异引起的噪声伪标签。
3.为了克服它,uga将训练分成两部分任务分为同一个相机内和不同相机两个阶段。同一相机下标签具有较少的噪声和来自不同相机的知识可以帮助跨相机进行关联。metacam引入了元学习,去增强模型对相机偏移的适应能力。然而,他们并没有从图片本身去除掉相机因素的影响,利用相机标签可以生成更精确的伪标签的作用被低估了。
4.无监督行人重识别的现有技术方案中基于聚类的伪标签法被证实较为有效,且保持目前最先进的精度。基于聚类的伪标签法,顾名思义,首先用聚类算法(k-means,dbscan等)对无标签的图像特征进行聚类,从而生成伪标签,再用该伪标签监督网络的学习。尽管该类方法可以一定程度上随着模型的优化改善伪标签质量,但是模型的训练往往被无法避免的伪标签噪声所干扰,并且在初始伪标签噪声较大的情况下,模型有较大的崩溃风险。所以如何处理伪标签噪声对网络最终的性能产生了至关重要的影响,但现有技术中并没有有效解决的方案。


技术实现要素:

5.本发明是为了解决上述现有技术存在的不足之处,提出一种基于去相机偏差和动态更新记忆模型的无监督行人重识别方法,以期能在全局特征中去除相机偏差,保证类别特征更新的正确性,从而能降低相机风格和伪标签噪声对识别的影响,提升行人重识别的准确率。
6.本发明为达到上述发明目的,采用如下技术方案:
7.本发明一种基于去相机偏差和动态更新记忆模型的无监督行人重识别方法的特点是按如下步骤进行:
8.步骤1、获取行人图像数据集(x1,x2,

,xi,

,xn),其中,xi表示第i张行人图像,n表示图像总数;获取所述行人图像数据集中每张行人图像的相机标签,其中,第i张行人图像xi的相机标签记为yj表示第j种标签,m表示标签的种类数;
9.步骤2、构建特征提取器,包括:骨干网络以及通道注意力模块;
10.所述骨干网络以resnet-50网络为基础,并包括r个layer层,每个layer层中包含有不同数量的block块,每个block块中包含s个卷积层;
11.利用imagenet数据集对所述特征提取器进行预训练,得到预训练后的特征提取器;
12.步骤2.1、将所述第i张行人图像xi输入到预训练后的特征提取器中,并经过所述骨干网络,输出第i张行人图像的全局特征向量fi∈rh×w×c,h表示特征图fi的高度,w表示特征图fi的宽度,c表示特征图fi的通道数;
13.步骤2.2、所述全局特征向量fi输入所述通道注意力模块中,并利用式(1)得到通道注意力向量ai∈rc:
14.ai=σ(w2δ(w1pool(fi)))
ꢀꢀ
(1)
15.式(1)中,pool表示全局平均池化操作、w1表示全连接操作、δ表示relu激活函数、w2表示另一个全连接操作、σ表示sigmoid函数;
16.步骤2.3、将通道注意力向量ai与全局特征向量fi在对应通道维度相乘后得到行人特征ci=ai·fi
,且ci∈rh×w×c,从而得到所有行人图像的行人特征c=(c1,c2,

,ci,

,cn);
17.步骤2.4、利用dbscan聚类方法对所有行人图像的行人特征c进行聚类,从而得到行人图像数据集的伪标签表示第i张行人图像xi的伪标签,且的伪标签,且k为伪标签类别数目;
18.步骤3、将聚类后的每个类别的伪标签下所有行人特征的均值作为每一类的类别特征并存储在记忆模型中,并记为{q1,q2,

,qj,

,qk};其中,qj表示记忆模型中第j类的类别特征;
19.步骤4、特征提取器的训练;
20.步骤4.1、将所述第i张行人图像xi输入预训练后的特征提取器中,并得到通道注意力向量ai和行人特征ci,从而得到第i张行人图像xi的相机风格特征ii=(1-ai)
·fi

21.步骤4.2、利用式(2)得到第i张行人图像xi的相机预测概率pi:
22.pi=softmax(w
×
(gap(ii)) b)
ꢀꢀ
(2)
23.式(2)中,softmax表示归一化指数函数,gap表示全局池化操作,w表示全连接层的权重,b表示全连接层的偏置;
24.步骤4.3、利用式(3)得到第i张行人图像xi的相机预测损失
[0025][0026]
步骤4.4、利用所述第i张行人图像xi的行人特征ci与记忆模型中对应的类别特征构建第i张行人图像xi的对比学习损失
[0027]
步骤4.5、利用式(4)得到第i张行人图像xi的更新因子mi:
[0028]
[0029]
式(4)中,表示按批次输入网络的图片中与第i张行人图像xi伪标签一致的行人图片的行人特征的均值,σ表示按批次输入网络的图片中与第i张行人图像xi伪标签一致的行人图片的行人特征的方差,γ表示放缩因子;
[0030]
步骤4.6、利用式(5)得到记忆模型中更新后的第j类的类别特征
[0031][0032]
步骤4.7、利用式(6)建立全局损失函数l:
[0033][0034]
式(6)中,λ表示的系数,b表示当前批次大小;表示当前批次中第s张行人图像xs的相机预测损失,表示当前批次中第s张行人图像xs的对比学习损失;
[0035]
步骤4.8、通过随机梯度下降法对预训练后的特征提取器进行优化求解,并计算全局损失函数l后进行梯度反向传播,直到达到全局损失函数l收敛为止,从而得到训练后的特征提取模型;
[0036]
步骤5、行人重识别的查询匹配;
[0037]
将待查询的行人图像输入训练后的特征提取模型并提取行人特征,再将所提取的行人特征与检索库中所有行人特征进行相似度计算,并按照相似度进行降序排序,从而在所得到的排序列表中找到与待查询的行人图像行人身份一致的行人图片。
[0038]
与现有技术相比,本发明的有益效果在于:
[0039]
1、本发明提出了一个新的无监督行人重识别框架,利用注意力机制和动态更新机制,降低相机风格和伪标签噪声对识别的不利影响,使得模型提取出具有鲁棒性的行人特征,提高了网络对行人图像的检索准确度。
[0040]
2、本发明基于一个可学习的通道注意力模块利用相机预测损失提取出与只和相机相关的特征,从而在全局特征中去除相机偏差得到代表行人的鲁棒性的特征,进一步提升了识别的准确率。
[0041]
3、本发明采用一种根据实例特征与类别特征之间的距离实现动态更新记忆模型的方法,有甄别性地利用了不同的实例并且让类别特征更加趋向于真实空间,控制模型的优化向着正确的方向。
附图说明
[0042]
图1为本发明方法流程示意图。
具体实施方式
[0043]
本实施例中,一种基于去相机偏差和动态更新记忆模型的无监督行人重识别方法,主要利用注意力机制和动态更新机制使得模型提取出具有鲁棒性的行人特征,如图1所示,是按如下步骤进行:
[0044]
步骤1、获取行人图像数据集(x1,x2,

,xi,

,xn),其中,xi表示第i张行人图像,n表示图像总数;获取行人图像数据集中每张行人图像的相机标签,其中,第i张行人图像xi的相机标签记为yj表示第j种标签,m表示标签的种类数;
[0045]
步骤2、构建特征提取器,包括:骨干网络以及通道注意力模块;
[0046]
骨干网络以resnet-50网络为基础,resnet-50网络包括r=4个layer层,每个layer层中block块的个数依次是3,4,6,3个,而每个block块(bottleneck块)中又包含s=3个卷积层;此处使用的resnet-50与典型的resnet-50相比,去掉了最后的全连接层和softmax层,加入了批标准化层(bn)和l2归一化层(l2-normalization);
[0047]
利用imagenet数据集对特征提取器进行预训练,得到预训练后的特征提取器;通道注意力模块也是在imagenet上预训练的,具有初步的加强与物体类别相关的通道特征的能力;
[0048]
步骤2.1、将第i张行人图像xi输入到预训练后的特征提取器中,并经过骨干网络,输出第i张行人图像的全局特征向量fi∈rh×w×c,h表示特征图fi的高度,w表示特征图fi的宽度,c表示特征图fi的通道数;
[0049]
步骤2.2、全局特征向量fi输入通道注意力模块中,并利用式(1)得到通道注意力向量ai∈rc:
[0050]ai
=σ(w2δ(w1pool(fi)))
ꢀꢀ
(1)
[0051]
式(1)中,pool表示全局平均池化操作、w1表示全连接操作、δ表示relu激活函数、w2表示另一个全连接操作、σ表示sigmoid函数;
[0052]
步骤2.3、将通道注意力向量ai与全局特征向量fi在对应通道维度相乘后得到行人特征ci=ai·fi
,且ci∈rh×w×c,从而得到所有行人图像的行人特征c=(c1,c2,

,ci,

,cn);
[0053]
步骤2.4、利用dbscan聚类方法对所有行人图像的行人特征c进行聚类,从而得到行人图像数据集的伪标签表示第i张行人图像xi的伪标签,的伪标签,即伪标签类别数目为k;一般由一个初始的预训练的模型出发得到的伪标签,由于这个预训练的模型有着较为初始的区分能力以及相同行人的图片本来在外观上就有相似性,所以这个初始的伪标签有着一定的价值,其中有大部分其实是正确的标签;
[0054]
步骤3、将聚类后的每个类别的伪标签下所有行人特征的均值作为每一类的类别特征并存储在记忆模型中,记为{q1,q2,

,qj,

,qk};qj表示记忆模型中第j类的类别特征;
[0055]
步骤4、特征提取器的训练;
[0056]
步骤4.1、将第i张行人图像xi输入预训练后的特征提取器中,并得到通道注意力向量ai和行人特征ci,从而得到第i张行人图像xi的相机风格特征ii=(1-ai)
·fi

[0057]
步骤4.2、利用式(2)得到第i张行人图像xi的相机预测概率pi:
[0058]
pi=softmax(w
×
(gap(ii)) b)
ꢀꢀ
(2)
[0059]
式(2)中,softmax表示归一化指数函数,gap表示全局池化操作,w表示全连接层的权重,b表示全连接层的偏置;
[0060]
步骤4.3、利用式(3)得到第i张行人图像xi的相机预测损失函数
[0061][0062]
式(3)中,表示第i张行人图像xi的相机标签;相机预测损失会更新注意力向量a,将会驱动1-a更加关注于图片的相机特征,使得通道注意力向量a更好的提取行人特征,去除相机偏差;使a获取到每个特征通道对行人识别的重要程度,然后依照这个重要程度去加强行人相关的特征。
[0063]
步骤4.4、利用第i张行人图像xi的行人特征ci与记忆模型中对应的类别特征构建第i张行人图像xi的对比学习损失对比学习是无监督学习的一种范式。它着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可。
[0064]
引入到无监督行人重识别中则需要使得模型提取的行人图片特征与其同一身份的图片特征尽量保持一致,而不同身份的图片特征尽量远离。在此我们把同一身份的行人图片称为正样本,不同身份的行人图片为负样本,对比学习将实例(即输入样本)与其正样本拉近,与负样本拉远。那么如果负样本充足,实例将区别于大部分负样本,从而获得很高鉴别性的特征。引入了记忆模型(memory bank)来存储所有类别的特征,方便计算对比学习损失。输入图片经过特征提取器后提取的特征为实例特征,所有的实例特征经过聚类得到伪标签,随后每一类的类别特征为这个伪标签下实例特征的均值。然后利用式(4)计算对比学习损失
[0065][0066]
式(4)中,fi为实例特征,q

为对应的伪标签类别特征,qj为其他类别特征,τ是温度因子,这个损失函数使实例特征fi趋向于类别特征,而远离其他类别特征。
[0067]
步骤4.5、利用式(5)得到第i张行人图像xi的更新因子mi:
[0068][0069]
式(5)中,表示按批次输入网络的图片中与第i张行人图像xi伪标签一致的行人图片的行人特征的均值,σ表示按批次输入网络的图片中与第i张行人图像xi伪标签一致的行人图片的行人特征的方差,γ表示放缩因子;此公式使得特征与均值的差比较大时降低它的更新因子,根据每个实例特征与类别特征的距离赋予每个实例不同的重要性,来去更新记忆模型中的类别特征,这种方式使本方法有甄别性地利用了不同的实例并且让类别特征更加趋向于真实空间,控制模型的优化向着正确的方向。
[0070]
步骤4.6、每个实例对应一个属于自己的更新因子,得到更新因子然后再更新类别特征。因此,利用式(6)得到记忆模型中更新后的第j类类别特征
[0071][0072]
式(6)中,ci代表第i张行人图像xi的行人特征,mi是实例xi的更新因子,qj是记忆模型中第i张行人图像xi所属伪标签第j类的类别特征,计算行人特征与同一批伪标签下特征的均值间的距离,利用此距离去动态更新记忆模型;
[0073]
步骤4.7、利用式(7)建立全局损失函数l:
[0074][0075]
式(7)中,λ表示的系数,为一常数,b表示当前批次大小;表示当前批次中第s张行人图像xs的相机预测损失,表示当前批次中第s张行人图像xs的对比学习损失;l是按批次输入数据得到和的和;
[0076]
步骤4.8、通过随机梯度下降法对预训练后的特征提取器进行优化求解,并计算全
局损失函数l后进行梯度反向传播,每轮迭代开始都要对数据集重新聚类得到伪标签并且初始化记忆模型,迭代次数为80,此时损失函数基本收敛,从而得到训练后的特征提取模型;利用伪标签计算得到的损失函数去训练模型有着一定的优化效果,使得模型进一步的关注相同身份行人普遍拥有的特征和不同身份标签下行人图片里不同的特征,从而让模型越来越注重跟此任务相关的语义特征,在此基础上得到的伪标签拥有更高的准确度,依此反复迭代,得到的伪标签越来越准确,模型特征提取也越来越注重行人的特征而非其他因素。
[0077]
步骤5、行人重识别的查询匹配;
[0078]
将待查询的行人图像输入训练后的特征提取模型并提取行人特征,再将所提取的行人特征与检索库中所有行人特征进行相似度计算,并按照相似度进行降序排序,从而在所得到的排序列表中找到与待查询的行人图像行人身份一致的行人图片。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献