一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于投票算法的半监督行人重识别方法

2022-09-04 02:44:53 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术与行人重识别领域,具体涉及一种基于投票算法的半监督行人重识别方法。


背景技术:

2.由于大型摄像机网络的出现(大学、商场、游乐园等)和日渐提升的公共安全需求,行人重识别任务自然而然地出现了。目前,行人重识别被广泛地应用于安防和寻人领域,被定义为一个跨摄像头检索任务。行人重识别的首要问题是克服在不同摄像头下,由于视角的差异所引入的外观变化,其次保留大量的、精准的细粒度的信息来区分不同的人物身份。一般而言,行人重识别的应用场景场景都是跨域的、少标注的场景。在行人重识别中,被查询图片总是与图片库或者视频库不在同一个领域。拿寻人举个例子,父母提供的拍摄的图片在旋转木马旁边,但是监控的视角等可能对着过山车。这对于根据算法提取的特征图,噪音等都是不同的,带来了巨大的挑战。对于标注问题来说,标注成本是巨大,所以通常会利用已有的数据集进行训练,极大可能使用与目标域不同的源域数据集进行训练,而部署时的目标域与源域之间的差异也会造成巨大的识别问题。因此,标注和跨域成为了阻碍行人重识别任务的重要因素。
3.近年来,学者们越来越倾向于使用基于卷积神经网络(cnn)的方法来解决行人重识别问题,并取得了良好的性能,比如利用gan技术补充有限的数据;通过聚类方法解决区域差异问题等等。为了避免人工标记的高成本,无监督学习正变得越来越流行。这些方法可以分为两类,一类是基于伪标签的无监督学习,另一类是uda引导的无监督学习。关于前者,有学者提出了伪软多标签学习方法,通过标记数据来度量未标记数据等等。关于后者,有研究者将源域和目标域的所有摄像机进行等效对抗,并将未标记目标域的数据以标记平滑的方式分配到源域的类别中用于训练等等。然而,没有标记数据的帮助,很难模拟摄像机视图之间的显著差异。相比之下,对于半监督的行人重识别问题有一个更好的解决方案。
4.在半监督的行人重识别领域中,有学者提出了一个耦合字典学习模型来模拟摄像机视图中的外观变化。其基本思想是在多个摄像头视图中建立一个与未标记数据相关联的人的代表性字典,并使匹配的图像共享相同的稀疏表示。还有学者提出了一种新的半监督区域度量学习方法,该方法通过标签传播估计正邻域,并使用点度量学习方法将多个正邻域集合形成的正区域组合起来等等。但是这些方法都没有能充分的利用好未标记训练样本并且解决跨域问题,所以本发明提出的一种结合了投票算法和深度度量学习对未标记训练样本生成伪标签的方法是很有必要的。同时,为了提高模型的性能,本发明还针对跨域问题提出了一个跨域损失函数。


技术实现要素:

5.为了达到更好的行人重识别效果,同时减轻获取数据的难度,本发明提出了一种基于投票算法的半监督行人重识别深度学习方法。该方法只需要很少的标记数据进行预训
练,然后利用集成学习中的投票算法来推断伪标签,并逐次进行迭代以求获得较为稳定的伪标签表示;之后通过获得的伪标签表示,进行样本挖掘,进一步提升网络效率,同时本发明加入了针对跨摄像头的惩罚项,以求达到更好的跨摄像头性能。
6.在本发明中,主要由有监督部分,无监督部分组成。有监督学习部分主要介绍了如何使用有标签的数据优化特征提取网络。无监督部分主要介绍了提出的投票算法,分为亲和力矩阵、亲和力矩阵指导的硬样本挖掘、投票损失约束、跨域惩罚四大部分。
7.具体说明如下:
8.第一部分,有监督部分:
9.在本发明中,首先使用有标签的训练集和其对应的标签对网络进行训练,目的是为了获得初始的特征提取能力和正确的优化方向。具体来说,在这一部分中网络主要由两部分构成:一是利用在imagenet上预训练的resnet-50网络搭建的主干网络,用于进行图像特征的提取,另一个部分是简单的分类网络,由一层全连接层构成。在有监督学习部分,交叉熵损失函数和硬样本挖掘方案的三重态损失作为使用的损失函数,并由此对网络进行优化。
10.第二部分,无监督部分:
11.在上面的半监督行人重新识别假设下,因为没有可靠的人物标签可用,所以主要的挑战是通过大量没有标签的行人图片对提升模型的性能表现。在本发明中,提出了一个新的端到端学习框架,可以获得人物数据的软伪标签并逐步改善整个训练过程中的特征向量的提取效果。
12.首先是无监督部分中的亲和力矩阵。在介绍亲和力矩阵前,需要先介绍投票算法。在本发明提出的框架中,先使用有监督部分训练的模型对混杂之后的图片进行特征提取,即针对每一幅无标签图片得到其特征。紧接着将提取到的特征输入到若干个小型网络中进行分类学习,得到相应的投票结果。然后将每个网络进行加和,确保拥有相同的投票权重,这样获得更加鲁棒和稳定的投票结果。值得注意的是,大部分身份都是与正确身份无关的,所以在计算亲和力之前本发明会将其忽略,否则将引入过多的噪声。
13.为了在不同的行人图片间建立人物id的相关性,引入了亲和力矩阵用来描述标签与标签之间的关系。亲和力矩阵是一个二维矩阵,可以把亲和力矩阵中的第i行表示第i张图片和其他图片之间的相似性。同时亲和力矩阵还具有下面的特点:一是因为图片是跨摄像头的不重叠的图片对,所以可以排除不同领域的摄像头造成的领域差异,二是可以评估最相近的人物图片,通过投票算法可以获取较为准确的伪软标签标识,通过亲和力的值我们就可以得到对应的人物关系。
14.其次是亲和力矩阵指导的硬样本挖掘。通过稳定、可信的软伪标签,然后对模型进行进一步优化。众所周知,在行人重识别问题中,常常使用三元组损失进行目标优化,可是对于软标签来说,无法直接应用三元组损失。所以本发明提出了基于上述亲和力矩阵的硬样本挖掘,通过这个方式可以显著的优化现有的模型性能与特征提取、辨别能力。基于亲和力矩阵的硬样本挖掘,具体来说就是针对某个锚点样本在亲和力矩阵中分别选择与其最亲和前五个样本以及最不亲和的五个样本作为正样本和负样本,然后以此应用三元组损失优化最亲和的样本、最不亲和样本与锚点样本之间的特征空间,使得相同身份的特征向量点比不同身份的特征向量更加接近。
15.然后是投票损失约束。通过上述的讨论,我们已经得到亲和力矩阵并以此为手段优化无监督部分了。那么如何优化若干个投票网络,得到更加稳定的投票结果已经成为了亟待解决的问题。我们小型的投票网络给出了一组one-hot向量r∈ri,其中的每个元素代表人物数据某一类的概率,那么对于一个判别性问题来说,我们希望每个网络都可以输出相同或者相似的结果,即每个网络都认为人物属于同一个类别,我们以此为出发点进行对投票网络进行优化。因为我们没有确实的标签,所以在初次的预测结果中,我们的分类结果可能是不准确的,即向量r∈ri中可能有较大的噪声。所以首先对其中的噪声进行处理,采用可信集合的形式进行优化,认为大部分的身份都是与预测结果无关的,应该放弃它们。通过这样的手段,可以显著地抑制网络初始训练分类不准确的问题。最后,通过损失函数,可以逐步优化各个网络输出之间的距离,那么各个网络的最终投票结果会逐步趋于相似,以便获取稳定的伪软标签。
16.最后是跨域惩罚部分。本发明提出了一个跨域惩罚机制,它增加了网络将来自不同摄像头的图片视为同一个人的倾向。添加跨域惩罚机制有两方面积极的意义。首先,来自于不同摄像头的图像将更容易使网络学习跨摄像头信息,所以网络可以更倾向于提取不同视角下的人的相似或相同特征,这将极大的有利于行人重识别任务;第二,在同一个摄像头中会有很多相似的样本,跨域惩罚机制将会有助于发现跨摄像头的真实共同样本,而不是具有相似特征的本摄像头内的样本。跨域惩罚的具体表现为设置一个控制跨域惩罚强度的超参数,假设训练样本来自同一个摄像机就使用该超参数,否者设置为0。使用跨域惩罚,增加了相同摄像机图像之间的不相似性。因此,跨域惩罚有助于评估更多的跨摄像机图像,并减少一些同一摄像机的劣质样本。
17.本发明达到的有益效果为:
18.1.本方法提出了一种用于半监督行人重识别领域的伪软标签学习框架,该框架通过在训练过程中逐步生成未标记图片对的可信伪软标签。
19.2.在生成的伪软标签的基础上,使用三重态损失充分的利用生成的伪软标签,挖掘人物的区分性信息。
20.3.针对不同摄像头的跨域问题,采用加入惩罚项的方法,达到更好的跨域性能。
附图说明
21.图1基于投票算法的半监督行人重识别模型整体结构示意图。
具体实施方式
22.下面结合说明书附图对本发明的技术方案做进一步的详细说明。
23.在本发明中,采用resnet-50作为骨干cnn网络,使用imagenet预训练模型进行初始化,值得注意的是我们将resnet-50的最后一层的last stride改为1。在投票网络部分,本发明简单的使用数个由全连接层和dropout外加激活函数和批归一化层构成的简单网络构成,其中dropout概率设置为0.6。在进行数据预处理时,本发明使用了随机擦除、随机翻转等常见的优化方式,并将它们将他们的分辨率调整为si∈r3×
256
×
128
,并对其进行归一化操作。在训练过程中,我们将有监督部分的batch size设置为32;无监督部分的batch size设置为32;我们采用adam优化器进行梯度下降,其中adam优化器的优化模型参数被设置为
resnet-50主干网络的权重;我们在无监督学习时,将无监督部分的损失权重设置为1.2,投票损失设置为1.2。我们在pytorch上实现了我们的方法。在market1501、dukemtmc-reid和msmt17上,使用gtx 3080 gpu完成训练过程大约需要10小时。
24.market1501数据集是一个由6个摄像头捕获的用于行人重识别的大规模数据集。它包含751个训练身份和750个测试身份。训练集、图库集和查询集分别包含12936张图像、19732张图像和3368张查询图像。
25.dukemtmc-reid数据集由dukemtmc数据集派生而来,是其的一个子集。它包含了由8个摄像头捕获的1812个身份。使用market1501中指定的评估协议,我们获得了2228张查询图像、16522张训练图像和17661张图库图像。
26.msmt17数据集是一个更大型的行人重识别数据集,其更接近真实场景。他包含12个户外摄像头和3个室内摄像头,总计15个摄像头组成。为了达到更好的跨域效果,选取了不同的时间及气候条件下的视频。按照训练集比测试集为1比3的比例进行随机划分;训练集包含1041个行人身份共32621张图片,测试集包括3060个行人共93820张图片,其中由11659张图片作为被查询图片,而其它图片作为图库图片。
27.基于投票算法的半监督行人重识别模型整体结构如图1所示,下面为了方便理解,先进行符号说明:
28.我们假设部分人物的数据是有标注的,但是同时大部分人物数据是没有标注的。因为在实际的生产中,通过跟踪算法、目标检测算法以及少量的人工标记可以较为容易地获取同一人物的数据标签,但是同时采集所有人物的数据标签无疑是困难的。在半监督行人重识别设定下,假设有一个有标签的训练集χ=x1,x2,

,xn,其中每xi∈r3×w×h是一个已经标记的行人图片;它们对应的标签是yi,即:y={y1,y2,

,yn};同时还有一个大型的无标签的数据其中的每个ui∈r3×w×h代表一个未经标记的行人图片。本发明的主要目标是从χ、这些数据中学习一个特征提取函数φ(θ;si),可以达到很好的特征提取效果与行人重识别效率,其中θ是φ的参数。
29.第一部分:有监督部分:
30.在提出的方法中,首先使用有标签的训练集χ和其对应的标签y对网络进行训练,主要为了获得初始的特征提取能力和正确的优化方向。具体来说,在这一部分中网络主要由在imagenet上预训练的resnet-50网络搭建的主干网络和由一层全连接层构成的分类网络组成。在有监督学习部分,交叉熵损失函数和三重态损失作为我们使用的损失函数,并由此对网络进行优化。
31.在训练时,我们采用典型的行人重识别数据构成方式,随机选择一定人物图片对数据生成三元组。因此,在每次训练批次中,我们随机选择n
p
个人物,每个人物选择nk张图片,即每个训练批次的样本数量为n=n
p
×
nk。本发明有标签数据的三元组损失可描述为:
[0032][0033]
其中代表i个人的第j个锚点图片的特征,对于来说
[0034]
[0035]
其中d(
·
,
·
)表示两个特征向量的欧氏距离。所以,在公式(1)中,代表最硬的正(负)样本与锚点样本之间的欧氏距离之差。
[0036]
分类网络由一层全连接(fc)层构成,生成一个置信分数向量。本发明使用f
θ
标记从特征到置信分数的映射,即:然后我们使用softmax函数对网络的输出进行归一化处理,得到样本属于第c类的置信分数
[0037][0038]
然后使用典型的交叉熵损失函数进行损失计算
[0039][0040]
其中yi是有标签图片对的标签,是网络预测的标签。
[0041]
所以使用有监督学习部分的损失函数是
[0042][0043]
值得注意的是,我们在半监督学习部分同样需要用到公式(5)作为半监督学习中的有标签数据的损失函数。
[0044]
第二部分,无监督部分:
[0045]
在无监督部分,采用有标签xi与无标签数据ui混合训练的方式进行。混合后的集合标记为其中有c个元素。随后将s打乱,即将有标签数据与无标签数据混合在一起,并送入网络中,在网络提取完成特征之后再将这两种数据分离,分别计算损失。具体来说,本发明使用有监督部分中的损失函数继续计算有标签数据xi的损失,用无监督部分提出的方案计算无标签数据ui的损失。本发明使用si在本部分中标记任意s中的一个元素;使用xi标识任意一个有标签的数据;使用ui标识任意一个无标签的数据。
[0046]
亲和力矩阵。在本发明提出的框架中,首先使用上面训练的模型对混杂之后的图片进行特征提取,即针对每一幅无标签图片ui得到其特征φ(θ;ui)。接着本文将提取到的特征输入到γ个小型网络中进行分类学习。在本发明中使用缓存区v=[v1,v2,

,vc]存储投票结果,其中vi是第i个人的分类向量。在第t个网络进行投票时,vi被更新为
[0047][0048]
其中,n
t
代表第t个投票网络,φ(θ;ui)代表特征提取网络提取的特征。本发明将每个网络进行加和,确保他们拥有相同的投票权重,这样获得更加鲁棒和稳定的投票结果。值得注意的是大部分身份都是与正确身份无关的,在计算亲和力之前应该将其忽略,否则将引入过多的噪声
[0049][0050]
其中v
i,j
即最后的伪软标签结果,t为投票网络的数目,σ是投票结果的平均值。在
得到了投票结果后,将要进行亲和力矩阵的计算。
[0051]
为了在不同的行人图片间建立人物id的相关性,引入了亲和力矩阵用来描述标签与标签之间的关系。具体来说,根据投票结果v∈rc×d计算亲和力矩阵a∈rc×c,其中的元素a
i,j
代表第i张人物图片与第j张人物图片之间的关系
[0052][0053]
根据文献所述,为了结合局部密度结构,所以使用σ代表亲和力矩阵的均值。亲和力矩阵中的第i行表示第j张图片和其他图片之间的相似性。
[0054]
亲和力矩阵指导的硬样本挖掘。在上述讨论中已经探讨了如何通过投票算法获取稳定了软伪标签表示。通过稳定、可信的软伪标签,将对模型进行进一步优化。众所周知,在行人重识别问题中,常常使用三元组损失进行目标优化,可是对于软标签来说,无法直接应用三元组损失。所以提出了基于上述亲和力矩阵的硬样本挖掘,通过这个方式可以显著的优化现有的模型性能与特征提取、辨别能力。
[0055]
针对某个锚点样本ui来说,在亲和力矩阵中分别选择与其最亲和前五个样本,即argsort(ai)[:5],以及最不亲和的五个样本,即argsort(ai)[length-6:]作为其正样本u
p
与负样本un,所以无监督部分的挖掘损失可以描述为
[0056][0057]
其中d(
·
,
·
)表示两个特征向量的欧氏距离。所以,在公式9中,可以很好的优化最亲和的样本、最不亲和样本与锚点样本之间的特征空间,使得相同身份的特征向量点比不同身份的特征向量更加接近。
[0058]
在此基础上同时注重了分类损失,将会计算投票结果和分类网络之间的距离,以此为依据进一步优化分类效果
[0059][0060]
其中c代表分类的数目,vi代表投票网络的投票结果,ci代表分类网络的置信分数,使用一维范数衡量他们之间的差异。
[0061]
投票约束损失。通过上述的讨论,已经得到亲和力矩阵并以此为手段优化无监督部分了。那么如何优化γ个投票网络,得到更加稳定的投票结果已经成为了亟待解决的问题。
[0062]
小型的投票网络给出了一组one-hot向量r∈ri,其中的每个元素代表人物数据某一类的概率,那么对于一个判别性问题来说,希望每个网络都可以输出相同或者相似的结果,即每个网络都认为人物属于同一个类别,以此为出发点进行对投票网络进行优化。
[0063]
因为没有确实的标签,所以在初次的预测结果中,的分类结果可能是不准确的,即向量r∈ri中可能有较大的噪声,所以首先对其中的噪声进行处理,采用可信集合的形式进行优化。
[0064]
具体来说,认为大部分的身份都是与预测结果无关的,应该放弃它们。
[0065][0066]
其中代表每一个投票网络对于某个类别的的置信分数。当j属于可信集合时,的值使其本身,否则为0,通过这样的手段,可以显著地抑制网络初始训练分类不准确的问题。r
reliable
代表可信集合,可信集合由第一步预训练的模型得出,对第一步分类模型的分类向量进行排序并选取前β%部分的索引构成可信集合的索引。
[0067]
上面已经说明了,希望每个子模型对于每个类别的输出是一致的,所以希望它们两两之间的距离足够小,所以将损失函数设定如下
[0068][0069]
其中t是投票网络的数目。通过上面的损失函数,可以逐步优化各个网络输出之间的距离,那么各个网络的最终投票结果会逐步趋于相似,以便获取稳定的伪软标签。
[0070]
跨域惩罚。本发明提出了一个跨域惩罚机制,它增加了网络将来自不同摄像头的图片视为同一个人的倾向。具体来说,将训练样本的摄像机标记为c={c1,c2,

,cn}。那么对于两幅图片xi与xj来说,跨域惩罚如下
[0071][0072]
其中,ε是控制跨域惩罚强度的超参数。使用跨域惩罚,增加了相同摄像机图像之间的不相似性。
[0073]
在使用时,将其附加在亲和力矩阵指导的硬样本挖掘中,所以无监督部分的损失被优化为
[0074][0075]
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献