一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于全局级别和局部级别联合约束的跨模态行人再识别方法

2022-06-01 07:25:38 来源:中国专利 TAG:

三种网络结构:单流网络、双流网络、非对称全连接层,并提出了深度零填充方法,使得彩色模态和红外模态的通道数相同,减少跨模态差异。然而该方法缺少距离度量学习的过程,影响了识别准确率,没有解决模内差异的问题。
8.于是,ye等
2.使用了基于双流网络的双约束顶级损失,解决跨模态差异问题,并使用含有距离学习过程的身份损失函数,进一步减小类内差异。但是该方法以训练样本和测试样本的数据分布一致为前提。在实际的跨模态行人再识别任务中,两者的数据分布经常是不同的,因为无法在同一时刻由同一台设备捕获不同模态的图像。
9.因此,wu等
3.考虑了训练样本和测试样本的数据分布不同的情况,将跨模态匹配中的对共享知识挖掘问题转换为跨模态相似度保留问题,用相同模态间样本的相似度来约束不同模态间样本的相似度,进一步解决了跨模态差异问题。
10.另外,ye等
4.设计了具有非局部注意力机制的基线、广义平均池化和加权正则化三元组损失。通过非局部注意力机制获取中层与高层的信息,增强特征的可区分能力。由于非局部注意力机制的存在,该模型获得的共享特征比wu等
3.的方法获得的更具有全局性与长依赖性。然而,该模型提取共享特征是以全局特征为基础,样本中含有较多的诸如背景、遮挡等具有干扰性质的噪声,仅使用全局特征的模型对噪声的鲁棒性差。而且,该模型采用的非局部注意力机制仅关注像素层面的全局相关性,没有考虑位置相关性,使得噪声也会被全局关注。这些都使得该模型较难学习到有区分性的全局特征。
11.参考文献
12.[1]wua,zhengws,yuhx,等.rgb-infraredcross-modalitypersonre-identification[a].proc.ieee/cvfint.conf.comput.vis.(iccv)[c].venice,italy:2017:5390

5399.
[0013]
[2]yem,wangz,lanx,等.visiblethermalpersonre-identificationviadual-constrainedtop-ranking[a].proc.27thint.jointconf.artif.intell.(ijcai)[c].stockholm,sweden:internationaljointconferencesonartificialintelligenceorganization,2018:1092

1099.
[0014]
[3]wua,zhengws,gongsg,等.rgb-irpersonre-identificationbycross-modalitysimilaritypreservation[j].internationaljournalofcomputervision,2020,128(6):1765

1785.
[0015]
[4]yem,shenj,ling,等.deeplearningforpersonre-identification:asurveyandoutlook[j].ieeetransactionsonpatternanalysisandmachineintelligence,2021:1

25.


技术实现要素:

[0016]
发明目的:现有的彩色-红外行人再识别方法多以全局表征学习的方式提取两种模态的共享特征,对背景、遮挡等噪声的鲁棒性差。为了提高模型对背景、遮挡等噪声的鲁棒性,提高特征的表达能力,本发明提出基于全局特征和局部特征的联合约束模型。
[0017]
技术方案:为实现上述发明目的,本发明欲提出一种彩色-红外行人再识别方法,以减少跨模态行人再识别任务中的跨模态差异和模态内部差异。具体地,本发明提出用于彩色-红外行人再识别任务的基于双路网络结构的端到端的特征学习框架gloc-net
(global-level and local-level constraints network,gloc-net),该网络的框架图如图3所 示。
[0018]
本发明所提出的gloc-net的训练流程图如图4所示。该训练流程采用小批量训练 (mini-batch)的方式进行训练,每次将随机选取p个行人,对这些行人分别随机选择k张彩 色图像和k张红外图像。接下来,将以输入一张彩色图像和一张红外图像为例,介绍训 练流程,此时p为1,k为1,具体如下:
[0019]
步骤1:输入1张彩色图像、1张红外图像至gloc-net模型,进入步骤2;
[0020]
步骤2:利用resnet50网络和非局部注意力块,将步骤1中输入的两种模态的图像生 成富含全局性的共享特征,进入步骤3;
[0021]
步骤3:从共享特征中提取对应的全局特征,进入步骤4;
[0022]
步骤4:从共享特征中提取对应的局部特征,进入步骤5;
[0023]
步骤5:对步骤3获得的全局特征与步骤4获得的局部特征进行全局级别和局部级别 联合约束,并通过反向传播的方式更新模型参数,进入步骤6;
[0024]
步骤6:若达到指定的训练轮数,则进行步骤7,否则继续完成训练,返回步骤1;
[0025]
步骤7:结束。
[0026]
作为优选,步骤1中的彩色图像和红外图像均来自于跨模态行人再识别的标准数据 集,如sysu-mm01,regdb等。彩色图像由红(r)、绿(g)、蓝(b)三种基色构成, 并含有三个通道,每种通道与基色相对应。而红外图像记录物体向外辐射的热量,在本 发明中以单通道的形式存在。本发明假设彩色行人图像共有n1张,红外行人图像共有n2张,彩色模态的样本可表示为红外模态样本可表示为其中,表示第i幅彩色行人图像,表示第j幅红外行人图像,和分别表示和对 应的身份,且对每个彩色图像与红外图像进行带零填充的随机裁剪与随机水 平翻转的操作,最后形成高为256,宽为128的行人图像。与上文所述一致,本发明以输 入一个彩色模态样本和一个红外模态样本为例,介绍本发明在训练过 程中的工作原理。
[0027]
作为优选,本发明采用双流网络结构,并利用残差网络(residual network)和非局 部注意力机制(non-local attention mechanism)提取共享特征。其中,resnet50网络是 残差网络中的典型网络,包含了50个二维卷积操作。本发明采用resnet50网络,能够增 加网络深度,提高特征表达能力。同时,本发明以非局部注意力块的形式,利用非局部 注意力机制,内嵌在resnet50网络中,可以增加特征的感受野,使特征富含全局信息。 非局部注意力块的结构如图5所示。
[0028]
作为优选,本发明在训练流程的步骤2内的提取共享特征的步骤如下:
[0029]
步骤2-1:将彩色图像和红外图像输入网络,分别经过一层卷积网络,用来 提取两种模态的浅层特征f
iori-rgb

[0030]
步骤2-2:将f
iori-rgb
和同时输入由resnet50后四层的卷积层和非局部注意力块 组成的网络中,分别形成两种模态的共享特征f
ishare-rgb

[0031]
步骤2-3:输出共享特征f
ishare-rgb

[0032]
作为优选,步骤2-1中,两种模态的图像经过的卷积层的结构相同,参数不同。
[0033]
作为优选,本发明在resnet50的四个卷积层内的第二个和第三个卷积层处,分别嵌入两个非局部注意力块,组合为步骤2-2的提取共享特征的网络。
[0034]
作为优选,本发明在训练流程的步骤3内的提取全局特征的步骤如下:
[0035]
步骤3-1:将共享特征f
ishare-rgb
和进行全局平均池化,得到富含全局性的准全局特征f
igp-rgb

[0036]
步骤3-2:将f
igp-rgb
和输入bn(batchnormalization)层,生成最终的全局特征f
ig-rgb

[0037]
步骤3-3:输出全局特征f
ig-rgb

[0038]
作为优选,步骤3-2中,使用的bn层可使数据分布近似正态分布,避免梯度消失问题。
[0039]
作为优选,本发明在训练流程的步骤4内的提取局部特征的步骤如下:
[0040]
步骤4-1:利用1
×
1卷积操作,将共享特征f
ishare-rgb
和的通道数降至原来的四分之一,得到f
ishare-rgb


[0041]
步骤4-2:对f
ishare-rgb

和进行四等分的划分操作,并分别对每个等分后的部分进行平均池化的操作,得到由四个局部特征块组成的局部特征组和
[0042]
步骤4-3:将局部特征组f
ilp-rgb
和分别输入到对应的bn层中,分别将经过bn层的局部特征组内的局部特征块拼接,得到最终的局部特征和
[0043]
步骤4-4:输出局部特征和
[0044]
作为优选,本发明在训练流程的步骤5中的全局级别和局部级别联合约束由全局级别约束损失、局部级别约束损失和局部特征约束全局特征损失组成。
[0045]
作为优选,本发明在训练流程的步骤5内的全局级别约束损失和局部级别约束损失均基于vi-reid任务的困难三元组损失和身份损失。
[0046]
作为优选,本发明提出的基于vi-reid任务的困难三元组损失在传统三元组损失的基础上,考虑了彩色模态和红外模态,并增加了困难采样的过程,不仅增加了三元组损失的适用范围,而且提升了模型的训练速度和检索任务的准确率。困难三元组损失会对两种模态的困难样本进行困难采样,从中选出最难匹配的正样本对、最容易匹配的负样本对,进而计算出损失。我们采用欧式距离的方式,度量两个特征向量之间的距离,如公式1所示。其中,f1和f2代表行人图像的特征向量。
[0047]
d(f1,f2)=||f
1-f2||2(1)
[0048]
假设在训练集中选取p个行人身份,从每个行人身份中随机选取k张彩色行人图像和k张红外行人图像,则每一个批次内有2pk张行人图像。针对vi-reid任务的困难三元组损失如公式2所示。其中,f代表特征向量集合,锚点行人图像的特征向量的选择范围是
两种模态行人图像的集合,为与具有相同行人身份的彩色模态或红外模态的行人图像的特征向量,为与的行人身份不同的彩色模态或红外模态的行人图像的特征向量。当困难正样本对间的欧式距离与ρ之和小于困难负样本对之间的欧氏距离时,锚点行人图像能够与该批次中所有的行人图像正确匹配。其中,ρ代表人为设定的阈值参数。
[0049][0050]
作为优选,本发明提出了基于vi-reid任务的身份损失。与传统的身份损失相比,本发明的身份损失考虑了彩色模态和红外模态,使其适用于vi-reid任务。与针对跨模态行人再识别任务的困难三元组损失类似,我们假设在训练集中选取p个身份,从每个身份中随机选取k张彩色行人图像和k张红外行人图像,每一个batch内有2pk张行人图像。针对vi-reid任务的身份损失如公式3所示。其中,f代表特征向量集合,p(yi|fi)表示特征向量fi被模型预测为yi的概率,由softmax函数编码。
[0051][0052]
作为优选,本发明提出的全局级别约束损失是基于vi-reid任务的困难三元组损失和身份损失,约束全局特征,保证全局特征的有效性。全局级别约束损失利用了步骤3-1的准全局特征f
igp-rgb
和以及步骤3-3的全局特征f
ig-rgb
和其表达式如公式4所示。
[0053][0054]
作为优选,本发明提出的局部级别约束损失与全局级别约束损失类似,同样基于vi-reid任务的困难三元组损失和身份损失,约束局部特征,保证局部特征的有效性。局部级别约束损失利用了步骤4-2的局部特征组和以及步骤4-4的局部特征和其表达式如公式5所示。
[0055][0056]
作为优选,本发明提出的局部特征约束全局特征损失根据步骤3-3的全局特征f
ig-rgb
和以及步骤4-4的局部特征和设计局部特征约束全局特征损失。通过计算全局特征与局部特征间的均方误差,衡量两者间的空间相关性。均方误差关于两个不同行人图像的特征向量f1和f2的表达式如公式6所示。
[0057]
l
mse
(f1,f2)=(||f
1-f2||2)2(6)
[0058]
用全局特征与局部特征间的均方误差衡量全局特征与局部特征的空间相关性,可使两者间的空间相关性更强,使得全局特征更加关注局部特征中的局部特征块的部分。而
且,每个局部特征块包含着不同区域的信息,每个区域所含的背景、遮挡等噪声被划分,局部特征块经过平均池化等操作后,对应区域所含的噪声比全局特征中的噪声更小,较好地减少噪声的影响,增加模型对噪声的鲁棒性。最终,局部特征约束全局特征损失如公式7所示。
[0059][0060]
作为优选,本发明的全局级别和局部级别联合约束,最终结合了全局级别损失、局部级别损失、局部特征约束全局特征损失,如公式8所示。其中,λ为预定义的权衡参数,用来平衡局部特征约束全局特征损失。
[0061]
l
gloc
=l
global
l
local
λl
lcg
(8)
[0062]
本发明的测试流程为:
[0063]
步骤1:输入查询集(queryset)和图库集(galleryset),进入步骤2;
[0064]
步骤2:利用训练过程得到的模型,对步骤1输入的查询集(queryset)和图库集(galleryset)的所有行人图像进行特征提取,进入步骤3;
[0065]
步骤3:计算查询集特征与图库集特征的相似度,进入步骤4;
[0066]
步骤4:根据相似度的高低,得出查询集内的每张行人图像对应的匹配结果,进入步骤5;
[0067]
步骤5:结束。
[0068]
作为优选,测试流程中的步骤1内的查询集表示待查询行人图像的集合,而图库集表示待查询集匹配的行人图像的集合。
[0069]
作为优选,测试流程中的步骤2内,gloc-net模型仅进行全局特征提取,并以全局特征作为最终的特征表示。
[0070]
作为优选,测试流程中的步骤3内的相似度计算方法为点乘相似度。
[0071]
作为优选,测试流程中的步骤4内,每一张查询集内的图像均有若干张从图库集内匹配的图像,根据累计匹配特性(cumulativematchingcharacteristic,cmc)和平均精度均值(meanaverageprecision,map)作为评价指标。其中,cmc中的rank-k准确率测量前k个检索结果中出现正确跨模态行人图像的概率,而map可以体现方法的平均检索性能。
[0072]
有益效果:本发明提出了全局级别和局部级别约束网络,学习可区分的特征表示。首先,我们提出了基于非局部注意力机制的残差网络,提取共享特征,减少跨模态差异。其次,我们提出了全局级别和局部级别的联合约束,增加对背景、遮挡等噪声的鲁棒性,减少模内差异。特别地,我们利用对局部特征的划分策略,避免了非局部注意力机制缺少位置相关性的问题,进一步增加了模型的鲁棒性。在sysu-mm01公共数据集中,以室内室外双场景的情况下,本发明的方法的第一个识别结果的正确识别率(rank-1)和平均精度均值(map)较现有最好方案增加3.29%和2.35%;在regdb公共数据集中,以彩色图像来识别红外图像的模式下,本发明的方法的rank-1和map较现有最好方案增加4.25%和6.23%;在regdb公共数据集中,以红外图像来识别彩色图像的模式下,本发明的方法的rank-1和map较现有最好方案增加1.83%和4.68%。
摄像头和2个近红外摄像头。该数据集的训练数据包含395位行人,包含22258张彩色图 像和11909张红外图像,每位行人至少被两个不同视角和位置的摄像头捕获。测试数据 包含另外的95位行人。
[0087]
测试数据包含两种测评模式,分别是all-search模式和indoor-search模式。两种模式 的查询集(query set)是一致的,包含了3803张从两个近红外摄像头捕获的红外图像。 但是,两种模式的图库集(gallery set)不同。在all-search模式下,图库集包含了4个 彩色摄像头捕获的所有彩色图像。在indoor-search模式下,图库集只包含2个室内的彩色 摄像头捕获的彩色图像。综合而言,all-search更有挑战性。
[0088]
测试数据包含两种测试集的构建方式,分别为single-shot和multi-shot,即构建图库 集时随机选择同一个行人的1张或10张图像。
[0089]
本实验在sysu-mm01数据集中,采用最困难的方式,即在single-shot的构建方式下, 对all-search和indoor-search的测评模式下评估本文方法。各个方法在sysu-mm01数据 集上的性能对比结果如表1所示。
[0090]
表1本发明的方法与其他方法在sysu-mm01数据集上的性能对比
[0091][0092]
相比仅使用距离度量学习的bdtr,本发明具有更高的识别性能,rank-1值和map 值分别提高了23.47%和22.68%,由此可见,采用非局部注意力机制能使共享特征更具 全局性。
[0093]
在表1的对比实验中,除本发明的方法外的最好方法为agw算法。agw算法采 用非局部注意力机制提取共享特征,并使用广义的平均池化操作和加权正则化三元组损 失来提高模型性能。本发明的方法的rank-1值和map值分别比agw的提高了3.25% 和2.35%。
[0094]
为了进一步地与agw算法对比,我们将agw算法与本发明的方法在sysu-mm01 数据集上的检索结果作对比。由于在测试阶段只包含thermal to visible的模式,我们随 机选取其中的3个示例对比,如图6所示。其中,绿框表示匹配正确,红框表示匹配错 误。由此可见,由于行人图像中有背景、遮挡等噪声的存在,使得仅考虑全局特征的 agw算法对图像噪声的鲁棒性较差。本发明设计的局部特征的每个部分仅包含对应区 域的图像信息,降低了
噪声对样本的全局影响。利用局部特征与全局特征间的空间相关 性约束全局特征,使得全局特征拥有局部特征的优势,增加全局特征对噪声的鲁棒性, 并弥补了非局部注意力机制对位置相关性缺失的问题。
[0095]
实施例2:
[0096]
本实施例将采用regdb数据集,完成跨模态行人再识别任务,并测试模型的性能。
[0097]
regdb数据集由一个彩色摄像头和一个远红外摄像头组成的双模摄像头系统采集 的小规模数据集。由于在regdb数据集中的彩色图像和红外图像轮廓非常相似,跨模态 匹配难度便会降低。该数据集包含412位行人,每个行人含有10张彩色图像和10张红外 图像。本实验随机选取用于训练的206个行人及其对应的2060张行人图像,剩余的206位 行人和2060张行人图像用于测试。本实验评估了彩色图像检索红外图像(visible tothermal)、红外图像检索彩色图像(thermal to visible)这两种检索模式。
[0098]
本实验对上述两种数据集进行10次随机分割,选取训练集和测试集,以记录平均精 度。各个方法在regdb数据集上的对比结果如表2所示。
[0099]
表2本发明方法与其他方法在regdb数据集上的性能对比
[0100][0101]
相比同时使用生成对抗网络与距离度量学习的aligngan,本发明的方法没有采用 会引入额外噪声的生成对抗网络方法,而是采用全局级别和局部级别联合约束的方法, 使模型最终提取出的特征对噪声具有更好的鲁棒性。在visible to thermal模式下的 rank-1值和map值分别提高了16.4%和19%;在thermal to visible模式下的rank-1值 和map值分别提高了16.02%和17.18%。
[0102]
在表2对比的实验中,除本发明方法外的最好方法为agw算法。本发明的方法在 彩色图像检索红外图像模式中的rank-1值和map值分别提高了4.25%和6.23%,在红 外图像检索彩色图像模式中,rank-1值和map值分别提高了1.83%和4.68%,但在 rank-10处略低于agw方法。原因可能是在红外图像检索彩色图像模式中,红外图像 所含的信息少于彩色图像所含的信息,由此导致从红外图像中提取的共享特征信息少于 彩色图像中的信息。
[0103]
为了进一步地与agw算法对比,我们将agw算法与本发明的方法在regdb数据 集上的检索结果作对比。其中,匹配模式包含visible to thermal模式和thermal to visible 模式,我们随机选取其中的3个示例对比,如图7所示。
防输入、内防反弹。近日,某小区接到一则通知,该小区有一住户为一无症状感染病例 的密切接触者,需要利用小区的监控影像得知该住户近日的出行轨迹。由于该住户无法 提供具体的行程线索,需要借助监控影像,具体查明该住户的行踪。如果仅凭肉眼寻找 监控影像,费时费力,将会影响疫情防控效率。本发明所提出的方法能够解决该问题。
[0124]
首先,小区人员将小区内的监控影像获取,并利用行人检测的相关技术,裁剪出监 控影像中出现的行人图像,并以每幅图像所记录的时间与摄像头编号等作为图像名称。
[0125]
接着,将这些图像作为图库集,而将密切接触的住户图像作为查询集,将两者输入 本发明所提出的模型中。
[0126]
接着,本发明所提出的模型得到一组图像序列的输出,根据图像的名称,得知拍摄 的时间与摄像头编号,进而得知该住户出现的时间、地点。
[0127]
最后,将住户出现的时间地点信息按照时间顺序排序,得到住户出现的时间序列, 供小区工作人员和防疫人员使用。
[0128]
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了 解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原 理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和 改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等 效物界定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献