一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种结合数据增强的轻量化跨模态行人重识别方法

2023-03-29 02:08:57 来源:中国专利 TAG:


1.本发明涉及行人重识别的技术领域,更具体的,涉及一种结合数据增强的轻量化跨模态行人重识别方法。


背景技术:

2.行人重识别又称行人再识别(person re-identification,reid),指给定某监控场景下的特定行人图像,利用相关技术来检索跨摄像头,跨时间域下的目标行人图像。在监控图像中,由于相机分辨率,拍摄角度以及天气等客观因素的影响,通常无法得到质量较高的人脸图片,难以进行人脸识别。而在人脸识别失效的情况下,reid成为了一个非常重要的替代技术。自利用深度学习,尤其是深度神经网络进行行人图像的特征提取以来,训练得到的识别模型的准确率和鲁棒性都取得大幅提升,行人重识别技术得到迅速发展。
3.由于普通rgb摄像头在夜间无法拍摄得到有辨识度的图像,因此需要借助红外摄像头在夜间工作,这导致跨模态场景下的re-id越来越受关注。跨模态在re-id中指的是,图像集中存在由常规摄像头拍摄的rgb三通道图像,也存在由红外摄像头拍摄的单通道图像。两者生成图像的原理不同,生成的图像格式和模态差异较大,这些因素加大了跨模态行人重识别的难度。
4.同时,轻量化网络也是当前热门的研究目标和优化方向。轻量化网络的优点主要在于更少的参数量,更便捷的嵌入式硬件部署,这对将网络部署在摄像硬件上具有实际的应用意义。但是目前轻量化的跨模态re-id技术难以取得较高的识别准确率。


技术实现要素:

5.本发明为克服目前轻量化的跨模态re-id技术难以取得较高的识别准确率的技术缺陷,提供一种结合数据增强的轻量化跨模态行人重识别方法。
6.为解决上述技术问题,本发明的技术方案如下:
7.一种结合数据增强的轻量化跨模态行人重识别方法,包括以下步骤:
8.s1:获取跨模态行人重识别数据集;
9.s2:对跨模态行人重识别数据集进行数据增强处理;
10.s3:利用增强后的跨模态行人重识别数据集训练预构建的基于深度可分离卷积的轻量化行人重识别网络;
11.s4:利用训练好的轻量化行人重识别网络进行跨模态行人重识别。
12.上述方案中,通过构建适用于跨模态行人重识别的基于深度可分离卷积的轻量化行人重识别网络,并对训练采用的跨模态行人重识别数据集进行数据增强,辅助轻量化行人重识别网络取得更高的准确率,仅增加计算量,不增加参数量,最终得到的轻量化行人重识别网络的参数量仅为2m左右,便于硬件的部署,实现在参数量少的同时达到准确的识别效果。
13.优选的,所述数据增强包括:随机擦除和trivialaugment。
14.优选的,随机擦除的步骤如下:
15.每张图像有pe>0的概率被选中进行随机擦除,有1-pe>0的概率保持不变;对于被选中进行随机擦除的长为w、宽为h的图像i,随机在图像i中选择一个长为we、宽为he的矩形ie,并在矩形ie中用随机像素值覆盖原有值;则矩形区域擦除率表示为表示图像i的面积,se=we×
he表示矩形ie的面积;同时,矩形ie的纵横比在随机数r1和随机数r2之间随机初始化,为了确定唯一区域,随机擦除随机初始化点p=(xe,ye);如果xe we≤w且ye he≤h,则ie=(xe,ye,xe we,ye he)设置为选定的矩形区域;如不满足,则重复上述步骤,直至选出ie。
16.优选的,trivialaugment的步骤如下:
17.给定一张图像和一个数据增强空间集,从数据增强空间集中随机选择一种数据增强操作和增强强度作用于图像上,得到数据增强后的图像;
18.其中,增强强度的取值范围为0~30,数据增强空间集中的数据增强操作包括:自动优化图像对比度、旋转图像、水平或垂直裁剪图像、锐度增强图像。
19.优选的,轻量化行人重识别网络为双流网络,包括:
20.用于提取可见光图像特征的第一卷积层,
21.用于提取红外图像特征的第二卷积层,
22.用于进行特征嵌入的第三卷积层、第四卷积层、第五卷积层和第六卷积层。
23.优选的,在轻量化行人重识别网络的各个卷积层中,卷积操作包括逐通道卷积和逐点卷积,relu层为逐通道卷积的内核为逐点卷积的内核为
24.其中,x表示输入数据,k表示内核大小,c表示输入通道宽度,c

表示输出通道宽度。
25.优选的,轻量化行人重识别网络还包括全局平均池化层:
[0026][0027]
其中,f1…fk
…fk
表示不同的特征矩阵,k表示最后一层网络中特征图的数量,χi表示特征映射i的激活集,χk表示特征映射k∈{1,2,

k}的激活集,pk为池化的超参数;当pk取1时,全局平均池化层退化为平均池化层,当pk取无穷大时,全局平均池化层等效于最大池化层。
[0028]
优选的,训练轻量化行人重识别网络的整体损失函数为:
[0029]
l=l
id
l
tri-new
[0030]
其中,l
id
表示交叉熵损失函数,l
tri-new
表示改进的难样本三元组损失函数。
[0031]
优选的,改进的难样本三元组损失函数为:
[0032][0033]
其中,p表示选择的身份标签数量;k表示每个模态选择的图像数量;batch表示训练批次;a表示与样本a不同模态的最难正样本集合;b表示与样本a同一模态的最难负样本
集合;表示样本a的特征映射与另一模态中最难正样本p的特征映射的欧式距离;表示样本a的特征映射与同一模态中最难负样本n的特征映射的欧式距离;α表示超参数;(
·
)

表示(
·
)内的值大于零的时取(
·
)内的值为损失,小于零时,取损失为零。
[0034]
优选的,交叉熵损失函数为:
[0035][0036]
其中,表示身份标签为m的可见光图像被识别为身份标签为j的行人图像yj的概率,表示身份标签为m的红外图像被识别为身份标签为j的行人图像yj的概率,m表示身份标签总数量。
[0037]
与现有技术相比,本发明技术方案的有益效果是:
[0038]
本发明提供了一种结合数据增强的轻量化跨模态行人重识别方法,通过构建适用于跨模态行人重识别的基于深度可分离卷积的轻量化行人重识别网络,并对训练采用的跨模态行人重识别数据集进行数据增强,辅助轻量化行人重识别网络取得更高的准确率,仅增加计算量,不增加参数量,最终得到的轻量化行人重识别网络的参数量仅为2m左右,便于硬件的部署,实现在参数量少的同时达到准确的识别效果。
附图说明
[0039]
图1为本发明的技术方案实施步骤流程图;
[0040]
图2为本发明中随机擦除的效果示意图;
[0041]
图3为本发明中轻量化行人重识别网络的网络结构示意图;
[0042]
图4为本发明中标准卷积块和深度可分离卷积的对比示意图。
具体实施方式
[0043]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0044]
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
[0045]
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0046]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0047]
实施例1
[0048]
如图1所示,一种结合数据增强的轻量化跨模态行人重识别方法,包括以下步骤:
[0049]
s1:获取跨模态行人重识别数据集;
[0050]
s2:对跨模态行人重识别数据集进行数据增强处理;
[0051]
s3:利用增强后的跨模态行人重识别数据集训练预构建的基于深度可分离卷积的轻量化行人重识别网络;
[0052]
s4:利用训练好的轻量化行人重识别网络进行跨模态行人重识别。
[0053]
在具体实施过程中,通过构建适用于跨模态行人重识别的基于深度可分离卷积的
轻量化行人重识别网络,并对训练采用的跨模态行人重识别数据集进行数据增强,辅助轻量化行人重识别网络取得更高的准确率,仅增加计算量,不增加参数量,最终得到的轻量化行人重识别网络的参数量仅为2m左右,便于硬件的部署,实现在参数量少的同时达到准确的识别效果。
[0054]
实施例2
[0055]
本实施例提供一种结合数据增强的轻量化跨模态行人重识别方法,与实施例1的区别在于,在实施例1的基础上,本实施例对步骤s2作具体说明。
[0056]
更具体的,如图2所示,所述数据增强包括:随机擦除和triivialaugment。
[0057]
在具体实施过程中,还包括随机水平翻转、随机垂直翻转、随机垂直水平翻转等。通过数据增强增加训练数据量以提高模型的泛化能力,增加噪声数据以提升模型的鲁棒性。
[0058]
更具体的,随机擦除的步骤如下:
[0059]
每张图像有pe>0的概率被选中进行随机擦除,有1-e
>0的概率保持不变;对于被选中进行随机擦除的长为w、宽为h的图像i,随机在图像i中选择一个长为we、宽为he的矩形ie,并在矩形ie中用随机像素值覆盖原有值;则矩形区域擦除率表示为s=w
×
h表示图像i的面积,表示矩形ie的面积;同时,矩形ie的纵横比在随机数r1和随机数r2之间随机初始化,为了确定唯一区域,随机擦除随机初始化点p=(xe,ye);如果xe we≤w且ye he≤h,则ie=(xe,ye,xe we,ye he)设置为选定的矩形区域;如不满足,则重复上述步骤,直至选出ie。
[0060]
在具体实施过程中,随机擦除不会增加复杂计算量,且对网络鲁棒性的增益效果非常出色,本实施例将超参数分别设置为p=0.5、0.02<se<0.4、r1=0.3、r2=3.33。
[0061]
更具体的,trivialaugment的步骤如下:
[0062]
给定一张图像和一个数据增强空间集,从数据增强空间集中随机选择一种数据增强操作和增强强度作用于图像上,得到数据增强后的图像;
[0063]
其中,增强强度的取值范围为0~30,数据增强空间集中的数据增强操作包括:自动优化图像对比度、旋转图像、水平或垂直裁剪图像、锐度增强图像。
[0064]
在具体实施过程中,trivialaugment方法不存在超参数也不需要进行检索,消耗少,成本低,适用于行人重识别领域以及跨模态场景。
[0065]
实施例3
[0066]
本实施例提供一种结合数据增强的轻量化跨模态行人重识别方法,与实施例1的区别在于,在实施例1的基础上,本实施例对步骤s3作具体说明。
[0067]
更具体的,如图3所示,轻量化行人重识别网络为双流网络,包括:
[0068]
用于提取可见光图像特征的第一卷积层,
[0069]
用于提取红外图像特征的第二卷积层,
[0070]
用于进行特征嵌入的第三卷积层、第四卷积层、第五卷积层和第六卷积层。在具体实施过程中,第一卷积层和第二卷积层分别作为特征嵌入器通过独立参数进行训练,为了确保网络能够提取不同模态图像独有的特征;第三卷积层、第四卷积层、第五卷积层和第六卷积层作为特征嵌入器通过共享参数进行训练,为了能够同时关注不同模态图像中关联、
相似的部分。
[0071]
在具体实施过程中,跨模态行人重识别数据集中包括可见光图像和红外图像,输入时图像大小统一为288
×
144。
[0072]
更具体的,如图4所示,在轻量化行人重识别网络的各个卷积层中,卷积操作包括逐通道卷积(depthwise convolution,简称dw卷积)和逐点卷积(pointwise convolution,简称pw卷积),relu层为逐通道卷积的内核为逐点卷积的内核为
[0073]
其中,x表示输入数据,k表示内核大小,c表示输入通道宽度,c

表示输出通道宽度。
[0074]
在具体实施过程中,通过使用深度可分离卷积代替标准卷积以减少参数量,相比原先的relu层ω*x以及内核为的卷积,给定一个维度为的输入,其中h和w分别代表长和宽。计算量由h
·w·
k2·c·c′
下降至h
·w·
(k2 c)
·c′
,参数量由k2·c·c′
下降至(k2 c)
·c′

[0075]
更具体的,轻量化行人重识别网络还包括全局平均池化层:
[0076][0077]
其中,f1…fk
…fk
表示不同的特征矩阵,k表示最后一层网络中特征图的数量,χi表示特征映射i的激活集,χk表示特征映射k∈{1,2,

k}的激活集,pk为池化的超参数;当pk取1时,全局平均池化层退化为平均池化层(averagepooling),当pk取无穷大时,全局平均池化层等效于最大池化层(maxpooling)。
[0078]
在具体实施过程中,全局平均池化层是一种介于平均池化和最大池化之间的池化方式。通过对参数pk的调节,可以关注不同细度的区域。
[0079]
更具体的,训练轻量化行人重识别网络的整体损失函数为:
[0080]
l=l
id
l
tri-new
[0081]
其中,l
id
表示交叉熵损失函数,l
tri-new
表示改进的难样本三元组损失函数。
[0082]
更具体的,改进的难样本三元组损失函数为:
[0083][0084]
其中,p表示选择的身份标签数量;k表示每个模态选择的图像数量;
[0085]
batch表示训练批次;a表示与样本a不同模态的最难正样本集合;b表示与样本a同一模态的最难负样本集合;表示样本a的特征映射与另一模态中最难正样本p的特征映射的欧式距离;表示样本a的特征映射与同一模态中最难负样本n的特征映射的欧式距离;α表示超参数;(
·
)

表示(
·
)内的值大于零的时取(
·
)内的值为损失,小于零时,取损失为零。
[0086]
在具体实施过程中,针对跨模态场景下的行人重识别,红外图像和可见光图像本身模态差距较大,为了避免训练过程中模态间差距继续扩大,对样本的选择给出限定。网络
训练会使正样本间距离缩小,所以在选择最难正样本max d
a,p
时,选择另一模态中最难的正样本使得两个模态(红外和可见光)的距离缩小。网络训练会使负样本间距离增大,所以在选择最难负样本min d
a,n
时,选择同一模态中最难的负样本避免扩大两个模态的距离。即,对其中包含的每一张图像,从不同模态图像中挑选一个最难正样本,从相同模态图像中挑选一个最难负样本,组成三元组。改进后的难样本三元组损失函数,计算成本由2*2pk*(2k-1)减少为2pk*(2k-1)。通过改进的难样本三元组损失函数,在减少计算量的同时增强识别效果。
[0087]
在具体实施过程中,选择p=6个身份标签,在数据集中分别随机选取k=4张可见光图像和红外图像,一同输入网络进行训练,也就是说每个训练批次包含24张可见光图像和24张红外图像。
[0088]
更具体的,交叉熵损失函数为:
[0089][0090]
其中,表示身份标签为m的可见光图像被识别为身份标签为j的行人图像yj的概率,表示身份标签为m的红外图像被识别为身份标签为j的行人图像yj的概率,m表示身份标签总数量。
[0091]
实施例4
[0092]
本实施例提供一种结合数据增强的轻量化跨模态行人重识别方法,分别采用现有的跨模态行人重识别数据集:sysu-mm01数据集和regdb数据集进行实验。其中,
[0093]
sysu-mm01数据集共有491个id(身份标签),对应491个人物,其中划分291个id用于模型训练,99个id用于模型验证,96个id用于模型测试;
[0094]
regdb数据集是由双摄像机系统采集的小型数据集,包括一台可见摄像机和一台热敏摄像机;该数据集共包含412个id(身份标签),其中每个id包含10个可见光图像和10个红外图像;本实施例中分别将可见光图像和红外图像作为query,同时将另一模态的图片作为gallary进行实验;两种情况分别对应visible-thermal以及thermal-visible;实验过程中,随机分配206个id用于训练,剩余206个id用于测试。
[0095]
表1是不同双流结构在sysu-mm01数据集上的准确率以及参数量情况。
[0096]
表1
[0097][0098]
表2是不同双流结构在regdb数据集上的准确率以及参数量情况。
[0099]
表2
[0100][0101][0102]
其中,
×
表示不进行双流网络的拆分,所有网络结构共享参数。conv1表示以conv1网络作为特征提取器,独立参数进行训练,后续网络作为特征嵌入器,共享参数进行训练。conv1 conv2同理。考虑到层数过多的特征提取器会带来参数量的大幅上升,以及缺乏特征嵌入器会导致网络忽略模态间的共享特征和可用信息,不再考虑更深的特征提取器的网路结构。根据实验结果,以conv1为特征提取器,后续网络作为特征嵌入器,在仅增加0.5%参数的前提下性能大幅提升。同时更深的特征提取器增加参数的同时,带来的网络性能提升有限。故最好以conv1为便捷进行网络的拆分并作为最终使用的网络结构。
[0103]
表3是在sysu-mm01数据集上进行消融实验的结果对比情况。
[0104]
表3
[0105][0106]
表4是在regdb数据集上进行消融实验的结果对比情况。
[0107]
表4
[0108][0109]
其中,打“√”即代表实验中有使用相应的步骤处理。new-loss打“√”代表使用改进的难样本三元组损失函数代替现有难样本三元组损失,不打“√”代表使用现有的难样本三元组损失。
[0110]
可以看到,rea(随机擦除)和trivialaug均在不增加网络复杂度,仅增加数据预处理的前提下表现出较大的准确率提升,其中单独使用rea在sysu-mm01数据集上在all模式下rank1和map增加5.39和4个百分点,indoor模式下rank1和map增加6.38和4.68个百分点。同时,rea和trivialaug的组合使用也进一步增强了网络的重识别准确率。并且,改进后的难样本三元组损失在减少计算量的同时,增强了网络的鲁棒性,提升了网络的性能,除sysu-mm01数据集all模式的map有小幅下降外,其余情况准确率均有提升,在sysu-mm01数据集的indoor模式下尤为突出,获得1.9个百分点的准确率提升。证明了改进的难样本三元组损失函数的有效性。
[0111]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献