一种基于深度换装的行人重识别方法与流程

2022-02-19 09:36:31 来源：中国专利 TAG：

1.本发明属于计算机视觉与模式识别领域，尤其涉及一种基于深度换装的行人重识别方法。

背景技术：

2.近年来，随着监控设备的广泛应用，行人身份识别相关技术获得越来越广泛的关注，行人身份识别关注于利用拍摄到的行人图片在行人数据库中找寻具有相同身份的行人，以确定拍摄到的行人的身份。行人身份识别在物联网与大数据环境下具有广阔的应用场景，包括智能城市，智能安防等领域。目前主要行人重识别技术与行人身份识别关系密切，行人重识别最近也获得了广泛关注，在公开数据集上取得了显著的性能提升。但是现实场景中高昂的行人身份标注费用，在不同域(场景)下所获得行人图片在光照、背景、姿态等方面的巨大差异，给行人重识别在现实场景的应用带来了巨大的挑战，当前主流深度学习方法普遍关注于行人的外观信息进行推断，这在行人频繁换装的现实场景下难以应用。
3.目前大多数算法都使用注意力机制使模型关注于辨识度更高的区域来提高模型性能。但是在现实场景下，行人频繁换装，同一个行人穿着不同衣着具有不同的外观特征，如果只关注局部区域会使得模型泛化性能较差。

技术实现要素：

4.本发明的目的在于针对现有技术中行人重识别算法在换装场景下效果较差的不足，提供一种基于深度换装的行人重识别方法。本发明可以完成行人重识别任务，将有效的降低行人换装等外观变化对行人重识别的消极影响。
5.本发明的目的是通过以下技术方案来实现的：一种基于深度换装的行人重识别方法，包括以下步骤：
6.1)利用深度换装模型和预先选定的衣着模板将训练集图片中的行人换装，保存并补充到训练集中。
7.2)在训练阶段，使用原始图片特征提取分支网络e和深度换装特征提取分支网络m，分别提取原始图片和深度换装图片的身份特征和衣着特征，并训练网络e和m，使得提取的特征具有更好的分类效果。
8.3)在训练阶段，训练网络e和m，使得e和m提取的身份特征的距离更近。
9.4)在测试阶段，只使用原始图片特征提取分支网络e完成身份信息的提取，使用身份信息进行相似度的度量和身份推断，相似度最高的为最终匹配结果。
10.进一步地，步骤2)中，原始图片特征提取分支网络e和深度换装特征提取分支网络m，分别提取原始图片和深度换装图片的身份特征和衣着特征，具体过程为：图片首先输入主干网络提取特征f
s
，然后经注意力机制分离为身份特征和衣着特征：
11.f
s
＝backbone
ꢀꢀ
(i)
12.f
clo
＝atten(f
s
)*f
s
13.f
id
＝(1
‑
atten(f
s
))*f
s
14.其中，f
clo
为衣着信息特征，f
id
为身份信息特征，f
s
为行人图片输入主干网络提取的特征，i为图片输入，atten(f
s
)为注意力机制应用到f
s
得到的注意力图。
15.进一步地，步骤2)中，经注意力机制分离出的衣着特征和身份特征，利用一种分类损失进行监督训练：
[0016][0017][0018]
其中，ce代表一种分类损失。
[0019]
进一步地，步骤3)中，网络e和网络m分别提取出原始图片和深度换装图片的身份特征和衣着特征。训练e和m以最小化两个分支的身份特征之间的距离：
[0020][0021]
其中，ic表示深度换装后的图片，i表示原始图片。
[0022]
进一步地，步骤4)具体为：在测试阶段，不使用深度换装特征提取分支网络m，一张行人图片输入到原始图片特征提取分支网络e中提取身份特征，用于行人身份推断。
[0023]
进一步地，步骤1)中，深度换装模型采用pf
‑
afn等。
[0024]
进一步地，步骤2)中，网络e和m的主干网络采用resnet
‑
50网络结构。
[0025]
进一步地，步骤2)中，注意力机制由通道注意力和空间注意力组成。
[0026]
进一步地，步骤2)中，分类损失采用基于交叉熵的分类损失和三元组损失。
[0027]
进一步地，步骤3)中，使用mse度量函数，度量网络e和m提取的身份特征的距离。
[0028]
本发明的有益效果是：本发明通过注意力进行身份特征和衣着特征的分离，提取更具身份辨识度的身份特征，进而使用身份特征进行推断，提高了模型对行人换装的适应性，同时通过深度换装获得穿着不同衣着的同一个行人相同身形姿态的图片，更有利于模型学习与衣着无关的身份特征。在现实场景下，行人频繁换装，常规的深度学习方法关注于外观特征进行推断，穿着不同衣着的同一行人图片会由于外观差异过大而造成误判，本发明将有望在一定程度上降低行人换装对现实场景下的行人重识别的负面影响，提高在现实场景下的识别准度。
附图说明
[0029]
图1是本发明的行人重识别网络整体结构示意图；
[0030]
图2是本发明训练阶段的流程图；
[0031]
图3是本发明测试阶段的流程图；
[0032]
图4是本发明使用注意力机制的实例示意图；
[0033]
图5是本发明实施例按相似度排序的匹配结果示意图。
具体实施方式
[0034]
下面结合附图和具体实施例对本发明作进一步详细说明。
[0035]
如图1所示，本发明一种基于深度换装的行人重识别方法，包括训练阶段和测试阶
段。整体框架分为两个分支：原始图片特征提取分支网络e，深度换装特征提取分支网络m。在开始训练之前，首先以离线数据增强方式，利用现成深度换装模型对训练数据集中的图片进行换装，并补充保存到训练数据集中。在训练阶段，两个分支均参与训练。使用原始图片特征提取分支网络e、深度换装特征提取分支网络m分别提取原始图片和深度换装图片的身份特征和衣着特征，并训练网络e和m使得提取的特征具有更好的分类效果，同时训练e和m使得网络e和m提取的身份特征的距离更近；其中，以深度换装特征提取分支m为例，深度换装后的行人图片输入到主干网络中提取特征，之后经注意力机制分离为身份特征和衣着特征。这两个分支提取的身份特征尽可能的拉近来提取更鲁棒的身份特征。训练完成后，在测试阶段，对于输入的图片，不使用深度换装特征提取分支网络m，只使用原始图片特征提取分支网络e提取身份特征，用于身份推断。具体包括以下步骤：
[0036]
1)利用深度换装模型和预先选定的衣着模板，将训练集图片中的行人换装，保存并补充到训练集中。其中，使用的深度换装模型可以是当前任意公开模型，衣着模板可以是任意衣着，并无款式特征要求。
[0037]
2)如图2所示，在训练阶段，使用原始图片特征提取分支网络e和深度换装特征提取分支网络m，分别提取原始图片和深度换装图片的身份特征和衣着特征，并训练网络e和m使得提取的特征具有更好的分类效果。其中，行人图片输入到网络e和m的主干网络中提取特征，之后经注意力机制分离为身份特征和衣着特征：
[0038]
f
s
＝backbone(i)
[0039]
f
clo
＝atten(f
s
)*f
s
[0040]
f
id
＝(1
‑
atten(f
s
))*f
s
[0041]
其中，i为图片输入，f
s
为行人图片i输入主干网络backbone提取的特征；atten(f
s
)为注意力机制应用到f
s
得到的注意力图；f
clo
为衣着信息特征，f
id
为身份信息特征。网络e和m的主干网络可以是当前任意的主干网络结构，如resnet，vggnet等等；注意力机制可以是当前任意注意力模块
[0042]
经注意力机制分离出的衣着特征和身份特征，利用一种分类损失进行监督训练：
[0043][0044][0045]
其中，e代表原始图片特征提取分支网络，m代表深度换装特征提取分支网络；ce代表一种分类损失，可以是用于分类的任意损失。
[0046]
3)如图2所示，在训练阶段，训练网络e和m，使得e和m提取的身份特征的距离更近：
[0047][0048]
其中，ic表示深度换装后的图片，i表示原始图片。
[0049]
4)如图3所示，在实际测试阶段，只使用原始图片特征提取分支网络e完成身份信息的提取，使用身份信息进行相似度的度量和身份推断。具体地，一张图片输入到网络e中提取身份特征，使用该身份特征进行相似度的度量和身份推断。
[0050]
本发明一种实施例的实现过程如下：
[0051]
1)利用深度换装模型和预先选定的衣着模板将训练集图片中的行人换装，保存并
补充到训练集中；利用第三方深度换装模型pf
‑
afn(cvpr2021)将训练集图片中的行人换装。
[0052]
2)在训练阶段，使用原始图片特征提取分支网络e，和深度换装特征提取分支网络m，分别提取原始图片和深度换装图片的身份特征和衣着特征，并训练网络e和m使得提取的特征具有更好的分类效果。
[0053]
网络e和m的主干网络采用resnet
‑
50网络结构，如图4所示，注意力机制由通道注意力和空间注意力组成，最终的注意力atten由通道注意力图a
cha
和空间注意力图a
spa
相乘得到：
[0054]
a
cha
＝sigmoid(relu(conv(relu(conv(gap(f
s
))))))
[0055]
a
spa
＝softmax(relu(conv(cgap(f
s
))))
[0056]
atten＝a
spa
*a
cha
[0057]
其中，gap、cgap、conv、relu、sigmoid分别为全局平均池化、通道方向的全局平均池化、卷积层、relu激活层和sigmoid激活层。
[0058]
分类损失采用基于交叉熵的分类损失l
ce
和三元组损失l
tl
，原始图片的衣着类别标签采用11个预先标注的类别，类别的标注以衣着的颜色和款式为标准，深度换装图片的衣着类别标注按照采用的衣着模板类别标注：
[0059][0060][0061]
ce＝l
ce
l
tl
[0062][0063][0064]
其中，ce代表一种分类损失。y
i
表示样本i的真实标签，表示样本i的预测标签。n表示样本数。f
a
表示一个锚样本经网络e或者网路m提取的身份特征或衣着特征，f
p
表示与锚样本属于同一个身份的正样本相对应的特征，f
n
表示与锚样本属于不同身份的负样本相对应的特征，α表示希望正负样本对距离推远的边际值。
[0065]
3)在训练阶段，训练网络e和m，使得e和m提取的身份特征的距离更近。使用mse(mean square error，均方误差损失)度量函数，度量网络e和m提取的身份特征的距离，通过训练网络e和m，使得e和m提取的身份特征的距离更近：
[0066][0067]
其中，ic表示深度换装后的图片，i表示原始图片。
[0068]
4)在实际测试阶段，深度换装特征提取分支网络m不会被保留，只使用原始图片特征提取分支网络e完成身份信息的提取，使用身份信息进行相似度的度量和身份推断，来提高方法对换装的鲁棒性。最终得到的结果按照相似度排序，一张示例质询图片匹配结果如
图5所示，相似度最高的为最终匹配结果。
[0069]
以上所述仅为本发明的较佳实施例而已，并不以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种防伪电子印章加密方法、装置及存储介质与流程

一种基于深度换装的行人重识别方法与流程

相关文献

最热文献