一种基于图片分块丢弃的分集多支路行人重识别方法与流程

2021-10-24 08:54:00 来源：中国专利 TAG：分块支路丢弃分集行人

：
1.本发明涉及计算机视觉技术领域，具体是一种基于图片分块丢弃的分集多支路行人重识别方法。

背景技术：

2.行人重识别(person re
‑
identification)是指在多个非重叠摄像头的场景下，在行人图像数据库中检索出与给定的查询图像身份相同的行人图像。行人重识别可以广泛应用于智能安防以及视频监控等领域。
3.行人重识别可以被认为是一个特征嵌入(feature
‑
embedding)问题，理想情况下类内距离(同一个人的不同图片)应小于类间距离(不同人的图片)，不幸的是大多数现有的特征嵌入解决方案要求以成对的方式对样本进行分组，这通常是计算密集型的。在实践中，由于分类任务在训练的实现复杂性上具有明显的优势，因此经常使用分类方法作为特征嵌入解决方案。如今，大多数用于行人重识别的最新方法已从单一的度量学习问题或单一的分类问题演变为多任务问题，即同时采用类别损失和三元组损失。由于每个样本图像仅用人员id进行标记，因此，如果不对底层神经网络进行精心设计并进一步使用某些正则化技术，则端到端训练方法通常很难学习多样且丰富的特征。
4.近年来，许多基于局部粒度信息提取以及特征丢弃机制的算法被应用于行人重识别领域。sun等人(sun y,zheng l,yang y,et al.beyond part models：person retrieval with refined part pooling(and a strong convolutional baseline)[c]//proceedings of the european conference on computer vision(eccv).2018：480
‑
496.)提出一种基于分块的卷积基准网络(part based convolutional baseline，pcb)，通过将行人均等分为六分块引导网络更加关注局部粒度信息；dai等人(dai z,chen m,gu x,et al.batch dropblock network for person re
‑
identification and beyond[c]//proceedings of the ieee international conference on computer vision.2019：3691
‑
3701.)提出的(batch drop block,bdb)算法，通过对数据随机局部遮挡，使网络获得更为全面的空间特征。作为一种典型的应用特征分块丢弃策略的方法，bdb算法已被证明对行人重识别任务有显著效果，但是bdb中的特征丢弃模式仅在一次迭代(一批样本)内固定，网络在学习相应特征时可能会遇到困难。改善特征发现多样性的一种方法是增加分支数量，但bdb网络模型仅限于两分支体系结构。当前，如何将现有的两分支体系结构扩展到具有任意数量的分支以实现改善的多样性的体系结构仍是一项充满挑战的任务。

技术实现要素：

[0005]
本发明的目的在于提供一种基于图片分块丢弃的分集多支路行人重识别方法，以解决现有技术中的问题。
[0006]
一种基于图片分块丢弃的分集多支路行人重识别方法，所述行人重识别方法包含以下步骤：
[0007]
s1：构建多分支卷积神经网络；
[0008]
s2：针对不同分支采用不同比率的分块裁切操作对训练图片数据进行预处理；
[0009]
s3：采用双批次数据联合训练的方法训练神经网络模型；
[0010]
s4：采用交叉熵、三元组损失函数、中心损失函数的加权形式作为总损失函数训练模型权重；
[0011]
s5：将神经网络所有支路的行人特征进行特征拼接融合，得到总特征，给定测试图片通过总特征计算距离度量，获得相似性匹配结果。
[0012]
进一步的，步骤s1中，所述多分支卷积神经网络包含主干网以及全局支路、l个局部支路，其中l≥1，具体构建步骤如下：
[0013]
s1.1、对于主干网络：采用resnet系列网络，resnet系列网络结构分为第一至第四卷积层，第四卷积层中的降采样层被移除，在第三和第四卷积层中插入空间注意力模块sam和通道注意力模块cam；对于输入的三维张量t∈r
h
×
w
×
c
,h、w、c分别代表高、宽、通道数，sam模块首先计算出输入的相关矩阵，定义为：
[0014]
ξ＝x(i
‑
β1)x
t
,
[0015]
x通过输入张量按通道数c展开得到，尺寸为c
×
l，l＝h
×
w，i为单位矩阵，β为参数，计算亲和矩阵affinity matrix,定义为：
[0016][0017]
sam模块输出可表示为：
[0018]
y＝x λλx,
[0019]
其中λ为可学习参量，cam模块的处理过程与sam类似，不同之处在于cam将输入张量按w
×
c展开得到；resnet网络载入imagenet数据集预训练参数；
[0020]
cam模块输出可表示为：
[0021]
y
cam
＝x
cam
λλx
cam
,
[0022]
x
cam
由输入三维张量按w
×
h展开得到，大小为c
×
(w
×
h)，亲和矩阵计算方式与sam相同；
[0023]
s1.2、对于全局支路：输入为图片直接经过主干网络得到的特征图输入张量依次经过resnet50网络第四卷积层、bottleneck结构层、sam注意力模块、全局均值池化层gap、降维层后输出特征；
[0024]
s1.3、对于局部支路：输入为图片先经过像素丢弃再经过主干网络得到的特征图输入张量依次经过resnet50网络第四卷积层、bottleneck结构层、sam注意力模块、全局最大值池化层gmp、降维层后输出特征。
[0025]
进一步的，所述预处理步骤中，对于一个批次的训练数据x∈r
b
×
h
×
w
×
c
，
[0026]
其中，b、h、w、c分别为每批次图片张数、高、宽、通道数；
[0027]
图像高、宽的分块丢弃比率分别为r
h
、r
w
；
[0028]
其中，0≤r
h
，r
w
≤1，
[0029]
随机生成的高、宽大小分别为r
h
×
h、r
w
×
w的分块像素丢弃区域，将丢弃区域内的像素值均置为零，每隔q个训练批次重新随机生成丢弃区域位置，其中q≥1。
[0030]
进一步的，所述预处理步骤中，对于l个局部支路，采用不同的高度比率r
h
对输入训练数据进行分块丢弃操作，r
h
分别设置为l个不同的值，宽度比率r
w
保持为1。
[0031]
进一步的，所述预处理步骤中，对于全局支路，不对输入的训练数据进行分块丢弃操作。
[0032]
进一步的，预处理步骤还包括宽高归一化为128
×
384、随机翻转、随机裁切、随机擦除。
[0033]
进一步的，步骤s3中，所述双批次数据联合训练包括以下步骤：
[0034]
s3.1：将一个完整训练批次的图片数据均分为两个子批次，对其中一个子批次图片进行步骤s2中所述的图像分块丢弃处理，之后再将两个子批次合并为一个完整批次送入主干网络提取对应特征图；
[0035]
s3.2：将主干网络提取到的特征图再次分为两个子批次，将对应经过分块丢弃处理的特征图子批次作为输入进入局部支路，未经过分块丢弃处理的特征图子批次进入全局支路；
[0036]
s3.3：调整高度比率r
h
后，重复多次训练网络，每次训练保留模型局部支路权重，将l个对应不同高度比率r
h
的局部支路、一个全局支路和主干网络组合成完整l 1个分支网络，用于测试数据的分集特征提取。
[0037]
进一步的，步骤s4中,所述采用三种损失函数对网络权重进行优化，分别为交叉熵误差函数l
ce
、三元组损失函数l
triplet
、中心损失函数l
center
，最终损失函数可表示为：
[0038]
l
total
＝l
ce
γ
t
l
triplet
γ
c
l
center
，
[0039]
其中γ
t
和γ
c
为权重系数，通过最终损失函数对网络整体权重进行优化，采用优化器为adam优化器。
[0040]
更进一步的，步骤s5中，所述特征拼接融合包括以下步骤：
[0041]
s5.1：将测试图片输入主干网络；
[0042]
s5.2：将主干网提取的特征分别送入全局支路以及l个局部支路；
[0043]
s5.3：将l 1个支路的输出特征拼接后根据欧式距离构建相似度矩阵；
[0044]
s5.4：根据距离大小进行排序，得到检索候选结果，完成行人重识别任务。
[0045]
与现有技术相比，本发明的有益效果为：
[0046]
本方法通过控制支路前端输入的差异化图片分块丢弃策略获得行人重识别支路特征的分集性，有效提高了多支路神经网络模型的行人识别准确度。为解决图像分块丢弃可能导致的网络训练难以收敛问题，本发明提出了一种双批次数据联合训练的策略，并且通过将不同丢弃比率下得到的具有分集性的特征进行拼接，通过距离度量获得相似性排序，得到更为精准的行人重识别结果。
附图说明：
[0047]
图1为本发明一种基于图片分块丢弃的分集多支路行人重识别方法的整体步骤流程图；
[0048]
图2为本发明一种基于图片分块丢弃的分集多支路行人重识别方法的模型及数据处理流程图；
[0049]
图3为本发明一种基于图片分块丢弃的分集多支路行人重识别方法的双批次数据
联合训练步骤流程图。
具体实施方式：
[0050]
下为使本发明实施例的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。
[0051]
实施例：如图1所示，一种基于图片分块丢弃的分集多支路行人重识别方法，行人重识别方法包含以下步骤：
[0052]
s1：构建多分支卷积神经网络；
[0053]
s2：针对不同分支采用不同比率的分块裁切操作对训练图片数据进行预处理；
[0054]
s3：采用双批次数据联合训练的方法训练神经网络模型；
[0055]
s4：采用交叉熵、三元组损失函数、中心损失函数的加权形式作为总损失函数训练模型权重；
[0056]
s5：将神经网络所有支路的行人特征进行特征拼接融合，得到总特征，给定测试图片通过总特征计算距离度量，获得相似性匹配结果。
[0057]
如图2所示，步骤s1中，多分支卷积神经网络包含主干网以及全局支路、l个局部支路，其中l≥1，本实例下l设为3，具体构建步骤如下：
[0058]
s1.1、对于主干网络：此实例采用resnet50网络，resnet50网络结构分为第一至第四卷积层，第四卷积层中的降采样层被移除，在第三和第四卷积层中插入空间注意力模块sam和通道注意力模块cam；对于输入的三维张量t∈r
h
×
w
×
c
,h、w、c分别代表高、宽、通道数，sam模块首先计算出输入的相关矩阵，定义为：
[0059]
ξ＝x(i
‑
β1)x
t
,
[0060]
x通过输入张量按通道数c展开得到，尺寸为c
×
l，l＝h
×
w，i为单位矩阵，β为参数这里设置为0，计算亲和矩阵affinity matrix,定义为：
[0061][0062]
sam模块输出可表示为：
[0063]
y＝x λλx,
[0064]
其中λ为可学习参量，cam模块的处理过程与sam类似，不同之处在于cam将输入张量按w
×
c展开得到；resnet50网络载入imagenet数据集预训练参数；
[0065]
cam模块输出可表示为：
[0066]
y
cam
＝x
cam
λλx
cam
,
[0067]
x
cam
由输入三维张量按w
×
h展开得到，大小为c
×
(w
×
h)，亲和矩阵计算方式与sam相同；
[0068]
s1.2、对于全局支路：输入为图片直接经过主干网络得到的特征图输入张量依次经过resnet50网络第四卷积层、bottleneck结构层、sam注意力模块、全局均值池化层gap、降维层得到512维输出特征；
[0069]
s1.3、对于局部支路：输入为图片先经过像素丢弃再经过主干网络得到的特征图
输入张量依次经过resnet50网络第四卷积层、bottleneck结构层、sam注意力模块、全局最大值池化层gmp、降维层得到512维输出特征。
[0070]
预处理步骤中，对于一个批次的训练数据x∈r
b
×
h
×
w
×
c
，
[0071]
其中，b、h、w、c分别为每批次图片张数、高、宽、通道数；
[0072]
图像高、宽的分块丢弃比率分别为r
h
、r
w
；
[0073]
其中，0≤r
h
，r
w
≤1，
[0074]
随机生成的高、宽大小分别为r
h
×
h、r
w
×
w的分块像素丢弃区域，将丢弃区域内的像素值均置为零，每隔q个训练批次重新随机生成丢弃区域位置，其中q≥1，此实例下q设置为5。
[0075]
步骤s2预处理步骤中，对于l个局部支路，采用不同的高度比率r
h
对输入训练数据进行分块丢弃操作，r
h
分别设置为l个不同的值，此实例下l设为3，对应r
h
分别设为0.2、0.3、0.4，宽度比率r
w
保持为1。
[0076]
预处理步骤中，对于全局支路，不对输入的训练数据进行分块丢弃操作。
[0077]
预处理步骤还包括宽高归一化为128
×
384、随机翻转、随机裁切、随机擦除。
[0078]
如图3所示，步骤s3中，双批次数据联合训练包括以下步骤：
[0079]
s3.1：将一个完整训练批次的图片数据均分为两个子批次，对其中一个子批次图片进行步骤s2中的图像分块丢弃处理，之后再将两个子批次合并为一个完整批次送入主干网络提取对应特征图；
[0080]
s3.2：将主干网络提取到的特征图再次分为两个子批次，将对应经过分块丢弃处理的特征图子批次作为输入进入局部支路，未经过分块丢弃处理的特征图子批次进入全局支路；
[0081]
s3.3：调整高度比率r
h
后，重复多次训练网络，每次训练保留模型局部支路权重，将l个对应不同高度比率r
h
的局部支路、一个全局支路和主干网络组合成完整l 1个分支网络，用于测试数据的分集特征提取。
[0082]
步骤s4中,所述采用三种损失函数对网络权重进行优化，分别为交叉熵误差函数l
ce
、三元组损失函数l
triplet
、中心损失函数l
center
，最终损失函数可表示为：
[0083]
l
total
＝l
ce
γ
t
l
triplet
γ
c
l
center
，
[0084]
其中γ
t
和γ
c
为权重系数，通过最终损失函数对网络整体权重进行优化，采用优化器为adam优化器。
[0085]
步骤s5中，特征拼接融合包括以下步骤：
[0086]
s5.1：将测试集图片输入主干网络，输出主干网络特征；
[0087]
s5.2：将主干网特征分别送入全局支路以及l个局部支路，得到全局支路特征以及l个局部支路特征，对任一测试图片的l 1个支路特征进行拼接得到该图片的拼接特征；
[0088]
s5.3：将l 1个支路的输出特征拼接后根据欧式距离构建相似度矩阵，基于拼接特征计算m个测试图片与n个目标图片之间的欧氏距离，构建尺寸大小为m
×
n的相似度矩阵：
[0089][0090]
其中，设第i张测试图片的拼接特征为第j张目标图片的拼接特征
为则特征与特征之间的欧式距离可表示为
[0091]
s5.4：根据测试图片与目标图片的欧式距离大小进行排序，得到检索候选结果，完成行人重识别任务。
[0092]
为充分验证本发明的效果并且便于和已公开的其他行人重识别方法进行比较，本发明分别在market1501、dukemtmc
‑
reid、cuhk03三种数据集上进行实验。market1501于2015年夏采集自清华大学校园内，包含1501个行人id，通过6个摄像头采集共32668张图片，其中训练集包含751个行人id共12,936张图片，测试集包含余下750个id，3,368个检索图片，15913张待检图片；dukemtmc
‑
reid于2015年冬采集自杜克大学校园内，包含1812个行人id，共有36411张图片，其中训练集包含702个行人id共16522张图片，测试集包含余下的702个行人id图片。cuhk03数据集包含人工标记的14096张图像，和检测标记的14097张图像，这些图像由两个相机视图捕获，总共具有1467个id,其中767个id的图片用于训练，其余用于测试。
[0093]
在网络模型训练过程中，每个子批次大小为32张图片(包含8个行人id，每个id4张图片)，一个完整训练批次大小为64张，本发明采用adam优化器，并采用warmup策略经过10个epoch将学习率提升到0.00035，分别再经过40个epoch和65个epoch时学习率降至3.5e
‑
5和3.5e
‑
6。
[0094]
表1
[0095][0096][0097]
表2
[0098][0099]
表3
[0100][0101]
表1给出本发明方法的四分支网络实例在market1501数据集上与其他公开方法进行性能比较的结果，表2给出本发明方法的四分支网络实例在dukemtmc
‑
reid数据集上与其他公开方法进行性能比较的结果，表3给出本发明方法的四分支网络实例在cuhk03数据集上与其他公开方法进行性能比较的结果，比较的性能指标map为平均精度均值，rank
‑
1代表首位准确度。
[0102]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有
变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0103]
此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信息处理方法、装置、设备及存储介质与流程

一种基于图片分块丢弃的分集多支路行人重识别方法与流程

相关文献

最热文献