一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的遮挡行人重识别方法与流程

2022-11-09 22:09:41 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,具体为一种基于深度学习的遮挡行人 重识别方法。


背景技术:

2.在信息技术高度发达的今天,视频监控系统在许多场合扮演着举足轻重 的角色。伴随着大数据时代的来临以及深度学习的快速发展,为了及时处理 海量的视频信息,人们迫切需要应用智能视频监控技术。行人重识别是智能 视频监控技术的关键环节,它的研究目标是给定一个行人的查询图像,在不 同摄像头检索该行人的所有图像。但是在真实应用场景中,行人容易受到车 子、树木、其他行人等障碍物的遮挡,这造成行人图像信息存在局部缺失、 难以对齐等问题。因此遮挡场景下的行人重识别问题更加具有现实应用意义 和挑战性。
3.随着深度学习时代的到来,基于深度卷积神经网络提取的高维特征判别 性更强并且在复杂环境下的鲁棒性更高。因此在行人重识别领域,往往使用 基于深度学习的方法来提取特征。基于这种方式的行人重识别算法仅仅使用 余弦距离度量相似性便可得到大大超越基于手工方法的性能。
4.然而,受限于行人重识别数据集,基于深度学习的行人重识别算法在实 际落地的过程中,往往会受到复杂多样的应用环境的挑战。这些挑战包括但 不局限于:光照变化、姿态变化、摄像机视角、遮挡、数据集差异、行人检 测误差、类内差异性和类间相似性。其中,遮挡问题在现实场景中是客观存 在的,一个行人在商场、车站和马路上往往会被一些障碍物遮挡。如何在遮 挡场景下,有效地行人重识别非常具有现实意义。然而,遮挡场景下进行行 人重识别非常困难,因为行人往往引入了来自被遮挡区域的模糊信息(如丰 富的纹理和噪声等),这会误导外观表示,并且会包含较少本身的可区分性 特征信息。
5.解决遮挡行人重识别问题的关键是确定未遮挡行人图像和遮挡行人图像 之间的公共可视区域并对这些区域进行特征提取、对齐和相似度度量。开放 环境下进行的遮挡行人重识别任务中,许多方法往往借助人体姿态检测网络 模型和行人重识别骨架网络,更好地提取被遮挡行人图像的特征。然而,这 类方法大多引入人体关键点检测网络作为辅助模型,在测试阶段也依赖于辅 助网络,额外增加了测试时间复杂度,同时,这些方法一般均采用预训练方 法,在coco等数据集上训练姿态检测模型,这导致了其与遮挡行人数据集 的域差异和偏差,影响了算法性能。又由于遮挡数据集行人图像数量有限, 而在现实场景下,行人会被各种各样的障碍物遮挡,这些障碍物具有不固定 的大小,形状和纹理,并且会遮挡行人的不同部位。然而,大多数基于数据 增强的遮挡行人重识别算法都无法生成符合这些情况的遮挡。如果简单地使 用传统的数据增强方法,又很难保证训练数据集的多样性和网络训练过程的 较快收敛。


技术实现要素:

6.本发明的目的在于提供一种基于深度学习的遮挡行人重识别方法,以解 决上述背景技术中提出的以下问题:一是现有的遮挡行人重识别算法大多是 利用人体关键点的姿态引导,这些方法在测试时要依赖额外的辅助模型,导 致了算法时间复杂度的提升,增加了网络应用和部署的困难;此外,这些方 法不可避免地使用了预先在其它域数据集上训练的模型,这将导致数据域偏 差问题,从而限制性能提升;二是遮挡行人重识别数据集数据量有限,现有 的数据增强方法往往让生成的图像更加复杂和多样,从而使得网络难以收敛。
7.为实现上述目的,本发明提供如下技术方案:一种基于深度学习的遮挡 行人重识别方法,包括以下步骤:步骤一,模型训练;步骤二,模型推理;
8.其中在上述步骤一中,模型训练具体包括以下步骤:
9.1)初始化卷积神经网络;
10.2)行人重识别分支前向传播获得行人图像的全局特征;
11.3)姿态引导分支前向传播并获得行人关键点热力图;
12.4)数据增强模块生成遮挡行人图像;
13.5)遮挡掩膜学习分支根据输入遮挡行人图像和生成的图像得到遮挡 掩膜;
14.6)通过关键点热力图和图像特征图得到行人姿态局部特征;
15.7)基于全局特征和遮挡掩膜得到行人遮挡局部特征;
16.8)基于姿态局部特征和全局特征来计算的姿态分支损失;
17.9)基于遮挡局部特征和全局特征来计算的遮挡掩膜分支损失;
18.10)使用随机梯度下降算法更新参数;
19.11)重复步骤2)~10)直到收敛;
20.其中在上述步骤二中,模型推理具体包括以下步骤:
21.1)初始化卷积神经网络;
22.2)神经网络前向传播获得图像的特征图;
23.3)行人重识别分支前向传播并获得遮挡行人图像特征。
24.优选的,所述步骤一3)中,使用在coco数据集上预训练的现成的人体 关键点检测网络hrnet作为人体关键点提取器。
25.优选的,所述步骤一4)中,生成方案为:训练过程中随机位置选择行人 图像的一个面积从小到大的区域,让网络自适应地判别行人图像中的那一块 区域是否是背景信息,将识别为背景的图像块存储在全局列表中并作为遮挡 块替换行人图像被选中的那个图像块区域。
26.优选的,所述步骤一5)中,基于自注意机制和孪生网络的遮挡掩膜模块 来生成遮挡掩膜。
27.优选的,所述步骤一8)中,姿态分支损失函数分别为:
28.局部特征约束损失函数:
29.l
cl
=∑
i,j dist(f
ifinal
,f
jfinal
)*δ(i,j);
30.知识蒸馏损失函数:
[0031][0032]
行人重识别常用的损失函数:
[0033][0034][0035]
最终损失为:
[0036][0037]
优选的,所述步骤一9)中,遮挡掩膜分支损失函数分别为:
[0038]
差异损失函数:
[0039][0040]
行人重识别常用的损失函数:
[0041]
l
reid
=l
id
(fc(f)) τ*l
trihard
(f);
[0042]
最终损失为:
[0043]
l=λ
diff
*l
diff
l
reid
l

reid

[0044]
与现有技术相比,本发明的有益效果是:本发明通过使用知识蒸馏技术, 在测试时通过姿态引导网络分支提取的行人关键点局部特征,指导行人重识 别骨架分支训练,从而舍弃了对姿态引导网络的依赖;通过基于记忆库的模 块,在训练时通过逐步迭代更新关键点局部特征,解决了姿态引导数据集和 行人重识别数据集之间存在的领域间隙问题;通过数据增强方案,使生成的 遮挡行人图像即能保证遮挡类型多样性,又不会让遮挡太复杂而让网络难以 收敛;通过遮挡掩膜学习模块,引导网络学习判别图像的遮挡,并学习提取 更具判别力的特征,增强前景信息和对遮挡的鲁棒性。
附图说明
[0045]
图1为本发明的方法流程图;
[0046]
图2为本发明基于知识蒸馏与姿态引导的网络模型结构图;
[0047]
图3为基于数据增强和遮挡掩膜学习的网络模型结构图;
[0048]
图4为本发明的方法结构框架。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
请参阅图1-2,本发明提供的一种实施例:一种基于深度学习的遮挡行人 重识别方法,包括以下步骤:步骤一,模型训练;步骤二,模型推理;
[0051]
其中在上述步骤一中,模型训练具体包括以下步骤:
[0052]
1)初始化卷积神经网络;
[0053]
2)行人重识别分支前向传播获得行人图像的全局特征;
[0054]
3)姿态引导分支前向传播并获得行人关键点热力图;其中,使用在 coco数据集上预训练的现成的人体关键点检测网络hrnet作为人体关 键点提取器;
[0055]
4)数据增强模块生成遮挡行人图像;生成方案为:训练过程中随机 位置选择行人图像的一个面积从小到大的区域,让网络自适应地判别行 人图像中的那一块区域是否是背景信息,将识别为背景的图像块存储在 全局列表中并作为遮挡块替换行人图像被选中的那个图像块区域;
[0056]
5)遮挡掩膜学习分支根据输入遮挡行人图像和生成的图像得到遮挡 掩膜,具体为:基于自注意机制和孪生网络的遮挡掩膜模块来生成遮挡 掩膜;
[0057]
6)通过关键点热力图和图像特征图得到行人姿态局部特征;
[0058]
7)基于全局特征和遮挡掩膜得到行人遮挡局部特征;
[0059]
8)基于姿态局部特征和全局特征来计算的姿态分支损失;姿态分支 损失函数分别为:
[0060]
局部特征约束损失函数:
[0061]
l
cl
=∑
i,j dist(f
ifinal
,f
jfinal
)*δ(i,j);
[0062]
知识蒸馏损失函数:
[0063][0064]
行人重识别常用的损失函数:
[0065][0066][0067]
最终损失为:
[0068][0069]
9)基于遮挡局部特征和全局特征来计算的遮挡掩膜分支损失;遮挡 掩膜分支损失函数分别为:
[0070]
差异损失函数:
[0071][0072]
行人重识别常用的损失函数:
[0073]
l
reid
=l
id
(fc(f)) τ*l
trihard
(f);
[0074]
最终损失为:
[0075]
l=λ
diff
*l
diff
l
reid
l

reid

[0076]
10)使用随机梯度下降算法更新参数;
[0077]
11)重复步骤2)~10)直到收敛;
[0078]
其中在上述步骤二中,模型推理具体包括以下步骤:
[0079]
1)初始化卷积神经网络;
[0080]
2)神经网络前向传播获得图像的特征图;
[0081]
3)行人重识别分支前向传播并获得遮挡行人图像特征。
[0082]
基于上述,本发明的优点在于,本发明通过将姿态引导网络提取的人体 关键点特征按贡献度进行加权,更好地对齐行人特征;姿态引导分支提取姿 态局部特征过程如下:用i代表输入的遮挡行人图像,而f∈rh×w×c,代表i经 过resnet-50后得到的特征图,h、w和c分别代表特征图f的高度、宽度和通 道数;首先,i经过resnet-50后得到特征图f,随后通过池化操作得到全局 特征fg,然后,本发明在训练时使用了现成的人体关键点检测网络hrnet, 通过hrnet获得行人的17个关键点热力图,然后合并这些关键点得到最终 的8个人体部位关键点热力图h∈rn×w×n;接着,为了抑制异常点和噪声, 本发明使用特征聚合模块对每个通道维度的热力图都使用softmax函数做空 间归一化处理,为了得到最后的关键点局部特征,该模块将f与h做点积操作, 接着经过全局平均池化和全连接操作得到最后的关键点局部特征;再接着, 本发明使用了hpga模块根据人体结构构建不同关键点特征之间的权重如公 式(1)所示:
[0083][0084]
其中i和j代表不同的关键点节点,p代表正集,n代表负集,a
i,j
代表第i和 j个关键点特征节点之间的边权重超参数;如果i和j相等或第i和第j个关键点满 足对称关系(如左右臂和左右脚踝)则有相似度边(i,j)∈p,反之则(i,j)∈n;
[0085]
hpga构建关键点特征间的相似度边权:如公式(2)所示,输入一个局 部关键点特征fi∈r
256
,其中i=1,2,3,...,8,hpga使用局部关键点特征之间 的余弦相似度距离来刻画它们之间的相似度边权,其中代表全连接层,其参 数可学习,相当于对fi做线性变换:
[0086][0087]
最终建立的相似度边权如公式(3)所示:
[0088]ai,j
=a
i,j
*e(fi,fj)
ꢀꢀꢀ
(3)
[0089]
在上面这些基础上可以建立如公式(4)所示的图卷积操作:
[0090]
δ=avw
ꢀꢀꢀꢀ
(4)
[0091]
其中,w∈rd×1,v∈r8×d,它们都是可通过反向传播学习的参数矩阵, d=256是每个局部关键点特征的维度,δ是最终得到的每个关键点特征的注 意力权重,接着对于每个关键点特征fi,可以由公式(5)得到最终贡献度加 权的输出特征:
[0092]fifinal
=δi*fiꢀꢀꢀ
(5)
[0093]
同时,本发明使用了一个mb模块,来缓解姿态引导网络和行人重识别 网络之间的领域偏差与差异,即使用记忆库在网络训练时对局部特征进行逐 步迭代更新,从而让行人的局部特征能尽量靠近该id所有行人图像得到的特 征的中心,减少因数据域偏差产生的错误关键点检测结果对最终结果的影响; 具体为:
[0094]
首先hpga输出的8个加权的局部特征经过通道维度的连接得到最终的 特征记作
f,然后在训练时,mb以如公式(6)的方式更新id为y的行人特 征fy:
[0095]my
=α*my (1-α)*fyꢀꢀꢀ
(6)
[0096]
其中my代表mb模块中存储的id为y的行人特征,α是一个超参数,在 训练开始时m中所有的行人特征都被初始化为0,然后随着训练的进行,在 每个训练batch,对batch中所有的id为y的行人特征,以逐步迭代的方式更 新mb中id为y的行人特征my,最后经过姿态引导分支得到的最终局部特征 f
p
=my;
[0097]
接着,通过局部特征约束损失、知识蒸馏损失和行人重识别常用的损失 函数进行监督训练,使得该方法在测试时无须姿态引导网络,并能对各种遮 挡具有鲁棒的重识别效果;针对当前方法遮挡图像数据生成的缺陷,本发明 提出了一个遮挡行人数据集的数据增强方案,即训练过程中随机位置选择行 人图像的一个面积从小到大的区域,让网络自适应地判别行人图像中的那一 块区域是否是背景信息,将识别为背景的图像块存储在全局列表中并作为遮 挡块替换行人图像被选中的那个图像块区域,该方案所生成的遮挡行人图像 即能保证遮挡类型多样性,又不会让遮挡太复杂而让网络难以收敛;具体为: 本发明遮挡掩膜模块中的da模块采用增量学习的思想,训练过程中逐步生成 从小到大尺度的遮挡块,给定一张行人图像输入的rgb特征向量, i∈rb×h×w×c,其中,b、h、w和c分别代表训练时的批次大小、图像特征 的宽、高和通道数,训练时随机的选定输入图像i的一块面积为s1的矩形区域r, s1计算方式如公式(7)所示:
[0098]
s1=(λ0 k*t/t)*s
ꢀꢀꢀ
(7)
[0099]
其中s是行人图像的面积,s=h*w,λ0是初始化参数,训练开始让遮 挡块面积为s1=λ0*s,设置λ0=0.1,k是面积变化参数,t是当前训练的 epoch,t是训练时总共训练的epoch数;
[0100]
确定了矩形区域大小后,矩形区域的高和宽可以由公式(8)确定:
[0101][0102]
其中,τ是0.5到1的随机值,这样生成的矩形遮挡块形状会更多样,那 么就可以确定矩形区域r=(x0,y0,x0 h,y0 w),其中x0和y0是随机初始化 得到的矩形区域的位置坐标,即有:x0=rand(0,h-h)且y0=rand(0,w
‑ꢀ
w);
[0103]
确定矩形区域后,为了判别行人图像那部分矩形区域是背景还是前景, da模块使用如公式(9)所示的方式自适应地确定:
[0104][0105]
其中f是原图像经过b
reid
后获取的特征,f

是原图像去掉矩形区域那部分 像素后经过b
reid
后得到的特征,μ是判定阈值,r∈b代 表矩形区域r是背景,r∈f代表矩形区域r是前景;
[0106]
如果矩形区域r是背景,da模块就将该矩形区域包含的图像块存储在一 个全局列表中,在之后对训练输入的一个batch行人图像,从全局列表中随机 选择一个图像块(如果有的话),并将图像块缩放成该batch中所有行人图像 被选定的矩形区域大小之后作为遮挡块替换这些矩形区域;
[0107]
接着,本发明设计了一个遮挡掩膜学习模块,引导网络抑制遮挡信息, 增强前景
信息,增强了对遮挡的鲁棒性;具体为:首先分支b
reid
和b
da
产生 的特征f和f

会经过一个3d掩膜学习模块学习一个三维的掩膜,f和f

做差后 的特征会进入mg,它依次经过卷积层、relu层、bn层、卷积层和sigmoid 层;
[0108]
接着,为了将得到的3d遮挡掩膜利用起来,daml模型通过将3d遮挡 掩膜和两个分支得到的特征做乘积操作,即:
[0109]
f1=f
·
m,f
′1=f

·m[0110]
其中m是经过mg后得到的3d遮挡掩膜;
[0111]
最后,结合以上这些方法提出了一种基于深度学习的遮挡行人重识别算 法,在行人重识别数据集的实验结果验证了本发明的方法的有效性。
[0112]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节, 而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实 现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且 是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨 在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。 不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献