一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度图匹配的可见光-红外行人重识别方法

2022-08-02 23:00:15 来源:中国专利 TAG:


1.本发明涉及计算机视觉、行人重识别技术领域,具体地说是一种基于深度图匹配的可见光-红外行人重识别方法。


背景技术:

2.随着公共安全领域日益增加的应用需求,城市各个管理部门在街道,校园、医院,车站等区域布设了全天候、大规模的摄像机网络。每天汇集到公安、城管等部门相关服务器中是海量的视频大数据,依靠人力来搜寻或追踪感兴趣的行人是非常昂贵和不可行的任务。行人重识别是指非重叠视域摄像机网络下判断感兴趣的行人是不是在其它摄像机(不同地点或时间)下存在的问题。
3.然而,在夜晚场景下,可见光摄像头难以捕捉行人信息,现如今各大交通网络已全面部署可见光-红外双模态摄像机。可见光-红外跨模态行人重识别问题引起了工业界和学术界的广泛关注。为了提升跨模态行人的表示能力,提取姿态、人体部位,步态,特征关键点,视角信息等局部特征已成为提升再识别性能的合理选择,基于局部特征的方法通过挖掘细粒度信息,可加强模型对人体关键区域的学习,降低无关因素的干扰,从而克服全局特征的缺陷。
4.但仅仅利用关键点区域并不够,相关工作又继续在局部特征基础上加入注意力机制或改进损失函数,但仍然忽略了关键点之间关系的构建。现有方法主要利用像素或特征对齐来处理类内变化和模态差异。然而,这些方法很难保持全局和局部表示之间的语义一致性。并且相同行人图像间仍然存在姿态、错位等变化,这对于直接学习特征对齐有负面影响。


技术实现要素:

5.本发明为克服现有技术的不足之处,提出一种基于深度图匹配的可见光-红外行人重识别方法,以期能通过图数据建模以及高效的跨模态协同图匹配,自适应匹配可见光与红外特征,从而能提高可见光-红外行人重识别的精确度,并能降低对于人体姿态、错位、遮挡以及模态差异的敏感程度。
6.本发明为达到上述发明目的,采用如下技术方案:
7.本发明一种基于深度图匹配的可见光-红外行人重识别方法的特点在于,包括以下步骤:
8.步骤1、构建姿态图提取模块,包括:基于非局部注意力的卷积神经网络、全局平均池化层、人体姿态估计网络;
9.步骤1.1、获取一幅可见光图像xr和一幅红外图像xi,并使用cvtcolor变换将所述红外图像xi的通道数转为3,再利用基于非局部注意力的卷积神经网络分别提前所述可见光图像xr和变换后的红外图像x
′i的全局特征,相应得到可见光特征fr和红外特征fi,将所述可见光特征fr和红外特征fi分别经过全局平均池化层后得到可见光全局空间特征和
红外全局空间特征并构成全局空间特征对
10.步骤1.2、将变换后的红外图像x
′r和所述可见光图像xi分别输入2d高分辨率的人体姿态估计网络中,并相应输出可见光图像xr中的行人关键点热度图mr以及红外图像x'i中的行人关键点热度图mi;
11.步骤1.3、根据式(1)和式(2)分别构建可见光的局部视觉特征和红外的局部视觉特征并构成局部视觉特征对
[0012][0013][0014]
式(1)和式(2)中,表示矩阵hadamard积;
[0015]
步骤2、构建可见光、红外图结构数据;
[0016]
根据全局空间特征对以及局部视觉特征对按照人体骨架结构进行构图,从而得到人体姿态图g=(v,e,a);其中,顶点集v表示人体姿态图g中所有关键点构成的集合,边集e表示由人体骨架结构确定的各个关键点间的连接关系,顶点属性a={af,a
p
}表示关键点的全局空间特征和局部视觉特征;
[0017]
令可见光图像xr的可见光人体姿态图记为gr=(vr,er,ar);其中,vr表示可见光人体姿态图gr中所有关键点构成的集合,er表示可见光图像xr中人体骨架结构确定的各个关键点间的连接关系,ar表示可见光人体姿态图gr中所有关键点的全局空间特征和局部视觉特征;
[0018]
令红外图像x
′i的红外人体姿态图记为gi=(vi,ei,ai);其中,vi表示红外人体姿态图gi中所有关键点构成的集合,er表示红外图像x
′i中人体骨架结构确定的各个关键点间的连接关系,ar表示红外人体姿态图gi中所有关键点的全局空间特征和局部视觉特征;
[0019]
步骤3、构建协同图匹配模块;
[0020]
步骤3.1、建模亲和矩阵m:
[0021]
步骤3.1.1、利用式(3)计算亲和矩阵m的对角线元素m
ij,ij

[0022][0023]
式(3)中,表示可见光人体姿态图gr的第i个关键点与红外人体姿态图gi的第j个关键点之间的视觉相似度,并由式(4)得到,表示可见光人体姿态图gr的第i个关键点与红外人体姿态图gi的第j个关键点之间的空间相似度,并由式(5)得到,i∈(0,n1],j∈(0,n2],n1、n2分别表示可见光关键点vr和红外关键点vi的关键点总数;
[0024][0025][0026]
式(4)和式(5)中,exp表示指数化,表示可见光人体姿态图gr中第i个关键点的局部视觉特征,表示红外人体姿态图gi中第j个关键点的局部视觉特征,表示可见光
人体姿态图gr中第i个关键点的全局空间特征,表示红外人体姿态图gi中第j个关键点的全局空间特征;
[0027]
步骤3.1.2、利用式(4)计算亲和矩阵m的非对角线元素m
i1j1,i2j2

[0028][0029]
式(4)中,表示一对可见光关键点和一对红外关键点之间的联合空间置信度,并由式(7)得到;表示一对可见光关键点和一对红外关键点之间的视觉相似度,并由式(8)得到,j1,j2∈(0,n2];
[0030][0031][0032]
式(7)和式(8)中,exp表示指数化,||
·
||2表示矩阵的2-范数;分别表示可见光人体姿态图gr中第i1、i2个关键点的局部视觉特征,分别表示红外人体姿态图gi中第j1、j2个关键点v
j1
、v
j2
的局部视觉特征;分别表示可见光人体姿态图gr中第i1、i2个关键点的全局空间特征,分别表示红外人体姿态图gi中第j1、j2个关键点的全局空间特征;
[0033]
步骤3.2、定义图匹配:
[0034]
定义并初始化匹配矩阵u=0,其中n1、n2分别表示可见光关键点vr和红外关键点vi的关键点数量;
[0035]
利用式(9)构建跨模态图匹配模块:
[0036][0037]
式(9)中,u
ij
表示可见光图像xr的第i个节点与红外图像x
′i的第j个节点的匹配情况,若u
ij
=1,则表示可见光图像xr的第i个节点与红外图像x
′i的第j个节点匹配成功;若u
ij
=0,则表示可见光图像xr的第i个节点与红外图像x
′i的第j个节点匹配失败;
[0038]
步骤4、构建由姿态图提取模块和协同图匹配模块组成的行人重识别模型并训练;
[0039]
步骤4.1、利用式(8)构建多模态kissme判别损失l
kc

[0040]
[0041]
式(10)中,δ(
·
)表示kissme度量函数,表示第i个可见光行人的可见光空间和视觉特征的中心,表示第i个红外行人的可见光空间和视觉特征的中心,表示第j个最难负向空间和视觉特征的中心;
[0042]
步骤4.2、设置模型的基础学习率为lr,总迭代次数为items,每次迭代随机采样p个不同身份行人的k张可见光图像和k张红外图像组成第q个批次,将当前第q个批次图像输入行人重识别模型中,并采用随机梯度下降sgd优化算法对行人重识别模型中的各个参数进行迭代优化,并最小化所述损失函数l
kc
,直至到达迭代总次数items或损失函数l
kc
趋于稳定为止,从而得到基于深度图匹配的可见光-红外行人重识别模型;
[0043]
步骤5、查询匹配:
[0044]
步骤5.1、收集m张可见光行人图像作为一组可见光行人图像,并收集m张红外行人图像作为一组红外光行人图像,将其中的一组图像当做查询集,另一组为测试集;
[0045]
步骤5.2、从查询集选取一张待查询图像xq,利用所述基于深度图匹配的可见光-红外行人重识别模型分别对待查询图像xq和测试集所有图像进行特征提取,得到可见光全局空间特征可见光局部视觉特征红外全局空间特征和红外局部视觉特征并根据式(11)计算相似度后,对相似度进行降序排序,选取前σ个相似度所对应的图像作为待查询图像xq的可见光-红外行人重识别的检索结果;
[0046][0047]
式(11)中,n1和n2分别表示已匹配的可见光关键点的总数和已匹配的红外关键点总数,φ()表示余弦度量,表示第i个已匹配的可见光局部视觉特征,表示第j个已匹配的红外局部视觉特征,表示第i个已匹配的可见光全局空间特征,表示第j个已匹配的红外全局空间特征。
[0048]
与已有技术相比,本发明的有益效果体现在:
[0049]
1、本发明面向红外-可见光跨模态行人之间的相似度测量问题,独特性地采用图匹配建立多视角跨模态数据之间的局部几何空间的密集对应关系,设计了一种约束图匹配模块,最终构建基于深度图匹配的图一致性对齐模型,并通过图数据建模以及高效的跨模态协同图匹配,自适应匹配可见光与红外特征,从而提高了可见光-红外行人重识别的精确度和抗干扰能力。
[0050]
2、本发明为解决图构建问题,设计了一种姿态图提取模块,可自适应的将可见光图像和红外图像转换成图结构,而图结构包含丰富的局部语义信息,有利于跨模态信息的交互。
[0051]
3、本发明引入了多模态kissme判别损失函数,设计独特的相似度度量公式,从多个角度考虑可见光-红外异构行人特征价值,选取最优的特征进行相似度度量,从而提高了匹配识别对于干扰的鲁棒性。
附图说明
[0052]
图1为本发明基于深度图匹配的可见光-红外行人重识别系统的流程图;
[0053]
图2为本发明基于深度图匹配的可见光-红外行人重识别方法的网络框图。
具体实施方式
[0054]
本实施例中,一种基于深度图匹配的可见光-红外行人重识别方法是面向红外-可见光跨模态行人之间的相似度测量问题,采用图匹配建立多视角跨模态数据之间的局部几何空间的密集对应关系,提出一种测量两幅图上下文特征对与其关系相似性的协同图匹配方法,以提高模型的准确度,参照图1,该方法是首先搜集下载的红外与可见光异构行人重识别数据集,然后设计姿态图提取模块,将特征构建可见光、红外图结构数据,再构建协同图匹配模块,然后由姿态图提取模块和协同图匹配模块组成的行人重识别模型并训练,最后查询匹配,得到行人重识别结果。具体步骤如下:
[0055]
步骤1、构建姿态图提取模块,包括:基于非局部注意力的卷积神经网络、全局平均池化层、人体姿态估计网络;
[0056]
步骤1.1、获取一幅可见光图像xr和一幅红外图像xi,并使用cvtcolor变换将红外图像xi的通道数转为3,再利用基于非局部注意力的卷积神经网络分别提前可见光图像xr和变换后的红外图像x'i的全局特征,相应得到可见光特征fr和红外特征fi,将可见光特征fr和红外特征fi分别经过全局平均池化层后得到可见光全局空间特征和红外全局空间特征并构成全局空间特征对本实施例中,利用sysu-mm01数据集进行训练和测试。sysu-mm01数据集由大学校园内的4个普通rgb摄像机和2个ir摄像机所采集;sysu-mm01数据集包含491个行人,每个行人出现在两个以上不同的相机中。数据集共有287628张rgb图像和15792张红外图像,训练集有395个行人共32451张图像,其中rgb图像19659张,红外图像12792张.测试集包含96个行人,其中3803幅红外图像当作被检索图像,随机抽取301幅rgb图像当作检索图像;由于随机选择图像当作检索图像的原因,在测试阶段采用10次随机实验的平均值作为最终结果,根据其标准评估协议,数据集包括all-search检索模式和indoor-search检索模式。对于all-search模式,可见光相机1、2、4和5用于被检索图像集,红外相机3和6用于检索图像集;对于indoor-search模式,可见光摄像机1和2(不包括室外摄像机4和5)用于被检索图像集;红外摄像机3和6用于检索图像集。
[0057]
步骤1.2、将变换后的红外图像x
′r和可见光图像xi分别输入2d高分辨率的人体姿态估计网络中,并相应输出可见光图像xr中的行人关键点热度图mr以及红外图像x'i中的行人关键点热度图mi;本实施例中,resnet网络构造细节是,首先选取resnet50作为基础网络,将卷积层划分成stage1-stage5五层,删除其stage5后全局平均池化(gap)层和全连接层。首先将可见光图像、红外图像分别送入参数不共享的卷积层stage1、stage2,然后将卷积层stage2的两个输出送入stage3-stage5中,分类器使用一个批归一化层(bn neck)和一个全连层,后面连接一个softmax函数。对于2d高分辨率的人体姿态估计网络,采用hrnet姿态提取网络(deep high resolutionnet,hrnet);
[0058]
步骤1.3、根据式(1)和式(2)分别构建可见光的局部视觉特征和红外的局部视觉特征并构成局部视觉特征对和的维度为2048,a
p
维度为4096,如图2所示;
[0059][0060][0061]
式(1)和式(2)中,表示矩阵hadamard积;
[0062]
步骤2、构建可见光、红外图结构数据;
[0063]
如图2所示,根据全局空间特征对以及局部视觉特征对按照人体骨架结构进行构图,从而得到人体姿态图g=(v,e,a);其中,顶点集v表示人体姿态图中所有关键点构成的集合,边集e表示由人体骨架结构确定的各个关键点间的连接关系,顶点属性a={af,a
p
}表示关键点的全局空间特征和局部视觉特征;
[0064]
令可见光图像xr的人体姿态图记为gr=(vr,er,ar);其中,vr表示可见光人体姿态图中所有关键点构成的集合,er表示可见光图像中人体骨架结构确定的各个关键点间的连接关系,ar表示可见光关键点的全局空间特征和局部视觉特征,
[0065]
令红外图像x'i的人体姿态图记为gi=(vi,ei,ai);其中,vi表示红外人体姿态图中所有关键点构成的集合,er表示红外图像中人体骨架结构确定的各个关键点间的连接关系,ar表示红外关键点的全局空间特征和局部视觉特征;在训练过程中,必须给定来自相同id行人的一对正样本xr和x'i,它们的相关属性图表示为gr=(vr,er,ar)和gi=(vi,ei,ai)。然后,构建图数据旨在建立vr(具有n1=15个顶点)和vi(具有n2=15个顶点)之间的顶点对应关系,网络训练的目标是使行人类内匹配分数最大化。
[0066]
步骤3、构建协同图匹配模块;如图2所示;
[0067]
步骤3.1、建模亲和矩阵m:
[0068]
步骤3.1.1、利用式(3)计算亲和矩阵m的对角线元素m
ij,ij

[0069][0070]
式(3)中,表示可见光人体姿态图第i个关键点与红外人体姿态图第j个关键点之间的视觉相似度,并由式(4)得到,表示可见光人体姿态图第i个关键点与红外人体姿态图第j个关键点之间的空间相似度,i∈(0,n1],j∈(0,n2],n1、n2分别表示可见光关键点vr和红外关键点vi的关键点总数,本实例中n1=n2=15,空间相似度由式(5)得到:
[0071][0072][0073]
式(4)和式(5)中,exp表示指数化,表示可见光人体姿态图第i个关键点的局部视觉特征,表示红外人体姿态图第j个关键点的局部视觉特征,表示可见光人体姿态图第i个关键点的全局空间特征,表示红外人体姿态图第j个关键点的全局空间特征;
[0074]
步骤3.1.2、利用式(4)计算亲和矩阵m的非对角线元素m
i1j1,i2j2

[0075][0076]
式(4)中,表示一对可见光关键点和一对红外关键点之间
的联合空间置信度,并由式(7)得到;表示一对可见光关键点和一对红外关键点键点之间的视觉相似度,并由式(8)得到,v
i1
∈vr,v
i2
∈vr,v
j1
∈vi,v
j2
∈vi,i1,i2∈(0,n1],j1,j2∈(0,n2];
[0077][0078][0079]
式(7)和式(8)中,exp表示指数化,||
·
||2表示矩阵的2-范数;分别表示可见光人体姿态图第i1、i2个关键点v
i1
、v
i2
的局部视觉特征,分别表示红外人体姿态图第j1、j2个关键点v
j1
、v
j2
的局部视觉特征;分别表示可见光人体姿态图第i1、i2个关键点v
i1
、v
i2
的全局空间特征,分别表示红外人体姿态图第j1、j2个关键点v
j1
、v
j2
的全局空间特征;训练中对m归一化处理为f-范数为1的数据,有助于加快u的收敛速度,从而提高效率;
[0080]
步骤3.2、定义图匹配:
[0081]
定义并初始化匹配矩阵u=0,其中n1、n2分别表示可见光关键点vr和红外关键点vi的关键点数量;本实例中,n1取15,n2取15;
[0082]
利用式(9)构建跨模态图匹配模块:
[0083][0084]
式(9)中,u
ij
表示可见光图像的第i个节点与红外图像的第j个节点的匹配情况,若u
ij
=1,则表示可见光图像的第i个节点与红外图像的第j个节点匹配成功;若u
ij
=0,则表示可见光图像的第i个节点与红外图像的第j个节点匹配失败;
[0085]
为提高特征匹配的紧凑性,增加约束匹配条件:身体结构相似的节点允许匹配。指定可见光图像第i个节点,只有红外图像对应第i个节点或者第i节点邻接节点才能被匹配。对于身体结构不相似的节点最终将匹配结果置0,如公式(10)所示:
[0086][0087]
式(10)中,k
ij
可见光、红外图数据的领接矩阵第i行第j列元素,最终再将匹配矩阵u归一化;
[0088]
步骤4、构建由姿态图提取模块和协同图匹配模块组成的行人重识别模型并训练;
[0089]
步骤4.1、利用式(11)构建多模态kissme判别损失l
kc

[0090][0091]
式(10)中,δ(
·
)表示kissme度量函数,表示第i个可见光行人的可见光空间和视觉特征的中心,表示第i个红外行人的可见光空间和视觉特征的中心,表示第j个最难负向空间和视觉特征的中心;本实例中ρ取0.3;
[0092]
步骤4.2、设置模型的基础学习率为lr,总迭代次数为items,每次迭代随机采样p个不同身份行人的k张可见光图像和k张红外图像组成第q个批次,将当前第q个批次图像输入行人重识别模型中,并采用随机梯度下降sgd优化算法对行人重识别模型中的各个参数进行迭代优化,并最小化损失函数l
kc
,直至到达迭代总次数items或损失函数l
kc
趋于稳定为止,从而得到基于深度图匹配的可见光-红外行人重识别模型;在本实例中,训练的基础学习率设置为0.01,迭代总次数items为100轮,批处理大小q取64,直到训练完100轮或者损失稳定在1.0~1.2为止;
[0093]
步骤5、查询匹配,参考图1所示:
[0094]
步骤5.1、收集m张可见光行人图像作为一组可见光行人图像,并收集m张红外行人图像作为一组红外光行人图像,将其中的一组图像当做查询集,另一组为测试集;
[0095]
步骤5.2、在实际应用中,从查询集选取一副待查询图像xq,利用基于深度图匹配的可见光-红外行人重识别模型分别对待查询图像xq和测试集所有图像做特征提取,得到可见光全局空间特征可见光局部视觉特征红外全局空间特征和红外局部视觉特征并根据式(12)计算相似度d,对相似度d进行降序排序,选取前σ个相似度所对应的图像作为待查询图像xq的可见光-红外行人重识别检索结果;本实例σ取20,图1就是实际应用系统流程图;
[0096][0097]
式(12)中,n1和n2分别表示已匹配的可见光关键点总数和已匹配的红外关键点总数,φ()表示余弦度量,表示第i个已匹配的可见光局部视觉特征,表示第j个已匹配的红外局部视觉特征,表示第i个已匹配的可见光全局空间特征,表示第j个已匹配的红外全局空间特征。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献