基于模态自适应混合和不变性卷积分解的行人重识别方法

2022-06-01 17:05:46 来源：中国专利 TAG：

1.本发明属于行人重识别领域，具体的说是一种基于模态自适应混合和不变性卷积分解的行人重识别方法。

背景技术：

2.由于在自动跟踪和活动分析中的广泛应用，行人重识别(re-id)最近引起了越来越多的关注。它旨在从多个不同的相机视图中捕获和识别目标行人。由于背景杂乱、遮挡、照明的剧烈变化、身体姿势的不同等因素，行人重识别非常具有挑战性。大多数现有的行人重识别方法主要关注来自可见光摄像机的行人可见光图像，并将任务表述为单模态(可见光-可见光)匹配问题。近年来，它们取得了显着进展。然而，可见光相机在光照环境较差(如夜间等)下无法提供有用的外观信息，这限制了行人重识别在实际场景中的适用性。为了解决这个问题，最新的监控系统开始配备红外摄像头以促进夜间监控，这就提出了一个新的跨模态匹配任务，称为可见光-红外行人重识别。给定目标人的可见光(或红外)图像，可见光-红外行人重识别旨在找到由其他光谱相机捕获的同一人的相应红外(或可见光)图像。与传统的单模态行人重识别相比，除了外观差异外，可见光-红外行人重识别有着显着的模态差异，这源于不同光谱相机之间的不同成像过程(可见光和红外图像本质上是异构的，具有不同的波长范围)。可见光-红外行人重识别的关键解决方案是弥合大的模态差距，并从可见光和红外图像中学习模态无关的判别特征。
3.现有的可见光-红外行人重识别方法主要集中在减轻像素级或特征级的固有模态差异以提取跨模态共享特征。为了缓解像素级的模态差异，这些方法通常设计复杂的生成对抗模型来执行图像到图像的转换并生成难以优化和嘈杂的生成样本。另一方面，为了减少特征级别的模态差异，这些方法采用单流或双流网络通过几个定制的损失来提取模态不变的特征。然而，基于单流网络的方法学习了一个通用网络模型，该模型缺乏对单个模态进行显式建模的能力，并且忽略了模态的特定特征，导致了关键的信息丢失。基于双流网络的方法首先为每个模态使用单独的分支层来抽象模态特定信息，然后使用共享网络将模态特定特征投影到统一特征空间中。它们将模态特定和模态共享信息的建模过程完全分开，并且在提取模态特定特征时可能会破坏重要的跨模态共享语义。此外，所有上述方法都试图直接处理如此大的模态差异并对齐两种对参数敏感且难以收敛的模态。

技术实现要素：

4.本发明是为了解决上述现有技术存在的不足之处，提出一种基于模态自适应混合和不变性卷积分解的行人重识别方法，以期能解决传统生成对抗模型在红外-可见光图像转换中的困难和计算消耗，以及传统单流双流网络的信息丢失和难拟合问题，从而能更高效和精确的匹配可见光模态和红外模态的行人图像。
5.本发明为达到上述发明目的，采用如下技术方案：
6.本发明一种基于模态自适应混合和不变性卷积分解的行人重识别方法的特点在
于，包括如下步骤：
7.步骤一、行人数据收集和预处理：
8.用红外摄像头和光学摄像头分别采集行人的红外和可见光监控视频，并对视频逐帧进行行人检测和尺寸归一化预处理，得到红外行人图像集和可见光行人图像集其中，表示第i张红外行人图像，表示第i张可见光行人图像；
9.为第i张红外行人图和第i张可见光行人图像分别设置第i个行人身份id；记为yi，且，且是训练集中的身份数，m
p
表示任意一个行人身份id；从而构建出红外和可见光匹配的训练数据集其中，n表示训练数据集中的图像数量；
10.步骤二、自适应混合图像：
11.步骤2.1、每次从训练数据集中分别采集p个行人身份id的红外行人图像及其可见光行人图像，且每个个行人身份id采集k张红外行人图像和k张可见光行人图像，从而得到2
×
p
×
k张图像所组成一个批处理数据其中，表示批处理数据中第j张可见光行人图像，表示批处理数据中第j张红外行人图像，yj表示批处理数据中第j张图像的行人id。
12.步骤2.2、构建以resnet-50深度学习网络为基础的特征提取网络；
13.所述resnet-50深度学习网络包括5个阶段，其中，第1个阶段stage 0由一层卷积核为n1×
n1的卷积层，一层批量归一化处理层，一层relu激活函数层组成，其余4个阶段均由bottleneck模块组成；第2个阶段stage 1包含3个bottleneck模块，剩下3个阶段分别包括4个、6个、3个bottleneck模块，每个bottleneck模块由一层卷积核为n2×
n2的卷积层，一层卷积核为n3×
n3卷积层，一层卷积核为n2×
n2的卷积层组成；
14.将所述resnet-50深度学习网络的前三个阶段中所有的卷积核进行模态自适应分解，得到每个卷积核所对应的三个模态基层α
rgb
,α
ir
,α
mix
和一个模态共享系数层ψ，再与其余两个阶段共同组成所述特征提取网络；
15.步骤2.3、所述批处理数据输入所述特征提取网络中，先在前三个阶段中按照先经过一个卷积核对应的两个模态基层α
rgb
,α
ir
的卷积处理后，再经过相应卷积核对应的一个共享系数层的ψ的卷积处理的过程来经过所有卷积核的处理后，在第三个阶段输出中间特征集合其中，表示第j张可见光图像的中间特征，表示第j张红外光图像的中间特征；
16.步骤2.4、构建由actor网络和critic网络组成的自适应混合模块，其中，actor网络和critic网络均包括：一层卷积和一层池化层和两层全连接层；
17.所述中间特征集合输入所述actor网络中进行处理，并输出混合比例其中，表示批处理数据第j个数据所对应产生
的六个混合比例；
18.将第j张可见光图像和红外图像分别从竖直方向上平均分成6块，并利用所述混合比例对分块后的可见光行人图像和红外行人图像进行比例混合，从而得到p
×
k张混合模态图像合模态图像表示第j张混合模态图像，yj表示其行人身份id；
19.步骤三、行人重识别损失更新特征提取网络：
20.步骤3.1、将三模态数据输入所述特征提取网络中，并经过前三个阶段的处理，得到中间特征三个阶段的处理，得到中间特征表示所述第j张混合图像的中间特征，再经过后两个阶段的处理，最终输出行人特征征，再经过后两个阶段的处理，最终输出行人特征表示第j张可见光图像的行人特征，表示第j张红外图像的行人特征，表示第j张混合模态图像的行人特征；
21.行人特征经过一层全连接层的分类处理后，输出的结果再经过softmax函数后得到对应的行人身份的分类概率softmax函数后得到对应的行人身份的分类概率表示批处理数据中的第j张可见光图像输出的被分类成行人身份id为m
p
的概率，表示批处理数据中的第j张红外图像输出的被分类成行人身份id为m
p
的概率，表示批处理数据中的第j张混合模态图像输出的被分类成行人身份id为m
p
的概率；
22.步骤3.2、利用式(1)身份损失函数l
id
：
[0023][0024]
式(1)中，yj表示批处理数据中第j张可见光图像的正确行人身份id，也是第j张红外图像的正确id和第j张混合模态图像的正确行人身份id；和分别表示批处理数据中的第j张可见光图像，红外图像和混合模态图像的输出被分类成正确行人身份id为yj的概率；
[0025]
步骤3.3、利用式(3)、式(4)和式(5)构建可见光模态和红外模态的中心三元组损失函数可见光模态和混合模态的中心三元组损失函数红外模态和混合模态的中心三元组损失函数
[0026]
[0027][0028][0029]
式(3)、式(4)和式(5)中，分别表示批处理数据中第m
p
个行人的可见光图像的行人特征中心、第m
p
个行人的红外图像的行人特征中心和第m
p
个行人的混合模态图像的行人特征中心，ρ是边距参数，[*]

＝max(*,0)表示取最大值函数；表示批处理数据中第n
p
个行人的红外图像的行人特征中心或者混合模态图像的行人特征中心，表示批处理数据中第n
p
个行人的可见光图像的行人特征中心或者红外图像的行人特征中心或者混合模态图像的行人特征中心；
[0030]
利用式(4)构建网络总损失函数l
dcn
：
[0031][0032]
步骤3.4、基于所述训练数据集，并使用adam优化策略对所述特征提取网络进行训练，直至网络总损失函数l
dcn
收敛为止，从而得到最优特征提取网络；
[0033]
步骤四、强化学习损失更新所述自适应混合模块：
[0034]
步骤4.1、利用式(4)和式(5)构建奖励r：
[0035][0036][0037]
式(4)和式(5)中，表示奖励，map(*)表示均值平均精度指标，rank-k(*)表示排名前k的检索结果分类的正确率指标，s是根据计算的相似度矩阵；ε(s)表示相似度矩阵s的综合指标；s
rgb,ir
表示之间计算的相似度矩阵，s
mix,ir
表示之间计算的相似度矩阵，s
ir,rgb
表示之间计算的相似度矩阵,s
mix,rgb
表示之间计算的相似度矩阵；
[0038]
步骤4.2、利用式(6)和式(7)分别构造更新actor网络的损失函数和critic网络
的损失函数
[0039][0040][0041]
式(6)和式(7)中，代表actor网络输出，代表critic网络输出,||*||2表示平方差函数；
[0042]
步骤4.3、基于所述训练数据集，并使用adam优化策略对自适应混合模块网络的actor网络和critic网络交替更新训练，直至损失函数和收敛为止，从而得到最优的自适应混合模块网络；
[0043]
步骤五、检索过程；
[0044]
步骤5.1、利用最优特征提取网络分别提取查询库query的行人特征和被查询库gallery的行人特征其中，表示第q个查询图像，nq表示查询图像的数量，表示被查询库中的第g个图像，ng表示被查询库的图像数量；
[0045]
步骤5.2、在可见光行人图像检索红外行人图像的设置下，令查询库query的图像为可见光图像，被查询库gallery的图像为红外图像；
[0046]
根据行人特征和计算相似度矩阵，并将相似度矩阵逐行排序后得到最终的检索结果。
[0047]
与现有技术相比，本发明的有益效果在于：
[0048]
1、本发明将自适应混合得到的混合模态作为辅助模态，与原来的红外和可见光模态组合设计成三模态跨模态行人重识别解决方案，并通过分解卷积的方式，每个卷积分解出模态基和共享系数两部分，更充分提取红外，混合模态和可见光模态行人的模态特征和跨模态不变特征，从而提高了红外与可见光跨模态行人检索和识别的准确率。
[0049]
2、本发明使用自适应混合模块混合可将光模态和红外模态图像，得到混合模态作为辅助模态，这样避免了传统生成式方法图像转换中的困难和计算消耗，从而使得得到的辅助模态更加可靠和高效，从而提高了红外与可见光跨模态行人检索和识别的准确率。
[0050]
3、本发明使用卷积分解网络，既能处理好模态特征，又能融合跨模态不变特征，且参数量小，这样可以解决传统单流双流网络的信息丢失和多路网络难拟合问题，从而获得更加可靠的行人特征，从而提高了红外与可见光跨模态行人检索和识别的准确率。
附图说明
[0051]
图1为本发明总体流程图。
具体实施方式
[0052]
本实施例中，一种基于模态自适应混合和不变性卷积分解的行人重识别方法的流程参照图1，具体的说，是按如下步骤进行：
[0053]
步骤一、行人数据收集和预处理：
[0054]
用红外摄像头和光学摄像头分别采集行人的红外和可见光监控视频，并对视频逐帧进行行人检测和尺寸归一化预处理，得到红外行人图像集和可见光行人图像集其中，表示第i张红外行人图像，表示第i张可见光行人图像；
[0055]
为第i张红外行人图和第i张可见光行人图像分别设置第i个行人身份id；记为yi，且，且是训练集中的身份数，m
p
表示任意一个行人身份id；从而构建出红外和可见光匹配的训练数据集其中，n表示训练数据集中的图像数量；本实施例中，n＝2060，
[0056]
步骤二、自适应混合图像：
[0057]
步骤2.1、每次从训练数据集中分别采集p个行人身份id的红外行人图像及其可见光行人图像，且每个行人身份id采集k张红外行人图像和k张可见光行人图像，从而得到2
×
p
×
k张图像所组成一个批处理数据其中，表示批处理数据中第j张可见光行人图像，表示批处理数据中第j张红外行人图像，yj表示批处理数据中第j张图像的行人id。本实施例中，p＝8,k＝4。
[0058]
步骤2.2、构建以resnet-50深度学习网络为基础的特征提取网络；
[0059]
resnet-50深度学习网络包括5个阶段，其中，第1个阶段stage 0由一层卷积核为n1×
n1的卷积层，一层批量归一化处理层，一层relu激活函数层组成，其余4个阶段均由bottleneck模块组成；第2个阶段stage 1包含3个bottleneck模块，剩下3个阶段分别包括4个、6个、3个bottleneck模块，每个bottleneck模块由一层卷积核为n2×
n2的卷积层，一层卷积核为n3×
n3卷积层，一层卷积核为n2×
n2的卷积层组成；本实施例中，n1＝7,n2＝1,n3＝3。
[0060]
将resnet-50深度学习网络的前三个阶段中所有的卷积核进行模态自适应分解，得到每个卷积核所对应的三个模态基层α
rgb
,α
ir
,α
mix
和一个模态共享系数层ψ，再与其余两个阶段共同组成特征提取网络,模态自适应卷积分解将卷积核近似为一小组系数层的乘积，用于同时对抗模态差异并在特征级别执行跨模态共享语义,特定于模态的基础层是根据相应的模态图像中独立学习的，以对模态变化进行建模。它们在空间上卷积每个单独的输入特征通道以进行模态差异校正。公共系数层学习所有的三个模态，并执行1
×
1卷积对校正后的输出特征通道进行加权求和，从而促进跨模态共享语义。分解后的卷积网络以模态自适应混合模块中的可见光、红外和混合模态图像作为输入，有效地处理特征级的较大模态差距，以学习模态不变特征；
[0061]
步骤2.3、批处理数据输入特征提取网络中，先在前三个阶段中按照先经过一个卷积核对应的两个模态基层α
rgb
,α
ir
的卷积处理后，再经过相应卷积核对应的一个共享系数层的ψ的卷积处理的过程来经过所有卷积核的处理后，在第三个阶段输出中
间特征集合其中，表示第j张可见光图像的中间特征，表示第j张红外光图像的中间特征；
[0062]
步骤2.4、构建由actor网络和critic网络组成的自适应混合模块，其中，actor网络和critic网络均包括：一层卷积和一层池化层和两层全连接层；
[0063]
以数据驱动方式学习跨模态图像不同区域之间的动态和局部线性插值，该插值可以表述为单步-马尔可夫决策过程，并在深度强化学习(rl)框架下由actor-critic代理实现。
[0064]
中间特征集合输入actor网络中进行处理，并输出混合比例其中，表示批处理数据第j个数据所对应产生的六个混合比例；
[0065]
将第j张可见光图像和红外图像分别从竖直方向上平均分成6块，并利用混合比例对分块后的可见光行人图像和红外行人图像进行比例混合，从而得到p
×
k张混合模态图像态图像表示第j张混合模态图像，yj表示其行人身份id；
[0066]
混合比根据可见光和红外图像的相应局部区域之间的模态和外观差异动态调整，这是由actor网络输出的。代理中的actor网络用于估计混合比，代理中的critic网络预测状态动作值(q值)。
[0067]
步骤三、行人重识别损失更新特征提取网络：
[0068]
步骤3.1、将三模态数据输入特征提取网络中，并经过前三个阶段的处理，得到中间特征阶段的处理，得到中间特征表示第j张混合图像的中间特征，再经过后两个阶段的处理，最终输出行人特征后两个阶段的处理，最终输出行人特征表示第j张可见光图像的行人特征，表示第j张红外图像的行人特征，表示第j张混合模态图像的行人特征；
[0069]
行人特征经过一层全连接层的分类处理后，输出的结果再经过softmax函数后得到对应的行人身份的分类概率softmax函数后得到对应的行人身份的分类概率表示批处理数据中的第j张可见光图像输出的被分类成行人身份id为m
p
的概率，表示批处理数据中的第j张红外图像输出的被分类成行人身份id为m
p
的概率，表示批处理数据中的第j张混合模态图像输出的被分类成行人身份id为m
p
的概率；
[0070]
步骤3.2、利用式(1)身份损失函数l
id
：
[0071]
[0072]
式(1)中，yj表示批处理数据中第j张可见光图像的正确行人身份id，也是第j张红外图像的正确id和第j张混合模态图像的正确行人身份id；和分别表示批处理数据中的第j张可见光图像，红外图像和混合模态图像的输出被分类成正确行人身份id为yj的概率；
[0073]
步骤3.3、利用式(3)、式(4)和式(5)构建可见光模态和红外模态的中心三元组损失函数可见光模态和混合模态的中心三元组损失函数红外模态和混合模态的中心三元组损失函数
[0074][0075][0076][0077]
式(3)、式(4)和式(5)中，分别表示批处理数据中第m
p
个行人的可见光图像的行人特征中心、第m_p个行人的红外图像的行人特征中心和第m_p个行人的混合模态图像的行人特征中心，ρ是边距参数，[*]

＝max(*,0)表示取最大值函数；表示批处理数据中第n
p
个行人的红外图像的行人特征中心或者混合模态图像的行人特征中心，表示批处理数据中第n
p
个行人的可见光图像的行人特征中心或者红外图像的行人特征中心或者混合模态图像的行人特征中心。
[0078]
利用式(4)构建网络总损失函数l
dcn
：
[0079][0080]
这种跨模态的损失函数可以更好的利用好混合模态作为辅助模态的优势，弥合模态之间的特征差异。
[0081]
步骤3.4、基于训练数据集，并使用adam优化策略对特征提取网络进行训练，直至网络总损失函数l
dcn
收敛为止，从而得到最优特征提取网络；
[0082]
步骤四、强化学习损失更新自适应混合模块：
[0083]
步骤4.1、利用式(4)和式(5)构建奖励r：
[0084][0085][0086]
式(4)和式(5)中，表示奖励，map(*)表示均值平均精度指标，rank-k(*)表示排名前k的检索结果分类的正确率指标，本实施例中，k＝5，s是根据计算的相似度矩阵；ε(s)表示相似度矩阵s的综合指标；s
rgb,ir
表示之间计算的相似度矩阵，s
mix,ir
表示之间计算的相似度矩阵，s
ir,rgb
表示之间计算的相似度矩阵,s
mix,rgb
表示之间计算的相似度矩阵；
[0087]
步骤4.2、利用式(6)和式(7)分别构造更新actor网络的损失函数和critic网络的损失函数
[0088][0089][0090]
式(6)和式(7)中，代表actor网络输出，代表critic网络输出,||*||2表示平方差函数；
[0091]
步骤4.3、基于训练数据集，并使用adam优化策略对自适应混合模块网络的actor网络和critic网络交替更新训练，直至损失函数和收敛为止，从而得到最优的自适应混合模块网络；
[0092]
步骤五、检索过程
[0093]
步骤5.1、利用最优特征提取网络分别提取查询库query的行人特征和被查询库gallery的行人特征其中，表示第q个查询图像，nq表示查询图像的数量，表示被查询库中的第g个图像，ng表示被查询库的图像数量；本实施例中，nq＝ng＝2060。
[0094]
步骤5.2、在可见光行人图像检索红外行人图像的设置下，令查询库query的图像为可见光图像，被查询库gallery的图像为红外图像；
[0095]
根据行人特征和计算相似度矩阵，并将相似度矩阵逐行排
序后得到最终的检索结果。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种旅游景区防拥堵方法、系统、装置、设备和介质与流程

基于模态自适应混合和不变性卷积分解的行人重识别方法

相关文献

最热文献