一种基于深度学习的多目标匹配方法与流程

2022-03-16 05:29:10 来源：中国专利 TAG：

1.本发明涉及目标跟踪技术领域，尤其涉及一种基于深度学习的多目标匹配方法。

背景技术：

2.目标匹配是指根据感兴趣目标在前一帧图像中的边界位置，依据时空关联性确定该目标在当前帧图像中边界位置，它是计算机视觉领域的核心技术，应用领域非常广泛，是许多下游应用的必备技术，例如，动作分析、行为识别、监控和人机交互等。
3.目前，目标匹配技术主要分为2大类，具体如下：
4.1、基于传统技术的目标匹配技术，代表技术主要有卡尔曼滤波跟踪、光流法跟踪、模板匹配跟踪，tld跟踪、ct跟踪、kcf跟踪等，该类技术的优点是原理简单，运行速度较快，在较简单场景下可以取得不错的效果，适合短时跟踪，其不足的地方是需要借助多目标匹配算法，鲁棒性较差，在稍微复杂些的场景下易跟丢目标和跟错目标，无法适应长时间跟踪。
5.2、基于深度学习技术的目标匹配技术，该类技术主要采用目标检测加目标匹配的策略完成目标跟踪过程，其过程是借助强大的基于深度学习目标检测框架(如：faster-rcnn、ssd、yolo)先定位出每帧图像中的目标位置，然后借助最近邻匹配算法或特征向量匹配算法进行前后帧图像的相同目标的关联，进而完成目标跟踪过程。该类技术的优点是鲁棒性较强，能够进行较长时间的跟踪，其缺点是需要一个鲁邦的多目标匹配算法，才能准确高效的关联前后帧图像中的目标。
6.如何寻找性能优越的多目标匹配算法，仍然是当前目标跟踪技术发展的的主要制约因素。

技术实现要素：

7.基于背景技术存在的技术问题，本发明提出了一种基于深度学习的多目标匹配方法，在较小的计算代价下，能够实现端到端的多目标匹配，通用性强，实时性高，误差来源更少，可长时间跟踪，跟踪效果鲁棒性强。
8.本发明提出的一种基于深度学习的多目标匹配方法，包括：
9.获取待识别图像，所述待识别图像包括某一帧图像和该帧图像对应的id掩码图像；
10.将待识别图像输入至预先训练好的深度神经网络模型，该深度神经网络模型包括特征提取模块、相关性模块和预测模块；
11.利用特征提取模块对待识别的图像进行处理，得到待识别图像的特征图；
12.利用相关性模块对所述特征图进行处理，得到具有自我感知时空相关性的输入特征图；
13.利用预测模块对所述输入特征图进行处理，获得预测前后两帧待识别图像之间的目标关联度。
14.进一步地，所述特征提取模块包括依次连接的拼接层concat0和特征提取层backbone，拼接层concat0的输入用于输入待识别图像，特征提取层backbone的输出与相关性模块的输入连接。
15.进一步地，所述相关性模块包括拼接层concat1、加权矩阵相乘层mul_qk、自注意力图特征值调整层softmax和矩阵相乘层mul_v；拼接层concat1的输入与特征提取模块中的特征提取层backbone的输出连接，拼接层concat1、加权矩阵相乘层mul_qk、自注意力图特征值调整层softmax依次连接，拼接层concat1的输出与自注意力图特征值调整层softmax的输出均与矩阵相乘层mul_v的输入连接，矩阵相乘层mul_v的输出与预测模块的输入连接。
16.进一步地，所述预测模块包括依次连接的卷积层conv0、卷积层conv1、全局均值池化层avepooling和全连接层fc；卷积层conv0的输入与相关性模块中的矩阵相乘层mul_v的输出连接，全连接层fc输出预测前后两帧待识别图像之间的目标关联度。
17.进一步地，所述深度神经网络模型的训练步骤包括：
18.收集各种场景，各种光线、各种角度下的行人视频，将行人视频按帧分离得到帧图像；
19.获取样本图像训练集，训练集中的每个样本图像是通过对前后两个帧图像中的行人目标关联信息进行标注得到的图像；
20.构建所述深度神经网络模型的目标损失函数；
21.将所述样本图像训练集输入至定义好的深度神经网络模型进行训练，得到所述预训练后的深度神经网络模型。
22.进一步地，所述目标损失函数l为：
[0023][0024]
其中，l
id
表示每一个行人目标匹配的损失函数，目标匹配的损失函数采用的是经典的交叉熵损失函数，n
valid
表示当前样本图像中出现的行人目标数目，α表示损失函数计算开关，*表示乘积。
[0025]
进一步地，在对前后两个帧图像中的行人目标关联信息进行标注，具体步骤如下：
[0026]
基于深度学习的行人检测框架获取行人视频中每一帧图像中的行人位置作为行人位置信息，对行人位置信息进行标注，得到行人目标位置信息；
[0027]
根据每个帧图像中的行人目标位置信息，生成相应的id掩码图像；
[0028]
任意选择包含行人目标的一帧图像作为前一帧图像，在之后的设定帧内，任意选择一幅图像作为当前帧图像，将当前帧图像、当前帧图像的id掩码图像、前一帧图像、前一帧图像的id掩码图像一起组成运动图像对；
[0029]
对于每一个运动图像对进行人工审核，进行不同帧图像中行人目标id关联，获得行人目标的id关联信息，生成一个长度为n 1的one-hot类型的关联特征向量；
[0030]
按照行人目标的id关联信息中序号值的大小，按顺序串联每一个行人目标的关联特征向量。
[0031]
进一步地，id掩码图像的生成过程如下：
[0032]
生成一幅和该帧图像分辨率相同且所有像素值均为0的掩码图像；
[0033]
获取该帧图像中的所有行人目标的数目；
[0034]
在该数目值范围内，随机的对每个行人目标赋予唯一的id序号；
[0035]
最后在掩码图像中，把行人目标位置信息范围内的所有像素赋值为该目标的id序号值，得到id掩码图像。
[0036]
进一步地，行人目标的id关联信息的关联方法如下：
[0037]
若前后帧图像为相同行人目标，则把该行人目标在前一帧id掩码图像中的id序号值作为该目标在当前帧图像中的预测类别序号；
[0038]
若前后帧图像为不相同行人目标，则把当前帧图像中行人目标的预测类别序号设置为n 1；
[0039]
基于每个目标的预测类别序号，生成一个长度为n 1的one-hot类型的关联特征向量。
[0040]
一种计算机可读储存介质，所述计算机可读储存介质上存储有若干获取分类程序，所述若干获取分类程序用于被处理器调用并执行如上所述的多目标匹配方法。
[0041]
本发明提供的一种基于深度学习的多目标匹配方法的优点在于：本发明结构中提供的一种基于深度学习的多目标匹配方法，借助深度神经网络模型，直接端对端的完成多目标关联匹配过程，自适应的获取前后帧图像的时空相关性，进而完成多目标最优匹配，在较小的计算代价下，能够实现端到端的多目标匹配，通用性强，实时性高，误差来源更少，可长时间跟踪，跟踪效果鲁棒性强。
附图说明
[0042]
图1为本发明的结构示意图；
[0043]
图2为深度神经网络模型的总体结构图；
[0044]
图3为特征提取模块的网络结构图；
[0045]
图4是相关性模块的网络结构图；
[0046]
图5是预测模块的网络结构图；
[0047]
其中，每一个神经网络结构层图形左侧的标识，表示该网络结构的输出特征图尺寸：特征图宽度
×
特征图高度
×
特征图通道数；
具体实施方式
[0048]
下面，通过具体实施例对本发明的技术方案进行详细说明，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。
[0049]
如图1至5所示，本发明提出的一种基于深度学习的多目标匹配方法，包括以下步骤s100至s500：
[0050]
s100：获取待识别图像，所述待识别图像包括某一帧图像和该帧图像对应的id掩码图像；
[0051]
s200：将待识别图像输入至预先训练好的深度神经网络模型，该深度神经网络模
型包括特征提取模块、相关性模块和预测模块；
[0052]
s300：利用特征提取模块对待识别的图像进行处理，得到待识别图像的特征图；
[0053]
s400：利用相关性模块对所述特征图进行处理，得到具有自我感知时空相关性的输入特征图；
[0054]
s500：利用预测模块对所述输入特征图进行处理，获得预测前后两帧待识别图像之间的目标关联度。
[0055]
本实施例借助深度神经网络模型，直接端对端的完成多目标关联匹配过程，自适应的获取前后帧图像的时空相关性，进而完成多目标最优匹配，在较小的计算代价下，能够实现端到端的多目标匹配，通用性强，实时性高，误差来源更少，可长时间跟踪，跟踪效果鲁棒性强。
[0056]
在上述对待识别图像进行多目标匹配之前，还需对深度神经网络模型进行构建及训练，然后利用训练好的深度神经网络模型进行多目标匹配，整体方案如图1至5所示本实施例适用于所有的多目标跟踪场景，为了方便叙述，本发明以行人多目标跟踪为例展开叙述：
[0057]
s1、设计深度神经网络模型，本发明设计的深度神经网络模型，其主要作用是借助一个具有自我感知前后帧图像时空相关性的深度神经网络模型，直接完成每帧图像中行人目标的匹配跟踪，由于不再需要人为设计行人目标匹配方法，使得整个行人匹配跟踪系统运算速度更快，误差来源更少，跟踪效果更加鲁棒。本发明采用的是卷积神经网络(cnn)，为了方便叙述本发明，定义一些术语：特征图分辨率指的是特征图高度
×
特征图宽度，特征图尺寸指的是特征图宽度
×
特征图高度
×
特征图通道数，核尺寸指的是核宽度
×
核高度，跨度指的是宽度方向跨度
×
高度方向跨度，另外，每一个卷积层后面均带有批量归一化层和非线性激活层。如图2所示，本发明以所设计的深度神经网络模型包含三个模块：特征提取模块backbone module、相关性模块relation module，预测模块predict module，具体设计步骤如下：
[0058]
s11、特征提取模块backbone module，特征提取模块主要用于获取输入图像的具有高度抽象和丰富表达能力的高层特征，高层特征提取的质量直接影响后续行人目标匹配的性能。特征提取模块可以采用任何一个常用的经典网络结构，为方便叙述，本发明采用经典的resnet网络结构，如图3所示，该特征提取网络的输入是由一幅图像分辨率为320
×
320的3通道的rgb图像和一幅图像分辨率为320
×
320的单通道的灰度图像组成，其中，rgb图像表示某一帧图像，灰度图像表示某一帧图像中所有行人目标的id掩码图像；concat0是拼接层，主要作用是把输入的2幅图像按照通道维度拼接成一幅相同分辨率的4通道图像。backbone是由resnet主干网络截取到均值池化层之前获得；out_feature是特征提取模块的输出特征图，用于后续的行人目标的匹配跟踪，其中，out_feature的特征图尺寸是20x20x256。
[0059]
s12、相关性模块relation module，相关性模块主要是在特征提取模块输出的前后帧图像特征图的基础上，通过自注意力理论，在全局范围内，对多目标间的特征进行关联，提升多目标匹配的准确性。本发明设计的相关性模块的网络结构如图4所示，包括拼接层concat1、加权矩阵相乘层mul_qk、自注意力图特征值调整层softmax和矩阵相乘层mul_v；拼接层concat1的输入与特征提取模块中的特征提取层backbone的输出连接，拼接层
concat1、加权矩阵相乘层mul_qk、自注意力图特征值调整层softmax依次连接，拼接层concat1的输出与自注意力图特征值调整层softmax的输出均与矩阵相乘层mul_v的输入连接，矩阵相乘层mul_v的输出与预测模块的输入连接。
[0060]
其中，concat1是拼接层，主要作用是把输入的多个特征图按照通道维度拼接成一个输出特征图；mul_qk是加权矩阵相乘层，用来获取输入特征图的自相关性，即自注意力图，具体运算方法是，首先输入特征图矩阵乘以输入特征图矩阵的转置矩阵，然后所得计算矩阵的每个元素再除以输入特征图通道数的平方根；softmax是自注意力图特征值调整层，基于softmax理论归一化自注意力图的特征值，使其范围在0-1之间；mul_v是矩阵相乘层，主要基于自注意力图对输入特征图进行加权，获取具有自我感知时空相关性的输入特征图，具体运算方法是，softmax层的输出特征图矩阵乘以输入特征图矩阵。需要说明的是，为了提高相关性模块的性能，可以采用串联的方式多次使用相关性模块。
[0061]
s13、预测模块predict module，预测模块主要是根据相关性模块输出的具有自我感知时空相关性的输入特征图基础上，预测前后两帧图像之间的目标关联度，进而完成前后两帧图像间的多目标匹配跟踪过程，具体的网络结构如图5所示，包括依次连接的卷积层conv0、卷积层conv1、全局均值池化层avepooling和全连接层fc；卷积层conv0的输入与相关性模块中的矩阵相乘层mul_v的输出连接，全连接层fc输出预测前后两帧待识别图像之间的目标关联度。
[0062]
其中，conv0，conv1均是核尺寸为3x3，跨度为2x2的卷积层；avepooling是全局均值池化层；fc是全连接层，其输出特征图尺寸是个长度为nx(n 1)的特征向量，n表示有n个行人目标，每个行人目标的匹配情况使用n 1维特征向量表示。其中，n表示任意一帧图像中允许出现的行人目标的最大数目，该值需要大于应用场景中任意一帧图像中出现的行人目标数目。
[0063]
s2、训练深度神经网络模型，设计完成深度神经网络模型后，接下来就是收集各种情景下的行人视频图像，送入深度神经网络模型，学习相关的模型参数，具体步骤如下：
[0064]
s21、收集行人视频，主要是收集各种场景，各种光线、各种角度下的行人视频。
[0065]
s22、标注前后帧图像中行人目标关联信息，得到样本图像训练集，主要是标注视频中每一帧图像中的行人位置信息以及不同帧运动图像对之间的行人目标的关联信息，具体步骤如下s221至s225：
[0066]
s221、标注行人目标位置信息，主要方法是使用现有的基于深度学习的行人检测框架获取视频中每一帧图像中的行人位置作为行人目标位置信息。
[0067]
s222、生成id掩码图像，主要根据每一帧图像中的行人目标位置生成相应的目标id掩码图像，以下简称掩码图像，具体的掩码图像生成方法是：首先生成一幅和该帧图像分辨率相同且所有像素值均为0的掩码图像，然后获取该帧图像中的所有行人目标的数目，接着在该数目值范围内，随机的对每个行人目标赋予唯一的id序号，最后在掩码图像中，把该行人目标位置范围内的所有像素赋值为该目标的id序号值。
[0068]
s223、组建运动图像对，主要是把行人视频变成图像序列，任意选择包含行人目标的一帧图像作为前一帧图像，然后在之后的120帧内，任意选择一幅图像作为当前帧图像，然后将当前帧图像、当前帧图像对应的id掩码图像、前一帧图像、前一帧图像对应的id掩码图像一起组成运动图像对。
[0069]
s224、获取行人目标的id关联信息，主要方法是对于每一个运动图像对进行人工审核，判断每一个运动图像对的前后两帧图像中的行人目标是同一个行人目标还是新出现的行人目标，然后进行不同帧图像中行人目标id关联，具体的id关联方法如下：对于前后帧图像中的相同行人目标，则把该行人目标在前一帧id掩码图像中的id序号值作为该目标在当前帧图像中的预测类别序号，对于当前帧新出现的目标，则把该目标的预测类别序号设置为n 1，最后基于每个目标的预测类别序号，生成一个长度为n 1的one-hot类型的关联特征向量，n表示任意一帧图像中允许出现的行人目标的最大数目，该值需要大于应用场景中任意一帧图像中出现的行人目标数目。
[0070]
s225、获取行人目标的关联信息，按照行人目标的id序号值的大小，顺序的串联每一个行人目标的关联特征向量。
[0071]
s24、训练深度神经网络模型，把整理好的运动图像对集合送入定义好的深度神经网络模型，学习相关的模型参数。网络模型训练时的损失函数l如公式(1)所示，l
id
表示每一个行人目标匹配的损失函数，该损失函数采用的是经典的交叉熵损失函数，n
valid
表示当前帧图像中出现的行人目标数目，*表示乘积，α表示损失函数计算开关，对于当前帧图像中出现的行人目标，α的取值为1，对于当前帧图像中未出现的行人目标，α的取值为0。
[0072][0073]
s3、使用深度神经网络模型，训练完深度神经网络模型后，接下来就是在实际环境中进行模型使用进行行人匹配跟踪，对于任意给出的一帧行人图像，根据现有的行人检测模型获取行人目标的位置，接着生成相应的行人目标的id掩码图像，然后送入匹配模型直接输出行人目标在前后帧图像中的关联匹配关系，具体步骤如下：
[0074]
s31、获取前一帧图像的特征图，主要方法是对于首个前一帧图像的特征图，本发明采用特征提取模块进行运算获取，对于非首个前一帧图像的特征图，本发明直接使用缓存的当前帧图像的特征图作为接下来的前一帧图像的特征图，这样可以有效的提升运算速度。
[0075]
s32、获取当前帧图像的特征图，主要方法是基于特征提取模块运算获取。
[0076]
s33、预测前后帧图像间的行人目标的匹配关系，主要方法是把获取的前后帧图像特征图，一起送入相关性模块和预测模块，直接预测出前后两帧图像中行人目标的匹配关系。
[0077]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种图像处理方法、装置、终端设备和存储介质与流程

一种基于深度学习的多目标匹配方法与流程

相关文献

最热文献