一种基于深度神经网络的多目标跟踪方法与流程

2021-12-03 23:56:00 来源：中国专利 TAG：

1.本发明涉及机器视觉技术领域，特别是涉及一种基于深度神经网络的多目标跟踪方法。

背景技术：

2.早期对于图像的识别和检测主要依赖于手工设计的视觉特征描述符(例如颜色、形状、边缘)的提取，然而这种传统的人工设计方法是基于现有数据集的先验知识，局限性较大，对于真实世界物体的覆盖面和包容度较小，不足以发现复杂场景的显著物体或精确描绘出物体边界，难以取得令人满意的性能和效果。
3.多目标跟踪问题最早出现在雷达信号检测中，随着计算机视觉领域的深入研究和目标检测算法精度的不断提升，基于检测的多目标跟踪算法也得到了长足发展。另外，随着对深度学习的深入研究及其蓬勃发展，使用大量数据训练得到的深度神经网络被应用到物体的识别和检测当中。与传统方法相比，利用深度神经网络替代手工设计的方法显著提高了图像处理过程中对各类干扰因素的鲁棒性，使物体识别和检测任务得到快速发展。尽管深度神经网络的应用实现了目标检测与识别任务的性能提升，但是，其存在自身参数规模较大、计算复杂等问题，对计算资源、存储资源等有着较高的要求，因此，难以在智能手机、车载设备这一类资源有限、局限性较大的移动设备中得到有效、广泛的使用。另外，在进行多目标识别跟踪时，不能将待跟踪目标物的外观信息融入关联与匹配环节，待跟踪目标物被遮挡时容易造成误检和频繁的id跳变，无法真正实现对待跟踪目标物进行连续跟踪。
4.未来，基于检测的多目标跟踪算法依旧会以准确高效为研究重点，实现在保证运算速度的同时显著提升运算精度。

技术实现要素：

5.本发明的目的是提供一种基于深度神经网络的多目标跟踪方法，以解决上述现有技术存在的问题，在使用目标运动状态信息的同时，增加了对目标表观信息的考量，将运动特征和外观特征融合到损失矩阵的计算过程当中，提高了下一帧目标预测的准确性，使得程序能够更好地应对目标遮挡问题带来的干扰，降低id switch指标，从而真正地实现目标的连续跟踪。
6.为实现上述目的，本发明提供了如下方案：本发明提供一种基于深度神经网络的多目标跟踪方法，包括以下步骤：
7.采集待测试视频，对所述待测试视频进行预处理，提取所述待测试视频的原始图像帧；
8.对每一所述原始图像帧进行目标检测，识别待跟踪目标，获取每一所述原始图像帧的目标检测框；
9.匹配时间轴上连续两帧图像中所述目标检测框，计算所述目标检测框中待跟踪目标相似度，比较时间轴上连续两帧图像中所述待跟踪目标相似度，判断是否为同一所述待
跟踪目标，是，则分配id并输出跟踪结果；否，则重新进行匹配及判断；
10.基于所述id和所述跟踪结果，实现对视频中多目标的连续跟踪。
11.优选地，对所述待测试视频进行预处理，提取所述待测试视频的原始图像帧包括：
12.采用opencv库读取所述待测试视频；通过get方法获取所述待测试视频的帧率和总帧数；基于所述帧率和所述总帧数结合图像帧获取需求，逐帧或者跳帧地提取所述待测试视频的原始图像帧。
13.优选地，获取目标检测框采用目标检测器，其中，所述目标检测器采用yolo网络搭建。
14.优选地，在匹配时间轴上连续两帧图像中所述目标检测框之前还包括对所述目标检测框进行卡尔曼滤波。
15.优选地，所述卡尔曼滤波的过程包括：
16.在所述待跟踪目标移动过程中，基于上一帧所述原始图像帧中的所述目标检测框，计算当前所述原始图像帧中的所述目标检测框的初始预测值，其中，所述初始预测值为向量；获取当前所述原始图像帧中的所述目标检测框的真实值，计算所述初始预测值和所述真实值的线性加权值，获取当前所述原始图像帧中的所述目标检测框的位置预测值。
17.优选地，对匹配时间轴上连续两帧图像中所述目标检测框包括：
18.基于所述预测值和所述真实值，计算所述所述预测值和所述真实值之间的几何距离d
(1)
(i，j)：
[0019][0020]
式中，y
i
为预测值，d
i
为真实值；
[0021]
采用cnn网络提取所述目标检测框的表观信息，存储为表观信息矩阵，计算所述表观信息矩阵的最小余弦距离，获取表观距离d
(2)
(i，j)：
[0022][0023]
式中，r
j
表示经cnn网络提取到第j个外观向量，表示在第i个目标跟踪器中的第k个表观向量；
[0024]
基于连续两帧图像的所述几何距离和所述表观距离，计算所述几何距离和所述表观距离的线性加权值，获得损失矩阵c
i，j
，
[0025]
c
i，j
＝λd
(1)
(i，j) (1
‑
λ)d
(2)
(i，j)；
[0026]
式中，i为第i个跟踪结果，j为第j个检测结果，λ为人工设定的权重值；
[0027]
当c
i，j
同时落入几何距离和表观距离这两项约束设定的阈值内，则，时间轴上连续两帧图像中所述目标检测框相关联。
[0028]
优选地，采用卷积神经网络对所述原始图像帧的目标检测框进行多层处理。
[0029]
优选地，所述跟踪结果包括所述待跟踪目标的物品种类、出现至消失的时间段。
[0030]
本发明公开了以下技术效果：
[0031]
本发明提供的一种基于深度神经网络的多目标跟踪方法，在使用目标运动状态信息的同时，增加了对其表观信息的考量，将运动特征和外观特征融合到损失矩阵的计算过程当中，提高了下一帧目标预测的准确性，使得程序能够更好地应对目标遮挡问题带来的
干扰，降低id switch指标，从而真正地实现目标的连续跟踪，支持混合类别跟踪的多目标跟踪软件程序，能够在同一段视频中互不干扰地检测并跟踪到不同种类的运动物体，同时输出他们各自的运动状态信息，为下一步的机器视觉任务提供了前期的数据支持与基础。
附图说明
[0032]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0033]
图1为本发明实施例的多目标跟踪方法流程图；
[0034]
图2为本发明实施例中截取输入视频的每帧图像示意图；
[0035]
图3为本发明实施例中在所有帧图像上检测出目标示意图；
[0036]
图4为本发明实施例中在帧图像上标出目标检测框示意图；
[0037]
图5为本发明实施例中输出检测结果视频的图像示意图。
具体实施方式
[0038]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0039]
为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0040]
本发明提供一种基于深度神经网络的多目标跟踪方法，参照图1，包括以下步骤：
[0041]
s101、采集待测试视频，对待测试视频进行预处理，提取待测试视频的原始图像帧。
[0042]
本实施例中的测试视频场景选用车流量较大的十字路口，待测试视频的视频时长11.205秒，大小为2.91mb，总帧数336帧，待跟踪目标设置为“car”和“truck”两类，即跟踪道路中行驶的不同类型车辆。对待测试视频进行预处理，调用python中现有的opencv库读取完整的视频数据，通过get方法获取原视频的帧率和总帧数，由于当视频的帧数较大时需要花费大量时间进行逐帧的图像获取，此时可以根据不同任务的自身需求确定是否需要跳帧获取视频图像，获得提取待测试视频的原始图像帧，如图2所示。
[0043]
本步骤从视频中拆解出原始图片帧，使得之后的目标检测可以依据图片的处理方法来实现，最后再将处理完成的每帧图像写入结果视频。将视频的多目标跟踪识别转化为对图片的处理，是将视频问题进行分解转化为图片问题的重要环节。
[0044]
s102、对每一帧原始图像进行目标检测，识别待跟踪目标，获取每一帧原始图像的目标检测框。
[0045]
构建以yolov5m模型为基础的目标检测器，使用ms coco(microsoft common objects in context)数据集采用yolov5m网络构建并训练目标检测器，获得目标检测器。
[0046]
利用目标检测器对每一帧原始图像进行目标“car”和“truck”的识别和检测，对识
别到的目标物利用矩形框进行标注，获得目标检测框，用于表示目标物在不同图像帧中的位置信息如图3
‑
4所示。通过本步骤构建目标检测器，完成对图像中目标检测框的添加。
[0047]
s103、匹配时间轴上连续两帧图像中的目标检测框，根据目标检测框计算待跟踪目标相似度，比较时间轴上连续两帧图像中待跟踪目标相似度，判断是否为同一待跟踪目标，是，则分配id并输出跟踪结果；否，则重新进行匹配及判断。
[0048]
尽管经过目标检测器获得的目标检测框能够相对准确地给出物体的位置信息，但在提取的过程中难免会引入或多或少的干扰项，导致目标框的位置坐标尚且达不到实际应用时所需的精准程度，故还需进行“去噪”处理。
[0049]
本实施例中，为方便后期对物体信息的存储和使用，此处将目标的运动状态定义为一个包含8项正态分布参数的向量：
[0050]
其中(u，v，γ)是候选框的中心坐标和长宽比，h是候选框高度，余下四个参数表示它们的变化程度，初始均为0。对下一帧图像的预测也就是对(u，v，γ，h)这四个变量的预测。
[0051]
在设计滤波器时参照了匀速运动模型(constant velocity motion model)与线性观测模型(linear observation model)两个模型，算法具体实现时包含两个步骤：匀速假设和线性更新。在目标的移动过程中，基于以往的已知信息和既有经验，充分利用第t
n
‑1帧图像中的矩形框位置坐标和速度等参数值，来获取第t
n
帧图像中的假设结果。在得到假设值和真实值后，再取这两个向量的线性加权值，作为对当前目标的最终假设结果。
[0052]
本实施例中，采用匈牙利算法，把第t
n
帧的目标框与第t
n
‑1)帧的目标框进行两两匹配。
[0053]
实现目标的匹配过程往往需要遵循一定的规律和习惯约束，确保做出的假设具有足够的合理性和高效性。定义一个损失矩阵来描述匹配两个集合中某两个元素所需的开销。定义损失矩阵需要计算第t
n
帧的目标框与第t
n
‑1帧的目标框的几何距离和表观距离。
[0054]
1、计算几何距离
[0055]
用卡尔曼滤波中预测得到的向量参数y
i
和直接检测得到的向量参数d
i
之间的马氏距离(mahalanobis distance)，即检测位置和平均跟踪位置间的标准差来定义几何距离，如式(1)所示：
[0056][0057]
其中，∑
‑1为多维向量的协方差矩阵，t表示矩阵转置的记号。
[0058]
2、计算表观距离
[0059]
当物体运动的可靠性和可预测性相对较高时，在某些干扰较强，噪声较多的图像或视频场景中(例如原数据失真、相机高速移动或剧烈抖动)，利用马氏距离实现关联的效果会大打折扣，造成较为频繁的id跳变。
[0060]
为解决上述问题，在本实施例中，采用一个cnn网络用来提取每个目标框中物体，呈现在图像中的每个像素点，即使用一个卷积神经网络，利用卷积核在每帧中的目标框上进行局部卷积计算以及池化操作等多层处理，将低级的特征组合形成一个更为高级的特征图。在本实施例中，该高级的特征图存储为一个128维的表观信息矩阵，将该矩阵进行归一化处理后计算其最小余弦距离(cosine distance)，即表观距离。表观距离的计算如式(2)
所示：
[0061][0062]
其中，r
j
表示经cnn网络提取到第j个外观向量，表示在第i个目标跟踪器中的第k个表观向量，r
i
表示目标在不同帧中的外观特征。
[0063]
3、构建损失矩阵
[0064]
经公式(1)
‑
(2)可以得到前后两帧中目标的几何距离和表观距离，使用这两种度量的线性加权值作为定义损失的最终度量，损失矩阵构建方法如式(3)所示：
[0065]
c
i，j
＝λd
(1
)(i，j) (1
‑
λ)d
(2)
(i，j)
ꢀꢀꢀ
(3)
[0066]
其中，i为第i个跟踪结果，j为第j个检测结果，λ为人工设定的权重值。
[0067]
由式(3)可知，只有当c
i,j
同时落入几何距离和表观距离这两项约束设定的阈值内时才能认作是一次成功的前后两帧目标的数据关联。
[0068]
需要将d
(1)
(i,j)和d
(2)
(i,j)两项距离值进行归一化处理，当其值远大于1时，可认为该值错误，应被舍弃。
[0069]
另外，在本实施例中，通过损失矩阵的计算能够间接得到相似度，损失大则相似度小，损失小则相似度大，通过相似度来比较两帧图像之间的相似性。
[0070]
在本实施例中，在计算损失矩阵之前，利用置信矩阵对检测框进行过滤，对置信度不够高的检测框及特征予以删除。置信矩阵用以表述观测值的可信度，同样包括几何与表观两部分。
[0071]
1、几何置信度
[0072]
几何置信度如式(4)所示：
[0073][0074]
其中，t
(1)
是一个常数，由概率统计中的集合检验方法得到。上式表示为，若d
(1)
(i,j)≤t
(1)
，则否则
[0075]
2、表观置信度
[0076]
表观置信度定义与几何置信度定义相同，表观置信度如式(5)所示：
[0077][0078]
3、最终置信度
[0079]
将几何置信度和表观置信度，综合得到置信矩阵，也就是目标的最终置信度，最终置信度如式(6)所示：
[0080][0081]
式中，和的取值都同等重要地限制了的取值。显然，只有当检测值的几何方面度量与表观方面度量都具有合理性的时候，才能认为该检测结果也是合理的。
[0082]
如果检测结果合理时，表明前后目标框中的目标物是同一个待跟踪目标，分配id并输出跟踪结果；如果检测结果不合理时，表明前后目标框中的目标物不是同一个待跟踪目标，则重新进行匹配及判断。
[0083]
在本实施例中，首先用置信矩阵对检测框进行过滤，对置信度不够高的检测框及特征予以删除，能够提前过滤掉偏差大的检测框，避免对后面的相似度计算的结果产生影响。之后计算损失矩阵，将损失矩阵的结果作为匈牙利算法的输入。最后再利用置信矩阵对相似度的结果进行过滤，对相似度相似的结果进行进一步过滤。对于相似度相近的结果，保留置信度更高的结果，能够进一步提高准确度。
[0084]
s104、输出并存储多目标跟踪结果，整合输出的物体状态信息，实现结果的可视化。
[0085]
完成对视频内容的多目标跟踪的基本任务后，输出带有连续跟踪目标框和相应id的结果视频，如图5所示。同时输出这些目标的文本信息，包括目标种类、id、出现的时刻、目标框位置坐标等，如表1所示。通过读取该文本的内容获得每个目标出现至消失的时间段保存为清晰的文本格式。
[0086]
表1
[0087][0088]
对本实施例中的多目标跟踪方法结果进行测试，测试结果如表2所示，该结果表明，对单个目标的跟踪过程可能很难保持长时间的连续(frag指标较高)，但这并不会对同一目标的整体跟踪效果造成严重影响(id
‑
sw维持在较低水平)。此外，在图像质量良好的情况下，程序的误检率也保持在较低水平，能够正确识别检测出绝大多数目标种类(fn和fp指标较低)，mota结果显示，程序在物体的识别检测和跟踪轨迹的连续性上都表现出了良好的处理性能。本步骤实现了处理输出的信息并将信息可视化，使信息更加直观展示，更有利于实际应用。
[0089]
表2
[0090]
measuregtid_swfnfpfragmotaresult71011171.429％
[0091]
以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度神经网络的多目标跟踪方法与流程

相关文献

最热文献