一种目标跟踪方法、装置、设备及存储介质与流程

2022-06-29 15:56:43 来源：中国专利 TAG：

1.本公开涉及计算机视觉领域，尤其涉及一种目标跟踪方法、装置、设备及存储介质。

背景技术：

2.行人跟踪指获得路过某个区域内的特定行人的特征和坐标等信息，可广泛应用于失踪人口找寻或要犯缉拿等方面，为维持社会稳定，维护国家长治久安具有重要意义。
3.但目前的行人跟踪模型需要多个模型分别进行目标检测和特征提取，计算复杂度高且计算效率低。

技术实现要素：

4.本公开提供了一种目标跟踪方法、装置、设备及存储介质，用以解决当前目标跟踪过程计算复杂度高，计算效率低的问题。
5.第一方面，本公开实施例提供了一种目标跟踪方法，包括：
6.获取视频帧图像；
7.将所述视频帧图像输入至目标检测跟踪模型中；
8.通过所述目标检测跟踪模型提取所述视频帧图像的特征信息，并根据所述视频帧图像的特征信息识别目标以及所述目标的特征信息；
9.根据所述目标的特征信息，对所述目标进行跟踪。
10.可选地，所述目标检测跟踪模型包括：特征金字塔网络模型和至少一个预测头；
11.通过所述目标检测跟踪模型提取所述视频帧图像的特征信息，并根据所述视频帧图像的特征信息识别所述目标以及所述目标的特征信息，包括：
12.通过所述特征金字塔网络模型对输入的视频帧图像进行特征提取和特征融合，获得特征融合结果，并将所述特征融合结果输入至所述预测头内，通过所述预测头输出所述目标的特征信息。
13.可选地，所述特征金字塔网络模型包括n层特征提取网络和n层特征融合网络；
14.通过所述特征金字塔网络模型对输入的视频帧图像进行特征提取和特征融合，获得特征融合结果，包括：
15.通过所述特征金字塔网络模型的第一层特征提取网络，对所述视频帧图像进行下采样，获得所述视频帧图像的第一级特征；
16.通过所述特征金字塔网络模型的第j层特征提取网络，对所述视频帧图像的第j-1级特征进行下采样，获得所述视频帧图像的第j级特征，其中，j为大于1、且小于或等于所述n的整数；
17.通过所述特征金字塔网络模型的第n级特征融合网络，将获得的所述视频帧图像第n级特征作为所述视频帧图像的第n级特征融合图；
18.通过所述特征金字塔网络模型的第k层特征融合网络，将所述视频帧图像的第k 1
级特征融合图与第k级特征融合，获得所述视频帧图像的第k级特征融合图，其中，k为大于或等于1、且小于所述n的整数；
19.将第1至第n级特征融合图，作为所述特征融合结果。
20.可选地，所述通过所述预测头输出所述目标的特征信息，包括：
21.通过所述预测头判断所述特征融合结果内是否存在目标，若存在目标，则对所述特征融合结果进行目标特征检测；
22.通过所述预测头对所述特征融合结果按照预设的阈值划分前景特征和背景特征，识别所述前景特征中的目标，获得识别到的目标的位置以及身份特征信息，输出识别到的所述目标的位置以及身份特征信息，其中，所述目标的位置以及所述身份特征信息为所述目标的特征信息。
23.可选地，所述根据所述目标的特征信息，对所述目标进行跟踪，包括：
24.判断轨迹池内已有目标的身份特征信息与所述目标检测跟踪模型输出的所述目标的所述身份特征信息是否一致；
25.若一致，则根据所述目标的位置以及所述已有目标的已有位置，获得所述目标的轨迹；
26.若不一致，根据将所述目标检测跟踪模型输出的所述目标的特征信息，对所述轨迹池进行更新。
27.可选地，根据所述目标的位置以及所述已有目标的已有位置，获得所述目标的轨迹之前，所述方法还包括：
28.获取所述已有目标的已有位置与所述目标的位置在空间上的距离值；
29.判断所述距离值是否超过预设的距离值，获得判断结果，并确定所述判断结果为否。
30.可选地，根据将所述目标检测跟踪模型输出的所述目标的特征信息，对所述轨迹池进行更新，包括：
31.若所述轨迹池中不存在所述目标，则将所述目标以及所述目标的特征信息加入到所述轨迹池中；
32.若所述轨迹池中已有目标未包含在所述目标检测跟踪模型输出的所述目标中，且确定所述已有目标连续未更新时长超过设定时长，则将所述已有目标以及所述已有目标的特征信息从所述轨迹池中删除。
33.第二方面，本公开实施例提供了一种目标跟踪装置，包括：
34.获取模块，用于获取视频帧图像；
35.输入模块，用于将所述视频帧图像输入至目标检测跟踪模型中；
36.目标特征提取与识别模块，用于通过所述目标检测跟踪模型提取所述视频帧图像的特征信息，并根据所述视频帧图像的特征信息识别所述目标以及所述目标的特征信息；
37.跟踪模块，用于根据所述目标以及所述目标的特征信息，对所述目标进行跟踪。
38.第三方面，本公开实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；
39.所述存储器，用于存储计算机程序；
40.所述处理器，用于执行所述存储器中所存储的程序，实现第一方面所述的目标跟
踪方法。
41.第四方面，本公开实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的目标跟踪方法。
42.本公开实施例提供的上述技术方案与现有技术相比具有如下优点：本公开实施例提供的该方法，通过所述目标检测跟踪模型提取所述视频帧图像的特征信息，并根据所述视频帧图像的特征信息识别目标以及所述目标的特征信息，先对视频帧图像进行特征提取，在特征提取获取的特征信息的基础上再进行目标的识别以及目标特征信息的检测，使目标识别和目标特征信息的检测这两个环节共用同一组特征，相对于单独进行目标识别以及单独进行目标特征信息提取的方式，节约了一次特征提取的过程，从而提升了目标跟踪过程的计算效率、降低了计算复杂度。
附图说明
43.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
44.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1为本公开实施例中目标跟踪的方法流程示意图；
46.图2为本公开实施例中目标检测跟踪模型的网络结构示意图；
47.图3为本公开实施例中目标检测跟踪模型中特征提取与特征融合的方法流程示意图；
48.图4为本公开实施例中预测头的网络结构示意图；
49.图5为本公开实施例中目标跟踪的装置结构示意图；
50.图6为本公开实施例中电子设备的结构示意图。
具体实施方式
51.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。
52.本公开实施例中提供了一种目标跟踪方法，目标可以为行人、宠物等，此处并不限定目标的具体类别，可以根据实际情况确定要跟踪的目标的类别。下述实施例以目标为行人为例，对本公开技术方案进行解释说明。
53.该目标跟踪方法可以应用于任意一个电子设备中，该电子设备可以是任意一种形式的终端或服务器。
54.如图1所示，本公开实施例中目标跟踪的详细方法流程如下：
55.步骤101，获取视频帧图像。
56.获取预设区域的视频帧图像信息，该预设区域可以为某条街道，也可以为某大型商城内的区域，此处，不对此预设区域做具体限定，可以根据实际情况，获取某区域的视频
帧图像。
57.步骤102，将获得的视频帧图像输入至目标检测跟踪模型中。
58.一个具体实施例中，目标检测跟踪模型内包括特征提取网络结构和目标检测网络结构。
59.其中，特征提取网络结构可以通过hog特征描述子提取视频帧图像中的特征信息，也可以通过特征金字塔网络模型获取视频帧图像中的特征信息，此处不对目标检测跟踪模型中的特征提取网络结构做具体限定，可以选取针对不同的视频帧图像特征提取的需求选择合适的特征提取网络结构。
60.目标检测网络结构可以选用r-cnn、spp-net、fast r-cnn、faster r-cnn、ssd或r-fcn中的一种或几种模型来对目标进行检测，此处不对目标检测跟踪模型中的目标检测网络结构做具体限定，可以根据目标检测的需求选择合适的目标检测网络结构。
61.步骤103，通过目标检测跟踪模型提取视频帧图像的特征信息，并根据获得的视频帧图像的特征信息识别待检测的目标以及该目标的特征信息。
62.一个具体实施例中，如图2所示，目标检测跟踪模型包括：特征金字塔网络模型和至少一个预测头。
63.通过目标检测跟踪模型提取视频帧图像的特征信息，并根据视频帧图像的特征信息识别目标以及目标的特征信息，包括：
64.通过特征金字塔网络模型对输入的视频帧图像进行特征提取和特征融合，获得特征融合结果，并将特征融合结果输入至预测头内，通过预测头输出目标的特征信息。
65.特征图金字塔网络(feature pyramid networks)是2017年提出的一种网络，特征图金字塔网络主要解决的是目标检测中的多尺度问题，通过简单的网络连接结构，在基本不增加原有模型计算量的情况下，大幅度提升目标检测的性能。
66.预测头由若干堆叠的卷积层组成，用于对特征融合结果进行处理输出目标的特征信息；此处，本公开不对预测头的数量做具体限定，可以根据特征金字塔网络模型的网络结构搭配合适数量的预测头。
67.一个具体实施例中，特征金字塔网络模型包括n层特征提取网络和n层特征融合网络。
68.如图3所示，通过特征金字塔网络模型对输入的视频帧图像进行特征提取和特征融合，获得特征融合结果，包括：
69.步骤301，通过特征金字塔网络模型的第一层特征提取网络，对视频帧图像进行下采样，获得视频帧图像的第一级特征；
70.步骤302，通过特征金字塔网络模型的第j层特征提取网络，对视频帧图像的第j-1级特征进行下采样，获得视频帧图像的第j级特征，其中，j为大于1、且小于或等于n的整数，第n级特征的尺度小于第n-1级特征的尺度；
71.步骤303，通过特征金字塔网络模型的第n级特征融合网络，将获得的视频帧图像第n级特征作为视频帧图像的第n级特征融合图；
72.步骤304，通过特征金字塔网络模型的第k层特征融合网络，将视频帧图像的第k 1级特征融合图与第k级特征融合，获得视频帧图像的第k级特征融合图，其中，k为大于或等于1、且小于n的整数，第k级特征融合图的尺度小于第k-1级特征融合图的尺度；
73.步骤305，将第1至第n级特征融合图，作为特征融合结果。
74.特征金字塔网络模型的特征提取网络可以设置不同的下采样率来实现，比如第一层特征提取网络的下采样率为1/8，第二层特征提取网络的下采样率为1/16，第三层特征提取网络的下采样率为1/32，在此本公开不限制特征提取网络的下采样率，可以根据对视频帧图像的采样需求来设定下采样率。
75.特征及特征融合结果共用同一组视频帧图像的第一级特征，避免对视频帧图像进行特征提取时的多次计算，并且，提升特征提取的速率。
76.高层级的特征融合图中包含的目标的特征信息多，但包含的目标的位置信息较少，而低层级的特征中包含的目标位置信息较多，因此通过将第k 1级特征融合图与第k级特征相结合，提升第k级特征融合图的准确性，此处特征融合图和特征之间的层级差距不易过大，相差过大可能会因目标的特征信息与位置信息错误对接，输出错误的特征融合图，影响目标检测跟踪模型的跟踪结果。
77.例如，如图2所示，当特征金字塔网络模型包括3层特征提取网络和3层特征融合网络时，图2中最左侧的部分的三个箭头是金字塔网络模型的特征提取网络，图2的中间部分的三个箭头为金字塔网络模型的特征融合网络。
78.在图2所展示的实施例中，通过特征金字塔网络模型的第一层特征提取网络，对视频帧图像进行下采样，获得视频帧图像的第一级特征；通过特征金字塔网络模型的第二层特征提取网络，对视频帧图像的第一级特征进行下采样，获得视频帧图像的第二级特征；通过特征金字塔网络模型的第三层特征提取网络，对视频帧图像的第二级特征进行下采样，获得视频帧图像的第三级特征；通过特征金字塔网络模型的第三级特征融合网络，将获得的视频帧图像第三级特征作为视频帧图像的第三级特征融合图；通过特征金字塔网络模型的第二层特征融合网络，将视频帧图像的第三级特征融合图与第二级特征融合，获得视频帧图像的第二级特征融合图；通过特征金字塔网络模型的第一层特征融合网络，将视频帧图像的第二级特征融合图与第一级特征融合，获得视频帧图像的第一级特征融合图；将第1至第3级特征融合图，作为特征融合结果。
79.在此，本公开不对特征金字塔网络模型的特征提取网络层数和特征融合网络层数做具体限定，可以根据对视频帧图像采样的需求来设置特征提取网络和特征融合网络的层数。
80.在一个实施例中，通过预测头输出目标的特征信息，包括：
81.通过预测头判断特征融合结果内是否存在目标，若存在目标，则对特征融合结果进行目标特征检测；通过预测头对特征融合结果按照预设的阈值划分前景特征和背景特征，识别前景特征中的目标，获得识别到的目标的位置以及身份特征信息，输出识别到的目标的位置以及身份特征信息，其中，目标的位置以及身份特征信息为目标的特征信息。
82.前景特征是特征融合结果内特征可见性和显著性较强的图像部分，或是说机器视觉中识别感兴趣区域的图像部分，也可以说是包含待识别的目标的部分；而背景特征则为特征融合结果中除去前景特征的图像部分。比如，一幅图像中，行人走在街道上，其中，若行人为待识别的目标，那么行人图像部分则为前景特征，街道图像部分则为背景特征。
83.前景特征与背景特征划分是在相对静态的背景特征之下检测出相对动态的前景特征。考虑到被检测的区域中光线强度的变化会使得其中的图像也发生变化，可能将背景
特征错误的划分为前景特征，其中，被检测区域为获取视频帧图像所对应的区域，比如，某条街道或大型商场内等；前景特征和背景特征的划分根据光线强度的变化、背景特征中物体的变化和背景特征中的阴影遮盖面积等参数进行适应性调整，以获取更为精确的前景特征。
84.目标的身份特征信息可以为目标的外观特征信息，此处不对目标的身份特征信息做具体限定，凡是可以用于体现目标身份的信息均可作为目标的身份特征信息。
85.通过预设的阈值划分特征融合结果的前景和背景，可有效抑制当特征融合结果中发生重度遮挡时，前景特征和背景特征的错误输出，从而导致输出错误的目标特征信息，影响目标的跟踪结果。
86.例如，可以通过iou(intersection over union，交并比)来划分前景特征和背景特征，iou可以通过前景与背景的交集除以前景与背景的并集得到。
87.具体地，设置当iou》0.5时，则将该特征融合结果划分为前景特征，并框出目标；当iou《0.4时，则该特征融合结果划分为背景特征，背景特征中没有可以用以识别的目标，其中，忽略iou处于0.4～0.5之间的特征融合结果。
88.如图4所示，预测头的结构包括三个部分，目标分类、目标检测框回归和目标特征提取。
89.在一个具体实施例中，预测头所输出的目标的特征信息用以预测目标的轨迹，以图像信息呈现，可以称为密集预测图，密集预测图尺度大小为(6a d)
×h×
w，其中，a是锚模板的数量，d是行人特征向量的维度，h是该密集预测图的高，w是该密集预测图的宽。
90.密集预测图包括三个部分：
91.1.目标的分类结果部分的尺度大小为：2a
×h×
w；
92.2.目标检测框的回归部分的尺度大小为：4a
×h×
w；
93.3.目标特征图部分的尺度大小为：d
×h×
w。
94.其中，a是该密集预测图与输入的某一级特征融合图尺度下的锚模板的数量，d是行人特征向量的维度，h是该密集预测图的高，w是该密集预测图的宽。
95.在一个具体实施例中，可以通过设置锚模板(边界框)的大小，来适应于不同的目标，比如行人或宠物等。
96.在一个具体实施例中，根据加权线性损失总和，来判断预测头是否训练完成，当加权线性损失总和小于某预设值时，预测头训练完成，加权线性损失总和的计算公式如下：
[0097][0098]
其中，m为视频帧中目标的数量，输入特征融合结果获得其中，m为视频帧中目标的数量，输入特征融合结果获得为目标i的前景/背景分类损失，输入前景/背景分类后的结果获取景分类损失，输入前景/背景分类后的结果获取为边界框回归损失，输入边界框回归后的结果，获得后的结果，获得为特征损失，为目标i的前景/背景分类任务下的损失的不确定性度量，边界框回归任务下的损失的不确定性度量，特征提取任务下的损失的不确定性度量。
[0099]
步骤104，根据该目标的特征信息，对该目标进行跟踪。
[0100]
一个具体实施例中，根据目标的特征信息，对目标进行跟踪，包括：判断轨迹池内已有目标的身份特征信息与目标检测跟踪模型输出的目标的身份特征信息是否一致；若一致，则根据目标的位置以及已有目标的已有位置，获得目标的轨迹；若不一致，根据将目标检测跟踪模型输出的目标的特征信息，对轨迹池进行更新。
[0101]
当轨迹池内已有目标的身份特征信息与目标检测跟踪模型输出的目标的身份特征信息一致时，可以使用匈牙利算法计算目标的轨迹，使用卡尔曼滤波器平滑轨迹，此处不对目标的轨迹处理方法做具体限定，可以根据实际情况选择合适的处理方法。
[0102]
一个具体实施例中，获取已有目标的已有位置与所述目标的位置在空间上的距离值；判断该距离值是否超过了预设的距离值，获得判断结果，若获得的判断结果为是，则认为目标检测跟踪模型所输出的目标的位置为无效输出，目标跟踪失败；
[0103]
若判断结果为否，则根据轨迹池中目标的已有位置和目标检测模型输出的目标的位置，获得该目标的轨迹。
[0104]
具体地，此处不对预设的距离值做具体限定，可以根据实际情况中目标移动的速率来选择合适的预设的距离值。
[0105]
一个具体实施例中，根据将目标检测跟踪模型输出的目标的特征信息，对轨迹池进行更新，包括：
[0106]
若轨迹池中不存在目标，则将目标以及目标的特征信息加入到轨迹池中；若轨迹池中已有目标未包含在目标检测跟踪模型输出的目标中，且确定已有目标连续未更新时长超过设定时长，则将已有目标以及已有目标的特征信息从轨迹池中删除。
[0107]
当轨迹池内某一目标在长时间没有目标检测跟踪模型所输出的目标相对应，便删除轨迹池内的该目标。此处不对设定时长做具体限定，可以根据检测区域内的实际情况适当的延长或缩短设定时长。
[0108]
基于同一构思，本公开实施例中提供了一种目标跟踪装置，该装置的具体实施可参见方法实施例部分的描述，重复之处不再赘述，如图5所示，该装置主要包括：
[0109]
获取模块501，用于获取视频帧图像；
[0110]
输入模块502，用于将视频帧图像输入至目标检测跟踪模型中；
[0111]
目标特征提取与识别模块503，用于通过目标检测跟踪模型提取视频帧图像的特征信息，并根据视频帧图像的特征信息识别目标以及目标的特征信息；
[0112]
跟踪模块504，用于根据目标以及目标的特征信息，对目标进行跟踪。
[0113]
基于同一构思，本公开实施例中还提供了一种电子设备，如图6所示，该电子设备主要包括：处理器601、通信接口602、存储器603和通信总线604，其中，处理器601、通信接口602和存储器603通过通信总线604完成相互间的通信。其中，存储器603中存储有可被至处理器601执行的程序，处理器601执行存储器603中存储的程序，实现如下步骤：获取视频帧图像；将视频帧图像输入至目标检测跟踪模型中；通过目标检测跟踪模型提取视频帧图像的特征信息，并根据视频帧图像的特征信息识别目标以及目标的特征信息；根据目标的特征信息，对目标进行跟踪。
[0114]
上述电子设备中提到的通信总线604可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线604可以分为地址总线、数据总线、
控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0115]
通信接口602用于上述电子设备与其他设备之间的通信。
[0116]
存储器603可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器601的存储装置。
[0117]
上述的处理器601可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等，还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0118]
在本公开的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述目标跟踪方法。
[0119]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本公开实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如dvd)或者半导体介质(例如固态硬盘)等。
[0120]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0121]
以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型训练和道路检测方法及装置与流程

一种目标跟踪方法、装置、设备及存储介质与流程

相关文献

最热文献