一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标跟踪方法、装置、设备及存储介质与流程

2022-10-22 09:01:49 来源:中国专利 TAG:


1.本公开涉及人工智能技术领域,尤其涉及一种目标跟踪方法、装置、设备及存储介质。


背景技术:

2.目标跟踪在安防监控、自动驾驶等诸多领域都存在广泛的应用。在对目标对象进行跟踪时,通常可以基于目标对象在相邻两帧视频帧中的前一帧的位置确定目标对象在后一帧的位置,即在前一帧中确定的目标对象所在位置的准确性往往会影响后一帧中目标对象的跟踪结果的准确性。所以,如果在前一帧中确定的目标对象的位置不准确,则会导致在后续的多帧视频帧中确定的跟踪结果均不准确。因此,有必要提供一种提高跟踪结果的精度的方案。


技术实现要素:

3.本公开提供一种目标跟踪方法、装置、设备及存储介质。
4.根据本公开实施例的第一方面,提供一种目标跟踪方法,所述方法包括:
5.获取当前视频帧;
6.确定待跟踪的目标对象在所述当前视频帧的初始位置信息,基于确定的初始位置信息从所述当前视频帧中截取出包括所述目标对象的局部图像;
7.根据截取的局部图像和预先训练的优化模型确定所述目标对象在所述当前视频帧的第一优化位置信息,以及所述第一优化位置信息对应的评分,其中,所述评分用于评价利用所述优化模型确定的优化位置信息的准确度;
8.在所述第一优化位置信息对应的评分符合预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪。
9.在一些实施例中,所述优化模型基于携带标签的样本图像训练得到,所述样本图像中包括所述目标对象且所述目标对象在所述样本图像的占比大于预设占比,所述标签用于指示所述目标对象在所述样本图像中的位置。
10.在一些实施例中,所述方法还包括:
11.在确定所述当前视频帧与指定视频帧之间间隔的帧数达到预设帧数的情况下,对所述当前视频帧进行目标检测,并对从所述当前视频帧检测到的目标对象与所述当前视频帧中已有的跟踪目标进行匹配,基于匹配结果更新跟踪目标,其中,所述指定视频帧为经过目标检测的视频帧。
12.在一些实施例中,所述目标对象的位置信息通过所述目标对象对应的目标框的位置信息表示,所述对从所述当前视频帧检测到的目标对象与所述当前视频帧中已有的跟踪目标进行匹配,包括:
13.确定从所述当前视频帧检测到的目标对象的目标框与所述当前视频帧中已有的跟踪目标的目标框的相似度,基于所述相似度确定匹配结果,其中,所述相似度基于检测到
的目标对象的目标框与已有的跟踪目标的目标框的交并比、检测到的目标对象的目标框与已有的跟踪目标的目标框中心的距离、以及覆盖检测到的目标对象的目标框与已有的跟踪目标的目标框的最小矩形区域的对角线的距离确定。
14.在一些实施例中,所述确定所述目标对象在所述当前视频帧的初始位置信息,包括:
15.对所述当前视频帧进行目标检测,得到所述目标对象在所述当前视频帧的初始位置信息;
16.所述在所述第一优化位置信息对应的评分符合预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪,包括:
17.在所述评分不低于第一预设阈值的情况下,将所述目标对象作为跟踪目标,并基于所述第一优化位置信息在所述当前视频帧的后续视频帧中对所述目标对象进行跟踪。
18.在一些实施例中,所述方法还包括:
19.在所述评分低于所述第一预设阈值的情况下,舍弃在所述当前视频帧中确定的所述目标对象,并获取当前视频帧的后续视频帧,并在所述后续视频帧中对所述目标对象进行目标检测。
20.在一些实施例中,所述确定所述跟踪目标在所述当前视频帧的初始位置信息,包括:
21.对所述当前视频帧进行目标跟踪,得到所述目标对象在所述当前视频帧的初始位置信息;
22.所述在所述第一优化位置信息对应的评分满足预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪,包括:
23.在所述评分不低于第二预设阈值的情况下,将所述第一优化位置信息作为所述目标对象在当前视频帧的跟踪结果。
24.在一些实施例中,在所述评分低于第二预设阈值的情况下,确定所述目标对象丢失并停止对所述目标对象进行跟踪。
25.在一些实施例中,所述方法还包括:
26.在所述评分不低于第三预设阈值的情况下,利用从所述局部图像中提取的特征更新模板特征,其中,所述模板特征从模板图像提取得到,所述模板图像用于确定所述目标对象在所述当前视频帧中的跟踪结果,所述模板图像中包括所述目标对象,所述第三预设阈值大于所述第二预设阈值。
27.在一些实施例中,对所述当前视频帧进行目标跟踪,得到所述目标对象在所述当前视频帧的初始位置信息,包括:
28.基于所述目标对象在所述当前视频帧的前一帧中的位置信息在所述当前视频帧中确定多个图像区域;
29.分别从所述多个图像区域提取与所述目标对象相关的目标特征;
30.确定各图像区域的所述目标特征和从模板图像中提取的模板特征的相似度;其中,所述模板图像中包括所述目标对象;
31.从所述多个图像区域中选取所述相似度最高的图像区域的位置信息作为所述目标对象在所述当前视频帧的初始位置信息。
32.在一些实施例中,所述模板特征通过预先训练的孪生网络的第一网络分支对所述模板图像进行特征提取得到,所述目标特征通过所述孪生网络的第二网络分支对所述图像区域进行特征提取得到。
33.在一些实施例中,所述模板图像通过以下方式得到:
34.对所述当前视频帧之前的目标视频帧进行目标检测,得到所述目标对象在所述目标视频帧中的初始位置信息;
35.基于确定的初始位置信息从所述目标视频帧中截取包括所述目标对象的局部图像;
36.根据截取的局部图像和所述优化模型确定所述目标对象在所述目标视频帧的第二优化位置信息,以及所述第二优化位置信息对应的评分;
37.在所述第二优化位置信息对应的评分不低于第一预设阈值的情况,将从所述目标视频帧截取的局部图像作为所述模板图像。
38.在一些实施例中,所述优化模型包括主干网络、位置网络分支以及评分网络分支,
39.所述主干网络用于提取所述局部图像中与所述目标对象相关的特征,
40.所述位置网络分支用于基于提取的特征确定所述第一优化位置信息和/或所述第二优化位置信息;
41.所述评分网络分支用于基于提取的特征确定所述评分。
42.在一些实施例中,所述优化模型基于携带标签的样本图像训练得到,包括:
43.将所述样本图像输入至所述优化模型中,基于所述位置网络分支输出的所述目标对象在所述样本图像中的第三优化位置信息,以及所述样本图像的标签指示的真实位置信息的差异,调整所述主干网络的网络参数和所述位置网络分支的网络参数,直至该差异满足第一条件;
44.固定所述主干网络的网络参数和所述位置网络分支的网络参数,基于所述评分网络分支输出的评分以及真实评分的差异调整所述评分网络分支的网络参数,直至该差异符合第二条件,训练得到所述优化模型,其中,所述真实评分基于所述第三优化位置信息和所述真实位置信息的差异得到。
45.在一些实施例中,所述目标对象的位置信息通过所述目标对象对应的目标框的位置信息表示,所述真实评分基于所述位置网络分支输出的第三优化位置信息和所述标签指示的真实位置信息的差异得到,包括:
46.所述真实评分基于所述位置网络分支输出的预测目标框与所述标签指示的真实目标框的交并比、所述预测目标框与所述真实目标框的中心的距离、以及覆盖所述预测目标框以及所述真实目标框的最小矩形区域的对角线的距离确定。
47.在一些实施例中,所述样本图像基于以下方式得到:
48.获取携带标签的全局图像,所述全局图像包括目标对象,所述标签用于指示所述目标对象在所述全局图像的位置;
49.基于所述标签从所述全局图像中截取出包括所述目标对象的多个局部图像,将截取的每个局部图像作为一个样本图像,其中,所述多个局部图像的大小各不相同,或所述目标对象在所述多个局部图像中的位置各不相同。
50.根据本公开实施例的第二方面,提供一种目标跟踪装置,所述装置包括:
51.获取模块,用于获取当前视频帧;
52.截取模块,用于在确定待跟踪的目标对象在所述当前视频帧的初始位置信息后,基于确定的初始位置信息从所述当前视频帧中截取出包括所述目标对象的局部图像;
53.优化模块,用于根据截取的局部图像和预先训练的优化模型确定所述目标对象在所述当前视频帧的第一优化位置信息,以及所述第一优化位置信息对应的评分,其中,所述评分用于评价利用所述优化模型确定的优化位置信息的准确度;
54.跟踪模块,用于在所述第一优化位置信息对应的评分符合预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪。
55.根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括处理器、存储器、存储在所述存储器可供所述处理器执行的计算机指令,所述处理器执行所述计算机指令时,可实现上述第一方面提及的方法。
56.根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述存储介质上存储有计算机指令,所述计算机指令被执行时实现上述第一方面提及的方法。
57.本公开实施例中,针对任一视频帧,在基于目标检测算法或目标跟踪算法确定该目标对象在该视频帧的初始位置信息后,并不会直接基于该初始位置信息对目标对象进行跟踪。而是可以基于确定的初始位置信息从视频帧中截取出包括目标对象的局部图像,然后将局部图像输入到预先训练的优化模型中,通过优化模型对初始位置信息进行优化,以得到更加准确的优化位置信息,并且优化模型还可以输出该优化位置信息对应的评分,该评分可以用于评价优化模型确定的优化位置信息的准确度的高低。在该评分高于预设阈值的情况下,则基于确定优化位置信息进行进一步对目标对象进行跟踪。通过利用预先训练的优化模型先对确定的初始位置信息进行优化,并且在判定优化位置信息比较准确的情况下,才会基于优化位置信息对目标对象进行跟踪,可以得到更加准确的跟踪结果,提升跟踪精度,同时,由于无需逐帧进行目标检测,也可以减少整体耗时。
58.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
59.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
60.图1是本公开实施例的一种目标跟踪方法的示意图。
61.图2是本公开实施例的一种目标跟踪方法的示意图。
62.图3是本公开实施例的一种目标跟踪方法的流程图。
63.图4是本公开实施例的一种目标跟踪方法的示意图。
64.图5本公开实施例的一种利用孪生网络确定跟踪结果的示意图。
65.图6本公开实施例的一种优化模型的训练过程的示意图。
66.图7本公开实施例的一种目标跟踪的示意图。
67.图8是本公开实施例的一种跟踪成装置的逻辑结构示意图。
68.图9是本公开实施例的一种设备的逻辑结构示意图。
具体实施方式
69.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
70.在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
71.应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
72.为了使本技术领域的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。
73.目标跟踪在安防监控、自动驾驶等诸多领域都存在广泛的应用。目前在对目标对象进行跟踪时,一种方式是对视频序列中的每帧视频帧均进行目标检测,得到待跟踪的一个或多个目标对象的目标框,如图1所示,对视频帧1和视频帧2均进行目标检测,然后再对不同视频帧中目标框对应的图像区域进行特征匹配,得到各目标对象在不同视频帧的位置。由于目标检测的检测结果精度通常较高,因而利用这种逐帧检测的方式对目标对象进行跟踪可以得到比较高的跟踪精度,但是由于目标检测计算量较大,会导致无法在普通的终端设备上部署,并且如果针对每一帧视频帧都进行目标检测,会导致整个跟踪过程耗时较长,处理效率较低。
74.为了降低整体的耗时,提出了另外一种跟踪方式,如图2所示,即在基于视频序列对目标对象进行跟踪时,可以对首帧视频帧进行目标检测,得到目标对象在首帧视频帧的位置信息(如图2中的目标框),然后可以基于该位置信息裁剪出包括该目标对象的局部图像,并对该局部图像进行特征提取,得到和目标对象相关的模板特征。针对后续的每帧图像(比如图2中第二帧),均可以基于前一帧中目标对象的位置,在该帧图像中以该位置为中心确定一图像区域,然后可以利用一预设大小的滑动窗口遍历该图像区域,对滑动窗口内的图像区域进行特征提取,然后确定提取到的特征与模板特征的相似度,选择相似度最高的滑动窗口内的图像区域的位置作为目标对象在该帧图像的位置,从而得到跟踪结果。这种方式虽然可以无需对每帧视频帧进行目标检测,可以降低整体的耗时,但是由于每帧视频帧的跟踪结果都依赖于前一帧视频帧的跟踪结果,如果前一帧视频帧中确定的目标对象的位置不准确,则会导致后续的每一帧中确定的目标对象的位置均不准确,导致目标对象跟丢,或者一直在对错误的目标进行跟踪,即这种方式无法保证跟踪结果的精度。
75.举个例子,假设在首帧视频帧中对目标对象进行目标检测时,由于确定的目标框
可能会因为目标对象运动等各种因素,导致目标框会抖动,不够准确,如果确定的目标框不准确,则提取的模板特征也不准确,则会导致后续的每一帧视频帧中的跟踪结果都不准确,可能导致目标跟丢。或者在跟踪的过程中,如果待跟踪的目标对象为人,但是到某一帧后,由于人被遮挡,并且在该帧中出现了一个和人比较相似的对象,比如,一个雕塑,那么在利用从该帧确定的多个图像区域提取的特征和模板特征的相似度确定目标对象在该帧的位置时,很有可能会将雕塑所在的位置作为该帧的跟踪结果,即将原本的跟踪目标错误的识别成其他的对象,从而导致后续跟踪过程中一直在对错误的目标对象进行跟踪,浪费计算资源。或者也有可能在跟踪过程中确定的目标框不够准确,以至于后续的每一帧视频帧中的跟踪结果都不准确,从而造成目标跟丢的问题。
76.基于此,本公开实施例提供了一种目标跟踪方法,在对待跟踪的目标对象进行跟踪的过程中,由于对视频帧进行目标检测确定的目标对象的位置或者是对视频帧进行目标跟踪确定的目标对象的位置均可能存在不准确的问题,为了避免由于前面的视频帧中确定的目标对象的位置不准确,导致后续视频帧中的跟踪结果均不准确的问题。本公开实施例中,可以预先训练一个优化模型,针对任一视频帧,在基于目标检测算法或目标跟踪算法确定该目标对象在该视频帧的初始位置信息后,并不会直接基于该初始位置信息对目标对象进行跟踪。而是可以基于确定的初始位置信息从视频帧中截取出包括目标对象的局部图像,然后将局部图像输入到优化模型中,通过优化模型对初始位置信息进行优化,以得到更加准确的优化位置信息,并且优化模型还可以输出该优化位置信息对应的评分,该评分可以用于评价优化模型确定的优化位置信息的准确度的高低。在该评分不太低的情况下,则基于确定优化位置信息进行进一步对目标对象进行跟踪。通过利用预先训练的优化模型先对确定的初始位置信息进行优化,并且在判定优化位置信息比较准确的情况下,才会基于优化位置信息对目标对象进行跟踪,可以得到更加准确的跟踪结果,提升跟踪精度,同时,由于无需逐帧进行目标检测,也可以减少整体耗时。
77.本公开实施例提供的目标跟踪方法可以由部署了预先训练的优化模型的各种电子设备执行,比如,手机、笔记本电脑、云端服务器等。
78.本公开实施例中的待跟踪的目标对象可以是各种需要跟踪的对象,比如,人物、车辆、动物等等。该待跟踪的目标对象可以是某个对象,也可以某种类型的对象。目标对象的数量可以是一个,也可以是多个,具体可以基于实际需求设置,本公开实施例不做限制。
79.其中,本公开实施例中所提到的目标框可以是对目标对象进行目标检测得到的用于指示目标对象在图像中的位置的检测框,也可以是对目标对象进行目跟踪得到的用于指示目标对象在图像中的位置的跟踪框。
80.以下结合图3和图4对本公开实施例提供的目标跟踪方法进行介绍,该方法的具体流程如图3所示,其示意图可以参考图4,该方法可以包括以下步骤:
81.s302、获取当前视频帧;
82.对目标对象进行跟踪,即确定目标对象在视频流中的每帧视频帧的位置,在步骤s302中,可以获取需要确定目标对象所在位置的当前视频帧。其中,当前视频帧可以是待检测的视频流中的任一视频帧。
83.s304、在确定待跟踪的目标对象在所述当前视频帧的初始位置信息后,基于确定的初始位置信息从所述当前视频帧中截取出包括所述目标对象的局部图像;
84.在步骤s304中,可以确定待跟踪的目标对象在当前视频帧的初始位置信息,其中,初始位置信息可以是用于表征目标对象在当前视频帧的位置的各种信息,比如,初始位置信息可以是目标对象对应的目标框的位置信息(如图4所示)。在确定目标对象在当前视频帧的初始位置信息时,可以通过目标检测的方式确定,比如,如果当前视频帧是首帧,即可以利用预先训练的目标检测模型确定当前视频帧中目标对象对应的目标框,作为该目标对象的初始位置信息。当然,如果当前视频帧为中间的一些视频帧,目标对象在当前视频帧之前的视频帧的位置已经确定,也可以通过跟踪算法确定目标对象在当前视频帧的初始位置信息,比如,可以通过预先训练的孪生神经网络或者其他跟踪算法确定该初始位置信息。
85.由于确定初始位置信息未必准确,比如,确定的目标框和实际的目标框的位置存在偏差,或者也有可能确定的目标框根本就不是目标对象的目标框。因此,可以先基于初始位置信息从当前视频帧中截取包括目标对象的局部图像。比如,初始位置信息可以用目标对象对应的目标框表示,因此,可以在目标框的基础上扩大一定的比例,得到一个裁剪框,然后截取该裁剪框内的图像区域作为局部图像。其中,为了减少其他对象的干扰,截取的局部图像中尽量可以仅包括目标对象,或者局部图像中目标对象的占比大于预设占比,确保局部图像中主要为目标对象。
86.s306、根据截取的局部图像和预先训练的优化模型确定所述目标对象在所述当前视频帧的第一优化位置信息,以及所述第一优化位置信息对应的评分,其中,所述评分用于评价利用所述优化模型确定的优化位置信息的准确度;
87.在步骤s306中,在得到局部图像后,可以将截取的局部图像输入到预先训练的优化模型中,利用该优化模型输出当前视频帧的优化位置信息,以下称为第一优化位置信息。其中,优化位置信息为对初始位置信息进行优化后得到的精度更高的位置信息。在进行目标检测或目标跟踪时,由于目标对象可能在运动,因而确定的初始位置信息(比如,目标框)可能也会抖动,导致初始位置信息不够准确,精度较低。本公开实施例通过基于初始位置信息从视频帧中截取包括目标对象的局部图像,由于局部图像中,通常是仅包含该目标对象,存在的干扰较少,且目标对象的占比也比较大,因而基于局部图像可以更加准确地确定目标对象的位置信息,得到更精确的目标框。
88.同时,优化模型还可以输出该第一优化位置信息对应的评分,该评分可以用于评价第一优化位置信息的准确度的高低。其中,第一优化位置信息的准确度需同时从以下两个方面来衡量,一个是该第一优化位置信息(比如,目标框)对应的对象为待跟踪的目标对象的概率越高,即准确度越高,即确保位于该位置的是待跟踪的目标对象,而不是别的对象。另一个是如果该第一优化位置信息为目标对象的位置信息,该第一位置信息与目标对象的真实位置的偏差越小,即准确度越高,即尽量保证确定优化位置信息与真实位置相符。所以,该评分可以根据第一优化位置信息对应的对象为待跟踪的目标对象的概率以及第一优化位置信息与待跟踪的目标对象的真实位置的偏差确定,第一优化位置信息对应的对象为待跟踪的目标对象的概率越高,且第一优化位置信息与待跟踪的目标对象的真实位置的偏差越小,则该评分越高。
89.其中,优化模型可以利用携带标签的大量包括目标对象的样本图像训练得到,标签可以通过人工标注得到,用于确定目标对象在样本图像中的位置,比如,该标签可以是目标对象对应的目标框的位置。
90.s308、在确定所述第一优化位置信息对应的评分符合预设条件的情况下,基于所述目标对象在所述当前视频帧的第一优化位置信息对所述目标对象进行跟踪。
91.在步骤s308中,在利用优化模型输出第一优化位置信息以及评分后,可以判定评分是否符合预设条件,比如,判定该评分是否大于预设阈值,如果大于预设阈值,则说明在当前视频帧中确定的第一优化位置信息是比较准确的。因而,可以基于该第一优化位置信息对目标对象进行跟踪。其中,预设阈值可以基于具体情况灵活设置。
92.在一些实施例中,用于训练优化模型的样本图像中包括目标对象,且目标对象在样本图像中的占比大于预设占比。即确保该样本图像基本上只包括目标对象,不包括其他的对象,从而干扰较少,同时,目标对象在样本图像中占据较大的空间,以便确定更加精确的位置信息。
93.在一些实施例中,初始位置信息可以是通过对当前视频帧进行目标检测确定的,比如,当前视频帧为首帧,因而可以基于目标检测算法对当前视频帧进行目标检测,得到目标对象在当前视频帧的初始位置信息,再进行后续的跟踪流程。由于目标检测通常是对目标对象进行跟踪的初始步骤,如果该步骤出现错误或者检测结果不准确,则后续的跟踪结果均不可能准确。所以,为了确保目标检测得到的目标对象的类别以及位置信息准确,可以利用优化模型对检测结果进行优化,对目标检测确定的初始位置信息进行优化得到更加准确的第一优化位置信息,以及该第一优化位置信息对应的评分,在该评分不低于第一预设阈值的情况下,说明检测结果比较准确,因而可以将检测到的目标对象作为跟踪目标,并以该第一优化位置信息作为参考基准,在后续视频帧中对目标对象进行跟踪。
94.当然,在一些实施例中,如果该评分很低,比如低于第一预设阈值,则说明检测结果可能不准确,比如,检测到的很可能不是要跟踪的目标对象,这种情况下,则可以舍弃该目标对象,并获取当前视频帧的后续视频帧,并对获取的后续视频帧进行目标检测,以便从后续视频帧中检测得到更加准确的目标对象作为跟踪目标,进行后续的跟踪。
95.通过对目标检测的检测结果进行优化和预判,可以确保在跟踪的初始阶段确定的跟踪目标和跟踪目标的位置信息是比较准确的,避免最初确定的跟踪目标有误,或者跟踪目标位置不准确,导致基于检测结果在后续每一帧中确定的跟踪结果均不准确。
96.在一些实施例中,如果评分高于第一预设阈值,将该目标对象作为跟踪目标之后,还可以将该局部图像作为模板图像,并从模板图像中提取和目标对象相关的特征作为模板特征并存储。在后续视频帧中对目标对象进行跟踪时,可以利用该模板特征确定目标对象在当前视频帧的后续视频帧中的跟踪结果。
97.在一些实施例中,如果当前视频帧不是首帧,即当前视频帧的前一帧中目标对象的位置已经确定,则可以对当前视频帧进行目标跟踪,利用跟踪算法确定目标对象在当前视频帧的初始位置信息。由于利用跟踪算法确定的初始位置信息也不一定准确,并且,有些跟踪算法是基于从当前视频帧中各图像区域提取的到特征和模板特征的相似度确定初始位置信息,即将相似度最高的图像区域确定为目标对象所在的位置,这种情况下,很可能因为目标对象被遮挡、或者移出画面,从而把其他类似的对象识别成目标对象,从而导致后续一直在对错误的对象进行跟踪,浪费计算资源,且跟踪精度大大降低。因此,针对这种场景,也可以先利用优化模型对跟踪结果进行优化和预判,利用优化模型对跟踪结果中的初始位置信息进行优化,得到更加精准的第一优化位置信息,同时,输出第一优化位置信息的评
分,在该评分不低于第二预设阈值的情况下,则认为跟踪结果比较准确,因而可以将该第一优化位置信息作为目标对象在当前视频帧的跟踪结果,并基于该跟踪结果在先续视频帧中对目标对象进行跟踪。
98.在一些实施例中,如果该评分低于第二预设阈值,则可以认为目标对象可能由于某种原因消失,比如,被遮挡或者移出画面,这种情况下可以认为目标对象已丢失。在确定目标对象丢失后,可以停止对该目标对象进行跟踪,即将该目标对象的标识从跟踪列表中删除,或者也可以在下一帧中重新进行目标检测,重新检测目标对象的位置。
99.通过这种方式,可以确保在对目标对象进行跟踪时,不会因为其中某帧的跟踪结果不准确,或者出现错误,导致后续的视频帧的跟踪结果均不准确,造成目标对象跟丢或者错误跟踪的问题,可以大大提升跟踪结果的精度。
100.其中,第一预设阈值和第二预设阈值可以设置成相同的数值,也可以设置成不同的数值,比如,相比于目标跟踪,目标检测的精度通常较高,因而第一预设阈值可以设置的大一些,第二预设阈值可以设置得小一些。
101.在一些实施例中,在对当前视频帧进行目标跟踪,得到目标对象在当前视频帧的初始位置信息时,可以先基于目标对象在当前视频帧的前一帧中的位置信息在当前视频帧中确定多个图像区域,然后分别从多个图像区域提取与目标对象相关的目标特征,并确定各图像区域的目标特征和从模板图像中提取的模板特征的相似度,其中,模板图像为包括目标对象的图像,模板图像可以是在对首帧视频帧进行目标检测,确定目标对象的位置信息后,基于该位置信息从首帧视频帧中截取的包括目标对象的局部图像。然后可以基于确定的相似度从多个图像区域中选取一个该相似度最高的图像区域的位置信息作为目标对象在当前视频帧的初始位置信息。
102.比如,假设前一帧中目标对象的对应的目标框的位置已经确定,因而可以根据该目标框所在位置在当前帧中确定一图像区域,然后可以利用预设的滑动窗口遍历该图像区域,该滑动窗口经过的各图像区域即为上述多个图像区域。针对滑动窗口所在的每个图像区域,可以提取该图像区域的目标特征,确定该目标特征和模板特征的相似度,将相似度最高的图像区域的位置作为目标对象在当前视频帧的位置。通过基于前一帧中目标对象所在位置,从当前帧中截取一可能包括目标对象的图像区域再进行后续的处理,从而无需对全图进行处理,可以节省计算资源,提高处理效率。
103.在一些实施例中,如图5所示,对目标对象进行跟踪可以利用预先训练的孪生网络实现。该模板特征可以通过预先训练的孪生网络的第一网络分支对模板图像进行特征提取得到,该目标特征可以通过孪生网路络的第二网络分支对从当前视频帧中确定的各图像区域进行特征提取得到,然后基于模板特征和目标特征的相似度确定初始位置信息。
104.通常,在对目标对象进行跟踪时,模板图像一般都是从经过目标检测的视频帧中截取得到的图像,比如,在通过目标检测确定视频帧中的目标对象的位置后,基于该位置截取包括目标对象的局部图像作为模板图像。比如,针对多帧视频帧的首帧,可以先进行目标检测,确定待跟踪的目标对象及其位置,然后基于该位置从首帧中截取出包括目标对象的局部图像,作为模板图像。由于目标检测得到检测结果可能也不准确,导致模板图像也不准确,进而基于模板图像确定的模板特征,以及基于模板特征确定的跟踪结果也不准确。为了解决该问题,在一些实施例中,在确定模板图像时,也可以利用优化模型对检测结果进行优
化和预判,得到更为精确的模板图像。比如,可以对当前视频帧之前的目标视频帧进行目标检测,得到目标对象在目标视频帧中的初始位置信息,然后基于确定的初始位置信息从目标视频帧中截取包括目标对象的局部图像,根据截取的局部图像和优化模型确定目标对象在所述目标视频帧的优化位置信息,以下称为第二优化位置信息,以及该第二优化位置信息对应的评分。在确定第二优化位置信息对应的评分不低于第一预设阈值的情况,则将从目标视频帧截取的局部图像作为模板图像。
105.由于目标检测的结果精度往往较高,因而,在对目标对象进行跟踪时,模板图像一般都是从经过目标检测的视频帧中截取得到的图像,比如,在通过目标检测确定视频帧中的目标对象的位置后,基于该位置截取包括目标对象的局部图像作为模板图像。然后可以从模板图像中提取特征作为模板特征,利用该模板特征确定后续视频帧中目标对象的跟踪结果。在没有重新对视频帧进行目标检测的情况下,模板特征一般都是最初确定的模板特征,不会进行更新。这种方式存在的弊端是如果最开始确定模板特征精度不高,或者在跟踪过程中目标对象发生形变导致模板特征发生变化,在后续跟踪过程中模板特征也得不到修正,从而影响整个跟踪过程的跟踪精度。
106.为了解决上述问题,在一些实施例中,优化模型在输出第一优化位置信息的评分后,还可以基于该评分确定是否利用从当前帧确定的局部图像更新模板特征。比如,可以预先设置一个第三预设阈值,如果该评分不低于该第三预设阈值,说明此时的跟踪结果准确度已经比较高,那么这种情况下,则可以利用从当前帧截取的局部图像中提取的特征更新模板特征,使得模板特征可以更加真实和准确的反映目标对象当前的情况。其中,由于从当前帧截取包括目标对象的局部图像,并从该局部图像提取的特征要作为模板特征,因而对当前帧的跟踪结果的精度要求会比较高,因此,第三预设阈值通常要设置成大于第二预设阈值。如果评分位于第二预设阈值和第三预设阈值之间,那么说明跟踪结果的精度一般,可以继续用该跟踪结果进行后续跟踪,但是不能利用当前帧截取的局部图像更新模板特征,因而,可以保持模板特征不变。
107.通过上述方式,可以基于优化模型输出的评分选取出跟踪结果非常准确的视频帧,并基于该视频帧的跟踪结果从视频帧中截取局部图像,由于这类局部图像大概率是包括目标对象的,因而利用从这类局部图像提取的特征更新模板特征,可以实时动态的用更为准确的特征更新模板特征,使得模板特征一直都是比较准确的,进而基于模板特征确定跟踪结果也更准确,可以有效的提高跟踪结果的精度。
108.在一些实施例中,该优化模型包括主干网络、位置网络分支以及评分网络分支。其中,主干网络可以是用于进行特征提取的基础网络,比如,可以是resnet网络、alexnet网络等,主干网络可用于提取局部图像中与目标对象相关的特征。该位置网络分支可用于基于提取的特征确定局部图像对应的优化位置信息,比如,上述第一优化位置信息和/或第二优化位置信息,该评分网络分支可用于基于提取的特征确定优化位置信息对应的评分。
109.在一些实施例中,在利用携带标签的样本图像训练得到优化模型时,具体的训练方式可以参考图6所示:首先,可以将样本图像输入至优化模型中,优化模型的主干网络可以对样本图像进行特征提取,优化模型的位置网络分支可以基于提取到的特征输出目标对象在该样本图像中的第三优化位置信息,然后可以基于该第三优化位置信息与样本图像的标签指示的真实位置信息的差异,调整主干网络的网络参数和位置网络分支的网络参数,
直至该差异满足第一条件,比如,该差异收敛,或者该差异小于预设阈值。
110.完成对主干网络和位置网络分支的训练后,可以固定主干网络的网络参数和位置网络分支的网络参数,然后将样本图像输入到优化模型,优化模型的主干网络可以对样本图像进行特征提取,优化模型的评分网络分支可以基于提取到的特征输出评分,然后可以根据评分网络分支输出的评分与真实评分的差异调整评分网络分支的网络参数,直至该差异符合第二条件,比如,该差异收敛,或者该差异小于预设阈值,从而训练得到优化模型。其中,为了确保该评分可以更加准确的衡量优化模型输出的优化位置信息的准确度,该真实评分可以根据位置网络分支输出的第三优化位置信息和标签指示的真实位置信息的差异确定。
111.在训练优化模型时,可以先对主干网络和位置网络分支进行训练,在位置网络分支能够准确预测目标对象的优化位置信息后,再固定主干网络和位置网络分支的网络参数,对评分网络分支进行训练,使得评分网络分支输出的评分可以更加真实地反映位置网络分支输出的优化位置信息的准确度。
112.在一些实施例中,目标对象的位置信息可以通过目标对象在视频帧中对应的目标框的位置信息表示,在确定真实评分时,可以基于位置网络分支输出的预测目标框和标签指示的真实目标框的差异确定,比如,可以利用该预测目标框和真实目标框的交并比(intersection over union,iou)作为真实评分。在一些实施例中,为了让真实评分可以更加准确地反映目标框的准确度,真实评分也可以基于预测目标框与真实目标框的交并比、预测目标框与真实目标框的中心的距离、以及覆盖该预测目标框以及真实目标框的最小矩形区域的对角线的距离确定,比如,可以利用ciou(complete intersection over union)来表示真实评分。
113.由于大多数场景,图像都是全局的图像,除了包括目标对象以外,还包括很多其他的场景,所以,在一些实施例中,在获取用于训练优化模型的样本图像时,可以通过对携带标签的全局图像进行裁剪,得到该样本图像。比如,可以先获取携带标签的全局图像,其中,全局图像中包括目标对象,标签用于指示目标对象在全局图像的位置,然后可以基于该标签从全局图像中截取出包括目标对象的多个局部图像,并将截取的每个局部图像作为一个样本图像,其中,这多个局部图像的大小各不相同,或目标对象在这多个局部图像中的位置各不相同,即在对全局图像进行裁剪得到样本图像的过程中,可以对裁剪框进行平移、缩放等各种处理,从而得到各种不同类型的样本图像。通过这种方式对样本图像进行增广处理,可以丰富样本图像,使得样本图像可以覆盖各种场景,更加全面。当然,在一些实施例中,也可以利用目标检测时检测结果出现错误的一些负样本,以及目标跟踪时跟踪结果出现错误的一些负样本作为样本图像训练优化模型,以提升优化模型识别负样本的能力,增加优化模型的鲁棒性。
114.在一些场景中,跟踪目标可能有多个,并且随着时间的推移,跟踪目标可能也会发生变化。所以,可以设置每隔数帧后进行一次目标检测,以对跟踪目标进行更新。比如,在一些实施例中,在确定当前视频帧与指定视频帧之间间隔的帧数达到预设帧数的情况下,可以对当前视频帧进行目标检测,并对检测到的目标对象与当前帧已有的跟踪目标进行匹配,基于匹配结果更新跟踪目标。其中,指定视频帧为进行过目标检测的视频帧。
115.举个例子,假设跟踪目标为视频中的人物,由于视频的人物可能会变化,因而可以
设置每隔10帧进行一次目标检测,比如,在首帧进行目标检测,确定该帧中的人物a的位置后,接下来的9帧可以基于检测结果对人物a进行跟踪,得到人物a在每帧的位置。对于第11帧,则又可以进行一次目标检测,检测该帧中的人物,比如,如果此时检测到了两个人物以及两个人物的位置,那么可以根据跟踪算法确定第11帧中人物a的位置,与目标检测确定人物的位置进行匹配,确定检测到的两个人物中哪个是人物a,然后将剩下的那个人物标识为人物b,并将人物b及其对应的位置信息添加到跟踪列表中,在后续视频帧中也会对人物b进行跟踪。
116.在一些实施例中,目标对象的位置可以用目标对象对应的目标框的位置表示,在对检测到的目标对象与跟踪目标进行匹配,得到匹配结果时,可以先确定在当前视频帧检测到的目标对象的目标框与已有的跟踪目标在当前视频帧的目标框的相似度,并基于该相似度确定检测到的目标对象和已有跟踪目标的匹配结果,然后根据匹配结果对跟踪列表进行更新,比如,将当前帧新出现的目标对象作为跟踪目标,并为该新出现的目标对象设置标识,将其标识添加到跟踪列表中。其中,相似度可以基于检测到的目标对象的目标框与已有的跟踪目标的目标框的交并比、检测到的目标对象的目标框与已有的跟踪目标的目标框中心的距离、以及覆盖检测到的目标对象的目标框与已有的跟踪目标的目标框的最小矩形区域的对角线的距离确定。比如,可以用检测到的目标对象的目标框与已有的跟踪目标的目标框的ciou作为相似度。
117.进一步的,本公开实施例还提供了一种模型训练方法,用于训练优化模型,该优化模型包括主干网络、位置网络分支以及评分网络分支,具体的训练过程包括以下步骤:
118.获取携带标签的样本图像,所述标签用于指示目标对象在所述样本图像中的位置,所述样本图像中仅包括所述目标对象且所述目标对象在所述样本图像的占比大于预设占比;
119.将所述样本图像输入至所述优化模型中,基于所述位置网络分支输出的所述目标对象在所述样本图像中的第三优化位置信息,以及所述样本图像的标签指示的真实位置信息的差异,调整所述主干网络的网络参数和所述位置网络分支的网络参数,直至所述差异满足第一条件;
120.固定所述主干网络的网络参数和所述位置网络分支的网络参数,基于所述评分网络分支输出的评分以及真实评分的差异调整所述评分网络分支的网络参数,直至符合第二条件,得到所述优化模型,其中,所述真实评分基于所述第三优化位置信息和所述真实位置信息的差异得到。
121.其中,优化模型的具体训练过程可以参考上述实施例中的描述,在此不再赘述。
122.为了进一步解释本公开实施例中提供的目标跟踪方法,以下结合一个具体的实施例加以解释。
123.在对目标对象进行跟踪时,为了可以既能降低耗时,又可以提高跟踪结果的精度,本公开实施例提供了一种目标跟踪方法,具体过程如下:
124.1、模型训练阶段
125.模型训练阶段可以训练三个模型:目标检测模型、孪生网络以及优化模型。
126.(1)目标检测模型的训练:
127.由于跟踪一般包括目标检测和目标跟踪两个阶段,因而可以预先训练一个目标检
测模型,目标检测模型可用于检测待跟踪的目标对象在视频帧中对应的目标框的位置。目标测模型可以利用大量的样本图像训练得到,样本图像需覆盖应用场景,每帧样本图像的标签包括人工标注的目标对象的位置和目标对象的类别,具体的训练方式和常规的目标检测模型类似,在此不再赘述。
128.(2)孪生网络的训练:
129.由于跟踪一般包括目标检测和目标跟踪两个阶段,因而还需训练一个孪生网络,该孪生网络用于实现对视频帧中的目标进行跟踪,并输出跟踪到的目标对象视频帧中对应的目标框的位置。孪生网络可以用图像序列训练得到,图像序列中各帧图像的标签包括人工标注的每个跟踪目标的id,和每个跟踪目标的位置(即目标框的位置),相同的跟踪目标在图像序列中所有图像上的id一致。其中,孪生网络具体的训练方式和常规孪生网络类似,在此不再赘述。
130.(3)优化模型的训练:
131.由于目标检测模型和孪生网络输出的目标框可能不太准确,比如,可能该目标框不是要跟踪的目标对象的目标框,或者虽然是目标对象的目标框,但是目标框的位置和目标对象的真实位置偏差较大,由于跟踪过程中,当前帧的跟踪结果都依赖于前一帧的跟踪结果,因而只要一帧的检测结果或跟踪结果准确度较低,就可能导致后续每一帧的跟踪结果都不准确,把目标对象跟丢或者一直对错误的目标对象进行跟踪。为了避免这个问题,本公开实施例还训练了一个优化模型,该优化模型用于对目标检测模型和孪生网络输出的目标框进行优化,提高目标框的精度,同时会对优化后目标框输出一个评分,用于评价该目标框的准确度的高低,只有在评分不太低时,才会基于检测结果或跟踪结果进行后续的跟踪。
132.优化模型的样本图像可以是从以上两个模型的样本图像中截取的包括待跟踪的目标对象的局部图像,目标对象在局部图像中的目标框的位置作为标签。其中,局部图像中可以仅包括目标对象,不包括其他对象,以尽量减少其他对象的干扰,同时局部图像中目标对象的占比可以大于预设占比,以保证确定的目标框精度更高。其中,为了让优化模型的训练数据更全面和丰富,在从上述两个模型的样本图像中截取局部图像作为优化模型的样本图像时,可以对裁剪框进行一些平移、缩放等操作,得到不同的局部图像。此外,为了增加优化模型的鲁棒性,可以选取目标检测模型和孪生网络预测错误的一些负样本作为样本图像对优化模型进行训练。
133.优化模型包括主干网络、位置网络分支以及评分网络分支。其主干网络可用于提取局部图像中与目标对象相关的特征,该位置网络分支可用于基于提取的特征确定优化后的目标框,该评分网络分支可用于基于提取的特征确定优化后的目标框的评分。
134.在训练优化模型时,可以将样本图像输入至优化模型中,基于优化模型的位置网络分支输出的优化后的目标框与标签指示的真实目标框的差异,调整主干网络的网络参数和位置网络分支的网络参数,直至该差异收敛。
135.完成对主干网络和位置网络分支的训练后,可以固定主干网络的网络参数和位置网络分支的网络参数,然后将样本图像输入到优化模型,基于优化模型的评分网络分支输出的评分与真实评分的差异调整评分网络分支的网络参数,直至该差异收敛,以训练得到优化模型。其中,为了确保该评分可以更加准确的衡量优化模型输出的优化后的目标框的准确度,该真实评分可以根据位置网络分支输出的优化后的检侧框和真实目标框的ciou表
示。
136.2、跟踪阶段
137.跟踪阶段的具体过程可以参考图7,具体如下:
138.(1)可以利用目标检测模型对输入的视频流中的视频帧进行目标检测,若在当前帧未检测到目标对象,则间隔固定帧数后再次检测,其中,检测间隔可以针对不同任务或场景灵活设置,比如,检测目标的速度越快,则间隔帧数越短。若在当前帧检测到目标对象,则利用优化模型输出检测到的每个目标对象优化后的目标框的位置以及评分,若评分低于第一阈值,则认为属于误检,并丢弃该目标对象。否则,保留该目标对象,并为保留下来的每个目标对象建立id,然后可以基于优化后的目标框的位置从当前帧中截取包括该目标对象的局部图像,利用孪生网络的一个网络分支对该局部图像进行特征提取,得到该id的模板特征。
139.(2)在当前帧检测到目标对象后,针对当前帧后续的每一帧(比如,图7中当前帧的下一帧),可以基于上一帧中目标对象的目标框的位置,以该位置为中心截取一图像区域,通过孪生网络的另一个网络分支对该图像区域进行特征提取,并基于提取到的特征与模板特征的相似度,从该图像区域中确定目标对象的位置。若有多个目标对象,则每个目标对象都可以利用上述方式,获得每个目标对象的跟踪结果。
140.(3)在得到每个目标对象的跟踪结果后,可以利用优化模型得到每个目标对象的精确位置和评分。若评分低于第二阈值,表示目标对象可能由于某种原因消失(被完全遮挡或移出画面),需要舍弃该id。若评分高于第三阈值(第三阈值大于第二阈值),表示目标对象当前的跟踪状态良好,则可以从该帧中截取包括目标对象的局部图像,利用从该局部图像提取的特征更新该id的模板特征,防止目标对象发生形变导致模板特征改变。若分数介于第二阈值和第三阈值之间,则不丢弃也不更新模板特征,继续跟踪。
141.(4)在跟踪过程中,若当前一帧与上一次进行目标检测的视频帧之间间隔的帧数达到预设帧数,需要再次进行目标检测,可以采用步骤(1)的方式得到检测结果,然后对检测到的目标对象和当前已有的跟踪目标进行匹配。匹配过程中,可以计算检测到的目标对象的目标框与已有的跟踪目标的目标框的ciou,基于ciou确定两者是否表示同一个目标对象。若判定检测到的目标对象已经在跟踪列表中,则不做改动,否则未该目标对象建立新的id,并加入跟踪列表,进行后续跟踪。
142.其中,不难理解,上述各实施例中的描述的方案在不存在冲突的情况,可以进行组合,本公开实施例中不一一例举。
143.相应的,本公开实施例还提供了一种目标跟踪装置,如图8所示,所述装置包括:
144.获取模块81,用于获取当前视频帧;
145.截取模块82,用于在确定待跟踪的目标对象在所述当前视频帧的初始位置信息后,基于确定的初始位置信息从所述当前视频帧中截取出包括所述目标对象的局部图像;
146.优化模块83,用于根据截取的局部图像和预先训练的优化模型确定所述目标对象在所述当前视频帧的第一优化位置信息,以及所述第一优化位置信息对应的评分,其中,所述评分用于评价利用所述优化模型确定的优化位置信息的准确度;
147.跟踪模块84,用于在所述第一优化位置信息对应的评分符合预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪。
148.在一些实施例中,所述优化模型基于携带标签的样本图像训练得到,所述样本图像中包括所述目标对象且所述目标对象在所述样本图像的占比大于预设占比,所述标签用于指示所述目标对象在所述样本图像中的位置。
149.在一些实施例中,所述装置还用于:
150.在确定所述当前视频帧与指定视频帧之间间隔的帧数达到预设帧数的情况下,对所述当前视频帧进行目标检测,并对从所述当前视频帧检测到的目标对象与所述当前视频帧中已有的跟踪目标进行匹配,基于匹配结果更新跟踪目标,其中,所述指定视频帧为经过目标检测的视频帧。
151.在一些实施例中,所述目标对象的位置信息通过所述目标对象对应的目标框的位置信息表示,所述装置用于对从所述当前视频帧检测到的目标对象与所述当前视频帧中已有的跟踪目标进行匹配时,具体用于:
152.确定从所述当前视频帧检测到的目标对象的目标框与所述当前视频帧中已有的跟踪目标的目标框的相似度,基于所述相似度确定匹配结果,其中,所述相似度基于检测到的目标对象的目标框与已有的跟踪目标的目标框的交并比、检测到的目标对象的目标框与已有的跟踪目标的目标框中心的距离、以及覆盖检测到的目标对象的目标框与已有的跟踪目标的目标框的最小矩形区域的对角线的距离确定。
153.在一些实施例中,所述装置用于确定所述目标对象在所述当前视频帧的初始位置信息时,具体用于:
154.对所述当前视频帧进行目标检测,得到所述目标对象在所述当前视频帧的初始位置信息;
155.所述装置用于在所述第一优化位置信息对应的评分符合预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪时,具体用于:
156.在所述评分不低于第一预设阈值的情况下,将所述目标对象作为跟踪目标,并基于所述第一优化位置信息在所述当前视频帧的后续视频帧中对所述目标对象进行跟踪。
157.在一些实施例中,所述装置还用于:
158.在所述评分低于所述第一预设阈值的情况下,舍弃在所述当前视频帧中确定的所述目标对象,并获取当前视频帧的后续视频帧,并在后续视频帧中对所述目标对象进行目标检测。
159.在一些实施例中,所述装置用于在确定所述跟踪目标在所述当前视频帧的初始位置信息时,具体用于:
160.对所述当前视频帧进行目标跟踪,得到所述目标对象在所述当前视频帧的初始位置信息;
161.所述装置在所述第一优化位置信息对应的评分满足预设条件的情况下,基于所述第一优化位置信息对所述目标对象进行跟踪时,具体用于:
162.在所述评分不低于第二预设阈值的情况下,将所述第一优化位置信息作为所述目标对象在当前视频帧的跟踪结果。
163.在一些实施例中,在所述评分低于第二预设阈值的情况下,确定所述目标对象丢失并停止对所述目标对象进行跟踪。
164.在一些实施例中,所述装置还用于:
165.在所述评分不低于第三预设阈值的情况下,利用从所述局部图像中提取的特征更新模板特征,其中,所述模板特征从模板图像提取得到,所述模板图像用于确定所述目标对象在所述当前视频帧中的跟踪结果,所述模板图像中包括所述目标对象,所述第三预设阈值大于所述第二预设阈值。
166.在一些实施例中,所述装置用于对所述当前视频帧进行目标跟踪,得到所述目标对象在所述当前视频帧的初始位置信息时,具体用于:
167.基于所述目标对象在所述当前视频帧的前一帧中的位置信息在所述当前视频帧中确定多个图像区域;
168.分别从所述多个图像区域提取与所述目标对象相关的目标特征;
169.确定各图像区域的所述目标特征和从模板图像中提取的模板特征的相似度;其中,所述模板图像中包括所述目标对象;
170.从所述多个图像区域中选取所述相似度最高的图像区域的位置信息作为所述目标对象在所述当前视频帧的初始位置信息。
171.在一些实施例中,所述模板特征通过预先训练的孪生网络的第一网络分支对所述模板图像进行特征提取得到,所述目标特征通过所述孪生网络的第二网络分支对所述图像区域进行特征提取得到。
172.在一些实施例中,所述模板图像通过以下方式得到:
173.对所述当前视频帧之前的目标视频帧进行目标检测,得到所述目标对象在所述目标视频帧中的初始位置信息;
174.基于确定的初始位置信息从所述目标视频帧中截取包括所述目标对象的局部图像;
175.根据截取的局部图像和所述优化模型确定所述目标对象在所述目标视频帧的第二优化位置信息,以及所述第二优化位置信息对应的评分;
176.在所述第二优化位置信息对应的评分不低于第一预设阈值的情况,将从所述目标视频帧截取的局部图像作为所述模板图像。
177.在一些实施例中,所述优化模型包括主干网络、位置网络分支以及评分网络分支,
178.所述主干网络用于提取所述局部图像中与所述目标对象相关的特征,
179.所述位置网络分支用于基于提取的特征确定所述第一优化位置信息和/或所述第二优化位置信息;
180.所述评分网络分支用于基于提取的特征确定所述评分。
181.在一些实施例中,所述优化模型基于携带标签的样本图像训练得到,包括:
182.将所述样本图像输入至所述优化模型中,基于所述位置网络分支输出的所述目标对象在所述样本图像中的第三优化位置信息,以及所述样本图像的标签指示的真实位置信息的差异,调整所述主干网络的网络参数和所述位置网络分支的网络参数,直至该差异满足第一条件;
183.固定所述主干网络的网络参数和所述位置网络分支的网络参数,基于所述评分网络分支输出的评分以及真实评分的差异调整所述评分网络分支的网络参数,直至该差异符合第二条件,训练得到所述优化模型,其中,所述真实评分基于所述第三优化位置信息和所述真实位置信息的差异得到。
184.在一些实施例中,所述目标对象的位置信息通过所述目标对象对应的目标框的位置信息表示,所述真实评分基于所述位置网络分支输出的第三优化位置信息和所述标签指示的真实位置信息的差异得到,包括:
185.所述真实评分基于所述位置网络分支输出的预测目标框与所述标签指示的真实目标框的交并比、所述预测目标框与所述真实目标框的中心的距离、以及覆盖所述预测目标框以及所述真实目标框的最小矩形区域的对角线的距离确定。
186.在一些实施例中,所述样本图像基于以下方式得到:
187.获取携带标签的全局图像,所述全局图像包括目标对象,所述标签用于指示所述目标对象在所述全局图像的位置;
188.基于所述标签从所述全局图像中截取出包括所述目标对象的多个局部图像,将截取的每个局部图像作为一个样本图像,其中,所述多个局部图像的大小各不相同,或所述目标对象在所述多个局部图像中的位置各不相同。
189.其中,上述装置执行目标跟踪方法的具体步骤可以参考上述方法实施例中的描述,在此不再赘述。
190.进一步的,本公开实施例还提供一种电子设备,如图9所示,所述设备包括处理器91、存储器92、存储于所述存储器92可供所述处理器91执行的计算机指令,所述处理器91执行所述计算机指令时实现上述实施例中任一项所述的方法。
191.本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例所述的方法。
192.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
193.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本公开实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例各个实施例或者实施例的某些部分所述的方法。
194.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
195.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部
分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本公开实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
196.以上所述仅是本公开实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本公开实施例的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献