一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于时空信息融合的判别性目标跟踪方法及装置与流程

2022-04-30 09:04:00 来源:中国专利 TAG:


1.本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种基于时空信息融合的判别性目标跟踪方法及装置。


背景技术:

2.随着计算机视觉和模式识别技术的发展,其应用越来越广泛,目标跟踪为其应用的方向之一。目标跟踪是指对给定的目标进行追踪,以便获取到目标的位置。被广泛应用于人体跟踪、车辆跟踪或者智能交互系统中的手势跟踪等多个方面。
3.现有技术中,一般利用模板匹配或者相似度度量等来实现目标跟踪,存在目标跟踪准确率低的问题。


技术实现要素:

4.本发明提供一种时空信息融合的判别性目标跟踪方法、装置、电子设备及存储介质,用以解决现有技术中目标跟踪准确性低的缺陷,实现提高目标跟踪准确性的目的。
5.本发明提供一种时空信息融合的判别性目标跟踪方法,包括:获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。
6.根据本发明提供的一种基于时空信息融合的判别性目标跟踪方法,获取历史图像集合和测试图像包括:获取初始图像;在所述初始图像中,获取所述目标对象对应的对象图像区域的中心坐标;获取所述对象图像区域对应的区域尺寸,基于所述区域尺寸以及尺寸外扩系数得到区域延伸值;基于所述中心坐标以及所述区域延伸值向所述区域延伸值所对应的延伸方向进行延伸,得到延伸坐标;将位于所述延伸坐标内的图像区域作为截取图像区域,将截取得到的图像分别确定为所述历史图像和测试图像;所述历史图像为所述历史图像集合中的任一图像。
7.根据本发明提供的一种基于时空信息融合的判别性目标跟踪方法,所述对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征包括:对所述训练图像特征集合中的各个所述训练图像特征分块处理后进行卷积,得到中间图像特征集合,将所述中间图像特征集合中的各个中间图像特征添加第二位置编码并提取时空场景信息,得到时空判别性图像特征。
8.根据本发明提供的一种基于时空信息融合的判别性目标跟踪方法,所述对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率包括:获取预测网络,所述预测网络包括回归网络和分类网络;将所述混合图像特征输入到所述回归网络中进行处理,得到所述目标边框特征;将所述混合图像特征输入到所述分类网络中进行处理,得到所述前景背景概率。
9.根据本发明提供的一种时空信息融合的判别性目标跟踪方法,所述回归网络包括第一全连接层和激活层,所述分类网络包括第二全连接层,所述将所述混合图像特征输入到所述回归网络中进行处理,得到所述目标边框特征包括:将所述混合图像特征通过所述回归网络的第一输入层传输到所述第一全连接层,通过所述第一全连接层对所述混合图像特征进行处理,得到混合图像中间特征;利用所述激活层对所述混合图像中间特征进行非线性处理,得到所述目标边框特征;所述将所述混合图像特征输入到所述分类网络中进行处理,得到所述前景背景概率包括:将所述混合图像特征通过第二输入层传输到所述第二全连接层,所述第二全连接层包括至少一层;通过所述第二全连接层对所述混合图像特征进行分类,得到所述前景背景概率。
10.根据本发明提供的一种时空信息融合的判别性目标跟踪方法,所述方法还包括:确定预测网络的网络损失值,所述网络损失值包括所述回归网络对应的回归网络损失值和所述分类网络对应的分类网络损失值;利用随机梯度下降法,朝着使损失值变小的方向调整网络参数,直至所述回归网络和所述分类网络均网络收敛;其中,网络收敛可以是网络损失值小于预设阈值或者训练次数达到预设次数的至少一个。
11.根据本发明提供的一种时空信息融合的判别性目标跟踪方法,所述方法还包括:获取当前图像对应的所述自适应时空图像特征,以及,当前图像对应的前向训练图像对应的第一更新自适应时空图像特征;根据所述自适应时空图像特征和所述第一更新自适应时空图像特征,得到当前图像的第二更新自适应时空图像特征。
12.本发明还提供一种目标跟踪装置,包括:第一处理模块,用于获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;第二处理模块,用于对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;第三处理模块,用于对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;第四处理模块,用于对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;第五处理模块,用于将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;第六处理模块,用于对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;第七处理模块,用于基于目标边框和前景背景概率,确定跟踪的目标对象。
13.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述判别性目标跟踪方法的步骤。
14.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述判别性目标跟踪方法的步骤。
15.本发明还提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一种所述判别性目标跟踪方法的步骤。
16.本发明提供的基于时空信息融合的判别性目标跟踪方法及装置,通过获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。通过对测试图像特征以及训练图像特征集合的综合处理,得到目标对象对应的目标边框,以及目标对象的前景背景概率,从而提高了目标跟踪的准确性。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明提供的判别性目标跟踪方法的场景应用图之一;
19.图2是本发明提供的判别性目标跟踪方法的流程示意图之一;
20.图3是本发明提供的判别性目标跟踪方法的流程示意图之二;
21.图4是本发明提供的判别性目标跟踪方法的流程示意图之三;
22.图5是本发明提供的判别性目标跟踪方法的流程示意图之四;
23.图6是本发明提供的判别性目标跟踪方法的流程示意图之五;
24.图7是本发明提供的判别性目标跟踪方法的结构示意图之一;
25.图8是本发明提供的判别性目标跟踪方法的结构示意图之二;
26.图9是本发明提供的判别性目标跟踪方法的结构示意图之三;
27.图10是本发明提供的判别性目标跟踪方法的结构示意图之四;
28.图11是本发明提供的目标跟踪装置的结构示意图;
29.图12是本发明提供的电子设备的结构示意图。
具体实施方式
30.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
31.本技术提供的判别性目标跟踪方法,可以应用于如图1所示的应用环境中,具体应用到一种目标跟踪系统中。该目标跟踪系统包括终端102和服务器104,其中,终端102通过
网络与服务器104进行通信。服务器104执行一种基于时空信息融合的判别性目标跟踪方法,具体的,终端102发送需要处理的历史图像集合和测试图像,相应的,服务器104获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
32.下面结合图2-图6描述本发明的判别性目标跟踪方法。
33.在一个实施例中,如图2所示,提供了一种判别性目标跟踪方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
34.步骤202,获取历史图像集合和测试图像,该历史图像集合中的各个历史图像和测试图像中均包括待跟踪的目标对象。
35.其中,目标对象是指存在于历史图像集合和测试图像中,用于进行跟踪的对象。例如,在历史图像集合中存在的某个需要跟踪的动物,该动物可以认为是待跟踪的目标对象。
36.具体地,服务器可以接收终端发送的图像序列,将该图像序列作为历史图像集合,或者在该图像序列中任意选取一副图像作为测试图像,或者将服务器本地存储的图像序列作为历史图像集合,或者在该图像序列中任意选取一副图像作为测试图像。
37.在一个实施例中,历史图像集合可以通过在线跟踪图像得到,以第一帧图像为初始图像,由该第一帧图像数据扩增得到训练图像。在线跟踪中,逐步将当前图像添加到历史图像集合中并逐步淘汰较早的图像,始终保持历史图像集中包含20张训练图像。
38.在一个实施例中,服务器可以在本地的数据集中,提取随机视频帧或者视频帧序列,作为历史图像集合和测试图像。例如,从本地数据集名为got-10k,lasot或者trackingnet的数据集中提取随机视频帧序列作为历史图像集合和测试图像。
39.步骤204,对历史图像集合中的各个历史图像进行处理,得到训练图像特征集合,以及,对测试图像进行处理,得到测试图像特征。
40.具体的,服务器接收到一系列图像帧后,在其中随机确定一幅图像,作为需要处理的测试图像,其余为需要处理的历史图像集合,在该历史图像集合和测试图像中对目标对象所在的目标图像区域为中心按照一定裁剪倍数进行扩展,得到的裁剪图像,作为训练图像和测试图像,对训练图像和测试图像进行特征提取,分别得到训练图像特征和测试图像特征。
41.在一个实施例中,将历史图像集合中的各个历史图像集合归一化处理后得到大小为20
×
256
×
256
×
3的图像,将该图像输入到resnet50主干网络中,提取到该主干网络上第四组卷积层conv4的图像特征,输出大小为20
×
16
×
16
×
1024的图像,对该图像利用1
×
1的
卷积层进行降维,得到大小为20
×
16
×
16
×
256训练图像特征,使用同样的方法,得到测试图像特征,图像大小为1
×
16
×
16
×
256。
42.步骤206,对训练图像特征集合中的各个训练图像特征进行处理,得到时空判别性图像特征。
43.具体地,服务器在得到训练图像特征集合和测试图像特征之后,因为该训练图像特征集合中的各个训练图像特征是具有时空特征的图像,对训练图像特征集合中的各个训练图像特征进行处理,得到时空判别性图像特征。
44.在一个实施例中,以transformer为例,首先对训练图像特征进行分块操作,每4
×
4的空间区域作为一块图像特征,该块图像特征通过原图像每个空间位置特征的串联方式组成,即分辨率降维原来的1/16,通道数增加为原来的16倍,分块后图像特征大小为20
×4×4×
4096,接着采用一个1
×
1的卷积进行特征降维处理,得到图像特征大小为20
×4×4×
256,即为分块后训练图像特征。对分块后训练图像特征中的每一个4
×4×
256大小的特征添加预定义的4
×4×
256大小的第一空间位置编码,特征维度重组后得到320
×
256的图像特征,将该时空图像特征输入到transformer自编码器中,该编码器包含两层,每层包含一个标准的多头自相关模块,两个残差连接模块和一个多层感知机,多头自相关模块的key,value和query均为320
×
256的分块重组后的训练图像特征,最后输出大小为320
×
256的图像特征,该图像特征即为时空判别性特征。
45.步骤208,对测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将时空判别性图像特征和目标测试图像特征进行特征融合,得到自适应时空图像特征。
46.具体地,服务器在得到测试图像特征和时空判别性图像特征之后,对测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征,将时空判别性图像特征和目标测试图像特征进行特征融合,得到自适应时空图像特征。
47.在一个实施例中,以transformer为例,对测试图像特征进行分块和卷积操作,得到图像特征大小为4
×4×
256,即为分块后测试图像特征,对分块后测试图像特征添加预定义的4
×4×
256大小的空间位置编码,特征维度重组后得到16
×
256的特征,将该图像特征和时空判别性图像特征输入到transformer互编码器上,该编码器包含两层,每层包含一个标准的多头自相关模块,一个多头互相关模块,两个残差连接模块和一个多层感知机,多头自相关模块的query,key和value为6
×
256的分块重组后的测试图像特征,多头互相关模块的query为16
×
256的分块重组后的测试图像特征,输出特征大小为16
×
256的图像特征,将该图像特征经过一个残差连接层后作为多头互相关模块的query,多头互相关模块的key和value为320
×
256的时空判别性图像特征,最后输出16
×
256的图像特征,即为自适应时空图像特征。
48.步骤210,将测试图像特征和自适应时空图像特征进行特征融合,得到混合图像特征。
49.具体地,服务器在得到自适应时空图像特征之后,结合上述测试图像特征进行特征融合,得到混合图像特征。
50.在一个实施例中,以transformer为例,将分块前的测试图像,即大小为16
×
16
×
256的测试图像特征重组为256
×
256的测试图像特征,将上述大小为16
×
256的自适应时空
图像特征和重组后测试图像特征输入到transformer互编码器中,每一层编码器包含一个标准的多头自相关模块,一个多头互相关模块,三个残差连接模块和一个多层感知机,多头自相关模块的的query,key和value为256
×
256的测试图像特征,输出特征大小为256
×
256的图像特征,将该图像特征经过一个残差连接层后作为多头互相关模块的query,多头互相关模块的key和value即为上述16
×
256的自适应时空图像特征,,输出特征大小为256
×
256的图像特征。该实施例中的transformer的互编码器包含两层,输出大小为256
×
256的混合图像特征。
51.步骤212,对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率。
52.其中,前景背景概率是指目标对象的前景概率和背景概率,其中前景概率为目标对象在目标边框中占用的可能性大小,背景概率是目标对象以外的场景信息在目标边框中占用的可能性大小。该可能性可以以百分比表示,也可以以分值形式表示。例如,前景概率为80%,表示目标对象占用目标边框的百分比为80%。前景概率和背景概率共同组成了目标边框内的图像特征,比如前景概率为80%,背景概率为20%。
53.在一个实施例中,服务器对混合图像特征进行处理,通过预测头网络得到包含目标对象的目标边框和目标对象在目标边框中的前景背景概率。可以理解的,预测头网络同样可以表述为预测网络。具体的,可以将该混合图像特征输入到预测网络内,预测网络包含两个分支网络,即分类网络和回归网络,分类网络包含一层全连接层,回归网络包含三层全连接层和relu(rectified linear unit)激活层。分类网络输出特征大小为16
×
16
×
2的图像特征,该图像特征对应前景背景概率;回归网络输出特征大小为16
×
16
×
4的图像特征,该图像特征对应的为目标边框的中心坐标、目标边框的长和目标边框的宽。
54.步骤214,基于目标边框和前景背景概率,确定跟踪的目标对象。
55.具体的,服务器得到目标边框以及前景背景概率之后,可以通过目标对象在目标边框中的前景背景概率确定跟踪的目标对象。例如,跟踪的目标对象为初始图像中某个动物,该动物前景背景概率中的前景概率为80%,将目标边框中前景概率为80%的某个动物作为跟踪的目标对象。
56.在一个实施例中,服务器根据前景背景概率与前景背景概率阈值进行比较,当目标对象的前景概率大于等于该前景背景概率阈值中的前景概率阈值时,确定为需要跟踪的目标对象;当目标对象的前景背景概率小于等于该前景背景概率阈值中的前景概率阈值时,非跟踪的目标对象;或者,当目标对象的背景概率小于等于该前景背景概率阈值中的背景概率阈值时,确定为需要跟踪的目标对象;当目标对象的背景概率大于等于该前景背景概率阈值中的背景概率阈值时,非跟踪的目标对象。
57.上述基于时空信息融合的判别性目标跟踪方法,通过获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应
时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。通过对测试图像特征以及训练图像特征集合的综合处理,得到目标对象对应的目标边框,以及目标对象的前景背景概率,从而提高了目标跟踪的准确性。
58.在一个实施例中,如图3所示,对初始图像进行处理,分别得到训练图像特征和测试图像特征包括:
59.步骤302,获取初始图像。
60.具体地,服务器连接图像或者视频获取设备,通过图像或者视频获取设备获取图像或者视频,将获取到的图像或者视频传输给服务器。
61.在一个实施例中,服务器可以对获取到的视频进行视频帧的提取,将提取到的视频帧作为初始图像。
62.步骤304,在初始图像中,获取目标对象对应的对象图像区域的中心坐标。
63.其中,对象图像区域是指存在对象的图像区域,该区域可以认为是将对象包括在内的边框区域。
64.具体的,服务器以对象图像区域的左上角为原点,以该原点的坐标,获取到对象图像区域的中心坐标。例如,以对象图像区域长表示h,宽表示为w为例,中心坐标为(w/2,-h/2)。
65.步骤306,获取对象图像区域对应的区域尺寸,基于区域尺寸以及尺寸外扩系数得到区域延伸值。
66.其中,尺寸外扩系数是指能够将尺寸扩大的系数。
67.具体的,服务器在获取到中心坐标之后,基于区域尺寸以及尺寸外扩系数,可以得到区域延伸值。例如,区域尺寸为w*h,尺寸外扩系数为4,则得到区域延伸值为4w*4h。可以理解的,选用外扩系数为4时,可以使得训练图像包含更多的场景信息。
68.步骤308,基于中心坐标以及区域延伸值向区域延伸值所对应的延伸方向进行延伸,得到延伸坐标。
69.具体的,服务器在得到区域延伸值之后,可以以对象图像区域的宽度方向以及对象图像区域的高度方向进行延伸,得到延伸坐标。可以理解的,该延伸坐标可以以中心坐标为参考坐标得到,也可以以图像区域的原点为参考坐标得到。
70.步骤310,将位于延伸坐标内的图像区域作为截取图像区域,将截取得到的图像分别确定为训练图像和测试图像,历史图像为历史图像集合中的任一图像。
71.具体的,服务器得到延伸坐标之后,根据延伸坐标对图像区域作为截取图像区域,分别可以得到训练图像和测试图像。
72.本实施例中,通过获取初始图像,在初始图像中,获取目标对象对应的对象图像区域的中心坐标,获取对象图像区域对应的区域尺寸,基于区域尺寸以及尺寸外扩系数得到区域延伸值,基于中心坐标以及区域延伸值向区域延伸值所对应的延伸方向进行延伸,得到延伸坐标,将位于延伸坐标内的图像区域作为截取图像区域,将截取得到的图像分别确定为训练图像和测试图像,能够达到准确获取训练图像特征和测试图像特征的目的。
73.在一个实施例中,对训练图像特征集合中的各个训练图像特征进行处理,得到时空判别性图像特征包括:对训练图像特征集合中的各个训练图像特征分块处理后进行卷
积,得到中间图像特征集合,将中间图像特征集合中的各个中间图像特征添加第二位置编码并提取时空场景信息,得到时空判别性图像特征。
74.在一个实施例中,以transformer为例,首先对训练图像特征进行分块操作,每4
×
4的空间区域作为一块图像特征,该块图像特征为原图像每个空间位置特征的串联,即将图像分辨率降维原来的1/16,通道数增加为原来的16倍,分块后特征大小为20
×4×4×
4096,接着采用一个1
×
1的卷积进行特征降维处理,得到特征大小为20
×4×4×
256,即为分块后训练图像特征,对分块后训练图像特征中的每一个4
×4×
256大小的特征添加预定义的4
×4×
256大小的第二空间位置编码,特征维度重组后得到320
×
256的特征,将该时空图像特征输入到transformer自编码器上,该编码器包含两层,每层包含一个标准的多头自相关模块,两个残差连接模块和一个多层感知机,多头自相关模块的key,value和query皆为320
×
256的分块重组后的训练图像特征,最后输出大小为320
×
256的图像特征,该图像特征即为时空判别性特征。该实施例中的中第二位置编码和步骤208第一位置编码相同。
75.在一个实施例中,如图4所示,对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率包括:
76.步骤402,获取预测网络,该预测网络包括回归网络和分类网络。
77.具体的,服务器通过感知机组成人工智能网络,将该人工智能网络确定为预测网络,在该预测网络中存在两个分支网络,分别为回归网络和分类网络,并且回归网络和分类网络为并行网络,每个网络有各自的功能。
78.步骤404,将混合图像特征输入到回归网络中进行处理,得到目标边框特征。
79.具体的,服务器将得到的混合图像特征输入预测网络中的回归网络中进行处理,得到预测到的目标边框特征,该目标边框特征表示为其中前两个数值表示预测的目标边框的中心坐标,后两个数值分别表示预测的目标边框的宽度和长度。
80.在一个实施例中,在回归网络中,由于远离目标对象中心的位置倾向于生成低质量的预测目标边框,因此若预测位置落在目标对象中心的椭圆区域外,则生成的预测值不会计算在回归损失内;若预测位置落在目标对象中心的椭圆区域内,则认为为预测的目标边框。回归网络的损失函数可以表示为:
[0081][0082]
其中的,b
(i,j)
表示真实的目标边框,表示预测的目标边框,iou表示真实的目标边框与预测的目标边框的并比函数,其中的表示为公式:
[0083][0084]
其中,x,y分别为真实的目标边框的中心坐标,和分别为预测的目标边框的中心坐标,w表示图像的宽度,h表示图像的高度。
[0085]
步骤406,将混合图像特征输入到分类网络中进行处理,得到前景背景概率。
[0086]
具体的,服务器将得到的混合图像特征输入预测网络中的分类网络中进行处理,得到目标对象在目标网络中的前景背景概率。
[0087]
在一个实施例中,在分类网络中的损失函数为交叉熵损失,表示为公式:
[0088][0089]
其中,n表示样本总数量,n表示样本。
[0090]
本实施例中,通过获取预测网络,该预测网络包括回归网络和分类网络,将混合图像特征输入到回归网络中进行处理,得到目标边框特征,将混合图像特征输入到分类网络中进行处理,得到前景背景概率,能够达到准确得到目标边框特征和前景背景概率的目的。
[0091]
在一个实施例中,回归网络包括第一全连接层和激活层,该分类网络包括第二全连接层,将混合图像特征输入到回归网络中进行处理,得到目标边框特征包括:将混合图像特征通过回归网络的第一输入层传输到第一全连接层,通过第一全连接层对混合图像特征进行处理,得到混合图像中间特征;利用激活层对混合图像中间特征进行非线性处理,得到目标边框特征;将混合图像特征输入到分类网络中进行处理,得到前景背景概率包括:将混合图像特征通过第二输入层传输到第二全连接层,第二全连接层包括至少一层;通过第二全连接层对混合图像特征进行分类,得到前景背景概率。
[0092]
具体的,在回归网络中包括有三层全连接层和激活层,服务器将混合图像特征通过该回归网络的输入层依次输入到三层的全连接层,输出的图像特征通过记激活层进行非线性处理后,得到目标边框特征。同时,服务器将混合图像特征通过分类网络的输入层传输到分类网络的全连接层,进行二分类处理后,得到前景背景概率。
[0093]
本实施例中,通过对回归网络和分类网络的具体层级设置,能够达到准确得到目标边框特征和前景背景概率的目的。
[0094]
在一个实施例中,如图5所示,基于时空信息融合的判别性目标跟踪方法还包括:
[0095]
步骤502,确定预测网络的网络损失值,该网络损失值包括回归网络对应的回归网络损失值和分类网络对应的分类网络损失值。
[0096]
具体的,可以通过回归网络损失值和分类网络损失值之间的加权计算,得到预测网络的网络损失值。
[0097]
在一个实施例中,预测网络的整体损失可以表示为公式:
[0098][0099]
其中的λ1=λ2=1为损失加权系数,可以结合上述公式(1)和公式(3)得到。
[0100]
步骤504,利用随机梯度下降法,朝着使损失值变小的方向调整网络参数,直至回归网络和分类网络均网络收敛;其中,网络收敛可以是网络损失值小于预设阈值或者训练次数达到预设次数的至少一个。
[0101]
具体的,服务器在得到预测网络的网络损失值之后,可以对该预测网络进行调整,直至预测网络中的回归网络和分类网络均网络收敛。例如,为了降低服务器的运行压力,将训练样本分成小样本集合,每个小样本集合中选择20对图像,该20对图像包括20个训练图像和20个测试图像,训练迭代次数为400次,前200次训练学习率设为0.0001,后200次训练学习率设为0.00001,直至网络损失值小于预设阈值,或者得到的目标边框特征和前景背景概率不再发生变化。
[0102]
本实施例中,通过确定预测网络的网络损失值,利用随机梯度下降法,朝着使损失
值变小的方向调整网络参数,直至回归网络和分类网络均网络收敛,能够达到更加准确得到目标边框特征和前景背景概率的目的。
[0103]
在一个实施例中,如图6所示,方法还包括:
[0104]
步骤602,获取当前图像对应的自适应时空图像特征,以及,当前图像对应的前向训练图像对应的第一更新自适应时空图像特征。
[0105]
其中,前向训练图像是指当前图像之前的图像,可以以图像的时间戳为判断基准,将时间戳在当前图像之前的图像,称之为前向训练图像。
[0106]
具体的,服务器通过执行获取初始图像,对该初始图像进行处理,得到训练图像特征或测试图像特征;对训练图像特征提取场景信息并添加第一位置编码,得到自适应时空图像特征之后,获取到当前图像对应的判别性图像特征,同时,通过初始判别性图像特征,可以得到前向训练图像对应的第一更新自适应时空图像特征。例如,当前图像对应的自适应时空图像特征表示为f
t
,当前图像对应的前向训练图像更新后的自适应时空图像特征表示为,当前图像的更新后的自适应时空图像特征表示为
[0107]
在一个实施例中,服务器通过获取视频中有预设间隔的两帧图像作为当前训练图像和前向训练图像。例如,前向训练图像和当前训练图像为间隔10帧的视频帧,以预测的包含目标对象的目标边框所在的图像区域为中心,在前向训练图像中裁剪出4
×
4倍图像区域大小的图像,作为新的当前训练图像。通过对当前训练图像和前向训练图像进行处理,获取到当前训练图像对应的自适应时空图像特征,以及,当前训练图像对应的前向训练图像对应的第一更新自适应时空图像特征。
[0108]
步骤604,根据自适应时空图像特征和第一更新自适应时空图像特征,得到当前训练图像的第二更新自适应时空图像特征。
[0109]
具体的,服务器在得到当前训练图像对应的自适应时空图像特征和前向训练图像对应的第一更新自适应时空图像特征之后,可以通过自适应时空图像特征、第一更新自适应时空图像特征和第二更新自适应时空图像特征之间的函数关系,得到当前训练图像的第二更新自适应时空图像特征。例如,假设当前训练图像对应的自适应时空图像特征表示为f
t
,当前训练图像对应的前向训练图像更新后的第一自适应时空图像特征表示为,当前训练图像的更新后的第二自适应时空图像特征表示为,则第二自适应时空图像特征表示为公式:
[0110][0111]
其中,γ表示更新参数,可以选取为0.01。
[0112]
可以理解的,将初始的自适应时空图像特征确定为f0,以此类推,不断更新每一帧图像的自适应时空图像特征。
[0113]
本实施例中,通过获取当前训练图像对应的自适应时空图像特征,以及,当前训练图像对应的前向训练图像对应的第一更新自适应时空图像特征,根据自适应时空图像特征和第一更新自适应时空图像特征,得到当前训练图像的第二更新自适应时空图像特征,能够达到准确得到当前训练图像的更新自适应时空图像特征,作为生成混合图像特征的特征之一,提高基于时空信息融合的判别性目标跟踪方法的鲁棒性。
[0114]
在一个实施例中,如图7所示,历史图像集合中的任意一副历史图像中的黑色框中为需要跟踪的目标对象,将历史图像集合经过cnn(convolutional neural networks)处理后,得到训练图像特征集合,将该训练图像特征集合中的各个训练图像特征进行分块和卷积处理后,输入到transformer自编码器中,得到时空判别性图像特征,并将该时空判别性图像特征输入到第一transformer互编码器中。将测试图像经过cnn处理后,得到测试图像特征,并将该测试图像特征进行分块和卷积处理后,输入到第一transformer互编码器中,经过第一transformer互编码器处理后,得到自适应时空图像特征,并将该自适应时空图像特征输入到第二transformer互编码器中,结合输入到第二transformer互编码器中的测试图像特征,得到混合图像特征,并将该混合图像特征输入到预测网络中,预测得到目标对象的目标边框以及目标对象的前景背景概率。
[0115]
在一个实施例中,如图8所示,在将训练图像特征输入到transformer自编码器,同时给该编码器输入的k(key)和q(query)处的特征的每一个空间位置加上绝对位置编码,输出和训练图像相同大小的特征图,即时空判别性图像特征。可以理解的,图中的h表示图像特征的长度,w表示图像特征的宽度,c表示图像特征的维度,m
×
表示有m个同样的模块,n
×
表示有n个同样的模块。
[0116]
在一个实施例中,上述第一transformer互编码器和第二transformer互编码器均包括如图9所示的结构,即包括1个自相关模块、3个残差连接模块、1个互相关模块和一个感知机,在该transformer互编码器中存在的两个输入,分别连接自相关模块和互相关模块,从残差连接模块输出。
[0117]
在一个实施例中,如图10所示,为预测头网络的结构,其包括两个感知机,分别输出前景背景概率和目标边框,输入端的输入为上述混合图像特征。
[0118]
下面对本发明提供的目标跟踪装置进行描述,下文描述的目标跟踪装置与上文描述的判别性可相互对应参照。
[0119]
在一个实施例中,如图11所示,提供了一种目标跟踪装置1100,包括:第一处理模块1102、第二处理模块1104、第三模块1106、第四模块1108、第五处理模块1110、第六处理模块1112和第七处理模块1114,其中:第一处理模块,用于获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;第二处理模块,用于对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;第三处理模块,用于对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;第四处理模块,用于对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;第五处理模块,用于将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;第六处理模块,用于对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;第七处理模块,用于基于目标边框和前景背景概率,确定跟踪的目标对象。
[0120]
在一个实施例中,第一处理模块1102,用于获取初始图像;在所述初始图像中,获取所述目标对象对应的对象图像区域的中心坐标;获取所述对象图像区域对应的区域尺寸,基于所述区域尺寸以及尺寸外扩系数得到区域延伸值;基于所述中心坐标以及所述区
域延伸值向所述区域延伸值所对应的延伸方向进行延伸,得到延伸坐标;将位于所述延伸坐标内的图像区域作为截取图像区域,将截取得到的图像分别确定为所述历史图像和测试图像;所述历史图像为所述历史图像集合中的任一图像。
[0121]
在一个实施例中,第三处理模块1106,用于对所述训练图像特征集合中的各个所述训练图像特征分块处理后进行卷积,得到中间图像特征集合,将所述中间图像特征集合中的各个中间图像特征添加第二位置编码并提取时空场景信息,得到时空判别性图像特征。
[0122]
在一个实施例中,第六处理模块1112,用于获取预测网络,所述预测网络包括回归网络和分类网络;将所述混合图像特征输入到所述回归网络中进行处理,得到所述目标边框特征;将所述混合图像特征输入到所述分类网络中进行处理,得到所述前景背景概率。
[0123]
在一个实施例中,第六处理模块1112,用于将所述混合图像特征通过所述回归网络的第一输入层传输到所述第一全连接层,通过所述第一全连接层对所述混合图像特征进行处理,得到混合图像中间特征;利用所述激活层对所述混合图像中间特征进行非线性处理,得到所述目标边框特征;将所述混合图像特征通过第二输入层传输到所述第二全连接层,所述第二全连接层包括至少一层;通过所述第二全连接层对所述混合图像特征进行分类,得到所述前景背景概率。
[0124]
在一个实施例中,基于时空信息融合的判别性目标跟踪装置,用于确定预测网络的网络损失值,网络损失值包括回归网络对应的回归网络损失值和分类网络对应的分类网络损失值;利用梯度下降法,朝着使损失值变小的方向调整网络参数,直至回归网络和分类网络均网络收敛;其中,网络收敛可以是网络损失值小于预设阈值或者训练次数达到预设次数的至少一个。
[0125]
在一个实施例中,基于时空信息融合的判别性目标跟踪装置,用于获取当前训练图像对应的自适应时空图像特征,以及,当前训练图像对应的前向训练图像对应的第一更新自适应时空图像特征;根据自适应时空图像特征和第一更新自适应时空图像特征,得到当前训练图像的第二更新自适应时空图像特征。
[0126]
图12示例了一种电子设备的实体结构示意图,如图12所示,该电子设备可以包括:处理器(processor)1210、通信接口(communications interface)1220、存储器(memory)1230和通信总线1240,其中,处理器1210,通信接口1220,存储器1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1230中的逻辑指令,以执行基于时空信息融合的判别性目标跟踪方法,该方法包括:获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。
[0127]
此外,上述的存储器1230中的逻辑指令可以通过软件功能单元的形式实现并作为
独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0128]
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述基于时空信息融合的判别性目标跟踪方法,该方法包括:获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。
[0129]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现基于时空信息融合的判别性目标跟踪方法,该方法包括:获取历史图像集合和测试图像,所述历史图像集合中的各个历史图像和所述测试图像中均包括待跟踪的目标对象;对所述历史图像集合中的各个所述历史图像进行处理,得到训练图像特征集合,以及,对所述测试图像进行处理,得到测试图像特征;对所述训练图像特征集合中的各个所述训练图像特征进行处理,得到时空判别性图像特征;对所述测试图像特征进行分块处理后进行卷积,并添加第一位置编码,得到目标测试图像特征;将所述时空判别性图像特征和所述目标测试图像特征进行特征融合,得到自适应时空图像特征;将所述测试图像特征和所述自适应时空图像特征进行特征融合,得到混合图像特征;对混合图像特征进行处理,得到包含目标对象的目标边框和目标对象的前景背景概率;基于目标边框和前景背景概率,确定跟踪的目标对象。
[0130]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0131]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0132]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献