一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于全局可缩放孪生网络的目标跟踪方法和装置与流程

2022-03-09 02:17:41 来源:中国专利 TAG:


1.本发明涉及深度学习和计算机视频技术领域,并且更具体地,涉及一种基于全局可缩放孪生网络的目标跟踪方法和装置,以及存储介质和电子设备。


背景技术:

2.随着高性能计算机的普及以及对视频分析技术不断增长的需求,目标跟踪研究成为了计算机视觉中重要的研究热点,并在视频监控、自动驾驶、医疗诊断等方面具有广泛的应用。近年来,由于深度学习的迅速发展,基于端到端学习的孪生网络在目标跟踪中引起了广泛关注。孪生神经网络是指包含两个或多个结构相同且共享权值的子网络,只需要一次向前操作并通过距离度量的方式计算输出向量的距离,它用于评估输入样本之间的相似程度。虽然基于孪生网络的跟踪算法取得了一些进步,但是这些方法仍然存在一些问题。首先,目标跟踪孪生网络的基准架构是比较浅的alexnet 网络,该结构无法充分利用深度网络的优势,当出现较为复杂的情况,比如快速运动或者分辨率低等问题时,该网络无法捕获较为鲁棒的目标特征;其次,如何充分平衡基准架构的深度、宽度和分辨率来提高目标跟踪的准确率和效率还有待解决;第三,在目前的目标跟踪深度网络中,由于输出的特征图只能感受到对应输入特征图周围点的信息,使得深度网络利用非局部信息存在不足,从而导致跟踪器的判别能力较弱,对目标外观变化不鲁棒。


技术实现要素:

3.为了解决现有技术中的目标跟踪孪生网络针对复杂情况无法捕获鲁棒的目标特征,目标跟踪的准确率和效率不高,以及利用非局部信息存在不足的技术问题,本发明的实施例提供一种基于全局可缩放孪生网络的目标跟踪方法和装置,以及存储介质和电子设备。
4.根据本发明实施例的一个方面,提供了一种基于全局可缩放孪生网络的目标跟踪方法,所述方法包括:
5.步骤101、确定进行目标跟踪的目标区域的模板图像和搜索图像;
6.步骤102、将所述模板图像输入预先建立的最优全局可缩放孪生网络模型的目标分支,以及所述搜索图像输入所述最优全局可缩放孪生网络模型的搜索分支,得到所述模板图像和搜索图像之间的得分响应图;
7.步骤103、将得分响应图中得分最大值所在的位置映射到搜索图像中作为目标区域的中心点在搜索图像中对应的位置。
8.可选地,在本发明上述各方法实施例中,其中确定进行目标跟踪的目标区域的模板图像和搜索图像之前还包括建立最优全局可缩放网络模型,其中:
9.步骤201,获取训练数据集,其中,所述训练数据集中包括多个训练数据,每个训练数据包括1个训练视频,以及所述训练视频的训练图像序列,所述训练图像序列包含训练视频的多帧训练图像;
10.步骤202,对所述训练数据进行预处理,生成多个训练图像对;
11.步骤203,将所述多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,生成c个待验证全局可缩放孪生网络,其中,所述初始全局可缩放孪生网络的目标分支包括可缩放孪生网络和与可缩放孪生网络连接的全局注意力网络,搜索分支只包括可缩放孪生网络,其中,c 为自然数;
12.步骤204,获取测试数据集,其中,所述测试数据集中包括多个测试数据,每个测试数据包括1个测试视频,以及所述测试视频的测试图像序列,所述测试图像序列包括多帧测试图像,所述测试图像序列中的每帧图像按照视频时间顺序从1开始进行编号,且第1帧测试图像已经标注目标区域;
13.步骤205,对所述测试数据进行预处理,生成多个测试图像对;
14.步骤206,将多个测试图像对作为c个待验证全局可缩放孪生网络的目标分支和搜索分支的输入,得到c个待验证全局可缩放孪生网络输出的响应图;
15.步骤207、根据每个待验证全局可缩放孪生网络输出的响应图确定测试图像对对应的目标区域的中心点在待验证全局可缩放孪生网络的搜索分支的输入中对应的目标位置,其中,所述测试图像对对应的目标区域是指测试图像对对应的测试视频的测试图像序列的第1帧图像中标注的目标区域;
16.步骤208,根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度;
17.步骤209,将测试精确度最高的待验证全局可缩放孪生网络作为最优全局可缩放网络。
18.可选地,在本发明上述各方法实施例中,其中对所述训练数据进行预处理,生成多个训练图像对包括:
19.步骤301,在训练数据集中选取多个训练视频,从选取的每个训练视频的训练图像序列中选取训练图像z和训练图像x;
20.步骤302,在训练图像z中划定跟踪的目标区域为(width,height);
21.步骤303,对训练图像z和训练图像x进行裁剪生成训练图像对(z,x),其中,对训练图像z进行裁剪生成训练图像z,训练图像z在训练图像z 上的裁剪区域为a
×
a,a2=(width p)
×
(height p),对训练图像x进行裁剪生成训练图像x,训练图像x在训练图像x上的裁剪区域为2a
×
2a, (2a)2=2(width p)
×
2(height p),p=(width height)/2。
22.可选地,在本发明上述各方法实施例中,其中将多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,一共训练c次,生成c个待验证全局可缩放孪生网络包括:
23.步骤401,将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,1≤t≤t,1≤c≤c,c,t 的初始值为1,t为生成一个待验证全局可缩放孪生网络时,对初始全局可缩放网络进行迭代训练的次
数;
24.步骤402,目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图;
25.步骤403,根据第三搜索特征图和全局特征图计算训练图像对(z,x) 的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数;
26.步骤404,采用随机梯度下降算法最小化损失函数,生成初始全局可缩放网络的卷积网络参数θ
c(t 1)
,当c<c,t 1≤t时,令t 1=t,返回步骤401;当c<c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络,并令c 1=c,t=1,返回步骤 401;当c=c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络。
27.可选地,在本发明上述各方法实施例中,其中将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图包括:
28.步骤501,将训练图像对(z,x)中的训练图像z输入目标分支的可缩放孪生网络的卷积层,将训练图像x输入搜索分支的可缩放孪生网络的卷积层,其中,所述目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络包括卷积层、裁剪层和缩放卷积层,缩放卷积层被裁剪层分隔;
29.步骤502,按照初始全局可缩放网络的卷积网络参数θ
ct
,目标分支的可缩放孪生网络的卷积层提取训练图像z的特征,生成第一目标特征图,以及按照初始全局可缩放网络的卷积网络参数θ
ct
,搜索分支的可缩放孪生网络的卷积层提取训练图像x的特征,生成第一搜索特征图;
30.步骤503,目标分支的可缩放孪生网络的裁剪层对第一目标特征图进行裁剪,去除零填充信号,生成第二目标特征图;以及搜索分支的可缩放孪生网络的裁剪层对第一搜索特征图进行裁剪,去除零填充信号,生成第二搜索特征图;
31.步骤504,按照预先的设置目标分支和搜索分支的可缩放孪生网络的缩放卷积层的网络步长,目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图。
32.可选地,在本发明上述各方法实施例中,其中目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,缩放公式的表达式为
[0033][0034][0035]
[0036][0037]
α≥1,β≥1,γ≥1
[0038]
其中,和分别代表可缩放孪生网络的深度,宽度和分辨率三个维度,α,β和γ是由小范围网格搜索获得的常量,μ是控制模型缩放的指定系数。
[0039]
可选地,在本发明上述各方法实施例中,其中目标分支和搜索分支的可缩放孪生网络的缩放卷积层分别采用缩放公式对目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络进行训练包括:
[0040]
固定μ为1,小范围网格搜索获得α,β,γ;
[0041]
固定α,β和γ的值,采用不同的μ值缩放网络以生成待验证可缩放孪生网络。
[0042]
可选地,在本发明上述各方法实施例中,其中目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图包括:
[0043]
令第三目标特征图为目标分支的全局注意力网络将分成三个特征图和其中:
[0044][0045][0046][0047]
式中,代表权重矩阵,φ(zi)代表中第i个区域的特征表示;
[0048]
根据特征图和特征图确定注意力图,其中,注意力图的计算公式为:
[0049][0050]
式中,φ(zj)代表中第j个区域的特征表示,n为中划分的区域的总数量;
[0051]
根据注意力图和特征图通过最大池化层得到全局特征图,其中,全局特征图的表达式为:
[0052][0053]
可选地,在本发明上述各方法实施例中,其中根据第三搜索特征图和全局特征图计算训练图像对(z,x)的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定所述响应得分映射的损失函数包括:
[0054]
采用预先设置的相似性度量函数计算第三搜索特征图和全局特征图中各个位置的相似度值,将所述相似度值f(z,x;θ
ct
)作为训练图像对(z,x) 的响应得分映射,并生成得分响应图,其中,f(z,x)的表达式为:
[0055][0056]
式中,*代表交叉相关运算,和分别表示第三目标特征图和第三搜索特征图,m(
·
)表示从全局注意力网络计算得到的特征表示,b为偏置项;
[0057]
结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数,其中,所述损失函数的表达方式为:
[0058][0059]
式中,代表得分响应图中的位置相对于目标区域的真实标签,表示响应图中的全部位置,表示响应图中的位置对应的响应得分映射中的相似度值,表示逻辑回归损失函数,其中,的表达式为:
[0060][0061]
可选地,在本发明上述各方法实施例中,其中根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度包括:
[0062]
计算目标位置和测试图像对对应的目标区域的中心点之间的欧氏距离;
[0063]
对计算的欧氏距离按照数值大小进行排序,其中,数据越小,测试精确度越高。
[0064]
可选地,在本发明上述各方法实施例中,确定进行目标跟踪的目标区域的模板图像和搜索图像包括:
[0065]
在拟进行目标跟踪的视频的图像序列中选择第1帧图像作为待裁剪模板图像,其中,所述图像序列包括多帧图像,所述图像序列中的每帧图像按照视频时间顺序从1开始进行编号;
[0066]
在所述待裁剪模板图像中划定目标区域(width,height);
[0067]
在所述图像序列中选择图像编号大于待裁剪模板图像的图像作为待裁剪搜索图像;
[0068]
对所述待裁剪模板图像和待裁剪搜索图像进行裁剪生成训练图像对(z, x),其中,图像z为模板图像,图像z在待裁剪模板图像上的裁剪区域为 a
×
a,a2=(width p)
×
(height p),图像x为搜索图像,图像x在待裁剪搜索图像上的裁剪区域为2a
×
2a,(2a)2=2(width p)
×
2(height p), p=(width height)/2。
[0069]
根据本发明实施例的另一个方面,本发明提供基于全局可缩放孪生网络的目标跟踪装置,所述装置包括:
[0070]
图像确定单元,用于确定进行目标跟踪的目标区域的模板图像和搜索图像;
[0071]
得分响应单元,用于将所述模板图像输入预先建立的最优全局可缩放孪生网络模型的目标分支,以及所述搜索图像输入所述最优全局可缩放孪生网络模型的搜索分支,得到所述模板图像和搜索图像之间的得分响应图;
[0072]
目标跟踪单元,用于将得分响应图中得分最大值所在的位置映射到搜索图像中作为目标区域的中心点在搜索图像中对应的位置。
[0073]
可选地,在本发明上述各装置实施例中,所述装置还包括模型建立单元,用于建立最优全局可缩放网络模型,其包括:
[0074]
第一采集单元,用于获取训练数据集,其中,所述训练数据集中包括多个训练数据,每个训练数据包括1个训练视频,以及所述训练视频的训练图像序列,所述训练图像序列包含训练视频的多帧训练图像;
[0075]
第一预处理单元,用于对所述训练数据进行预处理,生成多个训练图像对;
[0076]
模型训练单元,用于将所述多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,生成c个待验证全局可缩放孪生网络,其中,所述初始全局可缩放孪生网络的目标分支包括可缩放孪生网络和与可缩放孪生网络连接的全局注意力网络,搜索分支只包括可缩放孪生网络,其中,c为自然数;
[0077]
第二采集单元,用于获取测试数据集,其中,所述测试数据集中包括多个测试数据,每个测试数据包括1个测试视频,以及所述测试视频的测试图像序列,所述测试图像序列包括多帧测试图像,所述测试图像序列中的每帧图像按照视频时间顺序从1开始进行编号,且第1帧测试图像已经标注目标区域;
[0078]
第二预处理单元,用于对所述测试数据进行预处理,生成多个测试图像对;
[0079]
模型测试单元,用于将多个测试图像对作为c个待验证全局可缩放孪生网络的目标分支和搜索分支的输入,得到c个待验证全局可缩放孪生网络输出的响应图;
[0080]
目标位置单元,用于根据每个待验证全局可缩放孪生网络输出的响应图确定测试图像对对应的目标区域的中心点在待验证全局可缩放孪生网络的搜索分支的输入中对应的目标位置,其中,所述测试图像对对应的目标区域是指测试图像对对应的测试视频的测试图像序列的第1帧图像中标注的目标区域;
[0081]
精度计算单元,用于根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度;
[0082]
模型确定单元,用于将测试精确度最高的待验证全局可缩放孪生网络作为最优全局可缩放网络。
[0083]
可选地,在本发明上述各装置实施例中,第一预处理单元对所述训练数据进行预处理,生成多个训练图像对包括:
[0084]
步骤301,在训练数据集中选取多个训练视频,从选取的每个训练视频的训练图像序列中选取训练图像z和训练图像x;
[0085]
步骤302,在训练图像z中划定跟踪的目标区域为(width,height);
[0086]
步骤303,对训练图像z和训练图像x进行裁剪生成训练图像对(z,x),其中,对训练图像z进行裁剪生成训练图像z,训练图像z在训练图像z 上的裁剪区域为a
×
a,a2=(width p)
×
(height p),对训练图像x进行裁剪生成训练图像x,训练图像x在训练图像x上的裁剪区域为2a
×
2a, (2a)2=2(width p)
×
2(height p),p=(width height)/2。
[0087]
可选地,在本发明上述各装置实施例中,模型训练单元将多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,一共训练 c次,生成c个待验证全局可缩放孪生网络包括:
[0088]
目标特征图单元,用于将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,1≤t≤t,1≤c ≤c,c,t的初始值为1,t为生成一个待验证全局可缩放孪生网络时,对初始全局可缩放网络进行迭代训练的次数;
[0089]
全局特征图单元,用于在目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图;
[0090]
损失函数单元,用于根据第三搜索特征图和全局特征图计算训练图像对(z,x)的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数;
[0091]
模型生成单元,采用随机梯度下降算法最小化损失函数,生成初始全局可缩放网络的卷积网络参数θ
c(t 1)
,当c<c,t 1≤t时,令t 1=t,返回步骤401;当c<c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络,并令c 1=c,t=1,返回步骤401;当c=c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络。
[0092]
可选地,在本发明上述各装置实施例中,目标特征图单元将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图包括:
[0093]
步骤501,将训练图像对(z,x)中的训练图像z输入目标分支的可缩放孪生网络的卷积层,将训练图像x输入搜索分支的可缩放孪生网络的卷积层,其中,所述目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络包括卷积层、裁剪层和缩放卷积层,缩放卷积层被裁剪层分隔;
[0094]
步骤502,按照初始全局可缩放网络的卷积网络参数θ
ct
,目标分支的可缩放孪生网络的卷积层提取训练图像z的特征,生成第一目标特征图,以及按照初始全局可缩放网络的卷积网络参数θ
ct
,搜索分支的可缩放孪生网络的卷积层提取训练图像x的特征,生成第一搜索特征图;
[0095]
步骤503,目标分支的可缩放孪生网络的裁剪层对第一目标特征图进行裁剪,去除零填充信号,生成第二目标特征图;以及搜索分支的可缩放孪生网络的裁剪层对第一搜索特征图进行裁剪,去除零填充信号,生成第二搜索特征图;
[0096]
步骤504,按照预先的设置目标分支和搜索分支的可缩放孪生网络的缩放卷积层的网络步长,目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图。
[0097]
可选地,在本发明上述各装置实施例中,目标特征图单元的目标分支的可缩放孪
生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,缩放公式的表达式为
[0098][0099][0100][0101][0102]
α≥1,β≥1,γ≥1
[0103]
其中,和分别代表可缩放孪生网络的深度,宽度和分辨率三个维度,α,β和γ是由小范围网格搜索获得的常量,μ是控制模型缩放的指定系数。
[0104]
可选地,在本发明上述各装置实施例中,目标特征图单元的目标分支和搜索分支的可缩放孪生网络的缩放卷积层分别采用缩放公式对目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络进行训练包括:
[0105]
固定μ为1,小范围网格搜索获得α,β,γ;
[0106]
固定α,β和γ的值,采用不同的μ值缩放网络以生成待验证可缩放孪生网络。
[0107]
可选地,在本发明上述各装置实施例中,全局特征图单元的目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图包括:
[0108]
令第三目标特征图为目标分支的全局注意力网络将分成三个特征图和其中:
[0109][0110][0111][0112]
式中,代表权重矩阵,φ(zi)代表中第i个区域的特征表示;
[0113]
根据特征图和特征图确定注意力图,其中,注意力图的计算公式为:
[0114][0115]
式中,φ(zj)代表中第j个区域的特征表示,n为中划分的区域的总数量;
[0116]
根据注意力图和特征图通过最大池化层得到全局特征图,其中,全局特征图的表达式为:
[0117][0118]
可选地,在本发明上述各装置实施例中,损失函数单元根据第三搜索特征图和全局特征图计算训练图像对(z,x)的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定所述响应得分映射的损失函数包括:
[0119]
采用预先设置的相似性度量函数计算第三搜索特征图和全局特征图中各个位置的相似度值,将所述相似度值f(z,x;θ
ct
)作为训练图像对(z,x) 的响应得分映射,并生成得分响应图,其中,f(z,x)的表达式为:
[0120][0121]
式中,*代表交叉相关运算,和分别表示第三目标特征图和第三搜索特征图,m(
·
)表示从全局注意力网络计算得到的特征表示,b为偏置项;
[0122]
结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数,其中,所述损失函数的表达方式为:
[0123][0124]
式中,代表得分响应图中的位置相对于目标区域的真实标签,表示响应图中的全部位置,表示响应图中的位置对应的响应得分映射中的相似度值,表示逻辑回归损失函数,其中,的表达式为:
[0125][0126]
可选地,在本发明上述各装置实施例中,精度计算单元根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度包括:
[0127]
计算目标位置和测试图像对对应的目标区域的中心点之间的欧氏距离;
[0128]
对计算的欧氏距离按照数值大小进行排序,其中,数据越小,测试精确度越高。
[0129]
可选地,在本发明上述各装置实施例中,图像确定单元确定进行目标跟踪的目标区域的模板图像和搜索图像包括:
[0130]
在拟进行目标跟踪的视频的图像序列中选择第1帧图像作为待裁剪模板图像,其中,所述图像序列包括多帧图像,所述图像序列中的每帧图像按照视频时间顺序从1开始进行编号;
[0131]
在所述待裁剪模板图像中划定目标区域(width,height);
[0132]
在所述图像序列中选择图像编号大于待裁剪模板图像的图像作为待裁剪搜索图像;
[0133]
对所述待裁剪模板图像和待裁剪搜索图像进行裁剪生成训练图像对(z, x),其中,图像z为模板图像,图像z在待裁剪模板图像上的裁剪区域为 a
×
a,a2=(width p)
×
(height p),图像x为搜索图像,图像x在待裁剪搜索图像上的裁剪区域为2a
×
2a,(2a)2=2(width p)
×
2(height p), p=(width height)/2。
[0134]
根据本发明实施例的又一方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一实施例所述的基于全局可缩放孪生网络的目标跟踪方法。
[0135]
根据本发明实施例的又一方面,本发明提供一种电子设备,所述电子设备包括:
[0136]
处理器;
[0137]
用于存储所述处理器可执行指令的存储器;
[0138]
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现本发明上述任一实施例所述的基于全局可缩放孪生网络的目标跟踪方法。
[0139]
基于本发明上述实施例提供的基于全局可缩放孪生网络的目标跟踪方法和装置,以及存储介质和电子设备,其方法包括:确定进行目标跟踪的目标区域的模板图像和搜索图像;将所述模板图像输入预先建立的最优全局可缩放孪生网络模型的目标分支,以及所述搜索图像输入所述最优全局可缩放孪生网络模型的搜索分支,得到所述模板图像和搜索图像之间的得分响应图;将得分响应图中得分最大值所在的位置映射到搜索图像中作为目标区域的中心点在搜索图像中对应的位置。所述于全局可缩放孪生网络的目标跟踪方法和装置,以及存储介质和电子设备提出了一个基于两个网络级联的可缩放孪生网络框架,该框架通过平衡网络的深度、宽度和分辨率获得合适的网络缩放模型,提高了跟踪准确率,同时,构建全局注意力网络提取视频的全局信息,能够更好地描述视频中同一空间的像素关联,使获得的目标特征更鲁棒,从而可以灵活地生成目标的定位框,获取高效外观特征表达能力,提高了目标跟踪的准确度和效率。
[0140]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0141]
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
[0142]
图1为本发明一示例性实施例提供的基于全局可缩放孪生网络的目标跟踪方法的流程图;
[0143]
图2为本发明一示例性实施例提供的基于全局可缩放孪生网络生成模板图像和搜索图像的得分响应图的示意图;
[0144]
图3为本发明一示例性实施例提供的全局注意力网络生成全局特征图的示意图;
[0145]
图4为本发明一示例性实施例提供的基于全局可缩放孪生网络的目标跟踪装置的结构示意图;
[0146]
图5为本发明一示例性实施例提供的电子设备的结构示意图。
具体实施方式
[0147]
下面,将参考附图详细地描述本发明的示例实施例。显然,所描述的示例实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
[0148]
应注意到:除非另外具体说明,否则在这些示例实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0149]
本领域技术人员可以理解,本发明示例实施例中的“第一”、“第二”等术语仅用于
区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
[0150]
还应理解,在本发明示例实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
[0151]
还应理解,对于本发明示例实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
[0152]
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0153]
还应理解,本发明对各个示例实施例的描述着重强调各个示例实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
[0154]
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0155]
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
[0156]
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
[0157]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0158]
本发明示例实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
[0159]
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
[0160]
示例性方法
[0161]
图1为本发明一示例性实施例提供的基于全局可缩放孪生网络的目标跟踪方法的流程图,本实施例可应用在电子设备上。如图1所示,本示例实施例所述的基于全局可缩放孪生网络的目标跟踪方法从步骤101开始。
[0162]
在步骤101,确定进行目标跟踪的目标区域的模板图像和搜索图像。
[0163]
可选地,其中确定进行目标跟踪的目标区域的模板图像和搜索图像之前还包括建立最优全局可缩放网络模型,其中:
[0164]
步骤201,获取训练数据集,其中,所述训练数据集中包括多个训练数据,每个训练
数据包括1个训练视频,以及所述训练视频的训练图像序列,所述训练图像序列包含训练视频的多帧训练图像。
[0165]
在一个实施例中,选择image net large scale visual recognitionchallenge(ilsvrc)数据集作为训练数据集。ilsvrc数据集包括4400多个视频和一百万张带标签的图像,数量庞大的训练数据有效保证了全局可缩放网络模型可以被充分训练。
[0166]
步骤202,对所述训练数据进行预处理,生成多个训练图像对。
[0167]
可选地,其中对所述训练数据进行预处理,生成多个训练图像对包括:
[0168]
步骤301,在训练数据集中选取多个训练视频,从选取的每个训练视频的训练图像序列中选取训练图像z和训练图像x;
[0169]
步骤302,在训练图像z中划定跟踪的目标区域为(width,height);
[0170]
步骤303,对训练图像z和训练图像x进行裁剪生成训练图像对(z,x),其中,对训练图像z进行裁剪生成训练图像z,训练图像z在训练图像z 上的裁剪区域为a
×
a,a2=(width p)
×
(height p),对训练图像x进行裁剪生成训练图像x,训练图像x在训练图像x上的裁剪区域为2a
×
2a, (2a)2=2(width p)
×
2(height p),p=(width height)/2。
[0171]
在一个实施例中,在针对选择的训练视频抽取训练图像时,按照在训练图像序列中的间隔小于100帧的标准来进行抽取。
[0172]
步骤203,将所述多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,生成c个待验证全局可缩放孪生网络,其中,所述初始全局可缩放孪生网络的目标分支包括可缩放孪生网络和与可缩放孪生网络连接的全局注意力网络,搜索分支只包括可缩放孪生网络,其中,c 为自然数。
[0173]
图2为本发明一示例性实施例提供的基于全局可缩放孪生网络生成模板图像和搜索图像的得分响应图的示意图。如图2所示,本实施例所述的全局可缩放孪生网络模型包括目标分支和搜索分支,其中,目标分支包括可缩放孪生网络和与可缩放孪生网络连接的全局注意力网络,而搜索分支只包括可缩放孪生网络。模板图像和搜索图像分别作为目标分支和搜索分支的输入,经过处理后分别生成全局特征图和第三搜索特征图,再将全局特征图和第三搜索特征图通过相似性函数计算相似度,从而得到全局特征图和第三搜索特征图之间的得分响应图。
[0174]
可选地,其中将多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,一共训练c次,生成c个待验证全局可缩放孪生网络包括:
[0175]
步骤401,将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,1≤t≤t,1≤c≤c,c,t 的初始值为1,t为生成一个待验证全局可缩放孪生网络时,对初始全局可缩放网络进行迭代训练的次数;
[0176]
步骤402,目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征
图;
[0177]
步骤403,根据第三搜索特征图和全局特征图计算训练图像对(z,x) 的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数;
[0178]
步骤404,采用随机梯度下降算法最小化损失函数,生成初始全局可缩放网络的卷积网络参数θ
c(t 1)
,当c<c,t 1≤t时,令t 1=t,返回步骤401;当c<c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络,并令c 1=c,t=1,返回步骤 401;当c=c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络。
[0179]
可选地,其中将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图包括:
[0180]
步骤501,将训练图像对(z,x)中的训练图像z输入目标分支的可缩放孪生网络的卷积层,将训练图像x输入搜索分支的可缩放孪生网络的卷积层,其中,所述目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络包括卷积层、裁剪层和缩放卷积层,缩放卷积层被裁剪层分隔。
[0181]
步骤502,按照初始全局可缩放网络的卷积网络参数θ
ct
,目标分支的可缩放孪生网络的卷积层提取训练图像z的特征,生成第一目标特征图,以及按照初始全局可缩放网络的卷积网络参数θ
ct
,搜索分支的可缩放孪生网络的卷积层提取训练图像x的特征,生成第一搜索特征图。
[0182]
步骤503,目标分支的可缩放孪生网络的裁剪层对第一目标特征图进行裁剪,去除零填充信号,生成第二目标特征图;以及搜索分支的可缩放孪生网络的裁剪层对第一搜索特征图进行裁剪,去除零填充信号,生成第二搜索特征图。
[0183]
步骤504,按照预先的设置目标分支和搜索分支的可缩放孪生网络的缩放卷积层的网络步长,目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图。
[0184]
在目标跟踪中,由于网络填充(padding)和网络步长(stride)影响了目标的位移的准确性,反而导致跟踪效果较差。因此,为了适应目标跟踪,在一个实施例中,采用裁剪层去掉零填充信号,以消除零填充信号对特征计算带来的影响,同时修改缩放卷积层的网络步长为4获得合适感受野大小。
[0185]
可选地,其中目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,缩放公式的表达式为
[0186][0187]
[0188][0189][0190]
α≥1,β≥1,γ≥1
[0191]
其中,和分别代表可缩放孪生网络的深度,宽度和分辨率三个维度,α,β和γ是由小范围网格搜索获得的常量,μ是控制模型缩放的指定系数。
[0192]
可选地,其中目标分支和搜索分支的可缩放孪生网络的缩放卷积层分别采用缩放公式对目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络进行训练包括:
[0193]
固定μ为1,小范围网格搜索获得α,β,γ;
[0194]
固定α,β和γ的值,采用不同的μ值缩放网络以生成待验证可缩放孪生网络。
[0195]
可选地,其中目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图包括:
[0196]
令第三目标特征图为目标分支的全局注意力网络将分成三个特征图和其中:
[0197][0198][0199][0200]
式中,代表权重矩阵,φ(zi)代表中第i个区域的特征表示;
[0201]
根据特征图和特征图确定注意力图,其中,注意力图的计算公式为:
[0202][0203]
式中,φ(zj)代表中第j个区域的特征表示,n为中划分的区域的总数量;
[0204]
根据注意力图和特征图通过最大池化层得到全局特征图,其中,全局特征图的表达式为:
[0205][0206]
传统的神经网络模型在生成图像特征图后一般接全连接层生成全局特征图,而全连接层的参数量过多降低了模型的训练速度,且过度密集的参数导致过拟合更容易发生,因此,本实施例中将可缩放孪生网络输出的特征图通过分成三个特征图,利用其中两个特征图生成注意力图后,将注意力图和第三个特征图相乘,通过最大池化层得到全局特征图。
[0207]
图4为本发明一示例性实施例提供的基于全局可缩放孪生网络的目标跟踪装置的结构示意图。如图4所示,全局注意力网络将可缩放孪生网络输出的第三目标特征图
分成三个特征图和根据特征图和特征图相乘确定注意力图后,再将注意力图和特征图相乘后的结果矩阵输入最大池化层,最大池化层通过取结果矩阵中每层特征映射的最大值组成一维向量的方式得到全局特征图,本实施例中通过将结果矩阵送入最大池化层,取结果矩阵中每层特征映射的最大值组成一维向量的方式得到全局特征图,适当降低了模型的拟合能力,从而提高了模型泛化能力。
[0208]
可选地,其中根据第三搜索特征图和全局特征图计算训练图像对(z,x) 的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定所述响应得分映射的损失函数包括:
[0209]
采用预先设置的相似性度量函数计算第三搜索特征图和全局特征图中各个位置的相似度值,将所述相似度值f(z,x;θ
ct
)作为训练图像对(z,x) 的响应得分映射,并生成得分响应图,其中,f(z,x)的表达式为:
[0210][0211]
式中,*代表交叉相关运算,和分别表示第三目标特征图和第三搜索特征图,m(
·
)表示从全局注意力网络计算得到的特征表示,b为偏置项;
[0212]
结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数,其中,所述损失函数的表达方式为:
[0213][0214]
式中,代表得分响应图中的位置相对于目标区域的真实标签,表示响应图中的全部位置,表示响应图中的位置对应的响应得分映射中的相似度值,表示逻辑回归损失函数,其中,的表达式为:
[0215][0216]
在一个实施例中,根据得分响应图中的位置在搜索图像中对应的位置是否位于目标区域中,的取值为1或者-1。
[0217]
步骤204,获取测试数据集,其中,所述测试数据集中包括多个测试数据,每个测试数据包括1个测试视频,以及所述测试视频的测试图像序列,所述测试图像序列包括多帧测试图像,所述测试图像序列中的每帧图像按照视频时间顺序从1开始进行编号,且第1帧测试图像已经标注目标区域。
[0218]
在一个实施例中,将已经标注目标区域的视频和其对应的图像序列作为测试数据生成测试数据集。
[0219]
步骤205,对所述测试数据进行预处理,生成多个测试图像对。生成测试图像对的方法与生成训练图像对的方法相同,此处不再赘述。
[0220]
步骤206,将多个测试图像对作为c个待验证全局可缩放孪生网络的目标分支和搜索分支的输入,得到c个待验证全局可缩放孪生网络输出的响应图。将多个测试图像对作为
c个待验证全局可缩放孪生网络的目标分支和搜索分支的输入,得到c个待验证全局可缩放孪生网络输出的响应图,与将多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,得到初始全局可缩放孪生网络和响应图的步骤相同,此处亦不再赘述。
[0221]
步骤207、根据每个待验证全局可缩放孪生网络输出的响应图确定测试图像对对应的目标区域的中心点在待验证全局可缩放孪生网络的搜索分支的输入中对应的目标位置,其中,所述测试图像对对应的目标区域是指测试图像对对应的测试视频的测试图像序列的第1帧图像中标注的目标区域。
[0222]
可选地,其中根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度包括:
[0223]
计算目标位置和测试图像对对应的目标区域的中心点之间的欧氏距离;
[0224]
对计算的欧氏距离按照数值大小进行排序,其中,数据越小,测试精确度越高。
[0225]
步骤208,根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度。
[0226]
步骤209,将测试精确度最高的待验证全局可缩放孪生网络作为最优全局可缩放网络。
[0227]
在一个实施例中,采用相同的训练图像进行多次模型训练,得到多个待验证全局可缩放孪生网络,然后通过比较待验证全局可缩放孪生网络的精确度,选择精确度最高的待验证全局可缩放孪生网络作为最优全局可缩放孪生网络模型,充分保证了进行目标跟踪的网络模型的准确度,从而提高了视频图像目标跟踪的准确度。
[0228]
在步骤102,将所述模板图像输入预先建立的最优全局可缩放孪生网络模型的目标分支,以及所述搜索图像输入所述最优全局可缩放孪生网络模型的搜索分支,得到所述模板图像和搜索图像之间的得分响应图。
[0229]
在一个实施例中,通过模型训练和模型测试确定最优全局可缩放网络模型后,所述最优全局可缩放孪生网络也包括目标分支和搜索分支,其中,目标分支由可缩放孪生网络和与可缩放孪生网络连接的全局注意力网络构成,搜索分支则只包括可缩放孪生网络,其中,两个可缩放孪生网络共享参数。
[0230]
在步骤103,将得分响应图中得分最大值所在的位置映射到搜索图像中作为目标区域的中心点在搜索图像中对应的位置。
[0231]
示例性装置
[0232]
图4是本发明一示例性实施例提供的基于全局可缩放孪生网络的目标跟踪装置的结构示意图。如图4所示,本实施例所述的基于全局可缩放孪生网络的目标跟踪装置400包括:
[0233]
图像确定单元441,用于确定进行目标跟踪的目标区域的模板图像和搜索图像;
[0234]
得分响应单元442,用于将所述模板图像输入预先建立的最优全局可缩放孪生网络模型的目标分支,以及所述搜索图像输入所述最优全局可缩放孪生网络模型的搜索分支,得到所述模板图像和搜索图像之间的得分响应图;
[0235]
目标跟踪单元443,用于将得分响应图中得分最大值所在的位置映射到搜索图像中作为目标区域的中心点在搜索图像中对应的位置。
[0236]
可选地,所述装置还包括模型建立单元,用于建立最优全局可缩放网络模型,其包
括:
[0237]
第一采集单元,用于获取训练数据集,其中,所述训练数据集中包括多个训练数据,每个训练数据包括1个训练视频,以及所述训练视频的训练图像序列,所述训练图像序列包含训练视频的多帧训练图像;
[0238]
第一预处理单元,用于对所述训练数据进行预处理,生成多个训练图像对;
[0239]
模型训练单元,用于将所述多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,生成c个待验证全局可缩放孪生网络,其中,所述初始全局可缩放孪生网络的目标分支包括可缩放孪生网络和与可缩放孪生网络连接的全局注意力网络,搜索分支只包括可缩放孪生网络,其中,c为自然数;
[0240]
第二采集单元,用于获取测试数据集,其中,所述测试数据集中包括多个测试数据,每个测试数据包括1个测试视频,以及所述测试视频的测试图像序列,所述测试图像序列包括多帧测试图像,所述测试图像序列中的每帧图像按照视频时间顺序从1开始进行编号,且第1帧测试图像已经标注目标区域;
[0241]
第二预处理单元,用于对所述测试数据进行预处理,生成多个测试图像对;
[0242]
模型测试单元,用于将多个测试图像对作为c个待验证全局可缩放孪生网络的目标分支和搜索分支的输入,得到c个待验证全局可缩放孪生网络输出的响应图;
[0243]
目标位置单元,用于根据每个待验证全局可缩放孪生网络输出的响应图确定测试图像对对应的目标区域的中心点在待验证全局可缩放孪生网络的搜索分支的输入中对应的目标位置,其中,所述测试图像对对应的目标区域是指测试图像对对应的测试视频的测试图像序列的第1帧图像中标注的目标区域;
[0244]
精度计算单元,用于根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度;
[0245]
模型确定单元,用于将测试精确度最高的待验证全局可缩放孪生网络作为最优全局可缩放网络。
[0246]
可选地,第一预处理单元对所述训练数据进行预处理,生成多个训练图像对包括:
[0247]
步骤301,在训练数据集中选取多个训练视频,从选取的每个训练视频的训练图像序列中选取训练图像z和训练图像x;
[0248]
步骤302,在训练图像z中划定跟踪的目标区域为(width,height);
[0249]
步骤303,对训练图像z和训练图像x进行裁剪生成训练图像对(z,x),其中,对训练图像z进行裁剪生成训练图像z,训练图像z在训练图像z 上的裁剪区域为a
×
a,a2=(width p)
×
(height p),对训练图像x进行裁剪生成训练图像x,训练图像x在训练图像x上的裁剪区域为2a
×
2a, (2a)2=2(width p)
×
2(height p),p=(width height)/2。
[0250]
可选地,模型训练单元将多个训练图像对作为初始全局可缩放孪生网络的目标分支和搜索分支的输入,对所述初始全局可缩放孪生网络的目标分支和搜索分支进行模型训练,一共训练c次,生成c个待验证全局可缩放孪生网络包括:
[0251]
目标特征图单元,用于将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩
放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,1≤t≤t,1≤c ≤c,c,t的初始值为1,t为生成一个待验证全局可缩放孪生网络时,对初始全局可缩放网络进行迭代训练的次数;
[0252]
全局特征图单元,用于在目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图;
[0253]
损失函数单元,用于根据第三搜索特征图和全局特征图计算训练图像对(z,x)的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数;
[0254]
模型生成单元,采用随机梯度下降算法最小化损失函数,生成初始全局可缩放网络的卷积网络参数θ
c(t 1)
,当c<c,t 1≤t时,令t 1=t,返回步骤401;当c<c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络,并令c 1=c,t=1,返回步骤401;当c=c,t 1>t时,根据卷积网络参数θ
ct
确定的全局可缩放孪生网络为第c个待验证全局可缩放孪生网络。
[0255]
可选地,目标特征图单元将训练图像对(z,x)中的训练图像z作为目标分支的可缩放孪生网络的输入,按照初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,以及将训练图像x作为搜索分支的可缩放孪生网络的输入,按照设置的初始全局可缩放网络的卷积网络参数θ
ct
,采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图包括:
[0256]
步骤501,将训练图像对(z,x)中的训练图像z输入目标分支的可缩放孪生网络的卷积层,将训练图像x输入搜索分支的可缩放孪生网络的卷积层,其中,所述目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络包括卷积层、裁剪层和缩放卷积层,缩放卷积层被裁剪层分隔;
[0257]
步骤502,按照初始全局可缩放网络的卷积网络参数θ
ct
,目标分支的可缩放孪生网络的卷积层提取训练图像z的特征,生成第一目标特征图,以及按照初始全局可缩放网络的卷积网络参数θ
ct
,搜索分支的可缩放孪生网络的卷积层提取训练图像x的特征,生成第一搜索特征图;
[0258]
步骤503,目标分支的可缩放孪生网络的裁剪层对第一目标特征图进行裁剪,去除零填充信号,生成第二目标特征图;以及搜索分支的可缩放孪生网络的裁剪层对第一搜索特征图进行裁剪,去除零填充信号,生成第二搜索特征图;
[0259]
步骤504,按照预先的设置目标分支和搜索分支的可缩放孪生网络的缩放卷积层的网络步长,目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图。
[0260]
可选地,目标特征图单元的目标分支的可缩放孪生网络的缩放卷积层采用缩放公式对目标分支的可缩放孪生网络进行训练,输出第三目标特征图,搜索分支的可缩放孪生网络的缩放卷积层采用缩放公式对搜索分支的可缩放孪生网络进行训练,输出第三搜索特征图,其中,缩放公式的表达式为
[0261]
[0262][0263][0264][0265]
α≥1,β≥1,γ≥1
[0266]
其中,和分别代表可缩放孪生网络的深度,宽度和分辨率三个维度,α,β和γ是由小范围网格搜索获得的常量,μ是控制模型缩放的指定系数。
[0267]
可选地,目标特征图单元的目标分支和搜索分支的可缩放孪生网络的缩放卷积层分别采用缩放公式对目标分支的可缩放孪生网络和搜索分支的可缩放孪生网络进行训练包括:
[0268]
固定μ为1,小范围网格搜索获得α,β,γ;
[0269]
固定α,β和γ的值,采用不同的μ值缩放网络以生成待验证可缩放孪生网络。
[0270]
可选地,全局特征图单元的目标分支的全局注意力网络将第三目标特征图作为输入生成全局特征图包括:
[0271]
令第三目标特征图为目标分支的全局注意力网络将分成三个特征图和其中:
[0272][0273][0274][0275]
式中,代表权重矩阵,φ(zi)代表中第i个区域的特征表示;
[0276]
根据特征图和特征图确定注意力图,其中,注意力图的计算公式为:
[0277][0278]
式中,φ(zj)代表中第j个区域的特征表示,n为中划分的区域的总数量;
[0279]
根据注意力图和特征图通过最大池化层得到全局特征图,其中,全局特征图的表达式为:
[0280][0281]
可选地,损失函数单元根据第三搜索特征图和全局特征图计算训练图像对(z,x)的响应得分映射,并生成得分响应图,结合所述得分响应图中每个位置相对于目标区域的真实标签确定所述响应得分映射的损失函数包括:
[0282]
采用预先设置的相似性度量函数计算第三搜索特征图和全局特征图中各个位置
的相似度值,将所述相似度值f(z,x;θ
ct
)作为训练图像对(z,x) 的响应得分映射,并生成得分响应图,其中,f(z,x)的表达式为:
[0283][0284]
式中,*代表交叉相关运算,和分别表示第三目标特征图和第三搜索特征图,m(
·
)表示从全局注意力网络计算得到的特征表示,b为偏置项;
[0285]
结合所述得分响应图中每个位置相对于目标区域的真实标签确定初始全局可缩放网络的损失函数,其中,所述损失函数的表达方式为:
[0286][0287]
式中,代表得分响应图中的位置相对于目标区域的真实标签,表示响应图中的全部位置,表示响应图中的位置对应的响应得分映射中的相似度值,表示逻辑回归损失函数,其中,的表达式为:
[0288][0289]
可选地,精度计算单元根据所述目标位置和测试图像对对应的目标区域的中心点确定每个待验证全局可缩放孪生网络的测试精确度包括:
[0290]
计算目标位置和测试图像对对应的目标区域的中心点之间的欧氏距离;
[0291]
对计算的欧氏距离按照数值大小进行排序,其中,数据越小,测试精确度越高。
[0292]
可选地,图像确定单元确定进行目标跟踪的目标区域的模板图像和搜索图像包括:
[0293]
在拟进行目标跟踪的视频的图像序列中选择第1帧图像作为待裁剪模板图像,其中,所述图像序列包括多帧图像,所述图像序列中的每帧图像按照视频时间顺序从1开始进行编号;
[0294]
在所述待裁剪模板图像中划定目标区域(width,height);
[0295]
在所述图像序列中选择图像编号大于待裁剪模板图像的图像作为待裁剪搜索图像;
[0296]
对所述待裁剪模板图像和待裁剪搜索图像进行裁剪生成训练图像对(z, x),其中,图像z为模板图像,图像z在待裁剪模板图像上的裁剪区域为 a
×
a,a2=(width p)
×
(height p),图像x为搜索图像,图像x在待裁剪搜索图像上的裁剪区域为2a
×
2a,(2a)2=2(width p)
×
2(height p), p=(width height)/2。
[0297]
本实施例提供的基于全局可缩放孪生网络的目标跟踪装置通过全局可缩放网络模型对图像的目标区域进行跟踪的步骤,与本实施例提供的基于全局可缩放孪生网络的目标跟踪方法采取的步骤相同,达到的技术效果也相同,此处不再赘述。
[0298]
示例性电子设备
[0299]
图5是本发明一示例性实施例提供的电子设备的结构示意图。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第
一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图5图示了根据本公开实施例的电子设备的框图。如图5所示,电子设备包括一个或多个处理器551和存储器552。
[0300]
处理器551可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
[0301]
存储器552可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/ 或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器551可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的确定目标对象的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置553和输出装置554,这些组件通过总线系统和/或其他形式的连接机构(未示出) 互连。
[0302]
此外,该输入装置553还可以包括例如键盘、鼠标等等。
[0303]
该输出装置554可以向外部输出各种信息。该输出设备554可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0304]
当然,为了简化,图5中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
[0305]
示例性计算机程序产品和计算机可读存储介质
[0306]
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于全局可缩放孪生网络的目标跟踪方法中的步骤。
[0307]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0308]
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于全局可缩放孪生网络的目标跟踪方法中的步骤。
[0309]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0310]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0311]
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0312]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0313]
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0314]
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0315]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献