一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无监督视觉目标跟踪方法及系统与流程

2022-04-02 02:10:40 来源:中国专利 TAG:


1.本发明涉及的是一种图像处理领域的技术,具体是一种无监督视觉目标跟踪方法及系统,可以集成到类似的视觉目标跟踪孪生网络框架中进行高效的训练,从而提升模型的性能,比如siamfc。


背景技术:

2.现有的视觉目标跟踪方法一般均基于有监督的方法训练实现,由于有监督训练需要大量标注好的训练数据且有标注的数据集的跟踪场景受到一定的限制,从而导致训练出的模型缺乏一定的泛化能力。无监督视觉目标跟踪方法相应解决这些问题,着重于寻找一个合适的辅助任务以及自监督信号,并直接使用原始数据进行训练,因此采样训练数据以及训练方式将实质性影响模型的无监督训练,进而决定无监督视觉目标跟踪方法的效果。
3.现有的无监督相关滤波目标跟踪方法往往在无监督相关滤波算法的训练中,同时引入对图像块位置索引的预测任务,以增加深度神经网络对物体细节特征的提取能力,并通过对不同层的特征进行融合使得算法兼顾语义信息和位置信息,从而解决物体细节特征的提取能力不够,且难以很好地兼顾语义信息和位置信息的问题。
4.但此类技术依旧存在训练数据冗余、多任务训练过程繁琐的问题。


技术实现要素:

5.本发明针对现有技术无监督训练数据冗余,训练效率低下且模型鲁棒性无法满足需要的不足,提出一种无监督视觉目标跟踪方法,通过跳帧采样模块减少训练数据的冗余,具有很好的无监督训练能力,能学习帧间丰富的运动信息,提高训练效率和模型鲁棒性,并通过逐帧的前后向跟踪训练方式进行无监督训练。
6.本发明是通过以下技术方案实现的:
7.本发明涉及一种无监督视觉目标跟踪方法,通过组间跳跃间隔和组内跳跃间隔的方式进行数据采样,将得到的每一个视频帧以及视频帧集合作为孪生网络架构模型的训练样本进行包括逐帧的前向跟踪过程以及逐帧的后向跟踪过程的训练,将用于测试的跟踪视频序列输入训练后的孪生网络架构模型,得到最终预测的跟踪框,从而完成该帧中目标的跟踪。
8.本发明涉及一种实现上述方法的系统,包括:跳帧采样模块、特征提取模块、相关滤波器模块,其中:跳帧采样模块与特征提取模块相连并传输训练数据信息;特征提取模块与相关滤波器模块相连并传输提取到的特征信息;相关滤波器模块的输出即为跟踪响应结果。技术效果
9.本发明整体所解决了现有技术无监督训练数据的冗余较高且训练效率较低的问题,使用更加高效的逐帧的前后向跟踪训练方式提高模型的鲁棒性,通过本发明跳帧采样能够减少五倍训练数据量,提高了训练效率的同时提升跟踪性能。
附图说明
10.图1为跳帧采样模块实现图;
11.图2为逐帧的前后向跟踪训练方式流程图。
具体实施方式
12.本实施例涉及一种无监督视觉目标跟踪方法,包括以下步骤:
13.步骤1)训练阶段,执行数据采样,数据预处理和模型训练,具体包括:
14.步骤1.1)数据采样:对于单一的训练迭代,使用跳帧采样模块以组间跳跃间隔和组内跳跃间隔的方式选择一组视频帧作为输入。
15.所述的组内跳跃间隔用于降低训练数据相关性,并保持有价值的时间运动信息。
16.所述的组间跳跃间隔用于保证充分利用训练数据,减少重复帧和缺失帧。
17.如图1所示,为提出的跳帧采样模块的实现示意图,每个视频帧的长度为5。
18.步骤1.2)数据预处理:对经过跳帧采样后的每一个视频帧进行中心裁剪,目标尺寸为视频帧的1/6,经过填充操作,最终裁剪尺寸为视频帧的1/2,并将将裁剪后得到的图像块缩放至125x125尺寸大小,得到各组视频帧集合。
19.步骤1.3)模型训练:将步骤1.1数据采样以及步骤1.2数据预处理得到的每一个视频帧以及视频帧集合作为孪生网络架构模型的训练样本进行包括逐帧的前向跟踪过程以及逐帧的后向跟踪过程的训练。
20.如图2所示,所述的孪生网络架构模型包括模板分支和搜索分支,两个分支共享特征提取模块,该特征提取模块包括:两个卷积层,一个激活函数层和一个局部响应归一化层。
21.本实施例中优选设置第一个卷积层conv1卷积核尺寸为3
×
3,步长为1
×
1,卷积核数量为32;第二个卷积层conv2卷积核尺寸为3
×
3,步长为1
×
1,卷积核数量为32;这两个卷积层使用尺寸较大的卷积核,进行基本的特征提取;激活函数层为relu函数,缓解过拟合问题;最后一个局部响应归一化层,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的值,增强模型的泛化能力。
22.所述的逐帧的前向跟踪过程具体包括:
23.第一步,将视频帧集合的第一帧作为模板区域、将第二帧作为搜索区域,分别输入到共享的特征提取模块中以提取出模板特征和搜索特征;再将模板特征、搜索特征以及中心初始化的高斯响应输入到相关滤波器模块中得到第二帧的搜索响应。
24.第二步,将视频帧集合的第二帧作为模板区域、将第三帧作为搜索区域,分别输入到共享的特征提取模块中以提取出模板特征和搜索特征;再将模板特征、搜索特征以及第一步得到的输出响应输入到相关滤波器模块中得到第三帧的搜索响应。
25.第三步,重复第一步和第二步直至得到第五帧的搜索响应。
26.所述的逐帧的后向跟踪过程具体包括:
27.第一步,将视频帧集合的第五帧作为模板区域、将第四帧作为搜索区域,分别输入到共享的特征提取模块中以提取出模板特征和搜索特征;再将模板特征、搜索特征以及逐帧的前向跟踪过程的最后一步得到的响应输入到相关滤波器模块中得到第四帧的搜索响应。
28.第二步,将视频帧集合的第四帧作为模板区域、将第三帧作为搜索区域,分别输入到共享的特征提取模块中以提取出模板特征和搜索特征;再将模板特征、搜索特征以及第一步得到的输出响应输入到相关滤波器模块中得到第三帧的搜索响应。
29.第三步,重复第一步和第二步直至得到第一帧的搜索响应。
30.所述的训练,其采用的损失函数为计算中心初始化的高斯响应和逐帧的后向跟踪过程最后一步得到的搜索响应的均方误差,训练时卷积核和权重采用随机参数初始化,偏置采用全0初始化。采用随机梯度下降算法进行模型参数的更新,当模型迭代次数达到预设的迭代次数时,停止训练并保存训练好的模型。
31.步骤2)测试阶段:将用于测试的跟踪视频序列输入步骤1)得到的训练后的孪生网络架构模型中,具体包括:
32.2.1)对于待测试帧t,把上一帧t-1中预测得到的跟踪框作为中心,裁剪出125
×
125尺寸大小的搜索图像并输入到模型中,使用增量尺度估计方案来处理尺度变化,其中每个尺度对应一个单独的响应图,响应图中最大值的位置表示跟踪目标所在位置,并结合所对应的尺度得到最终预测的跟踪框,从而完成该帧中目标的跟踪。
33.2.2)将模型预测的跟踪框与测试集所对应的跟踪框标注进行对比,计算出目标跟踪的成功率和精确度。
34.本实施例具体使用基于跳帧采样并经过逐帧前后向跟踪一致性训练的孪生网络架构模型在otb-2015和temple-color-128数据集上进行性能测试,其中训练集采用含有112万帧的ilsvrc2015数据集作为训练数据集;测试集采用otb-2015数据集包含100个具有挑战性的序列,具有灰度视频序列和彩色视频序列。temple-color-128数据集包含128种颜色序列,具有更大的挑战。
35.i)对于训练数据集,经过跳帧采样模块最终的训练数据量为0.22万帧。再对跳帧采样后的视频帧进行数据预处理,包括中心裁剪和缩放,得到125
×
125尺寸大小的图像块。对于单次训练迭代,本方法将经过上述处理得到的一组视频帧集合表示为{i
t
,i
t 2
,i
t 4
,i
t 6
,i
t 8
},并作为训练模型的输入。
36.ii)将训练样本输入到模型中,进行模型的无监督训练,包括逐帧的前向跟踪过程和逐帧的后向跟踪过程,其中:
37.逐帧的前向跟踪过程包括:
38.第一步,本实施例将i
t
作为模板区域,i
t 2
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t
和搜索特征t
t 2
。将模板特征t
t
、搜索特征t
t 2
以及中心初始化的高斯响应y
t
输入到相关滤波器模块中,得到i
t 2
的搜索响应r
t,t 2

39.第二步,本实施例将i
t 2
作为模板区域,i
t 4
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 2
和搜索特征t
t 4
。将模板特征t
t 2
、搜索特征t
t 4
以及上一步的输出响应r
t,t 2
输入到相关滤波器模块中,得到i
t 4
的搜索响应r
t 2,t 4

40.第三步,本实施例将i
t 4
作为模板区域,i
t 6
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 4
和搜索特征t
t 6
。将模板特征t
t 4
、搜索特征t
t 6
以及上一步的输出响应r
t 2,t 4
输入到相关滤波器模块中,得到i
t 6
的搜索响应r
t 4,t 6

41.第四步,本实施例将i
t 6
作为模板区域,i
t 8
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 6
和搜索特征t
t 8
。将模板特征t
t 6
、搜索特征t
t 8
以及上一步的
输出响应r
t 4,t 6
输入到相关滤波器模块中,得到i
t 8
的搜索响应r
t 6,t 8

42.逐帧的后向跟踪过程包括:
43.第一步,本实施例将i
t 8
作为模板区域,i
t 6
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 8
和搜索特征t
t 6
。将模板特征t
t 8
、搜索特征t
t 6
以及前向跟踪最后一步的输出响应r
t 8,t 6
输入到相关滤波器模块中,得到i
t 6
的搜索响应r
t 8,t 6

44.第二步,本实施例将i
t 6
作为模板区域,i
t 4
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 6
和搜索特征t
t 4
。将模板特征t
t 62
、搜索特征t
t 4
以及上一步的输出响应r
t 8,t 6
输入到相关滤波器模块中,得到i
t 4
的搜索响应r
t 6,t 4

45.第三步,本实施例将i
t 4
作为模板区域,i
t 2
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 4
和搜索特征t
t 2
。将模板特征t
t 4
、搜索特征t
t 2
以及上一步的输出响应r
t 6,t 4
输入到相关滤波器模块中,得到i
t 2
的搜索响应r
t 4,t 2

46.第四步,本实施例将i
t 2
作为模板区域,i
t
作为搜索区域,分别输入到共享的特征提取模块中,提取模板特征t
t 2
和搜索特征t
t
。将模板特征t
t 2
、搜索特征t
t
以及上一步的输出响应r
t 4,t 2
输入到相关滤波器模块中,得到i
t
的搜索响应r
t 2,t

47.训练的损失函数为计算中心初始化的高斯响应y
t
和搜索响应r
t 2,t
的均方误差。训练过程中,共享的特征提取模块中的卷积核和权重进行随机初始化,偏置项置为0。采用随机梯度下降算法进行模型参数的更新,当模型迭代次数达到预设值时,训练停止并保存训练好的模型。
48.表1共享的特征提取模块参数设置
49.iii)将测试的跟踪视频序列输入到训练好的所述的视觉跟踪模型中,将模型预测的跟踪框与测试集所对应的跟踪框标注进行对比,计算出目标跟踪的成功率和精确度。其中,成功率为预测的跟踪框与标注的跟踪框重叠率大于给定的阈值的比例。精确度为预测的跟踪框的中心点与标注的跟踪框的中心点之间的距离在不同距离像素范围内的比例。
50.如表2和表3所示,本实施例的方法在不同的公开数据集上都能取得很好的结果,且在所有无监督视觉目标跟踪方法中取得最好的结果。
51.表2在otb-2015数据集上不同视觉目标跟踪方法的性能对比
52.表3在temple-color-128数据集上不同视觉目标跟踪方法的性能对比
53.相比现有采样技术从视频序列中随机采样一些帧,以训练无监督表征,但会造成丰富的运动信息被丢弃。而且这样的一组随机采样的帧可能包括重复的帧,从而导致数据的冗余。本发明对于单一的训练迭代,通过跳帧采样,以组间跳跃间隔和组内跳跃间隔的方式选择一组视频帧作为输入,其中组内跳跃间隔用于降低训练数据相关性,并保持有价值的时间运动信息,组间跳跃间隔用于保证充分利用训练数据,减少重复帧和缺失帧并达到在降低训练数据相关性和保持视频序列之间有价值的运动信息之间保持良好的平衡。
54.上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献