基于全卷积孪生网络多层特征的模板更新目标跟踪算法

2022-06-05 07:36:28 来源：中国专利 TAG：

1.本发明属于视频的目标跟踪技术领域，涉及基于全卷积孪生网络多层特征的模板更新目标跟踪算法。

背景技术：

2.目标跟踪是计算机视觉领域的一个重要课题，有着极其深远的研究意义，且广泛应用于智能视频监控、无人驾驶、人机交互等领域。
3.单目标跟踪任务是指，对于一组视频图像序列，给定视频第一帧中目标大小和位置信息后，根据目标跟踪算法定位该目标在后续帧中的位置的过程。随着深度学习技术的成熟,研究人员开始将其应用到目标跟踪中，以深度学习为基础的基于孪生神经网络的目标跟踪算法也逐渐成为一个主流的研究方向，其成果在科研领域与生活应用中都起到重要作用。
4.近年来，深度学习算法的发展迅猛，深度学习与目标跟踪算法的结合也越来越受到人们的重视。其中，基于孪生神经网络结构的算法是一个主流的方向。通过使用第一帧给出的目标图像生成模板，对后续的图像进行互相关运算，得到的响应图中的最大值的位置映射到原图就是目标最可能所在的位置。通常情况下基于孪生神经网络的目标跟踪算法所使用的目标模板是保持不变的，而现在的许多涉及模板更新的方法缺乏一个良好的模板更新判断条件，很容易污染模板。另一方面，这些算法通常使用孪生网络提取的最高层的特征，并未发挥每层特征的特点。

技术实现要素：

5.本发明的目的是提供基于全卷积孪生网络多层特征的模板更新目标跟踪算法，解决了现有技术中存在的对于跟踪中物体外表形变鲁棒性较差的问题以及进行模板更新导致模板被污染的问题。
6.本发明所采用的技术方案是，基于全卷积孪生网络多层特征的模板更新目标跟踪算法，具体按照以下步骤实施：
7.步骤1，构建整体网络，并对整体网络结构进行端到端的训练；
8.步骤2，使用步骤1训练好的网络对即将进行跟踪的视频图像序列进行初始化跟踪设置，得到本次跟踪任务的初始目标模板与目标的初始位置信息；
9.步骤3，进入正常跟踪流程，视频图像序列的每一帧都会计算出一个目标在图像中的位置，并在图像中对应处进行显示，得到当前帧的跟踪结果响应图；
10.步骤4，得到步骤3的跟踪结果响应图后，使用基于标准互信息的模板更新条件判断方法判断当前跟踪结果是否可靠，若可靠则更新模板，若不可靠则不更新模板，若步骤3中保留的可靠跟踪结果达到2个，则用最新的结果替换最老的结果；
11.步骤5，使用步骤4得到最新模板对当前跟踪到的视频帧后续的视频图像序列继续进行步骤3的正常跟踪；
12.步骤6、重复步骤3～步骤5，直至跟踪完毕所有视频图像序列，由此得到视频每一帧中目标所在位置，跟踪任务结束。
13.本发明的特征还在于，
14.步骤1中，整体网络结构分为三部分：第一部分为用于深度特征提取的孪生神经网络，第二部分是用于进行模板更新的3d卷积神经网络，即3d模板更新模块，第一部分和第二部分组成特征提取网络，第三部分包含分类分支和回归分支；
15.孪生神经网络分为四层：前两层均由卷积层、最大池化层、激活函数层构成；后两层则每层均包含卷积层与激活函数层；3d模板更新模块则由一层3d卷积层构成。
16.步骤1中，每个视频选取10个图片对，每个图片对含有四张视频帧，第一张视频帧为该视频的第一帧，后面3张视频帧在该视频中随机选取，第二张视频帧和第三张视频帧间距不超过15帧，第三张视频帧和第四张视频帧间距不超过10帧，前三张视频帧作为目标图用于合成跟踪模板，最后一张视频帧作为搜索图，在搜索图处理中，导入到3d卷积更新模块的三张图是一样，都是图片对的最后一张视频帧，训练50次，损失函数采用和siamfc算法一样的logistic损失函数。
17.步骤1中生成图片对，需要对选取的图片进行数据增强，数据增强具体按照以下步骤实施：
18.步骤1.1，首先对训练集中选择出的样本进行随机拉伸randomstretch操作，拉伸后的尺寸倍数设置为0.095～1.005之间，放大后需要填充的部分使用线性插值法填充；然后进行中心裁剪centercrop操作，即从训练图片对的中心处裁剪出尺寸为263*263的区域，接着进行随机裁剪randomcrop操作，从训练图片对中的随机位置裁剪出大小为255*255的区域，最后进行裁剪转换，将原始的got-10k数据集中图片的box作为目标位置框，以(left、top、weight、height)形式给出，也就是目标位置框距离图片左边框与上边框的距离和目标位置框本身的宽与高，通过裁剪转换操作将目标位置框坐标形式转化为(n、m、h、w)即目标位置框的中心点的坐标与目标位置框的高和宽；
19.步骤1.2，进行loss的计算
20.训练过程中分类分支的损失函数使用focal loss，回归分支的损失函数使用iou损失，总损失l的计算公式为：
[0021][0022]
式(1)中，{}是指标函数，如果下标中的条件成立，则取1，否则将取0；l
cls
表示分类结果的focal loss；l
quality
表示用于质量评估的二进制交叉熵损失；l
reg
表示边界框回归结果的iou损失；p
x，y
、q
x，y
、t
x，y
分别表示分类分支的标签、质量评估的标签、回归分支的标签；分别表示分类分支预测结果、质量评估结果、回归分支预测结果；λ为常数；
[0023]
步骤1.3，使用梯度下降法进行参数优化，随机梯度下降方法sgd的计算公式如下：
[0024]
argmin
θe(z,x,y)
l
(y,f(z,x,θ))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0025]
式(2)中，θ为得到的最优参数；z为输入的目标图片；x为搜索图；y为lable(标签)；f(z，x；0)为预测结果；
[0026]
经过50遍的训练后网络的最终总损失l稳定在0.1以下，则训练过程结束。
[0027]
步骤2具体按照以下步骤实施：
[0028]
步骤2.1，在视频图像序列的第一帧图像上指定出目标的位置，将目标从图像中截取后进行缩放，得到尺寸为127*127*3的目标图片，然后将目标图片传入整体网络中的孪生神经网络，得到四层特征，将最后一层特征作为高层特征传入回归分支，作为回归分支初始模板，将第一层特征作为低层特征传入分类分支，作为分类分支初始模板，回归分支初始模板和分类分支初始模板的尺寸均为6*6*256，单位为像素，回归分支初始模板和分类分支初始模板的计算公式均如下：
[0029]
φ
z(cls)
φ
z(reg)
＝φ(z)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0030]
式(3)中，z为输入的目标图片，函数φ()代表特征提取网络，φ
z(cls)
代表特征提取网络输出的分类分支的目标模板，φ
z(reg)
代表特征提取网络输出的回归分支的目标模板；
[0031]
步骤2.2，进行参数的初始化：
[0032]
在视频图像序列第一帧中，由人工标定给出的目标位置信息被称为box，box有四条信息分别是目标的横坐标、纵坐标、宽度、高度，因此，第一帧是不需要进行跟踪运算的，只需要按照人工标定的box将与其对应的目标初始中心坐标与初始宽高设定为box内的数值，即完成了目标的初始化过程，得到目标的初始位置信息。
[0033]
步骤3具体按照以下步骤实施：
[0034]
步骤3.1，目标搜索
[0035]
采用anchorfree的目标搜索策略，以图像视频序列的上一帧跟踪结果中的目标坐标为中心，截取出搜索区域，并将搜索区域裁剪成patch图片，得到搜索图，尺寸为255*255，将patch图片传入特征提取网络提取出搜索区域的多层深度特征，公式如下：
[0036]
φ
x(cls)
，φ
x(reg)
＝φ(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0037]
式(4)中，x为搜索图；函数φ()代表特征提取网络，φ
x(cls)
代表特征提取网络输出的分类分支的搜索特征，φ
x(reg)
代表特征提取网络输出的回归分支的搜索特征；
[0038]
步骤3.2，基于分类分支和回归分支的目标位置预测；
[0039]
步骤3.2.1，计算回归分支结果：
[0040]
对于回归分支，首先由特征提取网络将目标模板φ
z(reg)
和搜索特征φ
x(reg)
映射到同一特征空间，计算公式如下：
[0041]
g(z，x)＝φ
z(reg)
*φ
x(reg)
b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0042]
式(5)中，b表示偏移量；
[0043]
如果特征图g(z，x)上一点(m,n)在原图上对应的点为回归分支将输出该点(m,n)处的位置gt预测值，gt预测值表示为一个4维向量t＝(l
*
，t
*
，r
*
，b
*
)，则对应各个gt分量的计算过程为:
[0044][0045][0046]
式(6)中，(x0，y0)和(x1，y1)分别表示ground truth(gt)左上角和右下角的角点；s为alexnet的stride，s＝8；l
*
，t
*
，r
*
，b
*
分别表示特征图上的点(m,n)在原图上对应位置到gt的左、上、右、下四条边框的距离；
[0047]
步骤3.2.2，计算分类分支结果
[0048]
对于分类分支，首先由特征提取网络将目标模板φ
z(cls)
和搜索特征φ
x(cls)
映射到同一特征空间，计算公式如下：
[0049]
f(z，x)＝φ
z(cls)
*φ
x(cls)
b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0050]
将得到的特征图f(z，x)上的点(m,n)通过搜索图的ground truth区分为正样本点和负样本点，如果特征图f(z，x)上的点(m,n)在patch图片上的对应位置在ground truth内，则将其视为正样本，分类得分记为1，其余为负样本，分类得分记为0；
[0051]
为了更好的平衡点(m,n)与目标位置的关系，引入质量评分pss
*
，将预测的pss
*
与相应的分类得分相乘，计算最终得分作为分类分支的结果，质量评分计算公式如下：
[0052][0053]
步骤3.2.3，将分类分支的结果与回归分支结果相加得到当前帧的跟踪结果响应图。
[0054]
步骤4具体按照以下步骤实施：
[0055]
步骤4.1，基于互信息的模板更新条件判断
[0056]
跟踪过程中视频第一帧作为template frame，同时又将第一帧作为detection frame，输入至网络中，得到分类分支的heat map，记为x，第t帧的分类分支的heat map，记为y，则x和y作为两个变量求它们的互信息值；
[0057]
互信息计算公式如下所示：
[0058][0059]
式(9)中，x、y分别表示第一帧的分类分支heat map和第t帧的分类分支heat map，p(x)和p(y)分别为x和y的边缘分布，p(x，y)为x和y联合分布；
[0060]
将所得的互信息值进行标准化转换，公式如下：
[0061][0062]
式(10)中，h(x)、h(y)分别为x和y的熵；
[0063]
如果所得的互信息大于所设定的阈值v
threshold
，则当前帧的目标区域图像可用于
模板更新，否则不进入模板更新机制，得到当前帧的模板更新结果后直接开始下一帧的模板更新过程；
[0064]
阈值采用动态阈值，动态阈值设置为局部极大值，阈值动态更新公式为：
[0065][0066]
式(11)中，t表示第t帧，i(t)表示第t帧的分类分支heat map与第一帧的分类分支heat map的互信息值；mean(i(t-1)，i(t-2))表示一段时间内的互信息的平均值；反映了第t帧匹配程度较好；i
′
(t)＝0和i
″
(t)＞0表示互信息局部极大值点；由于每个搜索图的分类分支heat map与第一帧的分类分支heat map的互信息值是离散的，则式(11)可以表示为：
[0067][0068]
由于需要连续3帧搜索图的互信息值，但是第1帧和第2帧搜索图在搜索时并不满足公式所需要的条件，所以第1帧和第2帧的阈值单独设置，则第1帧和第2帧搜索图的v
threshold
设置为一个固定值0.75；
[0069]
步骤4.2，基于3d卷积的模板更新：
[0070]
模板的更新方式符合队列性质，先进先出，即新模板进入，则淘汰旧模板，模板始终维持在三个，分别记为初始目标模板、历史模板和当前模板，将三个模板经过特征提取网络后得到的特征图经过3*3*3的卷积，得到融合后的最新模板。
[0071]
步骤5的具体过程为：在得到最新模板后，便在下一次模板更新前一直使用本次得到的最新模板保持不变，具体跟踪流程与步骤3相同，仍然在跟踪过程中不断保存可靠跟踪结果得到的深度特征，一旦得到一个新的深度特征就将存在时间最久的深度特征删除，并进行模板更新，按照步骤4进行操作。
[0072]
本发明的有益效果是，
[0073]
(1)本发明基于全卷积孪生网络多层特征的模板更新目标跟踪算法，使用了siamfc fpn作为backbone获得不同层的特征，并且分类分支和回归分支使用不同层的特征最终预测目标位置，发挥了神经网络提取的不同层特征的特点，极大提高了分类网络和回归网络的性能和鲁棒性；
[0074]
(2)本发明基于全卷积孪生网络多层特征的模板更新目标跟踪算法，使用了基于互信息的模板更新条件判断方法，过滤掉了大部分有害的模板更新，有效解决了由模板更新导致的模板污染问题；
[0075]
(3)本发明基于全卷积孪生网络多层特征的模板更新目标跟踪算法，使用3d卷积更新模块融合历史上保留的最近且最可靠的两次跟踪结果以及在开启跟踪任务时人工标注的目标信息来融合更新模板，这样得到的新模板，既能捕获到目标近期的外观信息也能拥有第一帧时最准确的目标外观信息，从而提高了模板对于目标外观形变的鲁棒性，提高了目标跟踪算法的性能和跟踪速度，并且准确度也有所提高。
附图说明
[0076]
图1为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的方法整体框架示意图；
[0077]
图2为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的网络训练示意图；
[0078]
图3为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的siamfc fpn网络模型示意图；
[0079]
图4为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的跟踪初始化阶段示意图；
[0080]
图5为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的标准互信息模板更新条件判断示意图；
[0081]
图6为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的模板更新示意图；
[0082]
图7为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的跟踪准确率曲线图；
[0083]
图8为本发明基于全卷积孪生网络多层特征的模板更新目标跟踪方法的跟踪成功率曲线图。
具体实施方式
[0084]
下面结合附图和具体实施方式对本发明进行详细说明。
[0085]
本发明提供一种基于全卷积孪生网络多层特征的模板更新目标跟踪算法，如图1所示，具体按照以下步骤实施：
[0086]
步骤1，构建整体网络，并对整体网络结构进行端到端的训练；
[0087]
整体网络结构分为三部分：第一部分为用于深度特征提取的孪生神经网络，第二部分是用于进行模板更新的3d卷积神经网络，即3d模板更新模块，第一部分和第二部分组成特征提取网络，第三部分包含分类分支和回归分支；
[0088]
孪生神经网络分为四层(p2、p3、p4、p5)：前两层均由卷积层、最大池化层、激活函数层构成；后两层则每层均包含卷积层与激活函数层；3d模板更新模块则由一层3d卷积层构成；孪生神经网络对三张图片进行特征提取，再通过3d模板更新模块将三张图片提取的特征进行合并成一张图片，即为跟踪模板；分类分支和回归分支用于预测结果。
[0089]
每个视频选取10个图片对，每个图片对含有四张视频帧，第一张视频帧为该视频的第一帧，后面3张视频帧在该视频中随机选取，第二张视频帧和第三张视频帧间距不超过15帧，第三张视频帧和第四张视频帧间距不超过10帧，前三张视频帧作为目标图用于合成跟踪模板，最后一张视频帧作为搜索图，在搜索图处理中，导入到3d卷积更新模块的三张图是一样，都是图片对的最后一张视频帧，训练50次，损失函数采用和siamfc算法一样的logistic损失函数，如图2所示；
[0090]
生成图片对，需要对选取的图片进行数据增强，数据增强具体按照以下步骤实施：
[0091]
步骤1.1，首先对训练集(got-10k数据集)中选择出的样本进行随机拉伸randomstretch操作，拉伸后的尺寸倍数设置为0.095～1.005之间，放大后需要填充的部分
使用线性插值法填充；然后进行中心裁剪centercrop操作，即从训练图片对的中心处裁剪出尺寸为263*263的区域，接着进行随机裁剪randomcrop操作，从训练图片对中的随机位置裁剪出大小为255*255的区域，最后进行裁剪转换，将原始的got-10k数据集中图片的box作为目标位置框，以(left、top、weight、height)形式给出，也就是目标位置框距离图片左边框与上边框的距离和目标位置框本身的宽与高，通过裁剪转换操作将目标位置框坐标形式转化为(n、m、h、w)即目标位置框的中心点的坐标与目标位置框的高和宽；
[0092]
步骤1.2，进行loss的计算
[0093]
训练过程中分类分支的损失函数使用focal loss，回归分支的损失函数使用iou损失，总损失l的计算公式为：
[0094][0095]
式(1)中，{}是指标函数，如果下标中的条件成立，则取1，否则将取0；l
cls
表示分类结果的focal loss；l
quality
表示用于质量评估的二进制交叉熵损失；l
reg
表示边界框回归结果的iou损失；p
x，y
、q
x，y
、t
x，y
分别表示分类分支的标签、质量评估的标签、回归分支的标签；分别表示分类分支预测结果、质量评估结果、回归分支预测结果；λ为常数；
[0096]
步骤1.3，使用梯度下降法进行参数优化，随机梯度下降方法sgd的计算公式如下：
[0097]
argmin
θe(z,x,y)
l
(y,f(z,x,θ))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0098]
式(2)中，θ为得到的最优参数；z为输入的目标图片；x为搜索图；y为lable(标签)；f(z，x；θ)为预测结果；
[0099]
经过50遍的训练后网络的最终总损失l稳定在0.1以下，则训练过程结束；
[0100]
步骤2，使用步骤1训练好的网络对即将进行跟踪的视频图像序列进行初始化跟踪设置，得到本次跟踪任务的初始目标模板与目标的初始位置信息；
[0101]
步骤2.1，在视频图像序列的第一帧图像上指定出目标的位置，将目标从图像中截取后进行缩放，得到尺寸为127*127*3的目标图片，如图3所示，然后将目标图片传入整体网络中的孪生神经网络，得到四层特征，将最后一层(p5)特征作为高层特征传入回归分支，作为回归分支初始模板，将第一层(p2)特征作为低层特征传入分类分支，作为分类分支初始模板，回归分支初始模板和分类分支初始模板的尺寸均为6*6*256，单位为像素，回归分支初始模板和分类分支初始模板的计算公式均如下：
[0102]
φ
z(cls)
，φ
z(reg)
＝φ(z)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0103]
式(3)中，z为输入的目标图片，函数φ()代表特征提取网络，φ
z(cls)
代表特征提取网络输出的分类分支的目标模板，φ
z(reg)
代表特征提取网络输出的回归分支的目标模板；
[0104]
步骤2.2，进行参数的初始化：
[0105]
如图4所示，在视频图像序列第一帧中，由人工标定给出的目标位置信息被称为
box，box有四条信息分别是目标的横坐标、纵坐标、宽度、高度，因此，第一帧是不需要进行跟踪运算的，只需要按照人工标定的box将与其对应的目标初始中心坐标与初始宽高设定为box内的数值，即完成了目标的初始化过程，得到目标的初始位置信息；
[0106]
步骤3，进入正常跟踪流程，视频图像序列的每一帧都会计算出一个目标在图像中的位置，并在图像中对应处显示出来；
[0107]
步骤3.1，目标搜索
[0108]
采用anchorfree的目标搜索策略，以图像视频序列的上一帧跟踪结果中的目标坐标为中心，截取出搜索区域，并将搜索区域裁剪成patch图片，得到搜索图，尺寸为255*255，将patch图片传入特征提取网络提取出搜索区域的多层深度特征，公式如下：
[0109]
φ
x(cls)
，φ
x(reg)
＝φ(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0110]
式(4)中，x为搜索图；函数φ()代表特征提取网络，φ
x(cls)
代表特征提取网络输出的分类分支的搜索特征，φ
x(reg)
代表特征提取网络输出的回归分支的搜索特征；
[0111]
步骤3.2，基于分类分支和回归分支的目标位置预测
[0112]
步骤3.2.1，计算回归分支结果：
[0113]
对于回归分支，首先由特征提取网络将目标模板φ
z(reg)
和搜索特征φ
x(reg)
映射到同一特征空间，计算公式如下：
[0114]
g(z，x)＝φ
z(reg)
*φ
x(reg)
b
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0115]
式(5)中，b表示偏移量；
[0116]
如果特征图g(z，x)上一点(m,n)在原图上对应的点为回归分支将输出该点(m,n)处的位置gt预测值，gt预测值表示为一个4维向量t＝(l
*
，t
*
，r
*
，b
*
)，则对应各个gt分量的计算过程为:
[0117][0118][0119]
式(6)中，(x0，y0)和(x1，x1)分别表示ground truth(gt)左上角和右下角的角点；s为alexnet的stride，s＝8；l
*
，t
*
，r
*
，b
*
分别表示特征图上的点(m,n)在原图上对应位置到gt的左、上、右、下四条边框的距离；
[0120]
步骤3.2.2，计算分类分支结果
[0121]
对于分类分支，首先由特征提取网络将目标模板φ
z(cls)
和搜索特征φ
x(cls)
映射到同一特征空间，计算公式如下：
[0122]
f(z，x)＝φ
z(cls)
*φ
x(cls)
b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0123]
将得到的特征图f(z，x)上的点(m,n)通过搜索图的ground truth区分为正样本点和负样本点，如果特征图f(z，x)上的点(m,n)在patch图片上的对应位置在ground truth内，则将其视为正样本，分类得分记为1，其余为负样本，分类得分记为0；
[0124]
为了更好的平衡点(m,n)与目标位置的关系，引入质量评分pss
*
，将预测的pss
*
与
相应的分类得分相乘，计算最终得分作为分类分支的结果，质量评分计算公式如下：
[0125][0126]
步骤3.2.3，将分类分支的结果与回归分支结果相加得到当前帧的跟踪结果响应图；
[0127]
步骤4，得到步骤3的跟踪结果响应图后，使用基于标准互信息的模板更新条件判断方法判断当前跟踪结果是否可靠，若可靠则更新模板，若不可靠则不更新模板，若步骤3中保留的可靠跟踪结果达到2个，则用最新的结果替换最老的结果；
[0128]
步骤4.1，基于互信息的模板更新条件判断
[0129]
如图5所示，跟踪过程中视频第一帧作为template frame，同时又将第一帧作为detection frame，输入至网络中，得到分类分支的heat map，记为x，第t帧的分类分支的heat map，记为y，则x和y作为两个变量求它们的互信息值；
[0130]
互信息计算公式如下所示：
[0131][0132]
式(9)中，x、y分别表示第一帧的分类分支heat map和第t帧的分类分支heat map，p(y)和p(y)分别为x和y的边缘分布，p(x，y)为x和y联合分布；
[0133]
将所得的互信息值进行标准化转换，公式如下：
[0134][0135]
式(10)中，h(x)、h(y)分别为x和y的熵；
[0136]
如果所得的互信息大于本文所设定的阈值v
threshold
，则说明当前帧的目标区域图像可用于模板更新，否则不进入模板更新机制，得到当前帧的模板更新结果后直接开始下一帧的模板更新过程；
[0137]
为了使互信息判断更准确，本文使用动态阈值，因为互信息值越大越好，所以本文动态阈值设置为局部极大值，阈值动态更新公式为：
[0138][0139]
式(11)中，t表示第t帧，i(t)表示第t帧的分类分支heat map与第一帧的分类分支heat map的互信息值；mean(i(t-1)，i(t-2))表示一段时间内的互信息的平均值；反映了第t帧匹配程度较好；i
′
(t)＝0和i
″
(t)＞0表示互信息局部极大值点；由于每个搜索图的分类分支heat map与第一帧的分类分支heat map的互信息值是离散的，则式(11)可以表示为：
[0140][0141]
因为本文要求连续3帧搜索图的互信息值，但是第1帧和第2帧搜索图在搜索时并不满足公式所需要的条件，所以第1帧和第2帧的阈值单独设置，因为第1帧搜索图得到的目标区域一般与视频第一帧模板图相差不大，可用于直接更新，但因为存在很少的视频第2帧搜索图会出现遮挡，所以第1帧和第2帧搜索图的v
threshold
设置为一个固定值0.75；
[0142]
步骤4.2，基于3d卷积的模板更新：
[0143]
如图6所示，模板的更新方式符合队列性质，先进先出，即新模板进入，则淘汰旧模板，模板始终维持在三个，分别记为初始目标模板、历史模板和当前模板，将三个模板经过特征提取网络后得到的特征图经过3*3*3的卷积，得到融合后的最新模板；
[0144]
步骤5，使用步骤4.2得到融合后的最新模板对当前跟踪到的视频帧后续的视频图像序列继续进行步骤3的正常跟踪；
[0145]
步骤5具体如下：
[0146]
在得到最新模板后，便在下一次模板更新前一直使用本次得到的最新模板保持不变，具体跟踪流程与步骤3相同，仍然在跟踪过程中不断保存可靠跟踪结果得到的深度特征，一旦得到一个新的深度特征就将存在时间最久的深度特征删除，并进行模板更新，按照步骤4进行操作。
[0147]
步骤6、重复步骤3～步骤5，直至跟踪完毕所有视频图像序列，由此得到视频每一帧中目标所在位置，跟踪任务结束。
[0148]
步骤6具体如下：
[0149]
对于一个跟踪任务，在初始化完成后的整体流程如步骤3～5，在模板更新与跟踪计算间不断重复，在这个过程中，视频序列的每一帧都会被计算出该帧的目标位置并得到一个box用于表示，对于一个视频整体来看就会得到目标的运动轨迹，直至得到整个视频图像序列所有图片的目标位置，跟踪任务结束。本方法在测试集上的准确率与成功率如图7和图8所示。
[0150]
本发明创新的使用了siamfc fpn作为backbone获得不同层的特征，并且分类分支和回归分支使用不同层的特征最终预测目标位置，发挥了神经网络提取的不同层特征的特点，极大提高了分类网络和回归网络的性能和鲁棒性。然后使用了基于互信息的模板更新条件判断方法，过滤掉了大部分有害的模板更新，有效解决了由模板更新导致的模板污染问题。最后，使用3d卷积更新模块融合历史上保留的最近且最可靠的两次跟踪结果以及在开启跟踪任务时人工标注的目标信息来融合更新模板，这样得到的新模板，既能捕获到目标近期的外观信息也能拥有第一帧时最准确的目标外观信息，因此提高了模板对于目标外观形变的鲁棒性。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于智能图形识别的防振锤故障检测方法及系统与流程

基于全卷积孪生网络多层特征的模板更新目标跟踪算法

相关文献

最热文献