一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于孪生网络的自适应多层响应融合的目标跟踪方法与流程

2021-11-24 22:07:00 来源:中国专利 TAG:


1.本发明涉及深度学习、数字图像处理以及计算机视觉的交叉领域,涉及到一种基于全卷积孪生网络的目标跟踪方法。


背景技术:

2.随着社会的发展,人们越来越追求更加智能的生活。视频监控已被应用于人们生活当中很多领域,包括刑侦罪犯监控、交通车辆监控、小区安防监控等,然而目前对于这些监控视频的目标跟踪工作,很多都是人为进行。由于人工作业的不确定因素,可能导致重要信息遗漏,因而提出一种能够有效对监控视频中的目标进行自动跟踪的方法很有必要。
3.视频目标跟踪是指通过电子设备获取视频数据之后,选取视频中的一个或多个物体作为目标,给出目标的初始状态的位置和尺度信息,然后在后续的视频帧序列中利用目标跟踪算法完成对目标的状态信息的预测,从而跟踪目标运动的过程。视频目标跟踪是高阶视频任务的基础,在视频分析、视频理解、视频交互中有着重要的作用,因此在智能视频监控、智能交通、人机交互、自动驾驶以及导弹制导等工业、军事、民用领域中有着广泛的应用前景。
4.尽管基于视频的目标跟踪技术有着广泛的应用需求,使人们能够从大量的任务中解放出来,并为人们提供分析和决策的重要依据。但是在现实的场景之中存在着包括光照变化、物体旋转、姿态变化、尺度缩放、目标遮挡、成像模糊以及背景中可能存在高度相似的物体等诸多干扰因素使得基于视频的目标跟踪成为一个较为困难的问题,现有目标跟踪技术如连续卷积跟踪算子、高效卷积算子这些算法都采用的是深度特征和相关滤波的结合,来提高目标跟踪算法的鲁棒性和抗干扰能力,但是没有利用深度学习端到端的学习能力以及强大的拟合能力和自适应能力。


技术实现要素:

5.为了克服现有技术的不足,本发明提供一种基于孪生网络的自适应多层响应融合的目标跟踪方法。因此,本发明设计一种能满足实际应用需求的视频目标跟踪方法及,以实现监控视频中目标的鲁棒跟踪。针对现如今传统的目标跟踪方法存在不足的问题,提出一种基于孪生网络的自适应多层响应融合的目标跟踪方法。为解决背景相似干扰问题,本发明提出新的多尺度信息融合表征以达到对目标的正确跟踪;为解决由于运动目标发生形变或外观模型变化,本发明提出自适应注意力模块以应对跟踪对象的形变问题,以提高目标跟踪准确性,提高在复杂背景下的目标跟踪的鲁棒性和泛化能力。
6.本发明解决其技术问题所采用的技术方案的主要步骤如下:
7.步骤1:构建一个具有残差通道注意力裁剪模块的深度孪生神经网络,使用该深度孪生神经网络进行特征提取;孪生神经网络由两支平行的网络组成,分别为目标模板分支和搜索区域分支,目标模板分支用于提取目标的特征图,搜索区域分支用于提取搜索区域不同特征空间的特征;
8.步骤2:将目标图像和搜索图像输入到深度孪生神经网络对应的目标模板分支和搜索区域分支,目标图像和搜索图像经过深度孪生神经网络分别生成对应的特征图;
9.步骤3:获取来自目标模板分支和搜索区域分支的不同特征空间的三个特征,即低层特征、中层特征和高层特征,将目标模板分支和搜索区域分支的三个特征作为卷积核,在搜索区域分支对应的特征上做卷积操作,得到3个得分图,即为搜索区域中搜索图像各个位置与目标模板分支中目标图像的相似度;
10.步骤4:对得到的3个得分图做融合相加操作,最终得到计算自多层特征的更为可靠的融合得分图;融合得分图中响应最大的位置即为在这一帧中目标的位置,之后进行裁剪操作,对输出的特征图进行裁剪,裁剪操作去除由零填充操作影响的特征图边界上最外面的特征;
11.步骤5:通过调节深度孪生神经网络的超参数,以提高网络的学习性能和效果,得到优化后的深度孪生神经网络;
12.步骤6:通过步骤5的训练操作后,将待跟踪的搜索图像经过步骤1至步骤4之后,通过深度孪生神经网络给出检测结果,以实现目标自动跟踪。
13.所述步骤1中,深度孪生神经网络主干网络中包含残差通道注意力裁剪模块,残差通道注意力裁剪模块由3个卷积层和1个通道注意力模块的堆叠,且带有一个卷积层的短跳连接组成残差结构,其中,短跳连接上的是1x1的卷积;3个卷积层依次是1x1卷积、3x3卷积和1x1卷积,通道注意力模块在3x3卷积层之后,其中3x3的卷积层包括了一个大小为1、填充值为0的填充,通过裁剪操作去除了由零填充操作影响的特征图边界上最外面的特征;残差通道注意力裁剪模块为一个自适应结构,自适应结构通过一个最大池化层,减小输出特征的尺寸,保证信息的完备性。该自适应结构能够在减少噪声影响的同时,增强跟踪器的判别能力和自适应能力。
14.所述步骤5中,超参数包括学习率、批次大小、卷积核尺寸和激活函数。
15.本发明的有益效果在于本发明提供了一种基于孪生网络的自适应多层响应融合的目标跟踪方法,该方法通过特征自适应模块充分利用不同目标对象的信息,能够很好地自适应不同的目标对象,能够跟踪视频序列中用户任意指定的目标。除此之外,本发明利用多层响应融合的策略,进一步提高了目标跟踪的可靠性。本发明可以在公共安全检测系统中使用,利用提供的自适应目标跟踪方法不断跟踪可疑车辆、可疑行人等可疑目标,并在不断跟踪的过程中采用目标行为识别技术分析可以目标行为,使得监控系统更加智能,为社会公共安全提供了很大的保障,减少由于意外事件导致的经济损失。
附图说明
16.图1为本发明跟踪过程示意图;
17.图2为本发明残差通道注意力裁剪模块;
18.图3为本发明通道注意力结构;
19.图4为本发明多层响应融合定位系统结构。
具体实施方式
20.下面结合附图和实施例对本发明进一步说明。
21.针对复杂背景下基于视频的目标跟踪存在的问题,基于孪生网络的自适应多层响应融合的目标跟踪方法。
22.本发明实施例提供一种多层种响应融合的目标自适应跟踪方法,利用交叉相关的思想,使用卷积操作来代替滑动窗口检测,并提出一种特征自适应模块来实现视频中不同目标的自适应跟踪。通过融合多种响应,最终得到一个更为鲁棒的响应图对目标进行准确定位。
23.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面结合附图进行详细描述。
24.本发明在目标跟踪自适应系统中提出了一种自适应结构,该自适应结构将残差思想和通道注意力结合到一起,即残差通道注意力裁剪模块,是整个网络的关键组成部分,能够给网络带来很大的优化以及有效的表征。残差通道注意力裁剪模块的具体组成如图2所示,其首先是由3个卷积层和一个通道注意力模块的堆叠以及带有一个卷积层的短跳连接组成一个残差结构,在这个短跳连接上用的是1x1的卷积。3个卷积层分别是1x1卷积,3x3卷积和1x1卷积,其中1x1的卷积负责通道维度的缩小和恢复,使得3x3卷积层作为一个瓶颈层有着很小的输入和输出维度,减少计算量。这个3x3的卷积层包括了一个大小为1的填充值为0的填充,来保证在相加之前输出尺寸的兼容。但是在传统的孪生网络的跟踪框架中,当目标移动到图像的边缘时,这个零填充操作会引入位置偏差,导致目标跟踪器的性能没有得到提高反而有所下降。因此在相加之后加入了一个裁剪操作,这个裁剪操作去除了由零填充操作影响的特征图边界上最外面的特征。这个简单的操作能够去除零填充操作引入的位置偏差。该自适应结构的最后是一个最大池化层,来减小输出特征的尺寸,保证信息的完备性。该自适应结构能够在减少噪声影响的同时,增强跟踪器的判别能力和自适应能力。
25.其中自适应结构中的通道注意力如图3所示,其是由全局平均池化、权重下采样层、权重上采样层以及sigmoid函数组成。
26.其中输入是一个h
×
w
×
c的特征x=[x1,

,x
n
,

,x
c
],其含有c个特征通道,大小为h
×
w。先进行一个空间的全局平均池化(gap)得到一个1
×1×
c的通道描述。接着,再经过一个下采样层(wd)和一个上采样层(wu)以及sigmoid函数(f)得到每一个通道的权重系数,将权重系数和原来的特征相乘得到缩放后的新特征,整个过程实际上就是对不同通道的特征重新进行了加权分配。通过对特征通道之间的相互依赖性建模来自适应地重新缩放每个通道的特征,让网络专注于更有用的信道,增强辨别学习能力和自适应能力。其中,权重下采样层和权重上采样层都是通过1x1的卷积来实现的,权重下采样层使用c/r个1x1卷积将通道数减少到原来的1/r,其使用的激活函数为relu,权重上采样层将通道数升至为原来的c,这里的r是通道数的缩放因子。
[0027]
将目标图像和搜索图像输入到所述深度孪生神经网络,目标图像和搜索图像改过该具有残差通道注意力裁剪模块的深度孪生神经网络分别生成对应的特征图。
[0028]
在多种融合响应定位模块中,利用目标模板分支的低层特征、中层特征、高层特征作为卷积核,对搜索分支上对应的低层特征、中层特征、高层特征分别做对应的卷积操作,得到3个预测的得分图。对得到的3个得分图做相加操作,最终得到计算自多层特征的更为可靠的得分图。在融合后的得分图中响应最大的位置即为在这一帧中目标的位置。
[0029]
其中,卷积操作的公式为:
[0030][0031]
b表示在得分图中每个位置的取值;作为卷积核,在上进行卷积。
[0032]
对得到的3个得分图做融合相加操作,最终得到计算自多层特征的更为可靠的得分图。得分图中响应最大的位置即为在这一帧中目标的位置。
[0033]
通过调节深度孪生神经网络的超参数,以提高网络的学习性能和效果。主要的超参数有学习率、批次大小、卷积核尺寸以及激活函数等。
[0034]
网络的参数通过optimizer最小化逻辑斯蒂损失函数logistic loss更新得到。其初始化的参数值遵循高斯分布,并根据改进的xavier方法进行调整,其中卷积核和全连接的权重使用xavier进行统一,其余参数都初始化为固定值0或者1。在训练过程中一共进行了50个epoch,在2个gpu上训练,每个gpu负责8images,因此每一次迭代的梯度由大小为16的最小批量进行计算和估计。训练时使用随机梯度下降法(sgd)进行优化,学习率在每一轮训练中中以几何退火的方式从0.01到0.00001进行自动调整,权重衰减系数设置为0.0005。
[0035]
训练过后,将待跟踪的视频输入至网络,通过优化好的深度孪生神经网络给出检测结果,以实现目标自动跟踪。
[0036]
综述,该自适应目标跟踪方法的流程如图1所示,目标模板图像使用的是视频序列第一帧的目标区域;搜索图像为在后续帧中的目标搜索区域;目标模板分支和搜索区域分支分别经过共享权重的卷积神经网络,通过卷积神经网络的特征映射操作,将原始图像映射到特定的特征空间。获取来自目标模板分支和搜索区域分支的不同特征空间的特征,即低层特征,中层特征,高层特征,将模板分支的这三个特征作为卷积核,在搜索区域分支对应的特征上做卷积操作,得到3个得分图,即为搜索区域中各个位置与目标模板的相似度值。融合3个得分图,其响应值最大的位置即为在这一帧中目标的位置。对下一帧进行跟踪时使用上一帧目标位置为中心的搜索图像来计算响应得分图。
[0037]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献