一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于视频着色的无监督目标密集跟踪方法与流程

2022-04-27 09:12:47 来源:中国专利 TAG:


1.本发明涉及目标密集跟踪方法,具体涉及一种基于视频着色的无监督目标密集跟踪方法。


背景技术:

2.目标跟踪问题是计算机视觉中被广泛研究的问题,而现有的目标跟踪往往需要大量的图像标签且跟踪的目标类别有限,因此无监督的目标跟踪问题引起了学术界的广泛关注与深入研究。现有的无监督目标跟踪问题主要有四类解决方法,分别是:基于对应流的方法、基于时间循环一致性的方法、基于多重网格预测滤波器的方法以及基于视频着色的方法。本发明基于视频着色的方法,这类方法的一般流程是:给定视频中的某帧,遍历该帧的每一个像素点pi,在参考帧或者参考帧集合中的特定区域寻找与该点最为相似的点集{qj},以点集中的点与该点的相似程度为权重w
ij
,将点集中点的标签值加权求和即得该帧每一个像素点的预测标签值这类方法的预测精度一般不超过40%(f&j-mean指标),经mast的改进达到了65%左右,跟踪效果有了质的提升,达到同类算法精度最高的水平,但是离有监督的目标跟踪方法仍有一定的差距,如premvos的精度可以达到75%至80%。因此,无监督的目标跟踪方法仍然有提升的必要与空间。


技术实现要素:

3.本发明的目的:在于提供一种基于视频着色的无监督目标密集跟踪方法,对预设目标对象实现高预测精度和高跟踪质量的无监督目标密集跟踪。
4.为实现以上功能,本发明设计一种基于视频着色的无监督目标密集跟踪方法,按如下步骤s1-步骤s5,获得目标跟踪模型,然后应用目标跟踪模型,完成对预设目标对象的跟踪;
5.s1.获得以时间顺序排列、且分别包含预设目标对象的各视频样本帧;
6.s2.基于卷积神经网络、srm模块,以视频样本帧为输入,以视频样本帧所对应的特征图为输出,构建特征提取网络,其中特征提取网络输出特征图的第一周期为t1;
7.s3.基于特征提取网络实时输出特征图的方式,以特征提取网络实时输出的特征图为实时输入,以第二周期针对所获全部特征图中预设数量的特征图所构成的特征图组为输出,构建动态调整模块,其中动态调整模块输出特征图组的第二周期为t2,且t2>t1;
8.s4.基于特征提取网络实时输出的特征图、动态调整模块输出的特征图组,构建参考帧组,以参考帧组为输入,以预设目标对象在特征提取网络实时输出特征图的下一帧特征图中的位置参数、面积参数为输出,构建目标预测模块;
9.s5.基于特征提取网络、动态调整模块、目标预测模块,以视频样本帧为输入,以预设目标对象在特征提取网络实时输出特征图的下一帧特征图中的位置参数、面积参数为输出,构建目标跟踪模型。
10.作为本发明的一种优选技术方案:特征提取网络、动态调整模块、目标预测模块依次串联,特征提取网络以第一周期t1向动态调整模块实时输出特征图,动态调整模块以第一周期t1实时接收特征图,并以第二周期t2向目标预测模块输出所获全部特征图中预设数量的特征图所构成的特征图组,以动态调整模块输出的特征图组构建参考帧组,将其作为目标预测模块的输入,其中该参考帧组包括动态调整模块接收到的特征提取网络实时输出的最新一帧特征图。
11.作为本发明的一种优选技术方案:特征提取网络、动态调整模块、目标预测模块两两相互连接,特征提取网络以第一周期t1同时向动态调整模块、目标预测模块实时输出特征图,动态调整模块以t1实时接收特征图,并以第二周期t2向目标预测模块输出所获全部特征图中预设数量的特征图所构成的特征图组,将特征提取网络以第一周期t1向目标预测模块实时输出的最新一帧特征图、以及动态调整模块以第二周期t2向目标预测模块输出的特征图组共同构建参考帧组,作为目标预测模块的输入。
12.作为本发明的一种优选技术方案:步骤s2中将srm模块与卷积神经网络的每一个残差块相结合,以调整特征提取网络输出特征图各个通道的权重,其具体步骤如下:
13.s21:卷积神经网络以视频样本帧为输入,以维度为c
×h×
w的特征图为输出,其中c为该特征图的通道数,h为该特征图的长度,w该特征图的宽度,计算特征图每一个通道的标准差、平均值、最大值、熵,获得维度为c
×
4的矩阵;
14.s22:基于维度为c
×
4的矩阵,对其进行1
×
1的卷积,获得c
×
1的权重向量,根据该权重向量调整特征图的各个通道的权重,以调整后的特征图作为特征提取网络的输出。
15.作为本发明的一种优选技术方案:所述参考帧组包括长期参考帧组、短期参考帧组,步骤s4具体包括以下步骤:
16.s41:以特征提取网络实时输出特征图的下一帧特征图为查询帧,其帧数为第t帧,将各特征图中属于预设目标对象的每个像素点一一对应一个标签,将特征提取网络实时输出的特征图中的标签数量与上一帧特征图中标签数量相比,其变化率大于等于预设值,则选取第t-1、t-2、t-3帧特征图构建短期参考帧组,标签数量变化率小于预设值,则选取第t-1、t-3、t-5帧特征图构建短期参考帧组;
17.短期参考帧组为第t-1、t-2、t-3帧特征图时,沿历史时间方向,以第t-3帧特征图以前预设数量的特征图作为候选长期参考帧;
18.短期参考帧组为第t-1、t-3、t-5帧特征图时,沿历史时间方向,以第t-5帧特征图以前预设数量的特征图作为候选长期参考帧;
19.s42:以查询帧中预设位置的像素点为查询像素点,在各候选长期参考帧中的候选像素点中搜索属于预设目标对象的像素点,并根据其对应的标签,将查询像素点中具有相同标签的像素点标注为属于预设目标对象的像素点,该过程获得的结果为长期记忆;
20.其中,基于膨胀率dil构建候选像素点,膨胀率dil如下式:
[0021][0022]
式中,c
t-1
为查询帧前一帧特征图的质心,cr为该帧参考帧的质心,h为特征图的高度,w为特征图的宽度,该膨胀率对应的范围内的像素点为候选像素点;
[0023]
s43:以各查询像素点在查询帧中的坐标在各短期参考帧中所对应的坐标为中心,
以15个像素点为边长,分别划分正方形区域,在各正方形区域中搜索属于预设目标对象的像素点,并根据其对应的标签,将查询像素点中具有相同标签的像素点标注为属于预设目标对象的像素点,该过程获得的结果为短期记忆;
[0024]
s44:基于长期记忆和短期记忆的重合程度参数iou、ratio,选择用于输入目标预测模块的参考帧组,其中iou、ratio如下式:
[0025][0026][0027]
式中,l_m为长期记忆中标注为属于预设目标对象的像素点,s_m为短期记忆中标注为属于预设目标对象的像素点;
[0028]
以ratio的值大于0.9,并且小于1.05的候选长期参考帧作为长期参考帧组,按如下方法构建参考帧组:
[0029]
(1)当iou>0.9,则以长期参考帧组和第t-3帧特征图构建参考帧组;
[0030]
(2)当0.6≤iou≤0.9,则以长期参考帧组以及短期参考帧组构建参考帧组;
[0031]
(3)当iou<0.6,则根据预设规则重新选择长期参考帧组,以该重新选择的长期参考帧组和短期参考帧组构建参考帧组。
[0032]
作为本发明的一种优选技术方案:所述标签数量变化率的预设值为10%。
[0033]
作为本发明的一种优选技术方案:所述步骤s44中重新选择长期参考帧组后,基于grabcut方法,根据长期记忆、短期记忆,对各长期参考帧进行前背景分割。
[0034]
有益效果:相对于现有技术,本发明的优点包括:
[0035]
本发明设计了一种基于视频着色的无监督目标密集跟踪方法,将srm模块整合入特征提取网络的残差模块,重新训练特征提取网络,可以增强网络提取特征的能力;而后结合动态调整参考帧机制以及前背景分割机制,依据相关参数的结果选择合适的参考帧,在查询帧中传播标签,更能适应目标剧烈变化的跟踪场景,且减少标签散布到背景上的情况;整体而言,模型可以在各个场景下提高目标跟踪的精度。
附图说明
[0036]
图1是根据发明实施例提供的srm模块示意图;
[0037]
图2是根据发明实施例提供的同srm模块结合的残差模块示意图;
[0038]
图3是根据发明实施例提供的动态调整参考帧机制流程图;
[0039]
图4是根据发明实施例提供的基于grabcut方法的前背景分割机制示意图。
具体实施方式
[0040]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0041]
本发明提供的一种基于视频着色的无监督目标密集跟踪方法,按如下步骤s1-步骤s5,获得目标跟踪模型,然后应用目标跟踪模型,完成对预设目标对象的跟踪;
[0042]
s1.获得以时间顺序排列、且分别包含预设目标对象的各视频样本帧;
[0043]
s2.基于卷积神经网络、srm模块,以视频样本帧为输入,以视频样本帧所对应的特征图为输出,构建特征提取网络,其中特征提取网络输出特征图的第一周期为t1;
[0044]
参考图1、图2,将srm模块与卷积神经网络的每一个残差块相结合,以调整特征提取网络输出特征图各个通道的权重,其中卷积神经网络可采用resnet-18、resnet-50,其具体步骤如下:
[0045]
s21:卷积神经网络原有的卷积部分不作改变,卷积神经网络以视频样本帧为输入,以维度为c
×h×
w的特征图为输出,其中c为该特征图的通道数,h为该特征图的长度,w该特征图的宽度,计算特征图每一个通道的标准差、平均值、最大值、熵,获得维度为c
×
4的矩阵,称之为风格矩阵,针对特征图基于其通道,根据下式计算其熵的值:
[0046][0047]
式中χ为区间集合,由-1至1范围内,步长为0.1的20个小区间组成。p(x)为x中的特征值落于区间x的概率,其中0<p(x)<1。标准差、平均值和最大值的函数是可导的,而熵的计算函数是不可导的,因此需要自定义熵的导数:
[0048][0049]
由于p(x)为离散函数不可导,因此启发式地设置当特征向量x均匀分布时,的值为1,则p(x)=0.05,p

(x)=0.025,得到熵求解函数的导数如下式:
[0050][0051]
s22:基于维度为c
×
4的矩阵,对其进行1
×
1的卷积,获得c
×
1的权重向量,根据该权重向量调整特征图的各个通道的权重,以调整后的特征图作为特征提取网络的输出。
[0052]
s3.基于特征提取网络实时输出特征图的方式,以特征提取网络实时输出的特征图为实时输入,以第二周期针对所获全部特征图中预设数量的特征图所构成的特征图组为输出,构建动态调整模块,其中动态调整模块输出特征图组的第二周期为t2,且t2>t1;
[0053]
在一个实施例中,特征提取网络、动态调整模块、目标预测模块依次串联,特征提取网络以第一周期t1向动态调整模块实时输出特征图,动态调整模块以第一周期t1实时接收特征图,并以第二周期t2向目标预测模块输出所获全部特征图中预设数量的特征图所构成的特征图组,以动态调整模块输出的特征图组构建参考帧组,将其作为目标预测模块的输入,其中该参考帧组包括动态调整模块接收到的特征提取网络实时输出的最新一帧特征图。
[0054]
在一个实施例中,特征提取网络、动态调整模块、目标预测模块两两相互连接,特征提取网络以第一周期t1同时向动态调整模块、目标预测模块实时输出特征图,动态调整模块以t1实时接收特征图,并以第二周期t2向目标预测模块输出所获全部特征图中预设数量的特征图所构成的特征图组,将特征提取网络以第一周期t1向目标预测模块实时输出的最新一帧特征图、以及动态调整模块以第二周期t2向目标预测模块输出的特征图组共同构
建参考帧组,作为目标预测模块的输入。
[0055]
s4.基于特征提取网络实时输出的特征图、动态调整模块输出的特征图组,构建参考帧组,以参考帧组为输入,以预设目标对象在特征提取网络实时输出特征图的下一帧特征图中的位置参数、面积参数为输出,构建目标预测模块;
[0056]
所述参考帧组包括长期参考帧组、短期参考帧组,步骤s4具体包括以下步骤:
[0057]
s41:以特征提取网络实时输出特征图的下一帧特征图为查询帧,其帧数为第t帧,将各特征图中属于预设目标对象的每个像素点一一对应一个标签,将特征提取网络实时输出的特征图中的标签数量与上一帧特征图中标签数量相比,其变化率大于等于预设值,则选取第t-1、t-2、t-3帧特征图构建短期参考帧组,标签数量变化率小于预设值,则选取第t-1、t-3、t-5帧特征图构建短期参考帧组;
[0058]
短期参考帧组为第t-1、t-2、t-3帧特征图时,沿历史时间方向,以第t-3帧特征图以前预设数量的特征图作为候选长期参考帧;
[0059]
短期参考帧组为第t-1、t-3、t-5帧特征图时,沿历史时间方向,以第t-5帧特征图以前预设数量的特征图作为候选长期参考帧;
[0060]
s42:以查询帧中预设位置的像素点为查询像素点,在各候选长期参考帧中的候选像素点中搜索属于预设目标对象的像素点,并根据其对应的标签,将查询像素点中具有相同标签的像素点标注为属于预设目标对象的像素点,该过程获得的结果为长期记忆;
[0061]
其中,以质心来表示预设目标对象的位置,其主要影响长期记忆中的膨胀率,膨胀率表示相邻候选像素点横纵坐标的间距,间距越大,感受野越大,当取值为4时基本覆盖整个参考帧,当预设目标对象在查询帧中的位置与预设目标对象在查询帧中的位置偏离越远,其膨胀率越大,基于膨胀率dil构建候选像素点,膨胀率dil如下式:
[0062][0063]
式中,c
t-1
为预设目标对象的在查询帧前一帧特征图的质心,cr为预设目标对象的在该帧参考帧的质心,h为特征图的高度,w为特征图的宽度,该膨胀率对应的范围内的像素点为候选像素点;
[0064]
s43:以各查询像素点在查询帧中的坐标在各短期参考帧中所对应的坐标为中心,以15个像素点为边长,分别划分正方形区域,在各正方形区域中搜索属于预设目标对象的像素点,并根据其对应的标签,将查询像素点中具有相同标签的像素点标注为属于预设目标对象的像素点,该过程获得的结果为短期记忆;
[0065]
实验过程中发现,根据长期记忆预测结果中的c
t-1
和cr相对于真实的质心位置上更为接近,因为目标从cr移动到c
t-1
的时候,可能会发生标签散布到背景上的情况,如果dil=0则和短期记忆的预测过程没有区别,因此dil最小为1,再考虑到质心偏移的问题,因此在一个实施例中设置2≤dil≤4,具体数值由质心偏移量与图片最大可偏移量的比例决定。
[0066]
s44:长期参考帧与查询帧的相似程度由长期记忆和短期记忆的重合程度衡量,理想情况下长短期记忆预测的结果应该完全一致,但由于预设目标对象的位移形变等,长期记忆的结果往往与短期记忆的结果差别较大,因此选择合适的长期参考帧有利于改善跟踪质量。基于长期记忆和短期记忆的重合程度参数iou、ratio,选择用于输入目标预测模块的参考帧组,其中iou、ratio如下式:
[0067][0068][0069]
式中,l_m为长期记忆中标注为属于预设目标对象的像素点,s_m为短期记忆中标注为属于预设目标对象的像素点;
[0070]
以ratio的值大于0.9,并且小于1.05的候选长期参考帧作为长期参考帧组,参考图3,按如下方法构建参考帧组:
[0071]
(1)当iou>0.9,则以长期参考帧组和第t-3帧特征图构建参考帧组;
[0072]
(2)当0.6≤iou≤0.9,则以长期参考帧组以及短期参考帧组构建参考帧组;
[0073]
(3)当iou<0.6,则根据预设规则重新选择长期参考帧组,以该重新选择的长期参考帧组和短期参考帧组构建参考帧组。在一个实施例中,若iou<0.6,则从第0帧开始遍历,寻找iou值更高的参考帧,同时需要确保iou与ratio更加接近,理想情况下,两者的值应该一样且无限接近于1.0,若找到满足条件的参考帧,则重新设定长期参考帧且在接下来的预测中保持该长期参考帧不变,加上短期参考帧后进行最终的预测;若没有找到满足条件的参考帧,说明目标发生了较大变化,应该尽可能使用相近的帧,最终确定为t-1帧和t-3帧;
[0074]
重新选择长期参考帧组后,基于grabcut方法,根据长期记忆、短期记忆,对各长期参考帧进行前背景分割。
[0075]
初始的长期参考帧第0帧,不存在误差累积的问题,当动态调整机制重新选择了长期参考帧,选择的结果可能存在因为前一阶段预测过程中累积的误差,造成预测质量的下降,甚至将明显不属于预设目标对象的背景误判为预设目标对象。因此当动态调整机制重新选择长期参考帧后,需要进行前背景分割,去除明显不属于预设目标对象的标签,同时也能对预测结果进行平滑处理,使得预测结果的边缘与预设目标对象更为适配。
[0076]
本发明采用的是grabcut方法进行前背景分割,grabcut方法需要设定初始标签,分别为背景、前景、可能背景以及可能前景,用0、1、2、3对应表示。该方法运行过程中,根据初始标注的前景以及背景生成前背景的颜色模式,后根据颜色模式判断标为可能前景可能背景像素点是否为前景或者背景。
[0077]
参考图4,标签初始化方法如下:将长期记忆和短期记忆中重合部分标记为前景;将长短期记忆中重合的背景部分标记为背景;长期记忆中为前景而短期记忆中为背景的物体标记为可能背景;短期记忆中为前景而长期记忆中为背景的部分标记为可能背景。
[0078]
考虑到预设目标对象的形变与位移,前景和可能前景附近的像素点,虽然被标记为背景,但依然可能是属于预设目标对象的像素点,因此对标记为前景和可能前景附近的像素点进行生长,以之为中心点,边长为15的正方形区域内的背景以及可能背景像素点标记为可能前景。完成基于grabcut方法的标签初始化后,运行grabcut方法,将结果直接替换原始预测结果。
[0079]
s5.基于特征提取网络、动态调整模块、目标预测模块,以视频样本帧为输入,以预设目标对象在特征提取网络实时输出特征图的下一帧特征图中的位置参数、面积参数为输出,构建目标跟踪模型。在一个实施例中,以查询帧中属于预设目标对象的标签数量来表示预设目标对象的面积,以查询帧中预设目标对象的质心来表示预设目标对象的位置。
[0080]
在一个实施例中,所述标签数量变化率的预设值为10%。
[0081]
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献