一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标跟踪处理方法、电子设备及存储介质与流程

2022-12-09 19:46:17 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,尤其涉及一种目标跟踪处理方法、电子设备及存储介质。


背景技术:

2.目标跟踪是计算机视觉领域的一个重要的研究方向,在区域智能监控,无人机跟随、自动驾驶等领域都有广泛的应用,近年来,基于深度学习的目标跟踪算法取得了卓越的成效,逐渐成为目标跟踪方向主要的研究手段。
3.但监控视频中多个场景均会出现光照不均匀和雨雾天气的影响,这导致已有的基于深度学习的目标跟踪算法直接应用于真实场景时,算法跟踪性能下降。因此需要分析真实场景的数据特性,针对真实场景调整网络结构,使其具有更好的特征提取能力和应对图像质量问题的能力。


技术实现要素:

4.针对现有技术存在的问题,本发明提供一种目标跟踪处理方法、电子设备及存储介质。
5.第一方面,本发明提供一种目标跟踪处理方法,包括:
6.获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;
7.基于注意力机制和激活函数对所述模板帧的图像特征和所述定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;
8.基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;
9.根据融合特征进行分类和回归预测,确定预测结果,所述预测结果表征定位帧上的目标信息。
10.在一个实施例中,所述基于注意力机制和激活函数对所述模板帧的图像特征和所述定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征,包括:
11.执行基于注意力机制的挤压操作和非线性激活操作,将所述模板帧的图像特征和所述定位帧的图像特征进行降维处理,获得降维后的图像尺度;
12.执行基于注意力机制的激励操作和非线性激活操作,将降维后的图像尺度经全连接层进行权重学习,确定深度向量,并根据所述深度向量和所述图形特征确定模板帧的深度图像特征和定位帧的深度图像特征。
13.在一个实施例中,所述基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征,包括:
14.将模板帧的深度图像特征和定位帧的深度图像特征通过过双线性插值放大到同一目标尺度,将处于同一目标尺度的模板帧的深度图像特征和定位帧的深度图像特征进行
融合,获得融合特性。
15.在一个实施例中,所述根据融合特征进行分类和回归预测,确定预测结果,包括:
16.根据融合特征采用分类分支模块,预测出定位帧中的正负样本;
17.根据定位帧中的正负样本采用回归分支模块,预测出定位帧中的目标位置信息和尺度信息,将目标位置信息和尺度信息作为预测结果进行输出。
18.在一个实施例中,所述方法包括:
19.获取更新后的模板帧,根据所述预测结果确定模板帧和定位帧对于预测结果的输出权重满足预设条件时,不在更新模板帧。
20.第二方面,本发明提供一种目标跟踪处理装置,包括:
21.获取模块,用于获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;
22.提取模块,用于基于注意力机制和激活函数对所述模板帧的图像特征和所述定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;
23.融合模块,用于基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;
24.预测模块,用于根据融合特征进行分类和回归预测,确定预测结果,所述预测结果表征定位帧上的目标信息。
25.在一个实施例中,所述提取模块具体用于:
26.执行基于注意力机制的挤压操作和非线性激活操作,将所述模板帧的图像特征和所述定位帧的图像特征进行降维处理,获得降维后的图像尺度;
27.执行基于注意力机制的激励操作和非线性激活操作,将降维后的图像尺度经全连接层进行权重学习,确定深度向量,并根据所述深度向量和所述图形特征确定模板帧的深度图像特征和定位帧的深度图像特征。
28.在一个实施例中,所述融合模块具体用于:
29.将模板帧的深度图像特征和定位帧的深度图像特征通过过双线性插值放大到同一目标尺度,将处于同一目标尺度的模板帧的深度图像特征和定位帧的深度图像特征进行融合,获得融合特性。
30.第三方面,本发明提供一种电子设备,包括存储器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述目标跟踪处理方法的步骤。
31.第四方面,本发明提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面所述目标跟踪处理方法的步骤。
32.本发明提供的目标跟踪处理方法、电子设备及存储介质,通过基于注意力机制和激活函数获得视频中模板帧的深度图像特征和定位帧的深度图像特征,然后基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征,根据融合特征进行分类和回归预测,确定预测结果,实现对真实视频序列中出现的场景缺陷有更好的适应性,增强网络区分相似目标的能力。
附图说明
33.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本发明提供的目标跟踪处理方法的流程示意图;
35.图2是本发明提供的神经网络模型的结构流程图;
36.图3是本发明提供的特征融合的结构流程图;
37.图4是本发明提供的确定模板帧和定位帧对于预测结果的输出权重的处理流程示意图;
38.图5是本发明提供的目标跟踪处理装置的结构示意图;
39.图6是本发明提供的电子设备的结构示意图。
具体实施方式
40.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.下面结合图1-图6描述本发明的目标跟踪处理方法、装置、电子设备及存储介质。
42.图1示出了本发明一种目标跟踪处理方法的流程示意图,参见图1,该方法包括:
43.11、获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;
44.12、基于注意力机制和激活函数对模板帧的图像特征和定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;
45.13、基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;
46.14、根据融合特征进行分类和回归预测,确定预测结果,预测结果表征定位帧上的目标信息。
47.针对步骤11-步骤14,需要说明的是,在本发明中,获取待处理视频,以视频中的第一帧为模板帧,之后的其他帧均为定位帧,在模板帧图像上会预先标注出目标的位置及尺寸信息,然后需要基于模板帧在该定位帧图像上去定位目标的位置及尺寸信息。在目标跟踪过程中,需要对图像进行分析,提取图像的图像特征。故获取待处理视频中的模板帧的图像特征和定位帧的图像特征。
48.在本发明中,对图像中目标的跟踪,需要基于训练好的神经网络模型进行目标预测。将模板帧的图像特征,以及定位帧的图像特征输入到网络模型中,在模型的卷积层中,基于注意力机制和激活函数对模板帧的图像特征和定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征,运用注意力机制在卷积过程中选择有效特征,避免冗余特征给结果带来的影响,克服图像质量差带来的影响,也加强网络的特征提取能力。
49.然后,由于在卷积层输出的深度图像特征各层的尺度不同,为此,选取末端预设数目的卷积层输出的深度图像特征,基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征。
50.该融合特征能够进行分类和回归,确定预测结果,预测结果表征定位帧上的目标信息,增加每帧图像中相似目标之间的适用性。
51.本发明提供的目标跟踪处理方法,通过基于注意力机制和激活函数获得视频中模板帧的深度图像特征和定位帧的深度图像特征,然后基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征,根据融合特征进行分类和回归预测,确定预测结果,实现对真实视频序列中出现的场景缺陷有更好的适应性,增强网络区分相似目标的能力。
52.在进一步说明中,主要是对基于注意力机制和激活函数对模板帧的图像特征和定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征的处理过程进行解释说明,具体如下:
53.执行基于注意力机制的挤压操作和非线性激活操作,将模板帧的图像特征和定位帧的图像特征进行降维处理,获得降维后的图像尺度;
54.执行基于注意力机制的激励操作和非线性激活操作,将降维后的图像尺度经全连接层进行权重学习,确定深度向量,并根据深度向量和图形特征确定模板帧的深度图像特征和定位帧的深度图像特征。
55.对此,需要说明的是,在本发明中,参见图2示出了本发明方法的结构流程图,在图2中,模板帧的图像特征和定位帧的图像特征输入到网络模型中,经多层卷积层进行处理,在卷积层会配置有注意力模块和激活函数模块,其中:
56.se(squeeze and excitation)模块是注意力模型,首先是挤压squeeze操作,将输入的图像特征采用池化处理使其图像尺度降维,但保留其通道数不变;然后是激励excitation操作,将降维后的图像尺度经过第一个全连接层缩减通道为之前的四分之一,之后再通过全连接层放大四倍,从而达到采用两步全连接层进行权重学习,得到与输入的图像特征具有相同通道数的深度向量,该深度向量代表不同通道的重要程度,再将深度向量逐层乘入图像特征中,完成获取模板帧的深度图像特征和定位帧的深度图像特征。
57.在本发明中,利用se模块可以增加网络对特征的辨识度,增强图像特征与网络间的相关性,抑制对于目标的无用的特征输入,让网络模型更好的利用有效特征增强预测的精确度。
58.在本发明中,激活函数模块中的激活函数采用h-swish函数,需要说明的是,swish函数已经在大量的神经网络模型中得到了应用,在实践中均取得了更好的性能,swish函数与relu函数较为相似,但是与relu不同的是swish非单调,并且过渡更为平滑,不会出现梯度消失问题。但是swish函数计算量太大,不适合应用于轻量级神经网络,所以提出了h-swish函数以近似swish函数,h-swish函数由下式给出:
[0059][0060]
其中,x是特征值。
[0061]
经过图2所示网络模型的特征提取,能够获取模板帧的深度图像特征和定位帧的深度图像特征。
[0062]
在进一步说明中,主要是对基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征的处理过程进行解释说明,具体如下:
[0063]
将模板帧的深度图像特征和定位帧的深度图像特征通过过双线性插值放大到同一目标尺度,将处于同一目标尺度的模板帧的深度图像特征和定位帧的深度图像特征进行融合,获得融合特性。
[0064]
对此,需要说明的是,在本发明中,使用提取深度图像特征的神经网络模型作为特征提取网络,在神经网络中的不同卷积层得到的特征类型不同,为了增强网络在目标跟踪过程中的鲁棒性,可选取不同层特征进行加权融合。参见图2,选取网络结构中conv13、14、15层输出的深度图像特征进行融合,由于三个卷积层的输出尺度不同,且深层特征尺度较低,为了融合多层特征将输出特征通过双线性插值放大到同一目标尺度,然后将处于同一目标尺度的模板帧的深度图像特征和定位帧的深度图像特征进行融合,获得融合特性。具体参见图3示出了特征融合的结构流程图。
[0065]
利用双线性插值将不同层的特征扩充到相同的尺度进行融合,融合经过注意力机制选择的多层特征,增强网络区分相似目标的能力。
[0066]
在进一步说明中,主要是对根据融合特征进行分类和回归预测,确定预测结果的处理过程进行解释说明,具体如下:
[0067]
根据融合特征采用分类分支模块,预测出定位帧中的正负样本;
[0068]
根据定位帧中的正负样本采用回归分支模块,预测出定位帧中的目标位置信息和尺度信息,将目标位置信息和尺度信息作为预测结果进行输出。
[0069]
对此,需要说明的是,在本发明中,将融合特征输入到网络模型中的分类分值模块中,预测出定位帧中的正负样本,然后采用回归分支模块根据定位帧中的正负样本预测出定位帧中的目标位置信息和尺度信息,将目标位置信息和尺度信息作为预测结果进行输出。
[0070]
对于待处理视频中一个模板帧及所有定位帧,预测到各个定位帧中的目标位置信息和尺度信息,则可实现在待处理视频中对目标的跟踪轨迹。
[0071]
另外,还需要改进在跟踪过程中目标发生形变与模板帧真实值区别过大,导致目标漂移、丢失等问题,为此,需对模板进行更新,具体如下:
[0072]
获取更新后的模板帧,根据所述预测结果确定模板帧和定位帧对于预测结果的输出权重满足预设条件时,不在更新模板帧。
[0073]
对此,需要说明的是,在本发明中,参见图4示出了本发明确定模板帧和定位帧对于预测结果的输出权重的处理流程示意图。参见图4,为了加强网络模型在长时间跟踪中的鲁棒性,将预测结果(即预测值)增加到模板帧中,真实值(即模板帧中的真实结果)和预测值通过同一个网络得到回归权重和分类权重,融合真实值和预测值的输出权重。
[0074]
例如输出权重设置初始为真实值0.9,预测值为0.1,每经过10帧更新一次模板,预测值权重增加0.1,真实值减少0.1;在真实值权重为0.5,预测值权重为0.5时不再变化。
[0075]
下面对本发明提供的目标跟踪处理装置进行描述,下文描述的目标跟踪处理装置与上文描述的目标跟踪处理方法可相互对应参照。
[0076]
图5示出了本发明提供的一种目标跟踪处理装置的结构示意图,参见图5,该装置包括获取模块51、提取模块52、融合模块53和预存模块54,其中:
[0077]
获取模块51,用于获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;
[0078]
提取模块52,用于基于注意力机制和激活函数对所述模板帧的图像特征和所述定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;
[0079]
融合模块53,用于基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;
[0080]
预测模块54,用于根据融合特征进行分类和回归预测,确定预测结果,所述预测结果表征定位帧上的目标信息。
[0081]
在进一步说明中,所述提取模块具体用于:
[0082]
执行基于注意力机制的挤压操作和非线性激活操作,将所述模板帧的图像特征和所述定位帧的图像特征进行降维处理,获得降维后的图像尺度;
[0083]
执行基于注意力机制的激励操作和非线性激活操作,将降维后的图像尺度经全连接层进行权重学习,确定深度向量,并根据所述深度向量和所述图形特征确定模板帧的深度图像特征和定位帧的深度图像特征。
[0084]
在进一步说明中,所述融合模块具体用于:
[0085]
将模板帧的深度图像特征和定位帧的深度图像特征通过过双线性插值放大到同一目标尺度,将处于同一目标尺度的模板帧的深度图像特征和定位帧的深度图像特征进行融合,获得融合特性。
[0086]
在进一步说明中,所述预测模块在根据融合特征进行分类和回归预测,确定预测结果的处理过程中,具体用于:
[0087]
根据融合特征采用分类分支模块,预测出定位帧中的正负样本;
[0088]
根据定位帧中的正负样本采用回归分支模块,预测出定位帧中的目标位置信息和尺度信息,将目标位置信息和尺度信息作为预测结果进行输出。
[0089]
在进一步说明中,所述装置还包括更新模块,用于:
[0090]
获取更新后的模板帧,根据所述预测结果确定模板帧和定位帧对于预测结果的输出权重满足预设条件时,不在更新模板帧。
[0091]
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
[0092]
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
[0093]
本发明提供的目标跟踪处理装置,通过基于注意力机制和激活函数获得视频中模板帧的深度图像特征和定位帧的深度图像特征,然后基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征,根据融合特征进行分类和回归预测,确定预测结果,实现对真实视频序列中出现的场景缺陷有更好的适应性,增强网络区分相似目标的能力力。
[0094]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)61、通信接口(communication interface)62、存储器(memory)63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信。处理器61可以调用存储器63中的计算机程序,以执行目标跟踪处理方法的步骤,例如包括:获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;基于注意力机制和激活函数对
模板帧的图像特征和定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;根据融合特征进行分类和回归预测,确定预测结果,预测结果表征定位帧上的目标信息。
[0095]
此外,上述的存储器63中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0096]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述目标跟踪处理方法的步骤,例如包括:获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;基于注意力机制和激活函数对模板帧的图像特征和定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;根据融合特征进行分类和回归预测,确定预测结果,预测结果表征定位帧上的目标信息。
[0097]
另一方面,本技术实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述目标跟踪处理方法的步骤,例如包括:获取待处理视频中的模板帧的图像特征,以及定位帧的图像特征;基于注意力机制和激活函数对模板帧的图像特征和定位帧的图像特征进行深度特征提取,获得模板帧的深度图像特征和定位帧的深度图像特征;基于双线性插值算法对模板帧的深度图像特征和定位帧的深度图像特征进行特征融合,获得融合特征;根据融合特征进行分类和回归预测,确定预测结果,预测结果表征定位帧上的目标信息。
[0098]
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
[0099]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0100]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0101]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献