一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种高效轻量级光流估计方法与流程

2021-10-24 06:20:00 来源:中国专利 TAG:高效 图像处理 估计 方法


1.本发明涉及图像处理技术领域,具体涉及一种高效轻量级光流估计方法。


背景技术:

2.光流,顾名思义,光的流动。比如人眼感受到的夜空中划过的流星。在计算机视觉中,定义图像中对象的移动,这个移动可以是相机移动或者物体移动引起的。具体是指,视频图像的一帧中的代表同一对象(物体)像素点移动到下一帧的移动量,使用二维向量表示。稠密光流描述图像每个像素向下一帧运动的光流。
3.光流估计是计算机视觉中的一个经典问题。它被广泛使用在许多领域中,如运动跟踪、动作识别、视频分割、三维重建、视频修复等。1981年,horn和schunck首次提出光流基本守恒假设及相应光流估计方法,而后他们又提出使用能量函数耦合亮度不变性和空间平滑性的能量最小化方法,这是当时准确率最高的计算方法。这种方法的计算量十分大,无法达到实时应用的要求。之后brox等人从理论上推导出基于翘曲的光流估计方法。sun等人在horn和schunck的方法和模型上做了改进,提出了一个非局部项来恢复运动细节。flowfields基于局部匹配的计算方法的计算精度较高,但是计算量仍然较大。变分方法仍然是当今比较流行的光流计算方法,然而它需要解决复杂的优化问题,不符合实时性程序的基本要求。
4.随着深度学习技术的进步与发展,许多传统的图像问题都采用了卷积神经网络(convolutional neural networks,cnns)。在光流估计方面有许多相关算法使用cnns。在有监督的学习中,dosovitskiy等人的flownet基于有监督学习的光流估计模型,开创性的将u

net回形网络架构运用在光流估计上,使用了encoder

decoder网络架构,并且提出了计算图像对之间特征的成本量,使两帧之间产生联系,证明了卷积神经网络直接估计图像序列光流的可行性。为了解决flownet准确度不高以及小位移预测不精准的问题,2017年flownet2采用了flownetc和flownets模型堆叠的方法解决了上述问题,使光流准确度大幅上升,但模型需要640mb的存储空间,运行速度也并不算快,因此不适合在移动端和嵌入式设备使用。ranjan和black将经典空间金字塔的思想与卷积神经网络结合,提出了spynet网络模型,显著的减小了模型参数,但是由于spynet网络结构单一,导致其运算速度虽快但估计精度较低。2018年,sun等人提出了pwc

net网络结构,其输入采用金字塔结构,提高了输入特征图的置信度,根据翘曲光流估计理论重新设计了图像对构成光流特征图的方法。最后采用空洞卷积估计网络使得小位移的光流估计在此网络上也有不错的估计精度。在减少耗时的同时,pwc

net相对spynet也提高了精度。2019年,yang和deva的vcn提出了不同的图像对匹配方式,也有不错的精度。文献对遮挡区域的前后帧匹配修正来解决了部分遮挡区域光流估计问题。irr

pwc是pwc

net的一个改进,主要通过迭代的思想融合前后几帧的信息从而提高光流估计的精度,但其估计速度相对较慢。
5.无人系统作为近期的热门研究方向一直备受关注,使用无人车、无人机进行自主导航、目标跟踪时若能使用光流估计数据则能大幅提高无人系统自主运行时的可靠性,现
有的光流估计方法虽然就传统的计算方法已经大幅提高速度,但是依旧无法满足无人系统环境下深度学习边缘计算硬件设备的使用需求。


技术实现要素:

6.本发明目的在于提供一种高效轻量级光流估计方法,现有的传统光流方法精确但计算量巨大,光流估计神经网络模型相对于传统光流计算方法虽然计算量稍小但依旧无法满足嵌入式设备或移动端设备的实时性使用需求。并且现有的光流估计方法存在有遮挡物时估计准度下降的问题,本光流估计方法在保持相同估计精准度的同时大幅提升了光流估计运算性能,同时改进了主要估计物体有遮挡物时准度下降的情况;
7.本发明所采用的技术方案是:一方面,一种高效轻量级光流估计方法,包括下列步骤:
8.步骤s1:无人导航系统将采集的图像对作为输入发送至已训练的金字塔网络模型中,其中无人导航系统通过采集的图像对得到硬件设备的控制指令;
9.步骤s2:金字塔网络模型中包含有六层神经网络结构,六层金字塔同时进行两次卷积后,得到六个参数互不干涉的特征图,已训练的金字塔网络模型高速输出高精度的图像光流估计结果;
10.步骤s3中:无人机导航系统的硬件设备执行接收新的控制指令。
11.优选的,所述步骤s1中,金字塔网络模型的训练方法包括下列步骤:
12.步骤s21:对输入的图像对分别进行下采样形成六层金字塔结构,六层金字塔结构中包含有特征输入层、扭曲层、成本代价计算层、解耦光流估计层、金字塔结构改进的光流估计层和大位移估计层;
13.步骤s22:将图像对进行普通卷积操作发送至特征输入层中,前一张图片通过特征输入层输出至成本代价计算层,后一张图片通过特征输入层输出至扭曲层,扭曲层的输出端与成本代价计算层连接;
14.步骤s23:成本代价计算层的输出与解耦光流估计层连接,解耦光流估计层的输出端与大位移估计层连接,得到大位移变化后的光流预测;
15.步骤s24:特征输入层的输出还直接与解耦光流估计层连接,得到初步光流预测;
16.步骤s25:将s24中和s25中产生的光流预测进行叠加产生一个批次的训练结果,更新模型中各参数的权重,并将训练结果中上采样光流作为上级神经网络中的上采样光流输入至扭曲层中。
17.优选的,所述特征输入层中,将输入图像进行五次下采样,每次采样的像素为上一层的一半,将六层金字塔同时进行两次卷积,构成六个参数互不干涉的特征图,第一次卷积步长为2,第二次卷积步长为1。
18.优选的,所述步骤s22中,扭曲层中将金字塔中l 1层预测的光流flow
l 1
进行2倍上采样后与l层的第二张输入特征图进行一次光流扭曲得到使其与第一张特征图更接近,而最下面一层l6的光流估计设置为0,匹配成本代价计算层将处理后的两个特征图做相关联像素的匹配,将第一幅图与扭曲过后的第二幅图的相关性定义为匹配代价,特征图对做类卷积运算匹配代价计算公式为
[0019][0020]
式中,t是转置操作,n是列向量的数量,设定限制参数d,使得|x1

x2|

≤d。由于顶层金字塔一个像素的移动对应了全分辨率图像2
l
‑1像素的移动,每层金字塔的d将按比例缩小,其中,图像扭曲层和匹配成本代价计算层均为计算层。
[0021]
优选的,光流估计层的输入是匹配成本代价,第一幅图像x1和上一层的光流预测图上采样结果flow
l
,输出是当前层的光流预测图以及上一层的光流预测的部分权重。
[0022]
另一方面,一种计算机可读存储介质,所述计算机可读存储介质上存储有一个或多个计算机程序,所述一个或多个计算机程序被一个或多个处理器执行时实现如上述的高效轻量级光流估计方法。
[0023]
另一方面,一种高效轻量级光流估计装置,包括:
[0024]
一个或多个处理器;
[0025]
计算机可读存储介质,其存储有一个或多个计算机程序;所述一个或多个所述计算机程序被所述一个或多个处理器执行时实现如上所述的高效轻量级光流估计方法。
[0026]
另一方面,一种高效轻量级光流估计系统,包括:通过金字塔网络模型计算图像中光流估计值,其中,金字塔网络模型包含有特征输入层、扭曲层、成本代价计算层、解耦光流估计层、金字塔结构改进的光流估计层和大位移估计层,金字塔网络模型基于pwc

net建立。
[0027]
优选的,金字塔网络模型在训练时,应用随机擦除增强策略在训练集中随机选择图像的矩形区域,使用0~255中的随机值擦除其像素。
[0028]
优选的,一种高效轻量级光流估计方法应用于无人车、无人机的自主导航和跟踪的用途。
[0029]
与现有技术相比,本发明的有益效果为:
[0030]
1.减少了光流估计模型的参数,大幅加快模型的估计速度;
[0031]
2.通过降低低分辨率情况对高分辨率估计的负面影响,提高了模型收敛速度和模型最终收敛效果;
[0032]
3.通过对真实光流值的分析从而对数据集关键信息进行数据擦除,能有效的提高模型联想估计能力。
附图说明
[0033]
图1为本发明的工作原理图;
[0034]
图2为本发明的深度可分离卷积结构工作原理图;
[0035]
图3为本发明的一个实施例中深度可分离原理示意图;
[0036]
图4为本发明的一个实施例中模型预测效果图。
具体实施方式
[0037]
下面结合本发明的附图1,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施。
[0038]
在本发明的描述中,需要理解的是,术语“逆时针”、“顺时针”“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0039]
实施例1:
[0040]
一种高效轻量级光流估计方法,总共采用六层金字塔网络结构,将六层下采样后的结果输入六个相同的神经网络结构,下一层的最终输出结果输入在上一层的成本代价估计层。
[0041]
首先将输入的图像对分别进行下采样形成六层金字塔结构,然后对图像对的六层金字塔结构分别进行普通卷积操作形成输入特征图。第二步,将图像对的后一张输入图片进行扭曲(warpping),补偿一部分拍摄及其它硬件导致的变形所带来的部分扭曲,使输入变得更准确和平滑。第三步,对金字塔输入特征图的每一层都进行成本量的计算,将两个特征输入图联系起来。第四步,将上一步所得到的特征图进行深度可分离卷积后上采样生成初步的光流估计图。第五步,将上一步的特征图带入上下文网络中预测光流的大位移变化。最后将第四步和第五步产生的光流预测进行叠加产生一个批次的训练结果与真实光流标签对比,产生的损失值反向传播,用于更新模型中参数的权重。
[0042]
特征输入层:pwc将输入图像对进行了五次下采样,每次采样的像素为上一层的一半,以此构成六层金字塔结构。将六层金字塔同时进行两次卷积,构成六个参数互不干涉的特征图,第一次卷积步长为2,第二次为1。采用卷积特征图作为输入层有助于提高下面网络结构计算时的置信度。
[0043]
图像扭曲计算层:图像扭曲层将金字塔l 1层预测的光流flow
l 1
进行2倍上采样后与l层的第二张输入特征图进行一次光流扭曲得到使其与第一张特征图更接近,而最下面一层l6的光流估计设置为0。此算法能改善一定的几何失真、克服大位移移动和遮挡对光流估计的影响,使输入更平滑。
[0044]
匹配成本代价计算层:匹配成本代价计算层将处理后的两个特征图做相关联像素的匹配。pwc

net提出了一种新的匹配代价计算方法,将第一幅图与扭曲过后的第二幅图的相关性定义为匹配代价。特征图对做类卷积运算匹配代价计算公式为:
[0045][0046]
公式(1)中,t是转置操作,n是列向量的数量。为了避免计算量过于庞大,此计算方法设定限制参数d,使得|x1

x2|

≤d。由于顶层金字塔一个像素的移动对应了全分辨率图像2
l
‑1像素的移动,每层金字塔的d将按比例缩小。图像扭曲层和匹配成本代价计算层均为计算层,不需要训练权重参数,减少模型的大小和参数量。
[0047]
解耦改进的光流估计层:光流估计层的输入是匹配成本代价corr,第一幅图像x1和上一层的光流预测图上采样结果flow
l
,输出是当前层的光流预测图以及上一层的光流预测的部分权重。该层的基础结构参考pwc

net的子结构pwc

net

s,此结构减少了常规结构中的残差结构。并且由5个深度可分离卷积结构代替原结构中的常规卷积,每个深度可分
离卷积结构参考文献,由深度可分离卷积层、bn层及leakyrelu层构成,并且前置的bn层和relu层能在反向传播时把深层的梯度传递到任意浅层,所以深度可分离原理示意图3。不管参数再小也不会造成梯度消失。常规卷积层解耦为深度可分离卷积层可大幅度减少模型的参数量,同时保持光流估计层的表达能力。在网络中深度可分离卷积层如下图所示。
[0048]
金字塔结构改进的光流估计层:pwc

net

s中低层数金字塔的网络结构由于其下采样所导致的特征及参数量的数据量较少,误差始终无法收敛至一个较低的水平。若将这种光流预测数据于上层网络中用于训练输入,并且所占信息的权重过高,则会在网络的收敛后期成为干扰项,成为阻碍网络收敛于更低值的原因。所以本文网络对用于上层网络训练的输入,增加了一个基于金字塔的层数l的权重系数
σ

[0049][0050]
output
l
=net(input
l
) l
×
σ
×
flow
l
‑1ꢀꢀꢀ
(7)
[0051]
如图1所示,输入输出的上一层光流上采样后结果的权重随着金字塔层数的提升而提升。权重系数σ的计算公式如下:
[0052]
σ=k
×
u
ꢀꢀꢀ
(8)
[0053]
u是经过上一个训练数据集训练后第0层光流预测数据的平均端点误差值,k是常数,k是经验值1.1。第一个数据集光流估计层的输入输出与文献中的相同。
[0054]
大位移光流估计层:使用大位移估计层作为此网络模型的后处理网络层,进一步改善大位移光流的估计精度。大位移估计层由空洞卷积构成,这样能够提升像素信息获取范围并且减少空洞卷积所带来的网格效应。使用空洞卷积构成大位移光流估计网络能够有效的在不增加参数量的基础上增加网络的感受野,提高卷积特征图远距离像素之间的相关性。大位移估计层不使用残差网络结构,防止空洞卷积所带来的网格效应产生的高频信号向下继续传播。
[0055]
训练损失:定义θ为神经网络中可训练参数的集合,包括特征金字塔层、光流估计、大位移光流估计层。其中扭曲层和成本代价层不包含可训练的参数,仅为计算层。定义为第l层金字塔所预测的光流,定义为对应的真实光流值。损失值的计算包括多尺度端点误差损失公式:
[0056][0057]
现实世界中的真实光流是非常难获取的,而且无法通过人工手动标注。butler等人通过游戏引擎自动生产了图像对以及相关光流图,但对于光流的学习仍然数据量太小,由于光流数据集是图像数据集,仅2万份数据就占用75g容量。但两万分数据不足以训练出一个好的模型。为了弥补数据集非真实数据的缺陷,对图像对及其光流数据进行相同的随机裁剪、随机旋转,对图片镜像色彩增强、噪声叠加。这就需要使用数据增强的方法扩展数据集的样本,目的是提高模型鲁棒性,降低过拟合的风险。
[0058]
基于光流真实值的改进图像和对象感知随机擦除:
[0059]
随机擦除增强策略是在训练集中随机选择图像的矩形区域,并使用0~255中的随机值擦除其像素。生成具有遮挡级别的训练图像,同样会降低过拟合风险并使得模型对遮挡具有一定的鲁棒性。使用图像和对象感知随机擦除(i ore)的方法。读取裁剪后的标签光
流数据,检测光流图中对象的边界。在边界内选取图像随机擦除块的区域位置,其大小按照图像分辨率的0.02

0.15倍之间取随机数,长宽比在0.33到3.33之间均匀分布取随机数,使用随机的像素值作为掩码填充擦除区域的图像。此方法能够更有效的遮挡部分关键信息,提高网络的联想学习能力。
[0060]
总改进:在不降低光流估计精度的情况下大幅提高光流估计速度。
[0061]
改进点1减少了光流估计模型的参数,大幅加快模型的估计速度。
[0062]
深度可分离卷积的原理如上图2所示,先分别对不同通道的卷积层进行卷积,再用c
out
个大小为1
×1×
c
in
的卷积核进行卷积,所输出的特征图仍然符合常规卷积的卷积输出。k
h
,k
w
分别为卷积核的长和宽,c
in
,c
out
分别为输入输出的通道数。f
h
则为特征图的长度减去卷积核的长度,f
w
是为特征图的宽度减去卷积核的宽度。
[0063]
常规卷积的参数量:
[0064]
p
conv
=k
h
×
k
w
×
c
in
×
c
out
ꢀꢀꢀ
(10)
[0065]
深度可分离卷积的参数量:
[0066]
p
depth
=k
h
×
k
w
×
c
in
[0067]
p
point
=1
×1×
c
in
×
c
out
[0068]
p
dsconv
=p
depth
p
point
ꢀꢀꢀ
(11)
[0069]
深度可分离卷积的参数量由逐深度卷积和逐点卷积的参数量线性叠加,其参数量明显小于常规卷积。
[0070]
常规卷积的计算量:
[0071]
c
conv
=k
h
×
k
w
×
c
in
×
c
out
×
f
h
×
f
w
ꢀꢀꢀ
(12)
[0072]
深度可分离卷积的计算量:
[0073]
c
depth
=k
h
×
k
w
×
c
in
×
f
h
×
f
w
[0074]
c
point
=c
in
×
c
out
×
f
h
×
f
w
[0075]
c
dsconv
=c
depth
c
point
ꢀꢀꢀ
(13)
[0076]
通过比较我们可以得出将常规卷积替换为深度可分离卷积后计算量的减少比例:
[0077][0078]
该结构的网络表达能力在文献中被证明与常规卷积基本相似。在mobilenet中,使用深度可分离卷积层进行网络解耦使其计算量减小到原来的九分之一,而识别精准度仅仅下降了1.7%。
[0079]
改进点2通过降低低分辨率情况对高分辨率估计的负面影响,提高了模型收敛速度和模型最终收敛效果。
[0080]
低分辨率下的光流估计模型总是收敛于一个较高的值,当低分辨率情况下带来的误差大于高分辨率情况下的收敛损失时,低分辨率的光流数据将成为高分辨率光流模型收敛的干扰项。所以减少低分辨率情况下对高分辨率影响的权重能够减小高分辨率模型的损失从而提高精度。
[0081]
改进点3通过对真实光流值的分析从而对数据集关键信息进行数据擦除,能有效的提高模型联想估计能力。
[0082]
一种新的数据增强技术随机擦除,训练中,随机选择图像的矩形区域,并使用随机值擦除其像素。生成具有遮挡级别的训练图像,会降低过拟合风险并使得模型对遮挡具有一定的鲁棒性。本文改进点为使用光流值来寻找擦除兴趣点。减少兴趣点计算时间,提高兴趣点选取精度,从而提高对部分遮挡物体的光流估计效果。
[0083]
值得说明的是,本发明的随机擦除算法为:
[0084]
算法1:随机擦除步骤
[0085]
输入:
[0086]
输入图像i
[0087]
图像的长度h和宽度w
[0088]
图像的面积s
[0089]
擦除的概率p
[0090]
擦除区域的比例s_1和s_h(上限和下限)
[0091]
擦除的纵横比r_1和r_2(上限和下限)
[0092]
输出:
[0093]
擦除后的图像i*
[0094]
初始化:p1为(0,1)间的随机数。
[0095]
值得说明的是,处理器和计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现能够本发明的多功能智能家居的控制方法。其中,由于各个步骤的程序逻辑不同,可采用专用处理器或通用芯片来执行相应的步骤,以提高整个程序的处理效率,并合理地控制成本。因此,本领域技术人员可根据具体应用情况,对本发明的光流计算进行适应性地设计与调整。
[0096]
综上所述,本发明的实施原理为:通过金字塔网络模型的搭建,求得图像中光流转移的变化,通过对模型的训练和优化,得到了计算速度优于现有计算模型的新的估计方法,请参照图4,图4为优化后的图像效果,本技术在保证了优化图像精度相同的条件下,大大的缩短了计算的时间,为后续对图像处理的研究提供了更多的选择与便利。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜