一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种针对不同尺度目标自适应的光流估计的方法及系统

2023-02-04 12:32:16 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,尤其涉及一种针对不同尺度目标自适应的光流估计方法及系统。


背景技术:

2.光流估计是估计视频帧之间的每像素运动的任务,它是一种广泛的计算机视觉应用的基本技术,如运动分割、动作识别和自动驾驶。光流估计传统上被视为一种知识驱动技术,传统方法通常将光流构造为能量函数优化问题,该问题通过考虑现有知识(例如角点)来指定各种限制,然而,优化这样的限制函数通常花费太长时间,并且运行速度太慢,无法运用在实时系统中,另一方面,设计各种角点并且使它具有鲁棒性的优化目标是困难的。
3.近年来,随着卷积神经网络的发展,光流估计技术有了显著的进步,与知识驱动方法相比,基于卷积神经网络的方法提供了从大量数据中学习的强大能力,这使得这些技术成为数据驱动策略。为了学习光流,许多方法使用编码器—解码器或空间金字塔结构。一项开创性的工作是dosovitskiy等人在2015年提出的flownet,其中提出了两种模型,即flownet和flownetc,spynet引入了特征金字塔模块,该模块使用空间金字塔网络,在每个层次扭曲图像,将大位移分解为小位移,因此,只需要在每个金字塔级别计算一点位移,从而大幅减少计算量。teed和deng提出了raft,其中一个轻量循环模块与gru模块耦合作为更新算子。
4.在上述网络中,在特征提取过程中,每个层中的人工神经元的感受野通常被设计为相同大小,由于它们都使用单一网络结构,因此成本量以单一方式产生。然而,成本量表示两个相邻帧之间的相似性,准确的成本量是获得准确光流估计的关键,不幸的是,这种做法可能会导致丢失不同尺度对象的精细细节,从而导致较差的估计性能。


技术实现要素:

5.本发明实施例提供了一种针对不同尺度目标自适应的光流估计的方法及系统,用于解决现有技术中由成本量单一导致丢失不同尺度对象的精细细节,从而导致较差的估计性能的问题。
6.本发明实施例提供了一种针对不同尺度目标自适应的光流估计的方法,该方法包括:
7.s1:将相邻两帧图像输入卷积神经网络,并对所述两帧图像进行特征提取,得到两帧图像的浅层特征;
8.s2:对所述两帧图像的浅层特征进行处理,获得两帧图像的多尺度特征,所述多尺度特征包括粗糙尺度特征、中等尺度特征及精细尺度特征;
9.s3:利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量;
10.s4:对所述两帧图像中的第一帧图像进行上下文编码,并联合所述多尺度成本量
计算光流估计结果;
11.s5:利用光流的端点误差作为损失函数,对所述光流估计结果进行拟合。
12.优选地,所述卷积神经网络采用下采样结构。
13.优选地,对所述两帧图像进行特征提取,得到两帧图像的浅层特征的方法包括卷积、池化和归一化。
14.优选地,对所述两帧图像的浅层特征进行处理的方法包括分割操作,融合操作和选择操作。
15.优选地,所述分割操作具体包括:
16.给定中间特征映射作为输入,使用两个卷积层,卷积核大小分别为3和5,将所述中间特征映射分割为两种不同尺度的图像特征和其中,将5
×
5的卷积核替换为3
×
3大小的卷积核,并设置膨胀系数为2的膨胀卷积。
17.优选地,所述融合操作具体包括:
18.首先,通过元素求和操作来融合上述两个不同分支的多尺度信息,获得两个尺度融合后的特征:
[0019][0020]
然后,对m
fuse
使用全局平均池来捕获空间维度上的全局信息:
[0021][0022]
其中,代表全局平均池化操作,h和w分别是特征维度的高和宽;
[0023]
最后,使用全连接层聚合特征,在全连接层之后添加批量规范层和激活函数:
[0024][0025]
其中,代表全连接层,δ代表relu激活函数,代表批量规范化层。
[0026]
优选地,所述选择操作具体包括:
[0027]
将所述特征矩阵t指导跨通道使用软注意,以自适应地选择不同的信息空间尺度,其中,需要扩展t的维数,然后在通道方面使用softmax算子,得到注意力权重:
[0028][0029][0030]
其中,上述是softmax的公式;
[0031]
使用得到的注意力权重产生最终的特征映射m
fine
和m
coarse
,也就是对分割得到的特征施加相应的权重系数:
[0032][0033][0034]
其中,和代表将输入的m特征分割之后得到的两个尺度的特征,将他们相加得到融合之后的特征m
fuse

[0035]
优选地,利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量的方法为:
[0036]
使用所述精细尺度特征生成初始的成本量,然后利用所述中等尺度特征加强所述精细尺度特征,得到成本量1;
[0037]
对所述成本量1进行池化,得到成本量2,所述成本量2融合了所述中等尺度特征和所述粗略尺度特征;
[0038]
对所述成本量2进行池化,得到成本量3。
[0039]
本发明还提供了一种针对不同尺度目标自适应的光流估计的系统,包括:
[0040]
浅层特征提取模块,用于将相邻两帧图像输入卷积神经网络,并对所述两帧图像进行特征提取,得到两帧图像的浅层特征;
[0041]
多尺度特征提取模块,用于对所述两帧图像的浅层特征进行处理,获得两帧图像的多尺度特征,所述多尺度特征包括粗糙尺度特征、中等尺度特征及精细尺度特征;
[0042]
多尺度成本量生成模块,用于利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量;
[0043]
光流估计计算模块,用于对所述两帧图像中的第一帧图像进行上下文编码,并联合所述多尺度成本量计算光流估计结果;
[0044]
光流估计拟合模块,用于利用光流的端点误差作为损失函数,对所述光流估计结果进行拟合。
[0045]
本发明实施例提供了一种网络装置,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述任意一项所述的方法。
[0046]
从以上技术方案可以看出,本发明具有以下优点:
[0047]
本发明提供一种针对不同尺度目标自适应的光流估计方法及系统,首先,本发明将特征可选择模块引入了光流估计领域,并且集成到了网络之中,有助于网络生成多尺度的特征信息,从而针对不同尺度的物体学习更精确的光流估计结果;其次,本发明又引入了多尺度成本量生成模块,多尺度成本量加强了相似度的表征能力;最后,本发明的光流估计方法利用特征可选择模块增强了多尺度成本量的生成,并且将多尺度成本量和上下文的编码进行联合学习,解决了由成本量单一导致丢失不同尺度对象的精细细节,从而导致较差的估计性能的问题,提高了光流估计的准确性。
附图说明
[0048]
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的会理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
[0049]
图1是根据本发明实施例的一种针对不同尺度目标自适应的光流估计方法的示意图;
[0050]
图2是根据本发明实施例的一种针对不同尺度目标自适应的光流估计系统的示意图;
[0051]
图3是根据本发明实施例的一种网络装置的示意性框图。
具体实施方式
[0052]
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0053]
实施例一
[0054]
如图1所示,本发明实施例提出一种针对不同尺度目标自适应的光流估计方法,该方法包括:
[0055]
s101:将相邻两帧图像输入卷积神经网络,并对所述两帧图像进行特征提取,得到两帧图像的浅层特征;
[0056]
s102:对所述两帧图像的浅层特征进行处理,获得两帧图像的多尺度特征,所述多尺度特征包括粗糙尺度特征、中等尺度特征及精细尺度特征;
[0057]
s103:利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量;
[0058]
s104:对所述两帧图像中的第一帧图像进行上下文编码,并联合所述多尺度成本量计算光流估计结果;
[0059]
s105:利用光流的端点误差作为损失函数,对所述光流估计结果进行拟合。
[0060]
本发明将特征可选择模块引入了光流估计领域,并且集成到了网络之中,有助于网络生成多尺度的特征信息,从而针对不同尺度的物体学习更精确的光流估计结果;其次,本发明又引入了多尺度成本量生成模块,多尺度成本量加强了相似度的表征能力;最后,本发明的光流估计方法利用特征可选择模块增强了多尺度成本量的生成,并且将多尺度成本量和上下文的编码进行联合学习,提高了光流估计的准确性。
[0061]
进一步地,在步骤s101中包括:
[0062]
将相邻两帧图像输入卷积神经网络,并对所述两帧图像进行特征提取,得到两帧图像的浅层特征;所述卷积神经网络采用下采样结构,其中特征提取的方法包括卷积、池化和归一化。
[0063]
进一步地,在步骤s102中包括:
[0064]
将所述两帧图像的浅层特征进行处理,获得两帧图像的多尺度特征,使得卷积神经网络可以选择性地使用生成的多尺度特征,所述多尺度特征包括粗糙尺度特征、中等尺度特征及精细尺度特征,因此,卷积神经网络能够捕获图像上不同大小的对象;
[0065]
其中,对所述两帧图像的浅层特征进行处理的方法包括分割,融合和选择操作;
[0066]
所述分割操作具体包括:给定中间特征映射作为输入,使用两个卷积层,卷积核大小分别为3和5,将所述中间特征映射分割为两种不同尺度的图像特征和其中,将5
×
5的卷积核替换为3
×
3大小的卷积核,并设置膨胀系数为2的膨胀卷积;
[0067]
所述融合操作具体包括以下步骤:
[0068]
首先,通过元素求和操作来融合上述两个不同分支的多尺度信息,获得两个尺度融合后的特征:
[0069][0070]
然后,对m
fuse
使用全局平均池来捕获空间维度上的全局信息:
[0071][0072]
其中,代表全局平均池化操作,h和w分别是特征维度的高和宽;
[0073]
最后,使用全连接层聚合特征,在全连接层之后添加批量规范层和激活函数:
[0074][0075]
其中,代表全连接层,δ代表relu激活函数,代表批量规范化层。
[0076]
所述选择操作具体包括:
[0077]
将所述特征矩阵t指导跨通道使用软注意,以自适应地选择不同的信息空间尺度,其中,需要扩展t的维数,然后在通道方面使用softmax算子,得到注意力权重:
[0078][0079][0080]
其中,上述是softmax的公式;
[0081]
使用得到的注意力权重产生最终的特征映射m
fine
和m
coarse
,也就是对分割得到的特征施加相应的权重系数:
[0082]
[0083][0084]
其中,和代表将输入的m特征分割之后得到的两个尺度的特征,将他们相加得到融合之后的特征m
fuse

[0085]
进一步地,在步骤s103中包括:
[0086]
利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量,具体包括:使用所述精细尺度特征生成初始的成本量,然后利用所述中等尺度特征加强所述精细尺度特征,得到成本量1;对所述成本量1进行池化,得到成本量2,所述成本量2融合了所述中等尺度特征和所述粗略尺度特征;对所述成本量2进行池化,得到成本量3。
[0087]
在之前的方法中,都是通过简单地使用一组全局平均池化来实现成本量生成的过程,这会导致精细细节的丢失;本发明提出了新的成本量生成过程,结合提取的多尺度图像特征,加强了不同尺度信息之间的交互,因此考虑了每个尺度的感受野。
[0088]
进一步地,在步骤s104中包括:
[0089]
由于光流记录了两帧之间每个像素点的位置偏移,因此使用上下文网络得到第一帧图像的上下文编码,辅助光流网络对于两帧之间的位置信息的学习;利用第一帧图像的上下文信息在成本量上寻找两帧之间的对应关系,从而计算出精确的光流估计结果。
[0090]
在进一步地,在步骤s105中包括:
[0091]
利用光流的端点误差作为损失函数,监督光流的学习,对于估计出来的光流估计结果进行拟合。本发明方法产生了很好的光流估计精度,可以应用于无人驾驶和机器人等领域。
[0092]
实施例二
[0093]
如图2所示,本发明还提供了一种针对不同尺度目标自适应的光流估计的系统,该系统包括:
[0094]
浅层特征提取模块201,用于将相邻两帧图像输入卷积神经网络,并对所述两帧图像进行特征提取,得到两帧图像的浅层特征;
[0095]
多尺度特征提取模块202,用于对所述两帧图像的浅层特征进行处理,获得两帧图像的多尺度特征,所述多尺度特征包括粗糙尺度特征、中等尺度特征及精细尺度特征;
[0096]
多尺度成本量生成模块203,用于利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量;
[0097]
光流估计计算模块204,用于对所述两帧图像中的第一帧图像进行上下文编码,并联合所述多尺度成本量计算光流估计结果;
[0098]
光流估计拟合模块205,用于利用光流的端点误差作为损失函数,对所述光流估计结果进行拟合。
[0099]
所述系统,用以实现上述实施例一所述的一种针对不同尺度目标自适应的光流估计的方法,为了避免冗余,在此不再赘述。
[0100]
实施例三
[0101]
如图3所示,本发明实施例还提供了一种网络装置,该装置包括处理器301、存储器
302和总线系统303,该处理器301和该存储器302通过该总线系统303相连,该存储器302用于存储指令,该处理器301用于执行该存储器302存储的指令;
[0102]
其中,该处理器301用于:将相邻两帧图像输入卷积神经网络,并对所述两帧图像进行特征提取,得到两帧图像的浅层特征;将所述两帧图像的浅层特征进行处理,获得两帧图像的多尺度特征,所述多尺度特征包括粗糙尺度特征、中等尺度特征及精细尺度特征;利用所述两帧图像的粗糙尺度特征、中等尺度特征及精细尺度特征之间的信息交互获得多尺度成本量;对所述两帧图像中的第一帧图像进行上下文编码,并联合所述多尺度成本量计算光流估计结果;利用光流的端点误差作为损失函数,对所述光流估计结果进行拟合。
[0103]
该网络装置通过将特征可选择模块引入了光流估计领域,并且集成到了网络之中,有助于网络生成多尺度的特征信息,从而针对不同尺度的物体学习更精确的光流估计结果;其次,本发明又引入了多尺度成本量生成模块,多尺度成本量加强了相似度的表征能力;最后,本发明的光流估计方法利用特征可选择模块增强了多尺度成本量的生成,并且将多尺度成本量和上下文的编码进行联合学习,提高了光流估计的准确性。
[0104]
可选地,作为一个实施例,一种无人驾驶汽车,其包括上述网络装置,所述网络装置包括处理器301、存储器302和总线系统303,为避免重复,这里不再详细描述。
[0105]
可选地,作为一个实施例,一种机器人,其包括上述网络装置,所述网络装置包括处理器301、存储器302和总线系统303,为避免重复,这里不再详细描述,在此不再赘述。
[0106]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
[0107]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0108]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0109]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流
程和/或方框图一个方框或多个方框中指定的功能的步骤。显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献