一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于特征降噪的视觉定位系统、方法

2022-07-10 12:50:30 来源:中国专利 TAG:


1.本发明涉及一种视觉定位系统,尤其是涉及一种基于特征降噪的视觉定位系统。


背景技术:

2.现有的定位技术主要包括如下几种:
3.1、基于结构的视觉定位技术:基于结构的姿势回归器首先提取稀疏的图像特征。然后实现帧间估计,再通过特征点之间的匹配进行闭环检测,如基于尺度不变量特征变换(sift),基于定向fast和基于旋转brief(orb)的视觉slam。sift和orb特征由于其良好的鲁棒性、区分能力和快速的处理速度而被广泛用于视觉slam中。
4.2、深度学习模型posenet应用于相机重新定位领域:posenet改编自googlenet,使用深度神经网络来学习图像姿势的隐性投影关系。通过向训练好的posenet输入一对图像,并对卷积层的激活单元进行丢弃操作,可以生成具有一定概率的姿势样本,从而完成图像定位。
5.3、基于结构化降维的视觉定位技术:提出了基于lstm的深度学习框架来重构场景特征。这种方法使用深度框架来降低场景特征的尺度,因此与sfm相比,计算复杂度降低了几个数量级,从而使定位性能得到显著提高。
6.然而,上述定位技术具有如下缺陷:
7.1、基于结构的视觉定位技术需要昂贵的计算和存储资源,而且对初始帧的要求非常严格且不间断。相比之下,基于深度学习的姿势调节器具有更强的容错性,可以更好地处理传输中的帧丢失问题。此外,基于深度学习的姿势调节器需要很少的模型存储空间,在进行实时推理时计算速度更快。
8.2、基于深度学习的视觉定位技术由于现有数据集获取方法的限制,基于深度学习的姿势回归器在训练过程中容易出现过拟合现象。这些方法认为输入的图像是完全不相关的,并产生独立的姿势估计值,当应用于图像序列时,这些估计值会有无法忽略的图像噪声
9.3、实际工业应用场景下定位容易受到gps攻击,基于gps和惯性导航系统的融合控制决策:攻击者即使不完全依赖gps信息,也可以利用图像攻击来影响参与决策的控制信号。现有一种图像攻击模型,该模型将肮脏的道路斑块识别为新的特定领域的威胁模型,并将攻击表述为一个优化问题,并解决了来自成对连续相机帧的攻击之间的相互依赖的挑战。即使有陀螺仪和加速度计等惯性导航传感器,这种攻击也成功地在1.3秒内将目标车辆驶离车道边界。他们产生的道路轨迹与良好的路径无法区分(无论是转弯角度还是道路曲率)。
10.4、视觉同步定位与建图(vslam)中,为了估计摄像机的连续姿态,基于结构的slam需要依靠收集的数据集来重建三维环境,然后保存环境图,这将是非常耗时耗力的,并且需要很高的初始帧。我们很难将不同的局部地图统一在同一个世界坐标系下,如果没有gps校正,仍然只能完成局部定位的功能。


技术实现要素:

11.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于特征降噪的视觉定位系统。
12.本发明的目的可以通过以下技术方案来实现:
13.一种基于特征降噪的视觉定位系统,该系统包括:
14.特征提取网络:对输入的图像进行特征提取获取图像特征;
15.基于特征降噪的视觉定位网络:基于图像特征进行视觉定位,输出位姿向量序列,所述的位姿向量序列包括当前的估计位姿和未来若干个估计位姿。
16.优选地,所述的基于特征降噪的视觉定位网络包括:
17.深度状态模块:用于位姿信息的一步预测;
18.深度传感模块:用于位姿信息的二步预测。
19.优选地,所述的位姿向量序列中的每个位姿由3d相机位置x和由四元数q表示的方向组成。
20.优选地,所述的深度状态模块和深度传感模块分别为基于googlenet的神经网络,googlenet神经网络的最后一层全连接层由7维扩充为28维,用以预测当前位姿以及预测未来的3个位姿。
21.优选地,所述的基于特征降噪的视觉定位网络训练的目标损失函数为:
[0022][0023]
其中,loss(i)为基于特征降噪的视觉定位网络i的损失,x为3d相机位置标签值,q为方向标签值,为3d相机位置预测值,为方向预测值,β为比例因子,n为用于训练的图像总数,i表示用于训练的第i张图像,αi表示第i张图像对应的权重。
[0024]
优选地,所述的比例因子β通过网格搜索进行微调。
[0025]
优选地,在室内场景下,比例因子β取值在120到750之间。
[0026]
优选地,在室外场景下,比例因子β取值在250到2000之间。
[0027]
一种基于特征降噪的视觉定位方法,该方法基于所述的系统,包括:
[0028]
将图片输入至特征提取网络,对输入的图像进行特征提取获取图像特征;
[0029]
基于图像特征进行视觉定位,输出位姿向量序列,所述的位姿向量序列包括当前的估计位姿和未来若干个估计位姿。
[0030]
优选地,所述的图片采用单目相机获取。
[0031]
与现有技术相比,本发明具有如下优点:
[0032]
一、解决基于事件的深度定位网络的特征噪声问题,提出一类卡尔曼特征平滑模块用于相机图像定位领,该模块嵌入端到端的姿态估计器中,输入的图片通过网络位姿推理网络以端到端的形式直接生成位姿。
[0033]
二、提出用于改善特征噪点的网络的特定的迭代训练方式,在离线情况下根据当前场景给出当前和未来的实时运动位姿预测,即多定位点预测。其网络架构相对于基于事件的深度定位网络来说是很大程度的改进。
[0034]
三、通过运动推理损失函数的联合优化,进一步提高了基于事件的深度定位网络
的重定位精度。
[0035]
四、实验结果证明深度神经网络能够学习到移动设备在某一场景下的运动规律,具有运动推理的能力。视觉运动推理网络在运动路线不固定的情况下同样具有可观的泛化能力;
[0036]
五、由于有些训练集的图片数量有限,本发明采用迁移学习的方式解决训练集稀疏带来的过拟合问题。
附图说明
[0037]
图1为本发明一种基于特征降噪的视觉定位系统的结构示意图;
[0038]
图2为本发明一种基于特征降噪的视觉定位系统的结构框图;
[0039]
图3为视觉定位网络的整体迭代的理论模型。
具体实施方式
[0040]
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
[0041]
实施例
[0042]
本发明主要介绍一种基于特征降噪的视觉定位系统,一般地,运动目标物在运动过程中从自身角度拍摄周围环境的一系列图片,系统通过拍摄的图片可以预测拍摄时刻运动目标物的位姿以及运动目标物未来的运动路径。具体地,在我们的视觉定位网络中,通过对数据集的学习(输入图片或短时的图片序列),系统可以在离线条件下为运动目标物提供实时的位置预测,更进一步地,它只需输入一张图片就能预测运动物体的未来运动路径。路径预测网络可以在符合条件的情况下获得实时路径规划,它的预测结果可以与运动控制系统合作,对沿途的意外情况做出更省时、更安全的运动规划。一般地,本发明适用范围包括但不限于无人驾驶、无人机群飞行等指定路径或运动方向的领域。
[0043]
基于深度学习的定位方法近年来得到了很多关注,能将定位信息和世界坐标系对齐,并且推理速度很快,可以满足自动导航的实时性需求。尽管很多研究指出深度学习方法的定位精度无法突破基于图像检索方法的定位精度,但通过模型相对显化,基于事件的深度神经网络可以突破其限制,因为我们不需要完全模仿某一条历史路线,更重要的是记住在某一条路径下的运动“经验”,从而给车辆一种权威的指引。这种“经验”必须具有很强的鲁棒性,我们假设对相同环境、相同运动方向的多个不同序列的学习可以强化这种“经验”,并增强其鲁棒性,给出更为合理的运动规划。我们提出一个基于特征降噪的视觉定位系统,基于事件的相机姿态回归架构在重建环境特征时总是含有特征噪声,这些噪声会影响特征降维后的定位性能。为了解决这个问题,我们提出了一个类卡尔曼的状态平滑模块,它使转换后的递归单元在重建环境特征的同时并行地进行特征平滑。所提的基于特征降噪的定位网络首先训练状态预测网络和深度传感器网络。然后用联合状态回归约束训练所有的深度模块,这减少了典型的基于事件的定位架构的训练时间。使用反向传播来完成所有转化递归单元的递归优化。在剑桥和7场景数据集上的实验结果表明,我们的方法优于现有的端到端架构。本发明的主要工作如下:1)我们提出了一个基于特征降噪的定位网络来解决基于
事件的深度定位网络的特征噪声干扰问题;2)改进了损失函数,将路径预测嵌入到重定位的损失函数中,构成约束。我们发现具有路径记忆能力的深度神经网络能更好地完成重定位任务;3)利用卡尔曼滤波实验连续帧之间的融合推理,记录所有的历史位姿数据,以免受随机插入的连续帧攻击。我们分别在剑桥数据集和7-scenes数据集上对提出的视觉推理网络进行了评估,与现有技术相比,本发明更容易学习有完整运动路线的运动规律,即使当前运动路线与原来不一样,也可以根据该场景之前的运动规律推理未来的位姿。
[0044]
基于以上,如图1、图2所示,本实施例提供一种基于特征降噪的视觉定位系统,该系统包括:
[0045]
特征提取网络:对输入的图像进行特征提取获取图像特征;
[0046]
基于特征降噪的视觉定位网络:基于图像特征进行视觉定位,输出位姿向量序列,位姿向量序列包括当前的估计位姿和未来若干个估计位姿。
[0047]
基于特征降噪的视觉定位网络包括:
[0048]
深度状态模块:用于位姿信息的一步预测;
[0049]
深度传感模块:用于位姿信息的二步预测。
[0050]
位姿向量序列中的每个位姿由3d相机位置x和由四元数q表示的方向组成,
[0051]
p=[x,q]
[0052]
姿态p是相对于任意全局参考系定义的。我们选择四元数作为我们的方向表示,因为任意的四维值很容易通过将其归一化为单位长度来映射到合法的旋转。这是一个比旋转矩阵所需的正交化更简单的过程。
[0053]
深度状态模块和深度传感模块分别为基于googlenet的神经网络,googlenet神经网络的最后一层全连接层由7维扩充为28维,用以预测当前位姿以及预测未来的3个位姿。
[0054]
运动推理的联合损失约束,使用adam优化算法和以下目标损失函数在欧几里德损失上训练网络,基于特征降噪的视觉定位网络训练的目标损失函数为:
[0055][0056]
其中,loss(i)为基于特征降噪的视觉定位网络i的损失,x为3d相机位置标签值,q为方向标签值,为3d相机位置预测值,为方向预测值,β为比例因子,n为用于训练的图像总数,i表示用于训练的第i张图像,αi表示第i张图像对应的权重。旋转的集合存在于四元数空间的单位球面上,而欧几里得损失函数没有将q保持在单位球面上。但我们发现在训练的过程中,q变得足够接近于q,以至于球面距离和欧氏距离之间的区别变得无关紧要。为简单起见,为了避免不必要的约束妨碍优化,我们选择省略球形约束。
[0057]
在损失函数中,必须在定向和平移损失之间取得平衡β。它们是高度耦合的,因为它们是从相同的模型权重回归而来的。最佳β是由训练结束时的位置和方向的预期误差之比给出的,而不是开始时的,因此,比例因子β通过网格搜索进行微调。在室内场景下,比例因子β取值在120到750之间。在室外场景下,比例因子β取值在250到2000之间。
[0058]
一、用于视觉运动推理的深度学习模型
[0059]
此处我们描述视觉推理网络,我们训练它直接从单目图像中估计摄像机的未来运动趋势。网络输出一个姿态向量序列,它由估计的当前姿态和几个估计的未来姿态组成,而
每个姿态由一个三维摄像机位置x和一个由四元数q表示的方向组成。
[0060]
其中姿态是相对于一个任意的全球参考系统定义的。我们选择四元数作为我们的方向表示,因为任意的四元数值通过归一化为单位长度,很容易映射为合法的旋转。这是一个旋转矩阵所需的正交化的简化过程。
[0061]
图3为视觉定位网络的整体迭代的理论模型。该模型通过递归单元的反向传播,网络概率分布越来越接近真实分布(黑色,虚线)。i是对应于每个像素位置(x;y;z)的灰度值。水平线以下是i的采样区域,在这种情况下是均匀的。向上的箭头显示了映射x=g(i)是如何在转换后的样本上施加非均匀分布的。g在高密度区域缩小,在低密度区域扩大。经过几轮迭代,视觉定位的预测值达到最优,此时g(i)大约等于px。
[0062]
一种基于特征降噪的视觉定位方法,该方法基于系统,包括:
[0063]
将图片输入至特征提取网络,对输入的图像进行特征提取获取图像特征;
[0064]
基于图像特征进行视觉定位,输出位姿向量序列,位姿向量序列包括当前的估计位姿和未来若干个估计位姿。
[0065]
图片采用单目相机获取。
[0066]
如附图所示,本实施例提供基于特征降噪的视觉定位系统,视觉推理网络使用实时六自由度摄像机重定位的卷积网络作为运动推理网络的深度架构的基础,具体如下:
[0067]
1、构建基于特征降噪的定位网络,解决基于事件的深度网络的特征噪声干扰问题:具体网络连接方式如图二所示,该网络由特征转换模块,同步特征平滑模块以及深度微分模块这三个部分组成。其中同步特征平滑模块包含深度状态模块和深度传感器模块两个深度神经网络。
[0068]
2、首先使用vgg数据集对特征转换模块中的特征提取器进行300次的预训练,这一步骤称为纹理特征迁移。
[0069]
3、将图片序列输入预训练后的特征提取器,根据深度神经网络的隐式映射关系得到提取后的特征f(x),并按时间顺序排列,重组为一个64
×
64的特征矩阵,作为同步特征平滑模块(灰色框部分)的输入保存于状态提取器中。
[0070]
4、将同步特征平滑模块迭代训练800次,先随机初始化深度状态模块,深度状态模块的输出作为深度传感器模块的输入做一轮校正,输出为卡尔曼位姿及各级卡尔曼参数构成的参数矩阵,包括p矩阵,f矩阵等参数,参数值通过拉平后的非线性激活单元学习。
[0071]
5、整体递归优化,如图1,进行两个阶段的训练后,将深度微分模块代入与前两个网络一起训练,输出为当前图片的位姿具体地,使用第四步得到的参数矩阵来初始化一个循环预测系统,充分利用最新的测量信息y
k 1
对y
k 1
和w
k 1
进行合理的修正。用c表示当前时间块,用f表示最近的时间块,用l表示潜在特征。o表示输出。nv表示特征v的数量,n
x
表示状态x的数量。nu是一个块中输入u的数量,n
l
是潜在特征l的数量,n
lh
表示trm的隐藏单元的数量。以隐藏特征作为当前时间块,输出权重由权重构成。网络的输出为当前图片的位姿。
[0072]
6、采集数据集及评估
[0073]
在剑桥数据集和7-scenes数据集上评估方法。以此分别验证位姿推理网络在室外和室内的推理性能。
[0074]
1)剑桥数据集实施验证。从剑桥大学周围五个不同的室外场景收集的图像。这些图像用智能手机以1920
×
1080像素的分辨率拍摄,同时以不同的轨迹行走,姿势标签是用sfm方法计算的。该数据集包含了行人、骑自行车者和移动车辆造成的大量混乱,使得城市重新定位具有挑战性。由于数据集是由研究者手持设备从不同的行进方向进行拍摄的几段序列构成,为了保证运动路径预测的方向一致性,我们对剑桥数据集进行处理,设置第一段序列的拍摄方向为正方向,对其之后逆向的序列进行倒序处理,然后将所有的序列的数据进行汇总,构成新的数据集文档。我们用python编写文件将后3位的位姿复制到当前的位姿同行,并对每一行都这样处理,构成新的训练集文档,对于新的训练集文档,每行数据的信息包括当前的图片路径、当前图片对应的位姿和后三张图片对应的位姿。表1为所提网络与其他端到端姿态回归器在剑桥数据集下的控制精度对比。
[0075]
表1所提网络与其他端到端姿态回归器在剑桥数据集下的控制精度对比
[0076][0077]
2)7-scenes数据集实施验证。由从室内办公环境的七个不同场景中收集的rgb-d图像组成数据集。图像是用手持kinect rgb-d相机收集的,地面真实姿态是用kinectfusion提取的。图像以640
×
480像素的分辨率拍摄,每个场景包含记录在一个房间中的多个序列。在房间中存在运动模糊、感知混叠和无纹理特征的情况下,用不同的摄像机运动记录每个序列,从而使其成为重新定位和跟踪的流行数据集。表2为所提网络与其他端到端姿态回归器在7-secenes数据集下的控制精度对比。
[0078]
表2所提网络与其他端到端姿态回归器在7-secenes数据集下的控制精度对比
[0079][0080]
[0081]
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献