一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语义约束的动态环境激光SLAM方法与流程

2021-11-22 12:56:00 来源:中国专利 TAG:
基于语义约束的动态环境激光slam方法
技术领域
:1.本发明涉及人工智能
技术领域
:,尤其涉及一种基于语义约束的动态环境激光slam方法。
背景技术
::2.随着人工智能、5g、物联网等技术的发展,智能机器人与人共融共生态势已悄然显现,尤其是在单调重复、危险、未知环境中,智能机器人更具有优势。智能机器人高效执行既定任务的前提是对所处环境及其预期影响的准确“理解”。这涉及到智能机器人的环境感知、环境表示建模和空间推理计算等一系列理论和技术问题,既是新一代人工智能的关键共性技术,也是人工智能时代测绘科学关注的新问题。3.slam作为智能机器人环境探测与感知的关键基础性技术,已在近十年间取得显著进展,但目前多数主流算法都只在静态环境下稳定运行。然而现实世界是动态变化的,既有短时序条件下可变的地物要素,如移动的汽车、行人等,又有在长时序中变化的环境要素,比如四季变化或昼夜更替带来的环境变化等。动态变化的环境给slam的位姿估计、特征提取与跟踪以及地图构建等模块提出了新的挑战。4.为解决动态环境slam问题,目前已形成了两种主流研究思路:过滤掉环境中的动态物体或是使用多时刻的地图来反映环境的动态变化。将环境中的运动物体过滤掉能够尽可能减小数据关联的错误以此来提高位姿估计的精度,该方面的研究中,基于先验信息结合视觉特征进行动态性判断的研究较多,其中涉及到深度学习技术与经典slam算法的结合(参考文献1:saputramru,markhama,trigonin.visualslamandstructurefrommotionindynamicenvironments:asurvey[j].acmcomputingsurveys(csur),2018,51(2):1‑36.)。从深度学习方法上,以语义分割与物体检测为主;从实现效果与研究基数上来看,室内环境多于室外环境,且多以rgb‑d传感器为主。rgb‑d传感器在使用rgb图像进行语义分割的基础上结合深度图像能够在slam过程中实现更为准确的动态物体检测与跟踪。dynaslam使用maskrcnn与orb‑slam2相结合的方式实现了动态环境下的视觉slam,但该方法剔除了所有可运动的物体(比如停在路边的汽车等)易造成数据关联有误(参考文献2:bescosb,fáciljm,civeraj,etal.dynaslam:tracking,mapping,andinpaintingindynamicscenes[j].ieeeroboticsandautomationletters,2018,3(4):4076‑4083);dynamic‑slam提出漏检补偿算法与选择性跟踪算法来提高位姿估计的精度(参考文献3:xiaol,wangj,qiux,etal.dynamic‑slam:semanticmonocularvisuallocalizationandmappingbasedondeeplearningindynamicenvironment[j].roboticsandautonomoussystems,2019,117:1‑16.)。而在大规模室外环境中,单独使用激光雷达或是与rgb相机结合的方式较为普遍。例如suma 以语义分割结果为约束改进icp算法实现动态环境下的激光雷达slam(参考文献4:chenx,miliotoa,palazzoloe,etal.suma :efficientlidar‑basedsemanticslam[c]//2019ieee/rsjinternationalconferenceonintelligentrobotsandsystems(iros).ieee,2019:4530‑4537.);以及使用图像语义信息辅助进行位姿校正实现点云配准;或是从点云中提取简单语义特征构建特征地图等方法。技术实现要素:[0005]针对传统的slam方法通常因环境中动态要素的干扰导致数据关联有误造成位姿估计偏差的问题,本发明提供一种基于语义约束的动态环境激光雷达slam方法,使用卷积神经网络实现点云的语义分割,以先验知识为指导建立环境要素分类准则,对语义分割结果进行预处理;而后进一步根据环境上下文信息确定环境中的动态要素;最后实现位姿解算与语义地图构建。[0006]本发明提供的一种基于语义约束的动态环境激光雷达slam方法,包括:[0007]步骤1:使用球面投影方式对3d雷达点云数据p进行处理得到投影图i,进而根据投影图i,计算得到法向量图n;[0008]步骤2:按照地图要素分类分级方法进行环境要素类别预定义,然后对所述投影图i按照预定义的环境要素类别进行语义分割,得到语义分割结果s;[0009]步骤3:建立各环境要素类别的权重值并将其作为先验知识对投影图i上的像素进行环境要素预筛选,分为动态要素、静态要素和待定要素;[0010]步骤4:初始化语义标识图,并基于所述语义分割结果s和场景上下文信息,采用环境要素筛选算法判断待定要素的动态性,更新语义标识图g;[0011]步骤5:将语义标识图g作为语义约束添加到frame‑to‑map的icp算法中,得到位姿估计结果,进而生成语义地图。[0012]进一步地,步骤1中,将点云数据p上的第i个点pi=(x,y,z)通过公式(1)与投影图i上的第i个像素点ii=(u,v)一一对应:[0013][0014]其中,fup与fdown分别表示激光雷达垂直视场角的上限与下限;w为投影图i的宽度;h为投影图i的高度。[0015]进一步地,步骤1中,按照公式(2)计算投影图i上每个像素点的法向量,进而得到法向量图n:[0016]ni(u,v)=(i(u 1,v)‑i(u‑1,v))×(i(u,v 1)‑i(u,v‑1))ꢀꢀ(2)[0017]其中,(u,v)表示投影图i上第i个像素点ii的值,ni(u,v)表示像素点ii的法向量。[0018]进一步地,在计算投影图i上边界区域像素点的法向量时,先采用公式(3)和(4)对像素点进行处理:[0019][0020][0021]其中,w为投影图i的宽度;h为投影图i的高度。[0022]进一步地,步骤2中,将环境要素类别预定义为6大类和14小类;所述6大类包括“建筑”、“地表”、“自然”、“车辆”、“路边地物”、“人与动物”;所述14小类包括“建筑”、“停车场”、“道路”、“人行路”、“其他地表道路”、“树木”、“植被”、“汽车”、“其他车辆”、“独立地物”、“交通标识”、“行人”、“骑行者”、“动物”。[0023]进一步地,步骤4中,初始化语义标识图,具体为:当像素被判定位静态要素时,该像素的语义标识取值为1;当像素被判定为动态要素时,该像素的语义标识取值为0;当像素被判定待定要素时,该像素的语义标识取值为0.3。[0024]进一步地,步骤4中,所述环境要素筛选算法具体包括:[0025]按照公式(5)计算相邻帧间静态要素的像素平均位移值[0026][0027]其中,符号⊙是点乘运算符,表示两矩阵对应元素相乘;w为投影图i的宽度;h为投影图i的高度;表示上一帧的位姿变换参数,st表示t时刻的语义分割结果,gt表示t时刻的语义标识图;[0028]根据像素的平均位移值判断待定要素的动态性,具体为:将满足下述约束条件的像素划分为静态要素;然后更新语义标识图gt;[0029]约束条件:其中,ρ为设定的阈值权重值,st(u,v)表示st中像素值为(u,v)的语义分割结果。[0030]进一步地,相邻帧间的投影图像it‑1,it的变换关系表示为[0031]进一步地,步骤5具体包括:[0032]定义最小化误差函数为:[0033][0034][0035]其中,i表示icp算法中需要进行配准的点的个数;[0036]对于frame‑to‑mapicp中的每次迭代,使用levenberg‑marquardt递增地更新6自由度的相对位姿:[0037][0038]其中,为雅克比矩阵;为对应于法向量nt的残差;对角矩阵的残差;对角矩阵使用λ来正则化hessian矩阵,为权重矩阵,是包含对应于残差ri的权重值ωi的对角矩阵;[0039]一旦frame‑to‑mapicp算法达到临界条件,就通过ξ∈se(3)解算出变换矩阵并将其作为扫描帧frame与地图map对齐的位姿[0040][0041]其中,o表示世界坐标系。[0042]进一步地,基于语义标识图与激光雷达传感器的前进方向,为残差ri设置权重值ωi,具体为:正对前进方向的像素权重值高于侧方及后方方向的像素权重值;其中,将雷达点云数据按角度等分为三份,将其前进方向对应的投影图像成像区间取值为(0.33w,0.67w)。[0043]本发明的有益效果:[0044](1)本发明提出的动态环境激光雷达slam框架,在语义分割的基础上,结合先验知识实现了动态环境中的即时定位与语义地图构建,其中,基于上下文信息的环境要素筛选策略能够准确过滤环境中的动态物体,为高效鲁棒的位姿估计提供参考依据。[0045](2)在kitti与semanticposs数据集上对本发明方法在动态环境中的性能进行评估,实验证明本发明方法能够有效提高位姿估计的精度,具备可靠的性能、准确性和鲁棒性。附图说明[0046]图1为本发明实施例提供的基于语义约束的动态环境激光slam方法的流程示意图;[0047]图2为本发明实施例提供的点云投影示意图;[0048]图3为本发明实施例提供的基于先验知识的环境要素分类分级示意图;[0049]图4为本发明实施例提供的基于上下文信息的环境要素筛选示意图;[0050]图5为本发明实施例提供的frame‑to‑mapicp示意图;[0051]图6为本发明实施例提供的权重矩阵赋值示意图;[0052]图7为本发明实施例提供的kitti数据集实验结果示意图;[0053]图8为本发明实施例提供的语义地图依次为000508序列数据;[0054]图9为本发明实施例提供的semanticposs数据集实验结果示意图。具体实施方式[0055]为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0056]如图1所示,本发明实施例提供一种基于语义约束的动态环境激光slam方法,包括以下步骤:[0057]s101:使用球面投影方式对3d雷达点云数据p进行处理得到投影图i,进而根据投影图i,计算得到法向量图n;如图2所示。[0058]作为一种可实施方式,将点云数据p上的第i个点pi=(x,y,z)通过公式(1)与投影图i上的第i个像素点ii=(u,v)一一对应:[0059][0060]其中,fup与fdown分别表示激光雷达垂直视场角的上限与下限;w为投影图i的宽度,其取值与激光雷达水平分辨率成反比;h为投影图i的高度,其取值为激光雷达线程数。公式(1)所示的投影函数保证了点云上任一点pi在三维中的邻近点经投影变换后依旧为像素ii的相邻像素,且在最近邻查找上能够显著提高效率。[0061]作为一种可实施方式,按照公式(2)计算投影图i上每个像素点的法向量,进而得到法向量图n:[0062]ni(u,v)=(i(u 1,v)‑i(u‑1,v))×(i(u,v 1)‑i(u,v‑1))ꢀꢀ(2)[0063]其中,(u,v)表示投影图i上第i个像素点ii的值,ni(u,v)表示像素点ii的法向量。[0064]需要注意的是,由于球面投影特性以及所得投影图像宽度高度的取值方式,投影图像i的左右边界部分在原始点云数据中是相连通的,即可能会存在物体被分为两部分,并同时出现在投影图像i左右两侧的现象,而投影图像i的上下边界由激光雷达的垂直视场角决定,不会出现上下相连通的情况。考虑到上述特点,在计算投影图i上边界区域像素点的法向量时,本发明实施例采用如公式(3)和(4)所示的处理方案:[0065][0066][0067]s102:按照地图要素分类分级方法进行环境要素类别预定义,然后对所述投影图i按照预定义的环境要素类别进行语义分割,得到语义分割结果s;[0068]具体地,依照地图要素分类分级的指导思想,将环境要素分为6大类(“建筑”、“地表”、“自然”、“车辆”、“路边地物”、“人与动物”),14小类(“建筑”、“停车场”、“道路”、“人行路”、“其他地表道路”、“树木”、“植被”、“汽车”、“其他车辆”、“独立地物”、“交通标识”、“行人”、“骑行者”、“动物”);本发明实施例中,采用全连接卷积神经网络框架的语义分割网络rangenet ;[0069]可以看出,本步骤是通过将空间中的每个三维点投影为平面上的像素之后,对平面上的像素进行语义分割,这样做的好处有以下两点:第一、不论是在性能、效率还是数据集训练上,基于图像的语义分割成果都显优于基于点云的语义分割研究成果;第二、在位姿估计时,因数据维度减少,基于图像相邻像素的遍历方式在效率上明显优于三维点云的最近邻查找匹配。[0070]s103:建立各环境要素类别的权重值并将其作为先验知识对投影图i上的像素进行环境要素预筛选,分为动态要素、静态要素和待定要素;[0071]具体地,以标定物体类别为输出的语义分割结果,是目前在语义层面上帮助机器人理解环境的重要信息,本发明将其作为机器人判断环境中动静态要素的重要依据。[0072]作为一种可实施方式,如图3所示,本发明对6大类14小类环境要素建立了动态性量化指标,动态至静态对应取值从0至1。为了更准确的区分出环境中的动静态要素,同时为slam位姿估计提供尽可能多且鲁棒性更好的特征,依据设置的上下限阈值对环境要素进行判断。显而易见的是,低于静态阈值及高于动态阈值的要素会被非常容易的区分,而介于静态阈值与动态阈值之间的环境要素,本发明将其称为待定要素,是需要进行进一步地判定其动态性的。[0073]s104:初始化语义标识图,并基于所述语义分割结果s和场景上下文信息,采用环境要素筛选算法判断待定要素的动态性,更新语义标识图g;[0074]具体地,通过研究可知,待定要素通常具备这样的特点,其具备动态属性,但在一定时间内静止于环境中。以城市环境为例,短时间或长时间停放在路边的车辆就满足上述特征。当具备动态属性的环境要素静止于环境中时,若粗暴的将其归类为运动物体,在进行位姿估计时会影响位姿解算的准确性与鲁棒性,出现由于特征数目锐减,相邻帧间对应关系减弱而导致解算偏差较大的现象。通过采用本发明所设计的环境要素筛选算法,可以更准确的确定当前环境中的静态要素(不论其属性是动态还是静态)。[0075]将相邻帧间的同名点pp,pq的变换关系表示为pp=tpqpq,其中tpq由旋转矩阵rpq∈so(3)平移向量构成。相应地,相邻帧间的投影图像it‑1,it的变换关系可表示为[0076]作为一种可实施方式,本发明实施例中,为了准确的使用静态环境要素进行位姿估计,引入语义标识图g(u,v)={0,1},其本质是二维矩阵,大小与投影图像i,语义分割图s,法向量图n等相同,即w×h。语义标识图的初值依据量化指标赋值,当像素判定为静态要素时,语义标识取值为1;为动态要素时取值为0;待定要素取值为0.3。[0077][0078]以语义标识图为基础,结合场景上下文信息对待定要素的动态性加以判定。场景上下文信息包含相邻帧间信息与当前帧中蕴含的交叉验证信息。当前帧中的信息是交叉验证的过程,例如道路与汽车相交时,即可得出静态道路与动态汽车的判定结果;停车区域与汽车相交时,即可得出静态停车区域与静态汽车的判定结果。针对相邻帧间信息的动态要素判定,本发明实施例设计的环境要素筛选算法,如图4所示,具体包括:首先按照公式(5)计算相邻帧间静态要素的像素平均位移值[0079][0080]其中,符号⊙是点乘运算符,即两矩阵对应元素相乘。表示上一帧的位姿变换参数,st表示t时刻的语义分割结果,gt表示t时刻的语义标识图。假定相邻帧间的位姿变化不显著,在尚未得到准确位姿估计结果的情况下,选用上一帧的位姿变换参数作为初值计算像素平均位移值。[0081]然后根据像素的平均位移值判断待定要素的动态性,具体为:将满足下述约束条件的像素划分为静态要素,反之为动态要素:[0082]约束条件:其中,ρ为设定的阈值权重值,st(u,v)表示st中像素值为(u,v)的语义分割结果。[0083]对应地,语义标识图进行更新(为静态要素时,gi(u,v)=1;为动态要素时,gi(u,v)=0),得到t时刻语义标识图gt。[0084]s105:将语义标识图g作为语义约束添加到frame‑to‑map的icp算法中,得到位姿估计结果,进而生成语义地图。[0085]具体地,位姿估计通常被描述为非线性优化问题,考虑到面元地图的特性,本发明实施例采用了基于语义约束的frame‑to‑mapicp(如图5所示)。在语义标识图g的帮助下,本发明实施例能够准确利用环境中的静态要素进行位姿估计。[0086]定义最小化误差函数为:[0087][0088][0089]其中,i表示icp算法中需要进行配准的点的个数;[0090]具体地,icp算法为两帧点云间的配准算法,其原理为从两帧点云的点集中,选取具有对应性的点集,可表达为i个点,通过两个点集中各i个点进行配准。[0091]对于frame‑to‑mapicp中的每次迭代,使用levenberg‑marquardt递增地更新6自由度的相对位姿:[0092][0093]其中,为雅克比矩阵;为对应于法向量nt的残差;对角矩阵的残差;对角矩阵使用λ来正则化hessian矩阵,为权重矩阵,是包含对应于残差ri的权重值ωi的对角矩阵;[0094]一旦frame‑to‑mapicp算法达到临界条件,就通过ξ∈se(3)解算出变换矩阵并将其作为扫描帧frame与地图map对齐的位姿[0095][0096]其中,o表示世界坐标系。[0097]在frame‑to‑mapicp算法中,本发明实施例基于语义标识图与激光雷达传感器的前进方向,为残差ri设置权重值ωi,具体为:正对前进方向的像素权重值高于侧方及后方方向的像素权重值;其中,将雷达点云数据按角度等分为三份,将其前进方向对应的投影图像成像区间取值为(0.33w,0.67w)。[0098]具体地,语义标识图能够在进行配准与位姿估计时过滤掉环境中的动态要素,而不需要使用全部的像素信息,同时这也意味着不需要再为动静态要素迭代设置权重值。因此,在语义标识图的帮助下,将权重值的设置原则与激光雷达传感器的前进方向相关联,即正对前进方向的像素权重值高于侧方及后方方向的像素权重值。前进方向的扫描数据为定位定姿与地图构建带来的增益显著高于侧方及后方方向,换言之,前进方向的数据为real新获取数据,侧方与后方方向的数据与之前帧的扫描数据相重叠。据此,本发明实施例将雷达点云数据按角度等分为三份,为便于计算取值,将其前进方向对应的投影图像成像区间取值为(0.33w,0.67w)。如图6所示,进一步得到用于位姿解算的权重值矩阵w。[0099]为了验证本发明提供的动态环境激光slam方法的有效性,本发明还提供有以下实验数据。[0100]选用两个不同的室外环境激光雷达数据集进行实验。kitti数据集是众多slam算法的评价基准,在此数据集上进行实验可以测试本发明方法的性能并且便于与其他算法进行横向对比。semanticposs与kitti数据集在采集设备、采集区域以及数据内容上均有较大差异,基于semanticposs数据集的实验能够在纵向上印证本发明方法的鲁棒性与稳定性。为了直观的评价本发明方法在动态环境数据集上的实验效果,实验选用主流的动态环境下激光雷达slam方法以及视觉slam方法作为对比。实验设备为搭载inteli7‑9700kcpu,16gbram以及一张geforcertxtm2080tigpu的台式电脑。[0101](1)kitti数据集[0102]kitti数据集由velodynehdl‑64e采集得到,自发布以来始终是slam算法评价的主流数据集。它包含了urban、highway以及country等典型室外环境的11组数据,能够体现出动态环境的特点。并且kitti数据集涵盖的室外环境中大部分的动态物体是静止的,这能够更好地测试我们提出的环境要素筛选算法的性能。[0103]对于slam算法的评价,我们采用绝对位姿误差(absoluteposeerror,ape)的定量评价指标,在计算中使用sim(3)umeyama来对准。我们选用evo位姿评价工具(参考gruppm.evo:pythonpackagefortheevaluationofodometryandslam[j].note:https://github.com/michaelgrupp/evocitedby:table,2017,7)对位姿估计结果进行评价,该工具的评价结果包括误差地图、均方根误差、平均误差、中位误差和标准差等。我们选择基于雷达数据的suma 算法,以及动态环境中表现优异的视觉slam算法‑dynaslam与dm‑slam(lux,wangh,tangs,etal.dm‑slam:monocularslamindynamicenvironments[j].appliedsciences,2020,10(12):4252)作为对比。[0104]表1显示了绝对位姿误差的定量指标对比结果。图7以可视化图表的形式展现了本发明方法的详细细节以及与suma 方法的对比情况。图8中分别为序列00,05,08三组数据生成的语义地图。在同视觉slam方法的对比中,本发明方法在6个序列数据中取得了显著进步,另5个序列数据不如视觉slam方法。在与suma 的定量评价中,本发明方法在6个序列数据中取得了显著进步,在4个序列数据中有较少提升,而在sequence02数据中的表现出现滑坡。考虑到kitti数据集中多数动态物体均静止于环境中,实验结果有力的表明了环境要素筛选算法的有效性,其能够提高位姿解算的精度,提升slam系统的鲁棒性。[0105][0106](2)semanticposs数据集[0107]semanticposs数据集是由hesaitechpandora激光雷达采集了北京大学内的6组校园环境数据所组成的,表2显示了其与主流室外数据集动态要素的对比情况(pany,gaob,meij,etal.semanticposs:apointclouddatasetwithlargequantityofdynamicinstances[c]//2020ieeeintelligentvehiclessymposium(iv).ieee,2020:687‑693.)。与多数动态物体静止于环境中的kitti数据集相比,semanticposs数据集虽然体量小,但涵盖了更多的动态要素,更符合动态环境的特点,另外该数据集6组数据的真值轨迹相对稳定,不存在闭环,能够有针对性的测试方法在高动态环境下的准确性与鲁棒性。[0108][0109]因suma 目前仅能在kitti数据集中实现,尚不能在semanticposs数据集上实现,因此仅对本发明方法进行定量评价。我们对该数据集中6组数据依次展开实验,从表3能够看出本发明方法取得了较为优异的结果。图9为可视化结果,x与y方向上取得了较好的位姿估计结果,而z方向上的偏差是造成位姿估计不准确的主要原因。z方向上出现偏差的主要原因是由获取的点云数据降维生成投影图像的过程中造成的,将三维数据降维为二维图像不可避免地损失一个维度的信息,尽管通过深度图与法向量图进行完善,但仍存在误差。[0110][0111]总的来说,通过在kitti数据集与semanticposs数据集上的实验,本发明方法由于有效地消除了环境中动态要素的干扰,提高了位姿估计的准确度,增强了slam的性能,取得了较为优异的结果。[0112]本发明在语义信息的约束下构造了一个激光雷达slam框架,利用环境要素筛选算法来提高其在动态环境中的性能。这个框架分为四个模块,点云投影,语义分割,动态要素筛选以及语义地图构建。本发明所提出的考虑上下文信息的环境要素筛选算法,简单有效地提高了动态要素判定的鲁棒性和准确性。本发明所构建的动态环境激光雷达slam框架,在语义分割的基础上,结合先验知识实现了动态环境中的即时定位与语义地图构建。通过上述实验结果表明,本发明方法在动态环境下具备可靠的性能、准确性和鲁棒性。[0113]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献