一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于无地图导航的主动听觉定位方法

2022-06-02 11:58:49 来源:中国专利 TAG:


1.本发明属于信息科学领域,涉及一种听觉定位方法,具体涉及一种用于移动机器人无地 图导航的主动听觉定位方法。


背景技术:

2.至今,机器人已在工业制造、家庭服务、星际探测、军事侦察等领域创造了巨大的价值。 相比于视觉信息移动机器人导航方法,基于听觉感知机器人导航在保护隐私方面具有优势。 此外,当目标不在机器人视野中或者被障碍物遮挡时,听觉定位能提供额外的信息帮助机器 人确定目标。移动机器人的自主导航是指移动机器人通过传感器感知外部环境并结合自身状 态完成无碰撞到达目标点的运动过程。移动机器人具备灵活,高效,鲁棒的导航能力,才能 更好的应用于工业,服务业以及军事等方面。
3.机器人的导航技术可分为两类:依赖地图的和不依赖地图。依赖地图的导航技术是指机 器人在进行导航之前需要对环境进行尽可能精确的建图。这种方式的缺点在于机器人需要花 费长时间来构建地图,而且要求地图足够精准来帮助机器人在导航过程中进行定位。不依赖 地图的导航技术也被称作无地图导航,传统的算法包括动态窗口法,d*算法,向量直方图算 法等。随着深度学习的兴起,基于学习的方法也逐渐成为无地图导航方法的热门研究方向, 主要方法是基于强化学习和模仿学习的对机器人的导航过程进行建模。但将学习到的导航策 略应用到真实环境中,一个不可避免的问题是如何确定目标相对位置。前人工作表明,基于 wifi定位和可见光通信的方式成本较低,但需要对目标外置相应的接收器同时需要室内环境 拥有wifi热点或led灯。基于视觉的目标的定位方式灵活性强,可以根据语义类型处理各种 各样的目标;但存在实现障碍物遮挡和视野范围等问题,同时实时性不佳。
4.据我们所知,基于听觉主动定位的方式尚未被引入机器人无地图导航的研究。基于听觉 的定位方式能够解决障碍物遮挡问题,同时不需要信号接收器,可以应用于室外环境,也可 以对视觉定位方式进行辅助。


技术实现要素:

5.本发明的目的是提供一种主动听觉定位的方法,并将其应用到无地图导航技术中去。通 过基于强化学习的导航策略训练机器人的导航模型,并采用主动听觉定位的方式在实际导航 过程中获得不断收敛的目标相对位置,进而获得更加精确和鲁棒的导航模型。
6.为实现上述目的,本发明采用的技术方案如下:
7.一种用于无地图导航的主动听觉定位方法,其步骤包括:
8.1)在仿真平台上通过强化学习方法训练移动机器人导航模型;
9.2)移动机器人按照设定的时间步长,采集当前时刻激光雷达的测距信息、基于目标位置 的声源获取听觉定向信息和移动机器人里程计的位姿信息;其中,激光雷达搭载在移 动机器人上;
10.3)将所述测距信息、听觉定向信息和位姿信息输入步骤1)训练后的移动机器人导航模 型推理出当前时刻的速度指令,移动机器人根据所述速度指令导航到目标位置。
11.进一步的,所述移动机器人导航模型包括actor网络和critic网络;其中,所述actor网 络用于根据观测的状态输出能最大化回报的动作,所述状态包括所述测距信息、听觉定向信 息和位姿信息,所述动作为移动机器人的线速度和角速度;所述critic网络用于根据所述actor 网络输出的动作信息和当前状态的观测信息,输出《状态,动作》的价值。
12.进一步的,通过强化学习方法训练移动机器人导航模型的方法为:首先搭建不同仿真环 境,在所述仿真环境中随机设置多个障碍物及目标点,然后通过设置的回报公式激励移动机 器人抵达目标点。
13.进一步的,所述回报计算公式为:r(s
t
,a
t
,s
t 1
)=α1dis(p
t
,p
t 1
) α2(dis(p
t
,p
target
)
‑ꢀ
dis(p
t 1
,p
target
)) α3×
success α4×
collision;其中,dis(p
t
,p
t 1
)是计算t时刻位置点 p
t
到(t 1)时刻位置点p
t 1
之间的位移,(dis(p
t
,p
target
)-dis(p
t 1
,p
target
))是计算t 1时刻位 置点p
t 1
相对于t时刻位置点p
t
趋近于目标点p
target
的趋近目标程度,success代表成功抵达 目标点,collision代表发生了碰撞;系数α1、α2、α3均为正数,系数α4为负数;s
t
为t时刻的 状态,a
t
为t时刻的动作(线速度和角速度的控制),s
t 1
为t 1时刻的状态。
14.进一步的,所述听觉定向信息包括一个2维的方向向量;所述位姿信息包括2维的位置 信息和1维的角度信息;目标位置包括2维目标位置信息;所述速度指令包括线速度和角速 度。
15.进一步的,根据激光雷达的测距信息确定是否发生碰撞;如果所述测距信息中的最小值 小于设定阈值,则确定发生移动机器人与障碍物了碰撞。
16.进一步的,随机化所述障碍物的参数包括:障碍物的形状种类、障碍物的位置、障碍物 的大小。
17.进一步的,基于主动听觉定位方法获取听觉定向信息。
18.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计 算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指 令。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处 理器执行时实现上述方法的步骤。
20.本发明基于强化学习构建移动机器人导航模型,该移动机器人导航模型的输入是移动机 器人上搭载的激光雷达的测距信息,基于目标位置的声源获取的听觉定向信息和移动机器人 里程计的位姿信息,输出是移动机器人需要执行的速度指令;该模型的训练包括仿真平台的 训练和实际环境的训练;模型在训练完成后,移动机器人按照一定的时间步长,采集当前时 刻激光雷达的测距信息,听觉定向的信息和移动机器人里程计的位姿信息,根据这些信息作 为模型输入推理出应该执行的速度指令,最终导航到目标位置。
21.进一步的,在仿真中通过强化学习训练机器人导航模型的方法为:根据多种真实室内环 境布局搭建不同仿真环境,包括10m
×
10m,10m
×
5m,5m
×
5m的矩形环境和半径5m,10m 的圆形区域。我们通过随机的算法在这些环境的不同位置中放置了不同参数不同形状的障碍 物,每种环境有20种障碍物。需要随机化的参数包括,障碍物的形状种类,障碍物的位置, 障碍物的大小参数等。我们每次随机的在环境中选取落在障碍物之外的目标点,每
次机器人 通过在环境进行探索来抵达目标点,我们设计了一个回报公式来激励移动机器人无碰撞的抵 达目标点。
22.本发明的立即回报(reward)函数计算公式为:
23.r(s
t
,a
t
,s
t 1
)=α1dis(p
t
,p
t 1
) α2(dis(p
t
,p
target
)-dis(p
t 1
,p
target
)) α3×ꢀ
success α4×
collision;s
t s
t 1
表示t时刻和t 1时刻的状态,包含了机器人的位姿信息、 传感器输入和机器人速度信息。立即回报的计算共包含四项,第一项是计算t时刻位置点p
t
到 (t 1)时刻位置点p
t 1
之间的位移dis(p
t
,p
t 1
),第二项计算t 1时刻位置点p
t 1
相对于t时刻位 置点p
t
趋近于目标点p
target
的趋近目标程度(dis(p
t
,p
target
)-dis(p
t 1
,p
target
)),第三项计 算是否已经成功抵达目标点,第四项计算是否发生了碰撞;其中前三项的系数是正数,最后 一项的系数的负数。我们采用异步的方式,从5种形状的环境中采集数据存储到经验池中, 并采用强化学习的方式,基于reward的激励训练控制模型。
24.进一步的,激光雷达信息包括360维测距信息;听觉定向的信息包括一个2维的方向向 量,其模长为1;里程计的信息包括2维的位置信息和1维的角度信息;目标位置包括2维 目标位置信息;速度指令包括线速度和角速度。我们采用了目前最先进的强化学习算法td3, 它是基于ddpg算法的改进版本。在策略动作平滑,策略网络更新频率和状态价值函数的高 估问题上进行了改良,相较于ddpg有性能有很大的提升。如果发生了碰撞或者抵达了目标, 则认为该轮的训练已经结束。
25.为了降低仿真到现实迁移的难度,我们尽可能在仿真环境中还原了真实的室内情况和机 器人构型。考虑到真实环境的复杂程度很难在仿真环境中被表达,我们在仿真训练过程中对 测距信息进行了简单降维,即均匀选取了360维的激光测距信号的10维度;同样的,在真实 环境中也只使用这10维的激光雷达信息。需要进一步说明的是,仿真环境中的训练和真实环 境中的训练略有差异。在reward的计算上,仿真环境能获得移动机器人无偏的位姿;而在移 动机器人上需要通过里程计算位姿态,由于累计误差的存在,这是有偏的,但考虑在室内小 场景下运行,这种误差是可以忍受的。在碰撞检测上,仿真环境因为拥有全部信息可以通过 检测机器人和障碍物的相交情况进行检测;在实际场景中,我们采用根据设定碰撞距离阈值 的方式进行解决。即激光雷达的360维测距信息中,如果最小值小于阈值,则认为发生了碰 撞,同时停止这一轮的训练。
26.进一步的,在真实环境中进行目标定位过程中,我们采用主动听觉定位的方式。该方法 通过不断估计声源到达方向(doa)和主动移动,结合里程计信息来降低听觉定位的不确定性。 由于导航的过程是不断避障和接近声源的过程,接近的过程也是直达声音放大和反射声减小 的过程,我们的doa估计也会越来越准确,最终能够实现真实环境中的导航。
27.与现有技术相比,本发明的积极效果为:
28.本发明在获取环境目标信息的方式采用了更加可靠和有效的目标定位方式,在面向服务 人的环境中,人活动产生的声音是一种值得利用的线索。同时基于主动声源定位的目标定位 方法能够与其他的定位方法如视觉定位产生很好的融合效果。对于真实场景的无地图导航来 说,具有较高的应用价值。
附图说明
29.图1是移动机器人主动听觉导航示意图;
30.图2是不同方向上球形麦克风阵列定向示意图;
31.图3是主动听觉定位的误差结果示意图。
32.具体实施方式
33.为了使移动机器人在实际未知场景中实现无碰撞的导航,本发明提出了一种用于无地图导航的主动声源定位技术。本发明通过强化学习,提出了面向机器人平台的面向目标的端到 端导航模型。该模型可以学习一个复杂的策略:机器人根据环境信息选择移动方式,其中包 含原始2d激光测距结果和目标位置。同时为了将仿真环境训练的模型应用到真实环境中, 我们设置了主动听觉定位去确定目标相对位置,图1展示了机器人通过在导航过程调整自身 位姿不断确定目标位置的方法。图2是通过球形麦克风阵列确定目标位置在不同方向上的测 量误差。为了定量评估主动听觉定位的性能,我们比较了不同方式的定位精度,见图3,可 以看出基于主动听觉定位方法具有更加准确的定位精度。
34.(1)数据获取:在本发明所使用的技术方案中依赖导航数据集,由于目前没有开源的 导航数据集,我们需要构建自己的数据集。在gazebo仿真环境下,根据多种真实室内环境布 局搭建不同仿真环境。
35.(2)模型构建:如图3所示,我们采用的td3网络结构,包括actor网络(策略网络)和critic网络(估值网络)。其中actor网络负责根据对状态的观测输出能最大化回报的动作, 对于本专利来说,其输入是激光雷达的测距信息,听觉定向的信息和移动机器人里程计的位 姿信息,通过神经网络进行处理,其输出是移动机器人的线速度和角速度(即最大化累计回 报的动作)。其中critic网络输入是actor网络输出的动作信息和当前状态的观测信息,输出 是对这《状态,动作》的价值函数(即累计回报)的评估。对于本专利来说,其输入包括两部 分,一部分是actor网络输出的移动机器人的线速度和角速度,另一部分是对状态的观测, 包括激光雷达的测距信息,听觉定向的信息和移动机器人里程计的位姿信息,其输出是一个 分数值。
36.(3)仿真模型到实体环境的迁移:我们采用hoa编码的方式确定声源目标方向,然 后通过机器人的主动移动来不断确定声源目标的位置。基于强化学习的导航策略学习可以根 据声源目标位置得到连续的动作指令,最终是的机器人能够无碰撞的导航到真正的目标位置。
37.以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可 以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献