一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

机器人路径的规划方法及规划装置

2022-11-09 22:36:18 来源:中国专利 TAG:


1.本发明涉及机器人导航领域,尤其涉及一种机器人路径规划方法、机器人路径规划的装置以及对应的计算机可读存储介质。


背景技术:

2.近年来,随着移动机器人和人工智能技术的发展,移动机器人已经开始从实验室环境进入公共领域为人类提供服务。但是公共服务领域场景更加复杂,特别是行人环境给移动机器人的运动规划算法提出了新的挑战。
3.传统的移动机器人局部路径规划方法使用数学模型或物理模型来构建机器人与行人的交互状态,然后结合传统的搜索算法如遗传算法等完成路径规划任务,这类方法需要根据不同的实验场景设置不同参数,对于陌生的场景泛化能力有限,且效果欠佳。虽然可以保障移动机器人在工厂等结构化的环境中稳定运行,但是在复杂行人环境下依旧面临诸多理论和工程上的困难。
4.而随着机器学习的发展,数据驱动方法成为行人环境下机器人路径规划的热门研究方向,该方法使移动机器人具有“学习能力”,极大地提升了场景适应性,但也面临着学习效率低、收敛困难等问题。
5.为了克服现有技术存在的上述缺陷,本领域亟需一种机器人路径规划技术,使得机器人以更有效且顺应人类社会准则的方式进行移动,具有很高的环境适应性和避障成功率,并且能够在复杂行人环境下实现局部避障规划。


技术实现要素:

6.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之前序。
7.为了克服现有技术存在的上述缺陷,本发明提供了一种机器人路径规划方法、机器人路径规划装置以及对应的计算机可读存储介质,能够使得机器人以更有效且顺应人类社会准则的方式进行移动,具有很高的环境适应性和避障成功率,并且能够在复杂行人环境下实现局部避障规划。
8.具体来说,根据本发明的第一方面提供的上述车辆交流方法包括以下步骤:获取机器人在当前时刻的第一初始信息和行人在当前时刻的第二初始信息;根据所述第一初始信息和所述第二初始信息,预测所述机器人在下一时刻的第一状态和所述行人在下一时刻的第二状态;根据所述第一初始信息、所述第二初始信息、所述第一状态及所述第二状态,确定当前时刻所述机器人的多个动作的动作价值;以及根据各所述动作的动作价值,进行实时局部路径规划。
9.进一步地,在本发明的一些实施例中,所述获取机器人在当前时刻的第一初始信
息和行人在当前时刻的第二初始信息的步骤包括:设定环境状态空间、机器人动作空间及环境奖励函数;获取当前时刻的行人位置及行人速度;根据所述机器人的里程计数据,确定所述机器人的位姿信息;以及根据所述环境状态空间、所述机器人动作空间、所述环境奖励函数、所述行人位置、所述行人速度、所述位姿信息、固定的目标点信息,以及最大线速度信息,确定所述第一初始信息和所述第二初始信息。
10.进一步地,在本发明的一些实施例中,设定所述环境状态空间的步骤包括:以s
t
表示所述机器人在t时刻的状态,并以表示第i个行人在t时刻的可观测状态;以及在二维空间中,将所述机器人和每个所述行人都假定成一个半径为r的圆,将所述机器人的状态信息表示为其由所述机器人的当前位姿速度自身半径r、目标位置[g
x
,gy]、最大线速度v
pref
组成,将每个所述行人的状态信息表示为其由所述行人的坐标位置速度以及半径r组成,将t时刻n个行人的状态信息表示为并将环境联合状态表示为
[0011]
进一步地,在本发明的一些实施例中,设定所述机器人动作空间的步骤包括:在动作空间a中,将线速度设定为v={0.2、0.4、0.6、0.8、1.0},将角速度设定为ω={-π/4、-π/6、-π/12、0、π/12、π/6、π/4},并将所述动作空间a表示为a=[{0,0},{v,ω}],其中,所述动作空间a中包括多个离散的动作。
[0012]
进一步地,在本发明的一些实施例中,设定所述环境奖励函数的步骤包括:将奖励函数r
t
定义为其中,为接近目标奖励,为碰撞行人惩罚,为违反社交规范惩罚,所述用于引导机器人快速并最终到达目标位置:其中rg=0.25为到达目标位置的奖励,p
t
为机器人在t时刻所处的位置,g为目标位置,所述用于保证运动的安全性:其中rc=-0.25为机器人碰到行人时的惩罚,r
robot
为机器人的半径,ri为第i个行人的半径,p
t
为机器人在t时刻所处的位置,为第i个行人在t时刻所处的位置,所述用于保证机器人运动满足社交属性要求,并避免机器人在运动过程中过度靠近行人而造成不舒适感:
[0013]
[0014][0015]
其中为所述机器人与第i个行人之间的距离。
[0016]
进一步地,在本发明的一些实施例中,所述获取当前时刻的行人位置及行人速度的步骤包括:经由多帧激光雷达数据对行人的双腿进行检测;以及根据检测到的腿部信息匹配出对应的行人,并对所述行人进行跟踪。
[0017]
进一步地,在本发明的一些实施例中,所述根据所述第一初始信息和所述第二初始信息,预测所述机器人在下一时刻的第一状态和所述行人在下一时刻的第二状态的步骤包括:构建行人状态预测模型;以机器人状态信息s
t
和行人状态信息w
t
为输入,通过两个多层感知机模型fr、fh将所述机器人状态信息s
t
和所述行人状态信息w
t
的维数变成一致s

t
=fr(s
t
;wr)w

t
=fh(w
t
;wh)其中,wr、wh为可训练的权重矩阵;以为特征矩阵,构建图注意力网络,以预测所述机器人在下一时刻的第一状态和所述行人在下一时刻的第二状态。
[0018]
进一步地,在本发明的一些实施例中,所述构建图注意力神经网络的步骤包括:计算第1层图注意力网络中,每个注意力头下的注意力矩阵
[0019][0020]
其中为可训练的权重矩阵,k1为所述第1层图注意力网络中注意力头的个数,并结合多头注意力机制提取机器人与行人、行人与行人之间的交互特征信息,以计算所述第1层图注意力网络的输出结果:
[0021][0022][0023][0024]
其中,||表示特征拼接,σ表示函数,设为elu,w1为可训练的权重矩阵;以及计算第2层图注意力网络中,每个注意力头下的注意力矩阵
[0025]
[0026]
其中为可训练的权重矩阵,k2为第2层图注意力网络中注意力头的个数,并结合多头注意力机制提取移动机器人与行人、行人与行人之间的交互特征信息,以计算第2层图注意力网络的输出结果:
[0027][0028][0029][0030]
其中,||表示特征拼接,σ表示函数,设为elu,w2为可训练的权重矩阵。
[0031]
进一步地,在本发明的一些实施例中,所述预测所述机器人在下一时刻的第一状态和所述行人在下一时刻的第二状态的步骤包括:令通过一个多层感知机模型f
predict
预测行人下一时刻的状态预测行人下一时刻的状态其中w为可训练的权重矩阵;以及基于移动机器人状态信息矩阵;以及基于移动机器人状态信息和动作空间a,计算动作空间中每个动作策略a
t
=[v
t
,ω
t
]对应的下一时刻状态信息s
t 1

[0032]
θ
t 1
=θ
t 1
ω
t
[0033][0034][0035][0036][0037][0038]
进一步地,在本发明的一些实施例中,如图3所示,所述根据所述第一初始信息、所述第二初始信息31、所述第一状态及所述第二状态,确定当前时刻所述机器人的多个动作的动作价值的步骤包括:基于d3qn强化学习方法,将所述第一初始信息、所述第二初始信息、所述第一状态及所述第二状态分别输入值网络模型,以计算当前时刻所述机器人在其动作空间中的多个动作的动作价值q(j
t
,a
t
;ω)。
[0039]
进一步地,在本发明的一些实施例中,所述计算当前时刻所述机器人在其动作空间中的多个动作的动作价值q(j
t
,a
t
;ω)的步骤包括:采用d3qn强化学习框架,构建值网络模型;以机器人状态信息s
t
和行人状态信息w
t
31作为输入,通过两个多层感知机模型f
′r、f
′h32将所述机器人状态信息s
t
和所述行人状态信息w
t
的维数变成一致:
[0040]s′
t
=f
′r(s
t
;w
′r)
[0041]w′
t
=f
′h(w
t
;w
′h)
[0042]
其中,w
′r、w
′h为可训练的权重矩阵;以为特征矩阵,计算第1层图注意力网络中,每个注意力头下的注意力矩阵个注意力头下的注意力矩阵
[0043]
其中为可训练的权重矩阵,k1为所述第1层图注意力网络33中注意力头的个数,并结合多头注意力机制提取机器人与行人、行人与行人之间的交互特征信息,以计算所述第1层图注意力网络33的输出结果:
[0044][0045][0046][0047]
其中,||表示特征拼接,σ表示函数,设为elu,w
′1为可训练的权重矩阵;计算第2层图注意力网络34中,每个注意力头下的注意力矩阵图注意力网络34中,每个注意力头下的注意力矩阵
[0048][0049]
其中为可训练的权重矩阵,k2为第2层图注意力网络34中注意力头的个数,并结合多头注意力机制提取机器人与行人、行人与行人之间的交互特征信息,计算第2层图注意力网络34的输出结果:
[0050][0051][0052][0053]
其中,||表示特征拼接,σ表示函数,设为elu,w
′2为可训练的权重矩阵;令基于d3qn强化学习算法原理,将h输入后续的值网络模型,以计算各所述动作a
t
的动作价值q(j
t
,a
t
;ω):
[0054][0055]
其中v和a表示两个多层感知机模型35,并且引入了noisy net,将高斯噪声添加到全连接层,两个多层感知机模型以h为输入,分别输出状态价值和优势函数;将下一时刻的机器人状态信息s
t 1
和行人状态信息w
t 1
作为值网络模型输入,以计算下一时刻中每个动作a
t 1
的动作价值q(j
t 1
,a
t 1
;ω):
[0056][0056]
以及
[0057]
基于q(j
t
,a
t
;ω)和q(j
t 1
,a
t 1
;ω),重新计算当前环境状态j
t
下,动作空间中各所述动作a
t
的价值q(j
t
,a
t
;ω):
[0058][0059]
其中γ为折扣因子,δt为所述机器人每两次决策之间的时间间隔。
[0060]
进一步地,在本发明的一些实施例中,根据各所述动作的动作价值,进行实时局部路径规划的步骤包括:根据计算出的每个动作价值q(j
t
,a
t
;ω),选择当前状态j
t
下动作价值最大的动作来制定最优策略输出,以实现所述机器人的实时局部路径规划。
[0061]
进一步地,在本发明的一些实施例中,所述根据各所述动作的动作价值,进行实时局部路径规划的步骤进一步包括:获取所述机器人在当前时刻的坐标信息以计算所述坐标信息与目标点之间的距离dg;判断所述距离dg是否小于预设阈值;响应于所述距离dg大于或等于所述预设阈值的判断结果,进一步确定下一状态j
t 1
下动作价值最大的动作来制定最优策略输出;以及响应于所述距离dg小于所述预设阈值的判断结果,停止规划。
[0062]
此外,根据本发明的第二方面提供的上述机器人路径规划装置包括存储器及处理器。所述处理器连接所述存储器,并被配置与用于实施本发明的第一方面提供的上述机器人路径规划方法。
[0063]
此外,根据本发明的第二方面提供的上述计算机可读存储介质,其上存储有计算机指令。所述计算机指令被处理器执行时,实施本发明的第一方面提供的上述机器人路径规划方法。
附图说明
[0064]
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
[0065]
图1示出了根据本发明的一些实施例提供的机器人路径规划方法的流程图。
[0066]
图2示出了根据本发明的一些实施例提供的机器人路径规划方法中的行人状态预测模型图。
[0067]
图3示出了根据本发明的一些实施例提供的机器人路径规划方法中的值网络模型图。
[0068]
图4示出了根据本发明的一些实施例提供的机器人路径规划方法中的实验结果示意图。
具体实施方式
[0069]
以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。
[0070]
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0071]
另外,在以下的说明中所使用的“上”、“下”、“左”、“右”、“顶”、“底”、“水平”、“垂直”应被理解为该段以及相关附图中所绘示的方位。此相对性的用语仅是为了方便说明之用,其并不代表其所叙述的装置需以特定方位来制造或运作,因此不应理解为对本发明的限制。
[0072]
能理解的是,虽然在此可使用用语“第一”、“第二”、“第三”等来叙述各种组件、区域、层和/或部分,这些组件、区域、层和/或部分不应被这些用语限定,且这些用语仅是用来区别不同的组件、区域、层和/或部分。因此,以下讨论的第一组件、区域、层和/或部分可在不偏离本发明一些实施例的情况下被称为第二组件、区域、层和/或部分。
[0073]
如上所述,近年来,随着机器人和人工智能技术的发展,机器人已经开始从实验室环境进入公共领域为人类提供服务。但是公共服务领域场景更加复杂,特别是行人环境给移动机器人的运动规划算法提出了新的挑战。传统的移动机器人局部路径规划方法使用数学模型或物理模型来构建机器人与行人的交互状态,然后结合传统的搜索算法如遗传算法等完成路径规划任务,这类方法需要根据不同的实验场景设置不同参数,对于陌生的场景泛化能力有限,且效果欠佳。虽然可以保障移动机器人在工厂等结构化的环境中稳定运行,但是在复杂行人环境下依旧面临诸多理论和工程上的困难。而随着机器学习的发展,数据驱动方法成为行人环境下机器人路径规划的热门研究方向,该方法使移动机器人具有“学习能力”,极大地提升了场景适应性,但也面临着学习效率低、收敛困难等问题。
[0074]
为了克服现有技术存在的上述缺陷,本发明提供了一种机器人路径规划方法、机器人路径规划装置以及对应的计算机可读存储介质,使得机器人以更有效且顺应人类社会准则的方式进行移动,具有很高的环境适应性和避障成功率,并且能够在复杂行人环境下实现局部避障规划。
[0075]
在一些非限制性的实施例中,本发明的第一方面提供的上述机器人路径规划方法,可以经由本发明的第二方面提供的机器人路径规划装置来实施。具体来说,该规划装置中配置有存储器及处理器。该存储器包括但不限于本发明的第三方面提供的上述计算机可读存储介质,其上存储有计算机指令。该处理器连接存储器,并被配置用于执行该存储器上存储的计算机指令,以实施本发明的第一方面提供的机器人路径规划方法。
[0076]
以下将结合一些路径规划方法的实施例来描述上述路径规划装置的工作原理。本
领域的技术人员可以理解,这些交流方法的实施例只是本发明提供的一些非限制性的实施方式,旨在清楚地展示本发明的主要构思,并提供一些便于公众实施的具体方案,而非用于限制该交流系统的全部功能或全部工作方式。同样地,该路径规划装置也只是本发明提供的一种非限制性的实施方式,不对这些路径规划方法中各步骤的执行主体构成限制。
[0077]
请参考图1,图1示出了根据本发明的一些实施例提供的机器人路径规划方法的流程图示意图。
[0078]
如图1的步骤s1所示,在规划机器人路径的过程中,规划装置可以首先设定环境状态空间、移动机器人的动作空间、环境奖励函数。
[0079]
具体来说,在本发明的一些实施例中,该环境状态空间可以被定义为如下形式:用s
t
表示移动机器人在t时刻的状态,表示第i个行人在t时刻的可观测状态。在二维空间(x-y平面)中,机器人和每个行人都被假定成一个半径为r的圆,移动机器人的状态信息表示为由移动机器人当前位姿速度自身半径r、目标位置[g
x
,gy]、最大线速度v
pref
组成;每个行人状态信息可表示为为行人的坐标位置、速度以及半径,在t时刻n个行人的状态信息表示为息表示为环境联合状态表示为
[0080]
可选地,在另一些实施例中,环境状态空间还可以被定义为如下形式:用s
t
表示移动机器人在t时刻的状态,表示第i个行人在t时刻的可观测状态。在二维空间(x-y平面)中,机器人和每个行人都被假定成一个长度为a,宽度为b的长方形,移动机器人的状态信息表示为表示为由移动机器人当前位姿速度自身长a,自身宽b、目标位置[g
x
,gy]、最大线速度v
pref
组成;每个行人状态信息可表示为为行人的坐标位置、速度以及半径,在t时刻n个行人的状态信息表示为环境联合状态表示为
[0081]
此外,在本发明的一些实施例中,机器人的动作空间可以被定义为如下形式:设定移动机器人的动作空间a。动作空间a由机器人的线速度v和角速度ω构成,考虑到机器人的动力学限制以及人机共存环境下的安全性要求,设定线速度v={0.2、0.4、0.6、0.8、1.0},角速度ω={-π/4、-π/6、-π/12、0、π/12、π/6、π/4}。动作空间a表示为a=[{0,0},{v,ω}],由36个离散的动作组成。
[0082]
可选地,在另一些实施例中,机器人的动作空间还可以被定义为如下形式,设定移动机器人的动作空间b。动作空间b由机器人的线速度v和角速度ω构成,考虑到机器人的动力学限制以及人机共存环境下的安全性要求,设定线速度v={0.3、0.6、0.9、1.2、1.5},角速度ω={-π/6、-π/12、0、π/12、π/6}。动作空间b表示为b=[{0,0},{v,ω}],由26个离散的动作组成。
[0083]
此外,在本发明的一些实施例中,机器人的环境奖励函数可以被定义为如下形式:
奖励函数r
t
由三部分构成,分别为接近目标奖励与行人碰撞惩罚以及违反社交规范惩罚
[0084][0085]
用于引导机器人快速并最终到达目标位置:
[0086][0087]
其中rg为到达目标位置的奖励,相应于目标环境的不同以及算法收敛速度的不同,本发明可以自行调节rg的大小范围,实现快速收敛抑或精准达到目标值,例如,本发明可以设置rg=0.4以实现其快速收敛使得机器人能够快速达到最终目标位置,又例如,本发明可以设置rg=0.1以实现机器人精准避障的效果,p
t
为机器人在t时刻所处的位置,g为目标位置,又例如,本发明可以设置rg=0.25以实现机器人较为精准避障与较快速度地到达目标区域。p
t
为机器人在t时刻所处的位置,g为目标位置;
[0088]
为保证运动的安全性,机器人在与行人发生碰撞时会得到一定程度的惩罚:
[0089][0090]
其中rc为机器人碰到行人时的惩罚,同样的,本发明可以自行调节rc的大小范围,实现快速收敛抑或精准达到目标值。
[0091]
可选地,本发明可以设置rg=0.4以实现机器人精准避障的效果。
[0092]
可选地,本发明可以设置rg=0.1以实现快速收敛使得机器人能够快速到达目标位置。
[0093]
优选地,本发明可以设置rc=0.25以实现机器人较为精准避障与较快速度地到达目标区域,其中,r
robot
为机器人的半径,ri为第i个行人的半径,p
t
为机器人在t时刻所处的位置,为第i个行人在t时刻所处的位置。
[0094]
最后,为保证机器人运动的社交属性要求,本发明可以基于社交困境增添社交距离惩罚,避免机器人在运动过程中过度靠近行人而造成不舒适感,例如本发明可以将惩罚函数设置成为如下形式:
[0095][0096][0097]
其中为移动机器人与第i个行人之间的距离。本发明可以设定当移动机器人在行人0.5m范围内时,会引起行人在人群中运动方式的变化,导致对其他行人造成影响;当移动机器人在行人0.2m范围内时,会直接引起行人的不舒适。
[0098]
可选地,本发明可以将惩罚函数设置成为等式约束的二次外点惩罚函数、内点惩罚函数。
[0099]
进一步地,在本发明的一些实施例中,如图1的步骤s2所示,在设置完空间环境状态、机器人的动作空间、环境奖励函数后,本发明可以通过激光雷达、里程计获取当前时刻行人状态信息、机器人状态信息。
[0100]
具体来说,本发明可以通过腿探测算法(leg detector)算法通过多帧激光雷达数据来对行人的双腿进行检测,并依据检测到的腿部信息匹配出对应的行人,然后利用行人跟踪(people_tracker)算法对行人进行跟踪,获得每个行人的速度和坐标之后,本发明可以设定行人的半径r为0.3m,得到t时刻的每个行人状态信息最终得到t时刻n个行人的状态信息表示为
[0101]
进一步地,在本发明的一些实施例中,本发明可以基于自适应蒙特卡洛算法,得到当前时刻移动机器人的位姿信息并获取移动机器人当前时刻的速度在此,本发明可以将移动机器人自身半径r设为0.3m、最大线速度v
pref
设为1m/s,目标位置[g
x
,gy]初始给定,得到t时刻的移动机器人状态信息
[0102]
请进一步参考图1及图2,图2示出了为本发明的行人状态预测模型图。如图1的步骤s3与图2所示,本发明可以根据第一初始信息和第二初始信息,预测机器人在下一时刻的第一状态和行人在下一时刻的第二状态。
[0103]
具体来说,在预测机器人在下一时刻的第一状态和行人在下一时刻的第二状态的过程中,本发明可以首先构建行人状态预测模型。之后,如图2中模块21所示,本发明可以以机器人状态信息s
t
和行人状态信息w
t
为输入,通过构建模型将机器人状态信息s
t
和行人状态信息w
t
的维数变成一致。
[0104]
优选地,本发明可以通过两个多层感知机模型22fr、fh将机器人状态信息s
t
和行人状态信息w
t
的维数变成一致:
[0105]s′
t
=fr(s
t
;wr)
ꢀꢀw′
t
=fh(w
t
;wh)
[0106]
其中,wr、wh为可训练的权重矩阵;
[0107]
可选地,本发明可以通过自定义的多层神经网络将机器人状态信息s
t
和行人状态信息w
t
的维数变成一致。
[0108]
可选地,本发明可以经由支持向量机模型将机器人状态信息s
t
和行人状态信息w
t
的维数变成一致。
[0109]
优选地,本发明还可以以为特征矩阵,构建图注意力网络,以预测机器人在下一时刻的第一状态和行人在下一时刻的第二状态。
[0110]
可选地,本发明还可以将特征矩阵进行正则化作为新的特征矩阵,构建图注意力网络,以预测机器人在下一时刻的第一状态和行人在下一时刻的第二状态。
[0111]
可选地,本发明还可以将特征矩阵进行归一化作为新的特征矩阵,构建图注意力网络,以预测机器人在下一时刻的第一状态和行人在下一时刻的第二状态。
[0112]
进一步地,在本发明的一些实施例中,构建图注意力神经网络的步骤包括:计算第1层图注意力网络23中,每个注意力头下的注意力矩阵
[0113][0114]
可选地,本发明可以用激活函数sigmoid替代激活函数leakyrelu,或者用激活函数tanh替代激活函数leakyrelu,其中为可训练的权重矩阵,k1为第1层图注意力网络中注意力头的个数,并结合多头注意力机制提取机器人与行人、行人与行人之间的交互特征信息,以计算第1层图注意力网络23的输出结果:
[0115][0116][0117][0118]
其中,||表示特征拼接,σ表示函数,设为elu,w1为可训练的权重矩阵。
[0119]
此外,本发明可以计算第2层图注意力网络24中,每个注意力头下的注意力矩阵
[0120][0121]
可选地,本发明可以用激活函数sigmoid替代激活函数leakyrelu,或者用激活函数tanh替代激活函数leakyrelu,其中为可训练的权重矩阵,k2为第2层图注意力网络24中注意力头的个数,并结合多头注意力机制提取移动机器人与行人、行人与行人之间的交互特征信息,以计算第2层图注意力网络的输出结果:
[0122][0123][0124][0125]
其中,||表示特征拼接,σ表示函数,设为elu,w2为可训练的权重矩阵。
[0126]
进一步地,在本发明的一些实施例中,预测机器人在下一时刻的第一状态和行人在下一时刻的第二状态的步骤包括:
[0127]

[0128]
优选地,本发明可以通过一个多层感知机模型f
predict
25预测行人下一时刻的状态其中w为可训练的权重矩阵;
[0129]
可选地,本发明可以通过一个自定义的多层神经网络模型f
predict1
预测行人下一时刻的状态其中w为可训练的权重矩阵。
[0130]
此外,本发明还可以基于移动机器人状态信息此外,本发明还可以基于移动机器人状态信息和动作空间a,计算动作空间中每个动作策略a
t
=[v
t
,ω
t
]对应的下一时刻状态信息s
t 1

[0131]
θ
t 1
=θ
t 1
ω
t
[0132][0133][0134][0135][0136][0137]
进一步地,在本发明的一些实施例中,如图1的步骤s4所示,在获取下一时刻状态信息即第一状态信息、第二状态信息后,基于d3qn计算动作空间中每个动作的动作价值函数计算当前时刻机器人在其动作空间中的多个动作的动作价值q(j
t
,a
t
;ω)的步骤包括:采用d3qn强化学习框架,构建值网络模型。之后,本发明可以以机器人状态信息s
t
和行人状态信息w
t
作为输入,通过两个多层感知机模型f
′r、f
′h将机器人状态信息s
t
和行人状态信息w
t
的维数变成一致:
[0138]s′
t
=f
′r(s
t
;w
′r)
[0139]w′
t
=f
′h(w
t
;w
′h)
[0140]
其中,w
′r、w
′h为可训练的权重矩阵;
[0141]
再之后,本发明可以以为特征矩阵,计算第1层图注意力网络33中,每个注意力头下的注意力矩阵
[0142][0143]
其中为可训练的权重矩阵,k1为第1层图注意力网络33中注意力头的个数,并
结合多头注意力机制提取机器人与行人、行人与行人之间的交互特征信息,以计算第1层图注意力网络33的输出结果:
[0144][0145][0146][0147]
其中,||表示特征拼接,σ表示函数,设为elu,w
′1为可训练的权重矩阵。
[0148]
再之后,本发明可以计算第2层图注意力网络中,每个注意力头下的注意力矩阵
[0149][0150]
其中为可训练的权重矩阵,k2为第2层图注意力网络34中注意力头的个数,并结合多头注意力机制提取机器人与行人、行人与行人之间的交互特征信息,计算第2层图注意力网络34的输出结果:
[0151][0152][0153][0154]
其中,||表示特征拼接,σ表示函数,设为elu,w
′2为可训练的权重矩阵。
[0155]
再之后,本发明可以令并基于d3qn强化学习算法原理,将h输入后续的值网络模型,以计算各动作a
t
的动作价值q(j
t
,a
t
;ω):
[0156][0157]
其中v和a表示两个多层感知机模型35,并且引入了noisy net,将高斯噪声添加到全连接层,两个多层感知机模型35以h为输入,分别输出状态价值和优势函数。
[0158]
再之后,本发明可以将下一时刻的机器人状态信息s
t 1
和行人状态信息w
t 1
作为值网络模型输入,以计算下一时刻中每个动作a
t 1
的动作价值q(j
t 1
,a
t 1
;ω):
[0159]
[0160]
再之后,本发明可以基于q(j
t
,a
t
;ω)和q(j
t 1
,a
t 1
;ω),重新计算当前环境状态j
t
下,动作空间中各动作a
t
的价值q(j
t
,a
t
;ω):
[0161][0162]
其中γ为折扣因子,δt为机器人每两次决策之间的时间间隔。
[0163]
可选地,本发明可以通过对于实际机器人地避障效果,调节自由调节折扣因子地值从而达到能够达到更好地避障效果。
[0164]
进一步地,在本发明的一些实施例中,如图1的步骤s5所示,本发明可以依据动作价值函数选择最优动作策略发布给机器人执行。
[0165]
具体来说,本发明可以首先获取机器人在当前时刻的坐标信息以计算坐标信息与目标点之间的距离dg,再判断距离dg是否小于预设阈值。之后,响应于距离dg大于或等于预设阈值的判断结果,本发明可以进一步确定下一状态j
t 1
下动作价值最大的动作来制定最优策略输出。反之,响应于距离dg小于预设阈值的判断结果,本发明可以判定机器人已经到达目标点,从而停止规划。
[0166]
可选地,如图4所示,本发明还可以根据机器人路径规划方法中的实验结果示意图,比较机器人避障效果并调节预设阈值,直到达到最佳的避障效果。
[0167]
综上,相比于本领域目前的机器人导航技术,本发明能够基于机器人路径规划方法以实现机器人更有效且顺应人类社会准则的方式进行移动,因而具有很高的环境适应性和避障成功率,并且能够在复杂行人环境下实现局部避障规划。
[0168]
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
[0169]
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
[0170]
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
[0171]
尽管上述的实施例所述的路径规划装置是可以通过软件与硬件的组合来实现的。但是可以理解,该路径规划装置也可单独在软件或硬件中加以实施。对于硬件实施而言,该路径规划装置可在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、用于执行上述功能的其它电子装置或上述装置的选择组合来加以实施。对软件实施而言,该路径规划装置可通过在通用芯片上运行的诸如程序模块(procedures)和函数模块(functions)等独立的
软件模块来加以实施,其中每一个模块执行一个或多个本文中描述的功能和操作。
[0172]
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
[0173]
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献