一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的AGV路径规划方法及系统与流程

2021-10-09 02:37:00 来源:中国专利 TAG:路径 规划 强化 方法 学习

技术特征:
1.一种基于强化学习的agv路径规划方法,其特征在于,所述方法至少包括:s1.构建agv动力学模型,设置前向差分更新步长,基于前向差分更新步长及agv动力学模型确定agv的基本状态更新表达式;s2.以agv为智能体,agv行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;s3.根据agv动力学模型及agv的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成agv路径规划的马尔科夫过程建模;s4.引入actor

critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;s5.当训练收敛时,得到智能体agv的每步决策动作,进而得到最优的agv规划路径。2.根据权利要求1所述的基于强化学习的agv路径规划方法,其特征在于,步骤s1所述的agv动力学模型为:其中,t为时间变量,t
f
指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻agv中点所处的位置坐标的横坐标与纵坐标,θ(t)表示t时刻的agv与目标位置间的方位角,φ(t)表示t时刻的转向角,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,l
w
表示agv的轮距长度;设前向差分更新步长为τ
s
,设agv在t时刻的第j个状态为s(t
j
),采用前向差分的方式,得到agv的基本状态更新表达式为:其中,表示agv动力学模型,τ
s
表示前向差分更新步长;(t
j
τ
s
)表示agv的下一状态。3.根据权利要求1所述的基于强化学习的agv路径规划方法,其特征在于,步骤s2所述的考虑目的地位置、障碍物位置设计的状态空间包括:a.agv当前的位置信息:a.agv当前的位置信息:其中,s
pos
表示agv当前的位置信息;m矩阵是角度矩阵,代表agv与目的地位置间的方位角θ的联系;(x
g
,y
g
)为目的地的位置坐标,(x
r
,y
r
)为当前agv的位置坐标;b.agv到障碍物的位置信息:
其中,s
obs_i
表示环境中的障碍物信息;(x
obs_i
,y
obs_i
)表示第i个障碍物的中心点位置,是avg自运动始已观察到的状态;(x
r
,y
r
)表示当前agv的位置;c.agv到障碍物间的距离信息:其中,dis
i
表示agv位置与第i个障碍物的中心点的距离,(x
r
,y
r
)表示当前agv的位置,(x
obs_i
,y
obs_i
)表示当前第i个障碍物中心点的位置;状态空间表示为:state=[s
pos
,s
obs_i
,dis
i
],i∈(1,n);其中,n表示随机障碍物的个数上限;步骤s2所述的连续性动作空间表示为:action=[α,w]其中,α表示agv的连续性动作加速度向量,w为角速度向量,两者代表avg小车的实时运动信息;多重奖励机制包括:行驶主线奖励、若干个辅助奖励及时间奖励,具体为:其中,r
goal
表示终点回报奖励,为行驶主线奖励,w
g
表示终点回报奖励的权重值,终点回报奖励满足:r
goal
=1;r
distance
表示距离回报奖励,w
dis
表示距离回报奖励的权重值,距离回报奖励满足:τ
t
为微分量也即差分时长,代表agv每次移动的步距;d
last
为记录前一时刻agv距终点的距离;d
curr
为当前时刻agv距终点的距离,time为所花费的步数;t
obsi
为第i个障碍物的大小阈值;r
direction
表示方向回报奖励,w
dir
表示方向回报奖励的权重值,满足:r
direction
=π





=min(2|θ|,π)r
out
表示出界回报奖励,w
out
表示出界回报奖励的权重值,满足:r
out
=10;r
obstacle
表示碰撞回报奖励,满足:
其中,w
obs
表示碰撞回报奖励的权重值。4.根据权利要求3所述的基于强化学习的agv路径规划方法,其特征在于,在确定连续性动作空间后,对连续性动作空间的连续性动作加速度向量和角速度向量中的任意一个元素做正则化处理,具体为:ω
nor
=tanh(ω)*w
max
其中,α
nor
表示正则化处理后的agv加速度值,α
max
为设定的最大加速度值,α
min
为设定的最小加速度值,w
max
为设定的最大角速度值。5.根据权利要求3所述的基于强化学习的agv路径规划方法,其特征在于,设agv在状态空间state中的当前状态为s
j
,agv基于当前状态s
j
在连续性动作空间action中采取动作a
j
,得到下一状态s
j 1
,结合奖励机制r
total
,得到当前奖励r
j
,完成agv路径规划的马尔科夫过程建模。6.根据权利要求3所述的基于强化学习的agv路径规划方法,其特征在于,在统一的空间坐标系下,agv的位置由agv在载的定位传感器获得,障碍物的位置通过预先配置的定位传感器获得,并且包含障碍物的最小外接圆半径信息,以作为避障距离信息。7.根据权利要求5所述的基于强化学习的agv路径规划方法,其特征在于,步骤s4中,引入actor

critic框架作为智能体agv框架,其中,actor

critic框架包括actor模块及critic模块,actor模块及critic模块中均设有神经网络,actor模块的神经网络参数为θ,critic模块的神经网络参数p,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练的过程为:s41.设置并初始化迭代回合数t、状态特征维度n、动作集合a、网络权重更新步长ρ,β、衰减因子γ、探索率∈,以及actor模块的神经网络结构、critic模块的神经网络结构,随机初始化所有的状态和动作对应的价值q;s42.设置并初始化actor模块的神经网络参数φ,critic模块中的v网络参数ψ,critic模块中target_v网络参数critic模块中的q网络参数θ,target_q值critic模块神经网络参数s43.在actor模块中使用状态s作为输入,输出动作a,a为一个动作的概率分布,基于agv动力学模型的前向差分法,输出新的状态s

,依据奖励机制获得奖励r,完成一次交互;s44.将智能体与环境交互获得的轨迹存储于回忆池;s45.判断智能体与环境交互获得的轨迹数是否大于n,若是,执行步骤s46,进行策略学习;否则,返回步骤s43;s46.从回忆池中抽取m组轨迹作为训练样本,其中,m≤n,actor模块使用状态s作为输入,得到动作概率logπ(a
t
|s
t
),critic模块中分别使用s
t
,s
t 1
,logπ(a
t
|s
t
)作为输入,得到评价v值输出v(s
t
),评价target_v值输出评价q值输出q(s
t
),评价target_q值输出s47.考虑最大化策略熵,分别计算critic模块中v网络的梯度、critic模块中q网络的梯度、actor模块中网络梯度以及critic模块中的target_v网络梯度,并根据梯度信息分别
更新v值critic模块的神经网络参数、q值critic模块的神经网络参数θ、actor模块的神经网络参数φ及critic模块中target_v网络参数从而最大化奖励;s48.判断更新迭代回合数是否不超过t,若是,返回步骤s46,否则,训练收敛,结束。8.根据权利要求7所述的基于强化学习的agv路径规划方法,其特征在于,s44所述的智能体与环境交互获得的轨迹表示为:s0,a(s0),r(s0,a(s0)),s1,a(s1),r(s1,a(s1));
……
;s
j
,a(s
j
),r(s
j
,a(s
j
)),
……
;s
n
‑1,a(s
n
‑1),r(s
n
‑1,a(s
n
‑1)),s
n
其中,s
n
代表的是交互结束时的状态;s
j
表示交互过程中第j个状态,a(s
j
)表示第j个状态采取的动作,对应的r(s
j
,a(s
j
))代表第i个状态采取动作a(s
i
)时从环境获得的反馈奖励。9.根据权利要求7所述的基于强化学习的agv路径规划方法,其特征在于,在策略学习训练的过程中,agv到达指定目的地,即当前状态作为交互的终端状态时,满足:(x(t)

x
goal
)2 (y(t)

y
goal
)2≤(threshold)2其中,(x
goal
,y
goal
)表示随机目的地的位置坐标,threshold表示终端状态允许最大位置误差阈值;路径约束根据已知障碍物位置设计为:(x(t)

z_x
i
)2 (y(t)

z_y
i
)2≥(r d)2,i=1,

,n其中,(z_x
i
,z_y
i
)表示第i个障碍物配置的定位传感器提供的坐标位置,d表示与定位传感器绑定的障碍物最小外接圆半径信息。10.一种基于强化学习的agv路径规划系统,其特征在于,所述系统用于实现权利要求1所述的agv路径规划方法,包括:agv动力学构建模块,用于构建agv动力学模型,设置前向差分更新步长,基于前向差分更新步长及agv动力学模型确定agv的基本状态更新表达式;轨迹规划空间设计模块,以agv为智能体,agv行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;马尔科夫过程建模模块,根据agv动力学模型及agv的基本状态更新表达式,结合状态空间、连续性动作空间及多重奖励机制,完成agv路径规划的马尔科夫过程建模;策略学习训练模块,引入actor

critic框架,基于状态空间、连续性动作空间及多重奖励机制,智能体与环境交互,以最大化奖励及最大化策略熵为目标,进行策略学习训练,使得智能体在训练的过程中朝着最优的奖励方向运动;agv规划路径模块,当训练收敛时,得到智能体agv的每步决策动作,进而得到最优的agv规划路径。

技术总结
本发明提出一种基于强化学习的AGV路径规划方法及系统,解决了现有基于强化学习的AGV路径规划方法需消耗大量时间和算力成本的问题,首先构建AGV动力学模型,以AGV为智能体,其行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制;结合状态空间、连续性动作空间及多重奖励机制,完成路径规划的马尔科夫过程建模,其中状态空间可给定任意不同起始点、目标点、任意位置障碍物,可泛化性高,然后引入Actor


技术研发人员:吴宗泽 郭海森 任志刚 赖家伦 王界兵
受保护的技术使用者:广东工业大学
技术研发日:2021.08.20
技术公布日:2021/10/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜