一种基于强化学习的AGV路径规划方法及系统与流程

2021-10-09 02:37:00 来源：中国专利 TAG：路径规划强化方法学习

一种基于强化学习的agv路径规划方法及系统
技术领域
1.本发明涉及agv路径规划的技术领域，更具体地，涉及一种基于强化学习的agv路径规划方法及系统。

背景技术：

2.无人搬运车(automated guided vehicle，简称agv)，指装备有电磁或光学等自动导引装置，能够沿规定的导引路径行驶，具有安全保护以及各种移载功能的运输车，工业应用中不需驾驶员的搬运车，以可充电的蓄电池为其动力来源。
3.agv按其控制方式和自主程度大致可分为遥控式、半自主式与自主式三种，基于多磁轨式的导航是agv最早采用的路径规划方法，同时也是当前agv大部分路径规划所采用的方法。传统应用中的agv通过识别铺设在地面的磁轨道确定行进路线，但是这种方法受限于磁轨的不灵活性，扩充路径相对复杂；视觉二维码式导航也是当前agv领域应用较多的导航方式，agv通过识别粘贴在地面上的有间隔的具有唯一性的二维码，获得二维码信息来确定位置和行进路线，这种方式相比于磁轨式，行动更为灵活，易于调度，但是存在着标识易磨损、环境光要求高等问题；激光slam式导航是通过agv发射激光信号，再通过墙壁或立柱上设置的反光板反射回来的信号来确定位置，这种方式能克服以上两种方式的缺点，但是存在着制图时间久、成本高等问题。
4.自2015年deepmind提出的dqn方法，开启了强化学习与深度学习结合的先河，现深度强化学习方法直接利用图像信息作为状态输入，从而进行无人车的路径规划是目前在路径规划领域的前沿研究方向，如2020年4月24日，中国发明专利(公布号：cn111061277a)中公开了一种无人车全局路径规划方法和装置，首先，通过强化学习方法建立对象模型，其中对象模型中包括：无人车状态、采用地图图片进行描述的环境状态、以及路径规划结果的评估指标；然后，基于对象模型，搭建深度强化学习神经网络，并利用无人车状态和地图图片对深度强化学习神经网络进行训练，得到稳定的神经网络模型，该专利通过对象模型中的地图图片标识场景中的环境信息，以任务场景的地图图片和无人车状态作为路径规划的输入，提高路径规划的准确率和效率，但是图像作为一种高维信息，并且基于视觉的避障往往有涉及深度摄像机采集的点云数据以及状态维度的大幅扩增，因此，基于卷积神经网络的各类深度学习模型训练成本也随之大幅上升，例如消耗大量的时间成本以及算力成本等。

技术实现要素：

5.为解决现有基于强化学习的agv路径规划方法需消耗大量时间和算力成本的问题，本发明提出一种易于工程实现、成本低廉的agv路径规划方法及系统。
6.为了达到上述技术效果，本发明的技术方案如下：
7.一种基于强化学习的agv路径规划方法，至少包括：
8.s1.构建agv动力学模型，设置前向差分更新步长，基于前向差分更新步长及agv动力学模型确定agv的基本状态更新表达式；
9.s2.以agv为智能体，agv行驶所感知到的环境信息为状态信息，考虑目的地位置、障碍物位置设计状态空间，以及设计连续性动作空间、多重奖励机制；
10.s3.根据agv动力学模型及agv的基本状态更新表达式，结合状态空间、连续性动作空间及多重奖励机制，完成agv路径规划的马尔科夫过程建模；
11.s4.引入actor
‑
critic框架，基于状态空间、连续性动作空间及多重奖励机制，智能体与环境交互，以最大化奖励及最大化策略熵为目标，进行策略学习训练，使得智能体在训练的过程中朝着最优的奖励方向运动；
12.s5.当训练收敛时，得到智能体agv的每步决策动作，进而得到最优的agv规划路径。
13.优选地，步骤s1所述的agv动力学模型为：
[0014][0015]
其中，t为时间变量，t
f
指定为末端状态所对应的时刻，x(t)、y(t)表示t时刻agv中点所处的位置坐标的横坐标与纵坐标，θ(t)表示t时刻的agv与目标位置间的方位角，φ(t)表示t时刻的转向角，α(t)表示t时刻的方位角方向的加速度；ω(t)表示角速度，l
w
表示agv的轮距长度；
[0016]
设前向差分更新步长为τ
s
，设agv在t时刻的第j个状态为s(t
j
)，采用前向差分的方式，得到agv的基本状态更新表达式为：
[0017][0018]
其中，表示agv动力学模型，τ
s
表示前向差分更新步长；s(t
j
τ
s
)表示agv的下一状态。
[0019]
在此，考虑到强化学习方法依赖于智能体与环境的交互，在多次的试错中，结合合理的奖赏机制，进行当前场景的策略学习，但是直接在真实环境中采集交互数据，这对agv的损耗较大，设计一个能够反映真实agv状态变化的仿真模型，可以有效适用于真实环境。
[0020]
优选地，步骤s2所述的考虑目的地位置、障碍物位置设计的状态空间包括：
[0021]
a.agv当前的位置信息：
[0022][0023][0024]
其中，s
pos
表示agv当前的位置信息；m矩阵是角度矩阵，代表agv与目的地位置间的方位角θ的联系；(x
g
，y
g
)为目的地的位置坐标，(x
r
，y
r
)为当前agv的位置坐标；
[0025]
b.agv到障碍物的位置信息：
[0026]
[0027][0028]
其中，s
obs_i
表示环境中的障碍物信息；(x
obs_i
，y
obs_i
)表示第i个障碍物的中心点位置，是avg自运动始已观察到的状态；(x
r
，y
r
)表示当前agv的位置；
[0029]
c.agv到障碍物间的距离信息：
[0030][0031]
其中，dis
i
表示agv位置与第i个障碍物的中心点的距离，(x
r
，y
r
)表示当前agv的位置，(x
obs_i
，y
obs_i
)表示当前第i个障碍物中心点的位置；状态空间表示为：
[0032]
state＝[s
pos
，s
obs_i
，dis
i
]，i∈(1，n)；
[0033]
其中，n表示随机障碍物的个数上限；
[0034]
步骤s2所述的连续性动作空间表示为：
[0035]
action＝[α，w]
[0036]
其中，α表示agv的连续性动作加速度向量，w为角速度向量，两者代表avg小车的实时运动信息；
[0037]
多重奖励机制包括：行驶主线奖励、若干个辅助奖励及时间奖励，具体为：
[0038][0039]
其中，r
goal
表示终点回报奖励，为行驶主线奖励，w
g
表示终点回报奖励的权重值，终点回报奖励满足：r
goal
＝1；r
distance
表示距离回报奖励，w
dis
表示距离回报奖励的权重值，距离回报奖励满足：
[0040][0041]
τ
t
为微分量也即差分时长，代表agv每次移动的步距；d
last
为记录前一时刻agv距终点的距离；d
curr
为当前时刻agv距终点的距离，time为所花费的步数；为第i个障碍物的大小阈值；r
direction
表示方向回报奖励，w
dir
表示方向回报奖励的权重值，满足：
[0042]
r
direction
＝π
‑
2θ
′
，θ
′
＝min(2|θ|，π)
[0043]
r
out
表示出界回报奖励，w
out
表示出界回报奖励的权重值，满足：r
out
＝10；r
obstacle
表示碰撞回报奖励，满足：
[0044][0045]
其中，w
obs
表示碰撞回报奖励的权重值。
[0046]
在此，状态空间的设计对障碍物数量具有任意性，在保证agv感知环境的同时又能够有效的减少输入的维度，降低算力要求，缓解强化学习方法控制策略学习周期长的问题；
动作空间的设计采用连续性动作，当前所设定的动作空间实时决定着智能体小车当前的位置与状态，相比于传统的离散型动作，连续动作空间在任务的实现上变现更加稳定，且该动作空间的设计贴合agv的实际情况；针对agv轨迹场景，通过主线奖励和若干辅助奖励的针对性权值大小设定，相辅相成，综合了智能体agv所处当前位置的各方面收益，比如方向，速度，碰撞等情况，使得智能体在训练的过程中朝着最优的奖励方向来运动。同时加入了时间上的奖励，能够保证智能体以最快最优的路径达到指定目的地，根据实际情况来调整主线奖励和辅助奖励的权重，能够使得智能体小车在实际的应用场景中针对不同的情况、趋向性来做出调整，具有较高的自适应能力，满足工业过程中的不确定性环节实时调度。
[0047]
优选地，在确定连续性动作空间后，对连续性动作空间的连续性动作加速度向量和角速度向量中的任意一个元素做正则化处理，具体为：
[0048][0049]
ω
nor
＝tanh(ω)*w
max
[0050]
其中，α
nor
表示正则化处理后的agv加速度值，α
max
为设定的最大加速度值，α
min
为设定的最小加速度值，w
max
为设定的最大角速度值。
[0051]
在此，考虑动作空间的两个变量存在不同的维度量纲，为了一致化动作空间的量纲大小对agv小车的作用，设定了指定的正则化方法，将变量设定在同一个量纲的范围内，能够有效的提高算法网络训练速度和实施中的动作规范化，有效的提高模型自身的拟合能力。
[0052]
优选地，设agv在状态空间state中的当前状态为s
j
，agv基于当前状态s
j
在连续性动作空间action中采取动作a
j
，得到下一状态s
j 1
，结合奖励机制r
total
，得到当前奖励r
j
，完成agv路径规划的马尔科夫过程建模。
[0053]
优选地，在统一的空间坐标系下，agv的位置由agv在载的定位传感器获得，障碍物的位置通过预先配置的定位传感器获得，并且包含障碍物的最小外接圆半径信息，以作为避障距离信息。
[0054]
在此，与传统agv路径规划方案相比，不存在标识磨损、路径扩充难、环境要求高、制图时间长的问题，也没有基于视觉的深度强化学习中，对算力的依赖，通过仅采集位置传感器的位置以及障碍物最小外接圆半径信息，设定特定的状态空间。
[0055]
优选地，步骤s4中，引入actor
‑
critic框架作为智能体agv框架，其中，actor
‑
critic框架包括actor模块及critic模块，actor模块及critic模块中均设有神经网络，actor模块的神经网络参数为θ，critic模块的神经网络参数p，基于状态空间、连续性动作空间及多重奖励机制，智能体与环境交互，以最大化奖励及最大化策略熵为目标，进行策略学习训练的过程为：
[0056]
s41.设置并初始化迭代回合数t、状态特征维度n、动作集合a、网络权重更新步长ρ，β、衰减因子γ、探索率∈，以及actor模块的神经网络结构、critic模块的神经网络结构，随机初始化所有的状态和动作对应的价值q；
[0057]
s42.设置并初始化actor模块的神经网络参数φ，critic模块中的v网络参数ψ，critic模块中target_v网络参数critic模块中的q网络参数θ，target_q值critic模块神经网络参数
[0058]
s43.在actor模块中使用状态s作为输入，输出动作a，a为一个动作的概率分布，基于agv动力学模型的前向差分法，输出新的状态s
′
，依据奖励机制获得奖励r，完成一次交互；
[0059]
s44.将智能体与环境交互获得的轨迹存储于回忆池；
[0060]
s45.判断智能体与环境交互获得的轨迹数是否大于n，若是，执行步骤s46，进行策略学习；否则，返回步骤s43；
[0061]
s46.从回忆池中抽取m组轨迹作为训练样本，其中，m≤n，actor模块使用状态s作为输入，得到动作概率logπ(a
t
|s
t
)，critic模块中分别使用s
t
，s
t 1
，logπ(a
t
|s
t
)作为输入，得到评价v值输出v(s
t
)，评价target_v值输出评价q值输出q(s
t
)，评价target_q值输出
[0062]
s47.考虑最大化策略熵，分别计算critic模块中v网络的梯度、critic模块中q网络的梯度、actor模块中网络梯度以及critic模块中的target_v网络梯度，并根据梯度信息分别更新v值critic模块的神经网络参数、q值critic模块的神经网络参数θ、actor模块的神经网络参数φ及critic模块中target_v网络参数从而最大化奖励；
[0063]
s48.判断更新迭代回合数是否不超过t，若是，返回步骤s46，否则，训练收敛，结束。
[0064]
优选地，s44所述的智能体与环境交互获得的轨迹表示为：
[0065]
s0，a(s0)，r(s0，a(s0))，s1，a(s1)，r(s1，a(s1))；......；
[0066]
s
j
，a(s
j
)，r(s
j
，a(s
j
))，......；s
n
‑1，a(s
n
‑1)，r(s
n
‑1，a(s
n
‑1))，s
n
[0067]
其中，s
n
代表的是交互结束时的状态；s
j
表示交互过程中第j个状态，a(s
j
)表示第j个状态采取的动作，对应的r(s
j
，a(s
j
))代表第i个状态采取动作a(s
i
)时从环境获得的反馈奖励。
[0068]
优选地，在策略学习训练的过程中，
[0069]
agv到达指定目的地，即当前状态作为交互的终端状态时，满足：
[0070]
(x(t)
‑
x
goal
)2 (y(t)
‑
y
goal
)2≤(threshold)2[0071]
其中，(x
goal
，y
goal
)表示随机目的地的位置坐标，threshold表示终端状态允许最大位置误差阈值；
[0072]
路径约束根据已知障碍物位置设计为：
[0073]
(x(t)
‑
z_x
i
)2 (y(t)
‑
z_y
i
)2≥(r d)2，i＝1，...，n
[0074]
其中，(z_x
i
，z_y
i
)表示第i个障碍物配置的定位传感器提供的坐标位置，d表示与定位传感器绑定的障碍物最小外接圆半径信息。
[0075]
本技术还提出一种基于强化学习的agv路径规划系统，所述系统用于实现所述的agv路径规划方法，包括：
[0076]
agv动力学构建模块，用于构建agv动力学模型，设置前向差分更新步长，基于前向差分更新步长及agv动力学模型确定agv的基本状态更新表达式；
[0077]
轨迹规划空间设计模块，以agv为智能体，agv行驶所感知到的环境信息为状态信息，考虑目的地位置、障碍物位置设计状态空间，以及设计连续性动作空间、多重奖励机制；
[0078]
马尔科夫过程建模模块，根据agv动力学模型及agv的基本状态更新表达式，结合
状态空间、连续性动作空间及多重奖励机制，完成agv路径规划的马尔科夫过程建模；
[0079]
策略学习训练模块，引入actor
‑
critic框架，基于状态空间、连续性动作空间及多重奖励机制，智能体与环境交互，以最大化奖励及最大化策略熵为目标，进行策略学习训练，使得智能体在训练的过程中朝着最优的奖励方向运动；
[0080]
agv规划路径模块，当训练收敛时，得到智能体agv的每步决策动作，进而得到最优的agv规划路径。
[0081]
与现有技术相比，本发明技术方案的有益效果是：
[0082]
本发明提出的基于强化学习的agv路径规划方法及系统，首先构建agv动力学模型，以agv为智能体，agv行驶所感知到的环境信息为状态信息，考虑目的地位置、障碍物位置设计状态空间，以及设计连续性动作空间、多重奖励机制；结合状态空间、连续性动作空间及多重奖励机制，完成agv路径规划的马尔科夫过程建模，其中状态空间可给定任意不同起始点、目标点、任意位置障碍物，可泛化性高，然后引入actor
‑
critic框架，进行策略学习训练，在线运行避免了计算量大的问题，算力要求低，实现agv对任意目标、障碍物的实时决策控制；另一方面，障碍物同时可以视作另外的agv，可以为未来大规模的车间agv编队以及避障问题提供方案基础。
附图说明
[0083]
图1表示本发明实施例1中提出的基于强化学习的agv路径规划方法的流程示意图；
[0084]
图2表示本发明实施例1中提出的基于强化学习的agv路径规划的整体框架图；
[0085]
图3表示本发明实施例2中提出的基于强化学习的agv路径规划系统的结构图。
具体实施方式
[0086]
附图仅用于示例性说明，不能理解为对本专利的限制；
[0087]
对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。
[0088]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0089]
附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；
[0090]
实施例1
[0091]
如图1所示，在本实施例中提出了一种基于强化学习的agv路径规划方法的流程示意图，参见图1，所述方法包括：
[0092]
s1.构建agv动力学模型，设置前向差分更新步长，基于前向差分更新步长及agv动力学模型确定agv的基本状态更新表达式；
[0093]
考虑强化学习依赖于智能体与环境的交互，在多次的试错中，结合合理的奖赏机制，进行当前场景的策略学习，当训练收敛后(一般指每次agv与环境交互的整条轨迹所获得的的奖赏值收敛)，但是直接在真实环境中采集交互数据，对agv的损耗较大，因此，需要一个能够反映真实agv状态变化的仿真模型，在本实施例中，基于牛顿经典力学，并根据实际已投用的agv的普遍性质，可以采用但不限定于二自由度的车辆模型对agv进行运动学建模，具体的agv动力学模型为：
[0094][0095]
其中，t为时间变量，t
f
指定为末端状态所对应的时刻，x(t)、y(t)表示t时刻agv中点所处的位置坐标的横坐标与纵坐标，θ(t)表示t时刻的agv与目标位置间的方位角，φ(t)表示t时刻的转向角，在实际仿真中，采用弧度制表示，α(t)表示t时刻的方位角方向的加速度；ω(t)表示角速度，l
w
表示agv的轮距长度，存在一系列的边界值约束，阈值可以按实际场景以及agv性能进行选取。
[0096]
设前向差分更新步长为τ
s
，设agv在t时刻的第j个状态为s(t
j
)，采用前向差分的方式，得到agv的基本状态更新表达式为：
[0097][0098]
其中，表示agv动力学模型，τ
s
表示前向差分更新步长；s(t
j
τ
s
)表示agv的下一状态。τ
s
的设置值影响后续agv动力学模型在强化学习训练过程中交互状态，τ
s
设置过小将导致交互步长短，将导致交互步长短，计算量增大，将降低训练速度，若τ
s
设置过大，则导致agv动力学模型状态反馈的不精确，使得通过仿真信息训练的策略不能有效适用于真实环境。
[0099]
s2.以agv为智能体，agv行驶所感知到的环境信息为状态信息，考虑目的地位置、障碍物位置设计状态空间，以及设计连续性动作空间、多重奖励机制；
[0100]
在本实施例中，agv行驶所感知到的环境信息为状态信息，且能够表示因自身的agv动作(action)带来的变化。因此，采用agv和目的地的相对位置，以及小车到环境中障碍物的位置和距离来作为直接的相关信息，所述的考虑目的地位置、障碍物位置设计的状态空间包括：
[0101]
a.agv当前的位置信息：
[0102][0103][0104]
其中，s
pos
表示agv当前的位置信息；m矩阵是角度矩阵，代表agv与目的地位置间的方位角θ的联系；(x
g
，y
g
)为目的地的位置坐标，(x
r
，y
r
)为当前agv的位置坐标；
[0105]
b.agv到障碍物的位置信息：
[0106][0107][0108]
其中，s
obs_i
表示环境中的障碍物信息；(x
obs_i
，y
obs_i
)表示第i个障碍物的中心点位置，是avg自运动始已观察到的状态；(x
r
，y
r
)表示当前agv的位置；
[0109]
c.agv到障碍物间的距离信息：
[0110][0111]
其中，dis
i
表示agv的位置与第i个障碍物的中心点的距离，(x
r
，y
r
)表示当前agv的位置，(x
obs_i
，y
obs_i
)表示当前第i个障碍物中心点的位置；
[0112]
综上，强化学习基本范式中的状态空间表示为：
[0113]
state＝[s
pos
，s
obs_i
，dis
i
]，i∈(1，n)；
[0114]
其中，n表示随机障碍物的个数上限；
[0115]
连续性动作空间表示为：
[0116]
action＝[α，w]
[0117]
其中，α表示agv的连续性动作加速度向量，w为角速度向量，两者代表avg小车的实时运动信息，进而来改变agv的状态；
[0118]
初始化动作和状态后，agv可以根据状态随机得出不同的动作策略，但是无法根据状态评价动作的好坏。设计奖励机制可以对智能体行为进行评估，提高高分行为的发生概率，降低低分行为的发生概率，进而引导智能体在各种环境状态做出正确的行动。奖赏机制决定了训练结果的效果，合理的奖惩函数设计能够提高训练速度，减少计算机资源消耗，使训练结果可以更快收敛。多数情况下，稀疏的奖惩信息能够不断让智能体对采取的动作策略得到反馈。鉴于agv环境属于连续的动作空间过程，因此，在构建奖励机制时，考虑连续
‑
稀疏奖励的结合，通过设计主线奖励和若干辅助奖励来引导智能体正确导向目标；同时，设置时间奖励引导智能体更快地完成任务。
[0119]
在本实施例中，设计的多重奖励机制包括：行驶主线奖励、若干个辅助奖励及时间奖励，具体为：
[0120][0121]
其中，r
goal
表示终点回报奖励，为行驶主线奖励，w
g
表示终点回报奖励的权重值，终点回报奖励满足：r
goal
＝1；r
distance
表示距离回报奖励，w
dis
表示距离回报奖励的权重值，距离回报奖励满足：
[0122][0123]
τ
t
为微分量也即差分时长，代表agv每次移动的步距；d
last
为记录前一时刻agv距终点的距离；d
curr
为当前时刻agv距终点的距离，time为所花费的步数；为第i个障碍物的大小阈值；r
direction
表示方向回报奖励，w
dir
表示方向回报奖励的权重值，满足：
[0124]
r
direction
＝π
‑
2θ
′
，θ
′
＝min(2|θ|，π)
[0125]
r
out
表示出界回报奖励，w
out
表示出界回报奖励的权重值，满足：r
out
＝10；r
obstacle
表示碰撞回报奖励，满足：
[0126][0127]
其中，w
obs
表示碰撞回报奖励的权重值，在此，碰撞和出界都代表了一种惩罚。
[0128]
w＝[w
g
，w
dis
，w
dir
，w
out
，w
obs
]分别表示所对应奖励的求和权重，根据主线任务的重要性对奖励设定权值，同时考虑各个辅助奖励reward的大小所占比份，以主线任务为主则需要对主线的goal的reward设定较高的正权值w，同时对异常行为比如跑出跑道、碰撞到障碍物做出负惩罚。
[0129]
在统一的空间坐标系下，agv的位置由agv在载的定位传感器获得，障碍物的位置通过预先配置的定位传感器获得，并且包含障碍物的最小外接圆半径信息，以作为避障距离信息。
[0130]
另外，考虑动作空间的两个变量存在不同的维度量纲，为了一致化动作空间的量纲大小对agv的作用，将变量设定在同一个量纲的范围内，能够有效的提高算法网络训练速度和实施中的动作规范化，有效的提高模型自身的拟合能力，在确定连续性动作空间后，对连续性动作空间的连续性动作加速度向量和角速度向量中的任意一个元素做正则化处理，具体为：
[0131][0132]
ω
nor
＝tanh(ω)*w
max
[0133]
其中，α
nor
表示正则化处理后的agv加速度值，a
max
为设定的最大加速度值，α
min
为设定的最小加速度值，w
max
为设定的最大角速度值，对于超出动作值阈值的动作值以按边界值进行截断的形式处理。
[0134]
s3.根据agv动力学模型及agv的基本状态更新表达式，结合状态空间、连续性动作空间及多重奖励机制，完成agv路径规划的马尔科夫过程建模；
[0135]
在具体实施时，基于本实施例中建立的agv动力学模型，考虑agv动力学模型为常微分方程，可以通过前向差分的方式，设agv在状态空间state中的当前状态为s
j
，agv基于当前状态s
j
在连续性动作空间action中采取动作a
j
，得到下一状态s
j 1
，结合奖励机制r
total
，得到当前奖励r
j
，完成agv路径规划的马尔科夫过程建模。
[0136]
s4.引入actor
‑
critic框架，基于状态空间、连续性动作空间及多重奖励机制，智能体与环境交互，以最大化奖励及最大化策略熵为目标，进行策略学习训练，使得智能体在训练的过程中朝着最优的奖励方向运动；
[0137]
参见图2，引入actor
‑
critic框架作为智能体agv的强化学习框架，其中，actor
‑
critic框架包括actor模块及critic模块，actor模块及critic模块中均设有神经网络，actor模块的神经网络参数为θ，critic模块的神经网络参数p，在传统的actor
‑
critic框架中，actor模块的输入为方案所设计的当前状态，输出为agv执行的动作，critic模块输入为方案所设计的状态，输出为前动作的评价值，这两个模块由两个不同的神经网络实现。具体的：
[0138]
actor模块输出为动作的概率分布π
θ
(a|s)(即动作策略)，critic模块分别输入当前状态是s
t
和下一个状态s
t 1
，结合在s
t
采取a
t
∈π
θ
(a|s)得到的奖励r
t
，可以得到对于当前状态为s
t
时选择行为a
t
优势也即动作值函数q(s
t
，a
t
)，该函数可以通过贝尔曼方程迭代获得，即
[0139]
q(s
t
，a
t
)＝r
t
γv(s
t 1
)
[0140]
其中，γ∈(0，1)表示折扣因子，v(s
t 1
)为下一时刻的状态值函数，表示从状态s
t 1
出发，按照策略π采取行为得到的期望回报；其中，γ∈(0，1)表示折扣因子，v(s
t 1
)为下一时刻的状态值函数，表示从状态s
t 1
出发，按照策略π采取行为得到的期望回报；
[0141]
进而可以得到ctitic模块输出的优势函数也即时序差分误差：
[0142]
δ
t
＝r
t
γv(s
t 1
)
‑
v(s
t
)
[0143]
actor的更新优化的方式一般可表述为：
[0144][0145]
其中，θ为actor模块所代表的神经网络参数，α为策略网络的更新率。通过迭代方式可以基于critic的神经网络对动作来评分好坏，学习出能获得更高评分的策略，即最大化最终奖励；
[0146]
critic模块中神经网络的更新方式一般可表述为：
[0147]
ψ
←
ψ βδ
t
[0148]
ψ为critic模块所代表的神经网络的参数，β为critic网络的更新率；
[0149]
为了增强agv的探索能力，这里引入了策略熵，也即是在基于原有的actor
‑
critic框架进行策略学习时，除了考虑奖励的最大化外，也需要最大化策略熵，以保持策略探索的全面性。
[0150]
重新定义软状态值函数为：
[0151][0152]
其中，表示关于动作概率π的期望，即代表策略的熵，λ为策略熵权重，新额外定义的软q网络，神经网络参数为θ；
[0153]
重新定义的软q动作值函数的意义为：
[0154][0155]
因此，critic模块中软状态值网络的误差函数(软状态值函数的目标函数)：
[0156][0157]
其中，期望值的求取方式，可以为用采样的样本集合d的无偏估计进行近似，进而得出梯度信息为：
[0158][0159]
而软q动作值函数的目标函数则定义为：
[0160][0161]
其中：为target网络中的状态值函数，
其中，target网络与原网络具有同样的网络结构，唯一的区别是target的网络参数先固定为原网络数个更新步前的参数，以更新步长τ进行逐步更新。
[0162]
进而求得梯度信息：
[0163][0164]
而在优化策略网络的过程，由于actor模块输出的实际动作为概率分布的采样，无法进行直接的求导，可利用了策略重参数化技巧来对动作进行采样。在这里，策略表示为一个带噪声的神经网络：
[0165]
a
t
＝f
φ
(ε
t
；s
t
)
[0166]
其中，ε
t
～n(0，1)正态分布的独立噪声向量。在critic模块里q网络的设计中，充分考虑了策略熵的最大化，我们策略更新的时候尽可能的与q网络的输出分布相似，经过策略重参数化转换，策略更新的损失函数可重新表示为：
[0167][0168]
进而求得策略网络梯度为：
[0169][0170]
通过定义的梯度信息即可更新对应网络参数，更新方式可以表示为：
[0171][0172][0173][0174][0175]
总体上，基于状态空间、连续性动作空间及多重奖励机制，智能体与环境交互，以最大化奖励及最大化策略熵为目标，进行策略学习训练的过程为：
[0176]
s41.设置并初始化迭代回合数t、状态特征维度n、动作集合a、网络权重更新步长ρ，β、衰减因子γ、探索率∈，以及actor模块的神经网络结构、critic模块的神经网络结构，随机初始化所有的状态和动作对应的价值q；
[0177]
s42.设置并初始化actor模块的神经网络参数φ，critic模块中的v网络参数ψ，critic模块中target_v网络参数critic模块中的q网络参数θ，target_q值critic模块神经网络参数
[0178]
s43.在actor模块中使用状态s作为输入，输出动作a，a为一个动作的概率分布，基于agv动力学模型的前向差分法，输出新的状态s
′
，依据奖励机制获得奖励r，完成一次交互；在本实施例中，动作a可以但不限定于采用高斯分布作为输出策略分布，对于二维动作的情况a＝μ
a
，μ
w
，σ
a
，σ
a
，其中μ和σ分别代表对于高斯分布的均值和方差，agv具体采取的动作在对于的高斯分布中采样获得。
[0179]
s44.将智能体与环境交互获得的轨迹存储于回忆池；
[0180]
智能体与环境交互获得的轨迹表示为：
[0181]
s0，a(s0)，r(s0，a(s0))，s1，a(s1)，r(s1，a(s1))；......；
[0182]
s
j
，a(s
j
)，r(s
j
，a(s
j
))，......；s
n
‑1，a(s
n
‑1)，r(s
n
‑1，a(s
n
‑1))，s
n
[0183]
其中，s
n
代表的是交互结束时的状态；s
j
表示交互过程中第j个状态，a(s
j
)表示第j个状态采取的动作，对应的r(s
j
，a(s
j
))代表第i个状态采取动作a(s
i
)时从环境获得的反馈奖励。
[0184]
s45.判断智能体与环境交互获得的轨迹数是否大于n，若是，执行步骤s46，进行策略学习；否则，返回步骤s43；
[0185]
s46.从回忆池中抽取m组轨迹作为训练样本，其中，m≤n，actor模块使用状态s作为输入，得到动作概率logπ(a
t
|s
t
)，critic模块中分别使用s
t
，s
t 1
，logπ(a
t
|s
t
)作为输入，得到评价v值输出v(s
t
)，评价target_v值输出评价q值输出q(s
t
)，评价target_q值输出
[0186]
s47.考虑最大化策略熵，结合前述梯度计算方法，分别计算critic模块中v网络的梯度、critic模块中q网络的梯度、actor模块中网络梯度以及critic模块中的target_v网络梯度，并根据梯度信息分别更新v值critic模块的神经网络参数、q值critic模块的神经网络参数θ、actor模块的神经网络参数φ及critic模块中target_v网络参数从而最大化奖励；
[0187]
s48.判断更新迭代回合数是否不超过t，若是，返回步骤s46，否则，训练收敛，结束。
[0188]
s5.当训练收敛时，得到智能体agv的每步决策动作，进而得到最优的agv规划路径。
[0189]
在策略学习训练的过程中，
[0190]
agv到达指定目的地，即当前状态作为交互的终端状态时，满足：
[0191]
(x(t)
‑
x
goal
)2 (y(t)
‑
y
goal
)2≤(threshold)2[0192]
其中，(x
goal
，y
goal
)表示随机目的地的位置坐标，threshold表示终端状态允许最大位置误差阈值；
[0193]
路径约束根据已知障碍物位置设计为：
[0194]
(x(t)
‑
z_x
i
)2 (y(t)
‑
z_y
i
)2≥(r d)2，i＝1，...，n
[0195]
其中，(z_x
i
，z_y
i
)表示第i个障碍物配置的定位传感器提供的坐标位置，d表示与定位传感器绑定的障碍物最小外接圆半径信息。
[0196]
实施例2
[0197]
如图3所示，本技术还提出一种基于强化学习的agv路径规划系统，所述系统用于实现所述的agv路径规划方法，参见图3，所述系统包括：
[0198]
agv动力学构建模块，用于构建agv动力学模型，设置前向差分更新步长，基于前向差分更新步长及agv动力学模型确定agv的基本状态更新表达式；
[0199]
轨迹规划空间设计模块，以agv为智能体，agv行驶所感知到的环境信息为状态信息，考虑目的地位置、障碍物位置设计状态空间，以及设计连续性动作空间、多重奖励机制；
[0200]
马尔科夫过程建模模块，根据agv动力学模型及agv的基本状态更新表达式，结合状态空间、连续性动作空间及多重奖励机制，完成agv路径规划的马尔科夫过程建模；
[0201]
策略学习训练模块，引入actor
‑
critic框架，基于状态空间、连续性动作空间及多重奖励机制，智能体与环境交互，以最大化奖励及最大化策略熵为目标，进行策略学习训
练，使得智能体在训练的过程中朝着最优的奖励方向运动；
[0202]
agv规划路径模块，当训练收敛时，得到智能体agv的每步决策动作，进而得到最优的agv规划路径。
[0203]
本技术提出的基于强化学习的agv路径规划系统在保证鲁棒性及对环境依赖比较少的前提下，最大限度利用获取到的状态信息，实现即时的场景行走路径规划以及避障行驶。
[0204]
显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种局部遮蔽条件下光伏阵列最大功率点跟踪方法与流程

一种基于强化学习的AGV路径规划方法及系统与流程

相关文献

最热文献