一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的移动机器人路径规划方法与流程

2022-02-19 23:31:35 来源:中国专利 TAG:


1.本发明涉及一种移动机器人路径规划方法,特别是涉及一种基于深度强化学习的移动机器人路径规划方法。


背景技术:

2.移动机器人路径规划是当前移动机器人研究的热点方向,随着移动机器人技术的快速发展和应用场景逐渐复杂化,对于移动机器人来说,在复杂未知的环境中规划路径是一个非常重要的问题。传统算法有a

star,蚁群算法,遗传算法等,谷歌的deepmind公司提出(deep reinforcement learning,drl)算法,将深度学习与强化学习相结合,使得深度强化学习在路径规划中显示出了巨大的潜力。深度强化学习使用神经网络模型逼近值函数,回放经验池用于打破样本顺序,以解决从强化学习中获得的经验与时序关联的问题,它提高了深度神经网络稳定性并易收敛。
3.在稀疏奖励环境中,奖励函数必须设计得很好。在许多复杂的情况下,只有在满足特定条件的情况下才会给予奖励,因此稀疏奖励带来的负面影响,难以解决。


技术实现要素:

4.本发明的目的在于提供一种基于深度强化学习的移动机器人路径规划方法,由于稀疏奖励是强化学习应用在移动机器人路径规划中比较棘手的问题,本发明不需要复杂的奖励函数设计,同时也可以更加充分的利用样本,增加奖励,使算法迭代更快,更容易收敛,解决了稀疏奖励带来的困难。
5.本发明的目的是通过以下技术方案实现的:一种基于深度强化学习的移动机器人路径规划方法,所述方法包括建立神经网络模型以及训练流程;建立神经网络模型流程:初始化回放经验池,容量为,随机初始化估计网络参数,初始化目标网络参,目标选择策略;for episode = 1, m do;采集目标,并初始化状态 for t = 0, t

1 do;采用ucb策略选择动作;移动机器人执行动作,得到下一个状态end for;for t = 0, t

1 do;将数据样本存储到回放经验池中,从当前episode选取附加目标存储到回放经验池;end for;for t = 1, n do
从回放经验池中采样mini

batch样本数据;执行梯度下降,更新网络参数每隔步,更新目标网络权值;end for;end for;建立训练流程:此函数不仅需要状态、动作,还需要目标;因此函数被定义为:(5);奖励函数依赖于,即;在每一个回合中采样一个目标,并在整个回合中保持固定,在奖励稀疏的环境中采用相对简单的二分奖励函数,如果未实现目标奖励为

1,实现目标奖励为0;奖励函数如下:(6);把相对应轨迹的最后时刻的状态作为新目标,即,样本附加存放对应的目标变为,加上原目标产生的轨迹,即经验池里面存放2倍于真实采样到的样本;那么目标函数可以表示为:(7);drl经典探索算法有策略,玻尔兹曼策略,汤普森抽样;策略虽然每个动作都有被选择的概率,但是无引导性,这并不能有助于移动机器人很大概率的发现最优动作;本发明采用与置信区间上界(upper

confidence

bound, ucb)采用置信水平来实现对探索与利用之前的平衡,置信区间越大,方差越大,采样的不确定性就越大;如下公式(8)所示:(8)所述的一种基于深度强化学习的移动机器人路径规划方法,上述其为经验数据, 代表回放经验池的回放记忆单元。
6.所述的一种基于深度强化学习的移动机器人路径规划方法,所述公式(8)中,
,表示目前该动作被选择的次数,为权值;开始训练时,所有动作均未执行,会趋于无穷大,移动机器人将会执行所有动作,随着训练时间的增长,当前动作被执行的次数很低时,值变大,不确定性越高,对应动作被执行的概率越大;反之亦然;随着训练次数的增加,增长速度会越来越慢,增长速度基本保持不变,值逐渐下降,每个动作的置信区间都变得收敛。
7.本发明的优点与效果是:本发明提出的稀疏环境下基于深度强化学习的移动机器人路径规划方法,采用置信水平来实现对探索与利用之间的平衡;通过后见回放经验机制的使用,解决在稀疏奖励环境下难以收敛的问题,提升了样本利用率,加快收敛速度,一定程度上避免了强化学习在路径规划中需要设计复杂奖励函数。
附图说明
8.图1为本发明神经网络模型图;图2为本发明训练流程图。
具体实施方式
9.下面结合附图所示实施例对本发明进行详细说明。
10.本发明通过置信区间上界探索策略选择执行的动作,采用后见经验回放机制,把已到达的状态作为目标,移动机器人可以得到更多积极的奖励,这样可以充分利用样本,提升探索效率。
11.本发明提出的深度卷积神经网络模型包含三个卷积层和两个全连接层,通过端对端的方法训练,以原始rgb图像作为输入,经处理最后得到上、下、左、右四个动作的q值。
12.如图1所示神经网络模型,具体流程如下。
13.初始化回放经验池,容量为,随机初始化估计网络参数,初始化目标网络参,目标选择策略;for episode = 1, m do;采集目标,并初始化状态 for t = 0, t

1 do;采用ucb策略选择动作;移动机器人执行动作,得到下一个状态end for;for t = 0, t

1 do;将数据样本存储到回放经验池中,从当前episode选取附加目标;
存储到回放经验池;end for;for t = 1, n do从回放经验池中采样mini

batch样本数据;执行梯度下降,更新网络参数每隔步,更新目标网络权值end forend for;训练流程图如2所示。
14.此时函数不仅需要状态、动作,还需要目标。因此函数被定义为:(5)奖励函数依赖于,即。在每一个回合中采样一个目标,并在整个回合中保持固定,在奖励稀疏的环境中采用相对简单的二分奖励函数,如果未实现目标奖励为

1,实现目标奖励为0。奖励函数如下:(6)把相对应轨迹的最后时刻的状态作为新目标,即,样本附加存放对应的目标变为,加上原目标产生的轨迹,即经验池里面存放2倍于真实采样到的样本。那么目标函数可以表示为:(7)其中为经验数据, 代表回放经验池的回放记忆单元。
15.drl经典探索算法有策略,玻尔兹曼策略,汤普森抽样。策略虽然每个动作都有被选择的概率,但是无引导性,这并不能有助于移动机器人很大概率的发现最优动作。本文采用与置信区间上界(upper

confidence

bound, ucb)采用置信水平来实现对探索与利用之前的平衡,置信区间越大,方差越大,采样的不确定性就越大。如公式(8)所示:(8)其中,,表示目前该动作被选择的次数,为权值。开始训练时,所有动作均未执行,会趋于无穷大,移动机器人将会执行所有动作,随着训
练时间的增长,当前动作被执行的次数很低时,值变大,不确定性越高,对应动作被执行的概率越大;反之亦然。随着训练次数的增加。增长速度会越来越慢,增长速度基本保持不变,值逐渐下降,每个动作的置信区间都变得收敛。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献