一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于改进DDPG算法的高效路径规划方法、装置及介质

2022-07-30 22:34:34 来源:中国专利 TAG:

技术特征:
1.一种基于改进ddpg算法的高效路径规划方法,其特征在于,包括:构造并初始化改进的ddpg神经网络;其中,改进的ddpg神经网络的actor当前网络和actor目标网络结构相同,均包括用于输入状态矩阵的第一输入层,第一输入层连接第一lstm网络,第一lstm网络经batch normalization连接第一全连接层,第一全连接层经batch normalization连接第二全连接层,第二全连接层经batch normalization连接输出动作的第一输出层,第一输出层输出动作添加高斯和ou混合噪声;改进的ddpg神经网络的critic当前网络和critic目标网络结构相同,均包括输入状态矩阵的第二输入层和输入机器人动作的第三输入层,第二输入层连接第二lstm网络,第三输入层连接第四全连接层,第二lstm网络和第四全连接层均连接第五全连接层,第五全连接层连接第二输出层;改进的ddpg神经网络的经验池存储包括状态矩阵、动作、奖励和下一时刻的状态矩阵的经验数据;依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵;将当前的状态矩阵输入到改进的ddpg神经网络获取规划动作,执行规划动作进而获取下一时刻的状态矩阵并计算规划动作的对应的奖励,形成经验数据并存储于经验池;经验池的经验数据达到预设量时,从经验池中随机采样经验数据作为样本数据,利用样本数据对改进的ddpg神经网络进行训练获取路径规划模型,通过路径规划模型规划路线。2.如权利要求1所述的基于改进ddpg算法的高效路径规划方法,其特征在于,第一全连接层、第二全连接层、第三全连接层、第四全连接层和第五全连接层均采用relu函数作为激活函数。3.如权利要求1所述的基于改进ddpg算法的高效路径规划方法,其特征在于,按如下公式为第一输出层输出动作添加高斯和ou混合噪声:其中,θ为随机过程的学习率,a
t
为t时刻的动作,为动作采样数据的平均值,δ为ou随机权值,w
t
为维纳过程,var为高斯方差,var值随着训练次数的增加,对环境的适应而降低,var值更新的公式为var=var*α,α为小于1的衰减系数。4.如权利要求1所述的基于改进ddpg算法的高效路径规划方法,其特征在于,经验数据中奖励的计算方法如下:机器人到达目标点时奖励为预设的第一分值,机器人碰到障碍物时奖励为预设的第二分值,机器人未达目标点且未碰障碍物奖励为机器人到起点距离与机器人到目标点距离之差,其中预设的第一分值为正常数,预设的第二分值为负常数。5.如权利要求1所述的基于改进ddpg算法的高效路径规划方法,其特征在于,依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵中采集的环境信息包括:通过激光传感器采集机器人在相对正前方-90
°
至90
°
范围的十个方向上与障碍物之间的十个距离,其中十个方向包括相对正前方的
±
10
°

±
30
°

±
50
°

±
70
°

±
90
°

6.如权利要求5所述的基于改进ddpg算法的高效路径规划方法,其特征在于,机器人与障碍物距离小于激光传感器最小探测距离时,判断机器人与障碍物碰撞。7.如权利要求1所述的基于改进ddpg算法的高效路径规划方法,其特征在于,依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵中归一化处理的机器人与目标点的相对位置关系包括:归一化处理的机器人与目标点的相对距离、相对角度、归一化处理的机器人偏航角和归一化处理的机器人与目标点的差角;其中,机器人与目标点的相对距离除以环境地图的对角线长度获取归一化处理的相对距离,机器人与目标点的相对角度除以360获取归一化处理的相对角度,机器人的偏航角除以360获取归一化处理的偏航角,机器人与目标点的差角除以180获取归一化处理的差角,机器人与目标点的差角等于机器人与目标点的相对角度减去机器人偏航角。8.如权利要求1所述的基于改进ddpg算法的高效路径规划方法,其特征在于,依次整合归一化处理的机器人与目标点的相对位置关系、机器人上一规划动作和采集的环境信息得到机器人当前的状态矩阵中机器人上一规划动作包括机器人上一时刻的线速度、机器人上一时刻的角速度。9.一种执行基于改进ddpg算法的高效路径规划方法的装置,其特征在于,包括:处理单元,存储单元,状态采集单元,动作执行单元,所述处理单元、所述存储单元、所述状态采集单元和动作执行单元通过总线连接,所述存储单元存储至少一条指令,所述处理单元读取并执行所述指令实现如权利要求1-8任一所述的基于改进ddpg算法的高效路径规划方法。10.一种实现基于改进ddpg算法的高效路径规划方法的存储介质,其特征在于,所述实现基于改进ddpg算法的高效路径规划方法的存储介质存储至少一条指令,读取并执行所述指令实现如权利要求1-8任一所述的基于改进ddpg算法的高效路径规划方法。

技术总结
本发明涉及一种基于改进DDPG算法的高效路径规划方法、装置及介质。本发明在DDPG神经网络Actor中引入第一LSTM网络,在Critic中引入第二LSTM网络,利用LSTM网络具有“记忆”的特点,综合机器人的以往状态矩阵和当前状态矩阵共同来决定机器人的规划动作,保证机器人前后动作之间的相关性,并在Actor中增加BatchNormalization,提高算法的稳定性和收敛速度。优化设计奖励的计算方式,引导机器人更快地朝目标点方向运动。采用不同归一化方法对机器人与目标点的相对位置关系的各个参数进行归一化处理,提高学习效率。改进的DDPG神经网络在输出机器人下一步动作时,添加高斯和OU混合噪声,进一步提高机器人的探索性,使机器人能够以最优路径快速到达目标点。人能够以最优路径快速到达目标点。人能够以最优路径快速到达目标点。


技术研发人员:王朋 巩慧 倪翠
受保护的技术使用者:山东交通学院
技术研发日:2022.03.29
技术公布日:2022/7/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献