一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于最大熵的演员-评论家框架的AUV运动规划方法与流程

2021-10-24 07:13:00 来源:中国专利 TAG:评论家 规划 运动 框架 演员

技术特征:
1.基于最大熵的演员

评论家框架的auv运动规划方法,其特征在于,包括以下步骤:s1:考虑系统的动力学约束,构建auv操纵性模型;s2:将运动规划问题公式化,确定auv的状态空间与动作空间;s3:基于mdp决策过程,提出基于最大熵的强化学习算法,构建神经网络结构,搭建auv运动规划系统;s4:设置一个综合的奖励函数来评估auv决策的优劣,指导auv完成运动规划任务的目标:在躲避障碍物到达目标点的同时,航行路程及所用时间达到最优;s5:通过自交互训练获得最优策略,保存训练好的神经网络参数,将最优策略对应的具体指令传递给下位机,最终实现感知

规划

控制的运动规划过程。2.根据权利要求1所述的基于最大熵的演员

评论家框架的auv运动规划方法,其特征在于,所述s1的模型为:在于,所述s1的模型为:其中,r(ψ)是auv水平运动的三自由度坐标转换矩阵c(v)代表科氏向心力矩阵,d(v)为auv所受的水动力阻力矩阵,τ表示控制输入;欠驱动类型的auv,该系统输入数目小于运动自由度数,只需要输出纵向推力与偏航力矩,即:τ=[τ
u 0 τ
r
]。3.根据权利要求1所述的基于最大熵的演员

评论家框架的auv运动规划方法,其特征在于,所述s3包括以下子步骤:s31:基于马尔可夫决策过程来搭建auv运动规划系统;s32:基于最大熵的演员

评论家即sac的框架,提出本发明中强化学习的训练目标;s33:构建本发明中系统的神经网络结构。4.根据权利要求1所述的基于最大熵的演员

评论家框架的auv运动规划方法,其特征在于,所述s5包括以下子步骤:s51:基于以上auv模型及提出的sac算法,搭建仿真平台;s52:在训练达到收敛后,保存训练好的神经网络参数,将具体的控制指令传递给下位机来指导auv的实际航行过程。

技术总结
本发明公开了基于最大熵的演员


技术研发人员:孙玉山 于鑫 张国成 罗孝坤 薛源 张红星 柴璞鑫
受保护的技术使用者:哈尔滨工程大学
技术研发日:2021.08.13
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜