基于最大熵的演员-评论家框架的AUV运动规划方法与流程

2021-10-24 07:13:00 来源：中国专利 TAG：评论家规划运动框架演员

技术特征：
1.基于最大熵的演员
‑
评论家框架的auv运动规划方法，其特征在于，包括以下步骤：s1：考虑系统的动力学约束，构建auv操纵性模型；s2：将运动规划问题公式化，确定auv的状态空间与动作空间；s3：基于mdp决策过程，提出基于最大熵的强化学习算法，构建神经网络结构，搭建auv运动规划系统；s4：设置一个综合的奖励函数来评估auv决策的优劣，指导auv完成运动规划任务的目标：在躲避障碍物到达目标点的同时，航行路程及所用时间达到最优；s5：通过自交互训练获得最优策略，保存训练好的神经网络参数，将最优策略对应的具体指令传递给下位机，最终实现感知
‑
规划
‑
控制的运动规划过程。2.根据权利要求1所述的基于最大熵的演员
‑
评论家框架的auv运动规划方法，其特征在于，所述s1的模型为：在于，所述s1的模型为：其中，r(ψ)是auv水平运动的三自由度坐标转换矩阵c(v)代表科氏向心力矩阵，d(v)为auv所受的水动力阻力矩阵，τ表示控制输入；欠驱动类型的auv，该系统输入数目小于运动自由度数，只需要输出纵向推力与偏航力矩，即：τ＝[τ
u 0 τ
r
]。3.根据权利要求1所述的基于最大熵的演员
‑
评论家框架的auv运动规划方法，其特征在于，所述s3包括以下子步骤：s31：基于马尔可夫决策过程来搭建auv运动规划系统；s32：基于最大熵的演员
‑
评论家即sac的框架，提出本发明中强化学习的训练目标；s33：构建本发明中系统的神经网络结构。4.根据权利要求1所述的基于最大熵的演员
‑
评论家框架的auv运动规划方法，其特征在于，所述s5包括以下子步骤：s51：基于以上auv模型及提出的sac算法，搭建仿真平台；s52：在训练达到收敛后，保存训练好的神经网络参数，将具体的控制指令传递给下位机来指导auv的实际航行过程。

技术总结
本发明公开了基于最大熵的演员

技术研发人员：孙玉山于鑫张国成罗孝坤薛源张红星柴璞鑫
受保护的技术使用者：哈尔滨工程大学
技术研发日：2021.08.13
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种变压器油温调控方法及相关装置与流程

基于最大熵的演员-评论家框架的AUV运动规划方法与流程

相关文献

最热文献