一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的自适应卫星姿轨控制方法

2023-03-20 18:20:13 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的自适应卫星姿轨控制方法,其特征在于,包括如下步骤:步骤1:针对一组由实际卫星组成的编队,采用虚拟领导卫星作为整个编队的基准;建立虚拟领导卫星的轨道动力学模型,并得到各实际卫星与虚拟领导卫星间的相对位置动态关系,结合各实际卫星的姿态运动方程,得到基于修正罗德里格斯参数描述的各实际卫星姿态动力学的拉格朗日表示;步骤2:针对实际卫星编队,得到各实际卫星姿轨耦合的六自由度动态模型;步骤3:进行姿态控制器设计,包括针对实际卫星编队,根据实际卫星姿态动力学控制的模型,结合实际卫星参考信号的动态描述得到实际卫星的姿态子系统,并针对姿态子系统定义其价值函数,通过设计异策略强化学习最优姿态控制算法,得到最优姿态控制策略;步骤4:进行相对位置控制器的设计,包括针对实际卫星编队,根据其与虚拟领导卫星间的相对位置动态,结合各实际卫星的相对位置参考动态,得到各实际卫星的相对位置子系统;并针对相对位置子系统定义其价值函数,通过设计异策略强化学习相对位置控制算法,得到最优相对位置控制策略。2.根据权利要求1所述一种基于强化学习的自适应卫星姿轨控制方法,其特征在于,所述步骤1具体为:1.1 建立虚拟领导卫星的地心惯性坐标系和各实际卫星的本体坐标系;并在地心惯性坐标系中建立由位置矢量和引力加速度矢量组成的虚拟领导卫星轨道动力学模型;1.2建立由位置矢量、引力加速矢量和位置控制力矢量组成的各实际卫星的轨道动力学模型;1.3根据各实际卫星的位置矢量和虚拟领导卫星的位置矢量,得到各实际卫星与虚拟领导卫星之间的相对位置以及相对位置动态;1.4将步骤1.3得到的相对位置动态投影至各实际卫星的本体坐标系;结合包含角速度、惯性积和控制力矩的实际卫星姿态运动方程,得到基于修正罗德里格斯参数描述的实际卫星姿态动力学的拉格朗日表示。3.根据权利要求2所述一种基于强化学习的自适应卫星姿轨控制方法,其特征在于,所述步骤2中,每颗实际卫星均包含六个推力器作为位置控制执行器,在本体坐标系中将各实际卫星与虚拟领导卫星之间的相对位置动态表示为各实际卫星姿轨耦合的六自由度动态模型。4.根据权利要求3所述一种基于强化学习的自适应卫星姿轨控制方法,其特征在于,所述步骤3中具体为:3.1将各实际卫星的姿态状态表达为输出和控制力矩输入的函数;3.2结合卫星参考信号的动态描述,得到各实际卫星的姿态子系统,3.3针对卫星姿态子系统定义价值函数;3.4结合各实际卫星的姿态子系统价值函数得到哈密顿函数,并通过异策略强化学习最优姿态控制算法得到最优姿态控制策略。5.根据权利要求4所述一种基于强化学习的自适应卫星姿轨控制方法,其特征在于,所述步骤4中具体为,4.1针对各实际卫星,将其与虚拟领导卫星间的相对位置动态表达为相对位置状态量、输出量和控制加速度输入的函数,
4.2结合各实际卫星的相对位置参考动态,得到各实际卫星的相对位置子系统,4.3针对相对位置子系统定义价值函数;4.4结合各实际卫星的相对位置子系统价值函数得到贝尔曼方程,并通过异策略强化学习相对位置控制算法得到最优相对位置控制策略。

技术总结
本发明涉及卫星控制领域,具体为一种基于强化学习的自适应卫星姿轨控制方法,针对实际卫星编队,以虚拟领导卫星作为基准建立虚拟领导卫星轨道动力学模型,结合姿态运动方程得到基于MRPs描述的卫星姿态动力学拉格朗日表示;得到各卫星姿轨耦合的六自由度动态模型;随后得到卫星姿态动力学控制模型;结合卫星参考信号的动态描述后,定义卫星子系统的价值函数并得到哈密顿函数,通过设计异策略强化学习最优姿态控制算法,得到最优控制策略,并按照相同的方法得到最优控制策略。本方法采用神经网络对直接对非线性模型的最优控制策略进行估计,对卫星部分参数未知情况下具有良好的自适应性,对每个推力器设计出了最优控制。对每个推力器设计出了最优控制。对每个推力器设计出了最优控制。


技术研发人员:刘昊 吕金虎 钟森 高庆 刘德元 王田
受保护的技术使用者:中国科学院数学与系统科学研究院
技术研发日:2023.02.13
技术公布日:2023/3/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献