一种适应多种构型飞行器的强化学习自抗扰姿态控制方法与流程

2022-06-05 03:34:31 来源：中国专利 TAG：

技术特征：
1.一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述方法包括如下步骤：s1：构建飞行器姿态动力学模型，采用输入-输出线性化方法得到飞行器姿态控制模型；s2：对于飞行器俯仰通道、偏航通道以及滚转通道三个通道，分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出，设计反馈控制律实现基本的姿态控制功能；s3：构建强化学习环境，初始化智能体，以第一类构型的飞行器为被控对象，利用soft actor-critic算法对智能体进行强化学习，使智能体可根据不同飞行环境，对s2中反馈控制律参数进行自适应调节；s4：将s3中得到智能体作为初始智能体，以第二类构型的飞行器为被控对象，利用soft actor-critic算法对智能体进行强化学习，使智能体可根据不同飞行环境及构型，对s2中反馈控制律参数进行自适应地调节。2.根据权利要求1所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：s1所述包括如下步骤：s101：基于绕质心转动动力学和姿态运动学，构建飞行器姿态动力学模型如下：式(1)中：为ω关于时间的一阶导数；为飞行器的姿态角矢量；为俯仰角；ψ为偏航角；γ为滚转角；r为姿态转换矩阵，r为姿态转换矩阵，为ω关于时间的一阶导数；ω＝[ω
x
,ω
y
,ω
z
]为飞行器的姿态角速度矢量；ω
x
为滚转角速度；ω
y
为偏航角速度；ω
z
为俯仰角速度；j为飞行器的转动惯量矩阵，且j
xx
为飞行器绕x轴的转动惯量；j
yy
为飞行器绕y轴的转动惯量；j
zz
为飞行器绕z轴的转动惯量；
j
xy
，j
xz
，j
yz
为惯性积；b1为控制力矩系数矩阵；δ＝[δ
x
,δ
y
,δ
z
]表示控制输入量；δ
x
为副翼的偏转角；δ
y
为方向舵的偏转角；δ
z
为升降舵的偏转角；d＝[d
x
,d
y
,d
z
]为气动力矩与干扰力矩项；d
x
为作用在滚转方向的气动力矩与干扰力矩项；d
y
为作用在偏航方向的气动力矩与干扰力矩项；d
z
为作用在俯仰方向的气动力矩与干扰力矩项；s102：采用输入-输出线性化方法，对式(1)进行线性化，可得：式(2)中：为ω关于时间的二阶导数；为r关于时间的一阶导数；s103：定义状态量将式(2)转化为：式(3)中：u为控制量，且u＝rj-1
b1δ＝[u
x
,u
y
,u
z
]；u
x
为滚转方向控制量；u
y
为偏航方向控制量；u
z
为俯仰方向控制量；为x1关于时间的一阶导数；为x2关于时间的一阶导数；h为总扰动，且h1为滚转方向总扰动量；h2为偏航方向总扰动量；h3为俯仰方向总扰动量。3.根据权利要求2所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述s2包括如下步骤：s201：设定飞行器姿态角变化指令：ω
c
＝[ω
cz
,ω
cy
,ω
xz
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)式(4)中：ω
cz
为俯仰通道指令；ω
cy
为偏航通道指令；
ω
xz
为滚转通道指令；定义姿态角跟踪误差为：式(5)中：为俯仰角跟踪误差；为偏航角跟踪误差；x
1γ
为滚转角跟踪误差：s202：设计仰通道的跟踪微分器如下：式(6)中：r＞0为速度因子；h0＞0为滤波因子；a、a0、a1、a2、y、s、fh均为中间量；sign(
·
)为符号函数；v
1z
为跟踪微分器对俯仰通道指令ω
cz
安排过渡过程后的输出值；v
2z
为跟踪微分器对俯仰通道指令对时间一阶导数的估计值；偏航通道以及滚转通道所采用的跟踪微分器与俯仰通道形式相同，因此可得俯仰通道、偏航通道与滚转通道的跟踪微分器输出定义为v1＝[v
1z
,v
1y
,v
1x
],v2＝[v
2z
,v
2y
,v
2x
]；s202设计俯仰通道的扩张状态观测器如下：式(7)中：χ
1z
为对的估计；χ
2z
为对的估计；χ
3z
为对h3的估计；β
01
,β
02
,β
03
均为扩张状态观测器的增益系数；fe
z
，fe
z1
均为中间量；ο＞0为线性段的长度；偏航通道以及滚转通道所采用的扩张状态观测器与俯仰通道形式相同，因此，俯仰通
道、偏航通道与滚转通道的扩张状态观测器输出定义为χ1＝[χ
1z
,χ
1y
,χ
1x
]，χ2＝[χ
2z
,χ
2y
,χ
2x
]，χ3＝[χ
3z
,χ
3y
,χ
3x
]；s203：设计俯仰通道的反馈控制律如下：式(8)中：λ
1z
,λ
2z
均为中间量；k
p
与k
d
为增益系数；为控制输出；偏航通道以及滚转通道所采用的反馈控制律形式与俯仰通道相同。4.根据权利要求3所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述s3包括如下步骤：s301：初始化强化学习交互环境为第一类构型的飞行器，强化俯仰通道学习交互环境，包括：总观测量o
t
、动作量a
t
和奖励函数，具体如下：1)每一个仿真时间步t的观测量为其中：为飞行器高度；ma为飞行器的马赫数：总观测量o
t
＝{o
t-3
,o
t-2
,o
t-1
,o
t
}；2)动作量为a
t
＝{δβ
01
,δβ
02
,δβ
03
,δk
p
,δk
d
}，其中：β
01
,β
02
,β
03
均为扩张状态观测器的增益系数；δk
p
,δk
d
为反馈控制律中增益系数k
p
,k
d
的增量；3)奖励函数定义为r
t
＝r1 r2，其中：r1为与姿态控制误差相关的损失函数，且其中：κ1,κ2为损失函数的增益系数，且κ1,κ2均设定为负数，用来惩罚姿态角和角速率的控制误差；r2为姿态控制误差小于0.1
°
时给予的正奖励，r2≥0；若则r2＝p，若则r2＝0，其中：ε1为理想的控制精度；p为正奖励的设定值；s302：强化学习中的智能体的三个神经网络，包括：actor网络μ
θ
(o
t
)、critic_1网络以及critic_2网络
其中：actor网络的输入为总观测量o
t
，输出为动作量a
t
；critic_1网络以及critic_2网络的输入均为总观测量o
t
和动作量a
t
，输出均为智能体采取动作量a
t
后所得到的累积奖励的期望值；设置critic_1网络以及critic_2网络的结构相同，随机初始化actor网络的参数θ
μ
，critic_1网络的参数令critic_2网络的参数定义强化学习最大次数为n
max
，初始化强化学习次数n
step
＝1；s303：对于每一个仿真时间步t，采集飞行器俯仰角跟踪误差、俯仰角速度、高度及马赫数，计算每一个仿真时间步t的观测量及总观测量o
t
；将总观测量o
t
输入actor网络中，得到动作量a
t
＝{δβ
01
,δβ
02
,δβ
03
,δk
p
,δk
d
}；根据动作量调节扩张状态观测器及反馈控制律的参数，仿真时间向前推进一步，得到下一个时间步的观测量o
t 1
，并根据s301中定义计算奖励函数r
t
；s304：将总观测量o
t
，动作量a
t
，下一个时间步的观测量o
t 1
，奖励函数r
t
存入经验回放池中；待经验回放池中四元组数目达到100000个，转到s305，否则继续进行s303；s305：自经验回放池中取出m个四元组，记为b以及b
i
，其中：1≤i≤m为b中的第i个四元组；将b
i
中下一个时间步的观测量o
t 1
输入actor网络中，得actor网络输出量将下一个时间步的观测量o
t 1
与actor网络输出量分别输入critic_1网络与critic_2网络，得critic_1网络输出量critic_2网络输出量s306：计算其中：y1为actor网络的损失函数，y2为critic_1网络及critic_2网络的损失函数，min(q
1i
,q
2i
)为q
1i
与q
2i
的最小值，为采用actor网络时，输入为o
t 1
，输出为的对数概率；α＞0表示熵探索因子；s307：以最小化为目标，采用梯度下降方法更新critic_1网络的参数以最小化为目标，采用梯度下降方法更新critic_2网络的参数以最大化y1为目标，采用梯度上升方法更新actor网络的参数θ
μ
；s308：强化学习次数n
step
增加一次，若n
step
＜n
max
返回s303，否则结束强化学习，保存actor网络、critic_1网络及critic_2网络进入s4。5.根据权利要求4所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述s4包括如下步骤：s401：载入actor网络、critic_1网络及critic_2网络，作为智能体初始值；s402：初始化强化学习交互环境为第二类构型的飞行器，采用s303-s308 的方式进行soft actor-critic强化学习，训练智能体；
s403：保存s402强化学习所得智能体，上述智能体可同时适应面对称构型与轴对称构型的飞行器，实现在不同飞行环境下对扩张状态观测器中增益系数及反馈控制律中增益系数的调节。

技术总结
一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，属于飞行器控制技术领域。方法如下：得到飞行器姿态控制模型；设计反馈控制律实现基本的姿态控制功能；构建强化学习环境，初始化智能体，以第一类构型的飞行器为被控对象，对智能体进行强化学习，使智能体可根据不同飞行环境，对反馈控制律参数进行自适应调节；将得到智能体作为初始智能体，以第二类构型的飞行器为被控对象，对智能体进行强化学习，使智能体可根据不同飞行环境及构型，对S2中反馈控制律参数进行自适应地调节。本发明减小构型不同下姿态角指令差异对控制系统的影响；消除构型差异对模型的影响，提高控制系统的适应能力；提高控制系统适应构型差异的能力。力。力。

技术研发人员：韦常柱浦甲伦刘哲朱光楠徐世昊
受保护的技术使用者：哈尔滨逐宇航天科技有限责任公司
技术研发日：2022.03.01
技术公布日：2022/6/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于机动检测排序的AGIMM跟踪方法

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法与流程

相关文献

最热文献