一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的直升机系统控制方法、系统、装置及介质与流程

2022-02-22 22:49:07 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的直升机系统控制方法,其特征在于,包括以下步骤:构建直升机系统的非线性状态空间方程;构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制。2.根据权利要求1所述的一种基于强化学习的直升机系统控制方法,其特征在于,所述构建直升机系统的非线性状态空间方程这一步骤,其具体包括:根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下:根据拉格朗日力学模型建立直升机系统的非线性动力学方程如下:其中,θ表示俯仰角,ψ表示偏航角,j
p
表示俯仰运动的转动惯量,j
y
表示偏航运动的转动惯量,d
p
表示俯仰运动的摩擦系数,d
y
表示偏航运动的摩擦系数,k
pp
表示俯仰螺旋桨中作用于俯仰轴上的扭矩推力增益,k
py
表示偏航螺旋桨中作用于俯仰轴上的扭矩推力增益,k
yp
表示俯仰螺旋桨中作用于偏航轴上的扭矩推力增益,k
yy
表示偏航螺旋桨中作用于偏航轴上的扭矩推力增益,m表示整机质量,l
cm
表示质心到固定坐标系原点的距离;对所述非线性动力学方程进行简化,得到直升机系统的非线性状态空间方程如下:对所述非线性动力学方程进行简化,得到直升机系统的非线性状态空间方程如下:其中,x1=[θ,ψ]
t
,f(x1,x2)表示非线性未知函数,)表示非线性未知函数,g表示重力加速度,u=[v
p
,v
y
]
t
,v
p
表示控制俯仰运动的电机电压输入,v
y
表示控制偏航运动的电机电压输入。3.根据权利要求2所述的一种基于强化学习的直升机系统控制方法,其特征在于,构建直升机系统的评价神经网络这一步骤,其具体包括:确定长期成本函数如下:其中,ζ表示未来成本折扣系数且ζ>0,i(t)表示瞬时成本函数;确定瞬时成本函数如下:i(t)=(x-x
d
)
t
q(x-x
d
) τ
t

其中,x表示系统的状态量,x=[x1,x2]
t
,x
d
表示期望跟踪轨迹,q和r表示正定权重矩阵,τ表示系统的输入;构建用于近似长期成本函数的评价神经网络如下:其中,表示对长期成本函数j(t)的近似,表示评价神经网络的估计权重,h
c
(z
c
)表示输入为跟踪误差z
c
的高斯径向基函数,z
c
=x-x
d
;确定所述评价神经网络的权重更新率如下:其中,表示评价神经网络的权重更新率,表示评价神经网络的权重,e
c
表示评价神经网络的近似误差平方项,l
c
表示评价神经网络的学习率。4.根据权利要求3所述的一种基于强化学习的直升机系统控制方法,其特征在于,构建直升机系统的评价神经网络这一步骤,其具体包括:构建用于近似非线性未知函数的执行神经网络如下:其中,表示对非线性未知函数f(x1,x2)的近似,表示执行神经网络的估计权重,h
a
(z
a
)表示网络输入向量z
a
的高斯径向基函数,确定所述执行神经网络的误差如下:其中,δ
a
表示近似非线性未知函数的近似误差,k
j
表示评价神经网络对执行神经网络的影响程度参数,和j
d
(t)分别表示长期成本函数的估计值与理想值;确定所述执行神经网络的权重更新率如下:其中,表示执行神经网络的权重更新率,表示执行神经网络的权重,e
a
表示执行神经网络的近似误差平方项,l
a
表示执行神经网络的学习率。5.根据权利要求4所述的一种基于强化学习的直升机系统控制方法,其特征在于,所述通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新这一步骤,其具体为:根据所述评价神经网络的权重更新率和所述执行神经网络的权重更新率,通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新。6.根据权利要求4所述的一种基于强化学习的直升机系统控制方法,其特征在于,所述控制律的函数表示如下:其中,u(t)表示直升机系统的控制向量,inv(g)表示对函数g(x1)求逆,z1和z2表示跟踪误差,z1=x
1-x
d
,z2=x
2-α1,α1表示反步法辅助变量,k2为预设参数,表示α1的导数。
7.根据权利要求1至6中任一项所述的一种基于强化学习的直升机系统控制方法,其特征在于,所述根据所述控制律对直升机系统进行控制这一步骤之前,还包括以下步骤:根据所述非线性状态空间方程确定lyapunov函数,并根据所述lyapunov函数对直升机系统进行稳定性分析。8.一种基于强化学习的直升机系统控制系统,其特征在于,包括:非线性状态空间方程构建模块,用于构建直升机系统的非线性状态空间方程;神经网络构建模块,用于构建直升机系统的评价神经网络和执行神经网络,所述评价神经网络用于根据直升机系统的状态计算成本函数作为评价得分,所述执行神经网络用于根据所述评价得分执行相应的操作;模型训练模块,用于通过强化学习对所述评价神经网络和所述执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;控制律确定模块,用于根据训练好的评价神经网络和执行神经网络以及所述非线性状态空间方程确定直升机系统的控制律,进而根据所述控制律对直升机系统进行控制。9.一种基于强化学习的直升机系统控制装置,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至7中任一项所述的一种基于强化学习的直升机系统控制方法。10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1至7中任一项所述的一种基于强化学习的直升机系统控制方法。

技术总结
本发明公开了一种基于强化学习的直升机系统控制方法、系统、装置及介质,方法包括:构建直升机系统的非线性状态空间方程;构建直升机系统的评价神经网络和执行神经网络;通过强化学习对评价神经网络和执行神经网络进行权重更新,得到训练好的评价神经网络和执行神经网络;根据训练好的评价神经网络和执行神经网络以及非线性状态空间方程确定直升机系统的控制律,进而根据控制律对直升机系统进行控制。本发明可以对直升机系统的非线性未知因素进行近似表示并不断学习优化,提高了对系统内部耦合性、建模不准确等造成的影响的抑制,从而减小了直升机的跟踪误差,提高了直升机的控制精度,可广泛应用于直升机控制技术领域。可广泛应用于直升机控制技术领域。可广泛应用于直升机控制技术领域。


技术研发人员:赵志甲 何伟添 邹涛 李致富 马鸽
受保护的技术使用者:广州大学
技术研发日:2021.10.26
技术公布日:2022/2/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献