一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度确定性策略梯度学习的火星无人机智能控制方法与流程

2022-02-22 19:56:54 来源:中国专利 TAG:


1.本发明属于火星无人机控制技术领域,尤其涉及基于深度确定性策略梯度学习的火星无人机智能控制方法。


背景技术:

2.火星环境与地球环境差别大,火星无人机的控制存在很大的挑战。地球与火星距离遥远,两者之间的通信时间滞后较大,无法进行实时通信,这就要求火星无人机具有自主控制的能力;火星大气层非常稀薄,同时重力小,导致无人机的飞行动力学变化大,要求火星无人机能够在飞行动力学变化后仍然能够稳定飞行;火星地表存在火星风、火星尘暴等,会影响火星无人机的飞行稳定性。因此,火星无人机控制需要具备自主性,并且能够应对飞行动力学和环境的变化。
3.目前常用于地球无人机底层控制中的算法有比例积分微分(proportional integral derivation,pid)控制、自适应控制、滑模变结构控制、动态逆方法、反步控制、鲁棒控制等。其中pid控制应用最广泛,但是其参数需要根据被控对象模型进行人工设计,耗时费力;自适应控制对系统参数的变化具有适应能力,但是需要系统辨识或者参数辨识来逐步逼近系统的特性;滑模变结构控制可以在动态过程中,根据系统当前状态有目的得不断变化,但是仍然需要一个初始的系统模型;动态逆方法和反步控制不依赖对非线性系统的求解,但是对建模误差比较敏感;鲁棒控制能够应对模型参数不确定的情况,但是参数的改变程度要处于控制器的设计范围内。在火星无人机的底层控制研究中,有学者将火星无人机模型简化为单输入单输出的模型,在频域系统中进行控制器的设计;也有学者利用最优控制框架来实现火星扑翼机的悬停控制,但是这些方法对火星无人机模型的依赖性强,控制器的智能化程度低。


技术实现要素:

4.本发明的目的在于克服现有技术缺陷,提出了基于深度确定性策略梯度学习的火星无人机智能控制方法。
5.为了实现上述目的,本发明提出了一种基于深度确定性策略梯度学习的火星无人机智能控制方法,所述方法包括:
6.步骤1)构建一个用于火星无人机底层控制的马尔科夫决策过程模型;
7.步骤2)基于马尔科夫决策过程模型,将火星无人机当前时刻的状态变量输入预先建立和训练好的控制器,得到火星无人机的控制信号;
8.所述控制器基于“策略-评价”框架进行构建,采用强化学习中的深度确定性策略梯度算法进行训练更新。
9.作为上述方法的一种改进,所述步骤1)具体包括:
10.以火星无人机的位置[x,y,z]
t
、速度[u,v,w]
t
、姿态角[ψ,θ,φ]
t
以及姿态角对应的角速度[p,q,r]
t
建立状态变量s:s=[x,y,z,u,v,w,ψ,θ,φ,p,q,r]
t
,其中,ψ为偏航角,θ
为俯仰角,φ为滚转角,t表示转置;
[0011]
以无人机的周期变矩角和桨距角构成动作空间a:其中,和分别表示倾斜盘纵向和横向的周期变距角,β1为上旋翼的桨距角,β2为下旋翼的桨距角;
[0012]
火星无人机的状态转移分布p需要满足马尔科夫性;根据控制目标设置回报函数r;
[0013]
由s、a、p和r构成马尔科夫决策过程模型。
[0014]
作为上述方法的一种改进,所述“策略-评价”框架包括策略网络和评价网络;其中,
[0015]
所述策略网络μ(s|θ
μ
)用于根据当前时刻的状态变量s,输出控制信号,其中,θ
μ
表示策略网络的参数;
[0016]
所述评价网络q(s,a|θq)用于根据当前时刻的状态变量s,评价策略网络输出的控制信号a的好坏,输出状态策略值函数,其中,θq表示评价网络的参数。
[0017]
作为上述方法的一种改进,所述策略网络由包含两个隐藏层的全连接神经网络构成,每个隐藏层有128个神经元,隐藏层的激活函数为relu函数;
[0018]
所述评价网络由包含两个隐藏层的全连接神经网络构成,每个隐藏层有128个神经元、隐藏层的激活函数为relu函数,输入为当前时刻的状态变量s,在第一个隐藏层输入控制指令a。
[0019]
作为上述方法的一种改进,所述方法还包括控制器的训练步骤;具体包括:
[0020]
增加目标策略网络μ'(s


μ'
),用于根据下个时刻状态变量s

,输出下个时刻的控制信号;目标策略网络结构与策略网络μ(s|θ
μ
)相同;目标策略网络的参数θ
μ
'更新慢于策略网络参数θ
μ
的更新;
[0021]
增加目标评价网络q'(s

,a


q'
),用于根据下个时刻的状态变量s

评价目标策略网络输出的下个时刻控制信号a

的好坏,结构与评价网络q(s,a|θq)相同,目标评价网络的参数θ
q'
更新慢于评价网络参数的θq更新;
[0022]
采用深度确定性策略梯度算法对策略网络进行更新,当达到训练要求后,得到训练好的控制模型。
[0023]
作为上述方法的一种改进,所述采用深度确定性策略梯度算法对策略网络进行更新;具体包括:
[0024]
步骤s1)随机初始化评价网络q(s,a|θq)和参数θq,以及策略网络μ(s|θ
μ
)和参数θ
μ
,根据θq和θ
μ
,分别初始化目标评价网络的参数q'和目标策略网络的参数μ':θ
q'

θq,θ
μ'

θ
μ
;初始化经验缓存区,设定总训练步数episode初值为1,上限为m;
[0025]
步骤s2)当总训练步数episode达到m时,转至步骤s6);否则,初始化噪声分布初值n1,初始化观测状态初值s1,设置每个回合仿真步数k的初值为1,上限为k;
[0026]
步骤s3)当仿真步数k达到k时,转至步骤s5),否则,通过最小化代价函数更新评价网络的参数,根据链式法则更新策略网络的参数,根据更新后的策略网络参数和评价网络参数对应更新目标策略网络参数和目标评价网络参数,当火星无人机超出安全范围,转至步骤s4),否则,k加1,转至步骤s3);
[0027]
步骤s4)随机初始化当前状态,k加1,转至步骤s3);
[0028]
步骤s5)episode加1,转至步骤s2);
[0029]
步骤s6)得到训练好的策略网络。
[0030]
作为上述方法的一种改进,所述s3)的通过最小化代价函数更新评价网络的参数,根据链式法则更新策略网络的参数,根据更新后的策略网络参数和评价网络参数对应更新目标策略网络参数和目标评价网络参数;具体包括:
[0031]
根据策略网络第k步的输出μ(sk|θ
μ
)加上探索噪声nk得到控制量ak;其中sk为火星无人机在第k步时的状态变量;
[0032]
将控制量ak作用在火星无人机中,得到相应奖励rk和下一步的状态变量s'k;
[0033]
将当前状态转换对(sk,ak,rk,s'k)存储到经验缓存区中;
[0034]
从经验缓存区中随机采样n
sample
个状态转换对,并对每个样本i计算对应的目标值yi=ri γq'(s'i,μ'(s'i|θ
μ'
)|θ
q'
),其中,γ为折扣因子,i表示采样中的单个样本,i取值为[1,n
sample
]的整数,n
sample
为单次训练随机采取的样本总数,s
′i表示第i个样本中的下个状态;
[0035]
通过最小化代价函数更新评价函数的参数;
[0036]
通过策略梯度更新策略网络,其中,表示微分算子;
[0037]
根据评价网络参数θq和策略网络参数θ
μ
分别更新目标评价网络的参数θ
q'
和目标策略网络的参数θ
μ'

[0038]
θ
q'

τθq (1-τ)θ
q'
,θ
μ'

τθ
μ
(1-τ)θ
μ'
[0039]
其中,τ为系数,取值范围为0≤τ≤1。
[0040]
与现有技术相比,本发明的优势在于:
[0041]
1、本发明首次将机器学习算法应用到火星无人机底层控制中,解决了传统控制器设计依赖被控对象模型的问题,使得火星无人机底层控制系统在被控对象模型未知的情况下,通过自主学习实现了火星无人机六自由度位置姿态控制;
[0042]
2、本发明所提控制器全程不需要人工参与,大幅提升了控制器的智能性,适用于地球火星通信延迟大的环境,同时控制器对无人机自身参数和环境的变化具备自适应能力和鲁棒性,能够适应火星上复杂多变的环境。
附图说明
[0043]
图1(a)是策略网络结构图;
[0044]
图1(b)是评价网络结构图;
[0045]
图2是深度确定性策略梯度学习的火星无人机控制器结构图;
[0046]
图3是仿真实例控制器作用下位置和姿态的响应;
[0047]
图4是仿真实例模型参数改变后控制器作用下位置和姿态的响应;
[0048]
图5是仿真实例标准差为0.001的噪声扰动下位置和姿态的响应;
[0049]
图6仿真实例是标准差为0.001的噪声扰动下基于深度确定性策略梯度的控制器输出的控制信号;
[0050]
图7是仿真实例标准差为0.001的噪声扰动下pid控制器输出的控制信号;
[0051]
图8是仿真实例标准差为0.005的噪声扰动下控制器输出的控制信号。
具体实施方式
[0052]
为了满足火星无人机控制的特点,让火星无人机控制器设计不受飞行动力学建模的限制,并且具备学习能力,能够通过自主学习获得最优控制策略,同时对无人机自身的变化和环境变化具有一定的自适应能力和鲁棒特性,本发明借鉴机器学习算法,提出了基于深度确定性策略梯度学习的火星无人机智能控制算法。
[0053]
下面结合附图对本发明的技术方案进行详细的说明。
[0054]
本方法的技术流程是:首先将无人机的控制问题建模成马尔科夫决策过程,然后采用策略-评价(actor-critic)网络构建控制器的结构,用神经网络搭建控制器,最后利用强化学习中的深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法对控制器进行更新。
[0055]
(1)火星无人机控制的马尔科夫决策过程模型
[0056]
马尔科夫决策过程(markov decision process,mdp)由元组(s,a,p
sa
(
·
),r,γ)描述,其中s为可能的状态空间,a为可能的动作空间,p
sa
(
·
)是在状态s∈s时采取动作a∈a后的状态转移分布,r是回报函数,γ是折扣因子,用来计算累积回报,范围为γ∈[0,1]。马尔科夫决策过程中的状态转移需要满足马尔科夫性:
[0057][0058]
即系统的下一个状态s
t 1
仅与当前状态s
t
有关,与之前的状态无关。
[0059]
将共轴双旋翼火星无人机的控制建模成马尔科夫决策过程,状态空间由火星无人机的位置、速度、姿态角和角速度构成,即s=[x,y,z,u,v,w,ψ,θ,φ,p,q,r]
t
,其中[x,y,z]
t
为无人机的位置,[u,v,w]
t
是无人机的速度,[ψ,θ,φ]
t
是无人机的姿态角,即偏航角、俯仰角、滚转角,[p,q,r]
t
是角速度。由于火星无人机通过对上下旋翼的倾斜盘采取总变矩控制与周期变矩控制来动作,因此,动作空间由周期变矩角和桨距角构成,即其中分别表示倾斜盘纵向和横向的周期变距角,β1是上旋翼的桨距角,β2是下旋翼的桨距角。这样选取的状态和动作满足马尔科夫性。状态转移分布p
sa
(
·
)是未知的,回报函数r需要根据控制目标进行设置。
[0060]
(2)基于策略-评价框架的火星无人机智能控制器的构建
[0061]
火星无人机智能控制器的框架采用策略-评价框架,该框架由两个神经网络构成:策略网络和评价网络,其中策略网络μ(s|θ
μ
)负责根据当前状态输出控制指令,该网络的参数用θ
μ
表示;评价网络q(s,a|θq)用于评价策略网络输出的控制指令的好坏,网络参数为θq,神经网络结构如图1所示。如图1(a)所示,策略网络由包含两个隐藏层的全连接神经网络构成,每个隐藏层含有128个神经元,隐藏层的激活函数为relu函数。该策略网络接收无人机当前的状态,输出四个控制信号。如图1(b)所示,评价网络由包含两个隐藏层的全连接神经网络构成,每个隐藏层含128个神经元、采用relu激活函数,该网络的输入量为无人机当前的状态和四个控制信号,其中无人机状态直接作为输入量输入,而四个控制信号在第一个隐藏层中输入。评价网络的输出层采用线性激活函数,输出q函数的近似值,能够得到策略梯度,用于策略网络的更新。
[0062]
为了降低训练数据之间的关联性、提高训练的稳定性,设立了独立的目标网络,即在之前的基础上再加入两个网络——目标策略网络μ'(s|θ
μ'
)和目标评价网络q'(s,a|θ
q'
),具体结构如图2所示。目标策略网络用于输出下个时刻的控制指令,目标评价网络用于评价目标策略网络输出的控制指令的好坏。目标网络的结构与原始网络的结构相同,目标网络的参数更新略慢于原始网络的参数更新:
[0063]
θ
μ'

τθ
μ
(1-τ)θ
μ'
[0064]
θ
q'

τθq (1-τ)θ
q'
[0065]
(3)基于深度确定性策略梯度算法的火星无人机智能控制器的更新
[0066]
定义目标函数强化学习的目标是最大化该目标函数。根据链式法则可得策略网络的参数更新为:
[0067][0068]
上式即为策略梯度。
[0069]
评价网络的优化方向为最小化代价函数:
[0070][0071]
其中
[0072]yt
=r(s
t
,a
t
) γq'(s
t 1
,μ'(s
t 1

μ'
)|θ
q'
)
[0073]
其中,γ为折扣因子,所以,评价网络参数更新为:
[0074][0075]
强化学习的数据按照顺序采集,数据之间具有很强关联性,不符合神经网络的训练需要数据独立同分布的要求。因此,需要设置经验回放缓存区(replay buffer)来打破数据之间的关联性。经验回放缓存区大小有限,在学习过程中,里面存放算法与环境交互得到的数据元组(s
t
,a
t
,r
t
,s
t 1
),当策略、评价网络参数需要更新时,再利用均匀随机采样方法从中抽取数据,利用抽取的数据进行神经网络的训练更新。
[0076]
由于深度确定性策略梯度算法是确定性策略,不像传统的随机策略一样本身就具有探索性,所以需要额外设置探索策略。因此在策略网络输出的控制力中添加噪声:
[0077][0078]
式中n
t
是噪声,采用自适应参数噪声,该噪声能够根据效果调整采样方差。
[0079]
算法的控制目标是将火星无人机稳定快速控制到目标位置并实现悬停,奖励函数应基于此目标进行设置。为了将火星无人机控制到目标位置上,奖励函数应该包含火星无人机当前位置姿态与目标位置姿态的偏差,且偏差越小,奖励函数越大;为了防止控制量的震荡,将控制量数值大小加入到奖励函数中,作为惩罚项。因此,奖励函数形式设置如下:
[0080][0081]
式中,[xd,yd,zd]
t
为目标点的位置坐标,ψd=0,α1,α2,α为正常数。
[0082]
基于深度确定性策略梯度算法的火星无人机智能控制器的训练学习过程如算法1所示。为了保证控制器的收敛性,评价网络的更新要比策略网络的快;算法中的done为表征无人机位置姿态是否在规定范围内的一个参数,done==true表示无人机位置姿态超出了
安全范围。
[0083]
表1深度确定性策略梯度学习的火星无人机智能控制器更新算法伪代码
[0084][0085]
上述算法中参数的设置如下表所示:
[0086]
表2参数设置
[0087]
[0088][0089]
仿真实例
[0090]
以共轴双旋翼火星无人机为例,在被控对象动力学模型未知的前提下,验证本发明所提算法对无人机的控制效果,同时改变被控对象的参数、添加环境噪声,验证本发明所提算法的鲁棒性,并将该控制器的控制效果与pid控制器进行了对比。
[0091]
(1)定点悬停仿真
[0092]
搭建共轴双旋翼火星无人机仿真环境,根据算法1训练深度确定性策略梯度学习的火星无人机智能控制器,将学习到的控制策略作用于共轴双旋翼火星无人机,并将其控制效果与pid控制器进行对比,结果如图3所示,图中实线为基于深度确定性策略梯度算法的控制器的控制结果图,虚线为pid控制器的效果图。从图中可以看到,在没有推导被控对象动力学模型的前提下,基于深度确定性策略梯度算法的控制器通过“试错”,自主将火星无人机从随机初始位置控制到了目标位置,并实现了悬停。而在设计内外环pid控制器的过程中,需要同时考虑控制精度、调节时间、对噪声及环境变化的鲁棒性等性能,整个调整过程耗时费力,最终获得的pid控制器的控制效果如35中虚线所示。此外,pid控制器虽然也实现了火星无人机的稳定控制,但是调节时间为15s,比基于深度确定性策略梯度算法的控制器的5s调节时间更长,表明基于深度确定性策略梯度算法的控制器自主学习到的控制策略的性能更好。该仿真证明在被控对象模型未知的情况下,基于深度确定性策略梯度算法的控制器能够通过自主学习实现火星无人机的控制,整个过程不需要人工干预,智能化程度高,同时算法自主学习到的控制策略的控制效果优于pid控制器。
[0093]
(2)被控对象参数改变仿真
[0094]
改变共轴双旋翼无人机模型中的质量,由原来的2.1kg变为2.6kg,其他条件不变,验证无人机载重变化情况下控制器的控制效果。在不对控制器进行任何调整的条件下,基于深度确定性策略梯度算法的控制器、pid控制的效果分别如图4中的实线和虚线所示。可以看到,在改变质量参数后,基于深度确定性策略梯度算法的控制器依旧能快速稳定地完成控制目标,控制精度、调节时间等指标没有明显变化,而pid控制中,x、y方向的位置调节时间明显变长,由原来的15s延长到25s左右,高度控制控制出现误差,pid控制器无法保证控制精度。仿真过程中,质量由2.1kg调整为2.3kg、2.5kg时,pid都能保证控制精度,只是调节时间随着质量的变大而延长,整个过程中,基于深度确定性策略梯度算法的控制器的控制效果受影响小。该仿真表明,基于深度确定性策略梯度算法的控制器受无人机模型变化的影响小,对无人机参数的变化更鲁棒。
[0095]
(3)噪声干扰仿真
[0096]
在共轴双旋翼的位置、姿态中加入标准差为0.001的高斯白噪声,其他条件不变,验证控制器对噪声的抗干扰能力。不对控制器进行任何修改,基于深度确定性策略梯度算法的控制器和pid控制器的控制效果如图5所示,两者的控制信号分别如图6和图7所示。可
以看到,在标准差为0.001的高斯噪声的扰动下,两个控制器的位置姿态响应基本不受影响,能够保证较高的控制精度和较好的动态性能,但是两个控制器输出的控制信号差别明显,pid控制器的震荡明显,而基于深度确定性策略梯度的控制器输出的控制信号平稳。加入标准差为0.005的高斯白噪声,基于深度确定性策略梯度算法的控制器和pid控制器的控制效果如图8所示,可以看到,当噪声的标准差增大到0.005后,pid在位置控制中出现了误差,而基于深度确定性策略梯度算法的控制器仍然能够保持较好的控制精度和动态性能。该仿真表明,基于深度确定性策略梯度算法的无人机自主控制器对噪声的抗干扰能力优于pid控制器的抗感染能力。
[0097]
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献