一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于微分博弈的三体对抗策略的主动防御制导方法与流程

2022-02-22 07:53:27 来源:中国专利 TAG:


1.本发明属于飞行器制导方法研究领域。


背景技术:

2.随着航空航天技术的发展。目前各种强机动,智能化,高速化的导弹(如高速巡航导弹,弹道导弹等)不断涌现,这类集先进技术于一体的现代拦截进攻导弹对执行任务中的高价值空中目标(导弹或飞行器等)形成了巨大威胁。这类场景中,由于拦截进攻导弹采取更快的飞行速度和高机动性的特点,执行任务中的目标往往被拦截导弹拦截从而导致任务失败。因此,为了使目标飞行器成功突防,可以采用目标携带防卫导弹的三体对抗主动防御场景。用防卫导弹拦截进攻导弹,同时目标在对抗过程中可选择与防卫导弹进行共同防御或者让防卫导弹单独完成拦截自身做逃逸机动。
3.导弹的制导律是实现精准打击或拦截的火控系统的关键技术之一,其选择至关重要。在上述的三体对抗主动防御场景中,存在进攻导弹和防卫导弹以及进攻导弹和目标之间的对抗问题,其本质是由多个智能体共同参与的双方追逃博弈过程,在此过程中多个决策主体依据各自的最优目标进行博弈并选择相应的制导律。微分博弈理论作为研究双方或多方最优控制的理论,不仅能有效解决冲突对抗和竞争问题,还强调在对抗过程中能动态地考虑对方的策略来最大化自己的利益,是一个动态博弈的过程。因此,近年来利用微分博弈理论研究“智能”制导技术成为了一门热点。
4.然而,现有的三体对抗主动防御场景下的导弹制导律设计大部分对导弹的运动模型进行了线性化处理,不符合导弹系统具有的复杂非线性、多约束、强耦合等特征。因此,结合微分博弈理论设计一种非线性导弹模型下的主动防御制导律尤其重要。


技术实现要素:

5.发明目的:为了解决上述现有技术存在的问题,本发明提供了一种基于微分博弈的三体对抗策略的主动防御制导方法。
6.技术方案:本发明提供了一种基于微分博弈的三体对抗策略的主动防御制导方法,具体包括如下步骤:
7.步骤1:建立三体对抗微分博弈制导运动学方程,所述三体包括:防卫导弹,进攻导弹和目标导弹;
8.步骤2:基于步骤1建立的三体对抗微分博弈制导运动学方程建立主动防御场景下具有反馈形式的主动防御制导系统,该主动防御制导系统的输入包括前馈控制ua和反馈最优控制u’;
9.步骤3:将步骤2的主动防御制导系统的跟踪控制问题转换为误差系统的最优调节问题,从而计算主动防御制导系统的前馈控制ua;
10.步骤4:采用神经网络计算反馈最优控制u’;
11.步骤5:将步骤3和步骤4计算得到的ua和u’输入步骤2中的主动防御制导系统中,
使得该主动防御制导系统控制目标导弹不被进攻导弹击中,以及控制防卫导弹对进攻导弹的有效拦截。
12.进一步的,所述步骤1中的三体对抗微分博弈制导运动学方程包括:进攻导弹-目标导弹的相对运动方程和进攻导弹-防卫导弹的相对运动方程;
13.所述进攻导弹-目标导弹的相对运动方程为:
[0014][0015]
σ1=(v
t
sin(β-θ1)-vmsin(α-θ1))/r1[0016][0017][0018]
其中,r1表示进攻导弹和目标导弹之间的相对距离,为r1的一阶导数,v
t
表示目标导弹的速度,β表示目标导弹的航向角,为β的一阶导数,θ1表示进攻导弹和目标导弹之间的视线角,vm表示进攻导弹的速度,为α的一阶导数,α表示进攻导弹的航向角,σ1表示进攻导弹和目标导弹之间的视线角速率;为α的一阶导数,ω为进攻导弹垂直于速度向量的加速度控制量,n为比例导引系数,为θ1的一阶导数,u为目标导弹垂直于速度向量的加速度控制量;
[0019]
所述进攻导弹-防卫导弹的相对运动方程:
[0020][0021]
σ2=(vdsin(γ-θ2)-vmsin(α-θ2))/r2[0022][0023][0024]
其中,r2为进攻导弹和防卫导弹的相对距离,为r2的一阶导数,vd为防卫导弹的速度,γ为防卫导弹的航向角,为γ的一阶导数,θ2为进攻导弹和防卫导弹的视线角,σ2为进攻导弹和防卫导弹的视线角速率;v表示防卫导弹垂直于速度向量的加速度控制量。
[0025]
进一步的,所述步骤2中的主动防御制导系统为:
[0026][0027][0028]
y=x1[0029]
其中,x1=r
1-r
2-rc,,为x1的一阶导数,为x2的一阶导数,rc为预设的进攻导弹的爆炸杀伤力半径,v1表示作用在x1上的控制分量,的控制分量,为θ2的一阶导数,y为输出变量,u=ua u’。
[0030]
进一步的,所述步骤3中基于backstepping控制理论和lyapunov函数计算主动防御制导系统的前馈控制;具体为:
[0031]
基于backstepping控制理论,建立误差动态面为:
[0032]
z1=y-yd[0033]
z2=x
2-x
2d
[0034]
其中,yd为预设的的参考信号,为预设的的参考信号,表示虚拟的前馈控制部分,表示虚拟的反馈最优控制部分,z1和z2为均误差动态面的变量;
[0035]
计算状态变量z1的一阶导数,并取z1的障碍lyapunov函数;计算状态变量z2的一阶导数,并取z2的障碍lyapunov函数,最终得到实际的前馈控制ua为:
[0036][0037]
其中,x
1d
=yd,λ2为参数,λ2>0;为x
2d
的一阶导数。
[0038]
进一步的,所述步骤4中的计算反馈最优控制u’为:
[0039]
基于反馈最优控制u’建立如下等效仿射非线性系统:
[0040][0041]
其中,其中,为s的一阶导数,t为转置,t为转置,
[0042]
为上述等效仿射非线性系统建立性能评价函数:
[0043][0044]
q(s)表示半正定函数,q(s)≥0,r1和r2均为预设的正定对称矩阵;
[0045]
根据最优控制原理,设置hamilton函数为:
[0046][0047]
其中,
[0048]
根据微分博弈原理和hamilton函数得到合作型微分博弈制导律为:
[0049][0050]
其中,-1表示求逆运算,*表示最优解;
[0051]
根据hamilton函数和合作型微分博弈制导律得到hji方程为:
[0052]
[0053]
其中,
[0054]
采用神经网络对hji方程进行求解得到评价函数的最优值j
*
(s),从而得到u
*
和最终根据u
*
和得到u’;
[0055]
所述神经网络的输出函数为:
[0056][0057]
其中,表示权值向量,为j
*
(s)的估计值,φj(s)为激励函数向量;
[0058]
基于梯度下降法对神经网络的权值进行更新,权值更新的表达式为:
[0059][0060]
其中,为的一阶导数,αj表示神经网络的学习率,αj>0,>0,表示激励函数对s的偏导数;表示激励函数对s的偏导数;为u
*
的估计值,为的估计值,ec为神经网络近似hji方程时产生的误差量,js(s)为预设的lyapunov函数,js(s)的一阶导数,(s)的一阶导数,y1和y2均为预设的设计参数,的表达式为:
[0061][0062]
有益效果:
[0063]
1、本发明在进攻导弹-目标-防卫导弹的三体对抗制导研究中,采取了非线性的导弹模型进行研究,充分考虑了导弹高耦合,复杂非线性等特征。所设计的微分博弈制导律更加贴合实际应用的需求。
[0064]
2、本发明在微分博弈制导律的研究中结合了backstepping控制方法,将严格反馈形式的三体对抗系统从跟踪控制问题转化为最优调节问题,设计的微分博弈制导律不仅完成了制导目标,同时满足提出的最优性能指标。
[0065]
3、本发明在求解非线性偏微分方程中引入了自适应动态规划算法,通过设计的神经网络求取近似最优解,实现了微分博弈制导律的有效求解。
附图说明
[0066]
图1为本发明方法的制导控制流程图;
[0067]
图2为本发明的进攻导弹-目标-防卫导弹(m-t-d)二维平面相对运动示意图。
具体实施方式
[0068]
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
[0069]
如图1所示本实施例提供了一种基于微分博弈的三体对抗策略的主动防御制导方
法,具体为:
[0070]
步骤1,建立二维平面的进攻导弹-目标-防卫导弹相对运动方程:
[0071]
如图2所示,考虑进攻导弹、目标和防卫导弹都采取一阶自动驾驶仪系统,定义m、t和d分别表示进攻导弹,目标和防卫导弹。vm、v
t
和vd分别表示进攻导弹、目标和防卫导弹的速度,且其速度大小恒定;α、β和γ分别表示进攻导弹、目标和防卫导弹三者的航向角;(xi,yi),i=m,t,d分别表示进攻导弹、目标和防卫导弹在二维平面的坐标位置;αm、α
t
和αd分别表示进攻导弹、目标和防卫导弹的侧向加速度;ω、u和v分别表示进攻导弹、目标和防卫导弹各自垂直于速度向量的加速度控制量;τ为三者的自动驾驶仪时间常数。三者的自动驾驶仪如公式(1),(2)和(3)所示:
[0072]
进攻导弹自动驾驶仪:
[0073][0074]
目标自动驾驶仪:
[0075][0076]
防卫导弹自动驾驶仪:
[0077][0078]
在本实施例中设定为τ=0.1s。
[0079]
考虑三者在二维平面中的相对运动关系,建立进攻导弹、目标和防卫导弹相对运动方程:
[0080]
进攻导弹-目标的相对运动方程:
[0081][0082]
进攻导弹-防卫导弹的相对运动方程:
[0083][0084]
其中,r1和r2分别表示进攻导弹和目标,进攻导弹和防卫导弹的相对距离,和则表示相对速度;θ1和θ2分别表示进攻导弹和目标,进攻导弹和防卫导弹的视线角,σ1和σ2各表示对应的视线角速率;
[0085]
步骤2,基于步骤1建立的三体对抗微分博弈制导运动学方程(公式4和公式5),为保证防卫导弹能成功拦截进攻导弹并使目标完成逃逸,选取大于零的常数rc表示进攻导弹的爆炸杀伤半径,通过控制各枚导弹与对应“目标”之间的剩余距离实现上述主动防御过程。选取状态变量也既x1=r
1-r
2-rc,根据式4和5得到主动防御制导系统如下:
[0086][0087]
表示建模的冗余项。此外,ω是进攻导弹的加速度控制量,不失一般性采取比例导引制导律ω为:
[0088][0089]
其中,n为比例导引系数。
[0090]
整理可得到具有严格反馈形式的主动防御制导系统为:
[0091][0092]
其中,v1表示作用在x1上的控制分量;
[0093]
各函数满足如下关系式:
[0094][0094]
表示为由x1构成的状态向量;v1表示作用在x1上的控制分量;
[0095][0096][0097]
针对严格反馈形式的系统8,设计控制器u(t),v(t)的目的是使输出信号y能以最优方式跟踪给定的参考信号,使得y=x1=r
1-r
2-rc>0,r2→
0。从而保证在三体对抗中防卫导弹能成功拦截进攻导弹,同时目标完成逃逸。,
[0098]
步骤3,首先基于backstepping控制理论设计前馈控制输入,处理输出约束,将系统8的跟踪控制问题转换为误差系统的最优调节问题后,再设计反馈最优调节控制器。下面首先对前馈控制器进行设计:
[0099]
基于backstepping控制理论,定义误差动态面为:
[0100][0101]
其中,yd表示给定的参考信号;示给定的参考信号;表示前馈虚拟控制部分,表示虚拟反馈最优控制输入部分。
[0102]
前馈控制部分的设计过程如下:
[0103]
第一步:对z1求导得到:
[0104][0105]
对状态z1取障碍lyapunov函数为:
[0106][0107]
求dv1/dt得到:
[0108][0109]
此时设计虚拟前馈控制输入为:
[0110][0111]
其中,λ1>0为设计参数。将式13代入12中得到:
[0112][0113]
第二步:对z2求导得到:
[0114][0115]
其中:x
1d
=yd[0116][0117]
对状态z2取障碍lyapunov函数为:
[0118][0119]
求dv2/dt得到:
[0120][0121]
此时设计实际前馈控制部分ua为:
[0122][0123]
其中:λ2>0为设计参数。将式18代入式17中得到:
[0124][0125]
其中:λ=min{λ1,λ2};此外,控制器分为前馈控制和反馈最优控制两部分,即复合控制方案u=ua u’。前面已经完成了前馈控制器ua的设计,而根据式19可以发现:在上述的复合控制方案中,若仅设计前馈控制器,根据lyapunov稳定性理论可知,不成立的情况下不能保证闭环系统的稳定性。因此我们需要设计反馈最优调节控制器u’保证下列等效仿射非线性系统的稳定性,从而保证在复合控制方案下原系统的闭环稳定性
[0126][0127]
其中,其中,
[0128]
设计复合控制器的目的在于保证系统在设计的微分博弈制导律控制下,通过控制防卫导弹和进攻导弹以及进攻导弹和目标之间的距离实现防卫导弹的成功拦截和目标的成功逃逸。同时,还保证了系统满足一定的性能指标,实现最优控制。
[0129]
步骤4,等效系统20中的反馈最优控制器设计:
[0130]
定义性能评价函数为:
[0131][0132]
其中,q(s)≥0表示半正定函数,r1,r2均为设计的正定对称矩阵。
[0133]
根据最优控制原理,定义hamilton函数为:
[0134][0135]
其中,
[0136]
结合微分博弈原理,由hamilton函数22推导合作型微分博弈制导律为:
[0137][0138]
其中,上标*表示变量的最优值。
[0139]
将式23代入hamilton函数22中,得到相应的hji方程为:
[0140][0141]
其中,
[0142]
因此,通过求解hji方程24得到最优代价函数的偏导数利用该解析解可以求得微分博弈制导律23。但是,考虑到hji方程属于非线性偏微分方程,难以直接求得其解析解。因此,本发明结合自适应动态规划算法设计评价神经网络,利用神经网络的在线输出逼近最优评价函数j
*
(x)。
[0143]
步骤5,求解微分博弈制导律。
[0144]
为求解hji方程24,本发明结合自适应动态规划算法设计评价神经网络,利用神经网络全局逼近原理近似代价函数为j
*
(x):
[0145][0146]
其中,wj为评价网络的理想权值,φj(s)为设计的激励函数,ε(x)为近似误差。
[0147]
但是实际情况中理想权值是未知的,所以本发明利用评价网络的在线输出逼近最优评价函数j
*
(x)。在线评价网络(也就神经网络的输出)设计为:
[0148][0149]
其中,表示对理想最优性能指标函数j
*
(x)的估计;表示评价网络的在线输出权值向量,φj(s)为评价网络的激励函数向量。
[0150]
根据式26,可以得到近似的微分博弈制导律为:
[0151][0152]
为u
*
的估计值,为的估计值,表示激励函数对等效误差系统状态变量的偏导数。
[0153]
结合式24,25,26,27,当采取近似的微分博弈控制律27时,评价网络产生的逼近误差ec如下:
[0154][0155][0156]
因此,权值更新律的实际目标应该是最小化误差ec,使得评价网络的在线输出权值逼近理想权值wj。
[0157]
此外,为了保证闭环系统中各信号有界。选取一个lyapunov函数js(s),使得在理想微分博弈制导律23控制下:即表明系统是稳定的。
[0158]
因此,基于梯度下降法并考虑闭环系统的稳定性,设计权值更新律如下:
[0159][0160]
其中,ec为评价网络近似hji方程产生的误差量;αj>0表示评价网络的学习率;y1和y2为具有合适维数的待设计参数;定义为:
[0161][0162]
通过设计评价神经网络,采取权值更新律进行在线迭代并执行微分博弈制导律,完成防卫导弹对进攻导弹的拦截和目标的逃逸。
[0163]
以上所述,仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献