一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于无人机群的组网雷达干扰策略生成方法

2022-08-17 20:02:18 来源:中国专利 TAG:


1.本发明属于雷达对抗领域,特别涉及组网雷达探测、无人机群协同干扰和多智能体博弈技术。


背景技术:

2.近年来,组网雷达由于其出色的探测、跟踪、抗干扰和抗打击能力,已成为抗干扰探测的重要手段。面向组网雷达,传统单平台干扰的干扰效能受到严重挑战,协同干扰是应对组网雷达的典型可行方案。协同干扰指使将多个无人机进行组网,通过统一分配各无人机的干扰时间、干扰功率、干扰样式等资源形成具有群体智能的干扰体系,提升干扰方的整体对抗水平。未来雷达干扰博弈的形态必将向着“集群”vs“集群”方向发展。
3.目前,基于强化学习算法的多智能体对抗技术正广泛应用于复杂环境下军事电子系统中。尤其在多维度、复杂化以及不完全信息条件下的雷达对抗场景中,强化学习算法具有极强的模拟博弈增效性能。强化学习连续随机博弈过程具有探测和干扰的强对抗性、对方信息的不完全性、作战环境的高复杂性以及突然性、作战需求的高实时性等特点。然而,在设计强化学习对抗模型时,回报函数的设计则是至关重要的一环。在组网雷达-无人机群博弈对抗的场景中,通过匹配双方的对应关系可以优化对抗性能。而利用传统的欧氏距离法设计回报函数则可能出现“惰性智能体”,从而影响训练效果,得不到有效的对抗策略。


技术实现要素:

4.本发明提出一种基于无人机群的组网雷达干扰策略生成方法,基于匈牙利算法的回报函数设计方法来优化无人机和雷达之间的匹配关系。克服了利用传统欧氏距离方法来设计回报函数时,由于惰性智能体的出现从而导致其状态变化对总回报不产生影响,进而降低强化学习训练的效果的问题。
5.本发明采用的技术方案为:一种基于无人机群的组网雷达干扰策略生成方法,包括:
6.s1、建立组网雷达探测-无人机群协同干扰的对抗场景模型;
7.s2、将无人机和雷达想象成质点模型,设计组网雷达和无人机群的状态空间和动作空间;
8.s3、求组网雷达和各个无人机之间的欧氏距离,从而构建距离矩阵;
9.s4、采用匈牙利算法对距离矩阵进行处理,得到雷达和无人机之间的一一对应关系的索引;
10.s5、利用这些索引控制无人机群飞行轨迹,使得最终的无人机群总控制量最小,得到组网雷达和无人机群的对抗博弈策略。
11.本发明的有益效果:本发明提出了一种基于匈牙利算法的回报函数设计方法来优化无人机和雷达之间的匹配关系;克服了利用传统欧氏距离方法来设计回报函数时,由于惰性智能体的出现从而导致其状态变化对总回报不产生影响,进而降低强化学习训练的效
果的问题。它首先建立了一个组网雷达探测-无人机群协同干扰的博弈对抗场景模型,并设计模型的状态空间和动作空间。之后计算所有雷达和所有无人机的欧氏距离形成矩阵,利用匈牙利算法匹配雷达和无人机群得到每个雷达和无人机之间的一一对应关系的索引,利用这些索引控制无人机群飞行轨迹,使得最终的无人机群总控制量最小。有效的解决了组网雷达和无人机群匹配异常的问题,改进了组网雷达和无人机群博弈对抗的训练策略。
附图说明
12.图1是本发明提供方法的对抗博弈示意图;
13.其中,(a)为无人机分别对两台雷达进行距离干扰拖引使对雷达的拖引点重合,(b)为无人机群对组网雷达的拖引点不重合。
14.图2是本发明提供方法的强化学习训练流程框图。
15.图3是本发明采用欧氏距离法和匈牙利法设计回报函数的训练对比图。
16.图4是本发明训练生成策略中无人机群初步分散布局示意图;
17.其中,(a)为最初时各无人机位置随机散布,(b)为三个距离雷达波束较近的无人机选择分散至两波束内以尽可能满足组网雷达的验证机制,实现拖引。
18.图5是本发明训练生成策略中无人机群平均分配到雷达波束中示意图;
19.其中,(a)为一侧无人机数量多于另一侧的情况,(b)为无人机(1)由左侧波束转到右侧波束进行拖引。
20.图6是本发明训练生成策略中组网雷达波束重合示意图。
21.图7是本发明训练生成策略中组网雷达呈分离态势后无人机群匹配布局示意图;
22.其中,(a)为最开始只有四架无人机即使到达指定位置的情况,(b)为无人机两两为一组,分别对两台雷达实施干扰的情况,(c)为当其余四台无人机接近时,原先左侧雷达波束上的无人机转到右侧雷达波束上的情况,(d)为无人机数量与雷达数量的均等分配的效果图。
具体实施方式
23.为便于本领域技术人员理解本发明的技术内容,首先对以下术语进行解释:
24.术语1:协同干扰
25.无人机群利用组网雷达相互验证的特性来分配拖引位置达到干扰组网雷达的效果。
26.术语2:gumble-softmax函数
27.一种将数据进行重参化的函数,经过gumble采样的方式得到当前数据最接近于原始数据的分布,但是又增添了采样的不确定因素
28.术语3:欧氏距离矩阵
29.组网雷达和无人机群之间的欧氏距离的集合组成的数据矩阵。
30.术语4:匈牙利匹配矩阵
31.组网雷达和无人机群之间的欧氏距离矩阵经过匈牙利算法进行匹配之后输出的组网雷达和无人机群一一对应的匹配索引组成的矩阵。
32.术语5:价值网络
33.组网雷达和无人机群在对抗博弈的过程中,会利用环境参数和自身状态和动作预测出当前的价值,来指导下一步的动作。
34.本发明主要采用仿真实验的方法进行验证,所有步骤、结论都在python3.6上验证正确。下面就具体实施方式对本发明作进一步的详细描述。
35.步骤一:训练场景建模
36.本发明以无人机蜂群与雷达组网之间攻防为场景,进攻方是轰炸机和无人机蜂群组成的进攻编队,防守方是多个雷达站点组成的雷达组网。
37.对于进攻方,轰炸机携带导弹等武器,负责飞入敌方阵地的攻击目标区域。组网雷达对空域内的轰炸机进行探测、跟踪和锁定,充分利用验证信息,提高目标发现概率。无人机群分布在轰炸机周围,通过在轰炸机周围产生虚假航迹来干扰组网雷达,从而降低轰炸机被组网雷达探测到的概率。
38.在对抗作战的场景中,为了形成有效干扰并保护轰炸机,无人机群根据雷达波束方向改变位置移动到雷达波束范围内形成有效拖引。
39.为了解决无人机群协同干扰问题,组网雷达会按照一定的周期规律模式改变其工作状态。这样,无人机群需要不断调整位置,重新捕获雷达波束,形成有效的拖引。由于无人机群的飞行能力有限,在某些情况下无法立即移动到雷达波束范围内。双方的控制策略可以表示为:
[0040][0041]
其中,t表示为无人机群从当前位置移动到组网雷达波束范围内的时间。φ和ψ为组网雷达和无人机群的控制策略。s
radar
和t
radar
为组网雷达的位置信息和状态转换周期。a
uavs
为无人机群的加速度控制量。
[0042]
步骤二:状态空间设计
[0043]
根据相互对抗的场景,我们设计以轰炸机的位置为相对坐标模型,以轰炸机的移动方向为x轴正方向,轰炸机左翼方向为y轴正方向。
[0044]
状态空间可以表示为:
[0045]
s=ω([s
bomber
],[s
uavs
,v
uavs
],[s
radar

radar
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0046]
其中,s
bomber
为轰炸机的位置信息,v
uavs
为无人机群的速度信息,θ
radar
为组网雷达的角度信息。
[0047]
步骤三:动作空间设计
[0048]
对于神经网络对于每一个无人机的状态向量输入而言会输出一个4维列向量,分别代表了在平面内4个方向运动的收益v,对v进行添加gumble噪声:
[0049]v′
=v-log(-log(u))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0050]
其中,u~u(0,1)是经过均匀采样得到的原始噪声,服从均匀分布u(0,1),均值为0,方差为1。可以证明,经过gumble采样的方式得到v

的分布最接近于原始数据v的分布。最后经过带时间参数的soft-max函数:
[0051][0052]
其中,ai表示输出的动作值,vi,vj表示添加过噪声后的运动收益,t为soft-max中的时间参数。在训练最初阶段,取t=10,使其随训练次数的增加逐渐下降至t=1。最终执行动作时,可去掉gumble噪声后进行动作选取。
[0053]
输出后的值经过简单减法运算得到类似于无人机在x,y两方向加速度:
[0054][0055]
本发明设计无人机运动的单位时间dt=4s,积分计算速度及位移。利用类似的设计方法得到组网雷达和无人机群的动作空间如下:
[0056]
a=γ([a
xuavs
,a
yuavs
],[s

radar
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0057]
其中,a
xuavs
,a
yuavs
为无人机群的加速度,s

radar
为组网雷达的工作状态。
[0058]
步骤四:回报函数设计
[0059]
在该场景中,首先需要将雷达数量倍乘实现虚拟雷达数量与无人机数量的匹配,其中,n为组网雷达数量,m为无人机数量。计算得到组网雷达和无人机群的欧氏距离矩阵e。
[0060][0061]
其中,g1,g2,g3,g4表示无人机,w
′1,w
′2代表虚拟雷达,dist()表示求欧氏距离。
[0062]
经过初等行列变换后得到行和,列和均只有一个元素,其余元素为0的矩阵。对于图4中的场景,该解为:
[0063][0064]
其中,d(gi,wj)代表经过初等行列变换后的结果。回报函数的计算公式可以表示为:
[0065][0066]
其中,i为匈牙利匹配矩阵的输出索引的集合。
[0067]
可以看出,相比传统设计方案,在任何时刻,每个智能体的动作均会对回报结果产生影响,且最终实现了无人机相对于雷达数量的均衡分配。
[0068]
步骤五:强化学习训练
[0069]
最后搭建强化学习算法框架,将状态空间、动作空间和回报函数的参数输入到强
化学习价值网络中进行评估和更新。如图2所示,利用强化学习算法对对抗博弈环境进行采样并存储在记忆池中,之后利用价值神经网络对数据进行训练,从而实现基于强化学习的组网雷达与无人机群的对抗博弈策略生成。
[0070]
强化学习的策略更新公式如下:
[0071][0072]
其中,为梯度下降的价值函数,为智能体的策略,s为当前智能体的状态,o为智能体的观测值,a为智能体的动作,r为智能体的回报值,s

为下一时刻智能体的状态,o

为下一时刻智能体的观测值,为经验池,ui为第i个智能体的当前执行的动作,u
′i为第i个智能体的下一时刻执行的动作,a1,...,an为其他智能体的动作,ωi为当前价值网络更新的参数,θi为当前策略网络更新的参数,为智能体在当前状态s下进行动作a1,...ui,...,an的价值。l(θi)为损失函数,y为目标函数,γ为折扣因子,d为当前回合结束的标志,ω
′i为下一时刻价值网络更新的参数,θ
′i为下一时刻策略网络更新的参数。
[0073]
通过强化学习网路的训练,生成组网雷达和无人机群的对抗博弈策略。
[0074]
表1为模型状态空间参数设置,表2为模型仿真超参数设置;根据表1、表2的数据建立强化学习仿真模型。表3为组网雷达固定策略时,无人机群的性能增效;表4为无人机群固定策略时,组网雷达的性能增效。从表3、表4可以看出,本发明在强化学习的训练过程中,组网雷达和无人机群的对抗性能都不断的增加并逐渐收敛和稳定。
[0075]
表1状态向量的内容,数据维度及数据类型
[0076][0077]
表2训练使用的超参数
[0078][0079]
表3组网雷达固定策略时,无人机群的性能增效
[0080][0081]
表4无人机群固定策略时,组网雷达的性能增效
[0082][0083]
如图3所示,和欧氏距离算法相比,基于匈牙利算法的回报函数设计使强化学习的训练回报值更好且收敛更快。
[0084]
如图1中(a)所示,最开始无人机分别对两台雷达进行距离干扰拖引使对雷达的拖引点重合,从而解决由于组网雷达利用jpda等相互验证算法导致无人机拖引失败的问题。如图1中(b)所示之后组网雷达为了不被无人机群协同干扰,改变了雷达的工作状态(雷达2静默,雷达3工作),此时无人机群对组网雷达的拖引点不重合,从而使无人机群协同干扰失败。无人机群需要重新锁定雷达3的波束位置并到达指定位置进行协同拖引,双方不断重复上述过程从而进行对抗博弈。
[0085]
如图4中(a)所示,在初始时刻各无人机的运动情况,由于最初时各无人机位置随机散布,因此距离雷达波束较远的无人机无法及时到达,如图4中(b)所示,三个距离雷达波束较近的无人机选择分散至两波束内以尽可能满足组网雷达的验证机制,实现拖引。
[0086]
如图5所示,经过一次雷达位置变换之后,呈现出如图5中(a)所示的一种典型情况,即一侧无人机数量多于另一侧,运用改进匈牙利算法设计的回报函数可以有效解决这类问题。如图5中(b)所示无人机(1)由左侧波束转到右侧波束进行拖引,实现两波束上无人机数量的均等分配。且由无人机(1)进行拖引目标变更是总飞行距离最短的方案,侧面映证了该回报函数和算法设计的有效性。
[0087]
如图6所示,当雷达策略随机时的验证图例,可以看到如果两雷达位置过于靠近时(现实中不合理的场景),假定同一无人机可以同时在两台雷达上形成有效干扰,则经过训练得到的策略是只分配其中四架无人机执行干扰任务,另外四架无人机在空白区域等待下一次雷达位置变换的结果,而这四架无人机的位置也是依概率下一次雷达变换最有可能出现波束的位置。该训练结果体现出本文场景建模时马尔科夫决策过程设计的合理性。
[0088]
如图7所示是雷达位置变换后的一系列态势。如图7中(a)所示,最开始只有四架无人机即使到达指定位置,如图7中(b)所示,为了尽可能快的实现拖引,无人机两两为一组,分别对两台雷达实施干扰。如图7中(c)所示,当其余四台无人机接近时,原先左侧雷达波束上的无人机转到右侧雷达波束上,如图7中(d)所示,从而实现了无人机数量与雷达数量的均等分配。
[0089]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献