一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于无人机群的组网雷达干扰策略生成方法

2022-08-17 20:02:18 来源:中国专利 TAG:

技术特征:
1.一种基于无人机群的组网雷达干扰策略生成方法,其特征在于,包括:s1、建立组网雷达探测-无人机群协同干扰的对抗场景模型;s2、将无人机和雷达想象成质点模型,设计组网雷达和无人机群的状态空间和动作空间;s3、求组网雷达和各个无人机之间的欧氏距离,从而构建距离矩阵;s4、采用匈牙利算法对距离矩阵进行处理,得到雷达和无人机之间的一一对应关系的索引;s5、利用这些索引控制无人机群飞行轨迹,使得最终的无人机群总控制量最小,得到组网雷达和无人机群的对抗博弈策略。2.根据权利要求1所述的一种基于无人机群的组网雷达干扰策略生成方法,其特征在于,步骤s1所述的对抗场景具体为:无人机蜂群与雷达组网之间攻防场景,进攻方是轰炸机和无人机蜂群组成的进攻编队,防守方是多个雷达站点组成的雷达组网。3.根据权利要求2所述的一种基于无人机群的组网雷达干扰策略生成方法,其特征在于,步骤s3所述的距离矩阵表达式为:其中,g1,g2,g3,g4表示无人机,w
′1,w
′2代表虚拟雷达,dist()表示求欧氏距离。4.根据权利要求3所述的一种基于无人机群的组网雷达干扰策略生成方法,其特征在于,所述索引表达式为:其中,h表示经过初等行列变换后的距离矩阵,i为匈牙利匹配矩阵的输出索引的集合,h(i,j)为h中的元素。5.根据权利要求4所述的一种基于无人机群的组网雷达干扰策略生成方法,其特征在于,步骤s5具体采用强化学习算法,生成组网雷达与无人机群的对抗博弈策略;强化学习的策略更新公式为:强化学习的策略更新公式为:强化学习的策略更新公式为:其中,为梯度下降的价值函数,为智能体的策略,s为当前智能体的状态,o为智能体的观测值,a为智能体的动作,r为智能体的回报值,s

为下一时刻智能体的状态,o

为下一时刻智能体的观测值,为经验池,u
i
为第i个智能体的当前执行的动作,u

i
为第i个智能体的下一时刻执行的动作,a1,...,a
n
为其他智能体的动作,ω
i
为当前价值网络更新的参数,θ
i
为当前策略网络更新的参数,为智能体在当前状态s下进行动作a1,...u
i
,...,a
n
的价值。l(θ
i
)为损失函数,y为目标函数,γ为折扣因子,d为当前回合结束
的标志,ω
i

为下一时刻价值网络更新的参数,θ
i

为下一时刻策略网络更新的参数。6.根据权利要求5所述的一种基于无人机群的组网雷达干扰策略生成方法,其特征在于,r的计算式为:其中,g
i
为第i个无人机,w
j
为第j个雷达。

技术总结
本发明公开一种基于无人机群的组网雷达干扰策略生成方法,应用于雷达对抗领域,针对现有技术利用传统欧氏距离方法来设计回报函数时,由于惰性智能体的出现从而导致其状态变化对总回报不产生影响,进而降低强化学习训练的效果的问题;本发明首先建立了一个组网雷达探测-无人机群协同干扰的博弈对抗场景模型,并设计模型的状态空间和动作空间。之后计算所有雷达和所有无人机的欧氏距离形成矩阵,利用匈牙利算法匹配雷达和无人机群得到每个雷达和无人机之间的一一对应关系的索引,利用这些索引控制无人机群飞行轨迹,使得最终的无人机群总控制量最小。有效的解决了组网雷达和无人机群匹配异常的问题,改进了组网雷达和无人机群博弈对抗的训练策略。群博弈对抗的训练策略。群博弈对抗的训练策略。


技术研发人员:张天贤 李健涛 刘凯 朱会柱 李财品 雷红文 方学立 孔令讲 崔国龙
受保护的技术使用者:电子科技大学
技术研发日:2022.06.17
技术公布日:2022/8/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献