一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于神经网络虚拟自我对局的雷达干扰博弈策略设计方法与流程

2022-03-26 04:24:03 来源:中国专利 TAG:


1.本发明属于雷达技术领域,具体涉及一种基于神经网络虚拟自我对局 的雷达干扰博弈策略设计方法。


背景技术:

2.在电子战中,雷达和干扰存在天然的对抗关系,如何决策最大化己方 性能是雷达技术领域的重中之重。博弈论是一种研究决策者之间冲突和合 作关系的数学工具,因此,基于博弈论分析雷达和干扰的对抗关系和设计 抗干扰和干扰策略是可行的。
3.现有技术中,基于博弈论进行雷达干扰策略设计,主要分为两类:
4.其一,是基于静态博弈对雷达和干扰建模,然后求解纳什均衡策略, 然而现有的基于静态博弈的研究虽有一定理论研究价值,但无法描述雷达 和干扰序列决策的特点。
5.其二,是基于动态博弈对雷达和干扰建模,然后求解纳什均衡策略。 但是现有的基于动态博弈的研究中,并未使用动态博弈中的扩展形式博弈 建模,建模方法不具有普适性,应用范围小,而且也无法描述雷达和干扰 序列决策的特点。
6.另外,现有技术中通常基于强化学习进行雷达干扰策略设计,该方法 通常假设雷达和干扰中一方具备学习能力,另一方采取固定的一种或几种 策略,基于这样的不对等假设,雷达和干扰的博弈能力较低。


技术实现要素:

7.为了解决现有技术中存在的上述问题,本发明提供了基于神经网络虚 拟自我对局的雷达干扰博弈策略设计方法。本发明要解决的技术问题通过 以下技术方案实现:
8.基于神经网络虚拟自我对局的雷达干扰博弈策略设计方法,所述方法 包括:构建雷达和干扰机对应的扩展式多回合博弈交互模型;其中,所述 雷达和干扰机分别设置为神经网络虚拟自我对局中的主体;基于所述扩展 式多回合博弈交互模型,获取雷达和干扰机之间的交互信息,并对所述交 互信息进行编码,所述交互信息中包括博弈状态转移信息和最优反应行为 信息;基于神经网络虚拟自我对局对编码后的交互信息进行求解,以获取 雷达和干扰机之间的多个博弈策略组合;获取每个博弈策略组合的平均利 用度,并将平均利用度最小值对应的博弈策略组合确定为目标博弈策略组 合。
9.在本发明的一个实施例中,扩展式多回合博弈交互模型中包括多个交 互回合;一个交互回合中由雷达向干扰机发送脉冲信号,干扰机截获脉冲 信号并在所述脉冲信号中释放干扰信号,再由雷达接收包含干扰信号的脉 冲信号;所述雷达向干扰机发送的脉冲信号中包括三个子脉冲信号。
10.在本发明的一个实施例中,所述步骤2包括:步骤2-1:将雷达向干扰 机发送的脉冲信号,编码表示为一个1
×
m的向量其中,a 表示行动,r表示雷达,f表示子脉冲的频点,t表示时刻;步骤2-2:将干 扰机截获脉冲信号并在所述脉冲信号中释放
干扰信号,编码表示为一个 1
×
3的向量其中,j表示干扰机,v1表示干扰机间断观 察的持续时间,v2表示干扰机发射干扰信号的频点。
11.本发明的有益效果:
12.1、本发明基于扩展形式博弈对雷达和干扰建模,在雷达和干扰具备同 等智能水平时,能够研究雷达和干扰的多回合动态博弈信息,可以有效求 解二者的纳什均衡策略,从而能够克服现有技术中雷达和干扰动态博弈只 限于单回合以及雷达和干扰智能水平不对等的缺陷。
13.2、本发明提出的神经网络虚拟自我对局(neural fictitious selfplay, nfsp)能够将虚拟自我对局(fictitious selfplay,fsp)与神经网络函数估 计相结合,一方面可以避免博弈树维度爆炸,另一方面可以利用神经网络 实现端到端的状态特征提取,从而可以快速高效准确地求解雷达和干扰机 之间状态个数复杂的博弈情况,以实现博弈策略设计。
14.以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
15.图1是本发明实施例提供的一种基于神经网络虚拟自我对局的雷达干 扰博弈策略设计方法流程示意图;
16.图2为雷达脉冲信号示意图;
17.图3为雷达和干扰多回合交互示意图;
18.图4为深度强化学习网络和平均策略网络的结构示意图;
19.图5为基于神经网络虚拟自我对局的雷达和干扰性能曲线结果示意图;
20.图6为exploitability曲线结果示意图;
21.图7为三种方法exploitability性能比较结果示意图。
具体实施方式
22.下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施 方式不限于此。
23.实施例
24.请参见图1,图1是本发明实施例提供的一种基于神经网络虚拟自我对 局的雷达干扰博弈策略设计方法流程示意图,所述方法包括:
25.步骤1:构建雷达和干扰机对应的扩展式多回合博弈交互模型;其中, 所述雷达和干扰机分别设置为神经网络虚拟自我对局中的主体。
26.可选的,扩展式多回合博弈交互模型中包括多个交互回合;一个交互 回合中由雷达向干扰机发送脉冲信号,干扰机截获脉冲信号并在所述脉冲 信号中释放干扰信号,再由雷达接收包含干扰信号的脉冲信号;所述雷达 向干扰机发送的脉冲信号中包括三个子脉冲信号。
27.雷达发射信号为脉内频率捷变波形,干扰机发射采用瞄准式、压制式 干扰信号。参照附图2,一个雷达脉冲包含三个子脉冲,每个子脉冲载频都 可以改变。干扰机除了在每
个脉冲决定采取何种干扰样式,如瞄准式或压 制式,还可以决定针对此脉冲的间断观察的时长。在该模型基础上,雷达 和干扰机之间的交互是多回合的。参照附图3,每个回合都可以描述为一个 闭环过程,即雷达发射信号—干扰机截获—释放干扰信号—雷达感知。在 一个回合中,收/发分时干扰机截获的时候无法发射干扰信号,感知在这里 指的是雷达设法获取当前时刻的干扰信息,如干扰信号的频点分布,带宽 等信息。
28.步骤2:基于所述扩展式多回合博弈交互模型,获取雷达和干扰机之间 的交互信息,并对所述交互信息进行编码,所述交互信息中包括博弈状态 转移信息和最优反应行为信息。
29.所述步骤2包括:
30.步骤2-1:将雷达向干扰机发送的脉冲信号,编码表示为一个1
×
m的 向量其中,a表示行动,r表示雷达,f表示子脉冲的频点,t表示时刻;
31.步骤2-2:将干扰机截获脉冲信号并在所述脉冲信号中释放干扰信号, 编码表示为一个1
×
3的向量其中,j表示干扰机,v1表 示干扰机间断观察的持续时间,v2表示干扰机发射干扰信号的频点。
32.可选的,所述博弈状态转移信息对应有强化学习记忆池所述最 优反应行为信息对应有监督学习记忆池每个交互回合开始时采取混 合策略σ;其中,所述混合策略σ包括:以概率η采取∈-greedy策略, 以概率1-η采取平均策略π。
33.nfsp是将fsp与神经网络函数结合的方法,本发明将雷达和干扰分别 建模为nfsp主体,每个主体都和其对手进行交互,并将博弈状态转移和其 针对对手策略的最优反应行为储存在两个记忆池中。
34.步骤3:基于神经网络虚拟自我对局对编码后的交互信息进行求解,以 获取雷达和干扰机之间的多个博弈策略组合。
35.可选的,所述步骤3包括:
36.步骤3-1:初始化所述强化学习记忆池和所述监督学习记忆池 37.步骤3-2:通过随机参数θ
π
对平均策略网络π(s,a|θ
π
)进行初始化,其 中,s表示博弈信息状态,θ
π
表示策略网络参数;
38.步骤3-3:通过随机参数θq对深度强化学习评估网络q(s,a|θq)进行初 始化,其中,θq表示评估网络参数;
39.duelingdouble深度强化学习(deep q-learning network,dqn)。
40.步骤3-4:构建深度强化学习目标网络q(s,a|θ
q'
),其中,θ
q'
表示目 标网络参数;并将评估网络参数赋给目标网络参数,表示为:θq′

θq;
41.步骤3-5:初始化预期参数η;
42.步骤3-6:开始外层循环,其中,外层循环的循环次数为雷达和干扰机 的训练次数,若当前循环次数大于训练次数,执行步骤3-18;
43.需要说明的是,内层循环指的是干扰机和雷达之间的交互回合,内层 循环的循环次数指的是干扰和雷达之间交互回合的回合数,即,执行了多 少次“雷达发射信号—干扰
截获—干扰机释放干扰—雷达感知干扰”。外 层循环指的是干扰机和雷达的训练,外层循环的循环次数指的是多回合交 互的次数,即,雷达和干扰交互n回合训练了多少次。
44.步骤3-7:将混合策略σ表示为:
[0045][0046]
步骤3-8:获取初始状态信息s1和回报信息r1;
[0047]
其中,经过随机初始化得到初始状态信息和回报信息,其作为训练的 开始。
[0048]
步骤3-9:开始内层循环,其中,内层循环的循环次数为雷达和干扰机 之间的交互回合的回合数n,若当前循环次数大于回合数n,则将外层循 环次数加一并重复执行步骤3-6至步骤3-9;
[0049]
步骤3-10:基于所述混合策略σ,采样行动a
t
,其中,a
t
表示行动;
[0050]
具体的,a
t
表示雷达和干扰机博弈过程中的动作,所述a
t
包括由步骤 2-1和2-2所描述的ar和aj,。
[0051]
步骤3-11:在博弈中执行行动a
t
,并获取回报信息r
t 1
以及状态信息s
t 1

[0052]
步骤3-12:将博弈中的转移经验(s
t
,a
t
,r
t 1
,s
t 1
)存储到强化学习记忆池中;
[0053]
步骤3-13:在主体当前执行的是近似最优反应策略σ=∈-greedy时, 将状态及动作二元组(s
t
,a
t
)存储到监督学习记忆池中;
[0054]
步骤3-14:基于损失函数对θ
π
进行更新,表示为:
[0055][0056]
步骤3-15:基于所述损失函数对θq进行更新,表示为:
[0057][0058]
步骤3-16:按照预设周期,更新目标网络参数θq′

θq[0059]
步骤3-17:当内层循环执行完毕,将循环次数加一并重复执行步骤3-9;
[0060]
步骤3-18:当外层循环执行完毕,得到雷达和干扰机之间的多个博弈 策略组合。
[0061]
步骤4:获取每个博弈策略组合的平均利用度,并将平均利用度最小值 对应的博弈策略组合确定为目标博弈策略组合。
[0062]
为了评价步骤3得到的结果的有效性,可以用该解与纳什均衡的距离 表征。利用度(exploitability)可以用来评估求解得到的结果与纳什均衡之 间的距离。针对两人零和博弈,某个策略的利用度表示针对该策略的最优 反应策略的期望回报与博弈值的差。
[0063]
可选的,所述步骤4包括:
[0064]
步骤4-1:将策略对表示为:π=(π1,π2);
[0065]
步骤4-2:将利用度表示为:
[0066][0067][0068]
其中,v1和v2分别为雷 达和干扰机的博弈值,且v2=-v1;
[0069]
由于雷达和干扰机为两人零和博弈时,则v2=-v1。
[0070]
上式利用了minimax定理。
[0071]
步骤4-3:获取每个博弈策略组合的平均利用度,表示为:
[0072][0073]
在大规模博弈中,通常用一个策略组合的平均利用度来评估该策略组 合与纳什均衡策略组合的接近程度。
[0074]
步骤4-4:将平均利用度最小值对应的博弈策略组合确定为目标博弈策 略组合。
[0075]
两人零和博弈中纳什均衡策略的平均利用度为零,即exploit(π
nash
)=0, 所以平均利用度越接近0,该策略组合就越接近纳什均衡策略,即,将平均 利用度最小值对应的博弈策略组合确定为目标博弈策略组合。
[0076]
综上,本发明的有益效果:
[0077]
1、本发明基于扩展形式博弈对雷达和干扰建模,在雷达和干扰具备同 等智能水平时,能够研究雷达和干扰的多回合动态博弈信息,可以有效求 解二者的纳什均衡策略,从而能够克服现有技术中雷达和干扰动态博弈只 限于单回合以及雷达和干扰智能水平不对等的缺陷。
[0078]
2、本发明提出的神经网络虚拟自我对局(neural fictitious self play,nfsp)能够将虚拟自我对局(fictitious self play,fsp)与神经网络函数估 计相结合,一方面通过编码可以避免博弈树维度爆炸,另一方面可以利用 神经网络实现端到端的状态特征提取,从而可以快速高效准确地求解雷达 和干扰机之间状态个数复杂的博弈情况,以实现博弈策略设计。
[0079]
基于仿真实验,对本发明进行验证:
[0080]
仿真实验一
[0081]
基于平均利用度,验证雷达干扰策略对π
t
可实现近似纳什均衡。
[0082]
1、仿真条件:
[0083]
假设一个cpi内雷达发射8个脉冲,每个脉冲包含m=3个子脉冲,且 雷达可选频点
个数为nf=3,干扰的行动包含两部分:
[0084]
(1)第一部分为决定间断观察时间。假设针对每个雷达脉冲,干扰可 选三种间断观察方式,分别是截获一个子脉冲,然后发射干扰信号;截获 两个子脉冲,然后发射干扰信号;截获三个子脉冲,即截获整个雷达脉冲, 且此时干扰不发射干扰信号;
[0085]
(2)第二部分为决定发射干扰信号的频点。假设干扰可以发射瞄准式 干扰或压制式干扰。
[0086]
在nfsp中使用dqn算法的改进版本double dueling dqn,其网络结 构参照附图4。注意,由于雷达和干扰行动维度不同,所以double duelingdqn和平均策略网络的结构有所不同,在附图4中用|ar|/|aj|加以区分。 double dueling dqn和平均策略网络均使用leaky_relu激活函数,优化器 为adam,且前者学习率为1
×
10-3
,后者为1
×
10-4

[0087]
2、仿真内容:
[0088]
附图5展示了基于nfsp雷达和干扰训练过程中的学习曲线。雷达和干 扰在每一次训练之后的策略组合可以表示为在nfsp的训练 过程中,每个回合结束都基于该策略组合对二者对抗的性能进行评估,评 估结果如附图5中蓝线所示。此外,每回合结束对策略组合和 也进行对抗评估,评估结果分别如附图5中的红色和黑色线所示。 其中和分别表示随机雷达策略和随机干扰策略,也就是雷达和 干扰在每个脉冲随机选择己方行动。可以看出,在训练过程中雷达和干扰 对抗性能曲线变化平缓,其性能始终优于策略组合和的性能。
[0089]
附图6展示了利用度随训练次数的变化曲线。可以看出,随着训练的 进行,利用度逐渐下降,最终可以达到约0.05左右。即,雷达和干扰策略 组合可以达到0.025-纳什均衡。
[0090]
仿真实验二
[0091]
与dqn类方法性能的对比。
[0092]
1、仿真条件:
[0093]
这里和两种典型的用于训练多主体博弈的方法进行比较。第一种是
ꢀ“
dqn best”,也就是雷达和干扰分别基于dqn算法进行训练,并基于训练 得到的q网络进行决策—即每次决策选择q值最大的行动。第二种是“dqnaverage”,即在前述nsfp算法中将η设置为1,也就是雷达和干扰在训练 过程中只采取∈-greedy策略,算法其余部分保持不变,于是在训练结束时 可以得到一个平均策略。
[0094]
2、仿真内容:
[0095]
附图7为三种不同方法的利用度比较结果。可以看出“dqn best”方法 虽然有时可以达到较低的利用度,但整体波动较大,且算法无法收敛。原 因如下:
[0096]
(1)单主体强化学习的基本假设为环境平稳,而在雷达和干扰的对抗 场景中,将对手当做环境的一部分其实是不合理的,雷达或干扰只能基于 一部分当前记忆池中的数据更新q网络。因为对方的策略也在不停的改变, 所以记忆池中数据的分布也在不断改变,所以q网络本身波动很大,难以 收敛。
[0097]
(2)由于dqn得到的实际上是一个确定的策略,而不完美信息博弈 中随机策略通常可以达到更低的利用度。
[0098]
由附图7可以看出,“dqn average”方法的利用度在缓慢下降,但仍然 比nfsp高0.25左右。虽然“dqn average”方法也基于历史最优反应策略训 练一个监督模型,从而得到一个类似于nfsp的平均策略,但这里的最优反 应策略是由dqn产生的,如前所述,由于dqn算法在多主体场景中波动 很大,所以训练监督模型时的数据分布波动也很大,从而导致“dqn average
”ꢀ
方法性能较差。
[0099]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明, 不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简 单推演或替换,都应当视为属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献