一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机神经网络的空中对抗机动控制方法与流程

2021-11-29 13:46:00 来源:中国专利 TAG:

技术特征:
1.一种基于随机神经网络的空中对抗机动控制方法,其特征在于,包括:步骤s1、基于构建的真空对抗模型,执行战机机动决策,并与仿真环境进行交互,采集训练样本数据;步骤s2、融合环境外部奖励和决策内在奖励,从而对奖励机制进行重构;步骤s3、依据所采集的训练样本数据及重构的奖励机制,训练空中对抗机动控制方法。2.如权利要求1所述的基于随机神经网络的空中对抗机动控制方法,其特征在于,步骤s1中,所采集的样本包括:当前状态信息、战机实际采取的机动决策、机动执行后的下一步状态信息、环境给予的外部奖励以及战机所选取的机动控制方法。3.如权利要求2所述的基于随机神经网络的空中对抗机动控制方法,其特征在于,所述机动控制方法定义为从均匀分布中抽取的机动控制编码,并作为隐变量与战机智能体的观测数据一同作为所述真空对抗模型的神经网络输入参数。4.如权利要求1所述的基于随机神经网络的空中对抗机动控制方法,其特征在于,步骤s2中,基于互信息理论计算所述决策内在奖励。5.如权利要求3所述的基于随机神经网络的空中对抗机动控制方法,其特征在于,计算所述决策内在奖励包括增加战机机动控制方法的熵,以及降低战机空中对抗状态与战机机动控制方法间的条件熵。6.如权利要求5所述的基于随机神经网络的空中对抗机动控制方法,其特征在于,对奖励机制进行重构包括:r=r
o
αlogp(z=z|s=s)其中,r是重构奖励,r
o
为环境给予的外部奖励,logp(z=z|s=s)为反比与所述条件熵的参数,α是学习率超参。7.如权利要求1所述的基于随机神经网络的空中对抗机动控制方法,其特征在于,步骤s3中,训练空中对抗机动控制方法时,采用基于演说家

评论家的强化学习算法,迭代优化机动控制策略网络及值网络。8.一种电子设备,其特征在于,所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的基于随机神经网络的空中对抗机动控制方法。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的基于随机神经网络的空中对抗机动控制方法。

技术总结
本申请涉及机器学习技术领域,具体涉及一种基于随机神经网络的空中对抗机动控制方法。该方法包括:步骤S1、基于构建的真空对抗模型,执行战机机动决策,并与仿真环境进行交互,采集训练样本数据;步骤S2、融合环境外部奖励和决策内在奖励,从而对奖励机制进行重构;步骤S3、依据所采集的训练样本数据及重构的奖励机制,训练空中对抗机动控制方法。基于本申请的空中对抗机动控制方法,战机可在空中对抗场景中达到很好的机动控制效果,提高了算法的迁移泛化能力。泛化能力。泛化能力。


技术研发人员:韩玥 朴海音 孙智孝 杨晟琦 彭宣淇 孙阳 樊松源 于津 王鹤 卢长谦
受保护的技术使用者:中国航空工业集团公司沈阳飞机设计研究所
技术研发日:2021.08.07
技术公布日:2021/11/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献