一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机神经网络的空中对抗机动控制方法与流程

2021-11-29 13:46:00 来源:中国专利 TAG:


1.本技术涉及机器学习技术领域,具体涉及一种基于随机神经网络的空中对抗机动控制方法。


背景技术:

2.在空中对抗领域,灵动的机动控制方法是克敌制胜的关键。在传统的战机机动控制研究中,大多根据现有的机动控制理论,加固对战机模型的仿真与调试。这类机动很大程度取决于战机模型的保真度与人类对机动理论的先验知识,灵活性和可控性较差。随着人工智能研究的不断深入,战机机动控制也朝着更加智能的方向发展,其中强化学习可使得智能体在与环境的交互过程中学习到获取最大奖励的策略,是解决空中对抗问题的常用方法。
3.强化学习往往会遇到奖励稀疏的问题,例如在空战对抗场景中,只有某战机战损或击落敌方时才会得到奖励。传统的探索方法在这种任务中通常表现不佳,展示出的样本复杂度很高。解决稀疏奖励问题通常有两种思路:一是对动作进行分层,将低维度的动作组成高维度的元动作,降低搜索空间,但需要较多的领域知识和细致的设计;二是利用内在奖励来引导智能体探索,无需领域知识,但迁移性差。


技术实现要素:

4.为了解决上述问题,本技术提出一种基于随机神经网络的空中对抗机动控制方法,能够较好地解决奖励稀疏的空中对抗任务,同时探索到具有代表性的机动控制方法,提高战机在空中对抗任务中的迁移泛化能力。本发明采用随机神经网络构建立机动发现模型,并基于机动与状态间的互信息提供内在奖励,探索机动多样性。在机动控制的发现过程中,采用演说家

评论家的强化学习方法对机动控制策略进行优化,得到不同机动方法下的机动控制决策,为空战对抗任务提供高维度的元动作。
5.本技术基于随机神经网络的空中对抗机动控制方法,主要包括:
6.步骤s1、基于构建的真空对抗模型,执行战机机动决策,并与仿真环境进行交互,采集训练样本数据;
7.步骤s2、融合环境外部奖励和决策内在奖励,从而对奖励机制进行重构;
8.步骤s3、依据所采集的训练样本数据及重构的奖励机制,训练空中对抗机动控制方法。
9.优选的是,步骤s1中,所采集的样本包括:
10.当前状态信息、战机实际采取的机动决策、机动执行后的下一步状态信息、环境给予的外部奖励以及战机所选取的机动控制方法。
11.优选的是,所述机动控制方法定义为从均匀分布中抽取的机动控制编码,并作为隐变量与战机智能体的观测数据一同作为所述真空对抗模型的神经网络输入参数。
12.优选的是,步骤s2中,基于互信息理论计算所述决策内在奖励。
13.优选的是,计算所述决策内在奖励包括增加战机机动控制方法的熵,以及降低战机空中对抗状态与战机机动控制方法间的条件熵。
14.优选的是,对奖励机制进行重构包括:
15.r=r
o
αlogp(z=z|s=s)
16.其中,r是重构奖励,r
o
为环境给予的外部奖励,logp(z=z|s=s)为反比与所述条件熵的参数,α是学习率超参。
17.优选的是,步骤s3中,训练空中对抗机动控制方法时,采用基于演说家

评论家的强化学习算法,迭代优化机动控制策略网络及值网络。
18.本技术另一方面提供了一种电子设备,所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的基于随机神经网络的空中对抗机动控制方法。
19.本技术另一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的基于随机神经网络的空中对抗机动控制方法。
20.本技术能够较好地解决奖励稀疏的空中对抗任务,同时探索到具有代表性的机动控制方法,战机可在空中对抗场景中达到很好的机动控制效果,提高算法的迁移泛化能力。
附图说明
21.图1是本技术基于随机神经网络的空中对抗机动控制方法的流程图。
22.图2是采样过程中的双线性融合示意图。
23.图3是本技术的电子设备的优选实施例示意图。
具体实施方式
24.为使本技术实施的目的、技术方案和优点更加清楚,下面将结合本技术实施方式中的附图,对本技术实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本技术一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。基于本技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本技术保护的范围。下面结合附图对本技术的实施方式进行详细说明。
25.本技术第一方面提供了一种基于随机神经网络的空中对抗机动控制方法,如图1所示,主要包括:
26.步骤s1、基于构建的真空对抗模型,执行战机机动决策,并与仿真环境进行交互,采集训练样本数据;
27.步骤s2、融合环境外部奖励和决策内在奖励,从而对奖励机制进行重构;
28.步骤s3、依据所采集的训练样本数据及重构的奖励机制,训练空中对抗机动控制方法。
29.本技术采取的技术解决方案是一种基于随机神经网络的空中对抗机动控制方法。此方法根据战机采取的机动与当前的状态之间的互信息所提供的内在奖励,训练随机神经
网络,优化机动控制策略。该方法的流程包括:首先构建预训练仿真模拟系统,提供空中对抗交互环境;其次,在空中对抗过程中,搜集不同机动控制下的样本数据;之后结合机动控制与状态信息间的互信息,重构奖励机制;最后训练空中对抗机动控制策略;重复上述步骤,直至得到最优的机动控制方法。以下详细说明。
30.1)构建预训练仿真环境
31.根据实际空中对抗场景,建立战机六自由度机动模型、战场仿真环境、对抗奖励规则等与训练相关的高保真空中对抗模拟环境,帮助智能体探索和学习可用的机动控制。
32.2)样本采集
33.a)初始化随机神经网络
34.为了使战机学到不同的机动控制方法,本发明使用具有强大的表达能力的随机神经网络,拟合较为复杂的机动控制策略。本发明使用的随机神经网络采用最基本的形式,网络输入为智能体的观测和一个额外的隐变量,输出为一个多元高斯分布。这里的隐变量为战机机动控制方法,定义为从均匀分布中抽取的机动控制编码。
35.b)机动控制采样
36.为了能够获取到与机动控制编码一致的机动决策序列,在每个采样回合中,首先从机动控制分布中采样一个机动控制编码,并在整个采样回合保持该机动控制编码不变。采用该方法搜集的样本进行训练,可以保证每个机动控制编码在其分布中对应不同的机动控制方法,为战机的机动控制选择提供充足的多样性。
37.c)神经网络前传
38.该发明采用双线性融合的方法将智体的观测状态信息与机动控制编码相结合,可以提升随机神经网络性能和表达能力,使其提供更加多样的战机机动控制方法。融合方式如图2所示,其中,k为学习到的机动控制方法数目,cat函数代表均匀分布,z是某种机动控制编码,s是智能体观测到的状态信息,网络输出是该机动控制下的机动决策分布。
39.d)环境交互采样
40.根据随机神经网络输出的机动决策分布,战机选取某种机动决策,并在仿真环境中执行,可得到仿真环境反馈的状态信息与决策奖励。重复该过程,直到该回合结束。对于每一步采集的样本,可记为{s,a,s`,r
o
,z},其中s为当前状态信息,a为战机实际采取的机动决策,s`为机动执行后的下一步状态信息,r
o
为环境给予的外部奖励,z为所选取的机动控制方法。
41.3)奖励重构
42.随机神经网络的表达能力虽然很强,但却不足以使智能体学习到完全不同的机动控制,有研究表明不同机动控制所对应的机动决策序列很可能十分相似。为了使智能体能够学习到更加多样的机动控制,对对抗环境进行充分的探索,本发明基于互信息理论,为强化学习的损失函数提供额外的正则项。
43.具体来说,本发明计算当前状态和机动控制之间的互信息,如下式所示。
44.i(z:s)=h(z)

h(z|s)
45.其中,h代表熵,由于机动控制方法z的分布不变且为均匀分布,因此h(z)是一个常数。最大化信息熵可以转化为最小化条件熵h(z|s),可解释为给定当前智能体的状态信息,可以推测出战机当前使用的机动控制方法。其中,条件熵h(z|s)为
46.h(z|s)=

e
z,s
logp(z=z|s=s)
47.为了最小化h(z|s),本发明将logp(z=z|s=s)插入到原有的奖励函数中,这样智能体会采用最大化奖励的机动决策,从而最小化条件熵。该方法将正则化项与策略学习过程优雅地融合到一起,奖励函数重构如下式所示:
48.r=r
o
αlogp(z=z|s=s)
49.4)机动控制策略优化
50.a)策略网络参数优化
51.控制战机机动决策的随机神经网络参数为θ,其更新方式如下式所示,其中α是学习率超参,r是重构奖励,v(s,z)是在状态s下采取机动方法z的值。
[0052][0053]
σ=r γv(s`,z)

v(s,z)
[0054]
b)值函数网络参数优化
[0055]
一般使用mse(均方误差)损失函数来做迭代更新,相应的均方误差损失函数为
[0056]
loss=e[(r γv(s`,z)

v(s,z))2]=e[δ2]
[0057]
5)重复步骤2)至步骤4)
[0058]
随着随机神经网络的不断迭代优化,可根据输入的智能体状态和所选择的机动控制方法编码,通过与对抗抗环境的交互,不断得到网络输出的机动决策序列,从而得到该机动控制方法所对应的机动控制策略。
[0059]
本发明提出的一种基于随机神经网络的空中对抗机动控制方法,能够较好地解决奖励稀疏的空中对抗任务,同时探索到具有代表性的机动控制方法,战机可在空中对抗场景中达到很好的机动控制效果,提高算法的迁移泛化能力。
[0060]
本技术还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的基于随机神经网络的空中对抗机动控制方法。
[0061]
本技术还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的基于随机神经网络的空中对抗机动控制方法。
[0062]
图3是能够实现根据本技术一个实施例提供的电子设备示例性结构图。如图3所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
[0063]
也就是说,图3所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的无人机自主寻径模型训练方法。
[0064]
在一个实施例中,图3所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的基于随机神经网络的空中对抗机动控制方法。
[0065]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0066]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0067]
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd

rom)、数据多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0068]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0069]
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称,而不标识任何特定的顺序。
[0070]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0071]
在本实施例中所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0072]
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器
内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0073]
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0074]
需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本技术虽然以较佳实施例公开如上,但其实并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此,本技术的保护范围应当以本技术权利要求所界定的范围为准。
[0075]
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献