一种基于强化学习的无人飞行器自主编队智能控制方法与流程

2022-07-30 15:27:49 来源：中国专利 TAG：

1.本发明属于多飞行器智能编队控制技术领域，具体来说是一种基于强化学习的无人飞行器自主编队智能控制方法。

背景技术：

2.在真实世界中，存在一些较为复杂的系统，如非常规布局的无人飞行器，其系统的非线性程度、时变或非时变、比例或积分特性、时间常数、过渡过程时间等先验知识获取难度较大，而这些先验知识对预选系统数学模型种类和辨识试验设计将起到指导性的作用。如果系统的结构、组成和运动规律是已知的，适合于通过机理分析进行建模，则系统可以称为“白盒”，例如常规布局的固定翼飞行器、旋翼无人机等，此类系统可通过大量有效的队形设计方法以及队形控制方法实现协同编队控制，协同完成任务。如果系统的客观规律不清楚，只能从系统的试验中测量系统的响应数据，应用辨识方法建立系统的数学模型，则称系统为“黑盒”，例如包含多个开裂舵面的非常规布局的固定翼飞行器、可变翼型飞行器等。而通过传统的系统辨识方法得到的数学模型会产生很大的近似残差，无法有效获得精确的数学模型。无人机集群是执行任务的主要载体，多无人飞行器智能编队控制技术是一个研究热点。
3.随着人工智能技术的发展与突破，深度强化学习的研究得到了广泛的关注以及应用。强化学习(reinforcement learning,rl)是一个智能体通过其与环境的交互来最大化/最小化其累积奖励/累积代价函数的过程。这类似于优化长期目标函数的最优控制。强化学习与控制的关系推动了rl技术在控制领域的广泛应用。多无人飞行器智能编队问题属于多智能体协同控制问题。现有的解决多智能体协同控制问题的经典rl方法主要可分为两类:基于值的方法和基于策略的方法。
4.q学习方法是最常见和最直接的基于值的方法，用深度神经网络(deep neural network, dnn)拟合价值函数估计器的深度q学习方法(deep q network,dqn)在rl中得到了广泛的应用。但是dqn是一个面向离散控制的算法，即网络的输出是所有可能执行的动作的概率，是离散的动作。然而在实际中，控制问题则是连续的、高维的，比如一个具有升降舵、副翼和方向舵的无人机，每组舵面的偏转角度输出是连续值，假设范围是-50
°
～50
°
，归一化后为 (-1,1)。若把每组舵偏角取值范围离散化，比如精度到0.01，则一个关节有200个取值，那么3组舵面共有600维度的动作值，学习起来数据量太大，效率较低。
5.基于策略的方法，比如策略梯度(policy gradient,pg)方法是另外一种被广泛应用的强化学习方法。众所周知，策略梯度方法中的梯度估计值具有高方差的问题。这种情况在多智能体系统的学习任务中更为严重。行动者-评价者(actor-critic,ac)方法是基于价值和基于策略的强化学习方法的结合，ac方法综合了基于值的在线策略学习的无偏性和稳定性，以及基于策略梯度的离线策略学习的数据采样效率的优势。深度确定性策略梯度(deep deterministicpolicy gradient,ddpg)是一种无模型的基于离线策略的ac算法，利用dqn扩展q学习算法的思路对确定性策略梯度(deterministic policy gradient,
dpg)方法进行改造，其策略模型和评价者模型都用dnn近似，它结合了dpg和dqn的特点，该算法可用于解决连续动作空间上的深度强化学习问题。多智能体深度确定性策略梯度(multi-agent ddpg,maddpg) 将ddpg扩展到一个多智能体环境中，是一个经过重新设计的ac模型，旨在解决不断变化的环境与智能体之间的互动问题。
6.目前多无人飞行器智能编队技术中，非常规布局的无人飞行器应用越来越广泛，由于无法获取无人机精确的数学大规模，多采用流体仿真获取气动参数，计算消耗量大，不利获取多无人机协同编队控制策略。而利用强化学习技术多是针对常规布局的无人飞行器的编队。而随着任务的复杂度，参与执行任务的无人飞行器数量也越多，若采用中心式控制方式，多智能体状态空间随规模的增大呈现指数爆炸现象。

技术实现要素：

7.针对非常规布局的无人飞行器的编队控制问题，本发明提出一种基于强化学习的无人飞行器自主编队智能控制方法，基于maddpg网络模型实现多无人机编队的自适应动态规划。本发明方法利用现有的和过去的系统经验数据，让飞行器学习与周围飞行器保持一致或者保持相应队形的控制调节方法，利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化能力，利用强化学习使累积奖励最大化来获取高性能的协同控制策略。
8.本发明的基于强化学习的无人飞行器自主编队智能控制方法，包括如下步骤：
9.步骤1，构建多无人飞行器系统模型，确定多无人飞行器协同编队的任务目标；
10.步骤2，基于强化学习为每个跟随无人飞行器构建自主编队协同控制器；
11.步骤3，训练自主编队协同控制器，以用于完成多无人飞行器协同编队任务。
12.所述步骤1中，设多无人飞行器系统包括1个领航者和n个跟随者，在t时刻，领航者的状态向量为x0(t)，跟随者i的状态向量为xi(t)，i＝1,2,
…
,n，n为正整数；多无人飞行器协同编队的任务目标表示为：使所有跟随者通过自主训练学习与领航者形成期望队形，设fi为跟随者i的期望位置信息，对于任意有界的初始状态，若跟随者与领航者的队形保持误差，满足i＝1,2,
…
,n，则表示多无人飞行器系统实现了期望队形保持。
13.所述步骤2中，自主编队协同控制器采用maddpg框架，包括四个深度神经网络：基于策略梯度的编队行为者网络和编队目标行为者网络，基于值的编队评价者网络和编队目标评价者网络。其中，无人飞行器i来说：编队行为者网络的输入是飞行器i的邻域飞行器的位置信息，输出动作是飞行器i的速度；编队行动者网络的目标是最小化达到期望编队队形的累积代价。编队评价者网络的输入是飞行器i及其邻域飞行器的编队行为者网络的输出动作，以及飞行器i及其邻域飞行器使用对应动作与环境交互后的位置。编队评价者网络的输出是飞行器i的值函数，用于表示飞行器i及其邻域飞行器的期望编队的误差。编队目标行为者网络的结构和输入、输出与编队行为者网络相同，定期利用经验池中的数据更新网络参数，为编队行为者网络提供一个参考目标。编队目标评价者网络的结构和输入、输出与编队评价者网络相同，定期利用经验池中的数据更新网络参数，为编队目标评价者网络提供一个参考目标。
14.自主编队协同控制器中还包括经验池，用于存储所有飞行器的元组数据，元组表
示为 (x,a,r,x')，其中x记录所有飞行器当前位置，a记录所有飞行器通过编队行为者网络得到的速度，r记录所有飞行器执行动作a后从环境中得到的奖励，x
′
记录所有飞行器通过动作 a与环境交互后转换的下一个位置。
15.相对于现有技术，本发明的优点和积极效果在于：
16.(1)对于模型较为复杂的飞行器来说，其精确的数学模型无法获得，通过流体仿真获取相应的气动参数需要消耗大量的计算成本。本发明方法针对这一难点，设计基于强化学习的黑盒控制器，展开其中编队队形的控制方法研究。本发明研究了基于maddpg方法的多飞行器协同编队控制问题，利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化能力；利用训练过程中现有的和过去的系统经验数据，让飞行器学习与周围飞行器保持一致或者保持相应队形的控制调节方法，利用强化学习使累积奖励最大化来获取高性能的协同控制策略；学习的过程中，对单个飞行器来说，环境的状态转移模型是未知的，通过不断环境进行交互、不断试错的过程中，强化有利于系统控制的信号，从而改善深度神经网络的参数，使深度神经网络具有更好的控制特性，因此只需通过多飞行器系统与环境交互过程中不断地试错来得到最优控制策略，不需要系统精确的运动模型。
17.(2)本发明方法采用部分中心化训练分散式执行的强化学习框架，相对于现有模型，本模型是完全分布式的，其中部分中心化是指单个智能体策略网络的优化过程中仅使用能观测到的邻居节点的信息而不是其他所有智能体的信息，在提高采样效率的同时，不会有过多的信息输入，从而适用于大规模的多智能体系统，不会存在状态空间随规模的增大而呈现指数爆炸的现象；分散式执行是指训练完成之后每个智能体以分散的方式行动。本发明方法的强化学习网络框架在合作和竞争的环境中同样适用。
附图说明
18.图1是本发明方法所构建的maddpg框架的自主编队协同控制器示意图；
19.图2是本发明实施例的一个多无人飞行器通信的有向连通图；
20.图3是本发明实施例中累积价值曲线示意图；
21.图4是本发明实施例中即时奖励曲线示意图；
22.图5是本发明实施例中单回合多智能体训练前后状态对比图。
具体实施方式
23.下面将结合附图和实施例对本发明作进一步的详细说明。
24.本发明针对多智能体系统设计了一个maddpg框架，并将该框架应用于多无人机系统，实现模型复杂的多飞行器智能协同编队，共同完成特定的队形保持、冲突协调以及避免碰撞等协同目标。利用深度神经网络代替精确的数学模型来拟合复杂系统的非线性特性以及泛化能力。本发明采用完全分布式去中心化的信息传递协议，每个飞行器只会利用邻域内可观测到的飞行器的信息作为经验数据进行自身参数的训练，适用于大规模的多智能体系统。
25.首先，说明本发明实施例的多无人飞行器模型以及协同编队任务目标。
26.考虑一个由1个领航者和n个跟随者组成的多飞行器系统，领航者飞行器编号为0，
表示为节点v0，跟随者编号i＝1,2,
…
,n，跟随者i表示为节点vi。其中，每个跟随节点的动态模型如下：
[0027][0028]
其中，表示节点vi在t时刻的状态向量，表示xi(t)的一阶导数，表示实数域，n表示节点状态向量的维度；为系统矩阵，为输入矩阵。对于所有的跟随节点，a和b都是未知的。表示节点vi在t时刻的控制输入向量，m表示节点控制输入向量的维度。x0(t)代表领航者节点在t时刻的状态向量。参考系统，即领航者的动态模型，表示为：本发明实施例中，节点的状态向量包含飞行器的位置，节点的控制输入向量包含飞行器的速度。
[0029]
本发明的目标是使所有无模型的跟随者飞行器基于强化学习模型通过自主训练学习与领航者形成期望队形，即其中，fi为编队队形参数，其定义如下：领航节点与跟随节点之间的期望队形关系定义为：f
it
表示fi的转置，fi表示节点i的编队队形参数，编队队形参数也即节点的期望位置信息。
[0030]
对于任意有界的初始状态，跟随者节点与领航者的队形保持误差若满足：
[0031][0032]
则称多无人飞行器系统实现了编队队形保持。
[0033]
在上述目标下，本发明基于maddpg框架进行智能编队队形控制器设计。如图1所示，本发明的maddpg框架中，为每个飞行器都构建一个自主编队协同控制器，协同控制器中包含四个深度神经网络，也即，基于策略梯度的编队行为者网络和编队目标行为者网络，基于值的编队评价者网络和编队目标评价者网络。如图1所示，actor网络、critic网络、actor 目标网络和critic目标网络分别对应的编队行为者网络、编队评价者网络、编队目标行为者网络以及编队目标评价者网络。本发明使用maddpg框架，通过构造目标行为者-评价者网络带来了更有效、更稳定的学习过程，具体自主编队协同控制器的结构说明如下。
[0034]
(1)编队行为者网络：无人飞行器节点vi的行为者网络的参数为θ
ai
，该深度神经网络的输入为环境中得到的节点vi的邻域飞行器的状态，状态包括飞行器的位置信息，输出为节点vi确定的行为ai(t)，即飞行器i的速度，值得注意的是，行为者网络输出的行为是连续可微的。
[0035]
(2)编队评价者网络：无人飞行器节点vi的编队评价者网络的作用是估计该节点的值函数也即该飞行器与邻域内飞行器期望编队的误差；节点vi的编队评价者网络的输入为节点vi及其邻域内节点vj,的编队行为者网络的输出动作，也即飞行器i及其邻域内飞行器的速度信息，以及使用该动作与环境交互之后转换得到的状态，也即飞行器 i及其邻域内飞行器当前的位置信息，编队评价者网络的输出是节点vi的值函数。表示无人飞行器节点vi的邻域内飞行器节点集合，分别表示飞行器
估计价值。
[0043]
其中，定义如下：
[0044][0045]
是从飞行器i的编队目标评价者网络中估计的下一个状态的价值。是从经验池中采样得到的邻域内节点采取动作之后的状态，是在状态下从编队目标行为者网络中输出的动作，γ是折扣因子。ri是飞行器i采取动作ai之后从环境中得到的奖励。本发明中领航者与跟随者飞行器在协同编队控制场景中的奖励函数设计如下：
[0046]
领航者节点v0的奖励函数r0(t)为：
[0047][0048]
其中p
tar
是编队的目标位置，是预先设定的领航者期望位置。
[0049]
跟随者节点vi的奖励函数ri(t)为：
[0050][0051]
其中，
[0052]zij
(t)＝a
ij
[(xi(t)-fi)-(xj(t)-fj)]；
[0053]aij
为飞行器vi与邻域节点vj的邻接矩阵参数，如果vi与vj可通信，则a
ij
＝1，否则a
ij
＝0。
[0054]
编队行动者网络是一个确定性的策略，它的目标是最大化累积奖励，也即最小化达到期望编队队形的累积代价，累积奖励j(θ
ai
)定义为：
[0055][0056]
上式的梯度可表示为：
[0057][0058]
其中，θ
ai
表示编队行为者网络的参数，表示节点vi的状态xi输入编队行为者网络得到行为ai。从节点vi的编队评价者网络中得到，相对于连续的动作ai是可微的。ai表示节点vi的动作。
[0059]
本发明对maddpg框架的多飞行器自主编队协同控制器，进行训练的流程如下：
[0060]
(1)初始化：首先初始化上述四个深度神经网络的超参数，然后随机初始化所有飞行器节点v1,v2,...,vn的初始位置状态x，其中x在[-1,0]范围内服从均匀分布；
[0061]
(2)执行每个回合的仿真，仿真步骤如下：
[0062]
(2.1)编队行为者网络生成动作：对于每个飞行器节点vi，将状态输入到该节点的行为者网络可得到相应的速度输出：其中n
t
表示环境中的噪声；
[0063]
(2.2)与仿真环境交互：每个飞行器节点通过按照上一步得到的速度进行运动，即采取 a＝{a1(t),a2(t),...,an(t)}与环境进行交互，并且观察得到环境反馈给各个节点的
奖励ri，以及转移到的下一个位置状态x
′
；
[0064]
(2.3)保存经验数据：将仿真得到的经验数据元组存放到缓存中；
[0065]
(2.4)更新所有节点的位置状态：令x
←
x
′
；
[0066]
(2.5)学习过程：当经验池中的数据积累到一定数量之后，开始学习更新网络参数，具体学习步骤如下：
[0067]
(2.5.1)采样训练样本：从经验池中随机采样批量样本数据(xj,aj,rj,x
′j)，其中是飞行器节点vi邻域内的所有节点的数据，也包含节点vi的数据；xj是飞行器节点vj的当前位置，aj是飞行器节点vj在当前状态xj下通过编队行为者网络得到的速度，rj是飞行器节点 vj在采取动作aj后从环境中得到的奖励，x
′j是飞行器节点vj在采取动作aj与环境交互后转换的下一个位置；
[0068]
(2.5.2)计算代价函数：计算td误差；
[0069]
(2.5.3)更新编队评价者参数θ
ci
：编队评价者网络参数的更新目标是使td误差降为0，如公式(3)所示；
[0070]
(2.5.4)更新编队行为者参数θ
ai
：编队行为者网络参数的更新通过编队任务的累积奖励梯度方程得到；
[0071]
(2.6)更新目标行为者和目标评价值网络参数：行为者-评价者网络经过一定回合的学习更新之后，目标网络参数θ
ai
′
和θ
ci
′
通过下式更新：
[0072][0073]
其中，τi为神经网络参数更新频率；θa′i(old)、θa′i(new)分别是飞行器i的编队目标行为者网络的当前参数和更新后参数；θ
′
ci
(old)、θ
′
ci
(new)分别是飞行器i的编队目标评价值网络的当前参数和更新后参数；
[0074]
(3)循环执行m回合仿真学习：重复步骤(2)，直到训练完成m回合仿真；
[0075]
(4)保存仿真数据，分析编队队形控制仿真结果。
[0076]
实施例
[0077]
仿真环境设置：为了进一步研究所本发明方法的有效性，本发明将maddpg方法应用基于领航-跟随者模型架构的飞行器协同编队控制问题中。研究对象为如图2中有向连通图所约束下的包含4个智能体的系统，也即n＝4。该多飞行器系统的任务是花费最小的累积代价协同地进行轨迹跟踪以及目标跟踪，在执行任务的同时，跟随飞行器与领航飞行器也需要保持一个稳定的队形。该多飞行器系统的目标位置设置在p
tar
＝(1.0,1.0)。在此场景下，状态空间以及动作空间分别定义为所有飞行器的二维位置以及在两个方向上的连续的移动变量。在深度学习网络中，本发明经过大量的调参，总结出如下参数设置，其中，本发明利用 adam优化器进行梯度更新，设置学习率α＝0.01，设置折扣因子γ＝0.9，在maddpg算法中，经验池的容量设置为106，每次学习更新随机选取的样本大小为1024个单位的数据。所有的仿真都是基于ubuntu18.04下的python语言，基于pytorch深度学习库，仿真环境是在 gym的基础上进行设计。
[0078]
仿真结果分析与讨论：仿真结果如图3～5所示。图3表示所有飞行器的长期累积奖励之和，从图中可以得出结论，随着训练学习的回合越来越多，经验数据的累积也在增加，
系统达到目标队形以及目标位置所需花费的代价越来越少，也即，在随机初始状态下能更快的形成期望的队形，然后到达目标位置。在学习50000回合之后，最终为了消除初始误差所需花费的代价可以稳定在6以内，这符合设定的条件。图4表示在一个回合中，每一个仿真步长下从环境中得到的奖励，也即当前的队形跟踪误差，本发明观察可得，在学习50000回合之后，这四个智能体会很快的收敛到一个稳定的队形，在学习30000回合之后，跟踪误差基本上就可以在1秒内收敛到0，从而验证了本发明方法的有效性。最终的仿真视景如图5所示，本发明可以观察得到，四个节点从初始的随机状态出发，1s之后跟随者节点与领航者节点基本上形成了一个稳定的队形，2s，3s按照稳定的期望队形移动，最终在第四秒的时候达到最终的目标位置。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于RFID和9DOF数据的AGV导航系统及方法

一种基于强化学习的无人飞行器自主编队智能控制方法与流程

相关文献

最热文献