一种基于强化学习的无人机集群智能避障方法与流程

2022-06-25 12:47:17 来源：中国专利 TAG：

技术特征：
1.一种基于强化学习的无人机集群智能避障方法，其特征在于，集群中无人机保持集群运动并跟踪虚拟领航者，无人机不具有避障能力，将对环境的探测信息传递给虚拟领航者，使用强化学习算法训练虚拟领航者，虚拟领航者为集群无人机提供导航引导信息，实现无人机集群智能避障。2.根据权利要求1所述的一种基于强化学习的无人机集群智能避障方法，其特征在于，包括以下步骤：(1)设置无人机集群中虚拟领航者的控制算法，速度限制在10m/s～100m/s，对虚拟领航者设置目标点，为集群提供导航信息；使用强化学习算法控制虚拟领航者，无人机对环境的探测信息为虚拟领航者提供状态信息，作为训练虚拟领航者时的状态输入，输出的是虚拟领航者的速度向量，作为强化学习算法的动作空间，将集群的位置特征用集群的中心位置替代，据此设计状态空间，包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置；(2)无人机集群跟踪虚拟领航者，完成避障，并为领航者提供环境信息，保持机间距离，实现无人机集群智能避障。3.根据权利要求2所述的一种基于强化学习的无人机集群智能避障方法，其特征在于，步骤(1)中，动作空间是虚拟领航者的速度向量，并考虑速度限制和运动限制，设计网络的输出包含[v，α，β]，其中角度[α，β]限制在[-πrad，πrad]，由此得到虚拟领航者的速度向量[r cosα，r sinαsinβ，r sinαcosα]；设计奖励函数如下：r＝r
obstacle
r
leader
r
center
奖励函数包含三部分内容，r
leader
用于奖励虚拟领航者接近目的地，r
center
用于奖励集群缩小与虚拟领航者之间的距离，r
obstacle
用于奖励集群避开障碍物；设计神经网络，神经网络包括critic网络和actor网络；其中，critic网络首先使用lstm层来处理输入，然后使用两个全连接层，并使用tanh层作为它们的激活函数；actor网络由一个lstm层和一个全连接层及tanh层组成，网络的输出是一个正态分布的均值，这个分布的方差矩阵是c＝c3i，其中i是单位矩阵，c3是一个正常数；根据奖励函数，构建损失函数如下：4.根据权利要求3所述的一种基于强化学习的无人机集群智能避障方法，其特征在于，步骤(2)中，集群控制算法包括两部分，其一是控制集群中无人机保持机间距离，其二是控制集群跟踪虚拟领航者，具体来说无人机的输入如下：式中，α智能体表示集群中的任意智能体，γ智能体表示虚拟领航者，表示α智能体之间的交互项，表示虚拟领航者对集群的导航反馈项。

技术总结
本发明提供了一种基于强化学习的无人机集群智能避障方法，通过将集群算法和单智能体强化学习算法相结合，实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者，强化学习算法控制集群中的领航者完成智能避障，并为集群无人机提供导航信息，无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。和一致性性能。和一致性性能。

技术研发人员：赵伟伟
受保护的技术使用者：中国电子科技集团公司第五十四研究所
技术研发日：2022.04.18
技术公布日：2022/6/24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种智能楼宇的智能控制器的制作方法

一种基于强化学习的无人机集群智能避障方法与流程

相关文献

最热文献