一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于强化学习的无人机集群智能避障方法与流程

2022-06-25 12:47:17 来源:中国专利 TAG:

技术特征:
1.一种基于强化学习的无人机集群智能避障方法,其特征在于,集群中无人机保持集群运动并跟踪虚拟领航者,无人机不具有避障能力,将对环境的探测信息传递给虚拟领航者,使用强化学习算法训练虚拟领航者,虚拟领航者为集群无人机提供导航引导信息,实现无人机集群智能避障。2.根据权利要求1所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,包括以下步骤:(1)设置无人机集群中虚拟领航者的控制算法,速度限制在10m/s~100m/s,对虚拟领航者设置目标点,为集群提供导航信息;使用强化学习算法控制虚拟领航者,无人机对环境的探测信息为虚拟领航者提供状态信息,作为训练虚拟领航者时的状态输入,输出的是虚拟领航者的速度向量,作为强化学习算法的动作空间,将集群的位置特征用集群的中心位置替代,据此设计状态空间,包括虚拟领航者和集群的相对位置、虚拟领航者与目标之间的相对位置、集群与障碍物的相对位置;(2)无人机集群跟踪虚拟领航者,完成避障,并为领航者提供环境信息,保持机间距离,实现无人机集群智能避障。3.根据权利要求2所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,步骤(1)中,动作空间是虚拟领航者的速度向量,并考虑速度限制和运动限制,设计网络的输出包含[v,α,β],其中角度[α,β]限制在[-πrad,πrad],由此得到虚拟领航者的速度向量[r cosα,r sinαsinβ,r sinαcosα];设计奖励函数如下:r=r
obstacle
r
leader
r
center
奖励函数包含三部分内容,r
leader
用于奖励虚拟领航者接近目的地,r
center
用于奖励集群缩小与虚拟领航者之间的距离,r
obstacle
用于奖励集群避开障碍物;设计神经网络,神经网络包括critic网络和actor网络;其中,critic网络首先使用lstm层来处理输入,然后使用两个全连接层,并使用tanh层作为它们的激活函数;actor网络由一个lstm层和一个全连接层及tanh层组成,网络的输出是一个正态分布的均值,这个分布的方差矩阵是c=c3i,其中i是单位矩阵,c3是一个正常数;根据奖励函数,构建损失函数如下:4.根据权利要求3所述的一种基于强化学习的无人机集群智能避障方法,其特征在于,步骤(2)中,集群控制算法包括两部分,其一是控制集群中无人机保持机间距离,其二是控制集群跟踪虚拟领航者,具体来说无人机的输入如下:式中,α智能体表示集群中的任意智能体,γ智能体表示虚拟领航者,表示α智能体之间的交互项,表示虚拟领航者对集群的导航反馈项。

技术总结
本发明提供了一种基于强化学习的无人机集群智能避障方法,通过将集群算法和单智能体强化学习算法相结合,实现无人机集群智能避障。该方法控制无人机进行集群运动并跟踪领航者,强化学习算法控制集群中的领航者完成智能避障,并为集群无人机提供导航信息,无人机集群对环境的探测信息为虚拟领航者提供环境状态信息。本发明可有效提升无人机集群避障性能和一致性性能。和一致性性能。和一致性性能。


技术研发人员:赵伟伟
受保护的技术使用者:中国电子科技集团公司第五十四研究所
技术研发日:2022.04.18
技术公布日:2022/6/24
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献