一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的无人机编队环境建立与控制方法与流程

2022-02-19 13:35:18 来源:中国专利 TAG:


1.本发明涉及多强化学习控制技术领域,具体涉及基于深度强化学习的无人机编队环境建立与控制方法。


背景技术:

2.无人机作为一种非载人飞行器仅需远程无线操控或提前设置的控制程序即可完成预定任务。因为其成本低、灵活性高和机动性强等优势,无人机已经在民用和军用领域被广泛应用。但随着环境与任务的复杂性日益增加,单机的性能已经无法满足实际使用需求,而多架无人机组成的无人机编队,除了拥有单机的优势外,还具备区域范围广、侦查和打击成功率高等特点。所以无人机编队逐渐成为执行任务的主要载体。
3.然而目前常见的现代控制方法通常都需要精确模型来设计控制器,以实现无人机编队,而实际情况下对系统精确建模难度很大,除此以外传感器误差、环境扰动等影响也限制了这些控制方法的适用范围,因此引入强化学习方法实现无人机编队智能化控制。
4.在强化学习算法中,双重q学习算法凭借其简单易用,收敛性好等优势,目前在航迹规划、协同决策和单机控制等领域中具有十分广泛的应用。


技术实现要素:

5.本发明提供无人机编队环境搭建与基于深度强化学习的编队控制器设计,使僚机能够学习速度跟随长机并维持期望编队距离。
6.为达到上述目的,本发明采用如下技术方案:
7.本发明的基于深度强化学习的无人机编队环境建立与控制方法,包括如下步骤:
8.步骤1,假设长僚机都采用相同的速度一阶速度保持器和二阶航向保持器自动驾驶仪模型,再根据小扰动原理线性化,得到无人机编队相对运动学模型;
9.步骤2,设计编队环境的状态空间s、僚机动作库a、指令转化与奖励函数;
10.步骤3,使用步骤2的编队环境,基于双重q学习建立编队控制器,对设计的环境进行训练;输入为建立环境的状态s,输出为僚机动作,然后将控制器输出的动作转化为具体指令后输入到僚机。
11.进一步的,步骤1中无人机编队相对运动学模型,具体表达式为:
[0012][0013]
式(1)中,以惯性北



地为基础坐标系,地面任意一点为原点,指向北极方向为ox轴,地面上与ox轴垂直,指向东向方向为oy轴;l,f分别表示长机和僚机,均采用相同的一阶速度保持器与二阶航向保持器的驾驶仪模型;τ
v
表示速度时间常数;τ
ψa

ψb
表示航向时间常数;v表示无人机速度;ψ表示无人机航向角;v
lc
,v
fc
分别表示长机与僚机速度指令;ψ
lc

fc
分别表示长机与僚机航向指令;x表示长机与僚机x方向距离;y表示长机与僚机y方向距离;a=arctan(y0/x0),x0,y0为初始时刻长机与僚机x,y方向距离。
[0014]
进一步的,步骤2中设计环境的状态空间s、僚机动作库a、指令转化与奖励函数。具体为:
[0015]
步骤2.1,选择长机与僚机之间的y方向距离,实际距离与期望距离误差,相对速度及其积分,相对航向角及其积分为联合状态空间s,对应表达式为:
[0016][0017]
式(2)中,e
v
=v
l

v
f
为长机与僚机的相对速度;e
ψ
=ψ
l

ψ
f
为长机与僚机的相对航向角;e
y
=y
d

y为期望y方向距离与实际y方向距离误差;y
d
为期望的y方向距离;
[0018]
步骤2.2,建立僚机动作库a;其中僚机动作库a中包括僚机速度动作a1和僚机航向动作a2,僚机速度动作a1包括减速、匀速和加速,僚机航向动作a2包括左偏航、航向不变和右偏航。
[0019]
建立僚机动作库a表述式为:
[0020]
[0021]
步骤2.3,设计指令转化,将式(3)中僚机动作转化为速度与航向指令并添加限幅。
[0022][0023][0024]
式(4)(5)表示不同动作下的指令转化,v
f
表示僚机当前速度,不同动作a1下对应速度指令为v
d
;ψ
f
为僚机当前航向角,不同动作a2下对应航向角指令为ψ
d
;[v
min
,v
max
]表示僚机速度范围;[

ψ
max

max
]表示僚机航向角范围;
[0025]
步骤2.4,设计奖励函数r
[0026][0027]
式(6)中为上一时刻速度指令;为上一时刻航向角指令;t
s
为采样时间;t为进行时间;并设计环境结束条件:
[0028][0029]
式中[y
min
,y
max
]是编队设定y方向最小和最大距离。
[0030]
进一步的,步骤3中使用步骤2的编队环境,基于双重q学习建立编队控制器,对设计的环境进行训练;具体为:
[0031]
控制器包含记忆库与神经网络模型,记忆库用于存储交互信息,神经网络模型输
入为建立环境的状态空间s,输出为僚机动作;
[0032]
神经网络模型共包括两个结构相同,参数不同的网络,分别是主网络与目标网络,参数分别为θ与θ

;主网络输出所有动作估计值q,目标网络输出目标值y;
[0033]
在每次训练中,初始化编队环境状态得到状态s,输入到主网络中,输出僚机动作并输入到环境中,将控制器输出的动作经式(4)(5)转化为具体指令v
d

d
后输入到僚机,得到僚机新的状态s_与即时奖励r,并将<s,a,r,s_>存储在记忆库中;
[0034]
当记忆库满时,抽取一定量样本对神经网络模型进行训练,神经网络目标值与损失函数表达式为:
[0035]
y=r γq(s_,argmaxq(s,a|θ)|θ

)(8)
[0036]
l(θ)=e[(y

q(s,a|θ))2](9)
[0037]
式(8)表示目标值,式(9)表示损失函数,γ表示折扣率。利用梯度下降法对神经网络参数进行训练表达式为:
[0038][0039]
θ


θ(11)
[0040]
式(10)(11)表示神经网络参数更新,式(10)表示根据梯度下降法更新主网络参数,a为学习率;式(11)表示隔一定步数后,将主网络参数复制到目标网络;重复上述过程直到训练结束。
[0041]
本发明的有益效果是:本发明设计无人机编队飞行环境,并基于深度强化学习设计了编队控制器,该控制器能够使僚机自主学习最佳策略,通过控制器输出最优动作,最后使得僚机能够速度跟随长机并且保持期望间距。该方法能够有效提高无人机智能,并消除编队距离误差与速度误差,使编队具有良好的队形保持能力并具备良好的移植性。
附图说明
[0042]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0043]
图1为本发明方法的控制结构图。
[0044]
图2为本发明实施例中长

僚机速度曲线图。
[0045]
图3为本发明实施例中长

僚机y方向距离曲线图。
具体实施方式
[0046]
为使本领域技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明作进一步详细描述。
[0047]
本发明的基于深度强化学习的无人机编队环境建立与控制方法,控制结构图如图1所示,包括如下步骤:
[0048]
步骤1,假设长僚机都采用相同的速度一阶速度保持器和二阶航向保持器自动驾驶仪模型,表达式为:
[0049][0050]
式中,v表示无人机速度;v
c
表示速度指令;τ
v
表示速度时间常数,ψ表示无人机航向角;ψ
c
表示航向角指令;τ
ψa
τ
ψb
表示航向时间常数。再根据小扰动原理线性化,得到无人机编队相对运动学模型,对应的表达式为:
[0051][0052]
式(2)中,以惯性北



地为基础坐标系,地面任意一点为原点,指向北极方向为ox轴,地面上与ox轴垂直,指向东向方向为oy轴。l,f分别表示长机和僚机,均采用相同的一阶速度保持器与二阶航向保持器的驾驶仪模型;τ
v
表示速度时间常数;τ
ψa

ψb
表示航向时间常数;v表示无人机速度;ψ表示无人机航向角;v
lc
,v
fc
分别表示长机与僚机速度指令;ψ
lc

fc
分别表示长机与僚机航向指令;x表示长机与僚机x方向距离;y表示长机与僚机y方向距离;a=arctan(y0/x0),x0,y0为初始时刻长机与僚机x,y方向距离。
[0053]
步骤2,设计环境的状态空间、僚机动作库、指令转化、奖励函数与结束条件。
[0054]
步骤2.1,选择长机与僚机之间的y方向距离,实际距离与期望距离误差,相对速度及其积分,相对航向角及其积分为联合状态空间s,对应表达式为:
[0055][0056]
式(3)中,e
v
=v
l

v
f
为长机与僚机的相对速度;e
ψ
=ψ
l

ψ
f
为长机与僚机的相对航向角;e
y
=y
d

y为期望y方向距离与实际y方向距离误差;y
d
为期望的y方向距离。
[0057]
步骤2.2,建立僚机动作库a=(a1,a2),表达式为:
[0058][0059]
步骤2.3,设计指令转化,将式(4)中动作转化为速度与航向指令并添加限幅,表达式为:
[0060][0061][0062]
式(5)(6)表示不同动作下的指令转化,v
f
表示僚机当前速度,不同动作a1下对应速度指令为v
d
;ψ
f
为僚机当前航向角,不同动作a2下对应航向角指令为ψ
d
。[v
min
,v
max
]表示僚机速度范围;[

ψ
max

max
]表示僚机航向角范围。
[0063]
步骤2.4,设计奖励函数r
[0064][0065]
式(7)中为上一时刻速度指令;为上一时刻航向角指令;t
s
为采样时间;t为进行时间。并设计环境结束条件:
[0066]
[0067]
式中[y
min
,y
max
]是编队设定y方向最小和最大距离。
[0068]
步骤3,使用步骤2的编队环境,基于双重q学习算法建立编队控制器,对设计的环境进行学习。控制器包含记忆库与神经网络模型,记忆库用于存储交互信息,神经网络模型输入为建立环境的状态空间s,输出为僚机动作。
[0069]
神经网络模型共包括两个结构相同,参数不同的网络,分别是主网络与目标网络,参数分别为θ与θ

。主网络输出所有动作估计值q,目标网络输出目标值y。
[0070]
具体过程为:在每次训练中,初始化编队环境状态得到状态s,输入到主网络中,输出僚机动作并输入到环境中,将控制器输出的动作经式(5)(6)转化为具体指令v
d

d
后输入到僚机,得到僚机新的状态s_与奖励r,并将<s,a,r,s_存储在记忆库中。
[0071]
当记忆库满时,抽取一定量样本对神经网络模型进行训练,神经网络目标值与损失函数表达式为:
[0072]
y=r γq(s_,argmaxq(s,a|θ)|θ

)(9)
[0073]
l(θ)=e[(y

q(s,a|θ))2](10)
[0074]
式(9)表示目标值,式(10)表示损失函数,利用梯度下降法对神经网络参数进行训练表达式为:
[0075][0076]
θ


θ(12)
[0077]
式(11)(12)表示神经网络参数更新,式(11)表示根据梯度下降法更新主网络参数,a为学习率。式(12)表示隔一定步数后,将主网络参数复制到目标网络。重复上述过程直到训练结束。
[0078]
本实施例的数值仿真验证如下,设置长僚机速度范围为[30,70]m/s;航向角范围[

20,20]
°
。初始时刻,长机与僚机速度均为50m/s,航向角为0
°
,保持x,y方向距离为500m向前飞行。更改长机指令与期望编队距离,得到结果如图2与图3。
[0079]
从上述仿真结果看出,当长机速度变化时,僚机可以很好的速度跟随,且速度误差基本能够保持在0.1,这与奖励函数设计一致。同时僚机通过调整航向角改变y方向间距,僚机能够从初始间距500m跟踪到期望距离250m,指令改变后,僚机能够跟踪到300m。僚机可以无先验知识情况下僚机自主学习到最优策略,该结果说明了设计的双重q学习控制器有效性。
[0080]
本发明根据实际飞行情况建立无人机编队运动环境,此环境与实际情况相符,可以直接移植到其他算法中进行训练学习;本发明设计了无人机编队飞行环境,并基于双重q学习,设计编队控制器,控制器同时控制速度与航向,控制僚机跟踪长机,并维持到期望间距。
[0081]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献