一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

运动学约束条件下基于深度强化学习的UAV路径规划方法与流程

2022-02-22 09:56:53 来源:中国专利 TAG:

运动学约束条件下基于深度强化学习的uav路径规划方法
技术领域
1.本发明属于无人机路径规划设计领域,具体涉及一种运动学约束条件下基于深度强化学习的uav路径规划方法。


背景技术:

2.在民用、军事等领域中,无人机通常要在多个目标点执行任务,而寻找一条最优路径来遍历所有目标点是无人机应用研究的一项关键技术,即路径规划问题。
3.通常地,路径规划问题分为以下三类:
4.1)数值方法,如混合整数规划的方法;但数值方法通常需要求解非凸优化的问题,不仅需要专门的商用软件(如cplex)且耗时长。
5.2)传统智能算法,如遗传算法,蚁群算法,贪婪算法,模拟退火法等。然而,群智能算法容易陷入局部最优,并由于其算子的实现拥有许多参数,如交叉率和变异率,这些参数的选择,可能会导致求解过早收敛的问题;且传统智能算法只能给出接近最优的解决方案,无法保证或者全局最优解。
6.3)基于强化学习的算法。强化学习的原理是智能体通过观察当前状态选择动作,并根据得到的奖励值进行学习的算法。相较于数值算法和传统智能算法,强化学习基于马尔可夫过程,其利用马尔可夫矩阵必定收敛的性质进行全局规划。


技术实现要素:

7.为解决现有技术中的不足,本发明提供一种运动学约束条件下基于深度强化学习的uav路径规划方法,提出了一种基于online和offline的框架,不仅解决了q-learning中状态和动作都是高维的问题,而且在解决tsp问题的同时考虑运动学模型并避开动态障碍物。
8.本发明中主要采用的技术方案为:
9.一种运动学约束条件下基于深度强化学习的uav路径规划方法,具体步骤如下:
10.s1:当无人机在基地时,根据多个任务点以及静态障碍物的向量坐标,使用深度强化学习神经网络得出无人机在运动学约束下的最短路径;
11.s2:无人机起飞后沿着最短路径飞行执行任务;
12.s3:在执行任务过程中,当无人机上的雷达探测到5km里内存在动态障碍物,无人机通过无线电向基地发送动态障碍物以及剩余任务点的向量坐标,并在收到基地的反馈信号前,沿着原先路径飞行,基地的超级计算机根据无人机从发送信号到接收信号的时间t0预测无人机接收信号时所在的位置;
13.s4:基地的超级计算机根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出所有动作的q值,并由此生成新的动作选择策略ε-greedy,根据新的动作选择策略ε-greedy选择动作即得到新的飞行路径,并通过无线电将新的路径发送给无人机;
14.s5:无人机在收到反馈信号后,沿着新的路径执行任务,执行完所有任务后最终返
回基地,无人机任务完成。
15.优选地,所述步骤s1中使用深度强化学习神经网络得出无人机在运动学约束下的最短路径的具体步骤如下:
16.s1-1:当无人机在基地时,将n个目标任务点依次编号为1,2,3
……
n,将基地编号为0,设无人机的状态向量维度为n 2,且无人机状态向量中第一位为0,代表基地编号,最后一位为θi,代表当前编号为i的任务点入射角,中间的位数根据无人机到达的任务点更新为任务点编号,因此,无人机在基地的初始状态向量如下所示:
17.s
initial
=[0,0,0,

,0,θ0]
t
ꢀꢀ
(1);
[0018]
其中,第一位为0,代表基地编号,其他的0代表任务点未到达时的初始状态,θ0表示无人机在基地0处的入射角;
[0019]
s1-2:将无人机状态向量作为深度强化学习神经网络的输入,由深度强化学习神经网络求解选择哪一种动作可以使得在运动学约束下总距离最短,即q值最大,由此生成动作选择策略ε-greedy;
[0020]
s1-3:深度强化学习神经网络根据动作选择策略ε-greedy选择动作,决定去往哪个任务点以及以什么角度飞出,当随机数小于ε时,随机探索,当随机数大于等于ε时,选择q值最大的动作,因此,无人机的状态更新为:
[0021]sbcd
=[0,b,c,d,0

,0,θd]
t
ꢀꢀ
(2);
[0022]
其中,b,c,d为无人机依次到达的任务点编号,θd为任务点编号为d的入射角,无人机的状态向量为无人机已经飞行的任务点编号顺序,每做一个动作,无人机的状态向量就更新一次。
[0023]
优选地,所述深度强化学习神经网络包括两个相同结构的神经网络:神经网络q
eval
和神经网络q
target
,初始化期间,两个神经网络的参数权值相同,随后,神经网络q
eval
在生成动作选择策略ε-greedy的同时每隔h步进行反向传递训练更新神经q
eval
网络的网络参数ω,得到新的神经网络q
eval
,具体步骤如下:
[0024]
s1-21:两点之间的最短dubins曲线距离l
dubins
的计算公式如下:
[0025][0026]
式(3)中,α,β分别为两个点的入射角,d为两个点之间的直线距离,r为dubins曲线的转弯半径,r代表顺时针运动,s代表直线运动,l代表逆时针运动;
[0027]
当任意两任务点p1和p2之间不存在障碍物时,将两任务点的向量坐标代入公式(3)中计算得到两任务点的最短dubins曲线距离
[0028]
当任意两任务点p1和p2之间存在静态障碍物或动态障碍物时,两任务点的最短dubins曲线距离的具体计算步骤如下:
[0029]
先以动态障碍物或者静态障碍物的中心为圆心作半径为r的圆c2,其中,r为dubins曲线的转弯半径;随后由无人机所在的位置的运动方向,向圆c2作切线,分别得到公
切点以及向量向量表示为:
[0030][0031]
其中,分别为两个公切点的坐标,为两个公切点的入射角;
[0032]
根据两任务点p1和p2的向量坐标以及向量计算出两任务点p1和p2之间最短dubins曲线距离如公式(5)所示:
[0033][0034]
其中,分别表示任务点p1和p2的向量,其中p1为当前任务点,p2为下一个任务点;均根据公式(3)计算得到;
[0035]
s1-22:根据两个任务点之间的最短dubins曲线距离计算奖励值ρ,如公式(6)所示:
[0036][0037]
式(6)中,γ1为折扣系数,设置为0.1,用于防止因训练数据差异过大而导致梯度爆炸;
[0038]
s1-23:采用步骤s1-22计算得到的奖励值ρ计算损失函数的loss值,所述损失函数中如公式(7)所示:
[0039][0040]
式(7)中,为深度强化学习神经网络q
eval
输出的近似q值,sj为第j条数据的状态,aj为第j条数据的动作,ω为深度强化学习神经网络q
eval
中需要训练的参数,yj为无人机通过即时奖励值计算得到的q值,如公式(8)所示:
[0041][0042]
式(8)中,ρj表示在状态sj采取动作aj获得的即时奖励值,γ2为折扣系数,设置为0.01,为深度强化学习神经网络q
target
预测在状态s

j 1
采取动作a
′j所能获得的最大q值,其中,状态s

j 1
为公式(8)中状态sj采取动作aj后的状态,a
′j为无人机在状态s

j 1
所能获得最大q值的动作;
[0043]
s1-24:根据步骤s1-23获得的loss值反向传递训练更新神经q
eval
网络的网络参数ω,此外,每隔5*h步,将神经网络q
eval
的ω赋给ω

对网络q
target
进行更新。
[0044]
优选地,所述神经网络q
eval
和神经网络q
target
均包含3个卷积层和3个全连接层,每个卷积层的卷积核尺寸为4
×
4,步长为3
×
3,输出的动作数量为n
×
24。
[0045]
有益效果:本发明提供一种运动学约束条件下基于深度强化学习的uav路径规划方法,采用深度强化学习dqn(deep q-learning)得到无人机的路径规划,具有如下优点:
[0046]
(1)针对强化学习无法处理高维的复杂问题,深度强化学习(drl)使用神经网络来近似q值,解决了强化学习的缺陷;
[0047]
(2)由于探索率ε的存在,算法可以探索全局最优解,克服了过早收敛的问题;
[0048]
(3)相较于传统智能算法,能得到运动学约束条件下的最优解,具有一定的避障功能,可广泛应用于民事或军事上多目标点的巡视、检测或物流派送等方面。
附图说明
[0049]
图1为本发明的路径规划方法流程图;
[0050]
图2为本发明中遇到动态或静态障碍物的路径规划示意图。
具体实施方式
[0051]
为了使本技术领域的人员更好地理解本技术中的技术方案,下面对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
[0052]
实施例1
[0053]
如图1所示,一种运动学约束条件下基于深度强化学习的uav路径规划方法,具体步骤如下:
[0054]
s1:当无人机在基地时,根据多个任务点以及静态障碍物的向量坐标,使用深度强化学习神经网络得出无人机在运动学约束下的最短路径,其中,最短路径的具体步骤如下:
[0055]
s1-1:当无人机在基地时,将n个目标任务点依次编号为1,2,3
……
n,将基地编号为0,设无人机的状态向量维度为n 2,且无人机状态向量中第一位为0,代表基地编号,最后一位为θi,代表当前编号为i的任务点入射角,中间的位数根据无人机到达的任务点更新为任务点编号,因此,无人机在基地的初始状态向量如下所示:
[0056]sinitial
=[0,0,0,

,0,θ0]
t
ꢀꢀ
(1);
[0057]
其中,第一位为0,代表基地编号,其他的0代表任务点未到达时的初始状态,θ0表示无人机在基地0处的入射角;
[0058]
s1-2:将无人机状态向量作为深度强化学习神经网络的输入,由深度强化学习神经网络求解选择哪一种动作可以使得在运动学约束下总距离最短,即q值最大,由此生成动作选择策略ε-greedy;
[0059]
s1-3:深度强化学习神经网络根据动作选择策略ε-greedy选择动作,决定去往哪个任务点以及以什么角度飞出,当随机数小于ε时,随机探索,当随机数大于等于ε时,选择q值最大的动作,因此,无人机的状态更新为:
[0060]sbcd
=[0,b,c,d,0

,0,θd]
t
ꢀꢀ
(2);
[0061]
其中,b,c,d为无人机依次到达的任务点编号,θd为任务点编号为d的入射角,无人机的状态向量为无人机已经飞行的任务点编号顺序,每做一个动作,无人机的状态向量就更新一次。
[0062]
s2:无人机起飞后沿着最短路径飞行执行任务;
[0063]
s3:在执行任务过程中,当无人机上的雷达探测到5km里内存在动态障碍物,无人机通过无线电向基地发送动态障碍物以及剩余任务点的向量坐标,并在收到基地的反馈信号前,沿着原先路径飞行,基地的超级计算机根据无人机从发送信号到接收信号的时间t0预测无人机接收信号时所在的位置;
[0064]
s4:基地的超级计算机根据动态障碍物以及剩余任务点的坐标使用深度强化学习神经网络输出所有动作的q值,并由此生成新的动作选择策略ε-greedy,根据新的动作选择策略ε-greedy选择动作即得到新的飞行路径,并通过无线电将新的路径发送给无人机;
[0065]
s5:无人机在收到反馈信号后,沿着新的路径执行任务,执行完所有任务后最终返回基地,无人机任务完成。
[0066]
本实施例1中,深度强化学习神经网络包括两个相同结构的神经网络:即神经网络q
eval
和神经网络q
target
,且所述神经网络q
eval
和神经网络q
target
均包含3个卷积层和3个全连接层,每个卷积层的卷积核尺寸为4
×
4,步长为3
×
3,输出的动作数量为n
×
24。初始化期间,两个神经网络的参数权值相同,随后,神经网络q
eval
在生成动作选择策略ε-greedy的同时每隔h步进行反向传递训练更新神经q
eval
网络的网络参数ω,得到新的神经网络q
eval
,具体步骤如下:
[0067]
s1-21:两点之间的最短dubins曲线距离l
dubins
的计算公式如下:
[0068][0069]
式(3)中,α,β分别为两个点的入射角,d为两个点之间的直线距离,r为dubins曲线的转弯半径,r代表顺时针运动,s代表直线运动,l代表逆时针运动;
[0070]
当任意两任务点p1和p2之间不存在障碍物时,将两任务点的向量坐标代入公式(3)中计算得到两任务点的最短dubins曲线距离
[0071]
当任意两任务点p1和p2之间存在静态障碍物或动态障碍物时,两任务点的最短dubins曲线距离的具体计算步骤如下:
[0072]
如图2所示,先以动态障碍物或者静态障碍物的中心为圆心作半径为r的圆c2,其中,r为dubins曲线的转弯半径;随后由无人机所在的位置的运动方向,向圆c2作切线,分别得到公切点以及向量向量表示为:
[0073][0074]
其中,分别为两个公切点的坐标,为两个公切点的入射角;
[0075]
根据两任务点p1和p2的向量坐标以及向量计算出两任务点p1和p2之间最短dubins曲线距离如公式(5)所示:
[0076][0077]
其中,分别表示任务点p1和p2的向量,其中p1为当前任务点,p2为下一个任务点;均根据公式(3)计算得到;
[0078]
s1-22:根据两个任务点之间的最短dubins曲线距离计算奖励值ρ,如公式(6)所示:
[0079][0080]
式(6)中,γ1为折扣系数,设置为0.1,用于防止因训练数据差异过大而导致梯度爆炸;
[0081]
s1-23:采用步骤s1-22计算得到的奖励值ρ计算损失函数的loss值,所述损失函数中如公式(7)所示:
[0082][0083]
式(7)中,为深度强化学习神经网络q
eval
输出的近似q值,sj为第j条数据的状态,aj为第j条数据的动作,ω为深度强化学习神经网络q
eval
中需要训练的参数,yj为无人机通过即时奖励值计算得到的q值,如公式(8)所示:
[0084][0085]
式(8)中,ρj表示在状态sj采取动作aj获得的即时奖励值,γ2为折扣系数,设置为0.01,为深度强化学习神经网络q
target
预测在状态s

j 1
采取动作a
′j所能获得的最大q值,其中,状态s

j 1
为公式(8)中状态sj采取动作aj后的状态,a
′j为无人机在状态s

j 1
所能获得最大q值的动作;
[0086]
s1-24:根据步骤s1-23获得的loss值反向传递训练更新神经q
eval
网络的网络参数ω,此外,每隔5*h步,将神经网络q
eval
的ω赋给ω

对神经网络q
target
进行更新。
[0087]
本发明中,遇到静态障碍物和动态障碍物都如图2所示做切线,并且两任务点的最短dubins曲线距离的计算方式也是一样的。这是因为深度强化学习动作选择策略选择的动作,它决定了下一个点以什么样的角度射出,有了两个点的入射角,并且已知障碍物的坐标,计算方式就是一样的。所以当探测到动态障碍物后,无人机把动态障碍物坐标发送给基地,有了动态障碍物坐标和两个点的入射角,做切线方法和计算方法均与静态障碍物处理方式一致。
[0088]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献