一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于路径规划的无人机控制方法及系统与流程

2022-12-03 03:09:18 来源:中国专利 TAG:


1.本发明属于无人机控制领域,更具体的说涉及一种基于路径规划的无人机控制方法及系统。


背景技术:

2.无人机作为一种新型的智能载体,具有机动性高、灵活性强、结构简单、造价低、隐蔽性强和安全性高等优势,在地质气象观测、快递运输等民用领域发挥了重要作用,同时也被广泛应用于军事领域中执行监视、侦察、追踪等任务。路径规划是指在有障碍物的环境中,根据最短路径和最短规划时间等评估标准,找到一条从初始位置到目标位置的最优/较优的无碰撞路径。无人机应用场景一般地域广阔、环境复杂,如何快速准确地规划出一条安全、快捷的路径,是无人机应用的重要研究方向。
3.现有的无人机路径规划算法都存在着容易陷入局部最优、收敛速度慢等问题。导致无人机的实时路径规划速度较慢。在军事领域这种需要对路径规划进行快速计算的情况下,会导致无人机的反应变得迟钝。


技术实现要素:

4.本发明基于信号接收强度的路径规划方法,在结合玻尔兹曼概率选择策略指导无人机自动进行路径规划,同时根据无人机飞行环境的特点,引入“导向强化”原则强化学习q-learning算法的学习概率,提高了无人机路径规划的收敛速度,大大减少了控制方法的迭代次数,提高了无人机实时路径规划的效率。
5.为了实现上述目的,本发明是采用以下技术方案实现的:所述的基于路径规划的无人机控制方法包括以下步骤:
6.步骤1、建立无人机控制模型;建立基于无人机接收目标信号强度的模型,并建立基于玻尔兹曼概率选择的无人机飞行动作选择模型;
7.步骤2、建立无人机路径规划算法;建立基于q-learning算法的无人机路径规划算法;
8.步骤3、对无人机路径规划算法进行优化;基于强化导向原则,对步骤2所建立的无人机路径规划算法进行优化。
9.进一步地,所述的步骤1、建立无人机控制模型;详细步骤如下:
10.步骤1.1、建立基于无人机接收目标信号强度的模型;建立基于传输链路为视距传输模型los还是非视距传输模型nols的无人机ui与可疑信号源d之间路径损耗模型:
11.12.其中、fc为载波中心频率,c为光速,为无人机ui与可疑信号源d之间的距离;η
los
和η
nlos
为由视距链路和非视距链路决定的衰减因子;
13.los的概率由无人机与信号源之间的环境所决定,可表示为
[0014][0015]
式中:b和c为由环境(乡村、城市等)所决定的参数,为常数,为仰角,知道los的概率时,nlos的概率为
[0016][0017]
由此可得,无人机ui与可疑信号源d之间路径损耗为;
[0018][0019]
假设无人机和信号源的天线都是全向天线,基于以上的信道模型,无人机ui接收到信号源d的信号强度rss可以表示为:
[0020][0021]
其中、为接收到的信号强度,为信号源发射功率,为无人机u(xi,yi,h)信道增益;σ2为噪声功率;
[0022]
步骤1.2、建立基于玻尔兹曼概率选择的无人机飞行动作选择模型;
[0023]
假设无人机所处的状态为s,此时的动作空间为a={a1,a2,

,ak},k=1,2,

,k,玻尔兹曼概率选择公式为:
[0024][0025]
其中、表示无人机处于状态s时选择动作ak∈a;的概率,κb≥0为玻尔兹曼常数,t为温度,z(t)为概率分布的标准化因子:
[0026][0027]
根据上述的动作选择概率公式(6),无人机在状态s转移到下一个状态s

的概率可
表示为:
[0028][0029]
假设在状态s执行某个动作ak后,依概率1转移到状态s

,执行其他动作时,依概率0转移到状态s

,即:
[0030][0031]
则,状态s到状态s

的转移概率可简化为:
[0032][0033]
进一步地,所述的步骤2、建立无人机路径规划算法;建立基于q-learning算法的无人机路径规划算法;
[0034]
无人机ui在状态s获得的信号强度d(s)小于在下一个状态s

所获得的信号强度d(s

)假设无人机ui在状态s实施动作ak后到达状态s

,则说明无人机的飞行方向趋向目标信号源,且如果越大,说明动作ak方向与目标信号源方向的偏离角越小,故将回报函数定义为
[0035][0036]
式中:α为信号强度差系数,α越大,信号强度差在回报函数中占得比重就越大。
[0037]
进一步地,所述的步骤3、对无人机路径规划算法进行优化;基于强化导向原则,对步骤2所建立的无人机路径规划算法进行优化;
[0038]
在标准q-learning算法的基础上,可以通过方向信息对于无人机动作选择进行优化,称之为具有“导向强化”原则,动作的选择由q值表决定,方向信息对下一个动作的影响可表示为:
[0039][0040]
式中:ak为无人机ui在状态s时执行的特定动作,ai∈a为无人机ui在状态s

时可选择执行的任意动作;ρ∈[0,1]为折扣因子,控制前一步的方向信息对后一步动作的影响的大小,其值越大,方向的导向性越强。
[0041]
另一方面、所述的无人机控制系统包括:
[0042]
目标信号接收模块:用于接收目标发射出的信号;
[0043]
远程控制信号收发模块:用于接收远程后台传输来的手动控制信息,以及将无人机的飞行状态和飞行参数实时的传输到远程控制台;
[0044]
红外模块:用于对地进行红外特征扫描,得到目标和飞行过程中的红外参数,用于
判断目标的红外特征提供依据;
[0045]
数据处理模块:用于通过路径规划算法,对接收到的目标信号强度进行解析,和计算出无人机控制参数;
[0046]
执行机构:用于执行数据处理模块传输来的控制参数,对无人机的飞行方向进行控制。
[0047]
本发明有益效果:
[0048]
本发明基于信号接收强度的路径规划方法,在结合玻尔兹曼概率选择策略指导无人机自动进行路径规划,同时根据无人机飞行环境的特点,引入“导向强化”原则强化学习q-learning算法的学习概率,提高了无人机路径规划的收敛速度,大大减少了控制方法的迭代次数,提高了无人机实时路径规划的效率。
附图说明
[0049]
图1为本发明实施例控制流程图;
[0050]
图2为本发明实施例导向q-learning算法流程;
[0051]
图3为本发明实施例基于接收信号强度算法的路径轨迹;
[0052]
图4为本发明实施例基于位置距离算法的路径轨迹;
[0053]
图5为本发明实施例多障碍基于接收信号强度算法的路径轨迹;
[0054]
图6为本发明实施例两种算法收敛过程图。
具体实施方式
[0055]
以下将以附图公开本公开的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本公开。也就是说,在本公开内容部分实施方式中,这些实务上的细节是非必要的。此外,为简化附图起见,一些现有惯用的结构与元件在附图中将以简单示意的方式示出的。
[0056]
如图1所示,所述的基于路径规划的无人机控制方法包括以下步骤:
[0057]
步骤1、建立无人机控制模型;建立基于无人机接收目标信号强度的模型,并建立基于玻尔兹曼概率选择的无人机飞行动作选择模型。
[0058]
所述的步骤1、建立无人机控制模型;详细步骤如下:
[0059]
步骤1.1、建立基于无人机接收目标信号强度的模型;建立基于传输链路为视距传输模型los还是非视距传输模型nols的无人机ui与可疑信号源d之间路径损耗模型:
[0060][0061]
其中、fc为载波中心频率,c为光速,为无人机ui与可疑信号源d之间的距离;η
lo
s和η
nlo
s为由视距链路和非视距链路决定的衰减因子;
[0062]
los的概率由无人机与信号源之间的环境所决定,可表示为
[0063][0064]
式中:b和c为由环境(乡村、城市等)所决定的参数,为常数,为仰角,知道los的概率时,nlos的概率为
[0065][0066]
由此可得,无人机ui与可疑信号源d之间路径损耗为;
[0067][0068]
假设无人机和信号源的天线都是全向天线,基于以上的信道模型,无人机ui接收到信号源d的信号强度rss可以表示为:
[0069][0070]
其中、为接收到的信号强度,为信号源发射功率,为无人机u(xi,yi,h)信道增益;σ2为噪声功率;
[0071]
步骤1.2、建立基于玻尔兹曼概率选择的无人机飞行动作选择模型;
[0072]
假设无人机所处的状态为s,此时的动作空间为a={a1,a2,

,ak},k=1,2,

,k,玻尔兹曼概率选择公式为:
[0073][0074]
其中、表示无人机处于状态s时选择动作ak∈a;的概率,κb≥0为玻尔兹曼常数,t为温度,z(t)为概率分布的标准化因子:
[0075][0076]
根据上述的动作选择概率公式(6),无人机在状态s转移到下一个状态s

的概率可表示为:
[0077][0078]
假设在状态s执行某个动作ak后,依概率1转移到状态s

,执行其他动作时,依概率0转移到状态s

,即:
[0079][0080]
则,状态s到状态s

的转移概率可简化为:
[0081][0082]
步骤2、建立无人机路径规划算法;建立基于q-learning算法的无人机路径规划算法。
[0083]
所述的步骤2、建立无人机路径规划算法;建立基于q-learning算法的无人机路径规划算法;
[0084]
无人机ui在状态s获得的信号强度d(s)小于在下一个状态s

所获得的信号强度d(s

)假设无人机ui在状态s实施动作ak后到达状态s

,则说明无人机的飞行方向趋向目标信号源,且如果越大,说明动作ak方向与目标信号源方向的偏离角越小,故将回报函数定义为
[0085][0086]
式中:α为信号强度差系数,α越大,信号强度差在回报函数中占得比重就越大。
[0087]
步骤3、对无人机路径规划算法进行优化;基于强化导向原则,对步骤2所建立的无人机路径规划算法进行优化。
[0088]
所述的步骤3、对无人机路径规划算法进行优化;基于强化导向原则,对步骤2所建立的无人机路径规划算法进行优化;
[0089]
在标准q-learning算法的基础上,可以通过方向信息对于无人机动作选择进行优化,称之为具有“导向强化”原则,动作的选择由q值表决定,方向信息对下一个动作的影响可表示为:
[0090][0091]
式中:ak为无人机ui在状态s时执行的特定动作,ai∈a为无人机ui在状态s

时可选择执行的任意动作;ρ∈[0,1]为折扣因子,控制前一步的方向信息对后一步动作的影响的大小,其值越大,方向的导向性越强。
[0092]
所述的导向q-learning学习算法的主要步骤:
[0093]
1)对当前环境进行栅格化,确定起始点坐标和目标点坐标,并以目标点为中心建立信号强度场,作为无人机获取接收信号强度来计算回报值。
[0094]
2)初始化状态值,清空q函数矩阵和回报矩阵,无人机从起始点开始进行探索并获取信号强度。
[0095]
3)根据无人机所在状态s位置的q函数计算各个动作ak的转移概率,并根据概率策
略选择动作a。
[0096]
4)执行动作a飞行至状态s

位置,并获取新的信号强度。通过回报函数计算出回报值,更新状态s下动作a的q函数,并根据导向强化以折扣因子ρ来更新状态s

对应的q函数。
[0097]
5)将当前环境位置更新至状态s

位置,并判断是否为目标位置或达到最大迭代次数,如果不是,则结束本次迭代学习过程,迭代次数 1,继续返回到步骤3),否则到步骤6)。
[0098]
6)结束该次尝试学习,尝试次数 1,并返回到步骤2),继续进行下一次尝试学习。
[0099]
7)最后判断是否到达可接受目标参数,或已经达到设定的最大尝试次数,2个条件中只要有一个满足,则结束整个学习过程。
[0100]
所述的无人机控制系统包括:
[0101]
目标信号接收模块:用于接收目标发射出的信号;
[0102]
远程控制信号收发模块:用于接收远程后台传输来的手动控制信息,以及将无人机的飞行状态和飞行参数实时的传输到远程控制台;
[0103]
红外模块:用于对地进行红外特征扫描,得到目标和飞行过程中的红外参数,用于判断目标的红外特征提供依据;
[0104]
数据处理模块:用于通过路径规划算法,对接收到的目标信号强度进行解析,和计算出无人机控制参数;
[0105]
执行机构:用于执行数据处理模块传输来的控制参数,对无人机的飞行方向进行控制。
[0106]
对比分析:
[0107]
通过对比基于接收信号强度算法的路径规划和基于位置距离算法的路径规划,来提醒本发明基于接收信号强度算法的路径规划的优势。其中基于接收信号强度算法的路径规划为实验组,基于位置距离算法的路径规划为对照组。
[0108]
为验证以接收信号强度为回报值的导向强化q-learing算法的可行性,假设对照组中的无人机能够获取与目标之间的位置距离并将其作为回报值,其中无人机ui与信号源d之间的位置距离定义为di,回报函数定义为r(s,a,s

)=α[d
i,d
(s

)-d
i,d
(s)],
[0109]
图3为基于接收信号强度的算法产生的路径轨迹,图4为基于位置距离的算法产生的路径轨迹。图5为多障碍基于接收信号强度的算法产生的路径轨迹。如图3~图5所示,在每次尝试中都会对周围的路径进行探索,并根据回报值调整路径,最终寻得目标点,且基于接收信号的算法在多障碍的情况下也能获得较好的路径,如图6所示,基于接收信号强度的算法前期收敛速度较快,在尝试20次左右开始收敛;而基于位置距离的算法在尝试25次左右开始收敛。
[0110]
由此可见,前者比后者具有更好的收敛性,其最少迭代步数也几乎是相同的,可以说明以接收信号强度为回报值有较好的规划效果。但在研究背景中并无法预知目标的确切位置,即无人机与目标之间的位置距离并不容易获得,因此基于接收信号强度的路径规划可以发挥很好的作用。
[0111]
1)在目标位置信息未知的情况下,本发明以接收信号强度为回报值,能够迅速准确地规划出飞行路径,与基于位置距离的方法相比,收敛速度更快,表现出了更好的路径规
划性能。
[0112]
2)与传统算法相比,导向强化q-learning算法在收敛性、时间复杂度和路径规划上优势明显。从而验证了“导向强化”原则,可以加快算法收敛速度,在无人机飞行路径规划中有较好的适用性。
[0113]
应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献