一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于蒙特卡洛树搜索的无人机路径规划方法与流程

2022-02-22 18:24:04 来源:中国专利 TAG:


1.本发明属于无人机路径规划技术领域,具体涉及一种基于蒙特卡洛树搜索的无人机路径规划方法。


背景技术:

2.近年来,无人机已经被证明是航空学中最具挑战性和最具潜力的技术之一。由于其高移动性和低成本,无人机在过去的几十年里已经在通信领域得到了广泛的应用。同时,无人机路径规划任务正成为无人机的关键技术之一,并得到了世界各地学者的广泛研究。无人机路径规划的主要目标是设计一条最优的指向目标的飞行路径,即在满足无人机性能要求的同时也要满足所给定的目标条件。
3.无人机辅助的无线通信可以提供无线连接给那些没有通信基础设施覆盖的设备,例如由于严重的建筑阴影、自然灾害破坏等无法覆盖基础设施的地区。在通信系统中,所部署的无人机可以作为移动中继或作为飞行基站来工作。在某些军事场景中,无人机辅助的中继可以在两个或两个以上的远程设备之间提供可靠的无线连接。由于无人机大大减小了无线网络设备的尺寸及重量,并且与地面设备的通信采用视距传输(los),这对无线设备供应商有很大的吸引力。
4.移动边缘计算,是指在移动网络边缘部署任务计算和存储资源服务,为边缘的移动网络和用户提供云计算服务,用于加速网络中各项内容、应用的快速下载,从而为用户提供超低时延和高带宽的网络服务解决方案。部署移动边缘服务器后,还能降低对核心网络的传输要求,减轻了核心网的压力。在移动边缘计算服务场景中,无人机可以作为一种移动的云服务器为网络边缘的用户提供服务。当用户当前的任务下载速度较慢时,用户可以把任务上传给无人机,由无人机完成任务的卸载与计算任务。
5.合适的飞行路径可以缩短用户与无人机之间的通信距离,对系统性能的提高十分重要。在移动边缘计算场景中,除了要设计无人机的最优飞行轨迹,往往还要尽可能最大化迁移吞吐量。此外,路径规划问题还会受到多种约束条件的限制,比如能量消耗约束、用户服务质量约束、功率条件限制等等,通常是np-hard问题。然而,一些传统的几何算法如a星算法、遗传算法、蚁群算法等拥有很大的局限性,解决带有约束条件的问题时会变得十分困难,因此研究者把机器学习、强化学习应用到了无人机路径规划领域中,以解决这些复杂条件下的路径规划问题。
6.无人机在静态环境中的路径规划技术已日臻成熟,而当环境改变时,路径规划问题也变得越来越复杂。例如,实时变化的用户位置、用户任务需求、无人机-用户信道状态都会影响无人机飞行轨迹的设计。用户在每个时隙内的任务需求量会影响系统的迁移吞吐量,用户的移动会影响通信信道的状态以及无人机的能量消耗。传统的强化学习方法,如q-learning在处理大量的状态-动作对时,会花费相当高的时间成本和空间成本,这将降低无人机路径规划的效率,无法直接适用于动态环境中。


技术实现要素:

7.本发明的目的在于提供一种基于蒙特卡洛树搜索的无人机路径规划方法,算法效率高、性能好、能够更好地适应动态环境。
8.实现本发明目的的技术解决方案为:
9.一种基于蒙特卡洛树搜索的无人机路径规划方法,包括如下步骤:
10.(10)初始化无人机及蒙特卡洛树:建立蒙特卡洛树,初始化根节点,并初始化无人机位置;
11.(20)设定训练总次数:根据实验数据,设定蒙特卡洛树搜索算法训练总次数;
12.(30)蒙特卡洛树搜索算法训练:在设定训练总次数内,对蒙特卡洛树进行搜索算法训练,使蒙特卡洛树参数根据具体步骤进行迭代,无人机根据具体步骤作出相应的动作;
13.(40)获取最优无人机路径:当训练次数等于训练总次数时,训练结束,得到一棵训练完毕的蒙特卡洛树;根据所述训练完毕蒙特卡洛树的树结构,从根节点开始利用uct算法持续向下选择uct值最大的子节点,直到到达一个叶子节点为止,无人机根据所选择的节点执行相应的动作,即得到最优无人机路径。
14.本发明与现有技术相比,其显著优点为:
15.1、更加适用于动态环境:在本发明的飞行环境中,用户的位置、任务数的要求以及信道状态的变化都是随着时间变化而变化的,蒙特卡洛树搜索可以在动态未知环境中作较好的动作权衡,并且可以得出具有启发性的解决方案。相比较于q-learning利用表格来记录状态-动作对的方法,蒙特卡洛树搜索利用树结构来保存当前局面的动作与状态,并增加了随机选择动作的策略,更加适应于动态变化的环境,解决了复杂动态环境下的无人机路径规划问题;
16.2、路径规划效率高:对比其他传统的强化学习算法,本发明的路径规划方法可以有效降低训练时间,自上而下的树搜索方式大大降低了算法的时间复杂度,更加适应于实时的无人机路径规划。
17.下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
18.图1为本发明基于蒙特卡洛树搜索的路径规划方法的主流程图。
19.图2为图1中蒙特卡洛树搜索算法训练步骤的流程图。
20.图3为图2中计算奖励值步骤的流程图。
21.图4为蒙特卡洛树搜索算法的原理图。
22.其中,图4(1)表示节点的选择,图4(2)表示节点的扩展,图4(3)表示节点的模拟,图4(4)表示将模拟结果向上更新。
23.图5为无人机飞行轨迹示例图。
具体实施方式
24.本发明基于蒙特卡洛树搜索的路径规划方法基于以下场景来实施:
25.建立移动边缘计算的场景模型,无人机作为一个移动的边缘服务器来为地面上的一组用户提供服务。为方便计算,无人机只能在给定的k个固定点进行飞行,并将飞行时间
离散为m个时隙。在每个时隙内,每个用户都会向无人机发送任务卸载的请求,且用户的任务数量服从高斯分布;无人机会从当前固定点飞向另一个固定点,并为其中一个用户提供服务,通常选择距离无人机最近的用户。且用户在每个时隙的位置是动态变化的。
26.如图1所示,本发明基于蒙特卡洛树搜索的路径规划方法,包括如下步骤:(10)初始化无人机及蒙特卡洛树:建立蒙特卡洛树,初始化根节点,并初始化无人机位置。
27.树结构初始时只含有一个根节点。每个节点内的信息包括状态s、质量价值q、访问次数n、父节点n
p
、子节点nc等信息,状态s又包括所选择的动作a、当前所服务的用户的位置l、无人机的剩余电池容量e等信息。动作a只能在所给定的动作集a中选取,动作集a是无人机能够执行的所有动作的一个集合。在本发明的场景下,动作集a即为给定的k个固定点的坐标。
28.开始时无人机定位在坐标(0,0)的位置。
29.(20)设定训练总次数:根据实验数据,设定蒙特卡洛树搜索算法训练总次数。
30.根据常规的实验数据,将蒙特卡洛树搜索算法的训练总次数设定为ne次,即蒙特卡洛树的参数需要迭代ne次。在训练次数未达到ne时,需要一直进行迭代。优选地,根据实验经验,ne可取500至1000次。
31.(30)蒙特卡洛树搜索算法训练:在设定训练总次数内,对蒙特卡洛树进行搜索算法训练,使蒙特卡洛树参数根据具体步骤进行迭代,无人机根据具体步骤作出相应的动作。
32.对蒙特卡洛树进行ne次训练。在此训练过程中,树的参数将会根据算法的具体步骤不断进行迭代,并且无人机会根据具体步骤作出相应的动作,无人机的动作将会影响参数的迭代和变化。
33.如图2所示,所述蒙特卡洛树搜索算法训练包括如下步骤:
34.(31)节点的选择:从根节点开始,利用uct算法,向下选择uct值最大的子节点;无人机执行该节点包含的相应的动作;继续向下用uct算法选择子节点,直至到达一个未被完全扩展的节点,停止节点的选择。
35.如图4(1)所示,从根节点开始利用uct算法向下选择uct值最大的子节点。具体公式如下:
[0036][0037]
其中,常数c是一个权衡因子,q(n')是子节点的q值,n(n')是子节点的访问次数,n(n)是当前节点的访问次数。
[0038]
选择完子节点后,无人机执行该节点包含的相应的动作,即从现在所在的固定点飞到另一个固定点,并为一个用户进行服务。继续向下用uct算法选择子节点,直到到达一个未被完全扩展的节点。完全扩展的节点指该节点的子节点个数等于动作集a中所包含的动作个数。
[0039]
(32)节点的扩展:建立一个新节点作为当前节点的子节点,从动作集a中随机选择一个动作a’与该新节点绑定。
[0040]
如图4(2)所示,当前节点需要执行节点扩展操作。建立一个新节点作为当前节点的子节点,从动作集a中随机选择一个动作a’与该节点绑定,注意所选择的动作与同一层的子节点的动作不能重复。
[0041]
(33)节点的模拟:从所述新节点所对应的状态开始,进行模拟动作选择以及无人机飞行过程。
[0042]
如图4(3)所示,从新扩展的节点所对应的状态开始,进行模拟的动作选择以及无人机的飞行过程。在模拟过程中,无人机的所有动作都是从动作集a中随机选取的,即不断飞往另一个随机的固定点并选择一个用户进行服务,直到电池达到一个较低的水平为止,无人机会回到充电的地方进行充电。在此过程中,无人机会消耗悬停能量、计算能量以及飞行能量,其中悬停能耗是无人机为用户服务时悬停在固定点上所产生的能耗,计算能耗是将任务卸载到无人机之后,无人机用于任务计算而产生的能量消耗,飞行能耗是无人机在固定点之间飞行所产生的能耗。模拟过程结束后,需要计算相应的奖励值去评估整个模拟过程。该步骤不会创建新的树节点,目的是为了更新已有的树节点的参数,这有助于无人机的轨迹优化和更有利的行动选择。
[0043]
(34)计算奖励值:
[0044]
计算步骤(33)中所获得的奖励值。本发明定义奖励值与无人机的能量消耗及用户的吞吐量有关,如图3所示,具体计算方法如下:
[0045]
(341)计算无人机的能量消耗:
[0046]
根据无人机在步骤(33)中所消耗的悬停能量、计算能量、飞行能量计算总能量消耗。
[0047]
悬停能耗具体计算公式如下:
[0048][0049]
其中,ph(t)是无人机悬停功率,是第i个用户与无人机在第k个固定点的数据传输速率,pu代表传输功率,σ2是加性高斯白噪声的功率,是路径损耗模型的信道功率增益,ρ0是在参考距离1m时的信道增益,h是无人机高度,d
uav
(t)是无人机在t时隙的坐标,ui(t)是第i个用户的坐标。s(t)=μi(t)r
i,k
(t)

tb是无人机卸载的用户任务的总比特数,μi(t)是用户的任务数量,b是信道带宽,

t是无人机悬停时间。
[0050]
计算能耗具体计算公式如下:
[0051]
ec(t)=γccs(t)f
c2
[0052]
其中,γc是有效的开关电容,c是每比特计算所需要的cpu周期数,fc是cpu的频率。
[0053]
飞行能耗具体计算公式如下:
[0054][0055]
其中,κ1、κ2为常量参数,a
uav
是无人机起飞时的加速度,g是重力加速度。
[0056]
因此,无人机在单个时隙内产生的总能耗为:
[0057]e总
=eh(t) ec(t) ef(t)
[0058]
(342)计算用户的吞吐量:
[0059]
根据步骤(33)中所服务的用户,假设该用户的任务请求数量为μi(t),每个任务含
有的比特数为nb比特,则用户的吞吐量为μi(t)nb。
[0060]
(343)根据公式计算具体的奖励值:
[0061]
单个时隙内,所产生的奖励值的计算公式如下:
[0062][0063]
其中,μ
max
是任务数量的最大值,w
max
是总能量消耗的最大值。
[0064]
步骤(33)中整个模拟过程的奖励值为:
[0065][0066]
其中t是模拟过程开始时的时隙数,t是总时隙数。
[0067]
(35)将模拟结果向上更新:从当前新扩展的节点开始,沿着与节点选择时相反的路径,向上更新路径上所有节点的质量价值和访问次数,直至根节点。
[0068]
如图4(4)所示,从当前新扩展的节点开始,沿着步骤(31)中所选择的节点的路径,向上更新路径上所有节点的q值和n值,直至根节点。根据步骤(34)计算得到的奖励值更新节点的质量价值q,具体为:q(n)=q(n) r,节点的访问次数n更新公式为:n(n)=n(n) 1。
[0069]
至此,一次训练过程结束。第二次训练同样从根节点开始,重复步骤(31)-(35)。将该训练过程进行ne次之后,训练结束。
[0070]
(40)获取最优无人机路径:当训练次数等于训练总次数时,训练结束,得到一棵训练完毕的蒙特卡洛树;根据所述训练完毕蒙特卡洛树的树结构,从根节点开始利用uct算法持续向下选择uct值最大的子节点,直到到达一个叶子节点为止。无人机会根据所选择的节点执行相应的动作,即可得到最优无人机路径。
[0071]
ne次训练结束后,得到一棵训练完毕的蒙特卡洛树。此时,蒙特卡洛树的参数和结构都已完善,能够更准确地获取最优无人机轨迹。根据训练完毕的树结构,从根节点开始利用uct算法向下选择uct值最大的子节点,无人机根据该节点包含的动作a执行相应的动作,即从当前固定点飞向另一个固定点,并为其中一个用户进行服务。继续向下选择子节点,直到到达一个叶子节点为止,无人机在每次节点选择时都会执行相应的动作,即得到如图5所示的无人机轨迹。
[0072]
如上述流程所示,本发明基于蒙特卡洛树搜索的无人机路径规划方法,目标是不断优化无人机的飞行轨迹并找到一条最优的路径,使用户的平均吞吐量达到最大。
[0073]
在本发明所设定的环境中,用户的位置、用户对任务量的需求、用户与无人机之间的信道状态都是实时变化的。不同于其他传统强化学习算法,蒙特卡洛树搜索利用树结构来保存当前局面的状态与动作,并在算法步骤中增加了随机性,加速了训练过程。因此,本发明提出的路径规划方法可以有效降低训练时间,并减少算法的时间复杂度和空间复杂度,更加适应于动态环境下的实时无人机路径规划。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献