一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种分布式空中基站高动态部署方法与流程

2021-09-22 20:19:00 来源:中国专利 TAG:无人机 基站 部署 通信网络 方法


1.本发明属于无人机技术领域,更进一步涉及一种空中基站高动态部署方法,可用于空中无线通信网络。


背景技术:

2.对空中基站进行按需部署、保障用户的服务质量是空中无线通信网络中的关键技术。空中基站由于其负载受限,其计算能力、通信能力会受到严重的限制,此外,由于空中基站部署环境的先验信息未知,且空中基站的高速移动使得其周围的环境特征变化较快。在这种情况下,如何实现空中基站的按需高动态部署,并尽可能降低部署策略优化过程中的计算负荷和通信负荷,对空中网络的实际应用具有重要意义。
3.广东工业大学在其申请的专利文献“一种面向智能交通的无人机部署及飞行轨迹优化方法及系统”(申请公布号:cn 111949703 a,申请号:202010659147.7)中公布了一种无人机部署及飞行轨迹优化方法。该方法利用历史先验信息,预测未来出现在路口的交通流,根据预测信息优化飞行轨迹,并根据实时的交通流数据和任务需求优化悬停位置,达到减少能耗,提高服务质量的目的。但是,该方法依然存在的不足之处是,需要关于路口交通流的历史先验信息,所以不适用于未知环境中的空中基站的部署过程。
4.中国人民解放军军事科学院国防科技创新研究院在其申请的专利文献“一种深度强化学习模型无人机部署试验方法和系统”(申请公布号:cn 111783224 a,申请号:202010575692.8)中公布了一种无人机部署试验方法。该方法采用强化学习算法模型,无人机将状态信息发送给位于地面的中心控制单元,该控制单元接收到来自无人机的状态信息后,通过预设的强化学习算法模型进行计算、决策,并将决策信息发回给无人机,实现无人机的控制。但是,该方法依然存在的不足之处是,在某些空中网络典型应用场景中,中心计算平台由于客观因素限制,如环境、经济条件,而无法建立,进而使得该方法失效。


技术实现要素:

5.本发明的目的在于针对上述现有技术的不足,提出一种分布式空中基站高动态部署方法,以根据空中基站与未知环境的交互,分布式地优化各个空中基站的部署策略,并通过空中基站之间的信息交互,使得各个空中基站中的策略保持一致性,实现空中基站在高速移动下为未知环境中的用户提供内容覆盖服务。
6.本发明的技术方案是:首先对空中基站进行组装、调试;再设置环境模型及空中基站初始化参数;然后由各个空中基站根据与环境的交互结果进行分布式强化学习,优化高动态部署策略;最后各空中基站根据学习结果,进行分布式地部署,完成对未知环境中用户的内容覆盖服务。其具体实现包括如下:
7.(1)将无人机与基站模块、无人机通信模块、微型处理器及硬盘组装配置,构成空中基站,并调试飞行;
8.(2)将未知先验信息的环境进行分割处理,即采用栅格法将空中基站的覆盖区域
分成n
×
n的栅格,构成环境模型;
9.(3)将不同内容的文件分别存储在各个空中基站的硬盘中,初始化各个空中基站的动作状态矩阵,设置最大学习次数,并设置当前学习次数为0;
10.(4)初始化各个空中基站的起始点为某个栅格的中心位置;
11.(5)每个空中基站根据当前动作状态矩阵选择下一步动作,并利用微处理器各自进行强化学习:
12.(5a)根据各个空中基站的当前位置、空中基站经过各个栅格的次数以及当前时刻,获得空中基站当前状态;
13.(5b)各个空中基站根据当前状态动作矩阵、以ε

greedy策略选择下一步动作;
14.(5c)空中基站执行所选择的动作,到达下一个栅格中心处,并为位于该栅格中的用户传输文件;
15.(5d)空中基站根据设定的服务奖励规则,获得为用户服务的奖励;
16.(5e)空中基站结合当前动作状态矩阵及所获得的奖励,根据设定的本地更新策略对动作状态矩阵进行更新;
17.(5f)空中基站向邻居无人机发送更新后的动作状态矩阵;
18.(5g)空中基站结合来自邻居空中基站的动作状态矩阵,根据设定的邻居更新策略对当前的动作状态矩阵再次进行更新;
19.(6)判断所有用户的服务需求是否被满足:
20.如果用户请求的文件成功被接收,则所有用户的服务需求被满足,本轮学习结束,当前学习次数加1,执行(7);
21.否则,不满足用户的服务需求,返回(5);
22.(7)判断当前学习次数是否达到最大学习次数:
23.如果是,则执行(8);否则,返回(4);
24.(8)每个空中基站根据动作状态矩阵,各自完成面向内容覆盖的高动态部署。
25.与现有技术相比,本发明具有以下优点:
26.第一,本发明在不需要预知关于空中基站运行环境的先验信息情况下,通过空中基站与环境的交互完成空中基站高动态部署策略的优化,解决了现有技术中需要完整的关于环境的先验信息,以及无法在未知环境下应用的问题。
27.第二,本发明中每个空中基站各自进行强化学习,使各个空中基站能够分布式地优化高动态部署策略,克服了现有技术对中心控制单元的巨大需求,解决了空中基站计算负荷过大的问题,使本发明更适应于计算能力较弱的空中基站。
28.第三,本发明中由于每个空中基站各自完成高动态部署,可在未知环境的空中基站意外失效后,保证其他空中基站依然正常运行,大幅度降低未知环境对空中基站部署的不利影响,保障了空中基站部署的稳定性。
附图说明
29.图1是本发明的实现流程图;
30.图2是本发明中的空中基站在飞行过程采用的时间同步机制示意图。
具体实施方式
31.下面结合附图对本发明的实施例作进一步的详细描述。
32.参照图1,本实例的实现步骤包括如下:
33.步骤1,组装配置空中基站。
34.本实例构建的空中基站是通过将基站模块、通信模块、微型处理器及硬盘与无人机进行组装配置形成,其中:
35.所述无人机包括机身主体、动力装置及电源装置;
36.所述基站模块包括基站收发台和基站控制器,用于无人机对地面用户进行数据传输;
37.所述通信模块包括编码模块和高频发射模块,用于无人机之间进行数据交互;
38.所述微型处理器包括运算器、控制器和寄存器,用于计算调整空中基站的高动态部署策略,控制空中基站飞行路径;
39.所述硬盘用于存储需要传输的文件。
40.上述部件与无人机的装配关系如下:
41.基站模块安装在无人机底部某侧,且基站模块的天线朝向地面,以形成覆盖地面用户的波束,增强用户的接收信号强度;
42.硬盘紧挨着基站模块也安装在无人机底部,并与基站模块直接连接,减少内存读取时延;
43.通信模块安装在无人机顶部某侧,其天线为全向天线。
44.微处理器紧挨着通信模块也安装在无人机顶部,并与通信模块直接连接,便于对强化学习结果进行交互和计算,且与基站模块直接连接,以使微处理器能够获得基站模块从环境中得到的信息。
45.步骤2,建立环境栅格,设计时间同步机制。
46.2.1)将位置环境区域划分为10
×
10的栅格,共10行、10列;
47.2.2)设计空中基站的飞行过程采用的时间同步机制:
48.参照图2,空中基站的飞行过程采用时间同步机制,是将时间轴划分成长度为t的不重叠的时隙,在每个时隙中,空中基站采取三个动作,分别为决策、飞行及悬停。其中:
49.所述决策,是空中基站根据当前状态及学习结果,选择本时隙的飞行方向及目标栅格;
50.所述飞行,是空中基站按照决策的飞行方向,从一个当前栅格中心的正上方飞到目标栅格中心的正上方;
51.所述悬停,是空中基站在到达目标栅格中心的正上方后,开始悬停并向位于该栅格内的地面用户发送数据。
52.步骤3,初始化空中基站参数。
53.将文件分别存储在各个空中基站的硬盘中,各个空中基站存储的文件可以相同,也可以不同,文件库中的每一个文件,都必须至少被一个空中基站所存储;
54.初始化空中基站参数,包括初始化各个空中基站的动作状态矩阵、设置各个空中基站初始栅格、设置最大学习次数,其中:
55.初始化各个空中基站的动作状态矩阵,是以q
i
表示空中基站i的动作状态矩阵,q
i
(s,a)表示q
i
中的元素,其中,s表示状态,a表示动作,q
i
(s,a)表示空中基站i处于状态s时,执行动作a能够获得的收益;
56.设置各个空中基站的初始栅格,是将空中基站的初始位置位于初始栅格中心的正上方;
57.最大学习次数是根据场景规模设置,并将当前学习次数设置为0。
58.步骤4,初始化各个空中基站的起始点。
59.本实例将每个空中基站的起始点都分别对应位置环境区域中一个栅格的中心位置,即每个空中基站的起始点在不同的位置,对应不同的栅格。
60.步骤5,各个空中基站利用自身的微型处理器,开始强化学习。
61.本实例中的强化学习采用基于q学习算法的分布式强化学习算法,其实现如下:
62.5.1)各个空中基站获取当前的状态,每个空中基站的状态包括:空中基站当前的位置、空中基站经过各个栅格的次数以及当前的时隙信息;
63.5.2)各个空中基站结合自身当前状态及动作状态矩阵,依据ε

greedy策略选择当前时隙将要执行的动作,即空中基站在当前状态下,依概率ε选择收益最大的动作作为执行动作,依概率1

ε随机选择一个动作作为执行动作,其中,如果存在多个动作都能获得最大收益,则从所有能够获得最大收益的动作中随机选择一个作为执行动作。
64.5.3)各个空中基站根据选择的动作,分别飞往各自的目标栅格,当空中基站到达目标栅格后,会悬停在目标栅格上空,并向位于该栅格内的用户发送文件。
65.5.4)空中基站根据是否满足如下条件,获得奖励值:
66.如果空中基站所悬停的栅格内有用户存在,且空中基站中存储的文件是用户所需要的文件,则空中基站能够获得奖励值;
67.否则,空中基站不获得任何奖励。
68.5.5)空中基站结合获得的奖励值,根据本地更新策略对自身动作状态矩阵进行更新,即:
69.q'(s,a)=q(s,a) τ
·
(r(s,a) γ
·
q(s

,arg max
a

q(s

,a

))

q(s,a)),
70.其中,q(s,a)表示动作状态矩阵中的元素,q'(s,a)表示更新后动作状态矩阵中的元素,s表示空中基站状态,a表示空中基站执行的动作,s

表示空中基站在状态s时执行动作a之后到达的下一个状态,a

表示空中基站执行的下一个动作,r(s,a)是空中基站在状态s时执行动作a后获得的奖励值;τ为学习率,其是一个大于0小于1的正数;γ为折现因子,值为0.8;arg max
a

q(s

,a

)为使得q(s

,a

)值最大时对应的a

值。
71.5.6)各个空中基站向各自的邻居空中基站发送自身的动作状态矩阵,所述邻居空中基站,以空中基站i为例,对其进行说明:假设空中基站i所搭载的无人机通信模块的通信距离为l,若某空中基站到空中基站i的欧式距离小于l,则该空中基站称为空中基站i的邻居空中基站,同时空中基站i也为该空中基站的邻居空中基站。即空中基站i和该空中基站互为邻居空中基站。
72.5.7)各个空中基站结合邻居空中基站发来的动作状态矩阵,根据邻居更新策略对自身动作状态矩阵进行更新。
73.以空中基站i为例,邻居更新策略是:
[0074][0075]
其中,q
i
(s,a)表示更新前空中基站i的动作状态矩阵中的元素,q
i
'(s,a)表示更新后空中基站i的动作状态矩阵中的元素,s表示空中基站状态,a表示空中基站执行的动作;β为学习率,其是一个大于0小于1的正数,u
i
为空中基站i的邻居空中基站所组成的集合。
[0076]
步骤6,根据所有用户的服务需求被满足的情况以及当前学习次数,进行步骤选择。
[0077]
6.1)判断所有用户的服务需求是否被满足:
[0078]
如果用户请求的文件成功被接收,则所有用户的服务需求被满足,本轮学习结束,当前学习次数加1,执行步骤6.2);
[0079]
否则,返回步骤5。
[0080]
6.2)判断当前学习次数是否达到最大学习次数:
[0081]
如果是,则执行步骤7;
[0082]
否则,返回步骤4。
[0083]
步骤7,各个空中基站根据学习得到的动作状态矩阵,各自选择部署策略,完成空中基站面向内容覆盖的高动态部署。
[0084]
7.1)各个空中基站从各自的初始点开始,先计算此时空中基站所处的状态,然后根据动作状态矩阵,选择当前状态下奖励最大的一个动作来执行,飞往下一个栅格处;
[0085]
7.2)在完成向地面用户发送文件后再次计算空中基站所处状态;
[0086]
7.3)重复步骤7.1)和7.2),直至所有用户都接收到所需要的文件。
[0087]
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜