一种路径规划方法、接入网设备及飞行控制设备与流程

2021-11-30 22:04:00 来源：中国专利 TAG：

1.本发明涉及无线通信技术领域，尤其涉及一种路径规划方法、接入网设备及飞行控制设备。

背景技术：

2.无线网与无人机(uav：unmanned aerial vehicle)的结合将极大扩展无人机的应用领域，扩大任务执行的范围，提高数据传输能力。路径规划是无人机导航控制应用中的基础能力。无人机依据制定的路径执行飞行任务、数据采集和传输任务。
3.现有技术中，无人机的路径由应用层依据地理位置，结合数据采集与传输任务制定。但，应用层负责uav路径的规划，这一过程更多的是考虑路由问题，并没有考虑基站可提供的资源，也没有考虑无线环境的变化，不具有环境自适应性。

技术实现要素：

4.有鉴于此，本发明提供一种路径规划方法、接入网设备及飞行控制设备，用于解决目前飞行路径规划不具有环境自适应性的问题。
5.为解决上述技术问题，第一方面，本发明提供一种路径规划方法，应用于接入网设备，包括：
6.接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
7.在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。
8.可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
9.可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
10.可选的，所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之前，还包括：
11.获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
12.所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤包括：
13.根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
14.根据所述无线传输条件确定对应的目标无线传输能力；
15.从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格
为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
16.可选的，所述根据所述无线传输条件确定对应的目标无线传输能力的步骤包括：
17.采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
18.其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
19.可选的，所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之后，还包括：
20.根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
21.或者，
22.将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
23.其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
24.可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
25.第二方面，本发明还提供一种路径规划方法，应用于飞行控制设备，包括：
26.根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
27.将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
28.可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
29.可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
30.可选的，所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤之前，还包括：
31.根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
32.所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤包括：
33.采用所述第二强化学习算法进行所述路径的规划；
34.其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
35.可选的，所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤之后，还包括：
36.根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
37.其中，所述第二信息传输质量为所述路径中的信息传输质量。
38.可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
39.可选的，所述将所述节点的规划信息发送至对应网络小区的接入网设备的步骤之后，还包括：
40.获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
41.若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
42.将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
43.第三方面，本发明还提供一种接入网设备，包括：
44.接收模块，用于接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
45.配置模块，用于在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。
46.可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
47.可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
48.可选的，所述接入网设备还包括：
49.获取模块，用于获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
50.所述配置模块包括：
51.第一确定单元，用于根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
52.第二确定单元，用于根据所述无线传输条件确定对应的目标无线传输能力；
53.选择单元，用于从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
54.可选的，所述第二确定单元，用于采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
55.其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
56.可选的，所述接入网设备还包括：
57.第一优化模块，用于根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
58.或者，
59.反馈模块，用于将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
60.其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
61.可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
62.第四方面，本发明还提供一种飞行控制设备，包括：
63.规划模块，用于根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
64.发送模块，用于将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
65.可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
66.可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
67.可选的，所述飞行控制设备还包括：
68.训练模块，用于根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
69.所述规划模块，用于采用所述第二强化学习算法进行所述路径的规划；
70.其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
71.可选的，所述飞行控制设备还包括：
72.第二优化模块，用于根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
73.其中，所述第二信息传输质量为所述路径中的信息传输质量。
74.可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
75.可选的，所述飞行控制设备还包括：
76.预设信息获取模块，用于获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
77.所述规划模块，还用于若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
78.所述发送模块，还用于将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
79.第五方面，本发明还提供一种接入网设备，包括：收发器和处理器；
80.所述收发器，用于接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
81.所述处理器，用于在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。
82.可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
83.可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
84.可选的，所述处理器还用于获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
85.所述处理器还用于根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
86.所述处理器还用于根据所述无线传输条件确定对应的目标无线传输能力；
87.所述处理器还用于从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
88.可选的，所述处理器还用于采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
89.其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
90.可选的，所述处理器还用于根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
91.或者，
92.所述收发器还用于将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
93.其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
94.可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的
数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
95.第六方面，本发明还提供一种飞行控制设备，包括：收发器和处理器；
96.所述处理器，用于根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
97.所述收发器，用于将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
98.可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
99.可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
100.可选的，所述处理器还用于根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
101.所述处理器还用于采用所述第二强化学习算法进行所述路径的规划；
102.其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
103.可选的，所述处理器还用于根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
104.其中，所述第二信息传输质量为所述路径中的信息传输质量。
105.可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
106.可选的，所述收发器，还用于获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
107.所述处理器，还用于若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
108.所述收发器，还用于将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
109.第七方面，本发明还提供一种接入网设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述任一种应用于所述接入网设备的路径规划方法中的步骤。
110.第八方面，本发明还提供一种飞行控制设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述计算机程序时实现上述任一种路径规划方法中的步骤。
111.第九方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种路径规划方法中的步骤。
112.本发明的上述技术方案的有益效果如下：
113.本发明实施例提供了一种结合应用层和无线网的分层路径规划，应用层负责粗粒
度的路径规划，无线网负责配置网络小区内细粒度的空间接入位置。无线网通过对网络小区内空间接入位置的选择间接实现了对无线资源的配置，不仅考虑了飞行器接入小区的空间位置，同时考虑了无线环境的变化，具有环境自适应性，从而保障飞行任务的高质量完成。
附图说明
114.图1为本发明实施例一中的一种路径规划方法的流程示意图；
115.图2为本发明实施例中的一种路径规划流程示意图；
116.图3为强化学习的模型示意图；
117.图4为本发明实施例二中的一种路径规划方法的流程示意图；
118.图5为本发明实施例三中的一种接入网设备的结构示意图；
119.图6为本发明实施例四中的一种飞行控制设备的结构示意图；
120.图7为本发明实施例五中的一种接入网设备的结构示意图；
121.图8为本发明实施例六中的一种飞行控制设备的结构示意图；
122.图9为本发明实施例七中的一种接入网设备的结构示意图；
123.图10为本发明实施例八中的一种飞行控制设备的结构示意图。
具体实施方式
124.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
125.请参阅图1，图1为本发明实施例一提供的一种路径规划方法的流程示意图，该方法应用于接入网设备，包括以下步骤：
126.步骤11：接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
127.所述飞行控制设备具体可以是网管设备或飞行智能控制平台的设备，属于应用层。应用层可以根据飞行器的信息传输需求，静态配置粗粒度的全局路径，然后将配置的全局路径中各节点的规划信息下发到各个节点对应的接入网设备。
128.所述飞行控制设备发送给一个接入网设备的规划信息可以不是全部节点的规划信息，而只是该接入网设备的网络小区对应的节点的规划信息，或者只包括所述接入网设备的网络小区对应的节点的规划信息和路径中与该网络小区相邻的网络小区对应的节点的规划信息。
129.接入网设备负责飞行器在已规划路径上的飞行控制信息和数据的传输。
130.节点对应的网络小区是由相应的接入网设备(例如基站)来实现，每一接入网设备下有一个或多个网络小区。所述目标网络小区是所述飞行控制设备规划的路径中的一个节点，在飞行器接入所述目标网络小区前，由该目标网络小区所属的接入网设备确定并配置
飞行器在所述目标网络小区内的空间接入位置。
131.步骤12：在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。其中，所述当前状态信息包括当前时刻的状态信息和/或最近的状态信息。
132.也即，所述接入网设备接收应用层制定的粗粒度飞行路径，属于该粗粒度飞行路径中的网络小区对应的接入网设备指定飞行器在该小区内的空间接入位置，实现小区接入位置的细粒度化。
133.具体的，所述接入网设备可以在飞行器飞行到路径中相邻的上一个网络小区时，配置所述飞行器在所述目标网络小区内的空间接入位置。进一步地，所述接入网设备可以在飞行器飞出上一个网络小区的空间接入位置之后，进入所述目标网络小区之前，配置所述飞行器在所述目标网络小区内的空间接入位置，为动态配置过程。
134.所述飞行器的当前状态信息可以是通过所述飞行器当前接入或最近接入的网络小区对应的接入网设备传输过来的。所述飞行器当前接入或最近接入的网络小区对应的接入网设备是通过飞行器获取所述飞行器的当前状态信息的，也就是说，由飞行器将其当前状态信息发送给所述飞行器当前接入或最近接入的网络小区对应的接入网设备，然后所述飞行器当前接入或最近接入的网络小区对应的接入网设备再将所述飞行器的当前状态信息发送给所述目标网络小区对应的接入网设备。
135.其中，所述接入网设备具体可以是无线接入网(或简称为无线网)设备，例如基站。飞行器例如可以是无人机。
136.本发明实施例提供了一种结合应用层和无线网的分层路径规划，应用层负责粗粒度的路径规划，无线网负责配置网络小区内细粒度的空间接入位置。无线网通过对网络小区内空间接入位置的选择间接实现了对无线资源的配置，不仅考虑了飞行器接入小区的空间位置，同时考虑了无线环境的变化，具有环境自适应性，从而保障飞行任务的高质量完成。
137.下面举例说明上述路径规划方法。
138.可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
139.其中，所述节点的规划信息还包括对应网络小区的标识。对应网络小区的标识可以作为节点的标识。
140.各个网络小区内的信息传输的预估要求主要包括数据传输的服务质量(qos，quality of service)参数组，例如基于业务预测的传输速率。所述接入时间具体可以是到达时间戳。
141.也就是说，每个节点的规划信息具体可以包括对应网络小区的标识、预测的数据传输速率和接入时间。
142.本发明实施例中，接入网设备可以根据所述规划信息提前预留资源和/或预分配一些可选的空间接入位置。
143.可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
144.具体的，当前的数据传输信息可以是已传输的数据量和/或待传的数据量等。小区
接入状态信息可以是当前测量得到的rsrp值等。
145.可选的，所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之前，还包括：
146.获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
147.所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤包括：
148.根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件；
149.从所述目标网络小区的第一栅格选择目标栅格作为所述空间接入位置，其中所述第一栅格为无线传输能力的预测值满足所述无线传输条件的栅格。
150.具体的，可由接入网设备对网络小区覆盖三维空间进行栅格化，每个栅格对应一个栅格标识(id)和无线传输能力的预测值。栅格标识可以由网络小区标识、对应的地理位置和高度组成。所述无线传输能力的预测值具体可以是测量值(例如终端发送的参考信号接收功率(rsrp，reference signal received power)、接收信号强度指示(rssi，received signal strength indication)和/或参考信号接收质量(rsrq，reference signal received quality)等测量数据)的预测值。
151.其中，飞行器在目标网络小区内的具体接入位置，可以是所述目标栅格内的中心位置或者所属空间的任意位置。
152.本发明实施例中，接入网设备在目标网络小区的接入栅格(也即所述目标栅格)指定过程中基于飞行器的当前状态(信息)，在飞行器接入目标网络小区之前动态配置，配置后的栅格标识将在飞行器到达该小区(也即所述目标网络小区)前发送给所述飞行器。
153.进一步的，所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之前，还包括：
154.获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
155.所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤包括：
156.根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
157.根据所述无线传输条件确定对应的目标无线传输能力；
158.从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
159.另外，若所述目标网络小区中具有所述目标无线传输能力的栅格有多个，可以从中随机选取一个栅格作为所述目标栅格。
160.可选的，请参阅图2，所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤包括：
161.采用第一强化学习算法，确定所述空间接入位置；
162.其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分；
163.其中，所述无线传输条件包括传输速率和/或小区接入质量。
164.所述第一强化学习算法也可以称为局部强化学习算法。
165.强化学习的模型如图3所示，智能体从环境中获取当前所处状态s
t
和奖励值r
t
，由内部的状态值更新机制，输出选择的动作a
t
。环境在动作a
t
的作用下，切换到新的状态s
t 1
，同时生成一个强化信号r
t 1
(奖励或者惩罚)，这个强化信号也就是立即回报(或称为即时回报)，立即回报反馈到智能体，智能体再根据当前所处环境的状态，在保证智能体受到正回报概率增大的原则下，选择下一个动作。选择的动作a
t 1
，不仅会影响当前的立即回报，而且会影响后继以及最终的累积回报。
166.因此，一个强化学习系统的组成包括以下3个基本元素：状态(state)是对环境的描述；动作(action)是对智能体行为的描述；立即回报(reward)是一个从状态(或者状态-动作对)到强化信号的映射，即对之前所选动作的评价。
167.强化学习算法依据是否依赖模型分为基于模型的强化学习算法和模型无关的强化学习算法。但是对于无人机路径规划问题，相关模型是未知的且构建难度较大，因此在本发明实施例中选择强化学习算法中应用较广泛的一种无模型迭代方法——q-learning强化学习算法，该算法需要uav通过与环境的交互来获取训练样本，进而通过学习获取最优策略。具体的，q-learning在迭代求解的过程中采用状态-动作对的奖励值和q(s,a)作为估计函数。在交互的过程中，正确的动作相应的q值不断增加，反之则减小，通过对q值的比较，智能体趋向于选择最优的行为动作。智能体每次学习迭代的过程都需要考察当前状态可执行的每一个行为，也就能保证所有的状态都能够被访问到，在这个前提下，可以确保学习过程收敛。其基本更新规则如下：
168.q(s
t
,a
t
)
←
q(s
t
,a
t
) α[r
t
γ
×
maxq(s
t 1
,a
t 1
)-q(s
t
,a
t
)]
ꢀꢀꢀ
(1)
[0169]
其中，γ∈[0，1]为折扣因子，α∈[0，1]为学习因子。
[0170]
在训练的起始阶段，可通过已收集的uav飞行路径数据应对冷启动问题，同时在训练的初期提高算法“探索”能力，随着训练的迭代进行，逐渐降低“探索”能力同时提高“利用”能力。
[0171]
当然，在其他的可选具体实施方式中，也可以选择其他模型无关的强化学习算法。
[0172]
现有的基于地理位置的路径规划方法不具备学习能力，也不具备应对环境的变化和不确定因素的能力，一旦规划的路径上存在障碍物或其他使得路径不可达的因素，飞行器的飞行任务将受到影响甚至不可实现。
[0173]
相关技术中，基于强化学习的路径规划方法使得uav具有了一定的环境自适应性。但是，这种方法需要将规划区域(飞行区域)进行网格化，每个网格代表飞行器的一个状态，路径规划过程即为飞行器在各个状态之间的转移过程。uav的状态值为每个网格的编号，飞行区域的大小决定了uav状态值的数量。因此，当飞行区域范围很大时，uav的状态值数量将变得巨大，强化学习算法将面临“维度灾难”问题。
[0174]
本发明实施例提供的分层路径规划方法，通过粗粒度的接入小区规划和细粒度的小区内接入位置规划组合，以及上述的状态值和动作值的划分方法(划分出的状态值和动作值的数量有限)，避免了由于状态值和动作值数量巨大引起的“维度灾难”问题，降低路径规划的计算量和复杂度。
[0175]
本发明实施例中，基于对小区覆盖空间范围和传输速率的划分方法，局部强化学
习算法所包含的元素为：
[0176]
第一状态(state)空间划分：
[0177]
1.传输速率：将可取的数据传输速率范围进行分段，一个速率区间标识代表一个状态。应用层通过为飞行器分配传输速率区间标识，规定传输速率。
[0178]
2.小区接入质量：将接入成功率划分为各区间，一个接入成功率标识代表一个状态。飞行器成功接入小区的概率由规定的接入时间和小区剩余资源估计。
[0179]
第一动作(action)空间划分：将可取的rsrp值范围进行分段，一个rsrp区间标识代表一个动作。
[0180]
栅格包含所对应接入位置的无线传输能力值(如rsrp值)的预测值，该值依据无线环境的变化进行更新。因此，q-learning学习状态值与rsrp标识之间的对应关系，而非状态值与栅格标识之间的对应关系。栅格选取过程为：数据传输和接入质量需求(对应传输速率和小区接入质量需求)
→
rsrp标识
→
栅格标识。其中，可能存在至少一个符合rsrp值的栅格，在这种情况下可以在符合条件的栅格中随机选取，决定栅格标识。
[0181]
本发明实施例中，所述第一强化学习算法可以由所述接入网设备训练得到，也可以由其他设备训练得到，例如应用层的相关设备。
[0182]
进一步的，所述根据所述无线传输条件确定对应的目标无线传输能力的步骤包括：
[0183]
采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
[0184]
其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
[0185]
可选的，请参阅图2，所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之后，还包括：
[0186]
根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
[0187]
或者，
[0188]
将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
[0189]
其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
[0190]
具体的，接入网设备在使用局部强化学习算法配置所述飞行器在所述目标网络小区内的空间接入位置——目标栅格之后，可以把目标栅格的标识发送至接入网设备内的性能评价单元或者其他设备上的性能评价单元，然后由性能评价单元得出所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果。所述路径质量的第一评价结果是由应用层的性能评价单元或其他设备上的性能评价单元得到。
[0191]
优化所述第一强化学习算法也即更新其中的栅格接入策略。
[0192]
本发明实施例中，路径规划和栅格接入策略依据路径规划和无线网资源配置的性能反馈结果进行优化，实现了飞行器对环境的主动适应。
[0193]
现有技术中，基站(即接入网设备)负责飞行器在已规划路径上的飞行控制和数据
传输，不具备对路径质量的评估和反馈的能力。
[0194]
本发明实施例中，路径规划的设计原则有：
[0195]
1.最短路径，也即飞行器航迹长度最短；
[0196]
2.最小化飞行器能耗，也即各空间接入位置之间应最小化攀升/下降次数；
[0197]
3.保障数据可靠传输；
[0198]
4.最小化接入延迟，飞行器准时接入无线网。
[0199]
可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
[0200]
连接质量，对应无线传输能力，对应连接质量惩罚项，为实际rsrp值与预期rsrp值之间的差值r，计算公式如下：
[0201]
r＝|r
i-r
i
′
|
[0202]
其中，r
i
为飞行器在子航迹i的目的栅格的rsrp值，r
i
′
为预期的rsrp值。
[0203]
所述小区内的数据传输比值，对应单个接入栅格数据传输惩罚项，具体可以是小区内的未传数据量与小区内的总数据量的比值v
i
，计算公式如下：
[0204][0205]
其中，di和di分别为在第i个子航迹目的栅格(第i个子航迹终点)实际未传输的和需要的数据传输量。
[0206]
飞行高度对应的飞行高度惩罚项主要是计算飞行器距离最佳飞行高度的垂直距离h，h的计算公式为h＝|z
i-z0|，其中z
i
为飞行器在子航迹终点(目的栅格)的高度，z0为最佳飞行高度。
[0207]
可选的，所述第一强化学习算法的即时回报r
l
(s,a,s
′
)，也即reward评价指标包括飞行高度、小区内的数据传输比值和连接质量，r
l
(s,a,s
′
)＝-ρ1h-ρ2v
i-ρ3r，s为当前状态，a为动作，s
′
为下一状态，ρ1，ρ2，和ρ3为和为1的非负加权系数。
[0208]
另外，本发明实施例中，所述路径既可以是飞行控制设备在当前飞行任务开始前规划的、从飞行任务的起点到飞行任务的终点的全局路径，也可以是飞行控制设备在飞行器执行当前飞行任务过程中重新规划的、从所述飞行器当前所在位置至飞行任务的终点的路径。
[0209]
请参阅图4，图4是本发明实施例二提供的一种路径规划方法的流程示意图，该方法应用于飞行控制设备，包括以下步骤：
[0210]
步骤41：根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
[0211]
需要说明的是，所述飞行控制设备具体可以是网管设备或飞行智能控制平台的设备，属于应用层。飞行器例如可以是无人机。
[0212]
所述信息传输需求包括所述飞行器的控制信息的发送需求和/或数据的传输需
求。
[0213]
飞行智能控制平台可以从网管获知网络小区的标识(id)和地理位置，从而可以进行所述路径的规划。所述路径为粗粒度的全局飞行路径。
[0214]
规划的路径由多个节点构成。
[0215]
步骤42：将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
[0216]
接入网设备负责飞行器在已规划路径上的飞行控制信息和数据的传输。
[0217]
所述应用层的路径规划为静态配置过程，配置后的节点规划信息将下发到各个节点对应的网络小区和基站。其中，所述飞行控制设备可以不必将所有节点的规划信息全部发送给每一节点对应的接入网设备。具体来说，可以只将网络小区相关的规划信息发送给该网络小区对应的接入网设备，或者同时将网络小区相关的规划信息和全局路径中与该网络小区相邻的网络小区相关的规划信息发送给该网络小区对应的接入网设备。
[0218]
当然，所述飞行控制设备在进行路径的规划时还需要考虑当前飞行任务的起始点和/或终点。
[0219]
本发明实施例提供了一种结合应用层和无线网的分层路径规划，应用层负责粗粒度的路径规划，无线网负责配置网络小区内细粒度的空间接入位置。无线网通过对网络小区内空间接入位置的选择间接实现了对无线资源的配置，不仅考虑了飞行器接入小区的空间位置，同时考虑了无线环境的变化，具有环境自适应性，从而保障飞行任务的高质量完成。
[0220]
可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
[0221]
具体的，可以由应用层(网管设备或飞行智能控制平台的设备)解读飞行器当前飞行任务，得出信息传输需求。其中，控制信息的传输需求是指飞行控制信息的传输需求，例如起始点位置、终点位置和/或控制信号最大时间间隔等。数据的传输需求例如数据传输量等，具体可以是各个位置(包括起始点位置、中间位置和/或终点位置)的数据传输量。
[0222]
可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
[0223]
其中，所述节点的规划信息还包括对应网络小区的标识。
[0224]
各个网络小区内的信息传输的预估要求主要包括数据传输的服务质量(qos，quality of service)参数组，例如基于业务预测的传输速率。所述接入时间具体可以是到达时间戳。
[0225]
也就是说，每个节点的规划信息具体可以包括对应网络小区的标识、预测的数据传输速率和接入时间。
[0226]
可选的，请参阅图2，所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤之前，还包括：
[0227]
根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
[0228]
所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤包括：
[0229]
采用所述第二强化学习算法进行所述路径的规划；
[0230]
其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
[0231]
所述第二强化学习算法也可以称为全局强化学习算法。与上述实施例中的第一强化学习算法类似，所述第二强化学习算法也可以选择模型无关的q-learning强化学习算法或其他模型无关的强化学习算法。
[0232]
本发明实施例中的第二强化学习算法和第一强化学习算法的对比请参阅下表1。
[0233]
表1
[0234] 执行位置配置方法输出结果全局强化学习应用层静态粗粒度路径(包含小区id)局部强化学习无线接入网动态接入栅格id
[0235]
本发明实施例中，基于对飞行器飞行区域的划分方法和飞行控制信息与数据传输需求，设计实现路径规划的全局强化学习算法所包含的元素为：
[0236]
第二状态(state)空间划分：依据飞行区域内各网络小区进行划分，即每个网络小区标识代表一个状态；
[0237]
第二动作(action)空间划分：与第二状态空间划分方法一致，第二动作空间包含所有网络小区标识，飞行器的动作为网络小区标识，表示下一个接入的网络小区。
[0238]
本发明实施例提供的分层路径规划方法，通过粗粒度的接入小区规划和细粒度的小区内接入位置规划组合，以及上述的状态值和动作值的划分方法(划分出的状态值和动作值的数量有限)，避免了由于状态值和动作值数量巨大引起的“维度灾难”问题，降低路径规划的计算量和复杂度。
[0239]
可选的，所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤之后，还包括：
[0240]
根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
[0241]
其中，所述第二信息传输质量为所述路径中的信息传输质量。
[0242]
具体的，应用层在使用全局强化学习算法根据飞行器的当前飞行任务中的信息传输需求进行全局路径的规划之后，不仅会将节点的规划信息发送给各个相关的接入网设备，还会把全局路径规划结果发送给应用层内的性能评价单元，或者其他设备上的性能评价单元。
[0243]
然后，由性能评价单元对所述路径进行评价得出路径质量的第二评价结果，对飞行器在所述路径中的信息传输情况进行评价得出第二信息传输质量的评价结果。
[0244]
优化所述第二强化学习算法，也即更新其中的路径规划策略。
[0245]
本发明实施例中，路径规划和无线网资源配置的性能将反馈到全局和局部强化学习的策略优化单元，路径规划和栅格接入策略依据性能反馈结果进行优化，实现了飞行器对环境的主动适应。
[0246]
本发明实施例中，路径规划的设计原则有：
[0247]
1.最短路径，也即飞行器航迹长度最短；
[0248]
2.最小化飞行器能耗，也即各空间接入位置之间应最小化攀升/下降次数；
[0249]
3.保障数据可靠传输；
[0250]
4.最小化接入延迟，飞行器准时接入无线网。
[0251]
可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或
累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
[0252]
其中，所述航迹长度具体可以是各段航迹的欧式距离和l，计算公式为：
[0253]
l
i
＝[(x
i 1-x
i
)2 (y
i 1-y
i
)2 (z
i 1-z
i
)2]
1/2
；
[0254]
l＝∑l
i
；
[0255]
其中，x,y,z分别为路径上接入栅格的坐标和高度，所述路径的航迹由子航迹i(i为正整数)组成，每个子航迹包括起始栅格和目的栅格，n为子航迹的总数，l
i
为第i段子航迹的长度，l为各段子航迹的欧式距离之和。
[0256]
具体的，失联时间，对应失联惩罚项，为飞行器与控制器失去联系的时间长度t，计算公式如下：
[0257]
t＝t
i 1-t
i
；
[0258]
其中，t
i
，t
i 1
为飞行器到达第i，i 1个子航迹目的栅格的时间，i为大于0的整数，t0为飞行起始时间。
[0259]
总数据传输比值对应总数据传输惩罚项v为总的未传数据量与总数据量的比值，v的计算公式为：
[0260][0261]
其中，di和di分别为在第i个子航迹目的栅格(第i个子航迹终点)实际未传输的和需要的数据传输量。
[0262]
可选的，所述第二强化学习算法的即时回报r
g
(s,a,s
′
)，也即reward评价指标包括航迹长度、总数据传输比值和累计失联时间，r
g
(s,a,s
′
)＝-ω1l-ω2v-ω3∑t，s为当前状态，a为动作，s
′
为下一状态，ω1、ω2和ω3为和为1的非负加权系数。
[0263]
可选的，所述将所述节点的规划信息发送至对应网络小区的接入网设备的步骤之后，还包括：
[0264]
获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
[0265]
若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
[0266]
将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
[0267]
现有的基于地理位置的路径规划方法不具备应对环境的变化和不确定因素的能力，一旦规划的路径上存在障碍物或者其他使路径不可达的因素，飞行器的飞行任务将受到影响甚至不可实现。而本发明实施例提供的路径规划方法，若飞行器在按照最初规划的路径飞行过程中，出现影响当前飞行任务执行的情况，甚至出现无法继续飞行的情况时，飞行控制设备可以重新规划粗粒度的路径，以保证当前飞行任务能够完成。
[0268]
具体的，所述预设信息可以是通过所述飞行器当前能够接入并已经接入的接入网设备获取，所述重新规划的路径也可以通过该接入网设备下发给所述飞行器。
[0269]
本发明实施例提供的是与上述实施例一对应的、具有相同发明构思的技术方案，且能达到相同的技术效果，详细可参阅上述实施例一，此处不再赘述。
[0270]
请参阅图5，图5是本发明实施例三提供的一种接入网设备的结构示意图，该接入网设备50包括：
[0271]
接收模块51，用于接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
[0272]
配置模块52，用于在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。
[0273]
可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
[0274]
可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
[0275]
可选的，所述接入网设备50还包括：
[0276]
获取模块，用于获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
[0277]
所述配置模块52包括：
[0278]
第一确定单元，用于根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
[0279]
第二确定单元，用于根据所述无线传输条件确定对应的目标无线传输能力；
[0280]
选择单元，用于从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
[0281]
可选的，所述第二确定单元，用于采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
[0282]
其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
[0283]
可选的，所述接入网设备50还包括：
[0284]
第一优化模块，用于根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
[0285]
或者，
[0286]
反馈模块，用于将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
[0287]
其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
[0288]
可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
[0289]
本发明实施例是与上述方法实施例一对应的产品实施例，故在此不再赘述，详细请参阅上述实施例一。
[0290]
请参阅图6，图6是本发明实施例四提供的一种飞行控制设备的结构示意图，该飞行控制设备60包括：
[0291]
规划模块61，用于根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
[0292]
发送模块62，用于将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
[0293]
可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
[0294]
可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
[0295]
可选的，所述飞行控制设备60还包括：
[0296]
训练模块，用于根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
[0297]
所述规划模块，用于采用所述第二强化学习算法进行所述路径的规划；
[0298]
其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
[0299]
可选的，所述飞行控制设备60还包括：
[0300]
第二优化模块，用于根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
[0301]
其中，所述第二信息传输质量为所述路径中的信息传输质量。
[0302]
可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
[0303]
可选的，所述飞行控制设备60还包括：
[0304]
预设信息获取模块，用于获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
[0305]
所述规划模块，还用于若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
[0306]
所述发送模块，还用于将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
[0307]
本发明实施例是与上述方法实施例二对应的产品实施例，故在此不再赘述，详细请参阅上述实施例二。
[0308]
请参阅图7，图7是本发明实施例五提供的一种接入网设备的结构示意图，该接入网设备70包括：收发器71和处理器72；
[0309]
所述收发器71，用于接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
[0310]
所述处理器72，用于在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。
[0311]
可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
[0312]
可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
[0313]
可选的，所述处理器72还用于获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
[0314]
所述处理器72，还用于根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
[0315]
所述处理器72，还用于根据所述无线传输条件确定对应的目标无线传输能力；
[0316]
所述处理器还用于从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
[0317]
可选的，所述处理器72还用于采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
[0318]
其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
[0319]
可选的，所述处理器72还用于根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
[0320]
或者，
[0321]
所述收发器71还用于将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
[0322]
其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
[0323]
可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
[0324]
本发明实施例是与上述方法实施例一对应的产品实施例，故在此不再赘述，详细请参阅上述实施例一。
[0325]
请参阅图8，图8是本发明实施例六提供的一种飞行控制设备的结构示意图，该飞行控制设备80包括：收发器81和处理器82；
[0326]
所述处理器82，用于根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
[0327]
所述收发器81，用于将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
[0328]
可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
[0329]
可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
[0330]
可选的，所述处理器82还用于根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
[0331]
所述处理器82还用于采用所述第二强化学习算法进行所述路径的规划；
[0332]
其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
[0333]
可选的，所述处理器82还用于根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
[0334]
其中，所述第二信息传输质量为所述路径中的信息传输质量。
[0335]
可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
[0336]
可选的，所述收发器81，还用于获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
[0337]
所述处理器82，还用于若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
[0338]
所述收发器81，还用于将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
[0339]
本发明实施例是与上述方法实施例二对应的产品实施例，故在此不再赘述，详细请参阅上述实施例二。
[0340]
请参阅图9，图9是本发明实施例七提供的一种接入网设备的结构示意图，该接入网设备90包括处理器91、存储器92及存储在所述存储器92上并可在所述处理器91上运行的计算机程序；所述处理器91执行所述计算机程序时实现如下步骤：
[0341]
接收飞行控制设备发送的节点的规划信息，所述节点的规划信息是所述飞行控制设备根据飞行器的当前飞行任务中的信息传输需求进行路径的规划得到，所述飞行控制设备规划得到的路径包括至少一个节点，每一所述节点对应一个网络小区，所述接入网设备的目标网络小区是其中一个所述网络小区；
[0342]
在所述飞行器接入所述目标网络小区之前，根据所述规划信息以及所述飞行器的
当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置。
[0343]
可选的，所述规划信息包括在所述目标网络小区内的信息传输的预估要求和/或接入所述目标网络小区的接入时间。
[0344]
可选的，所述飞行器的所述当前状态信息包括当前的数据传输信息和/或小区接入状态信息。
[0345]
可选的，所述处理器91执行所述计算机程序时还可实现如下步骤：
[0346]
所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之前，还包括：
[0347]
获取所述目标网络小区中，至少部分栅格内的无线传输能力的预测值；
[0348]
所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤包括：
[0349]
根据所述规划信息以及所述飞行器的当前状态信息，确定所述空间接入位置所需满足的无线传输条件，所述无线传输条件包括传输速率和/或小区接入质量；
[0350]
根据所述无线传输条件确定对应的目标无线传输能力；
[0351]
从所述目标网络小区中选择目标栅格作为所述空间接入位置，其中所述目标栅格为无线传输能力的预测值与所述目标无线传输能力匹配的栅格。
[0352]
可选的，所述处理器91执行所述计算机程序时还可实现如下步骤：
[0353]
所述根据所述无线传输条件确定对应的目标无线传输能力的步骤包括：
[0354]
采用第一强化学习算法，根据所述无线传输条件确定对应的目标无线传输能力；
[0355]
其中，所述第一强化学习算法是根据第一状态空间划分和第一动作空间划分训练得到，所述第一状态空间划分是基于所述无线传输条件进行的状态空间划分；所述第一动作空间划分是基于无线传输能力值进行的动作空间划分。
[0356]
可选的，所述处理器91执行所述计算机程序时还可实现如下步骤：
[0357]
所述根据所述规划信息以及所述飞行器的当前状态信息，配置所述飞行器在所述目标网络小区内的空间接入位置的步骤之后，还包括：
[0358]
根据所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一优化所述第一强化学习算法；
[0359]
或者，
[0360]
将所述目标网络小区内的小区接入质量的评价结果、第一信息传输质量的评价结果以及路径质量的第一评价结果中的至少之一发送至训练所述第一强化学习算法的设备，以优化所述第一强化学习算法；
[0361]
其中，所述第一信息传输质量为所述目标网络小区内的信息传输质量。
[0362]
可选的，用于计算小区接入质量的评价结果的评价参数包括连接质量；用于计算所述第一信息传输质量的评价结果的评价参数包括小区内的数据传输比值，所述小区内的数据传输比值包括：小区内的未传数据量与小区内的总数据量的比值，和/或，小区内的已传数据量与小区内的总数据量的比值；用于计算所述路径质量的第一评价结果的评价参数包括飞行高度。
[0363]
本发明实施例的具体工作过程与上述方法实施例一中的一致，故在此不再赘述，详细请参阅上述实施例一中方法步骤的说明。
[0364]
请参阅图10，图10是本发明实施例八提供的一种飞行控制设备的结构示意图，该飞行控制设备100包括处理器101、存储器102及存储在所述存储器102上并可在所述处理器101上运行的计算机程序；所述处理器101执行所述计算机程序时实现如下步骤：
[0365]
根据飞行器的当前飞行任务中的信息传输需求进行路径的规划，得到所述路径中的节点以及各所述节点的规划信息，每一所述节点对应一个网络小区；
[0366]
将所述节点的规划信息发送至对应网络小区的接入网设备，以使得所述接入网设备根据规划信息以及所述飞行器的当前状态信息，配置所述飞行器在对应的所述网络小区内的空间接入位置。
[0367]
可选的，所述信息传输需求包括控制信息的传输需求和/或数据的传输需求。
[0368]
可选的，所述规划信息包括在所述网络小区内的信息传输的预估要求和/或接入所述网络小区的接入时间。
[0369]
可选的，所述处理器101执行所述计算机程序时还可实现如下步骤：
[0370]
所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤之前，还包括：
[0371]
根据第二状态空间划分和第二动作空间划分训练第二强化学习算法；
[0372]
所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤包括：
[0373]
采用所述第二强化学习算法进行所述路径的规划；
[0374]
其中，所述第二状态空间划分和第二动作空间划分都是基于网络小区。
[0375]
可选的，所述处理器101执行所述计算机程序时还可实现如下步骤：
[0376]
所述根据飞行器的当前飞行任务中的信息传输需求进行路径的规划的步骤之后，还包括：
[0377]
根据路径质量的第二评价结果和第二信息传输质量的评价结果中的至少之一优化所述第二强化学习算法；
[0378]
其中，所述第二信息传输质量为所述路径中的信息传输质量。
[0379]
可选的，用于计算所述路径质量的第二评价结果的评价参数包括航迹长度和/或累计失联时间；用于计算所述第二信息传输质量的评价结果的评价参数包括总数据传输比值，所述总数据传输比值包括：总的未传数据量与总数据量的比值，和/或，总的已传数据量与总数据量的比值。
[0380]
可选的，所述处理器101执行所述计算机程序时还可实现如下步骤：
[0381]
所述将所述节点的规划信息发送至对应网络小区的接入网设备的步骤之后，还包括：
[0382]
获取预设信息，所述预设信息指示所述飞行器在按照所述路径飞行过程中出现影响当前飞行任务执行的情况；
[0383]
若获取到所述预设信息，重新根据当前飞行任务中的信息传输需求，规划所述飞行器当前所在位置至任务终点的路径；
[0384]
将重新规划的路径的节点的规划信息发送至所述重新规划的路径中各节点对应的接入网设备。
[0385]
本发明实施例的具体工作过程与上述方法实施例二中的一致，故在此不再赘述，详细请参阅上述实施例二中方法步骤的说明。
[0386]
本发明实施例九提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例一或者实施例二中任一种路径规划方法中的步骤。详细请参阅以上对应实施例中方法步骤的说明。
[0387]
本发明实施例中的接入网设备可以是全球移动通讯(global system of mobile communication，简称gsm)或码分多址(code division multiple access，简称cdma)中的基站(base transceiver station，简称bts)，也可以是宽带码分多址(wideband code division multiple access，简称wcdma)中的基站(nodeb，简称nb)，还可以是lte中的演进型基站(evolutional node b，简称enb或enodeb)，或者中继站或接入点，或者未来5g网络中的基站等，在此并不限定。
[0388]
本发明实施例中的终端可以是无线终端也可以是有线终端，无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(radio access network，简称ran)与一个或多个核心网进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。例如，个人通信业务(personal communication service，简称pcs)电话、无绳电话、会话发起协议(session initiation protocol，简称sip)话机、无线本地环路(wireless local loop，简称wll)站、个人数字助理(personal digital assistant，简称pda)等设备。无线终端也可以称为系统、订户单元(subscriber unit)、订户站(subscriber station)，移动站(mobile station)、移动台(mobile)、远程站(remote station)、远程终端(remote terminal)、接入终端(access terminal)、用户终端(user terminal)、用户代理(user agent)、终端(user device or user equipment)，在此不作限定。
[0389]
上述计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0390]
以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种无线电信号频谱的平滑滤波方法及系统与流程

一种路径规划方法、接入网设备及飞行控制设备与流程

相关文献

最热文献