飞行器飞行策略的确定方法和装置与流程

2022-12-13 19:52:31 来源：中国专利 TAG：

1.本技术涉及人工智能领域，并且更具体地，涉及一种飞行器飞行策略的确定方法和装置。

背景技术：

2.现代城市出行方式选择多样，形式多元。随着人口密度增加、超大型城市土地资源的使用受到限制，许多城市正经历日益加剧的交通拥堵和环境污染等问题。因此，需要以可以减少地面交通流量而不需要使用大量土地的方式来扩展可用的城市运输方式。
3.近年来我国的航空运输业取得了突飞猛进的发展，但随着空中交通需求的不断增长，对空域资源的需求不断增加，空中交通拥堵现象日益突出。这不仅降低了飞行的安全性，而且给航空带来了巨大的经济损失。空中交通流量管理是目前解决空中交通拥挤最为有效和经济的手段。
4.人工智能(artificial intelligence，ai)是研究用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。强化学习是用于实现序列决策的通用方法，智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，使得智能体获取最大的奖励。
5.因此，在具有极大交通流量的城市空中交通运输场景下，如何使得智能体自主地选择航行路线和调节速度，提升空中交通管理效率和航空运输效率是亟待解决的问题。

技术实现要素：

6.本技术提供一种飞行器飞行策略的确定方法和装置，能够在具有极大交通流量的城市空中交通运输场景下，使得智能体自主地选择航行路线和调节速度，提升空中交通管理效率和航空运输效率。
7.第一方面，提供了一种飞行器飞行策略的确定方法，包括：获取第一模型，该第一模型是基于第一训练数据训练获得的，该第一训练数据包括第一飞行器在第一时段内的飞行状态信息、至少一个第二飞行器在该第一时段内的飞行状态信息以及该第一飞行器在该第一时段内的目标飞行策略，该第二飞行器是在该第一时段位于第一范围内的飞行器，该第一范围是根据该第一飞行器的位置确定的；获取第一参数，该第一参数包括第三飞行器在第二时段内的飞行状态信息、至少一个第四飞行器在该第二时段内的飞行状态信息，该第四飞行器是在该第二时段位于第二范围内的飞行器，该第二范围是根据该第三飞行器的位置确定的；将该第一参数输入该第一模型，得到该第三飞行器的飞行策略。
8.根据本技术提供的方案，通过对多智能体进行大量训练学习，使得智能体具备自主选择的能力，能够使飞行器平稳起飞或精准着陆，有效利用有限的起降场地，最大化空域利用率，自主地为飞行器选择最优进近路线或起飞路线，并调节飞行器在航线上的速度，以此来优化终端区流量的分配提高航空运输效率
9.结合第一方面，在第一方面的某些实现方式中，根据该第一训练数据训练该第一
模型。
10.结合第一方面，在第一方面的某些实现方式中，将该第一训练数据输入原始模型，得到第一飞行策略；将该第一飞行策略发送给服务器，该服务器中存储有该目标飞行策略；从该服务器获取第一奖励数据，该第一奖励数据是根据该第一飞行策略和该目标飞行策略之间的关系确定的；根据该第一奖励数据调整该原始模型，以确定该第一模型。
11.结合第一方面，在第一方面的某些实现方式中，该第一参数满足：
[0012][0013]
其中，表示该第三飞行器在第二时段内的飞行状态信息，i
(0)
表示该第三飞行器当前位置与降落位置的距离和方位、该第三飞行器的当前速度和加速度、以及该第三飞行器的姿态信息，i(i)表示第i个飞行器当前位置与降落位置的距离和方位、该第i个飞行器的当前速度和加速度、以及该第i个飞行器的姿态信息，d(i)表示该第三飞行器到该第i个飞行器的距离，los(o,i)表示该第三飞行器和该第i个飞行器之间距离的损失，n表示该第四飞行器的数量，i为大于或等于1，且小于或等于n的正整数。
[0014]
结合第一方面，在第一方面的某些实现方式中，该第三飞行器的行动空间满足：
[0015][0016]
其中，表示该第三飞行器选择的起降航线，v
min
表示该第三飞行器在该起降航线中的最小巡航速度，v
t
表示该第三飞行器的当前速度，v
max
表示该第三飞行器在该起降航线中的最大巡航速度。
[0017]
结合第一方面，在第一方面的某些实现方式中，该第三飞行器的终止准则满足：
[0018]naircraft
＝0
[0019]
其中，n
aircraft
表示位于该第二范围内终端区空域内飞行器的数量。
[0020]
结合第一方面，在第一方面的某些实现方式中，该终端区空域包括多个起降航线，该多个起降航线中的每个起降航线的进近路线的起始端和终止端配置垂直起降空域。
[0021]
结合第一方面，在第一方面的某些实现方式中，该垂直起降空域为阶梯圆柱形空域，该阶梯圆柱形空域在不同的方向配置多个进场点，设置多条角度不同的进场路径，该方法还包括：当该第三飞行器进入该阶梯圆柱形空域发生拥堵，或者该阶梯圆柱形空域超过第一预设阈值时，控制该第三飞行器执行等待程序，该第一预设阈值为该阶梯圆柱形空域容纳飞行器数量的最大值。
[0022]
结合第一方面，在第一方面的某些实现方式中，该第一奖励数据是基于奖励函数计算得到的，该奖励函数满足：
[0023][0024]
其中，表示该第三飞行器与该第四飞机器之间的距离,λ、α和β是正常数，r
t
表示该第三飞行器起降过程的总时间。
[0025]
结合第一方面，在第一方面的某些实现方式中，当该第三飞行器与该第四飞行器之间发生冲突时，从该服务器获取与该冲突对应的奖励数据，该冲突用于指示该第三飞行
器与该第四飞行器之间的距离小于第二预设阈值，该第二预设阈值为该第三飞行器与该第四飞行器之间安全距离的最小值。
[0026]
结合第一方面，在第一方面的某些实现方式中，对智能体的学习训练可以根据演员评论家的算法进行，例如：优势动作评论(advantage actor critic，a2c)、异步的优势动作评论(asynchronous advantage actor-critic，a3c)算法、柔性致动/评价(soft actor critic，sac)算法、近端策略优化算法(proximal policy optimization algorithms，ppo)算法、深度确定性策略梯度(deep deterministic policy gradient，ddpg)算法等，本技术对此不作限定。
[0027]
第二方面，提供了一种飞行器飞行策略的确定装置，包括：获取单元，用于获取第一模型，该第一模型是基于第一训练数据训练获得的，该第一训练数据包括第一飞行器在第一时段内的飞行状态信息、至少一个第二飞行器在该第一时段内的飞行状态信息以及该第一飞行器在该第一时段内的目标飞行策略，该第二飞行器是在该第一时段位于第一范围内的飞行器，该第一范围是根据该第一飞行器的位置确定的；该获取单元，还用于获取第一参数，该第一参数包括第三飞行器在第二时段内的飞行状态信息、至少一个第四飞行器在该第二时段内的飞行状态信息，该第四飞行器是在该第二时段位于第二范围内的飞行器，该第二范围是根据该第三飞行器的位置确定的；收发单元，用于将该第一参数输入该第一模型，得到该第三飞行器的飞行策略。
[0028]
结合第二方面，在第二方面的某些实现方式中，该装置还包括：处理单元，用于根据该第一训练数据训练该第一模型。
[0029]
结合第二方面，在第二方面的某些实现方式中，该收发单元，还用于：将该第一训练数据输入原始模型，得到第一飞行策略；将该第一飞行策略发送给服务器，该服务器中存储有该目标飞行策略；该获取单元，还包括从该服务器获取第一奖励数据，该第一奖励数据是根据该第一飞行策略和该目标飞行策略之间的关系确定的；该处理单元，还包括根据该第一奖励数据调整该原始模型，以确定该第一模型。
[0030]
结合第二方面，在第二方面的某些实现方式中，该第一参数满足：
[0031][0032]
其中，表示该第三飞行器在第二时段内的飞行状态信息，i
(0)
表示该第三飞行器当前位置与降落位置的距离和方位、该第三飞行器的当前速度和加速度、以及该第三飞行器的姿态信息，i(i)表示第i个飞行器当前位置与降落位置的距离和方位、该第i个飞行器的当前速度和加速度、以及该第i个飞行器的姿态信息，d(i)表示该第三飞行器到该第i个飞行器的距离，los(o,i)表示该第三飞行器和该第i个飞行器之间距离的损失，n表示该第四飞行器的数量，i为大于或等于1，且小于或等于n的正整数。
[0033]
结合第二方面，在第二方面的某些实现方式中，该第三飞行器的行动空间满足：
[0034][0035]
其中，表示该第三飞行器选择的起降航线，v
min
表示该第三飞行器在该起降航线中的最小巡航速度，v
t
表示该第三飞行器的当前速度，v
max
表示该第三飞行器在该起降航线中的最大巡航速度。
[0036]
结合第二方面，在第二方面的某些实现方式中，该第三飞行器的终止准则满足：
[0037]naircraft
＝0
[0038]
其中，n
aircraft
表示位于该第二范围内终端区空域内飞行器的数量。
[0039]
结合第二方面，在第二方面的某些实现方式中，该终端区空域包括多个起降航线，该多个起降航线中的每个起降航线的进近路线的起始端和终止端配置垂直起降空域。
[0040]
结合第二方面，在第二方面的某些实现方式中，该垂直起降空域为阶梯圆柱形空域，该阶梯圆柱形空域在不同的方向配置多个进场点，设置多条角度不同的进场路径，该处理单元，还用于当该第三飞行器进入该阶梯圆柱形空域发生拥堵，或者该阶梯圆柱形空域超过第一预设阈值时，控制该第三飞行器执行等待程序，该第一预设阈值为该阶梯圆柱形空域容纳飞行器数量的最大值。
[0041]
结合第二方面，在第二方面的某些实现方式中，该第一奖励数据是基于奖励函数计算得到的，该奖励函数满足：
[0042][0043]
其中，表示该第三飞行器与该第四飞机器之间的距离,λ、α和β是正常数，r
t
表示该第三飞行器起降过程的总时间。
[0044]
结合第二方面，在第二方面的某些实现方式中，该处理单元，还用于当该第三飞行器与该第四飞行器之间发生冲突时，从该服务器获取与该冲突对应的奖励数据，该冲突用于指示该第三飞行器与该第四飞行器之间的距离小于第二预设阈值，该第二预设阈值为该第三飞行器与该第四飞行器之间安全距离的最小值。
[0045]
结合第二方面，在第二方面的某些实现方式中，对智能体的学习训练可以根据演员评论家的算法进行，例如：优势动作评论(advantage actor critic，a2c)、异步的优势动作评论(asynchronous advantage actor-critic，a3c)算法、柔性致动/评价(soft actor critic，sac)算法、近端策略优化算法(proximal policy optimization algorithms，ppo)算法、深度确定性策略梯度(deep deterministic policy gradient，ddpg)算法等，本技术对此不作限定。
[0046]
第三方面，提供了一种飞行器飞行策略的确定装置，该装置包括处理器，该处理器与存储器耦合，该存储器用于存储计算机程序或指令，处理器用于执行存储器存储的计算机程序或指令，使得第一方面或第一方面任一种可能实现方式中的方法被执行。
[0047]
可选地，该装置包括的处理器为一个或多个，该存储器为一个或多个。
[0048]
可选地，该装置包括的存储器可以为一个或多个。
[0049]
可选地，该存储器可以与该处理器集成在一起，或者该存储器与处理器分离设置。
[0050]
可选地，该装置还包括收发器，收发器具体可以为发射机(发射器)和接收机(接收器)。
[0051]
第四方面，提供了一种飞行器飞行策略的确定装置，包括：用于实现第一方面或第一方面任一种可能实现方式中的方法的各个模块或单元。
[0052]
第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序或代码，该计算机程序或代码在计算机上运行时，使得该计算机执行上述第一方面
或第一方面任一种可能实现方式中的方法。
[0053]
第六方面，提供了一种芯片，包括至少一个处理器，该至少一个处理器与存储器耦合，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得安装有该芯片系统的通信设备执行上述第一方面或第一方面任一种可能实现方式中的方法。
[0054]
其中，该芯片可以包括用于发送信息和/或数据的输入电路或者接口，以及用于接收信息和/或数据的输出电路或者接口。
[0055]
第七方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被计算机运行时，使得上述第一方面或第一方面任一种可能实现方式中的方法被实现。
[0056]
根据本技术实施例的方案，提供了一种用于空中交通流量优化的智能体训练方法和装置，通过使用多智能体强化学习来进行路线选择与速度调节的决策，使得飞行器平稳起飞或精准着陆，有效利用有限的起降场地，最大化空域利用率，进而优化终端区流量的分配。自动为飞行器选择最优进近路线或起飞路线，并调节飞行器在航线上的速度，能够提高航空运输效率，解决空中交通流量管理问题。
附图说明
[0057]
图1是适用本技术的多智能体系统的一例示意图。
[0058]
图2是适用本技术的强化学习的训练过程的一例示意图。
[0059]
图3为适用本技术的多层感知机的一例示意图；
[0060]
图4为适用本技术的损失函数优化的一例示意图；
[0061]
图5为适用本技术的梯度反向传播的一例示意图；
[0062]
图6是适用本技术的飞行器飞行策略的确定方法的一例示意图。
[0063]
图7是适用本技术的飞行器飞行策略的确定方法的另一例示意图。
[0064]
图8是适用本技术的飞行器飞行策略的确定装置的一例示意图。
[0065]
图9是适用本技术的飞行器飞行策略的确定方法装置的另一例示意图。
具体实施方式
[0066]
下面将结合附图，对本技术中的技术方案进行描述。
[0067]
图1是适用于本技术的一种多智能体系统。多智能体(agent)协作是人工智能领域的一个应用场景。例如，在包含多个路由器的通信网络中，每个路由器都可以看作一个智能体，每个路由器有自己的流量调度策略，多个路由器的流量调度策略需要彼此协调，以便于用较少的资源完成流量调度任务。
[0068]
图1中，a～f表示6个路由器，每个路由器上部署有神经网络，因此，一个路由器等价于一个智能体，训练智能体即训练智能体上部署的神经网络。路由器之间的连线表示通信线路。a～d为4个边缘路由器，边缘路由器之间的流量称为聚合流，例如，从a到c的流量为一个聚合流，从c到a流量为另一个聚合流。
[0069]
多个路由器之间的聚合流可以由nb(n
b-1)确定，nb为该多个路由器中边缘路由器的数量。在图1所示的系统中，存在4个边缘路由器，因此，该系统共存在12个聚合流。
[0070]
对于每个聚合流，多路径路由算法已经给出了可用的路径。路由器可以基于路由表项(s，d，nexthop1，rate1％，nexthop2，rate2％，nexthop3，rate3％，
…
)确定可用的路径。其中，s表示起点路由器，d表示目标路由器，nexthop1，nexthop2和nexthop3表示不同的下一跳，rate1％，rate2％和rate3％表示不同的下一跳对应的转发的流量占总转发流量的比例，各个rate的总和等于100％。
[0071]
上述系统的一个特定任务为：确定a～f中任意一个路由器的自主进行路线选择和速度调节的策略。
[0072]
一种完成上述特定任务的方法是将a～f中任意一个路由器看作一个智能体，通过训练该智能体，使得该智能体能够做出合适的路线选择和速度调节策略。
[0073]
为了描述本技术实施例，首先介绍本技术实施例涉及的若干术语。
[0074]
航线：飞机飞行的路线称为空中交通线，简称航线。飞机的航线不仅确定了飞机飞行具体方向、起讫点和经停点，而且还根据空中交通管制的需要，规定了航线的宽度和飞行高度，以维护空中交通秩序，保证飞行安全。
[0075]
空域：指飞行所占用的空间。通常以明显地标或导航台为标志。空域同领土、领海一样，是国家的主权范围，也是重要的军用及民航资源。
[0076]
终端区：可以理解为以机场为中心，以大约10公里的半径范围向上延伸成的圆形空域。
[0077]
人工智能ai：计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能领域的研究包括机器人、语言识别、图像识别、自然语言处理、决策与推理、人机交互、推荐与搜索等。
[0078]
机器学习是人工智能的核心。业界有关人士将机器学习定义为：为了实现任务t，通过训练过程e，逐步提高模型表现p的一个过程。举个例子，让一个模型认识一张图片是猫还是狗(任务t)。为了提高模型的准确度(模型表现p)，不断给模型提供图片让其学习猫与狗的区别(训练过程e)。通过这个学习过程，所得到的最终模型就是机器学习的产物，理想情况下，最终训练的模型具备识别图片中的猫与狗的功能。该训练过程就是机器学习的学习过程。机器学习的方法包括强化学习。
[0079]
智能体(agent)：是能自主活动和自主决策的软件或者硬件实体，而环境是指智能体以外的外部条件。对于通信系统而言，智能体可以是制定决策的软件或软件和硬件结合的实体，而环境就是除了该软件或硬件实体外其他外部条件的总称。例如，智能体可以是某个特定的环境下的计算机系统或者计算机系统的一部分。智能体可以根据自身对环境的感知，按照已有的指示或者通过自主学习，并与其他智能体进行沟通协作，在其所处的环境中自主地完成设定的目标。
[0080]
智能载体主要包括固定机器人，例如用于工业生产的机械手臂；和移动机器人，即使用轮子、腿或类似机器在环境中移动，常见的有货运机器人(例如仓储机器人)、空中机器人(例如无人机)和自动载具(例如自动驾驶车辆)等。
[0081]
策略函数：是指智能体在强化学习中使用的采用行为的规则。例如，在学习过程中，可以根据状态输出动作，并以此动作探索环境，以更新状态。策略函数的更新依赖于策略梯度(policy gradient，pg)。策略函数通常为一个神经网络。例如，该神经网络可以包括多层感知器(mutilayer perceptron)。在实际应用中，智能体的策略函数通常采用深度神
经网络。智能体通过对环境的观察，得到当前状态，并按照一定的规则(policy)决策一个动作反馈给环境，环境会将该动作实行后得到的奖励或惩罚反馈给智能体。通过多次的迭代，使智能体学会根据环境状态作出最优决策。
[0082]
为方便理解本技术提出的技术方案，首先对决策模型、强化学习和神经网络等进行介绍。
[0083]
决策模型可以理解为分析决策问题的模型，对无线资源的调度就是属于一种决策问题，可以构建其决策模型。
[0084]
马尔可夫决策过程(markov decision processes，mdp)是强化学习的常见模型，是一种基于离散时间随机控制的分析决策问题的数学模型。其假设环境具有马尔可夫性质，即环境的未来状态的条件概率分布仅依赖于当前状态，决策者通过周期性地观察环境的状态，根据当前环境的状态做出决策(也可称为动作)，与环境交互后得到下一步的状态及奖励。
[0085]
无线资源调度在蜂窝网中起着至关重要的作用，其本质就是根据当前各个用户的信道质量、服务的质量(quality of service，qos)要求等对可用的无线频谱等资源进行分配。本技术可以将无线资源调度的过程建立成一个mdp过程，采用人工智能(artificial intelligence，ai)技术中的强化学习解决，并提出一种智能体自主决策的方法，即通过多智能体强化学习来进行路线选择和速度调节的决策。
[0086]
强化学习(reinforcement learning，rl)是机器学习中的一个领域，可以用于求解马尔科夫决策过程。强化学习又称再励学习、评价学习或增强学习，是用于实现序列决策的通用方法用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
[0087]
一般地，在人工智能领域中，强化学习是智能体以“试错”的方式进行学习，通过动作与环境进行交互获得的奖励(reward)指导行为，目标是使智能体通过强化学习获得最大的奖励。
[0088]
强化学习无需训练数据集。强化学习中由环境提供的强化信号(即奖励)对产生动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价(即奖励)的环境中获得知识，改进行动方案以适应环境。
[0089]
基于mdp的强化学习可包括两种类别：基于环境状态转移建模和无环境(model free)模型。前者需要对环境状态转移进行建模，通常依靠经验知识或者数据拟合建立。后者则不需要对环境状态转移建模，而是根据自身在环境中的探索学习不断提升。由于强化学习所关注的真实环境往往比建立的模型更加复杂而难以预测(例如机器人、围棋等)，所以基于无环境模型的强化方法往往更利于实现和调整。
[0090]
图2是一种强化学习训练方法的示意图。如图2所示，强化学习主要包含四个元素：智能体(agent)、环境状态(environment state)、动作(action)与奖励(reward)，其中，智能体的输入为状态，输出为动作。智能体110包括决策策略(即策略函数)，该决策策略可以是由公式表征的算法，也可以是神经网络。
[0091]
目前强化学习中智能体的训练过程为：通过智能体与环境进行多次交互，获得每次交互的动作、状态、奖励；将这多组(动作，状态，奖励)作为训练数据，对智能体进行一次
训练。采用上述过程，对智能体进行下一轮次训练，直至满足收敛条件。
[0092]
其中，获得一次交互的动作、状态、奖励的过程如图1所示，将环境当前状态s(t)130输入至智能体110，获得智能体输出的动作a(t)140，根据环境120在动作a(t)作用下的相关性能指标，计算本次交互的奖励r(t)160。至此，获得本次交互的状态s(t)130、动作a(t)140与奖励r(t)160。记录本次交互的状态s(t)130、动作a(t)140与奖励r(t)160，以备后续用来训练智能体。还记录环境在动作a(t)作用下的下一个状态s(t 1)150，以便实现智能体与环境的下一次交互。
[0093]
换句话说，在每个时刻t，决策者所观察到的状态s(t)，在所做动作a(t)的影响下，会转移到下一状态s(t 1)，并反馈奖励r(t)。其中，s(t)表示状态函数，a(t)表示动作函数，r(t)表示奖励值，t表示时间。
[0094]
具体地，强化学习的训练方法的实现步骤如下：
[0095]
步骤一，初始化智能体110的决策策略，该初始化是指对神经网络中参数的初始化；
[0096]
步骤二，智能体110获取环境状态130；
[0097]
步骤三，智能体110根据输入的环境状态130，使用决策策略π，获得决策动作140，并将该决策动作140告知环境120；
[0098]
步骤四，环境120执行该决策动作140，该环境状态130转移到下一环境状态150，同时得到决策策略π对应的奖励160；
[0099]
步骤五，智能体110获取决策策略π对应的奖励160和下一环境状态150，并根据输入的环境状态130、决策动作140、决策策略π对应的奖励160以及下一环境状态150，对决策策略进行更新，更新的目标是奖励最大化或惩罚最小化；
[0100]
步骤六，如未满足训练终止条件，则返回步骤三，如满足训练终止条件，则终止训练。
[0101]
应理解，上述训练步骤，可以在线进行(online)，也可以离线进行(offline)。如果离线进行，则将每轮迭代中的数据(例如，输入的环境状态130、决策动作140、决策策略对应的奖励160以及下一环境状态150)放入经验缓存，用于训练。
[0102]
该训练终止条件一般是指智能体训练时步骤五中的奖励大于某一预设阈值，或惩罚小于某一预设阈值。也可以预先指定训练的迭代次数，即到达预设迭代次数后，终止训练。还可以根据系统的性能来控制是否终止训练，如系统的性能指标(例如通信系统中的吞吐量、丢包率、时延、公平性等)达到预设阈值。
[0103]
完成训练的智能体，进入推理阶段执行如下步骤：
[0104]
步骤一，智能体获取环境状态；
[0105]
步骤二，智能体根据输入的环境状态，使用决策策略，获得决策动作，并将该决策动作告知环境；
[0106]
步骤三，环境执行该决策动作，环境状态转移到下一环境状态；
[0107]
步骤四，返回步骤一。
[0108]
由上述可知，训练好的智能体不再关心决策对应的奖励，只需针对环境状态，按自身的策略做出决策即可。
[0109]
实际使用时，上述智能体的训练步骤和推理步骤交替进行，即训练一段时间，到达
训练终止条件后开始推理，当推理一段时间后，系统环境发生变化，使得原有训练好的策略可能不再适用，则需要重新开始训练过程。
[0110]
将强化学习和深度学习相结合，就得到了深度强化学习。深度强化学习仍然符合强化学习中智能体和环境交互的框架。不同的是，智能体中使用深度神经网络进行决策。通过深度强化学习进行智能体的训练方法也适用于本技术实施例所保护的技术方案。
[0111]
全连接神经网络又称为多层感知机(multilayer perceptron，mlp)，一个mlp包含一个输入层(左侧)，一个输出层(右侧)，及多个隐藏层(中间)，每层包含数个节点，称为神经元。其中相邻两层的神经元间两两相连，如图3所示。
[0112]
考虑相邻两层的神经元，下一层的神经元的输出h为所有与之相连的上一层神经元x的加权和并经过激活函数。用矩阵可以表示为
[0113]
h＝f(wx b)
[0114]
其中，w为权重矩阵，b为偏置向量，f为激活函数。则神经网络的输出可以递归表达为
[0115]
y＝fn(w
nfn-1
(
…
) bn)
[0116]
简单的说，可以将神经网络理解为一个从输入数据集合到输出数据集合的映射关系。而通常神经网络都是随机初始化的，用已有数据得到这个映射关系的过程被称为神经网络的训练。
[0117]
训练的具体方式为采用损失函数(loss function)对神经网络的输出结果进行评价，并将误差反向传播，通过梯度下降的方法即能迭代优化w和b，直到损失函数达到最小值，如图4所示。
[0118]
梯度下降的过程可以表示为
[0119][0120]
其中，θ为待优化参数(如w和b)，l为损失函数，η为学习率，控制梯度下降的步长。
[0121]
反向传播的过程利用到求偏导的链式法则，即前一层参数的梯度可以由后一层参数的梯度递推计算得到，如图5所示，公式可以表达为：
[0122][0123]
其中，w
ij
为节点j连接节点i的权重，si为节点i上的输入加权和。
[0124]
通过强化学习训练的方法，智能体可以通过和环境的交互(即获取环境状态，做出决策，获取决策奖励和下一次环境状态)，不断完善自身的参数配置，使得其所做出的决策越来越好。同时，由于这种环境交互以及迭代式的自我完善机制，智能体可以跟踪环境的变化。而传统的决策算法中，给出一个决策后，不能获得环境给出的决策奖励，因此，不能通过与环境的交互自我完善；除此之外，当环境状态发生变化时，当前的决策算法将不再适用，需要重新建立数学模型。
[0125]
本技术实施例提出用于城市空中交通机场终端区空域流量优化的智能体训练方法，是通过强化学习对多智能体进行训练，再利用训练好的智能体进行决策。即具备自主选择航行路线和调节航行速度的能力，以此优化终端区流量的分配。
[0126]
现代城市出行方式选择多样，们可以选择步行、骑自行车、开车、乘坐公共交通工
具、使用乘车共享服务等。城市空中交通机场附近的空域内交通量将极度繁忙，在目前的空中交通管理系统框架下，机场终端区内的飞行器由塔台管制员根据自身经验完成航线的调配，此种类型的飞行器航线分配形式与流量管理已不适用于具有极大交通流量的城市空中交通运输场景。
[0127]
为了提升空中交通管理效率，在城市空中交通机场附近划设机场终端管制区，一旦飞行器进入该区域内，飞行器的飞行将会受到限制，进入该区域飞行器的飞行将交由城市空中交通机场协同决策系统。
[0128]
针对上述不足，本技术提供了一种用于城市空中交通机场终端区空域流量优化的智能体训练方法和装置，通过使用智能体强化学习来进行路线选择与速度调节的决策，使得飞行器平稳起飞或精准着陆，有效利用有限的起降场地，最大化空域利用率，进而优化终端区流量的分配。该方法能够实现智能体自动为飞行器选择最优进近路线或起飞路线，并调节飞行器在航线上的速度，增加终端区内的空域容量，提高航空运输效率。
[0129]
图6是适用本技术的一种飞行器飞行策略的确定方法的一例流程示意图。该方法600可以由计算机系统执行，该计算机系统包括智能体。该智能体训练方法主要包括：装载-感知-选择-训练等步骤，如图6所示，该方法600包括如下步骤。
[0130]
s610，获取第一模型，该第一模型是基于第一训练数据训练获得的，该第一训练数据包括第一飞行器在第一时段内的飞行状态信息、至少一个第二飞行器在该第一时段内的飞行状态信息以及该第一飞行器在该第一时段内的目标飞行策略，该第二飞行器是在该第一时段位于第一范围内的飞行器，该第一范围是根据该第一飞行器的位置确定的；
[0131]
示例性地，根据该第一训练数据训练该第一模型，包括：将该第一训练数据输入原始模型，得到第一飞行策略；将该第一飞行策略发送给服务器，该服务器中存储有该目标飞行策略；从该服务器获取第一奖励数据，该第一奖励数据是根据该第一飞行策略和该目标飞行策略之间的关系确定的；根据该第一奖励数据调整该原始模型，以确定该第一模型。
[0132]
示例性的，该第一参数满足：
[0133][0134]
其中，表示该第三飞行器在第二时段内的飞行状态信息，i
(0)
表示该第三飞行器当前位置与降落位置的距离和方位、该第三飞行器的当前速度和加速度、以及该第三飞行器的姿态信息，i(i)表示第i个飞行器当前位置与降落位置的距离和方位、该第i个飞行器的当前速度和加速度、以及该第i个飞行器的姿态信息，d(i)表示该第三飞行器到该第i个飞行器的距离，los(o,i)表示该第三飞行器和该第i个飞行器之间距离的损失，n表示该第四飞行器的数量，i为大于或等于1，且小于或等于n的正整数。
[0135]
示例性的，该第三飞行器的行动空间满足：
[0136][0137]
其中，表示该第三飞行器选择的起降航线，v
min
表示该第三飞行器在该起降航线中的最小巡航速度，v
t
表示该第三飞行器的当前速度，v
max
表示该第三飞行器在该起降航线中的最大巡航速度。
[0138]
示例性的，该第三飞行器的终止准则满足：
[0139]naircraft
＝0
[0140]
其中，n
aircraft
表示位于该第二范围内终端区空域内飞行器的数量。
[0141]
示例性的，该第一奖励数据是基于奖励函数计算得到的，该奖励函数满足：
[0142][0143]
其中，表示该第三飞行器与该第四飞机器之间的距离,λ、α和β是正常数，r
t
表示该第三飞行器起降过程的总时间。
[0144]
示例性的，当该第三飞行器与该第四飞行器之间发生冲突时，从该服务器获取与该冲突对应的奖励数据，该冲突用于指示该第三飞行器与该第四飞行器之间的距离小于第二预设阈值，该第二预设阈值为该第三飞行器与该第四飞行器之间安全距离的最小值。
[0145]
需要说明的是，本技术的机场终端区空域包括多个起降航线，该多个起降航线中的每个起降航线的进近路线的起始端和终止端配置垂直起降空域。该垂直起降空域为阶梯圆柱形空域，该阶梯圆柱形空域在不同的方向配置多个进场点，设置多条角度不同的进场路径，
[0146]
示例性的，该方法还包括：当该第三飞行器进入该阶梯圆柱形空域发生拥堵，或者该阶梯圆柱形空域超过第一预设阈值时，控制该目标飞行器执行等待程序，该第一预设阈值为该阶梯圆柱形空域容纳飞行器数量的最大值。
[0147]
s620，获取第一参数，该第一参数包括第三飞行器在第二时段内的飞行状态信息、至少一个第四飞行器在该第二时段内的飞行状态信息，该第四飞行器是在该第二时段位于第二范围内的飞行器，该第二范围是根据该第三飞行器的位置确定的；
[0148]
s630，将该第一参数输入该第一模型，得到该第三飞行器的飞行策略。
[0149]
需要说明的是，该终止准则用于确定智能体是否进行下一次学习训练。示例性的，当该空域内飞行器的数量为零时，一次学习训练的过程终止。当该空域内飞行器的数量为不零时，该一次学习训练的过程保持继续。
[0150]
应理解，上述对智能体进行学习训练的算法仅仅是示例性说明，不应构成对本技术的限定。可选的，对智能体的学习训练可以根据演员评论家的算法进行，例如异步的优势动作评论(asynchronous advantage actor-critic，a3c)算法、柔性致动/评价(soft actor critic，sac)算法、近端策略优化算法(proximal policy optimization algorithms，ppo)算法、深度确定性策略梯度(deep deterministic policy gradient，ddpg)算法等。
[0151]
图7是适用本技术的一种飞行器飞行策略的确定方法的另一例流程示意图。该方法700可以由计算机系统执行，该计算机系统包括智能体，也可以由专用的神经网络加速器、通用的处理器或其它装置执行，下文以智能体为执行主体对方法700进行描述是示例性的描述，不应被理解为对方法700的执行主体的限定。如图7所示，该方法700包括如下步骤：
[0152]
s710，在虚拟环境训练机载协同决策系统(智能体)，该智能体装载状态空间、行动空间和终止准则等信息。
[0153]
应理解，该步骤是对智能体的初始化，包括策略函数、状态空间、行动空间和终止准则等。该目标飞行器是进入机场终端区域内的至少一个飞行器中的任一飞行器。
[0154]
示例性的，该智能体的状态空间包括：目标飞行器的状态和该目标飞行器周围的n个智能体的状态信息。该n个智能体可以是图1中a～f中的任意互不相同的路由器，相互之间可以进行直接的通信连接。
[0155]
需要说明的是，该机场终端区域设有多个起降航线，在起降航线进近路线的起始端和终止端设置垂直起降空域。具体的，在起飞阶段，智能体协调目标飞行器在该空域内进入不同的巡航高度；以及在降落阶段，智能体协调在不同高度层飞行的目标飞行器进行起降航线的选择。通过设置垂直起降空域能够使飞行器平稳起飞或精准着陆，在有限的起降场地，达到最优的利用。
[0156]
进一步的，在垂直起降空域内设置阶梯圆柱形空域，阶梯圆柱形空域在不同的方向设置多个进场点，以及多条角度不同的进场路径，实现最大化空域利用率。
[0157]
需要说明的是，进场离场路径的布置，区别于传统的单一的进进路径或起飞路径，城市空中交通机场终端区进厂离场的路径是按照一定的角度分散式布置的，固有多不同角度的路径，进入阶梯圆柱形空域若发生拥堵或者超过机场处理最大量(即，第一预设阈值的一例)，则执行等待程序，自动为飞行器选择最优的进近路线或起飞路线，并调节飞行器在航线上的速度，在保证安全间隔的基础上极大利用终端区空域资源，增加终端区内的空域容量，减少等待程序的使用，提高航空运输效率。
[0158]
s720，确定目标飞行器在目标航线中的飞行状态信息(即，第一飞行状态信息的一例)。
[0159]
应理解，该飞行状态包括目标飞行器的飞行状态信息，以及与该目标飞行器距离为l的n个飞行器的状态信息。
[0160]
需要说明的是，该目标飞行器的飞行状态的表达式可以为：
[0161][0162]
其中，i
(0)
表示该目标飞行器当前位置与目标位置的距离和方位、该目标飞行器的当前速度和加速度、以及该目标飞行器的姿态信息，i(i)表示第i个飞行器当前位置与目标位置的距离和方位、该第i个飞行器的当前速度和加速度、以及该第i个飞行器的姿态信息，d(i)表示该目标飞行器到该第i个飞行器的距离，los(o,i)表示该目标飞行器和的i个飞行器之间距离的损失，i为大于或等于1，且小于或等于n的正整数。
[0163]
应理解，目标飞行器与其他飞行器之间的距离应该小于预设阈值，即多个飞行器之间应该保持在安全距离内运行，从而实现最大化空域利用率。如果多个飞行器之间的距离过大，那么不利于提高航空运输效率，因此可能会带来损失，即目标飞行器o和其他飞行器i之间距离的损失los(o,i)。
[0164]
s730，智能体控制目标飞行器按照行动空间进行动作选择，并向环境输出该动作。
[0165]
示例性的，该智能体的行动空间主要包括路线和速度，可以定义为a
t
，其表达式为：
[0166][0167]
其中，表示目标飞行器o选择的航线i，v
min
为该目标飞行器的最小允许巡航速度(减速)，v
t
为该目标飞行器的当前速度(保持)，v
max
为该目标飞行器的最大允许巡航速度(加速)。通过引入机器智能体消除人因因素、人因差错对飞行安全造成的影响，能够极大降
低飞行故障、飞行事故、飞行灾难等。同时，使用智能决策系统的航班能够自主实时选择路线并调整速度，处理极大的航班密度。
[0168]
需要说明的是，如果两个智能体之间发生冲突，该两个智能体都将受到惩罚，其余的n-2个智能体之间因为没有发生冲突，将不会受到惩罚。其中，目标飞行器的奖励函数为r(t)，其表达式如下所示：
[0169][0170]
其中，是目标飞行器到周围距离最近的飞行器的距离，λ可以是一个很大的常数，用于惩罚该目标飞行器与其他飞行器产生冲突。α和β是小的正值常数，用于惩罚目标飞行器起降时常和接近冲突的损失，r
t
是飞行器起降花费的累积总时间。
[0171]
因此，上述冲突表示任意两个飞行器之间的飞行距离小于min(即，第二预设阈值的一例)，min为安全间隔设定的最小值。
[0172]
示例性的，目前规定两架飞行器如果在相同高度航层，危险距离为5海里(n mile)；如果两架飞行器不在相同高度航层，危险距离为3海里(n mile)，这么大的距离主要是喷气式飞行器的尾气会产生扰流，容易影响经过的飞行器，导致机身猛烈摇晃。
[0173]
s740，智能体为获得最大奖励不断学习尝试，直到到达终止状态，即空域内飞行器的数量为零。
[0174]
需要说明的是，智能体从环境获取响应于步骤s730输出的决策动作的第二飞行状态信息和奖励数据。
[0175]
示例性的，该空域内飞行器的数量可以定义为n
aircraft
。当n
aircraft
＝0时，一次学习训练的过程终止。应理解，该智能体的终止准则满足n
aircraft
＝0。
[0176]
s750，智能体的决策能力习得之后，需要将训练好的协同决策系统(智能体)装载飞行器。
[0177]
应理解，基于上述智能体的训练完成与装载，该智能体能够自主地选择飞行路线和速度调节。即当目标飞行器进入城市空中交通机场附近划设的机场终端管制区域时，其飞行路线及飞行速度则交由该机载协同决策系统(智能体)进行决策。
[0178]
在本技术实施例中，对智能体进行训练的过程可以通过“优势动作评论”(advantage actor critic，a2c)算法进行。
[0179]
该算法使用优势函数代替critic网络中的原始回报，可以作为衡量选取动作值和所有动作平均值好坏的指标。
[0180]
其中，优势函数为：
[0181]aπ
(s,a)＝q
π
(s,a)-v
π
(s)
[0182]
状态值函数v(s)：表示该状态下所有可能动作所对应的动作值函数乘以采取该动作的概率的和。
[0183]
动作值函数q(s,a)：表示该状态下的a动作对应的值函数。
[0184]
优势函数q
π
(s,a)-v
π
(s)：表示动作值函数相比于当前状态值函数的优势。
[0185]
应理解，如果优势函数大于零，则说明该动作比平均动作好；如果优势函数小于
零，则说明当前动作还不如平均动作好。
[0186]
a2c算法训练的具体实现步骤为：
[0187]
步骤一：实例化actor/critic并初始化超参数；
[0188]
步骤二：for epochs:
[0189]
for steps:
[0190]
(1)使用actor网络从行动空间a
t
(路线、速度)为请求起降的目标飞行器选择动作；
[0191]
(2)step(state，action)得到奖励、状态转移；
[0192]
(3)使用critic网络的q_net计算当前状态的价值v(s)和后一状态的价值v(s
′
)，得到误差：td_error＝r γv(s
′
)-v(s)；
[0193]
使用td_error的均方误差训练q_network；
[0194]
(4)td_error反馈给actor，policy gradient公式训练actor；
[0195]
(5)当前状态被更新为下一状态state＝next_state，即对应图1中s(t)
←
s(t 1)。
[0196]
步骤三：训练学习过程结束后，训练得到的网络参数记录下了状态—行为信息，使用该网络参数输入相应的状态信息即可为飞行器进行智能决策，智能体通过在模拟仿真环境进行大量训练学习能够具备最优自主选择的能力，以此来优化终端区流量的分配。
[0197]
应理解，上述对智能体进行学习训练的算法仅仅是示例性说明，不应构成对本技术的限定。可选的，对智能体的学习训练可以根据演员评论家的算法进行，例如异步的优势动作评论(asynchronous advantage actor-critic，a3c)算法、柔性致动/评价(soft actor critic，sac)算法、近端策略优化算法(proximal policy optimization algorithms，ppo)算法、深度确定性策略梯度(deep deterministic policy gradient，ddpg)算法等。
[0198]
综上所述，本技术提供了一种用于空中交通流量优化的智能体训练方法，包括在起飞阶段，智能体协调目标飞行器在终端区空域内进入不同的巡航高度；在降落阶段，智能体协调在不同高度层飞行的目标飞行器进行起降航线的选择。通过设置垂直起降空域能够使目标飞行器平稳起飞或精准着陆，实现在有限的起降场地，达到最优的利用。
[0199]
另外，本技术通过设置多条角度不同的进场路径，能够最大化空域利用率，进场离场路径的布置，区别于传统的单一的进进路径或起飞路径，城市空中交通机场终端区进厂离场的路径是按照一定的角度分散式布置的，固有多不同角度的路径。训练后的智能体能够自动为飞行器选择最优的进近路线或起飞路线，并调节飞行器在航线上的速度，在保证安全间隔的基础上极大利用终端区空域资源，减少等待程序的使用，提高航空运输效率。
[0200]
而且，本技术通过引入机器智能体消除人因因素、人因差错对飞行安全造成的影响，能极大降低飞行故障、飞行事故、飞行灾难。同时，使用智能决策系统的航班能自主实时选择路线并调整速度，这能处理极大的航班密度。智能体通过在模拟仿真环境进行大量训练学习能够具备自主选择的能力，使用多智能体强化学习来进行路线选择与速度调节的决策，以此来优化终端区流量的分配。
[0201]
上文结合图6和图7介绍了本技术实施例的用于空中交通流量优化的智能体训练方法，接下来将结合图8和图9介绍本技术实施例的用于空中交通流量优化的智能体训练装置。
[0202]
图8是本技术一实施例的一种飞行器飞行策略的确定装置800的示意性框图。该装置800可以用于执行上文实施例提供的智能体训练方法，为了简洁，此处不再赘述。装置800可以是计算机系统，也可以是计算机系统中的芯片或电路，或者也可以称为ai模块。如图8所示，装置800包括：
[0203]
获取单元810，用于获取第一模型，该第一模型是基于第一训练数据训练获得的，该第一训练数据包括第一飞行器在第一时段内的飞行状态信息、至少一个第二飞行器在该第一时段内的飞行状态信息以及该第一飞行器在该第一时段内的目标飞行策略，该第二飞行器是在该第一时段位于第一范围内的飞行器，该第一范围是根据该第一飞行器的位置确定的；
[0204]
该获取单元810，还用于获取第一参数，该第一参数包括第三飞行器在第二时段内的飞行状态信息、至少一个第四飞行器在该第二时段内的飞行状态信息，该第四飞行器是在该第二时段位于第二范围内的飞行器，该第二范围是根据该第三飞行器的位置确定的；
[0205]
收发单元820，用于将该第一参数输入该第一模型，得到该第三飞行器的飞行策略。
[0206]
应理解，装置800执行智能体训练方法的具体方式以及产生的有益效果可以参见上述实施例中的相关描述，此处不再赘述。
[0207]
图9是本技术一实施例的一种飞行器飞行策略的确定装置900的示意性框图。该装置900可以用于执行上文实施例提供的强化学习的方法，为了简洁，此处不再赘述。装置900包括：处理器910、存储器920和收发器930，三者之间通过内部连接通路互相通信，传递控制和/或数据信号。在一个可能的设计中，处理器910、收发器930和存储器920可以通过芯片实现。处理器910与存储器920耦合，存储器920用于存储计算机程序或指令，处理器910用于执行存储器920存储的计算机程序或指令，使得上文方法实施例中的方法被执行。
[0208]
示例性的，处理器910，用于获取第一模型，该第一模型是基于第一训练数据训练获得的，该第一训练数据包括第一飞行器在第一时段内的飞行状态信息、至少一个第二飞行器在该第一时段内的飞行状态信息以及该第一飞行器在该第一时段内的目标飞行策略，该第二飞行器是在该第一时段位于第一范围内的飞行器，该第一范围是根据该第一飞行器的位置确定的；
[0209]
处理器910，还用于获取第一参数，该第一参数包括第三飞行器在第二时段内的飞行状态信息、至少一个第四飞行器在该第二时段内的飞行状态信息，该第四飞行器是在该第二时段位于第二范围内的飞行器，该第二范围是根据该第三飞行器的位置确定的；
[0210]
该收发器930，用于将该第一参数输入该第一模型，得到该第三飞行器的飞行策略。
[0211]
应理解，装置900执行智能体训练方法的具体方式以及产生的有益效果可以参见上述实施例中的相关描述，此处不再赘述。
[0212]
本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序或代码，该计算机程序或代码在计算机上运行时，使得该计算机可以实现上述实施例中的方法。
[0213]
本技术实施例还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被计算机运行时，使得上述实施例中的方法。
[0214]
本技术实施例还提供一种芯片，包括至少一个处理器，该至少一个处理器与存储器耦合，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得安装有该芯片系统的通信设备执行上述实施例中的方法。
[0215]
其中，该芯片可以包括用于发送信息和/或数据的输入电路或者接口，以及用于接收信息和/或数据的输出电路或者接口。
[0216]
应理解，本技术实施例中，所述处理器可以为中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0217]
还应理解，本技术实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。
[0218]
上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行该计算机指令或计算机程序时，全部或部分地产生按照本技术实施例该的流程或功能。该计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质。半导体介质可以是固态硬盘。
[0219]
应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0220]
应理解，在本技术的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0221]
还应理解，本文提及的“第一”和“第二”等等仅仅是为了更清楚地表述本技术的技术方案而加以区分，不应对本技术构成任何限定。
[0222]
在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于，在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示，在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中，部件可位于一个计算机上和/或分布在2个或更多个计算机之间。此外，这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据，例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。
[0223]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0224]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0225]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0226]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0227]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0228]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0229]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

飞行器飞行策略的确定方法和装置与流程

相关文献

最热文献