一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

应急无人机群轨迹调控方法及相关设备

2022-06-12 02:32:42 来源:中国专利 TAG:


1.本技术涉及无人机控制技术领域,尤其涉及一种应急无人机群轨迹调控方法及相关设备。


背景技术:

2.在应急通信系统中,无人机空中基站快速部署作为灾区用户与外部网络的中继节点,以空对地的通信方式高效地恢复灾区通信。由于无人机飞行的动态性及无人机群之间的相对位置会极大地影响无人机应急网络的通信性能,因此应急无人机群的飞行轨迹需要合理的调控。
3.基于上述情况,应急通信网络的动态性导致使得传统优化技术不能获取未来时刻环境的准确信息以精准调控无人机群的轨迹。强化学习方法能够利用大量飞行数据进行自我学习,拟合未知环境并应对其动态性。但现有强化学习方法仍面临维度爆炸、收敛慢等问题,并且在应急网络中由于通信开销、安全性等原因,难以集中式调控无人机群的飞行轨迹。


技术实现要素:

4.有鉴于此,本技术的目的在于提出一种应急无人机群轨迹调控方法及相关设备,用以解决或部分解决上述技术问题。
5.基于上述目的,本技术的第一方面提供了一种应急无人机群轨迹调控方法,应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:
6.根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型;
7.响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机;
8.所述联邦强化学习智能体根据接收到的所述状态信息基于所述应急无人机通信网络模型通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,通过经训练的所述深度神经网络输出所述目标无人机当前时刻的动作信息,并根据当前时刻的所述动作信息调整所述目标无人机的飞行轨迹,并进入下一时刻重新对所述目标无人机进行飞行轨迹的优化调整;
9.响应于确定全部所述用户终端完成恢复通信服务任务,停止优化调整每个所述无人机的飞行轨迹。
10.从上面所述可以看出,本技术提供的应急无人机群轨迹调控方法及相关设备,通
过每个无人机设有的基站配置的经验回归放样池对样本数据进行存储,通过调取样本数据对联邦强化学习智能体进行优化训练,通过经验回放样本池对联邦强化学习智能体进行学习训练,使其具备从累积的飞行数据中进行自主学习的能力,以此实现分布式学习、分布式执行,能够解决由智能体数目增加引起的维度爆炸危机,此外联邦强化学习智能体应用的联邦强化学习算法融合了联邦学习算法和多智能体深度强化学习算法,破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度。可在动态的现实场景下,得到最优的飞行轨迹调整,具有较强的环境适应能力、泛化能力和更快的算法收敛速度。
附图说明
11.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
12.图1为本技术实施例的应急无人机群轨迹调控方法的流程图;
13.图2为本技术实施例的应急无人机通信网络系统的示意图;
14.图3为本技术实施例的应急无人机群轨迹调控方法的结构框图;
15.图4为本技术实施例的应急无人机群轨迹调控装置的结构示意图;
16.图5为本技术实施例的电子设备的示意图。
具体实施方式
17.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
18.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
19.相关技术中进行无人机轨迹优化时,需要针对优化目标问题建立目标方程,将无人机轨迹、网络环境等相关变量作为确定参数带入目标方程,优化方程中无人机的轨迹变量来最大化目标。然而实际场景下的目标方程的形式非常复杂,并且需要从任务开始到任务结束所有时刻的网络环境信息。因为通信网络环境的动态性,在实际场景中目标方程中的参数难以全部准确获得。另一方面,当通信需求具有变化时,原优化算法得到的无人机轨迹便无法适用,需要重新训练,计算复杂。
20.另外,相关技术中采用的深度强化学习算法的无人机轨迹调控,在面对现实中复杂的通信网络环境,无人机与无人机之间的干扰难以消除,通过奖励函数不能使无人机网络中的多智能体相互解耦。而多智能体强化学习算法通过集中式学习的框架,需要所有无
人机回传状态、动作、奖励等信息至集中式学习中心,训练全局的状态价值函数,这一过程会产生应急通信网络难以处理的巨大通信开销,并存在信息安全隐患。并且状态价值函数的输入维度会随无人机的数目正比增加,存在维度爆炸的潜在危机,算法收敛速度与效果也会随着无人机的数目增加而减缓。
21.本技术的实施例提供一种应急无人机群轨迹调控方法,通过联邦强化学习智能体从累积的飞行数据中进行自主学习,可在动态的应急通信场景下,以分布式算法智能联合调控飞行速度大小与方向,归纳出频谱效率最优的轨迹,能够破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度,同时还能够解决由联邦强化学习智能体数目增加引起的维度爆炸危机,并大幅度降低通信开销,提升无人机群轨迹调控的可行性。
22.如图1所示,本实施例的方法应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:
23.步骤101,根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型。
24.在该步骤中,如图2所示,应急无人机通信网络系统是多架无人机基站为地面的受灾的用户恢复通信服务的现实场景,在这种现实场景中有许多受灾的用户、无人机和无人机搭载的基站,通过将这种动态的现实场景构建与其对应的应急无人机通信网络模型,将实际问题抽象、简化,以解决实际问题。
25.步骤102,响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机。
26.在该步骤中,用户如果处于激活状态,则会选择距离最近的无人机基站建立连接,其中,用户随机分布且位置动态移动。
27.步骤101,根据多个所述无人机、多个所述基站和多个所述用户构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型。
28.在该步骤中,应急无人机通信网络系统是多架无人机基站为地面的受灾的用户恢复通信服务的现实场景,在这种现实场景中有许多受灾的用户、无人机和无人机搭载的基站,通过将这种动态的现实场景构建与其对应的应急无人机通信网络模型,将实际问题抽象、简化,以解决实际问题。
29.步骤102,响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机。
30.在该步骤中,用户终端如果处于激活状态,则会选择距离最近的无人机基站建立连接,其中,用户随机分布且位置动态移动。
31.若每个无人机可以连接的最大用户终端数为n
max
,当无人机建立的用户终端连接数多于n
max
,则会选择距离无人机基站更近的n
max
个用户终端提供恢复通信服务,更远的用
户终端则标记为等待状态,在当前时刻不被提供服务。
32.步骤103,所述联邦强化学习智能体根据接收到的所述状态信息基于所述应急无人机通信网络模型通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,通过经训练的所述深度神经网络输出所述目标无人机当前时刻的动作信息,并根据当前时刻的所述动作信息调整所述目标无人机的飞行轨迹,并进入下一时刻重新对所述目标无人机进行飞行轨迹的优化调整。
33.在该步骤中,进入下一时刻后,将应用于应急无人机通信网络系统中每个无人机分别作为目标无人机,重新对每个目标无人机分别进行飞行轨迹的优化调整。
34.其中,通过经验回放样本池对联邦强化学习智能体进行学习训练,使其具备从累积的飞行数据中进行自主学习的能力,以此实现分布式学习、分布式执行,能够解决由智能体数目增加引起的维度爆炸危机,再通过联邦强化学习智能体输出经优化的动作信息,根据动作信息实时精准调控无人机的空中飞行轨迹,联邦强化学习智能体应用的联邦强化学习算法融合了联邦学习算法和多智能体深度强化学习算法,破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度。可在动态的现实场景下,得到最优的飞行轨迹调整,具有较强的环境适应能力、泛化能力和更快的算法收敛速度。
35.联邦强化学习智能体应用的联邦强化学习算法融合了联邦学习算法和多智能体深度强化学习算法,破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度,并且在学习过程中优化参数,而不是基于固定参数目标方程优化轨迹变量,因此具有更强的灵活性,可以快速地应对场景和环境的变化。
36.步骤104,响应于确定全部所述用户终端完成恢复通信服务任务,停止优化调整每个所述无人机的飞行轨迹。
37.在该步骤中,受灾的用户全部完成了恢复通信,结束飞行轨迹的调控。
38.在上述方案中,通过经验回放样本池对联邦强化学习智能体进行学习训练,使其具备从累积的飞行数据中进行自主学习的能力,以此实现分布式学习、分布式执行,能够解决由智能体数目增加引起的维度爆炸危机,再通过联邦强化学习智能体输出经优化的动作信息,根据动作信息实时精准调控无人机的空中飞行轨迹,联邦强化学习智能体应用的联邦强化学习算法融合了联邦学习算法和多智能体深度强化学习算法,破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度。可在动态的现实场景下,得到最优的飞行轨迹调整,具有较强的环境适应能力、泛化能力和更快的算法收敛速度。
39.在一些实施例中,步骤103中,所述存入距离最近的基站对应的所述经验回放样本池中的样本数据,具体包括:
40.步骤a1,基于所述应急无人机通信网络模型和所述目标无人机设有的所述基站当前时刻的所述状态信息、所述目标无人机当前时刻的动作信息和所述目标无人机的邻近无人机的动作信息,得到回报奖励信息。
41.步骤a2,将所述当前时刻的动作信息作为共享通信开销,并传输至所述邻近无人机。
42.步骤a3,响应于确定邻近所述无人机接收到所述共享通信开销,将距离最近的基站当前时刻的所述状态信息、所述目标无人机当前时刻所述动作信息、所述邻近无人机当前时刻的动作信息和当前时刻所述回报奖励信息作为所述样本数据,并存入所述目标无人
机设有的所述基站对应的所述经验回放样本池。
43.在上述方案中,回报奖励信息为距离最近的基站k与其邻近k个无人机基站的加权频谱利用效率。
44.其中,每个时刻的距离最近的基站的频谱利用效率与距离最近的基站的位置、与该目标无人机邻近的全部无人机的位置、所有地面的用户终端的位置、激活状态相关。
45.动作信息作用于控制目标无人机的飞行轨迹,因为目标无人机在三维空间内的x轴、y轴、z轴方向均可以移动,则动作信息包括任一无人机在x轴、y轴、z轴方向的速度大小。
46.另外,若当前时刻为t时刻,则样本数据的获取方式包括:目标无人机根据上一时刻的动作信息进行调整飞行轨迹后,获取t时刻的网络状态,并和全部邻近无人机设有的基站分享采取的动作信息,即共享通信开销。在结合接收到全部邻近无人机设有的基站k个动作信息后,将状态信息、动作作息、回报奖励信息中的目标无人机k与全部邻近无人机中的任意无人机交换,重新排列获取(k 1)条样本数据,其中,代表重要性因子,取值范围且满足
47.在一些实施例中,所述用户终端包括周期性激活用户终端和/或随机性激活用户终端;
48.所述应急无人机通信网络模型包括下列至少之一:平均路径损耗模型、信号与干扰加噪声比模型、频谱利用效率模型、状态信息模型、动作信息模型、回报奖励模型、策略模型、样本数据模型和所述随机性激活用户终端的激活状态模型。
49.在上述方案中,若在k个无人机为n个地面受灾移动的用户终端服务的场景,受灾的用户终端随机分布且位置动态移动,激活状态呈周期性或随机性,即网络中n1个用户终端的激活状态呈周期性,n2个用户终端的激活状态呈随机性,其中n=n1 n2。每个激活状态呈周期性的用户终端会每t秒持续激活τ秒,而每个激活状态呈随机性的用户终端在t∈[0,t]时间内的激活状态服从贝塔分布。
[0050]
在一些实施例中,所述深度神经网络包括第一深度神经网络、第二深度神经网络、第三深度神经网络和第四深度神经网络,所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络和所述第四深度神经网络通过初始状态的神经网络经过学习训练得到;
[0051]
步骤103中,所述通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,具体包括:
[0052]
步骤b1,从所述经验回放样本池中调取所述样本数据;
[0053]
步骤b2,将所述样本数据输入所述第一深度神经网络,输出所述动作信息,并根据所述动作信息得到状态行为值;
[0054]
步骤b3,将所述样本数据输入所述第二深度神经网络,通过所述第二深度神经网络对所述状态行为值进行拟合,得到第一状态行为估计值;
[0055]
步骤b4,获取所述第三深度神经网络的参数和所述第四深度神经网络的参数,并
基于所述第三深度神经网络的参数和所述第四深度神经网络的参数进行函数处理得到所述状态行为值的时序差分估计值;
[0056]
步骤b5,基于所述时序差分估计值得到时序差分误差函数,并对所述时序差分误差函数进行最小化计算,得到经过优化的所述第二深度神经网络的参数,基于所述经过优化的所述第二深度神经网络的参数,得到经过优化的所述第二深度神经网络;
[0057]
步骤b6,通过优化的所述第二深度神经网络输出第一状态行为估计值对所述第一深度神经网络进行优化,得到经过优化的所述第一深度神经网络的参数,基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络;
[0058]
步骤b7,基于经过优化的所述第一深度神经网络的参数和经过优化的所述第二深度神经网络的参数得到经过优化的所述深度神经网络的参数,基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络。
[0059]
在上述方案中,从全部样本数据中选择e条样本数据存入经验回放样本池用于对联邦强化学习智能体进行学习训练,即联邦强化学习智能体中的第一深度神经网络、第二深度神经网络、第三深度神经网络和第四深度神经网络。其中,e为联邦化系数据,通过训练好的联邦强化学习智能体输出经优化的动作信息,根据动作信息调整飞行轨迹,以此实现分布式学习、分布式执行,能够解决由智能体数目增加引起的维度爆炸危机,并大幅度降低通信开销,提升无人机群轨迹调控的可行性。
[0060]
其中,如图3所示,第一深度神经网络为行动者网络(actor网络),第二深度神经网络为评论家网络(critic网络)、第三深度神经网络为目标行动者网络(target actor网络)、第四深度神经网络为目标评论家网络(target critic网络),联邦强化学习智能体应用的算法运用了行动者-评论家(actor-critic)框架,该框架结合了基于值函数和基于策略梯度的强化学习方法,继承了策略梯度算法可以在连续动作空间做出动作决策的优点,同时改善了其基于回合更新的低效率学习特点,此外评论家网络(critic网络)中利用了多智能体强化学习技术,以全局的信息拟合价值函数,防止非平稳的学习环境带来的恶性博弈与性能震荡。第一深度神经网络的输入为状态信息,输出为动作信息,第三深度神经网络的输入也为状态信息,输出为动作信息,第二深度神经网络的输入为状态信息、动作信息和邻近无人机的动作信息,输出为状态行为估计值,第四神经网络的输入也为状态信息、动作信息和邻近无人机的动作信息,输出为状态行为估计值。
[0061]
通过引入第三深度神经网络以及第四深度神经网络使深度神经网络的训练更加稳定,提升算法的收敛速度与稳定性。
[0062]
在一些实施例中,所述激活状态模型:
[0063][0064][0065]
其中,κ1和κ2表示为所述激活状态模型的参数;t表示为每个所述周期性激活用户
终端激活的周期时间;t表示为属于[0,t]的任一时间;
[0066]
所述平均路径损耗模型:
[0067][0068]
其中,fc表示为中心频率;表示为t时刻所述目标无人机k的位置;表示为t时刻所述用户终端u的位置;表示为t时刻所述目标无人机k与所述用户终端u的欧式距离;c表示为光速;η
los
表示为视距无线传输链路的附加空间传播损耗;
[0069]
基于所述平均路径耗损模型得到所述信号与干扰加噪声比模型,其中,所述信号与干扰加噪声比模型具体为:
[0070][0071]
其中,pk表示为所述目标无人机设有的所述基站对所述用户终端的下行通信链路的传输功率;表示为t时刻所述目标无人机设有的所述基站与所述用户终端u之间的信道的增益;n0表示为噪声功率;
[0072]
所述频谱利用效率模型:
[0073][0074]
其中,表示为频谱利用效率;表示为所述用户终端u是否处于激活状态,若处于激活状态且不处于等待服务状态,则为1,其他状态为0;表示为所述目标无人机设有的所述基站k是否为所述用户终端u提供服务,若提供服务,则为1,若不提供服务,则为0;
[0075]
所述状态模型:
[0076]
获取t时刻所述目标无人机设有的所述基站k的三维位置
[0077]
获取所述目标无人机设有的所述基站k的邻近k个所述无人机设有的所述基站的三维位置;
[0078]
获取所述目标无人机设有的所述基站k的邻近k个所述无人机对设有的所述基站服务的最大服务数量的所述用户终端的信息,
[0079]
其中,所述用户终端的信息包括:二维位置、激活种类和已持续激活时间;
[0080]
所述动作模型:
[0081][0082]
其中,表示为所述动作信息;表示为所述任一无人机在x轴方向的速度;表示为所述任一无人机在y轴方向的速度;表示为在z轴方向的速度;
[0083]
所述回报奖励模型:
[0084][0085]
其中,表示为所述回报奖励信息:表示为在t时刻所述任一无人机设有的所述基站k的所述状态信息;αr表示为邻近所述无人机的加权折扣因子;ξ表示为附加安全惩罚;表示为所述任一无人机设有的所述基站k在t时刻的所述频谱利用效率;为与所述任一无人机设有的所述基站k邻近k个所述基站的所述频谱利用效率;
[0086]
所述策略模型:
[0087][0088]
其中,表示为在状态信息集s内的任何状态下,采用动作信息集a中所述动作信息的概率,又称为策略信息;θk∈rn表示为需要被优化的所述第一深度神经网络的参数;
[0089]
样本数据模型:
[0090][0091]
其中,表示为所述样本数据;表示为重要性因子,取值范围为并满足
[0092]
在上述方案中,基于平均路径损耗模型得到信号与干扰加噪声比模型,再基于信号与干扰加噪声比模型得到频谱利用效率模型,最后基于频谱利用效率模型得到回报奖励模型。
[0093]
其中,状态信息模型从无线通信网络环境中提取计算获得,任一无人机基站k和邻近k个无人机基站服务的n
max
个用户的信息,包括:二维位置、激活种类、已持续激活时间。如
果用户为周期性激活则激活种类记为0,为随机性激活则记为1。已持续激活时间表示用户已经持续激活的时间,若为非激活状态,则记为0。如果任一无人机基站服务的用户数不足n
max
,则用任意二维位置、激活种类为2、任意已持续激活时间填充,状态信息的维度为d(s
t
)=3 3*k (2 1 1)*n
max

[0094]
在一些实施例中,步骤b6,具体包括:
[0095]
步骤b61,基于所述第一状态行为估计值得到第一梯度函数。
[0096]
步骤b62,通过对所述第一梯度函数进行最小化计算,以使得所述状态行为值进行拟合,得到经过优化的所述第一深度神经网络的参数。
[0097]
步骤b63,基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络,
[0098]
其中,所述状态行为值表达为:
[0099][0100]
表示为所述联邦强化学习智能体在所述状态信息下采取所述动作信息的价值,又称为所述状态行为值;表示为所述邻近无人机基站选取的动作信息;表示为所述策略信息;γ表示为折扣因子,取值范围为γ∈[0,1];表示为所述回报奖励信息;
[0101]
所述第一梯度函数表达为:
[0102][0103]
在上述方案中,通过状态行为值反应第一深度神经网络的参数θk优化效果的好坏。
[0104]
其中,第一深度神经网络即行动者网络(actor网络)代表目标无人机设有的基站飞行的策略信息,联邦强化学习智能体k在状态信息策略信息下的状态值方程为长期累积的回报。当状态信息为策略信息为时,其价值方程为:
[0105][0106]
γ为折扣因子,取值范围γ∈[0,1],则相似地,得到在策略信息下,行动信息a的状态行为值。
[0107]
由于在t时刻无法获取t时刻以后的奖励回报信息,因此无法获取优化目标中状态行为值的无偏真实值。在联邦强化学习智能体应用的联邦强化学习算法算法中,采用第二深度神经网络来拟合状态行为值,即将联邦强化学习智能体k获取的状态信息选取的动作信息和邻近无人机设有的基站选取的动作输入第二深度神经网络,输出此时态行为值的第一状态行为估计值ωk为第二深度神经网络的参数。将第二深度神经网络输出的第一状态行为估计值带入目标方程对第一梯度函数进行最小化计算,利用梯度下降法优化第一神经网络的参数。
[0108]
在一些实施例中,所述时序差分估计值表达为:
[0109][0110]
其中,表示为以任一所述邻近无人机设有的所述基站位置替换自身所述基站位置后的状态信息;表示为经过优化的策略信息;表示为经过优化的状态行为值;为所述第三深度神经网络的参数;表示为所述第四深度神经网络的参数。
[0111]
在上述方案中,通过引入这样的第三深度神经网络和第四深度神经网络,能够使深度神经网络训练更加稳定,提升算法的收敛速度与稳定性。其中和分别是第三深度神经网络和第四深度神经网络的参数,其与第一深度神经网络的参数和第二深度神经网络的参数相互独立,可以进一步减小数据的相关性,从而减小策略梯度参数更新时的方差,降低迭代更新时的计算复杂度,提升学习效率。
[0112]
在一些实施例中,所述时序差分误差函数表达为:
[0113][0114]
其中,b表示为从所述经验回放样本池中选取的所述样本数据的数量;为所述状态行为值的所述时序差分估计值。
[0115]
在上述方案中,时序差分误差函数体现第二深度神经网络的参数优化的效果。
[0116]
在一些实施例中,步骤b5,具体包括:
[0117]
步骤b51,基于所述时序差分误差函数得到第二梯度函数。
[0118]
步骤b52,通过对所述第二梯度函数进行最小化计算,以使得所述时序差分误差函数最小化,得到经过优化的所述第二深度神经网络的参数,
[0119]
其中,所述第二梯度函数表达为:
[0120][0121]
在上述方案中,通过第二梯度函数的最小化计算,使得时序差分误差函数得到了最小化,使得第二深度神经网络的参数的优化达到最好。
[0122]
在一些实施例中,步骤b7,具体包括:
[0123]
步骤b71,基于所述第二梯度函数对所述第一深度神经网络的参数和所述第二深度神经网的参数进行更新,得到更新的所述第一深度神经网络的参数和所述第二深度神经网的参数,
[0124]
其中,所述更新的所述第一深度神经网络的参数和所述第二深度神经网的参数表达为:
[0125][0126][0127]
α
θ
和α
ω
分别表示为更新步长。
[0128]
步骤b72,基于经过更新的所述第一深度神经网络的参数和经过更新的所述第二深度神经网络的参数得到更新的所述第三深度神经网络的参数和所述第四深度神经网的参数。
[0129]
步骤b73,基于经过更新的所述第一深度神经网络的参数、经过更新的所述第二深度神经网络的参数、经过更新的所述第三深度神经网络的参数和经过更新的所述第四深度神经网的参数得到经过优化的所述深度神经网络的参数。
[0130]
步骤b74,基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络,
[0131]
其中,所述更新的所述第三深度神经网络的参数和所述第四深度神经网的参数表达为:
[0132][0133][0134]
σ<<1表示为所述深度神经网络的更新步长。
[0135]
在上述方案中,通过缓慢更新深度神经网络,以稳定训练的过程。
[0136]
需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0137]
需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0138]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种应急无人机群轨迹调控装置。
[0139]
参考图4,所述应急无人机群轨迹调控装置,包括:
[0140]
模型构建模块401,被配置为根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型;
[0141]
处理模块402,被配置为响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机;
[0142]
轨迹调整模块403,被配置为所述联邦强化学习智能体根据接收到的所述状态信息基于所述应急无人机通信网络模型通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,通过经训练的所述深度神经网络输出所述目标无人机当前时刻的动作信息,并根据当前时刻的所述动作信息调整所述目标无人机的飞行轨迹,并进入下一时刻重新对所述目标无人机进行飞行轨迹的优化调整;
[0143]
优化终止模块404,被配置为响应于确定全部所述用户终端完成恢复通信服务任务,停止优化调整每个所述无人机的飞行轨迹。
[0144]
在一些实施例中,轨迹调整模块403,具体被配置为:
[0145]
基于所述应急无人机通信网络模型和所述目标无人机设有的所述基站当前时刻的所述状态信息、所述目标无人机当前时刻的动作信息和所述目标无人机的邻近无人机的动作信息,得到回报奖励信息;
[0146]
将所述当前时刻的动作信息作为共享通信开销,并传输至所述邻近无人机;
[0147]
响应于确定邻近所述无人机接收到所述共享通信开销,将距离最近的基站当前时刻的所述状态信息、所述目标无人机当前时刻所述动作信息、所述邻近无人机当前时刻的动作信息和当前时刻所述回报奖励信息作为所述样本数据,并存入所述目标无人机设有的所述基站对应的所述经验回放样本池。
[0148]
在一些实施例中,所述用户终端包括周期性激活用户终端和/或随机性激活用户终端;
[0149]
所述应急无人机通信网络模型包括下列至少之一:平均路径损耗模型、信号与干扰加噪声比模型、频谱利用效率模型、状态信息模型、动作信息模型、回报奖励模型、策略模型、样本数据模型和所述随机性激活用户终端的激活状态模型。
[0150]
在一些实施例中,所述深度神经网络包括第一深度神经网络、第二深度神经网络、第三深度神经网络和第四深度神经网络,所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络和所述第四深度神经网络通过初始状态的神经网络经过学习训练得到;
[0151]
轨迹调整模块403,还被具体配置为:
[0152]
从所述经验回放样本池中调取所述样本数据;
[0153]
将所述样本数据输入所述第一深度神经网络,输出所述动作信息,并根据所述动作信息得到状态行为值;
[0154]
将所述样本数据输入所述第二深度神经网络,通过所述第二深度神经网络对所述状态行为值进行拟合,得到第一状态行为估计值;
[0155]
获取所述第三深度神经网络的参数和所述第四深度神经网络的参数,并基于所述第三深度神经网络的参数和所述第四深度神经网络的参数进行函数处理得到所述状态行为值的时序差分估计值;
[0156]
基于所述时序差分估计值得到时序差分误差函数,并对所述时序差分误差函数进行最小化计算,得到经过优化的所述第二深度神经网络的参数,基于所述经过优化的所述第二深度神经网络的参数,得到经过优化的所述第二深度神经网络;
[0157]
通过优化的所述第二深度神经网络输出第一状态行为估计值对所述第一深度神经网络进行优化,得到经过优化的所述第一深度神经网络的参数,基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络;
[0158]
基于经过优化的所述第一深度神经网络的参数和经过优化的所述第二深度神经网络的参数得到经过优化的所述深度神经网络的参数,基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络。
[0159]
在一些实施例中,所述激活状态模型:
[0160][0161][0162]
其中,k1和k2表示为所述激活状态模型的参数;t表示为每个所述周期性激活用户终端激活的周期时间;t表示为属于[0,t]的任一时间;
[0163]
所述平均路径损耗模型:
[0164][0165]
其中,fc表示为中心频率;表示为t时刻所述目标无人机k的位置;表示为t
时刻所述用户终端u的位置;表示为t时刻所述目标无人机k与所述用户终端u的欧式距离;c表示为光速;η
los
表示为视距无线传输链路的附加空间传播损耗;
[0166]
基于所述平均路径耗损模型得到所述信号与干扰加噪声比模型,其中,所述信号与干扰加噪声比模型具体为:
[0167][0168]
其中,pk表示为所述目标无人机设有的所述基站对所述用户终端的下行通信链路的传输功率;表示为t时刻所述目标无人机设有的所述基站与所述用户终端u之间的信道的增益;n0表示为噪声功率;
[0169]
所述频谱利用效率模型:
[0170][0171]
其中,表示为频谱利用效率;表示为所述用户终端u是否处于激活状态,若处于激活状态且不处于等待服务状态,则为1,其他状态为0;表示为所述目标无人机设有的所述基站k是否为所述用户终端u提供服务,若提供服务,则为1,若不提供服务,则为0;
[0172]
所述状态模型:
[0173]
获取t时刻所述目标无人机设有的所述基站k的三维位置
[0174]
获取所述目标无人机设有的所述基站k的邻近k个所述无人机设有的所述基站的三维位置;
[0175]
获取所述目标无人机设有的所述基站k的邻近k个所述无人机对设有的所述基站服务的最大服务数量的所述用户终端的信息,
[0176]
其中,所述用户终端的信息包括:二维位置、激活种类和已持续激活时间;
[0177]
所述动作模型:
[0178][0179]
其中,表示为所述动作信息;表示为所述任一无人机在x轴方向的速度;表示为所述任一无人机在y轴方向的速度;表示为在z轴方向的速度;
[0180]
所述回报奖励模型:
[0181][0182]
其中,表示为所述回报奖励信息;表示为在t时刻所述任一无人机设有的所述基站k的所述状态信息;αr表示为邻近所述无人机的加权折扣因子;ξ表示为附加安全惩罚;表示为所述任一无人机设有的所述基站k在t时刻的所述频谱利用效率;为与所述任一无人机设有的所述基站k邻近k个所述基站的所述频谱利用效率;
[0183]
所述策略模型:
[0184][0185]
其中,表示为在状态信息集s内的任何状态下,采用动作信息集a中所述动作信息的概率,又称为策略信息;θk∈rn表示为需要被优化的所述第一深度神经网络的参数;
[0186]
样本数据模型:
[0187][0188]
其中,表示为所述样本数据;表示为重要性因子,取值范围为并满足
[0189]
在一些实施例中,所述通过优化的所述第二深度神经网络输出第一状态行为估计值对所述第一深度神经网络进行优化,得到经过优化的所述第一深度神经网络的参数,基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络,具体包括:
[0190]
基于所述第一状态行为估计值得到第一梯度函数;
[0191]
通过对所述第一梯度函数进行最小化计算,以使得所述状态行为值进行拟合,得到经过优化的所述第一深度神经网络的参数;
[0192]
基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络。
[0193]
其中,所述状态行为值表达为:
[0194][0195]
表示为所述联邦强化学习智能体在所述状态信息下采取所述动作信息的价值,又称为所述状态行为值;表示为所述邻近无人机基站选取的动作信息;表示为所述策略信息;γ表示为折扣因子,取值范围为γ∈[0,1];表示为所述回报奖励信息;
[0196]
所述第一梯度函数表达为:
[0197][0198]
在一些实施例中,所述时序差分估计值表达为:
[0199][0200]
其中,表示为以任一所述邻近无人机设有的所述基站位置替换自身所述基站位置后的状态信息:表示为经过优化的策略信息;表示为经过优化的状态行为值;为所述第三深度神经网络的参数;表示为所述第四深度神经网络的参数。
[0201]
在一些实施例中,所述时序差分误差函数表达为:
[0202][0203]
其中,b表示为从所述经验回放样本池中选取的所述样本数据的数量;为所述状态行为值的所述时序差分估计值。
[0204]
在一些实施例中,所述对所述时序差分误差函数进行最小化计算,得到经过优化的所述第二深度神经网络的参数,具体包括:
[0205]
基于所述时序差分误差函数得到第二梯度函数;
[0206]
通过对所述第二梯度函数进行最小化计算,以使得所述时序差分误差函数最小
化,得到经过优化的所述第二深度神经网络的参数,
[0207]
其中,所述第二梯度函数表达为:
[0208][0209]
在一些实施例中,所述基于经过优化的所述第一深度神经网络的参数和经过优化的所述第二深度神经网络的参数得到经过优化的所述深度神经网络的参数,基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络,具体包括:
[0210]
基于所述第二梯度函数对所述第一深度神经网络的参数和所述第二深度神经网的参数进行更新,得到更新的所述第一深度神经网络的参数和所述第二深度神经网的参数,
[0211]
其中,所述更新的所述第一深度神经网络的参数和所述第二深度神经网的参数表达为:
[0212][0213][0214]
α
θ
和α
ω
分别表示为更新步长;
[0215]
基于经过更新的所述第一深度神经网络的参数和经过更新的所述第二深度神经网络的参数得到更新的所述第三深度神经网络的参数和所述第四深度神经网的参数;
[0216]
基于经过更新的所述第一深度神经网络的参数、经过更新的所述第二深度神经网络的参数、经过更新的所述第三深度神经网络的参数和经过更新的所述第四深度神经网的参数得到经过优化的所述深度神经网络的参数;
[0217]
基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络,
[0218]
其中,所述更新的所述第三深度神经网络的参数和所述第四深度神经网的参数表达为:
[0219][0220][0221]
σ<<1表示为所述深度神经网络的更新步长。
[0222]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0223]
上述实施例的装置用于实现前述任一实施例中相应的应急无人机群轨迹调控方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0224]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的应急无人机群轨迹调控方法。
[0225]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器501、存储器502、输入/输出接口503、通信接口504和总线505。其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。
[0226]
处理器501可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0227]
存储器502可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器502可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器502中,并由处理器502来调用执行。
[0228]
输入/输出接口503用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0229]
通信接口504用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0230]
总线505包括一通路,在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息。
[0231]
需要说明的是,尽管上述设备仅示出了处理器501、存储器502、输入/输出接口503、通信接口504以及总线505,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0232]
上述实施例的电子设备用于实现前述任一实施例中相应的应急无人机群轨迹调控方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0233]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的应急无人机群轨迹调控方法。
[0234]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0235]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的应急无人机群轨迹调控方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0236]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0237]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0238]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0239]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献