一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无人机基站控制方法及装置、模型训练方法及装置与流程

2022-07-10 02:38:31 来源:中国专利 TAG:

技术特征:
1.一种无人机基站控制方法,其特征在于,包括:确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。2.根据权利要求1所述的方法,其特征在于,所述飞行轨迹优化模型包括:采样策略神经网络、目标策略神经网络和评论家神经网络;所述方法还包括:初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;循环执行如下训练过程,直至达到预设训练次数:基于所述采样策略神经网络,生成若干组训练样本;根据所述训练样本,确定所述目标策略神经网络的梯度;基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。3.根据权利要求2所述的方法,其特征在于,所述基于所述采样策略神经网络,生成若干组训练样本,包括:初始化所述无人机基站的状态信息,随机生成若干待通信设备的地理位置,初始化时间t=0;在达到最大时间t
max
之前,循环执行如下步骤生成样本:确定所述无人机基站的状态信息s
t
;基于所述采样策略神经网络,选择调整动作a
t
;根据所述调整动作a
t
,确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息s
t 1
;根据预先设定的奖励函数,确定调整动作a
t
对应的奖励值r
t
;将s
t
、a
t
、r
t
、s
t 1
生成一组新样本[s
t
,a
t
,r
t
,s
t 1
],放入经验回放池;更新时间t。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述训练样本,确定所述目标策略神经网络的梯度,包括:根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定优势函数;根据所述优势函数,确定所述目标策略神经网络的梯度。
5.根据权利要求2或3所述的方法,其特征在于,所述基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数,包括:基于梯度上升法,根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数。6.根据权利要求2或3所述的方法,其特征在于,所述根据所述训练样本,确定所述评论家神经网络的损失,包括:根据所述训练样本,利用所述采样策略神经网络和所述评论家神经网络,确定所述评论家神经网络的损失。7.一种模型训练方法,其特征在于,用于对飞行轨迹优化模型进行训练,所述飞行轨迹优化模型包括采样策略神经网络、目标策略神经网络和评论家神经网络;所述方法包括:初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;循环执行如下训练过程,直至达到预设训练次数:基于所述采样策略神经网络,生成若干组训练样本;根据所述训练样本,确定所述目标策略神经网络的梯度;基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。8.一种无人机基站控制装置,其特征在于,包括:信息确定模块,用于确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量;调整动作确定模块,用于利用预先训练好的飞行轨迹优化模型,根据所述状态信息,确定下一时隙的调整动作;所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使所述无人机基站根据所述调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。9.一种模型训练装置,其特征在于,包括:初始化模块,用于初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络;初始化经验回放池;训练模块,用于循环执行如下训练过程,直至达到预设训练次数:基于所述采样策略神经网络,生成若干组训练样本;根据所述训练样本,确定所述目标策略神经网络的梯度;基于梯度上升法,根据所述目标策略神经网络的梯度,更新所述目标策略神经网络的参数;根据所述训练样本,确定所述评论家神经网络的损失;基于梯度下降法,根据所述评论家神经网络的损失,更新所述评论家神经网络的参数;根据所述更新的目标策略神经网络的参数,更新所述采样策略神经网络的参数。
10.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序指令;所述处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1-7任一项所述的方法。

技术总结
本申请涉及一种无人机基站控制方法及装置、模型训练方法及装置。无人机基站控制方法包括:确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息,状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、俯仰角、通信完成量;利用预先训练好的飞行轨迹优化模型,根据状态信息,确定下一时隙的调整动作;调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个;以使无人机基站根据调整动作对相应的参数进行调整,并在下一时隙到达新的轨迹点时以调整后的参数进行通信,以使无人机完成与若干待通信设备通信的总时长小于预设值。备通信的总时长小于预设值。备通信的总时长小于预设值。


技术研发人员:徐齐钱 陈海军 何春龙
受保护的技术使用者:浙江以正通信技术有限公司
技术研发日:2022.03.11
技术公布日:2022/7/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献