一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种充电无人机为任务无人机空中充电的调度方法

2022-06-01 05:21:19 来源:中国专利 TAG:

技术特征:
1.一种充电无人机为任务无人机空中充电的调度方法,该方法用于调度充电无人机为执行任务中的任务无人机进行充电,其特征在于:所述调度方法包括如下步骤:(1)根据任务无人机的充电需求信息确定充电方式,充电需求信息包括充电无人机执行任务的环境障碍、地点、动作及飞行数据;(2)根据任务无人机的充电需求和任务类型建立单个充电无人机进行充电调度问题的模型,并基于ddpg算法优化单个充电无人机的充电调度策略;(3)根据任务无人机的充电需求和任务类型建立多个充电无人机进行充电调度问题的模型,并基于maddpg算法优化多个充电无人机的充电调度策略;(4)以任务无人机完成任务的时间最短为目标,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,充电无人机向通过训练得到的actor网络输入当前状态进行决策,根据actor网络输出的充电调度指令完成对任务无人机的充电。2.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(1)充电无人机为任务充电方式包括近场充电和远场充电,近场充电中充电无人机基于任务无人机搭载的无线充电平台进行电感耦合或磁共振耦合无线充电,远场充电是由充电无人机通过rf射频或激光实现能量转化充电。3.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(1)对于存在有n个任务无人机执行任务时,则表示为m={m
i
|i=1,2,

,n},任务无人机执行任务的环境中障碍物表示为b={b
i
|i=1,2,

,n},无人机的执行任务的地点表示为p={p
i
|i=1,2,

,n},任务无人机m
i
在t时刻的动作为动作包括悬停状态或飞行状态,其飞行过程中飞行方向为飞行速度为v;执行充电任务的充电无人机表示为c={c
i
|i=1,2,

,m},充电无人机c
i
在t时刻的动作为动作包括悬停状态或飞行状态,其飞行过程中飞行方向为飞行速度为v。4.根据权利要求1所述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(2)中单个充电无人机给任务无人机的充电决策过程可建模成马尔可夫决策过程,其模型表述为m=(s,a,p,r,γ),其表达式与参数含义如下:s表示环境的状态空间,所述状态空间为充电无人机根据观察到的状态采取行动集合,为无限集,包括充电任务过程中所有可能的状态,时刻t的状态空间表示为s
t
,每个状态由充电无人机当前的位置坐标、任务无人机的剩余能量、充电无人机累积被能量以及任务无人机的工作状态组成,包括充电状态和移动状态;a表示任务无人机的动作空间,包含充电无人机在执行充电任务过程中可能采取的所有动作,充电无人机在时刻t采取的行动由表示,充电无人机的每个动作都包含移动方向和充电目标,移动方向的动作空间是连续的,充电目标是充电无人机正在或者将来提供充电的对象;p表示状态转移概率,所述的状态转移概率定义为在时刻t,给定充电无人机在当前状态s
t
采取特定动作a
t
,充电无人机到达下一个可能状态s
t 1
的概率,p:s
t
×
a
t

s
t 1
,且充电无人机做出的不同动作会以不同方式改变充电无人机的状态;r表示奖励函数,奖励函数s
t
×
a
t

r
t 1
,计算的是充电执行动作a
t
后它的状态从s
t
转换
为s
t 1
所获得的奖励值;γ表示折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。5.根据权利要求4述的充电无人机为任务无人机空中充电的调度方法,其特征在于:对于单个充电无人机进行充电调度问题的模型,当任务无人机完成任务并返回出发点时表示任务完成,任务无人机m
i
的任务完成时间为t
i
,t
i
=tm
i
tc
i
tw
i
,其中tm
i
表示移动所花费的总时间,tc
i
是执行任务所花费的时间,tw
i
表示任务无人机等待充电无人机充电所花费的总时间;充电无人机采取行动a
t
后它的状态从s
t
转换为s
t 1
所获得的奖励值的计算方式包括如下过程:根据任务无人机预先规划的行进路径和任务,设定任务无人机可以被充电无人机按时充电则持续保持工作,定义奖励函数使充电无人机选择合理的充电目标和移动方向;充电无人机在t时刻的执行动作获得的奖励值设计如下:r
t
=rc
t
rm
t-p
l-p
b
rc
t
表示在t时段内成功给任务无人机充电所获得的奖励,定义如下:如果充电无人机未给任务无人机充电,则奖励为零,若进行了充电,将产生正奖励;如果充电无人机在大于em
i
的情况下给任务无人机m
i
充电,则奖励rc
t
为零;rc
t
中的e
t
是表示t时刻的充电量,rc是一个正偏移量,用于鼓励充电无人机花费更多时间用于充电,f
t
表示充电无人机对每个任务无人机充电的公平性;为任务无人机在t时刻的剩余能量,em={em1,em2…
em
n
}表示任务无人机完成任务所需的估计最小充电量的集合,表示任务无人机从时刻1到t的累积充电量,公平性因子f
t
由jain公平指数计算,其计算表达式如下:f
t
=w
f
fc
t
(1-w
f
)fr
tt
w
f
为权重值,rc
t
中的rm
t
用于鼓励充电无人机朝向任务无人机的位置移动;因rm
t
与目标任务无人机的剩余能量水平呈负相关,约定剩余电量较少的任务无人机具有高优先级充电,w
d
和w
e
为负值;充电无人机与任务无人机之间的相对距离变小时或者充电目标的电量越小,rm
t
越大,以此来引导充电无人机靠近任务无人机,其中rm
t
的计算公式如下:其中d(i)
t
是充电无人机和任务无人机之间的欧几里得距离m
i
,而是m
i
在t时刻的剩
余能量,当充电无人机为任务无人机充电时,rm
t
设置为零;p
l
表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值e
th
以上,则对充电无人机的惩罚,ea
t
为任务无人机平均剩余电量,p为固定正值,其表达式如下:p
b
是充电无人机飞出边界或撞到环境中的障碍时对充电无人机的惩罚。6.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步骤(3)在建立多个充电无人机进行充电调度问题的模型中,对于同时调度多个充电无人机的过程建模成一个马尔可夫博弈m=(s,a,t,r,o,γ);s表示状态空间,时刻t的状态是s
t
,包括了所有无人机在环境中的状态;a表示动作空间,多个充电无人机在时刻t采取的行动由表示;t表示状态转移函数,状态转移函数t:环境中,所有的充电无人机同时采取动作,对环境产生影响;r表示奖励函数,奖励函数计算的是充电无人机c
i
执行动作后它的状态从转换为所获得的奖励值;o表示观察集合:观察是指充电无人机从自己的角度对环境的感知,充电无人机根据自己对环境的观察进行决策,表示所有充电无人机在时间t的观测集合;γ为折扣因子,γ∈[0,1],决定未来奖励对当前即时奖励的影响程度。7.根据权利要求6述的充电无人机为任务无人机空中充电的调度方法,其特征在于:对于多个充电无人机进行充电调度问题的模型中,充电无人机ci在t时刻的奖励设计如下:于多个充电无人机进行充电调度问题的模型中,充电无人机ci在t时刻的奖励设计如下:定义如下:f
t
表示公平性因子;的计算公式如下:其中d(i,j)
t
是充电无人机c
i
和任务无人机m
j
之间的欧几里得距离,是任务无人机m
j
在时间t的剩余电量,w
d
和w
e
是调整的负系数;p
l
表示如果充电无人机未能将任何任务无人机的剩余能量保持在安全阈值e
th
以上,则对充电无人机的惩罚;p
b
是充电无人机飞出边界或撞到环境中的障碍时的惩罚。8.根据权利要求1述的充电无人机为任务无人机空中充电的调度方法,其特征在于:步
骤(4)通过训练actor网络实现充电无人机调度策略优化,基于深度强化学习或多智能体强化学习优化充电无人机的充电调度策略,基于深度强化学习优化单个充电无人机的充电调度策略,基于多智能体强化学习优化多个充电无人机的充电调度策略。

技术总结
本发明公开了一种充电无人机为任务无人机空中充电的调度方法,用于调度充电无人机为正在空中执行任务的任务无人机进行充电。该方法根据任务无人机的充电需求确定远程充电或近场充电方式,然后根据充电无人机的参与数量进行分类建模计算,包括建立单个充电无人机进行充电调度问题的模型和建立多个充电无人机进行充电调度问题的模型进行求解;最后基于深度强化学习或多智能体强化学习的算法优化充电无人机的充电调度策略,充电无人机根据优化的策略和当前环境的状态以进行决策,根据充电调度指令完成任务无人机的充电。本发明实现了任务无人机任务完成时间最短,对任务无人机的公平充电和充电无人机的充电调度策略优化。公平充电和充电无人机的充电调度策略优化。公平充电和充电无人机的充电调度策略优化。


技术研发人员:朱琨 杨佳
受保护的技术使用者:南京航空航天大学
技术研发日:2022.01.10
技术公布日:2022/5/31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献