一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的无人机辅助移动边缘计算优化方法与流程

2022-08-13 23:33:06 来源:中国专利 TAG:

技术特征:
1.基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:包括以下步骤:s1:构造考虑地面障碍物的多无人机辅助移动边缘计算模型,无人机作为空中边缘计算服务器,为地面的移动用户设备提供服务;s2:根据s1模型计算系统总能耗,并考虑无人机避障问题,计算出目标函数;s3:以最小化目标函数为目标,建立深度强化学习模型;s4:使用深度强化学习算法联合优化卸载决策和无人机轨迹。2.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在s1中,构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为:在系统模型中,设定在一边长为l
max
的方形区域上随机分布着n个用户设备,用户设备集记作在该方形区域上空有m个无人机以高度h飞行,为地面设备提供服务,无人机集记作任务周期为t个连续的时隙,每个时隙的持续时间为δ;设定每个用户设备在每个时隙都会产生一个需要执行的任务,采用二元卸载方式定义一个卸载决策变量z
n,m,t
={0,1};当z
n,m,t
=1,m≠0时,表示在t时隙,用户n将任务卸载到无人机m;当z
n,m,t
=1,m=0时,表示在t时隙,用户n在本地执行计算;当z
n,m,t
=0时,表示其他情况;由于任务只能在一个地方执行,所以有设定用户n在时隙t有一个任务s
n,t
需要执行,则其中d
n,t
代表需要处理的数据量,f
n,t
代表执行此任务所需要的cpu周期数,t
max
表示用户设备最大容忍执行时间;当时隙的持续时间δ足够小时,在时隙内无人机的位置看作不变;设定在时隙t中,每个无人机都沿着方向α
m,t
∈[0,2π)前进d
m,t
∈[0,d
max
]距离;则在时隙t时,无人机m的位置为其中,0≤x
m,t
≤l
max
,0≤y
m,t
≤l
max
,在时隙t时,无人机m和无人机uavm’之间的距离为:为了防止碰撞以及相互干扰,无人机和无人机之间设定最小距离r
u
,则有:r
m,m

,t
≥r
u
;在时隙t时,用户设备n和无人机之间的距离为:设定无人机有固定的覆盖范围,只有当用户在无人机覆盖范围之内时,用户才能向无人机卸载数据,则有:z
n,m,t
r
n,m,t
≤r
max
;设定在该方形区域上存在着i个障碍物,记作障碍物i的中心位置为:为了防止无人机撞到这些障碍物,设定一个风险系数该风险系数表示
在t时隙,障碍物i对无人机m存在的风险;设定所有障碍物的风险系数都符合高斯分布,但是不同的障碍物拥有不同的变量σ
i
,则得到其中3.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在s2中,计算系统总能耗以及目标函数具体为:在t时隙中,无人机m的飞行能耗为:其中表示无人机m在t时隙内的飞行速度,g是无人机的质量;则在t时隙,所有无人机的飞行能耗为:在t时隙中,当用户设备n决定将任务卸载至无人机m执行时,用户设备和无人机之间的信道增益为:其中β0表示参考距离d0=1m时的信道增益;用户设备的卸载速率为:其中,b是带宽,p
n
是用户设备卸载任务的传输功率,σ2是无人机的噪声功率;卸载时间为:用户设备n产生的卸载能量为:则在t时隙,所有用户产生的卸载能耗为:在t时隙中,当用户设备n决定本地执行任务时,用户设备n所产生的本地计算能耗为:其中,代表计算任务所需时间,f
n,0,t
代表用户设备n的cpu频率,k
n
是与处理器芯片有关的正系数;则在t时隙,所有用户设备的本地计算能耗为:在t时隙中,当用户设备n将任务卸载至无人机m时,无人机m产生的计算能耗为:其中,代表计算任务所需的时间,f
n,m,t
代表在t时隙无人机m分配给来自用户设备n的任务的cpu频率,k
m
是与处理器芯片有关的正系数。在t时
隙,所有的无人机计算能耗为:在t时隙中,所有无人机避障的风险系数为:综合以上,在一个任务周期内,系统总能耗为:最终目标函数为:4.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在s3中,建立深度强化学习模型具体为:将该卸载决策和轨迹联合优化问题建模为马尔可夫决策过程<s,a,r>,其中s为系统状态集,a是卸载决策以及轨迹动作集,r是奖励函数集,采用ddpg算法解决该问题;状态集表示所有无人机在t时隙的位置;动作集即所有无人机在t时隙的轨迹;将奖励函数r设为目标函数的负值,即5.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法,其特征在于:在s4中,使用深度强化学习算法联合优化卸载决策和轨迹具体为:建立价值函数网络q和策略函数网络μ,为了稳定学习过程,创建两个价值函数网络:价值函数网络q(s,a|θ
q
)和目标价值函数网络q

(s,a|θ
q

);创建两个策略函数网络:策略函数网络μ(s|θ
μ
)和目标策略函数网络μ

(s|θ
μ

);引入uo随机过程作为噪声增加智能体的探索性,行为策略β为策略μ加入ou噪声产生,使用策略β进行环境探索;初始化价值函数网络参数θ
q
和策略价值网络参数θ
μ
,将两个网络参数拷贝给与其相对应的目标价值函数网络和目标策略函数网络,即θ
q


θ
q,
θ
μ


θ
μ
,初始化记忆回放库d;遍历所有的episode,初始化uo随机过程,即噪声n
t
,从环境中接收起始状态s1,对于每
个episode,遍历所有步;在状态s
t
时,智能体根据行为策略β选择一个a
t
,即a
t
=μ(s
t

μ
) n
t
;环境执行a
t
,得到奖励r
t 1
和下一个状态s
t 1
;将(s
t
,a
t
,r
t 1
,s
t 1
)存储到记忆回放库d中,作为训练网络的数据集;从记忆回放库d中,随机采样n个(s
i
,a
i
,r
i 1
,s
i 1
)作为价值函数网络和策略函数网络的一个mini-batch训练数据;更新价值函数网络,y
i
=r
i 1
γq

(s
i 1
,μ

(s
i 1

μ

)|θ
q

),定义loss函数为mse,使用梯度下降算法更新价值函数网络的参数θ
q
;更新策略函数网络,策略梯度为:使用梯度下降算法更新策略函数网络的参数θ
μ
;软更新目标价值函数网络和目标策略函数网络的参数θ
q

,θ
μ

,其中,θ
q


τθ
q
(1-τ)θ
q

,θ
μ


τθ
μ
(1-τ)θ
μ

;不断更新价值函数网络和策略函数网络,最终会收敛至最优策略,使用收敛了的策略函数网络即获得最优的卸载决策和轨迹联合优化方案。

技术总结
本发明提供了一种基于深度强化学习的无人机辅助移动边缘计算优化方法,构造了考虑地面障碍物的多无人机辅助移动边缘计算模型,计算无人机和用户的总能耗,并且考虑了障碍物导致的风险,将风险数字化为风险系数,目标函数为系统总能耗与风险系数之和;以最小化系统总能耗与风险系数之和为目的,建立深度强化学习模型;使用DDPG算法联合优化卸载决策与无人机轨迹;在有效避开地面障碍物并保证用户服务质量的同时,最小化无人机和用户设备总能耗。最小化无人机和用户设备总能耗。最小化无人机和用户设备总能耗。


技术研发人员:鲁霖 鲁鹏飞 莫木新
受保护的技术使用者:深圳市芯中芯科技有限公司
技术研发日:2022.06.02
技术公布日:2022/8/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献