一种基于深度确定性策略的车辆边缘计算任务卸载方法与流程

2021-12-08 00:28:00 来源：中国专利 TAG：

技术特征：
1.一种基于深度确定性策略的车辆边缘计算任务卸载方法，其特征在于，包括：对车辆边缘计算系统进行建模，其中，所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户；基于车辆边缘计算系统模型，建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型；根据所述通信模型和所述计算模型，将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程，建立状态空间、动作空间及奖励函数，得到深度强化学习框架；利用ddpg算法得到最优任务卸载功率分配策略。2.如权利要求1所述的方法，其特征在于，所述对车辆边缘计算系统进行建模包括：将所述车辆用户在所述基站的覆盖范围内的时间划分为n
t
个等长时隙，每个时隙的索引t∈{0，1，...，n
t
}，时隙间隔为τ；其中，所述基站的覆盖范围的直径为d。3.如权利要求2所述的方法，其特征在于，所述基站覆盖范围内的车辆用户与所述基站之间的通信模型包括：所述车辆用户在时隙t的信道矢量为：其中，h
s
(t)为采用自回归模型表示的小尺度衰落，h
p
(t)为路径损耗；式中，ρ为归一化信道相关系数，误差向量为高斯白噪声，i
n
为维度为n
×
1的单位向量；以所述基站为坐标原点，构建空间直角坐标系，则所述路径损耗h
p
(t)的表达式为：式中，h
r
为所述车辆用户与所述基站的通信距离为1米时的信道增益；p
u
(t)＝(d(t)，w，0)为所述车辆用户时隙t在所述空间直角坐标系中的位置，d(t)和w分别为所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标与y轴坐标，设所述车辆用户在所述基站的覆盖范围内以速度v匀速行驶，则每个时隙所述车辆用户在所述空间直角坐标系中x轴坐标更新为d(t 1)＝d(t) vτ；p
b
＝(0，0，h)为所述基站上天线的位置，h为所述基站上天线沿z轴的坐标；η为路径损耗指数；所述基站时隙t接收到的信号为：式中，p
o
(t)∈[0，p
o
]为所述车辆用户在时隙t任务卸载的功率，s(t)为偏差为1的复数信号，为方差为的高斯白噪声；所述车辆用户时隙t的信噪比为：4.如权利要求3所述的方法，其特征在于，所述基站覆盖范围内的车辆用户的计算模型为：
b(t 1)＝[b(t)
‑
(d
o
(t) d
l
(t))]

a(t)，其中，b(t 1)为时隙t 1的计算任务缓存长度，b(t)为时隙t的计算任务缓存长度，a(t)为时隙的包到达率；b(0)＝0，[
·
]

＝max(0，
·
)；所述车辆用户在时隙t任务卸载数据量d
o
(t)为：d
o
(t)＝τw log2(1 γ(t))，式中，w为信道带宽；所述车辆用户在时隙t本地执行数据量d
l
(t)为：d
l
(t)＝τf(t)/c，式中，为cpu在时隙t的频率，p
l
(t)∈[0，p
l
]为所述车辆用户在时隙t本地执行的功率，κ为切换电容，c为计算单位比特任务所需的cpu圈数。5.如权利要求4所述的方法，其特征在于，所述根据所述通信模型和所述计算模型，将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程，建立状态空间、动作空间及奖励函数，得到深度强化学习框架包括：利用所述时隙t的计算任务缓存长度b(t)、时隙t
‑
1的信噪比γ(t
‑
1)以及所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标d(t)，表征时隙t的状态空间s
t
＝[b(t)，γ(t
‑
1)，d(t)]；根据所述车辆用户在时隙t的任务卸载p
o
(t)的功率和本地执行的功率p
l
(t)，表征时隙t的动作空间a
t
＝[p
o
(t)，p
l
(t)]；建立奖励函数r
t
＝
‑
[ω1(p
o
(t) p
l
(t)) ω2b(t)]，ω1、ω2为非负的权重因子；构建所述车辆用户服从策略μ
θ
(s
t
|θ)在状态s
t
和动作a
t
下的动作价值函数q
ζ
(s
t
，a
t
)。6.如权利要求5所述的方法，其特征在于，所述利用ddpg算法得到最优任务卸载功率分配策略的过程包括：s601：随机初始化actor网络参数θ及critic网络参数ζ，将θ和ζ赋值给θ
′
和ζ
′
，以完成target actor网络参数θ
′
和target critic的网络参数的初始化ζ
′
，建立回放缓存s602：将训练片段数k初始化为1；s603：将片段k中的时隙t初始化为1；s604：将状态s
t
输入所述actor网络，输出μ
θ
(s
t
|θ)，随机生成噪声δ
t
，以便所述车辆用户执行动作a
t
＝μ
θ
(s
t
|θ) δ
t
，并获取奖励r
t
，同时转换至下一状态s
t 1
，得到元组(s
t
，a
t
，r
t
，s
t 1
)，将所述元组(s
t
，a
t
，r
t
，s
t 1
)储存至所述回放缓存中；s605：判断所述回放缓存中的元组数目是否小于i，若小于i，则t＝t 1，返回执行步骤s604直至所述回放缓存中的元组数目大于等于i；s606：当所述回放缓存中的元组数目大于等于i后，将片段k中的时隙t初始化为1；s607：从所述回放缓存池中根据均匀分布随机抽取一个由i个元组构成的样本包，将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络；s608：对于所述样本包中的第i个元组(s
i
，a
i
，r
i
，s
′
i
)，i＝1，2，
…
，i，将s
′
i
输入所述target actor网络，输出动作a
′
i
＝μ
θ
′
(s
′
i
|θ
′
)，将s
′
i
和a
′
i
输入所述target critic网络，输出动作价值函数q
ζ
′
(s
′
i
，a
′
i
)，计算目标值)，计算目标值将s
i
和a
i
输入至所述critic网络输出动作价值函数q
ζ
(s
i
，a
i
)并计算所述第i个元组的损失l
i
＝[y
i
‑
q
ζ
(s
i
，a
i
)]2；s609：将所述样本包中所有元组输入至所述target actor网络，所述target critic网络和所述critic网络，计算损失函数s610：通过最小化损失函数更新所述critic网络的参数ζ，通过策略梯度更新所述actor网络的参数θ；s611：分别根据θ
′←
τ
a
θ (1
‑
τ
a
)θ
′
和ζ
′←
τ
c
ζ (1
‑
τ
c
)ζ
′
更新所述target actor网络的参数θ
′
和所述target critic网络的参数ζ
′
，其中，τ
a
＜＜1和τ
c
＜＜1为常数；s612：判断t＜n
t
是否成立，若成立，则令t＝t 1，返回执行步骤s607，若不成立，则执行步骤s611；s613：判断k＜k
max
是否成立，若成立，则令k＝k 1，返回执行步骤s603，若不成立，则得到所述最优任务卸载功率分配策略μ
*
。7.如权利要求6所述的方法，其特征在于，所述通过最小化损失函数更新所述critic网络的参数ζ，通过策略梯度更新所述actor网络的参数θ包括：以α
c
为学习率，采用adam优化方法，通过梯度更新所述critic网络的参数ζ；以α
a
为学习率，采用adam优化方法，通过梯度更新所述actor网络的参数θ；其中，由所述critic网络近似的动作价值函数计算得到：8.一种基于深度确定性策略的车辆边缘计算任务卸载装置，其特征在于，包括：系统建模模块，用于对车辆边缘计算系统进行建模，其中，所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户；通信模型及计算模型构建模块，用于基于车辆边缘计算系统模型，建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型；马尔科夫决策模块，用于根据所述通信模型和所述计算模型，将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程，建立状态空间、动作空间及奖励函数，得到深度强化学习框架；策略优化模块，用于利用ddpg算法得到最优任务卸载功率分配策略。9.一种基于深度确定性策略的车辆边缘计算任务卸载设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。

技术总结
本发明公开了一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备及计算机可读存储介质，包括：对车辆边缘计算系统进行建模，基于系统模型，建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型；根据通信模型和计算模型，将车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程，建立状态空间、动作空间及奖励函数，得到深度强化学习框架；利用DDPG算法得到最优任务卸载功率分配策略。本发明所提供的方法、装置、设备及计算机可读存储介质，通过DDPG算法解决VEC环境随机且动态的问题，求得车辆用户最优功率分配测量，最小化功率消耗与延迟。最小化功率消耗与延迟。最小化功率消耗与延迟。

技术研发人员：吴琼朱洪彪
受保护的技术使用者：江南大学
技术研发日：2021.09.07
技术公布日：2021/12/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种带有虚拟形象生成、显示和控制功能的人机交互设备的制作方法

一种基于深度确定性策略的车辆边缘计算任务卸载方法与流程

相关文献

最热文献