一种基于分层强化学习的车联网边缘计算任务卸载方法与流程

2021-10-29 21:13:00 来源：中国专利 TAG：联网边缘计算分层卸载

技术特征：
1.一种基于分层强化学习的车联网边缘计算任务卸载方法，其特征在于，具体步骤如下：(一)对车联网边缘计算进行数学建模，具体包括：车联网边缘计算系统模型中包含m个基站和一辆汽车，边缘服务器部署于基站中；各基站均匀分布于道路两旁，且拥有相同的覆盖范围r，各基站仅能与其覆盖范围内的车载设备建立连接；汽车以动态变化的速度v行驶于道路中；使用动态分割技术，将车载设备中的计算密集型应用分解为n个具有执行先后顺序的子任务，并以有向无环图g＝(v,e)表示，各节点i∈v代表一个任务，各有向边e(i,j)∈e代表任务i和任务j的处理顺序，即任务j需要在任务i处理完成后才能执行；问题的优化目标为最小化时延
‑
能量
‑
费用联合损失函数，定义为任务的处理时延、能量消耗和服务费用的加权和；基于任务的计算决策k
i
，即若k
i
＝0表示任务本地执行，反之若k
i
＝1表示任务本地执行，得到任务i的处理时延t
i
、能量消耗e
i
和服务费用c
i
分别为：分别为：分别为：其中，和分别为任务i的本地处理时延和边缘处理时延，和分别为任务i的本地能量消耗和边缘能量消耗，代表任务i的边缘服务费用；由此，所有任务的损失函数和u为：其中，0≤β1,β2,β3≤1表示加权系数；为了最小化系统损失函数u，需要联合优化任务卸载和资源分配策略；问题的优化参数分别为任务的执行顺序计算决策本地计算cpu频率和边缘计算传输功率于是，车联网边缘计算任务卸载问题建模为以下非线性混合整数规划：us.t.c1:y
i
∈{0,1,
…
,n}c2:k
i
∈{0,1}c3:c4:0≤p
i
≤p
max
c5:其中，约束c1限制任务编号的取值，约束c2限制任务计算决策为本地执行或者边缘执行之一，约束c3和约束c4限制本地cpu频率和传输功率的取值范围，约束c5限制任务的执行先后顺序；该非线性混合整数规划问题为非凸且np难，优化变量包含两个整数参数向量和以及两个连续参数和
(二)利用图神经网络提取有向无环图特征，具体包括：图神经网络为图注意力网络，由两层隐含层组成，并以relu(rectified linear unit)作为激活函数；图神经网络的输入为节点特征矢量集其中f表示各节点特征的特征维数，n为节点特征矢量集h中分量的个数；在隐含层中，各节点输入信息通过共享的线性转换矩阵转变为高维特征，其中，f
′
表示各节点新生成的高维特征的特征维数；此外，通过引入注意力机制a:在隐含层中，将不同相邻节赋予不同的重要性程度；以相邻节点对的高维特征作为输入，计算得到注意力系数e
ij
，代表节点j的特征对于节点i的重要性程度，即：得到节点i所有相邻节点对包括节点i本身的注意力系数e
ij
后，对其进行归一化操作；具体是通过引入softmax函数，得到归一化注意力系数得到归一化注意力系数其中，表示节点i的相邻节点集合；为了更好的特征提取效果，引入多头注意力机制，即独立进行k次注意力操作a
k
后将其结果进行联立,最终得到的输出特征，其计算式为：其中||表示联立操作，k表示注意力头数，e
′
ijk
和w
k
分别表示第k次注意力才做的归一化注意力系数和权重矩阵；通过上述操作，节点的特征维度由f上升为kf
′
；(三)定义分层动作空间和强化学习建模，具体包括：智能体的动作空间为分层结构，具体分为以下三部分：(1)任务序号：车载设备需要决定任务处理的先后顺序，并不违背任务关联性；(2)计算决策：车载设备需要决定任务为本地执行或者边缘执行；(3)连续参数选择：若车载设备决定任务为本地执行，则需要确定cpu频率的分配；若车载设备决定任务为边缘执行，则需要确定传输功率；于是，问题的动作空间a表述为：a＝{a
d
,a
c
}＝{(y
i
,k
i
＝0,f
i
)∪(y
i
，k
i
＝1,p
i
)}，其中，a
d
代表离散动作集，a
c
代表连续动作集；定义智能体在时刻t选取的动作为a
t
＝(y
t
，k
t
，f
t
，p
t
)，相应的状态动作值函数为q(s
t
，a
t
)，其中，其中，又此，得出本问题下的最优贝尔曼方程：其中，r
t
为单步奖励，γ为折扣因子；车联网边缘计算任务卸载问题可建模为马尔可夫决策过程，其中各元素的物理意义如下：
(1)状态空间：包含任务状态和环境状态两部分；其中任务状态为有向无环图中各任务的初始信息其中di
i
和do
i
分别为任务的输出和输出数据量，c
i
为任务的计算资源消耗，e
i
代表任务完成情况；环境状态包括车辆与当前连接基站起始点间的距离d
t
，剩余未完成的任务数n
t
，以及车辆前10秒的速度(2)动作空间：为分层结构，共四个动作，包含两个离散动作和两个连续动作，分别为任务序号y
t
，计算决策k
t
，本地分配cpu频率f
t
和传输功率p
t
；(3)奖励函数：由于本问题的优化目标为最小化任务的时延
‑
能量
‑
费用联合损失函数，因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和u
t
＝β1t
i
β2e
i
β3c
i
；(四)设计深度分层任务卸载算法流程，具体包括：智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成，以实现状态信息和分层动作空间的映射；首先，初始化图注意力网络q
g
(s，a；θ
g
)，分层动作决策网络q
p
(s，a；θ
p
)及其目标网络q
′
p
(s,a；θ
′
p
)，其中θ
′
p
＝θ
p
，同时初始化经验回放池d，以存储环境转移信息；在训练过程中，对于每个决策时刻t，智能体已完成上一个任务task
t
‑1，并准备执行新的任务task
t
；此时，智能体观测到任务状态和环境状态将其输入图注意力网络中进行特征提取，并最终得出各任务的q值的估计；其中估计q值最大的任务设为当前时刻t将处理的任务task
t
，同时确定了任务序号y
t
的选择；接着，将该任务的特征信息和环境信息作为分层动作决策网络的输入，并最终得到分层动作的选择a
t
＝{(y
t
,k
t
＝0,f
t
)∪(y
t
,k
t
＝1,p
t
)}和相应q值q
p
(s
t
,a
t
；θ
p
)；为了充分探索动作空间，离散动作y
t
和k
t
的决定将依照∈
‑
贪婪策略，连续动作f
t
和p
t
的决定将遵循ou过程；待分层动作a
t
确定后，若计算决策k
t
＝0，则任务task
t
将以cpu频率f
t
本地执行；若计算决策k
t
＝1，则任务task
t
将以传输功率p
t
上传至边缘服务器执行；之后，环境状态将转变为s
t 1
，并反馈给智能体t时刻的单步奖励r
t
；智能体将环境转变(s
t
,a
t
,s
t 1
,r
t
)储存至经验回放池d中；在参数更新过程中，智能体从经验回放池d中随机采样出批量训练数据(s
j
,a
j
,s
j 1
,r
j
)；对于图注意力网络和分层动作决策网络，目标值z
j
均设为单步奖励r
j
与目标网络输出v值之和，即：z
j
＝r
j
γv
′
(s
j
)其中，γ为折扣因子；为了使网络估计q值逼近目标值，损失函数设为目标值z
j
和当前网络输出q值的均方差，即：即：最后，以最小化损失函数为目标，对各网络参数进行梯度下降更新，即：
其中，α
g
和α
p
分别为图注意力网络和分层动作决策网络的学习率，τ为目标网络更新率。

技术总结
本发明属于车联网边缘计算技术领域，具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延

技术研发人员：徐跃东游新宇戴连贵邢万勇
受保护的技术使用者：复旦大学
技术研发日：2021.07.08
技术公布日：2021/10/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：容器确定方法及装置、电子设备和计算机可读存储介质与流程

一种基于分层强化学习的车联网边缘计算任务卸载方法与流程

相关文献

最热文献