一种基于势博弈的车联网计算卸载与功率优化方法

2022-09-15 00:13:06 来源：中国专利 TAG：

1.本发明涉及一种车联网技术，尤其涉及一种车联网的计算卸载与功率优化方法，更具体地说，涉及一一种基于势博弈的车联网计算卸载与功率优化方法。

背景技术：

2.车载网络是近几年新兴的一种网络模式，旨在实现车辆之间的数据传输，进而实现对城市交通的控制和管理。在这种新的模式下，信息传输和网络访问可以通过车辆到万物(vehicle-to-everything，v2x)实现，包括车辆到车辆(vehicle-to-vehicle，v2v)和车辆到基础设施(vehicle-to-infrastructure，v2i)通信。车载网络的发展推动了车联网的发展，兴起了各种车辆应用，如路线规划、自动驾驶和信息娱乐应用。这些应用既可以保证出行安全，也可以提供旅途中的娱乐互联。然而这些应用大多是延迟敏感的、资源密集型的，具有计算复杂、能量需求高的特点。目前许多车辆的存储能力仍然有限，计算资源不足，无法满足这些应用严格的延迟约束。移动边缘计算(mobile edge computation，mec)通过在网络边缘部署计算和存储资源，可以为车辆提供低延迟计算服务，且随着车辆在增强边缘智能方面的发展，车辆配备了越来越多的计算和存储资源，人们提出了车载云的概念，即车辆可以通过共享其剩余的计算资源作为车载云服务器，其他车辆和行人等用户可以将计算任务卸载给其计算。
3.高度动态的车辆环境给计算卸载决策和资源分配带来了更多的不确定性。首先，由于车辆的移动性，车载网络的拓扑结构和无线信道状态随着时间的推移而快速变化。其次，车载云服务器的计算资源是异构性的，并且随着时间的推移而波动。这些因素通常很难预测，但会显著影响计算任务的延迟。
4.因此，本发明提出一种基于势博弈的车联网计算卸载与功率优化方法，该方法针对移动边缘服务器和车载云服务器协同计算卸载的场景，并以系统时延最小化作为计算迁移和资源分配的优化目标，在复杂度和性能之间取得了很好的平衡。

技术实现要素：

5.发明目的：针对现有技术存在的上述问题，提出一种基于势博弈的车联网计算卸载与功率优化方法，有剩余计算资源的车辆可以作为车载云服务器为其他车辆提供计算资源。该方法拟采用混合频谱接入技术进行传输，实现系统时延最小化。
6.技术方案：针对移动边缘服务器和车载云服务器协同计算卸载的场景，以合理高效的计算卸载决策和功率分配达到系统时延最小化的目的。为降低系统时延同时提升频谱利用率，采用混合频谱接入技术进行传输，v2i链路和v2v链路通过5g切片技术接入不同切片互不干扰。首先通过势博弈得到任务请求车辆的卸载决策，即任务请求车辆决定本地计算，卸载到mec服务器，卸载到距离任务请求车辆最近的车载云服务器。对决定任务卸载的任务请求车辆，采用分布式的资源分配方法，不需要基站集中调度信道状态信息，将每辆决定任务卸载的任务请求车辆视为智能体，基于本地观察状态信息来选择发射功率。通过建
立深度强化学习模型，利用深度确定性策略梯度算法(deep deterministic policy gradient，ddpg)优化深度强化学习模型。根据优化后的ddpg模型，得到每辆决定任务卸载的任务请求车辆的发射功率。完成上述发明通过以下技术方案实现：一种基于势博弈的车联网计算卸载与功率优化方法，包括步骤如下：
7.(1)，在路侧单元即rsu部署移动边缘计算即mec服务器，将可以通过共享其剩余计算资源的车辆作为车载云服务器，任务请求车辆的计算任务可以本地处理，卸载到车载云服务器和mec服务器；
8.(2)，建立包括n个任务请求车辆，n
sev
个车载云服务器和一个配备mec服务器的路侧单元的通信模型和计算模型，进而建立计算卸载和功率优化模型；
9.(3)，每辆任务请求车辆获取周边车载云服务器和mec计算资源占用情况以及任务信息；
10.(4)，基于势博弈得到每辆车的卸载决策即任务请求车辆决定本地计算，卸载到mec服务器，卸载到距离任务请求车辆最近的车载云服务器，根据卸载决策，对决定任务卸载的车辆以降低系统时延为目标建立深度强化学习模型；
11.(5)，基于ddpg训练深度强化学习模型；
12.(6)，在执行阶段，任务请求车辆通过势博弈得到任务卸载决策，决定卸载的任务请求车辆n0根据本地观察获得当前状态对所有卸载决策不为本地计算的任务请求车辆利用训练好的深度强化学习模型获取发射功率；
13.进一步的，所述步骤(2)包括如下具体步骤：
14.(2a)，建立车联网计算卸载的通信模型，系统包括n个任务请求车辆，n
sev
个车载云服务器和一个部署mec服务器的路侧单元，任务请求车辆用集合表示，集合表示车载云服务器，任务请求车辆n的任务可以表示为cn表示用户n完成任务所需的cpu周期数，sn表示用户n卸载的任务数据量大小，表示用户n对任务执行的最大可容忍时延。视为每一个时隙，任务请求车辆产生一个任务，任务请求车辆n任务的卸载决策用表示，an＝0表示任务请求车辆n本地执行计算任务，an＝1表示任务请求车辆n通过v2i链路的将任务卸载到mec服务器计算，an＝2表示任务请求车辆n通过v2v链路将任务卸载到距离任务请求车辆最近的车载云服务器计算。v2v通信与v2i通信采用5g切片技术互不干扰；
15.(2b)，任务请求车辆n将任务卸载到车载云服务器n
sev
的信干噪比(sinr)表示为：
[0016][0017]
任务请求车辆n将任务卸载到车载云服务器n
sev
的传输速率表示为：
[0018][0019]
其中，表示分配给任务请求车辆n将任务卸载到车载云服务器n
sev
的传输带宽，pn表示任务请求车辆n的发射功率，σ2表示噪声功率，表示任务请求车辆n到车载云服务器n
sev
的信道增益，表示除任务请求车辆n以外的任务请求车辆将任务卸载到车载云服务器n
′
sev
对任务请求车辆n的干扰
[0020][0021]
其中an′
＝2时，j(an′
＝2)＝1，否则j(an′
＝2)＝0，表示任务请求车辆n
′
是否将任务卸载到车载云服务器n
′
sev
，表示任务请求车辆n
′
将任务卸载到车载云服务器n
′
sev
，表示任务请求车辆n
′
没有将任务卸载到车载云服务器n
′
sev
，pn′
表示任务请求车辆n
′
的发射功率，表示任务请求车辆n
′
到车载云服务器n
′
sev
的信道增益；
[0022]
(2c)，同样地，任务请求车辆n将任务卸载到mec服务器的信干噪比(sinr)表示为：
[0023][0024]
任务请求车辆n将任务卸载到车载云服务器n
sev
的传输速率表示为：
[0025][0026]
其中，pn表示任务请求车辆n的发射功率，σ2表示噪声功率，h
n，mec
表示任务请求车辆n到mec服务器的信道增益，表示除任务请求车辆n以外的任务请求车辆将任务卸载到mec服务器对任务请求车辆n的干扰
[0027][0028]
其中an′
＝1时，j(an′
＝1)＝1，否则j(an′
＝1)＝0，表示任务请求车辆n
′
将任务卸载到mec服务器，表示任务请求车辆n
′
没有将任务卸载到mec服务器，pn′
表示任务请求车辆n
′
的发射功率，hn′
，mec
表示任务请求车辆n
′
到mec服务器的信道增益；
[0029]
(2d)，建立计算模型，an＝0表示任务请求车辆n本地执行计算任务，表示任务请求车辆n的本地计算能力，则本地计算时延为：
[0030][0031]an
＝1表示任务请求车辆n通过v2i链路的将任务卸载到mec服务器计算，任务请求车辆n将任务上传到mec服务器的上传时延为：
[0032][0033]
任务请求车辆n将任务上传到mec服务器的计算时延为：
[0034][0035]
为mec服务器分配给任务请求车辆n的任务的计算能力。
[0036]an
＝2表示任务请求车辆n通过v2r链路的将任务卸载车载云服务器计算，任务请求车辆n将任务上传到车载云服务器n
sev
的上传时延为
[0037][0038]
任务请求车辆n将任务上传到车载云服务器n
sev
的计算时延为
[0039]
[0040]
为车载云服务器n
sev
分配给任务请求车辆n的任务的计算能力.很多研究表明，下传最终的计算结果的数据量与上传的数据量相比是很小的，所以可以忽略下发时延，故任务请求车辆n将任务卸载到mec服务器的产生的时延为
[0041][0042]
任务请求车辆n将任务卸载到车载云服务器n
sev
产生的的时延为：
[0043][0044]
(2e)，综上，可以建立如下的目标函数和约束条件：
[0045][0046]
其中，约束条件c1表明任务请求车辆n本地执行计算任务，或将任务卸载到mec服务器计算，或将任务卸载到距离任务请求车辆最近的车载云服务器计算，每个计算任务只能选择一种计算方式，约束条件c2表明了任务请求车辆n的本地计算能力范围，是任务请求车辆n本地最大计算能力，约束条件c3和c4意味mec服务器和车载云服务器分配给任务请求车辆n的计算能力非负，约束条件c5和c6表明mec服务器和车载云服务器分配给任务请求车辆的计算能力不能超过其最大计算能力，f
mec
是mec服务器的最大计算能力，f
mec
是车载云服务器的最大计算能力；约束条件c7和c8表明任务请求车辆n执行任务满足其最大时延约束；约束条件表明任务请求车辆n发射功率非负且满足其最大发射功率约束；
[0047]
进一步，所述步骤(4)包括如下具体步骤：
[0048]
(4a)，基于势博弈得到每辆车是否卸载的决策，将任务车的卸载决策建模为势博弈，表示为其中为任务请求车辆的集合，an为任务请求车辆n的卸载决策，un为任务请求车辆n的代价函数。
[0049]
在博弈模型中，每个任务请求车辆均为一个资源竞争者，因此存在n辆车竞争网络内的有限资源，每辆车都可以选择卸载计算或者本地执行任务计算，其中an∈{0，1，2}为任务请求车辆n的卸载决策，表示所有任务请求车辆的卸载决策集合，an＝1表示任务请求车辆n将任务卸载到mec服务器进行计算，an＝0表示任务请求车辆n在本地执行计算任务。an＝2表示任务请求车辆n将任务卸载到距离任务请求最近的车载云服务器进行计算。当任务请求车辆n的卸载决策为an时，其代价函数表示为un(an，a-n
)，其中a-n
表示除任务请求车辆n以外的所有任务请求车辆的卸载决策集合。每辆任务请求车辆都可以希望通过找到最优的卸
载决策来最小化自身代价，即
[0050][0051]
势博弈收敛于纳什均衡，即通过最优响应迭代找到卸载决策所有任务请求车辆不存在改变当前卸载决策可以最小化自身代价。
[0052]
(4b)，根据卸载决策用集合将任务请求车辆中卸载决策任务请求车辆，n0表示任务请求车辆的数目，定义状态空间s为与发射功率有关的观测信息和低维度指纹信息，包括任务请求车辆n0到车载云服务器的信道状态信息任务请求车辆n0到mec的信道状态信息任务请求车辆n0到车载云服务器的接收到的任务请求车辆n0到mec的接收到的干扰任务请求车辆n0的任务信息训练回合数e和ε-贪心算法中的随机探索变量ε，即
[0053][0054]
将任务请求车辆任务请求车辆视为智能体，每次车基于当前状态选择发射功率；
[0055]
(4c)，定义动作a：每辆决定卸载的任务请求车辆n0的动作为选择的发射功率为连续变量介于0到任务请求车辆n0最大的发射功率；
[0056]
(4d)，定义奖励函数r，卸载的目标是卸载决策任务请求车辆的选择发射功率，在最大发射功率的限制下，最小化卸载决策任务请求车辆的任务处理时延，因此奖励函数可以表示为：
[0057][0058]
其中b是固定的值用来调整奖励函数的值；
[0059]
(4e)，依据建立好的状态，动作和奖励函数，建立深度强化学习模型，每个智能体训练相应的动作网络和评价网络；
[0060]
进一步，所述步骤(5)包括如下具体步骤：
[0061]
(5a)，初始化训练回合数p；
[0062]
(5b)，初始化p回合中的时间步t；
[0063]
(5c)，每个智能体即决定卸载的任务请求车辆的在线actor策略网络根据输入状态输出动作在所有智能体执行相应的的动作后获取奖励r
t
，每个智能体转到下一状态从而获得每个智能体的训练数据
[0064]
(5d)，将每个智能体的训练数据存入相应的经验回放池中；
[0065]
(5e)，对每个智能体从经验回放池中随机采样m个训练数据构成数据集，发送给在线actor策略网络、在线critic评价网络、目标actor策略网络和目标critic评价网络；
[0066]
(5f)，定义在线critic评价网络的损失函数通过神经网络的梯度反向传播
来更新critic当前网络的所有参数θ；
[0067]
(5g)，定义在线actor策略网络的给抽样策略梯度通过神经网络的梯度反向传播来更新actor当前网络的所有参数δ；
[0068]
(5h)，在线训练次数达到目标网络更新频率，根据在线网络参数δ和θ分别更新目标网络参数δ
′
和θ
′
；
[0069]
(5i)，判断是否满足t＜k，k为p回合中的总时间步，若是，t＝t 1，进入步骤5c，否则，进入步骤5j；
[0070]
(5j)，判断是否满足p＜i，i为训练回合数设定阈值，若是，p＝p 1，进入步骤5b，否则，优化结束，得到优化后的深度强化学习模型。
[0071]
进一步的，所述步骤(6)包括如下具体步骤：
[0072]
(6a)，根据每辆车迁移任务时获取周边车载云服务器和mec计算资源占用情况以及任务信息通过势博弈得到车辆的卸载决策，对所有卸载决策不为本地计算的任务请求车辆获取该时刻的状态信息
[0073]
(6b)，每辆决定任务卸载的任务请求车辆n0，利用训练好的深度强化学习模型，输入状态信息
[0074]
(6c)，决定卸载的任务请求车辆n0输出最优动作策略即得到最优的任务请求车辆发射功率有益效果：本发明提出一种基于势博弈的车联网计算卸载与功率优化方法，该方法针对移动边缘服务器和车载云服务器协同计算卸载的场景，采用混合频谱接入技术进行传输，v2v链路与v2i基于5g切片技术接入不同切片，互不干扰，通过势博弈获得任务请求车辆的卸载决策，采用深度双q学习优化卸载的任务请求车辆的发射功率，最小化系统时延实现任务计算，本发明使用的势博弈和深度双q学习结合的算法可以有效的解决任务请求车辆的卸载决策和发射功率的联合优化问题，在复杂度和性能之间取得了很好的平衡。。
[0075]
综上所述，在移动边缘服务器和车载云服务器协同计算卸载的场景下，本发明提出的一种基于势博弈的车联网计算卸载与功率优化方法在最小化系统时延方面是优越的。
附图说明
[0076]
图1为本发明实施例提供的基于势博弈的车联网计算卸载与功率优化方法的流程图；
[0077]
图2为本发明实施例提供的移动边缘服务器和车载云服务器协同计算卸载的模型示意图；
[0078]
图3为本发明实施例提供的深度确定性策略梯度算法框架示意图；
具体实施方式
[0079]
本发明的核心思想在于：针对移动边缘服务器和车载云服务器协同计算卸载的场景，采用混合频谱接入技术进行传输，v2v链路与v2i基于5g切片技术接入不同切片，互不干扰，通过势博弈获得任务请求车辆的卸载决策，将决策为卸载的任务请求车辆视为智能体，通过建立深度强化学习模型，采用深度确定性策略梯度算法优化深度强化学习模型。根据优化后的深度强化学习模型，得到最优的卸载的任务请求车辆的发射功率，达到最小化系
统时延的目的。
[0080]
下面对本发明做进一步详细描述。
[0081]
步骤(1)，在路侧单元即rsu部署移动边缘计算即mec服务器，将可以通过共享其剩余计算资源的车辆作为车载云服务器，任务请求车辆的计算任务可以本地处理，卸载到车载云服务器或mec服务器；
[0082]
步骤(2)，建立包括n个任务请求车辆，n
sev
个车载云服务器和一个路侧单元的通信模型和计算模型，进而建立联合计算迁移和资源分配模型，包括如下步骤：
[0083]
(2a)，建立车联网计算卸载的通信模型，系统包括n个任务请求车辆，n
sev
个车载云服务器和一个部署mec服务器的路侧单元，任务请求车辆用集合表示，集合表示车载云服务器，任务请求车辆n的任务可以表示为cn表示用户n完成任务所需的cpu周期数，sn表示用户n卸载的任务数据量大小，表示用户n对任务执行的最大可容忍时延。视为每一个时隙，任务请求车辆产生一个任务，任务请求车辆n任务的卸载决策用表示，an＝0表示任务请求车辆n本地执行计算任务，an＝1表示任务请求车辆n通过v2i链路的将任务卸载到mec服务器计算，an＝2表示任务请求车辆n通过v2v链路将任务卸载到距离任务请求车辆最近的车载云服务器计算。v2v通信与v2i通信采用5g切片技术互不干扰；
[0084]
(2b)，任务请求车辆n将任务卸载到车载云服务器n
sev
的信干噪比(sinr)表示为：
[0085][0086]
任务请求车辆n将任务卸载到车载云服务器n
sev
的传输速率表示为：
[0087][0088]
其中，表示分配给任务请求车辆n将任务卸载到车载云服务器n
sev
的传输带宽，pn表示任务请求车辆n的发射功率，σ2表示噪声功率，表示任务请求车辆n到车载云服务器n
sev
的信道增益，表示除任务请求车辆n以外的任务请求车辆将任务卸载到车载云服务器n
′
sev
对任务请求车辆n的干扰
[0089][0090]
其中an′
＝2时，j(an′
＝2)＝1，否则j(an′
＝2)＝0，表示任务请求车辆n
′
是否将任务卸载到车载云服务器n
′
sev
，表示任务请求车辆n
′
将任务卸载到车载云服务器n
′
sev
，表示任务请求车辆n
′
没有将任务卸载到车载云服务器n
′
sev
，pn′
表示任务请求车辆n
′
的发射功率，表示任务请求车辆n
′
到车载云服务器n
′
sev
的信道增益；
[0091]
(2c)，同样地，任务请求车辆n将任务卸载到mec服务器的信干噪比(sinr)表示为：
[0092][0093]
任务请求车辆n将任务卸载到车载云服务器n
sev
的传输速率表示为：
[0094]
[0095]
其中，pn表示任务请求车辆n的发射功率，σ2表示噪声功率，h
n，mec
表示任务请求车辆n到mec服务器的信道增益，表示除任务请求车辆n以外的任务请求车辆将任务卸载到mec服务器对任务请求车辆n的干扰
[0096][0097]
其中an′
＝1时，j(an′
＝1)＝1，否则j(an′
＝1)＝0，表示任务请求车辆n
′
将任务卸载到mec服务器，表示任务请求车辆n
′
没有将任务卸载到mec服务器，pn′
表示任务请求车辆n
′
的发射功率，hn′
，mec
表示任务请求车辆n
′
到mec服务器的信道增益；
[0098]
(2d)，建立计算模型，an＝0表示任务请求车辆n本地执行计算任务，表示任务请求车辆n的本地计算能力，则本地计算时延为：
[0099][0100]an
＝1表示任务请求车辆n通过v2r链路的将任务卸载到mec服务器计算，任务请求车辆n将任务上传到mec服务器的上传时延为：
[0101][0102]
任务请求车辆n将任务上传到mec服务器的计算时延为：
[0103][0104]
为mec服务器分配给任务请求车辆n的任务的计算能力。
[0105]an
＝2表示任务请求车辆n通过v2r链路的将任务卸载车载云服务器计算，任务请求车辆n将任务上传到车载云服务器n
sev
的上传时延为
[0106][0107]
任务请求车辆n将任务上传到车载云服务器n
sev
的计算时延为
[0108][0109]
为车载云服务器n
sev
分配给任务请求车辆n的任务的计算能力.很多研究表明，下传最终的计算结果的数据量与上传的数据量相比是很小的，所以可以忽略下发时延，故任务请求车辆n将任务卸载到mec服务器的产生的时延为
[0110][0111]
任务请求车辆n将任务卸载到车载云服务器n
sev
产生的的时延为：
[0112][0113]
(2e)，综上，可以建立如下的目标函数和约束条件：
[0114][0115]
其中，约束条件c1表明任务请求车辆n本地执行计算任务，或将任务卸载到mec服务器计算，或将任务卸载到距离任务请求车辆最近的车载云服务器计算，每个计算任务只能选择一种计算方式，约束条件c2表明了任务请求车辆n的本地计算能力范围，是任务请求车辆n本地最大计算能力，约束条件c3和c4意味mec服务器和车载云服务器分配给任务请求车辆n的计算能力非负，约束条件c5和c6表明mec服务器和车载云服务器分配给任务请求车辆的计算能力不能超过其最大计算能力，f
mec
是mec服务器的最大计算能力，f
mec
是车载云服务器的最大计算能力；约束条件c7和c8表明任务请求车辆n执行任务满足其最大时延约束；约束条件表明任务请求车辆n发射功率非负且满足其最大发射功率约束；
[0116]
步骤(3)，每辆任务请求车辆获取周边车载云服务器和mec计算资源占用情况以及任务信息；
[0117]
步骤(4)，基于势博弈得到每辆车的卸载决策，根据卸载决策，对决定任务卸载的车辆以降低系统时延为目标建立深度强化学习模型，包括如下具体步骤：
[0118]
(4a)，基于势博弈得到每辆车是否卸载的决策，将任务车的卸载决策建模为势博弈，表示为其中为任务请求车辆的集合，an为任务请求车辆n的卸载决策，un为任务请求车辆n的代价函数。
[0119]
在博弈模型中，每个任务请求车辆均为一个资源竞争者，因此存在n辆车竞争网络内的有限资源，每辆车都可以选择卸载计算或者本地执行任务计算，其中an∈{0，1，2}为任务请求车辆n的卸载决策，表示所有任务请求车辆的卸载决策集合，an＝1表示任务请求车辆n将任务卸载到mec服务器进行计算，an＝0表示任务请求车辆n在本地执行计算任务。an＝2表示任务请求车辆n将任务卸载到距离任务请求最近的车载云服务器进行计算。当任务请求车辆n的卸载决策为an时，其代价函数表示为un(an，a-n
)，其中a-n
表示除任务请求车辆n以外的所有任务请求车辆的卸载决策集合。每辆任务请求车辆都可以希望通过找到最优的卸载决策来最小化自身代价，即
[0120][0121]
势博弈收敛于纳什均衡，即通过最优响应迭代找到卸载决策所
有任务请求车辆不存在改变当前卸载决策可以最小化自身代价。
[0122]
(4b)，根据卸载决策用集合将任务请求车辆中卸载决策任务请求车辆，n0表示任务请求车辆的数目，定义状态空间s为与发射功率有关的观测信息和低维度指纹信息，包括任务请求车辆n0到车载云服务器的信道状态信息任务请求车辆n0到mec的信道状态信息任务请求车辆n0到车载云服务器的接收到的任务请求车辆n0到mec的接收到的干扰任务请求车辆n0的任务信息训练回合数e和ε-贪心算法中的随机探索变量ε，即
[0123][0124]
将任务请求车辆任务请求车辆视为智能体，每次车基于当前状态选择卸载节点和发射功率；
[0125]
(4c)，定义动作a：每辆决定卸载的任务请求车辆n0的动作为选择的发射功率为连续变量介于0到任务请求车辆n0最大的发射功率；
[0126]
(4d)，定义奖励函数r，卸载的目标是卸载决策任务请求车辆的选择发射功率，在最大的发射功率限制下，最小化卸载决策任务请求车辆的任务处理时延，因此奖励函数可以表示为：
[0127][0128]
其中b是固定的值用来调整奖励函数的值，
[0129]
(4e)，依据建立好的状态，动作和奖励函数，建立深度强化学习模型，每个智能体训练相应的动作网络和评价网络；
[0130]
步骤(5)，考虑连续动作空间中的联合优化问题，利用包含深度学习拟合，软更新，回放机制三个方面的ddpg算法优化深度强化学习模型；
[0131]
深度学习拟合指ddpg算法基于actor-critic框架，分别使用参数为θ和δ的深度神经网络来拟合确定性策略a＝μ(s|θ)和动作值函数q(s，a|δ)。
[0132]
软更新指动作值网络的参数在频繁梯度更新的同时，又用于计算策略网络的梯度，使得动作值网络的学习过程很可能出现不稳定的情况，所以提出采用软更新方式来更新网络。
[0133]
分别为策略网络和动作值网络创建在线网络和目标网络两个神经网络：
[0134][0135]
训练过程中利用梯度下降不断更新网络，目标网络的更新方式如下
[0136]
θ
′
＝τθ (1-τ)θ
ꢀꢀꢀꢀꢀꢀ
表达式18
[0137]
δ
′
＝τδ (1-τ)δ
ꢀꢀꢀꢀꢀꢀꢀ
表达式19
[0138]
经验回放机制是指与环境交互时产生的状态转换样本数据具有时序关联性，易造成动作值函数拟合的偏差。因此，借鉴深度q学习算法的经验回放机制，将采集到的样本先放入样本池，然后从样本池中随机选出一些小批量样本用于对网络的训练。这种处理去除了样本间的相关性和依赖性，解决了数据间相关性及其非静态分布的问题，使得算法更容易收敛。
[0139]
利用包含深度学习拟合，软更新，回放机制三个方面的ddpg算法优化深度强化学习模型，包括如下步骤：
[0140]
(5a)，初始化训练回合数p；
[0141]
(5b)，初始化p回合中的时间步t；
[0142]
(5c)，每个智能体即决定卸载的任务请求车辆的在线actor策略网络根据输入状态输出动作在所有智能体执行相应的的动作后获取奖励r
t
，每个智能体转到下一状态从而获得每个智能体的训练数据
[0143]
(5d)，将每个智能体的训练数据存入相应的经验回放池中；
[0144]
(5e)，对每个智能体从经验回放池中随机采样m个训练数据构成数据集，发送给在线actor策略网络、在线critic评价网络、目标actor策略网络和目标critic评价网络；
[0145]
(5f)，设置q估计为
[0146]
yi＝ri γq
′
(s
i 1
，μ
′
(s
i 1
|θ
′
)|δ
′
)
ꢀꢀꢀꢀꢀꢀ
表达式20
[0147]
定义在线critic评价网络的损失函数为
[0148][0149]
通过神经网络的梯度反向传播来更新critic当前网络的所有参数θ；
[0150]
(5g)，定义在线actor策略网络的给抽样策略梯度为
[0151][0152]
通过神经网络的梯度反向传播来更新actor当前网络的所有参数δ；
[0153]
(5h)，在线训练次数达到目标网络更新频率，根据在线网络参数δ和θ分别更新目标网络参数δ
′
和θ
′
；
[0154]
(5i)，判断是否满足t＜k，k为p回合中的总时间步，若是，t＝t 1，进入步骤5c，否则，进入步骤5j；
[0155]
(5j)，判断是否满足p＜i，i为训练回合数设定阈值，若是，p＝p 1，进入步骤5b，否则，优化结束，得到优化后的深度强化学习模型。
[0156]
步骤(6)，在执行阶段，任务请求车辆通过势博弈得到任务卸载决策，决定卸载的任务请求车辆n0根据本地观察获得当前状态对所有卸载决策不为本地计算的任务请求车辆利用训练好的深度强化学习模型获取发射功率，具体为：
[0157]
(6a)，根据每辆任务请求车辆获取周边车载云服务器和mec计算资源占用情况以及任务信息，通过势博弈得到车辆的卸载决策，对所有卸载决策不为本地计算的任务请求车辆获取该时刻的状态信息
[0158]
(6b)，每辆决定任务卸载的任务请求车辆n0，利用训练好的深度强化学习模型，输入状态信息
[0159]
(6c)，任务请求车辆n0输出最优动作策略即得到最优的任务请求车辆发射功率
[0160]
在图1中，描述了基于势博弈的车联网计算卸载与功率优化方法的流程图，对每辆任务请求车辆根据基于势博弈得到其卸载决策，对决定卸载的任务请求车辆基于深度强化学习模型得到其发射功率。
[0161]
在图2中，描述了移动边缘服务器和车载云服务器协同计算卸载的模型示意图，即任务请求车辆可以本地执行计算任务，或将任务卸载到mec服务器计算，或将任务卸载到距离任务请求车辆最近的车载云服务器计算。
[0162]
在图3中，描述了深度确定性策略梯度算法的算法框架包含了线actor策略网络、在线critic评价网络、目标actor策略网络和目标critic评价网络四个网络。
[0163]
根据对本发明的说明，本领域的技术人员应该不难看出，本发明的基于势博弈的车联网计算卸载与功率优化方法可以有效降低系统时延。
[0164]
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：运动相机、自拍控制方法及装置、可移动平台和存储介质与流程

一种基于势博弈的车联网计算卸载与功率优化方法

相关文献

最热文献