农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

基于深度强化学习的MEC计算卸载与资源分配方法与流程

2021-10-29 07:46:00 来源：中国专利 TAG：

本发明属于移动通信技术领域，具体涉及一种基于深度强化学习的MEC计算卸载与资源分配方法。

背景技术

随着5G(5th Generation Mobile Communication Technology)网络技术的不断发展，未来网络中的应用，例如交互游戏、自动驾驶、增强现实、虚拟现实，这些应用都需要强大的计算能力，在极短的时间内完成大量的计算。受限于移动设备的计算能力与电池容量，使之无法获得良好的用户体验。在这种情况，计算卸载的概念被提出，指用户设备处理某些计算量庞大的应用时，在权衡延迟或者能耗等指标的情况下，将处理这些应用的数据通过无线信道上传到边缘服务器上，来减少任务完成时间和降低移动设备能耗。

5G应用推动了移动云计算MCC(Mobile Cloud Computing)概念的发展，移动用户设备可以利用强大的远程集中云的计算和存储资源来实现访问，但过多的使用可能会在数据交换时发生堵塞导致产生很长的等待时间。因此新的计算范式被提出—移动边缘计算MEC,它可以通过部署高性能服务器来提高移动网络边缘的计算能力。与MCC相比，它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。通过计算卸载，移动用户可以显著地减少应用程序的延迟，提高服务质量,并且显著降低。

但是在卸载决策上，单靠一些简单的判断是无法做出最优的选择。机器学习作为近些年计算机领域的热点，研究者们将其尝试运用到计算卸载领域。强化学习作为机器学习的一个重要分支，他从环境的未来回报反馈考虑，通过调整其策略达到最佳的长期回报，与计算卸载策略尤为贴切。但在某些复杂场景下，其无法提供较好的效果，所以引入了深度学习，大大促进了高维度信息感知问题。

技术实现要素：

本发明的目的在于针对MEC计算卸载与资源分配问题，提出了一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法，利用DQN算法，通过深度神经网络来近似估计状态-动作组的Q值，以确定最优的计算卸载与资源分配方案，达到最小的系统总开销。

为了达到上述目的，本发明采用如下技术方案：

一种基于深度强化学习的移动边缘计算的计算卸载与资源分配方法，包括如下步骤：

步骤1，建立多移动用户设备多MEC服务器的通信模型

该通信模型由一个演进式基站、多个MEC服务器和多个移动用户设备构成；其中移动用户设备以无线网络的方式连接到演进式基站，MEC服务器部署在演进式基站附近，为移动用户设备提供计算服务；每个移动用户设备的计算任务选择在本地终端进行计算处理，或选择通过演进式基站接入，然后再传给相应的MEC服务器进行计算处理；

步骤2，建立处理计算移动用户设备计算任务的计算执行模型

假设每个移动用户设备都有一个计算任务其中An表示完成计算任务所需的输入数据的大小，其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数，反映了完成计算任务Rn所需的计算资源数。表示计算任务Rn的最大可容忍延迟，即完成每个计算任务的总用时不应超过最大可容忍延迟

对移动用户设备的计算任务建立计算执行模型，移动用户设备选择在本地终端处理任务或者选择计算卸载方式处理任务；

2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立

移动用户设备选择本地终端处理计算任务Rn时，其本地计算执行的开销包含执行延迟与能量消耗定义为移动用户设备的本地计算能力，其单位用每秒的CPU周期数来表示，不同移动用户设备的计算能力是有区别的；则本地终端处理计算任务Rn的执行延迟如式(1)所示：

本地终端处理计算任务Rn的能量消耗如式(2)所示：

上式中zn是能耗密度，并且不同种设备之间的参数差距小；综合考虑本地计算执行的执行延迟和能量消耗，移动用户设备在本地计算执行的总开销如式(3)所示：

式中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟和能耗的权重参数；式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型；

2.2移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型建立

移动用户设备选择计算卸载方式处理计算任务Rn时，整个过程包含三部分：首先移动用户设备需要传输完成计算任务的数据到演进式基站，再由演进式基站转给MEC服务器；其次是MEC服务器分配一定的计算资源来执行计算任务；最后再由MEC服务器将执行结果返还给移动用户设备；

移动用户设备能实现的数据上传速率rm如式(4)所示：

其中Q为无线信道带宽，K代表移动用户设备数量，Pn为上传数据时移动用户设备的传输功率，hn为分配给移动用户设备的无线信道增益，N0为复杂高斯白噪声信道的方差；

由上所述第一部分是传输输入产生的传输延迟如式(5)所示：

此过程所对应的能量消耗如式(6)所示：

其中：An为完成计算任务Rn所需的输入数据的大小；

第二部分是MEC服务器处理计算任务的处理延迟，定义fn,m是MEC服务器为移动用户设备分配的计算资源，其处理延迟如式(7)所示：

在MEC服务器执行计算的这段时间内，移动用户设备处于等待接收的状态，设此状态下移动用户设备的闲置功率为则这段时间内的能量消耗如式(8)所示：

对于最后一部分，完整的卸载计算过程，计算卸载执行延迟和计算卸载能量消耗如式(9)和(10)所示：

综上所述，对于选择卸载计算的移动用户设备，其计算卸载执行延迟和计算卸载能量消耗的加权开销如式(11)所示：

其中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟与能耗的权重参数；式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型；

步骤3，建立优化目标为最小化所有移动用户设备系统总开销的问题模型

3.1最小化移动用户设备系统总开销的目标函数

优化目标是最小化所有移动用户设备的系统总开销Vall，所以目标函数如式(12)所示：

其中：Vall为移动用户设备的系统总开销，为移动用户设备在本地计算执行的总开销，为移动用户设备选择计算卸载方式进行处理计算任务Rn的系统总开销，N为移动用户设备的数量，M为MEC服务器的数量；

3.2所有移动用户设备系统总开销的问题模型

优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化，即系统总开销最小化；在最大可容忍延迟和计算能力的约束下，该问题模型如式(13)所示：

A代表决策向量，A＝{a1,a2,a3,...,aN}；f代表资源分配向量，f＝{f1,f2,f3,...,fN}，其中定义Fm为第m台MEC服务器的整体计算资源数；C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务；C2和C3表示为移动用户设备分配的计算资源为非负的，并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm；C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟

步骤4，利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题

4.1定义深度强化学习的三个重要元素，即状态、动作与奖励

状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成；动作由卸载决策向量和资源分配向量组成，两者的可能值取值情况组合起来便得到动作向量；奖励就是得到移动用户设备最小的系统总开销；

4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数

初始化DQN的记忆库，设其容量为N；DQN的记忆库用来学习之前的经验，又因为Q learning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历，所以在学习过程中随机的加入之前的经验会让神经网络更有效率；

初始化当前状态，也就是初始化整个系统的总开销和MEC服务器当前空闲资源数，设定初始状态为本地终端处理，即移动用户设备选择在本地终端处理计算任务；

4.3移动用户设备选择如何进行卸载决策与资源分配

将当前移动用户设备的状态作为Q-network的输入，然后输出所有移动用户设备的动作Q值；根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配；

4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件，对移动用户设备所选动作进行分类，筛选有效的动作，提高DQN算法的学习效率；

4.5执行当前移动用户设备选择的卸载决策与资源分配方式

执行当前移动用户设备选择的卸载决策与资源分配方式，得到当前的奖励，也就是最小化的系统总开销；并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新；

4.6重复上述迭代过程，直至DQN算法曲线收敛

重复上述迭代过程，等到移动用户设备的系统总开销不再随着迭代步数增加而变化，即DQN算法曲线收敛时，整个DQN算法执行过程便结束。

和现有技术相比较，本发明具备如下优点：

(1)适用于高实时性的MEC系统

现有的传统优化算法对于解决MEC计算卸载与资源资源分配问题是可行的。但是MEC系统划分的时隙间隔非常小，而传统优化算法一般都需要经过复杂的操作和迭代才能得到优化结果，所以传统优化算法并不是很适用于高实时性的MEC系统。本发明所提出的深度强化学习DQN算法便很好地解决了上述传统优化算法所遇到的问题，可以适用于高实时性的MEC系统。

(2)与其他基准方法相比，本发明算法整体性能最优

从整体上来看，随着移动用户设备数量的增加、MEC服务器数量的增加、MEC服务器计算能力的增加，本发明提出的算法所得到的系统总开销总体上是小于其他两个基准算法的，即全部计算卸载和全本地卸载方法。从图像上来看，本发明算法的曲线整体上是低于其他基准方法的，处于最下方，所以说本发明所提出算法整体性能是优于其他基准方法的。

附图说明

图1为本发明方法流程图。

图2多移动用户设备多MEC服务器通信模型图。

图3移动用户设备数量的变化对系统总开销的影响。

图4MEC服务器数量的变化对系统总开销的影响。

图5MEC服务器计算能力的变化对系统总开销的影响。

具体实施方式

下面结合附图和实例对本发明进行详细描述。

如图1所示，本发明一种基于深度强化学习的MEC计算卸载与资源分配方法，包括如下步骤：

步骤1，建立多移动用户设备多MEC服务器的通信模型

本发明考虑了一个多移动用户设备多MEC服务器的通信模型，如图2所示，在通信模型中有一个演进式基站,它与M个MEC服务器部署在一起，可以为N个移动用户设备提供计算服务，其MEC服务器数可用集合M＝{1,2,…m}来表示，移动用户设备数可用集合N＝{1,2,…,n}来表示。移动用户设备以无线网络的方式连接到演进式基站，每个移动用户设备的计算任务可以选择在本地终端进行计算处理，也可以选择通过演进式基站接入，再传给相应的MEC服务器进行计算处理。

步骤2，建立处理计算移动用户设备计算任务的计算执行模型

假设每个移动用户设备都有一个计算任务其中An表示完成计算任务所需的输入数据的大小，其中包括了程序代码和输入参数。Ln表示完成计算任务所需的CPU周期总数，反映了完成计算任务Rn所需的计算资源数。表示计算任务Rn的最大可容忍延迟，即完成每个计算任务的总用时不应超过最大可容忍延迟

每一个移动用户设备都有一个计算密集型任务要完成，并且每一个移动用户设备都可以通过无线网络将计算任务整体卸载到MEC服务器，反之则完全在本地设备上执行计算。在这里用0-1变量an∈{0,1}表示移动用户设备的卸载决策，并定义A＝{a1,a2,a3,...,aN}为整个MEC系统的卸载决策向量。an＝0表示移动用户设备选择在本地执行计算，an＝1表示移动用户设备选择整体卸载到MEC服务器上进行计算。

对移动用户设备的计算任务建立计算执行模型，移动用户设备可以选择在本地终端处理任务或者选择计算卸载方式处理任务。

2.1移动用户设备选择本地终端处理计算任务的本地计算执行模型建立

移动用户设备选择本地终端处理计算任务Rn时，其本地计算执行的开销包含执行延迟与能量消耗定义为移动用户设备的本地计算能力，其单位用每秒的CPU周期数来表示，不同移动用户设备的计算能力是有区别的。则本地终端处理计算任务Rn的执行延迟如式(1)所示：

本地终端处理计算任务Rn的能量消耗如式(2)所示：

上式中zn是能耗密度，并且不同种设备之间的参数差距很小。综合考虑本地计算执行的执行延迟和能耗，移动用户设备在本地计算执行的总开销如式(3)所示：

式中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟和能耗的权重参数；式(1)、式(2)、式(3)构成了移动用户设备选择本地终端处理计算任务的本地计算执行模型；

2.2移动用户设备选择计算卸载处理计算任务的卸载计算执行模型建立

移动用户设备选择计算卸载方式处理计算任务Rn时，整个过程包含三部分：首先移动用户设备需要传输完成计算任务的数据到演进式基站，再由演进式基站转给MEC服务器；其次是MEC服务器分配一定的计算资源来执行计算任务；最后再由MEC服务器将执行结果返还给移动用户设备。

移动用户设备可实现的数据上传速率rm如式(4)所示：

其中Q为无线信道带宽，K代表移动用户设备数量，Pn为上传数据时移动用户设备的传输功率，hn为分配给移动用户设备的无线信道增益，N0为复杂高斯白噪声信道的方差。

由上所述第一部分是传输输入产生的传输延迟如式(5)所示：

此过程所对应的能量消耗如式(6)所示：

其中：An为完成计算任务Rn所需的输入数据的大小；

第二部分是MEC服务器处理计算任务的处理延迟，定义fn,m是MEC服务器为移动用户设备分配的计算资源。其处理延迟如式(7)所示：

在MEC服务器执行计算的这段时间内，移动用户设备处于等待接收的状态，设此状态下移动用户设备的闲置功率为则这段时间内的能量消耗如式(8)所示：

对于最后一部分，无线网络的回传速率一般都远高于上传数据，且回传的执行结果远小于输入数据，因此其延迟和能量消耗一般会忽略掉。对于完整的卸载计算过程，计算卸载执行延迟和计算卸载能量消耗如式(9)和(10)所示：

综上所述，对于选择卸载计算的移动用户设备，其计算卸载执行延迟和计算卸载能量消耗的加权开销如式(11)所示：

其中0≤θ1,θ2≤1分别表示移动用户设备的执行延迟与能耗的权重参数。式(4)、式(5)、式(6)、式(7)、式(8)、式(9)、式(10)、式(11)构成了移动用户设备选择计算卸载方式处理计算任务的卸载计算执行模型；

步骤3，建立优化目标为最小化所有移动用户设备系统总开销的问题模型

3.1最小化移动用户设备系统总开销的目标函数

优化目标是最小化所有移动用户设备的系统总开销Vall，所以目标函数如式(12)所示：

其中：Vall为移动用户设备的系统总开销，为移动用户设备在本地计算执行的总开销，为移动用户设备选择计算卸载方式进行处理计算任务Rn的系统总开销，N为移动用户设备的数量，M为MEC服务器的数量；

3.2所有移动用户设备系统总开销的问题模型

优化目标是使MEC系统中所有移动用户设备的执行延迟和能耗的总成本最小化，即系统总开销最小化。在最大可容忍延迟和计算能力的约束下，该问题模型如式(13)所示：

A代表决策向量，A＝{a1,a2,a3,...,aN}。f代表资源分配向量，f＝{f1,f2,f3,...,fN}，其中定义Fm为第m台MEC服务器的整体计算资源数。C1表示每个移动用户设备只能选择通过本地执行计算任务或者卸载计算来执行其计算任务。C2和C3表示为移动用户设备分配的计算资源为非负的，并且每个卸载至第m台MEC服务器的移动用户设备所分配的计算资源总和不应超过Fm。C4表示不论是本地执行计算任务产生的延迟还是卸载计算产生的延迟都不能超过最大容忍延迟

步骤4，利用深度强化学习DQN算法解决最小化移动用户设备系统总开销的问题

深度强化学习是将强化学习的决策能力和深度学习的感知能力两者相结合起来的，其经典算法DQN(Deep Q Network)采用了深度学习中的卷积神经网络作为状态－动作值函数的泛化模型；同时使用强化学习的经典算法Q-Learning更新状态－动作值函数的模型参数，使得模型最终可以学习到一个较好的策略。

4.1定义深度强化学习的三个重要元素，即状态、动作与奖励

状态由整个系统的总开销和MEC服务器当前空闲资源数两部分组成。动作由卸载决策向量和资源分配向量组成，两者的可能值取值情况组合起来便可以得到动作向量。奖励就是得到移动用户设备最小的系统总开销。

4.2初始化DQN的记忆库、整个系统的总开销、MEC服务器当前空闲资源数

初始化DQN的记忆库，设其容量为N。DQN的记忆库用来学习之前的经验，又因为Q learning是一种离线学习法,它能学习当前经历着的,也能学习过去经历过的,甚至是学习别人的经历，所以在学习过程中随机的加入之前的经验会让神经网络更有效率。

初始化当前状态，也就是初始化整个系统的总开销和MEC服务器当前空闲资源数，设定初始状态为本地终端处理，即移动用户设备选择在本地终端处理计算任务。

4.3移动用户设备选择如何进行卸载决策与资源分配

将当前移动用户设备的状态作为Q-network的输入，然后输出所有移动用户设备的动作Q值。根据∈贪婪策略在所有Q值下选择如何进行卸载决策与资源分配。

4.4根据移动用户设备所需计算资源不能超过MEC服务器计算资源的约束条件，对移动用户设备所选动作进行分类，筛选有效的动作，提高DQN算法的学习效率；

MEC服务器的计算资源是有限的，每个移动用户设备所需要的计算资源都不能超过MEC服务器的最大限额，所以对移动用户设备所选动作进行分类，从中选取符合满足MEC服务器计算资源的动作，从而提高DQN算法的学习效率。

4.5执行当前移动用户设备选择的卸载决策与资源分配方式

执行当前移动用户设备选择的卸载决策与资源分配方式，得到当前的奖励，也就是最小化的系统总开销。并且当前整个系统的总开销和MEC服务器当前空闲资源数也会随之更新。

4.6重复上述迭代过程，直至DQN算法曲线收敛

重复上述迭代过程，等到移动用户设备的系统总开销不再随着迭代步数增加而变化，即DQN算法曲线收敛时，整个DQN算法执行过程便结束。

下面探讨移动用户设备数量的变化对系统总开销的影响：

如图3，横坐标代表的是移动用户设备的数量，纵坐标代表的是系统总开销。这组实验讨论的是系统的系统总开销与移动用户设备数量之间的关系。该曲线图从整体上看，随着移动用户设备数量的不断增加，三种方法所产生的系统总开销都呈现上升趋势。在相同条件下，可以明显地看出DQN算法能够达到最好的效果。

下面探讨MEC服务器数量变化对系统总开销的影响：

如图4，图4中显示了MEC服务器数量与系统总开销的关系图。从图5可以清晰地看到全本地计算几乎没有任何变化，这是因为选择本地计算的移动用户设备不需要进行无线传输，与MEC服务器的数量是没有关联的。从整体上看，全卸载计算方法和DQN算法总开销都随着MEC服务器数量的增加而呈下降趋势，并且DQN算法效果最佳。

下面探讨MEC服务器计算能力对系统总开销的影响：

如图5，横坐标表示的是MEC服务器的计算能力，纵坐标表示的是移动用户设备的系统总开销。整体上来看，除了全本地计算方法基本保持不变外，其余两种方法均成下降趋势，并且DQN算法整体性能最优，效果最佳。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车辆通信控制方法、装置、车辆及存储介质与流程

基于深度强化学习的MEC计算卸载与资源分配方法与流程

相关文献

最热文献