基于NOMA-MEC强化学习资源分配与任务卸载方法与流程

2021-10-24 04:22:00 来源：中国专利 TAG：卸载强化分配方法学习

基于noma
‑
mec强化学习资源分配与任务卸载方法
技术领域
1.本发明属于移动通信网络技术领域，具体涉及基于noma
‑
mec强化学习资源分配与任务卸载方法。

背景技术：

2.随着时代的发展，手机等移动终端正获得极大的普及，诸如面部识别、在线交互式游戏和增强现实等，越来越多的移动应用正在兴起并引起极大关注。这些移动应用通常需要大量资源、大量密集计算、低延迟以及高能耗，而计算资源和电池寿命有限的手机几乎无法支持这些应用。移动边缘计算(mobile edge computing，mec)可以满足这些任务的高计算要求，而非正交多址(non
‑
orthogonal multiple access，noma)技术的应用能够更进一步减少多任务卸载延迟的问题。
3.移动边缘计算技术属于一种分布式计算，将数据的处理，应用程序的运行甚至一些功能服务的实现放到网络边缘的节点上。移动边缘由一个或多个边缘服务器组成，即在传统基站上为其配置具有计算存储功能的服务器，将传统基站更新为移动边缘计算基站。通过将计算密集型或延迟敏感型应用卸载到附近的mec服务器上，资源受限的移动设备，可以减少任务处理时间，同时减少移能量消耗以及传输成本。
4.非正交多址接入技术是第5代蜂窝网络的关键技术之一，通过为终端用户分配不同的功率，可以在同一频带上同时为多个用户提供服务，从而有效地提高频谱利用率。与传统的正交多址接入(orthogonal multiple access，oma)相比，能够在相同的信道资源条件下为更多的用户提供任务卸载，同时考虑到任务卸载过程中多方面的影响因子，提出了采用非正交多址接入noma方式将用户接入通信系统。
5.机器学习(machine learning，ml)是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法，其作为一项应用前景广阔的新兴技术被越来越多的学者所研究。如今5g移动通信网络的应用更是离不开机器学习强有力的支持。机器学习根据学习方式分为监督学习、半监督学习、无监督学习以及强化学习(reinforcement learning，rl)四大类。不同于其他三类学习方式，rl的学习方法不需要完备的先验信息，智能体在与环境的交互过程中不断学习，最终找到最优策略。rl理论在解决动态规划、系统控制、决策等问题中发挥了关键作用，尤其在处理动态优化问题时，通过对变化环境不断“试错”式学习，最终获得最优方案。对于noma
‑
mec环境中子载波信道和任务卸载的联合资源分配问题的研究，传输环境的多变性大大增加了资源分配策略的设计难度，rl理论在无线通信系统的应用为解决资源分配问题提供了全新的设计思路。
6.每个移动设备可以通过选择载波信道将计算任务整体或部分卸载到mec服务器进行计算，以降低延迟和能耗，从而获得良好的用户体验。现有的传统算法对于解决任务卸载和资源分配问题是可行的，但对于高实时性的mec系统，传统算法并不适用。本发明将每个移动设备都作为智能体，由于每个智能体都是在不断学习改进其策略，因此从每一个智能体的角度看，环境是动态不稳定的，就无法直接使用经验回放等don的关键技巧。

技术实现要素：

7.发明目的：针对频谱效率低下以及用户设备计算能力有限的不足，本发明提供基于noma
‑
mec强化学习资源分配与任务卸载方法，采用noma技术和maddpg算法的移动设备可以智能地进行子载波信道分配和任务卸载，达到减少系统时延的目的。
8.技术方案：为实现上述目的，本发明采用如下技术方案：
9.基于noma
‑
mec强化学习资源分配与任务卸载方法，包括如下步骤：
10.步骤1.设定网络中，共有n个移动设备(智能体)，表示为{1，2...，n，...，n}；共有m个子信道，表示为{1，2...，m，...，m}；移动设备的任务表示为{t1，t2...，t
n
，...，t
n
}，共有t
n
个任务；
11.步骤2.采用noma技术，建立任务卸载和资源分配联合优化模型；针对网络中所有移动设备的载波信道分配和任务卸载建立联合优化模型；
12.步骤3.将联合优化模型转化为马尔科夫决策过程模型，设定马尔科夫决策过程中的状态、动作和奖励；
13.步骤4.通过maddpg算法训练学习网络，训练的目标是最小化移动设备的时延，结果得到最优的联合子载波信道分配和任务卸载策略。
14.进一步地，所述的步骤2中，具体包括如下步骤：
15.采用noma方式将移动设备接入到网络中，一条子信道可被多个移动设备占用，对于子信道m，其叠加的信号为x
m
；在系统接收端，任一用户n在子信道m的接收信号为y
n
，
m
；对于接收信号，按照信号功率进行大小排序，假设第n个移动设备的功率最强，首先对第n个移动设备进行解码，输出x
n
，恢复第n个移动设备的信号估计值，并从接收信号中减去第n个移动设备的估计值，得到剩下用户的信号，按照功率依次执行相同的操作，完成对所有移动设备的信号解码，解码后得到信噪比；
16.利用香农公式求noma方式下第n个移动设备用户在子信道m上的最大信息速率r
n
，
m
；用户n通过子信道m上传任务到mec服务器进行任务卸载的总延迟为：
[0017][0018]
式中，c
k
为mec服务器的计算能力，r
n
为mec服务器计算后的结果数据；
[0019]
用户n在本地计算的延迟为：
[0020][0021]
式中，fn移动用户的计算能力。
[0022]
进一步地，所述的步骤3中，初始化各参数，a
n
是移动设备n的动作，表示为a
n
＝{d
n
，c
n
}，其中d
n
为[0，1]之间的连续值，0表示移动设备n进行本地计算，1表示移动设备n将任务全部卸载到mec服务器；c
n
∈{0，1...，m}表示移动设备n对m个子载波信道进行选择；
[0023]
s
n
为移动设备n的状态，表示为s
n
＝{x
n
，x
n
，g
m
}，其中x
n
∈{0，1}表示子载波信道处于空闲/忙碌状态，x
n
表示卸载任务的数据大小，g
m
表示子信道的信道信息；
[0024]
r
n
是奖励函数，定义为系统时延的负值，表示为r
n
＝
‑
ee(d
n
，c
n
)。
[0025]
进一步地，所述的步骤4中，包括如下步骤：
[0026]
步骤4.1)采用maddpg算法进行移动设备用户网络更新，每个移动设备用户包含
actor网络和critic网络，actor网络和critic网络拥有各自的估计网络和目标网络，θ＝[θ1，θ2...θ
n
]表示n个智能体策略的参数，对于得到的状态s
i
，每个智能体根据actor网络的确定性策略产生一个动作a
i
，同时得到即时奖励r
i
，进入下一状态s
′
i
，将联合状态、动作、奖励以及下一时刻的状态[x，a，r，x
′
]存储到经验池d中用于后续训练，x＝[s1，s2...s
n
]表示观测向量，即状态，a＝[a1，a2...a
n
]表示动作，r＝[r1，r2...r
n
]表示奖励，x
′
＝[s
′1，s
′2...s
′
n
]表示下一时刻的状态。
[0027]
步骤4.2)当经验池d中的样本达到一定数量后，从经验池d中采样批次数据进行网络训练，将状态s
i
输入到第i个智能体的actor估计网络中，得到动作a
i
以及奖励r
i
，然后将x和a输入到critic估计网络中，得到当前时刻的估计状态
‑
动作函数，即估计q函数，将下一时刻的状态s
′
i
输入到actor目标网络，得到下一时刻的动作a
′
i
，将x
′
和a
′
输入到critic目标网络中，得到目标q函数y
i
，再利用最小化loss函数，更新critic估计网络，由于critic网络有估计和目标两个网络，表示critic目标网络输出的q值，μ
′
＝[μ
′1，μ
′2...μ
′
n
]为目标策略具有滞后更新的参数θ
′
j
；
[0028]
步骤4.3)智能体根据确定性策略梯度和critic估计网络中得到的q函数，来更新actor估计网络，针对第i个智能体的累计期望奖励j(μ
i
)，策略梯度表示为
[0029]
步骤4.4)重复步骤4.2)、步骤4.3)，每隔一定迭代次数，通过软更新的方法更新actor目标网络和critic目标网络中的参数；
[0030]
直到设定迭代次数，网络训练好以后，只需要将当前时刻的状态s
t
输入到actor网络中，输出动作a
t
，得到当前时刻的最优资源分配方案，使移动设备用户能效最优化。当网络状态发生改变，只需要重新输入新的状态到actor网络中，即可得到新的分配方案。
[0031]
有益效果：与现有技术相比，本发明的基于noma
‑
mec强化学习资源分配与任务卸载方法，把网络系统中的每个移动设备都看做独立的智能体，采用基于actor
‑
critic网络结构的maddpg方法，让每个移动设备都能学习到合适的策略，以达到最小化时延与能耗，移动设备采用noma技术和强化学习框架，通过对随机到达的任务和有限的子载波信道资源进行合理智能的分配，以得到最优策略。该发明有效地解决了移动设备中存在的任务量巨大的问题，同时降低整个通信过程中的时延，并在不同环境下得到最佳的资源分配方式，提高了信道资源利用效率。
附图说明
[0032]
图1为系统模型图；
[0033]
图2为本发明的步骤示意图；
[0034]
图3为maddpg框图。
具体实施方式
[0035]
以下结合具体实施方式对本发明做进一步的说明。
[0036]
假设在整个网络中共有n个移动设备，其中每个移动设备都有相应的任务要执行。每个移动设备可以选择载波信道将任务卸载到mec服务器，以有效提高系统的频谱利用效
率。为了减少干扰，并且实现卸载时延最小化，我们采用基于noma
‑
mec环境的分布式强化学习算法解决子载波信道和任务卸载的联合资源分配问题。随着训练的进行，每个智能体的策略都在变化，并且从任何单个智能体的角度来看，环境都变得不稳定，另一方面，当需要多个智能体协调时，策略梯度方法通常表现出很大的方差。并阻止了过去经验重放的直接使用，传统的强化学习方法(例如q学习或策略梯度)不适用于多智能体环境，所以本发明采用了maddpg算法，利用其集中式训练，分布式执行的思想，每个移动设备仅根据自身观察到的环境进行资源分配。
[0037]
由于每个智能体都是在不断学习改进其策略，因此从每一个智能体的角度看，环境是动态不稳定的，就无法直接使用经验回放等关键技巧。在此，本发明把网络系统中的每个移动设备都看做独立的智能体，采用基于actor
‑
critic网络结构的maddpg方法，让每个移动设备都能学习到合适的策略，以达到最小化时延与能耗。
[0038]
步骤1.设定网络中，共有n个移动设备(智能体)，表示为{1，2...，n，...，n}，n≤n；共有m个子信道，表示为{1，2...，m，...，m}，m≤m；移动设备的任务表示为{t1，t2...，t
n
，...，t
n
}，共有t
n
个任务；
[0039]
步骤2.采用noma技术，建立任务卸载和资源分配联合优化模型。针对网络中所有移动设备的载波信道分配和任务卸载建立联合优化模型；
[0040]
步骤3.将联合优化模型转化为马尔科夫决策过程模型，设定马尔科夫决策过程中的状态、动作和奖励；
[0041]
步骤4.通过maddpg算法训练学习网络，训练的目标是最小化移动设备的时延，结果得到最优的联合子载波信道分配和任务卸载策略。
[0042]
实施例
[0043]
本发明所述系统模型图如图1所示，主要由一个集成了mec服务器的基站以及n个移动设备组成。下面对技术方案的实施作进一步的详细描述。
[0044]
本发明具体的实施步骤如下：
[0045]
步骤1、设定网络中，共有n个移动设备(智能体)，表示为{1，2...，n，...，n}；共有m个子信道，表示为{1，2...，m，...，m}；移动设备的任务表示为{t1，t2...，t
n
，...，t
n
}，共有t
n
个任务。
[0046]
步骤2、采用noma技术，建立任务卸载和资源分配联合优化模型。
[0047]
采用noma方式将移动设备接入到网络中，一条子信道可被多个移动设备占用，对于子信道m，其叠加的信号为x
m
；在系统接收端，第n个移动设备的用户在子信道m的接收信号为yn，
m
；对于接收信号，按照信号功率进行大小排序，假设第n个移动设备的功率最强，首先对第n个移动设备进行解码，输出x
n
，恢复第n个移动设备的信号估计值，并从接收信号中减去第n个移动设备的估计值，得到剩下用户的信号，按照功率依次执行相同的操作，完成对所有移动设备的信号解码，解码后得到信噪比。
[0048]
利用香农公式求noma方式下第n个移动设备用户在子信道m上的最大信息速率r
n，m
。
[0049]
用户n通过子信道m上传任务到mec服务器进行任务卸载的总延迟为：
[0050]
[0051]
式中，c
k
为mec服务器的计算能力，r
n
为mec服务器计算后的结果数据；
[0052]
用户n在本地计算的延迟为：
[0053][0054]
式中，f
n
移动用户的计算能力。
[0055]
步骤3、将联合优化模型转化为马尔科夫决策过程模型，设定马尔科夫决策过程中的状态、动作和奖励。
[0056]
初始化各参数，a
n
是移动设备n的动作，表示为a
n
＝{d
n
，c
n
}，其中d
n
为[0，1]之间的连续值，0表示移动设备n进行本地计算，1表示移动设备n将任务全部卸载到mec服务器；c
n
∈{0，1...，m}表示移动设备n对m个子载波信道进行选择；
[0057]
s
n
为移动设备n的状态，表示为s
n
＝{x
n
，x
n
，g
m
}，其中x
n
∈{0，1}，0表示子载波信道处于空闲状态，1表示子载波信道处于忙碌状态，x
n
表示卸载任务的数据大小，g
m
表示子信道的信道信息；
[0058]
r
n
是奖励函数，定义为系统时延的负值，表示为r
n
＝
‑
ee(d
n
，c
n
)。
[0059]
步骤4、通过maddpg算法训练学习网络，训练的目标是最小化移动设备的时延，结果得到最优的联合子载波信道分配和任务卸载策略。
[0060]
步骤(1)采用maddpg算法进行移动设备用户网络更新，每个移动设备用户包含actor网络和critic网络，actor网络和critic网络拥有各自的估计网络和目标网络，其框图如图3所示，θ＝[θ1，θ2...θ
n
]表示n个智能体策略的参数，对于得到的状态s
i
，每个智能体根据actor网络的确定性策略产生一个动作a
i
，同时得到即时奖励r
i
，进入下一状态s
′
i
，将联合状态、动作、奖励以及下一时刻的状态[x，a，r，x
′
]存储到经验池d中用于后续训练，x＝[s1，s2...s
n
]表示观测向量，即状态，a＝[a1，a2...a
n
]表示动作，r＝[r1，r2...r
n
]表示奖励，x
′
＝[s
′1，s
′2...s
′
n
]表示下一时刻的状态。
[0061]
步骤(2)当经验池d中的样本达到一定数量后，从经验池d中采样批次数据进行网络训练，将状态s
i
输入到第i个智能体的actor估计网络中，得到动作a
i
以及奖励r
i
，然后将x和a输入到critic估计网络中，得到当前时刻的估计状态
‑
动作函数，即估计q函数，将下一时刻的状态s
′
i
输入到actor目标网络，得到下一时刻的动作a
′
i
，将x
′
和a
′
输入到critic目标网络中，得到目标q函数y
i
，再利用最小化loss函数，更新critic估计网络，由于critic网络有估计和目标两个网络，表示critic目标网络输出的q值，μ
′
＝[μ
′1，μ
′2...μ
′
n
]为目标策略具有滞后更新的参数θ
′
j
。
[0062]
步骤(3)智能体根据确定性策略梯度和critic估计网络中得到的q函数，来更新actor估计网络，针对第i个智能体的累计期望奖励j(μ
i
)，策略梯度表示为θ
i
j(μ
i
)。
[0063]
步骤(4)重复步骤(2).(3)，每隔一定迭代次数，通过软更新的方法更新actor目标网络和critic目标网络中的参数。
[0064]
直到设定迭代次数，网络训练好以后，只需要将当前时刻的状态s
t
输入到actor网络中，输出动作a
t
，得到当前时刻的最优资源分配方案，使移动设备用户能效最优化。当网络状态发生改变，只需要重新输入新的状态到actor网络中，即可得到新的分配方案。
[0065]
此实例只是为了说明此发明中移动设备的信道分配和任务卸载使得系统延迟最
小化的过程，并非约束此发明数据参数。
[0066]
下面以一实例具体的讲述采用noma技术，基于maddpg的任务卸载和资源分配方案的过程。具体实现步骤如下：
[0067]
步骤1、设定网络中，共有10个移动设备(智能体)，共有5个子信道，移动设备的任务表示为{t1，t2...，t
n
，...，t
n
}，共有t
n
个任务。
[0068]
步骤2、采用noma技术，建立任务卸载和资源分配联合优化模型。
[0069]
采用noma方式将移动设备接入到网络中，一条子信道可被多个移动设备占用，对于子信道m，其叠加的信号为x
m
；在系统接收端，任一用户n在子信道m的接收信号为y
n，m
；对于接收信号，按照信号功率进行大小排序，假设第n个移动设备的功率最强，首先对第n个移动设备进行解码，输出x
n
，恢复第n个移动设备的信号估计值，并从接收信号中减去第n个移动设备的估计值，得到剩下用户的信号，按照功率依次执行相同的操作，完成对所有移动设备的信号解码，解码后得到信噪比。
[0070]
利用香农公式求noma方式下第n个移动设备用户在子信道m上的最大信息速率r
n，m
；
[0071]
第n个移动设备的用户通过子信道m上传任务到mec服务器进行任务卸载的总延迟为：
[0072][0073]
式中，c
k
为mec服务器的计算能力，r
n
为mec服务器计算后的结果数据；第n个移动设备的用户在本地计算的延迟为：
[0074][0075]
式中，f
n
移动用户的计算能力。
[0076]
步骤3、将联合优化模型转化为马尔科夫决策过程模型，设定马尔科夫决策过程中的状态、动作和奖励。
[0077]
更具体的，分别将10个移动设备看做智能体，a
n
是移动设备n的动作，表示为a
n
＝{d
n
，c
n
}，其中d
n
为[0，1]之间的连续值，0表示移动设备n进行本地计算，1表示移动设备n将任务全部卸载到mec服务器；c
n
∈{0，1...，m}表示移动设备n对m个子载波信道进行选择；
[0078]
s
n
为移动设备n的状态，表示为s
n
＝{x
n
，x
n
，g
m
}，其中x
n
∈{0，1}表示子载波信道处于空闲/忙碌状态，x
n
表示卸载任务的数据大小，g
m
表示子信道的信道信息；
[0079]
r是奖励函数，定义为系统时延的负值，表示为r
n
＝
‑
ee(d
n
，c
n
)。
[0080]
步骤4、通过maddpg算法训练学习网络，训练的目标是最小化移动设备的时延，结果得到最优的联合子载波信道分配和任务卸载策略。
[0081]
步骤(1)采用maddpg算法进行移动设备用户网络更新，每个移动设备用户包含actor网络和critic网络，actor网络和critic网络拥有各自的估计网络和目标网络，其框图如图3所示，θ＝[θ1，θ2...θ
n
]，θ
n
表示第n个移动设备用户的策略参数，对于得到的状态s
i
，每个智能体根据actor网络的确定性策略产生一个动作a
i
，同时得到即时奖励r
i
，进入下一状态s
′
i
，将联合状态、动作、奖励以及下一时刻的状态[x，a，r，x
′
]存储到经验池d中用于后续训练，x＝[s1，s2...s
n
]表示观测向量，即状态，a＝[a1，a2...a
n
]表示动作，r＝[r1，
r2...r
n
]表示奖励，x
′
＝[s
′1，s
′2...s
′
n
]表示下一时刻的状态。
[0082]
步骤(2)当经验池d中的样本达到400个后，从经验池d中采样批次数据进行网络训练，将状态s
i
输入到第i个智能体的actor估计网络中，得到动作a
i
以及奖励r
i
，然后将x和a输入到critic估计网络中，得到当前时刻的估计状态
‑
动作函数，即估计q函数，将下一时刻的状态s
′
i
输入到actor目标网络，得到下一时刻的动作a
′
i
，将x
′
和a
′
输入到critic目标网络中，得到目标q函数y
i
，再利用最小化loss函数，更新critic估计网络，由于critic网络有估计和目标两个网络，表示critic目标网络输出的q值，μ
′
＝[μ
′1，μ
′2...μ
′
n
]为目标策略具有滞后更新的参数θ
′
j
。
[0083]
步骤(3)智能体根据确定性策略梯度和critic估计网络中得到的q函数，来更新actor估计网络，针对第i个智能体的累计期望奖励j(μ
i
)，策略梯度表示为θ
i
j(μ
i
)。
[0084]
步骤(4)重复步骤(2)、(3)，每隔100次迭代，通过软更新的方法更新actor目标网络和critic目标网络中的参数。
[0085]
直到2000迭代次数，网络训练好以后，只需要将当前时刻的状态s
t
输入到actor网络中，输出动作a
t
，得到当前时刻的最优资源分配方案，使移动设备用户能效最优化。当网络状态发生改变，只需要重新输入新的状态到actor网络中，即可得到新的分配方案。
[0086]
此实例只是为了说明此发明中移动设备的信道分配和任务卸载使得系统延迟最小化的过程，并非约束此发明数据参数。
[0087]
以上所述仅是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以作出若干改进和变型，这些改进和变型也应该视为本发明保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于FPGA的高速图像采集系统的制作方法

基于NOMA-MEC强化学习资源分配与任务卸载方法与流程

相关文献

最热文献