一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种5G切片资源调度方法

2022-05-21 09:24:15 来源:中国专利 TAG:

一种5g切片资源调度方法
技术领域
1.本发明涉及移动通信技术领域,尤其涉及一种5g切片资源调度方法。


背景技术:

2.网络切片作为5g(5th generation mobile communication technology,第五代移动通信技术)的关键技术之一,它能够在共享物理网络设施的基础上创建并维护多个定制的独立的逻辑网络,针对5g不同类型的应用场景定制专用网络切片的形式提高了网络的异构性、灵活性、可伸缩性、盈利性和未来网络服务的安全性。
3.目前,大部分的5g切片调度方法采用离散粒子群算法或者遗传算法实现算法优化。但是面对海量用户的请求下,采用上述的算法计算切片资源分配存在决策时间过长、效率低的问题。


技术实现要素:

4.针对上述问题,本发明的目的在于提供一种5g切片资源调度方法,其能有效提升切片资源调度的效率,实现切片资源管理策略的高效调整。
5.本发明实施例提供了一种5g切片资源调度方法,包括:
6.初始化深度强化网络的记忆池和学习参数;其中,所述记忆池包括网络状态、动作、奖励值和下一网络状态;所述动作表示5g切片资源分配策略;
7.将采集到的5g切片资源的历史分配数据馈入到所述深度神经网络进行强化学习,并将每一次学习得到的网络状态、动作、奖励值和下一网络状态组成一个四元组;
8.随机抽取若干个所述四元组馈入到神经网络进行训练,得到切片资源分配模型;
9.响应于接收到的终端业务请求,基于所述切片资源分配模型进行5g切片资源分配。
10.作为上述方案的改进,所述方法还包括:
11.根据预设的终端能耗模型和边缘节点能耗模型,构建目标函数;
12.根据所述目标函数,确定奖励函数;
13.根据所述奖励函数,计算不同网络状态下的奖励值。
14.作为上述方案的改进,所述终端能耗模型为:
[0015][0016]
其中,ec表示终端处理部分任务所消耗的能耗,tc表示终端处理部分任务的能耗,di表示任务i的计算量,xi表示任务i的卸载决策变量,fc表示终端的计算能力;pc表示终端处理任务的功率;e
tran
表示终端的其余能耗,p
t
表示终端的数据发送功率;li表示任务i的数据量;r
mec
表示终端发送给边缘节点的速率;t
mec
表示任务的处理时间,fmec
表示边缘节点的计算能力,n表示终端的任务数量;pw表示终端的空闲功率。
[0017]
作为上述方案的改进,所述边缘节点能耗模型为:
[0018]emec
=t
mec
×
p
mec

[0019]
其中,p
mec
表示边缘节点处理任务的功率。
[0020]
作为上述方案的改进,所述目标函数为:
[0021][0022]
其中,k表示单个用户的任务总数量,j表示用户总数量;
[0023]
所述目标函数满足以下约束条件:
[0024][0025]
其中,t
kj
表示用户j的第k个任务的处理时间,表示对应业务类型的最大时延;表示卸载到第u个边缘节点的计算量,u表示边缘节点的数量,表示第u个边缘节点的最大计算量;表示卸载到第u个边缘节点的数据量,表示第i个边缘节点的最大存储量。
[0026]
作为上述方案的改进,所述激励函数为:
[0027][0028]
其中,x
kj
=0表示用户j的第k个任务在终端执行,x
kj
=1表示用户j的第k个任务全部卸载到边缘节点的切片中,x
kj
在0-1之间,表示用户j的第k个部分卸载倒服务器上。
[0029]
作为上述方案的改进,所述网络状态包括:边缘节点的当前计算量、边缘节点的当前存储量、边缘节点的当前极端能量以及任务卸载决策变量。
[0030]
作为上述方案的改进,所述将采集到的5g切片资源的历史分配数据馈入到所述深度神经网络进行强化学习,并将每一次学习得到的网络状态、动作、奖励值和下一网络状态组成一个四元组,包括:
[0031]
将所述历史分配数据划分为若干组批量数据;
[0032]
将各组所述批量数据依次馈入到所述深度神经网络进行强化学习,得到各组所述批量数据对应的网络状态、动作、奖励值和下一网络状态;
[0033]
其中,每一组所述批量数据对应的网络状态、动作、奖励值和下一网络状态组成一个四元组。
[0034]
作为上述方案的改进,所述随机抽取若干个所述四元组馈入到神经网络进行训练,得到切片资源分配模型,包括:
[0035]
随机抽取若干个所述四元组馈入到神经网络进行训练,以更新所述神经网络的学习参数,并对所述四元组中的奖励值进行自回归,得到切片资源分配模型;
[0036]
对所述切片资源分配模型的学习参数进行梯度更新。
[0037]
作为上述方案的改进,所述对所述切片资源分配模型的学习参数进行梯度更新,包括:
[0038]
根据公式(ⅰ)计算所述学习参数的更新梯度;
[0039][0040]
其中,e表示设定的常数,δf(θm)表示第m次迭代时的学习参数,θm表示在当前四元组训练下的平均梯度;
[0041]
计算所述切片资源分配模型的当前学习参数和所述更新梯度的加和,得到更新后的学习参数。
[0042]
相对于现有技术,本发明实施例的有益效果在于:通过初始化深度强化网络的记忆池和学习参数;其中,所述记忆池包括网络状态、动作、奖励值和下一网络状态;所述动作表示5g切片资源分配策略;将采集到的5g切片资源的历史分配数据馈入到所述深度神经网络进行强化学习,并将每一次学习得到的网络状态、动作、奖励值和下一网络状态组成一个四元组;随机抽取若干个所述四元组馈入到神经网络进行训练,得到切片资源分配模型;响应于接收到的终端业务请求,基于所述切片资源分配模型进行5g切片资源分配;本发明基于深度强化学习构建四元组,并通过随机抽取若干个所述四元组馈入到神经网络进行训练,实现采用有限样本进行模型快速训练,从而大大降低了海量用户多种通信场景的切片资源分配模型计算的复杂度,有效缩短切片资源分配的决策时长,提升切片资源分配效率。
附图说明
[0043]
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]
图1是本发明实施例提供的一种5g切片资源调度方法的流程图;
[0045]
图2是本发明实施例提供的模型深度强化学习的流程图。
具体实施方式
[0046]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
请参阅图1,其是本发明实施例提供的一种5g切片资源调度方法的流程图,所述5g切片资源调度方法,包括:
[0048]
s1:初始化深度强化网络的记忆池和学习参数;其中,所述记忆池包括网络状态、动作、奖励值和下一网络状态;所述动作表示5g切片资源分配策略;
[0049]
在初始化深度强化网络前,可以预先构建系统模型,具体包括:
[0050]
终端能耗模型为:
[0051][0052]
其中,ec表示终端处理部分任务所消耗的能耗,tc表示终端处理部分任务的能耗,di表示任务i的计算量,xi表示任务i的卸载决策变量,fc表示终端的计算能力;pc表示终端处理任务的功率;e
tran
表示终端的其余能耗,p
t
表示终端的数据发送功率;li表示任务i的数据量;r
mec
表示终端发送给边缘节点的速率;t
mec
表示任务的处理时间,f
mec
表示边缘节点的计算能力,n表示终端的任务数量;pw表示终端的空闲功率。
[0053]
边缘节点能耗模型为:
[0054]emec
=t
mec
×
p
mec
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0055]
其中,p
mec
表示边缘节点处理任务的功率。
[0056]
假设任务i有部分在边缘节点(边缘节点有划分切片)执行时,此时终端在对任务分割的基础上,考虑任务之间的依赖性,终端以下任务处理的逻辑:如果终端有先序任务处理,则将先序任务处理完毕,然后再将先序任务处理的结果以及后面的任务发送给边缘节点,然后边缘节点把处理的任务结果返回终端侧,此时,整个系统的能耗包括终端处理部分任务的能耗ec、终端发送数据到边缘节点的能耗终端等待边缘节点的空闲能耗t
mec
×
pw、边缘节点处理部分任务的能耗e
mec
以及边缘节点返回结果到终端的能耗。由于边缘节点返回结果到终端的能耗很小,因此在本发明实施例中忽略不计。假设卸载决策变量为xi,如果xi=1,表示任务全部卸载到边缘节点的切片中,如果xi=0,表示任务在终端执行,xi在0-1之间,表示终端的任务部分卸载倒服务器上,是一个连续的变量。此时,终端能耗主要由数据从终端发送能耗和终端的空闲能耗两部分组成。
[0057]
根据所述终端能耗模型和所述边缘节点能耗模型,构建目标函数:
[0058][0059]
其中,k表示单个用户的任务总数量,j表示用户总数量;
[0060]
所述目标函数满足以下约束条件:
[0061][0062]
其中,t
kj
表示用户j的第k个任务的处理时间,表示对应业务类型的最大时延;表示卸载到第u个边缘节点的计算量,u表示边缘节点的数量,表示第u个边缘节点的最大计算量;表示卸载到第u个边缘节点的数据量,表示第i个边缘节点的最大存储量。
[0063]
在本发明实施例中设定目标函数是系统的总能耗最小,也就是通过对所有用户的终端处理的任务和卸载到边缘节点的任务能耗之和最小,实现切片资源的分配。
[0064]
根据所述目标函数,确定奖励函数:
[0065][0066]
其中,x
kj
=0表示用户j的第k个任务在终端执行,x
kj
=1表示用户j的第k个任务全部卸载到边缘节点的切片中,x
kj
在0-1之间,表示用户j的第k个部分卸载倒服务器上。
[0067]
根据所述奖励函数,计算不同网络状态下的奖励值。
[0068]
在本发明实施例中,定义了四元组,包括:
[0069]
网络状态s
t
,包括边缘节点的当前计算量c
uj
、边缘节点的当前存储量m
uj
、边缘节点的当前jisuan能量f
mec
以及任务卸载决策变量x
uj

[0070]
动作集合a
t
,表示整个系统的动态切片资源分配策略;
[0071]
奖励函数r
t
,考虑到在本发明实施例中系统能耗最小,那么r
t
表示为当任务卸载决策变量x
kj
为0的能耗与总能耗之比,参见上述公式(5);
[0072]
下一网络状态s
t 1

[0073]
则基于上述公式(5)可以计算出不同网络状态s
t
下的奖励值。
[0074]
初始化记忆池由网络状态、动作、奖励值以及下一网络状态组成,例如采用系统当前的网络状态和对应当前执行的动作、当前的奖励值以及下一网络状态初始化记忆池。
[0075]
s2:将采集到的5g切片资源的历史分配数据馈入到所述深度神经网络进行强化学习,并将每一次学习得到的网络状态、动作、奖励值和下一网络状态组成一个四元组;
[0076]
进一步,所述将采集到的5g切片资源的历史分配数据馈入到所述深度神经网络进行强化学习,并将每一次学习得到的网络状态、动作、奖励值和下一网络状态组成一个四元组,包括:
[0077]
将所述历史分配数据划分为若干组批量数据;
[0078]
将各组所述批量数据依次馈入到所述深度神经网络进行强化学习,得到各组所述批量数据对应的网络状态、动作、奖励值和下一网络状态;
[0079]
其中,每一组所述批量数据对应的网络状态、动作、奖励值和下一网络状态组成一个四元组。
[0080]
在本发明实施例中,对采集到的5g切片资源的历史分配数据划分mini-batch,得到若干组小批量的批量数据,然后以一组批量数据为一个样本馈入到深度强化学习网络中进行强化学习,基于当前网络状态和学习率进行动作选择,并将学习得到的网络状态、动作、奖励值以及下一个网络状态组成的一个四元组存入数据库中,从而可以得到与批量数据数量相等的若干个四元组。对于海量用户接入时决策空间中实现优化求解是一个高复杂度的行为的问题,本发明实施例采用深度强化学习算法实现有限样本的搜索实现优化决策的逼近,适用多种多样的通信场景。
[0081]
s3:随机抽取若干个所述四元组馈入到神经网络进行训练,得到切片资源分配模型;
[0082]
进一步,所述随机抽取若干个所述四元组馈入到神经网络进行训练,得到切片资源分配模型,包括:
[0083]
随机抽取若干个所述四元组馈入到神经网络进行训练,以更新所述神经网络的学习参数,并对所述四元组中的奖励值进行自回归,得到切片资源分配模型;
[0084]
对所述切片资源分配模型的学习参数进行梯度更新。
[0085]
在本发明实施例中,所述神经网络的学习参数等于步骤s1中初始化后的学习参数,随机抽取d个四元组,输入到神经网络进行训练,从而不断更新神经网络的学习参数以降低损失,判断所述神经网络是否满足算法结束条件,例如误差小于5%、或者损失函数达到设定的停止条件,并执行奖励值的自回归,具体的,当所述神经网络满足算法结束条件,所述神经网络的输出yb=rb,否则,所述神经网络的输出yb=rb γmaxq(sb,ab;θ),其中,b=1,2,...,t,γ为设定常数。然后计算所述神经网络的损失函数,如果损失函数达到神经网络设定的停止条件,那么算法结束,否则,模型继续迭代。通过自适应梯度算法更新所述神经网络的学习参数,通过对梯度实现自适应优化,以实现训练模型的快速收敛,提高模型精度。
[0086]
s4:响应于接收到的终端业务请求,基于所述切片资源分配模型进行5g切片资源分配。
[0087]
在本发明实施例中,基于深度强化学习构建四元组,并通过随机抽取若干个所述四元组馈入到神经网络进行训练,实现采用有限样本进行模型快速序列,从而大大降低了海量用户多种通信场景的切片资源分配模型计算的复杂度,有效缩短切片资源分配的决策时长,提升切片资源分配效率。
[0088]
在一种可选的实施例中,考虑到梯度的学习是基于前面有限个梯度优化的步骤,因此,在梯度学习中,梯度的变化需要积累有限个梯度(m-1),则,所述对所述切片资源分配模型的学习参数进行梯度更新,包括:
[0089]
根据公式(ⅰ)计算所述学习参数的更新梯度;
[0090][0091]
其中,e表示设定的常数,δf(θm)表示第m次迭代时的学习参数,θm表示在当前四元组训练下的平均梯度;
[0092]
计算所述切片资源分配模型的当前学习参数和所述更新梯度的加和,得到更新后
的学习参数。
[0093]
θ
t 1
=θ
t
δθ
t
ꢀꢀꢀꢀꢀ
(ⅱ)
[0094]
在本发明实施例中,采用有限个梯度的累积平方和,可以实现在学习初期,梯度学习率较大,在后期,梯度学习率会很小,为了放置分母为0,本发明实施例采用e常数作为调节,使得在神经网络的训练后期,梯度会在最优状态附近震荡,保证损失函数收敛到一个最优值,模型的深度强化学习的详细流程可以见参见图2所示。
[0095]
相对于现有技术,本发明实施例的有益效果在于:
[0096]
1、通过随机抽取若干个所述四元组馈入到神经网络进行训练,实现采用有限样本进行模型快速训练,从而大大降低了海量用户多种通信场景的切片资源分配模型计算的复杂度,有效缩短切片资源分配的决策时长,提升切片资源分配效率。
[0097]
2、采用有限个梯度的累积平方和,可以实现在学习初期,梯度学习率较大,在后期,梯度学习率会很小,为了放置分母为0,本发明实施例采用e常数作为调节,使得在神经网络的训练后期,梯度会在最优状态附近震荡,保证损失函数收敛到一个最优值,提高模型精度。
[0098]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献