一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种具有eMBB和URLLC混合服务的异构网络资源切片方法

2022-04-14 01:39:42 来源:中国专利 TAG:

一种具有embb和urllc混合服务的异构网络资源切片方法
技术领域
1.本发明属于移动通信技术领域,具体涉及一种具有embb和urllc混合服务的异构网络资源切片方法。


背景技术:

2.随着移动网络数据的爆炸式增长,第五代移动通信技术已经发展成熟,可以满足多种服务需求。第五代移动通信网络中最具典型的服务类型有:增强型移动宽带(embb),大规模机器类型通信(mmtc),超可靠和低延迟通信(urllc)服务。5g网络以切片的方式为上述三种类型的用户提供资源。进行切片时,基站能够根据用户服务类型的动态需求按需调整资源的分配,可以适应不同的网络状态。对网络资源进行切片可以实现5g网络数据分流管理和资源的灵活分配,也是实现5g网络高数据传输速率、低时延和大容量所必要的。
3.由于网络通信量的激烈增长和设备的密集化,在不同服务类型之间的资源调度分配中存在着多种问题,也面临着巨大的挑战。以5g网络中两种典型的主流服务embb和urllc为例,一个区域中的视频流embb服务需要在其传输时间间隔内保证带宽资源才能有足够高且稳定的图像或语音内容质量。而urllc服务具有超低时延和高可靠性的特性要求,如果同一区域中urllc流量突然增加,它将迅速占据这些带宽资源来达到其所需的传输速率,从而获得超低时延性能。但是满足urllc的性能要求是以牺牲embb服务质量为代价的。
4.所以,对于具有embb和urllc混合服务的异构网络,亟需一种方法来进行网络切片,保障资源的合理调度分配,在保证urllc超低时延和高可靠性的前提下,也不牺牲embb服务质量。


技术实现要素:

5.本发明提出了一种具有embb和urllc混合服务的异构网络资源切片方法,从带宽分配的角度出发,引入基于dqn算法,对具有embb和urllc混合服务的异构网络资源切片,对5g异构融合网络中的带宽进行合理分配。
6.为了实现上述目的,本发明采用如下技术方案:一种基于dqn的异构融合网络资源切片方法,包括如下步骤:s1.在5g异构融合网络区域内,构建由基站和基站用户组成的异构融合网络模型;s2.根据异构融合网络模型建立最大化效用函数;s3.采用dqn算法,对具有embb和urllc混合服务的异构网络资源切片,得到最佳资源调度分配方案。
7.进一步地,在构建的异构融合网络模型中,有s个基站,共存在{1,

,n}的网络切片列表,所有切片共享聚合带宽w;用户集u中包含m个用户{u1,u2,

,um},其中有m1个embb用户和m2个urllc用户;用户服务集o中包含embb和urllc两种服务;在当前时隙不同服务类型的用户向基站请求资源时,基站将带宽资源块按需分配给各切片上的用户;考虑网络切片未服务的用户的下行链路,令为网络切片n上任一服务的用户下行链路传输速率;
其中,令和分别为embb和urllc数据包的传输速率;令代表基站为任一切片分配的带宽;其中,令和分别代表基站为embb切片和urllc切片分配的带宽;令为任一切片数据包传输数量;其中,令和分别为embb切片和urllc切片的数据包传输数量。
8.进一步地,所述方法的异构融合网络模型设有智能代理,智能代理及时获得环境中embb和urllc需求的变化和前一时隙基站中资源分配情况;在当前时隙不同服务类型的用户向基站请求资源时,智能代理通过与环境交互获得观测值形成状态并根据策略选择最佳动作值;基站根据智能代理的策略为用户分配带宽资源;同时,智能代理根据奖励机制形成reward并根据环境变化获得新的状态;最后通过dqn的迭代训练,基站找到最佳的带宽资源分配方案。
9.进一步地,步骤s2的具体过程为:s201.计算网络切片n上任一服务的用户下行链路:
ꢀꢀ
(1)其中,是捕获从基站到用户的路径损耗和阴影的平均信道增益,是基站发射功率,是单侧噪声频谱密度;s202.由shannon理论得到网络切片未服务的用户的下行链路传输速率:
ꢀꢀ
(2)其中,o代表embb和urllc的用户服务集,o代表embb和urllc两种服务的任意一种,n代表网络切片总数,n代表任一切片且;s203.计算传输速率的频谱效率se:
ꢀꢀ
(3)s204.令表示embb和urllc服务集中任一服务数据包的传输数量,定义, 时代表成功传输数据包,时代表丢失数据包;分别将embb和urllc用户数据包的丢包率定义为每种服务的用户体验质量qoe,如下:
ꢀꢀ
(4)s205.为每个切片分配带宽资源块来最大化模型效用函数f,该函数定义为不同服务的切片的se和qoe的加权和;网络切片中的带宽分配问题定义如下:(5)其中,网络切片中的带宽分配问题满足的条件如下: (6)
ꢀꢀ
(7)
ꢀꢀꢀ
(8)
ꢀꢀ
(9)其中,和表示se和qoe的相对重要性;、分别是5g场景下embb和urllc服务传输速率技术指标。
10.进一步地,步骤s3的具体过程为:s301.基站随机选择分配方案将带宽资源分配给embb和urllc用户,并按照设置的调度原则进行带宽资源块的调用,结束调度后计算embb和urllc数据包的传输数量作为初始状态;s302.基于dqn算法进行迭代训练,每一次迭代都进行如下操作:基站根据dqn中的策略选择一个带宽分配动作,之后执行调度;按照公式(5)计算出模型的效用函数,同时根据奖励机制计算奖励函数reward;再次计算embb和urllc数据包的传输数量作为下一状态;将输入dqn进行训练,a是当前动作,r是奖励值;s303.经过预定次数的迭代,最终训练出了性能良好的值函数网络,从而得到最佳的带宽资源分配方案。
11.进一步地,dqn算法的网络参数训练流程如下:
首先,代理在与环境交互中得到,利用经验重放机制将transition存入样本池中,之后在样本池中抽取最小单位的transition进行训练;其次,dqn使用评估q网络和目标q网络两个带有参数的神经网络估计q值,并且令表示具有参数的值函数;另外,dqn每c次迭代通过重置将网络参数克隆到目标网络中,有效化agent网络的参数更新过程;目标网络的目标q值为:
ꢀꢀ
(16)其中,r代表奖励值;代表折现因子,为大于0小于1的值;代表状态空间的下一状态;代表动作空间的下一动作;为采样的神经网络参数;同时,dqn中定义的损失函数为:
ꢀꢀ
(17)其中,e代表期望值;s代表状态空间的当前状态;a代表动作空间的当前动作;为神经网络参数;dqn值函数的更新不是直接更新q值表,而是更新神经网络的参数;利用最小化td误差平方来获得最佳参数,公式如下:
ꢀꢀ
(18)其中,为目标值与当前值偏差的平方;最终,代理对动作值函数进行更新的公式为:
ꢀꢀ
(19)其中,为dqn网络目标值与当前值偏差的权重。
12.dqn算法能够在给定状态下根据最佳策略寻找到最佳动作,同时最小化损失函数,并且最大化累计期望奖励reward。
13.进一步地,该方法采用基于dqn的带宽调度分配算法,算法步骤如下:(1)参数初始化;(2)基站按需求将带宽资源分配给embb和urllc用户,并按照设置的调度原则进行带宽资源块的调用;(3)dqn的智能代理在与环境交互中获得状态、动作、奖励;(4)对参数进行迭代训练获得最佳动作;
(5)设定迭代次数,基站根据dqn中的策略获得资源分配的最佳方案。
14.本发明所带来的有益技术效果:本发明从带宽资源分配的角度出发,引入dqn算法,对具有embb和urllc混合服务的异构网络资源切片,从而解决了5g异构融合网络中的带宽分配问题,能够有效的保证embb和urllc服务的用户体验质量qoe和系统的整体效用,有效提升频谱效率se。
附图说明
15.图1为本发明基于dqn的异构融合网络资源切片方法的流程图;图2为本发明中异构融合网络模型的示意图;图3为本发明中基于dqn的带宽分配算法流程图。
具体实施方式
16.下面结合附图以及具体实施方式对本发明作进一步详细说明:如图1所示为本发明的方法框图,包括如下三个过程:在5g异构融合网络区域内,构建由基站和基站用户组成的异构融合网络模型;根据异构融合网络模型建立最大化效用函数;采用dqn算法,对具有embb和urllc混合服务的异构网络资源切片,得到最佳资源调度分配方案。具体表现为:建立由基站和基站用户构成的异构融合网络模型;将具有embb和urllc混合服务的异构网络中的资源分配问题描述为一个非凸优化问题并建立优化函数(即建立模型最大化效用函数),进而对异构网络资源切片,最终得到带宽调度分配的最优解;求解最优解时,采用dqn算法,对dqn网络进行迭代训练,找到使q值最大的带宽分配策略。
17.下面对每一过程作进一步的具体描述。
18.一、构建由基站和基站用户组成的异构融合网络模型。
19.图2为本发明的异构融合网络模型示意图,建立一个由基站和基站用户构成的异构融合网络模型。智能代理可以及时获得环境中embb和urllc需求的变化和前一时隙基站中资源分配情况。在当前时隙,不同服务类型的用户向基站请求资源时,智能代理通过与环境交互获得观测值形成状态并根据策略选择最佳动作值。基站根据智能代理的策略为用户分配带宽资源。同时,智能代理根据奖励机制形成reward并根据环境变化获得新的状态。通过dqn的迭代训练,基站可以找到最佳的带宽资源分配方案。
20.在本异构融合网络模型的场景中,有s个基站bs,共存在{1,

,n}的网络切片列表,所有切片共享聚合带宽w。用户集u中包含m个用户{u1,u2,

,um},其中有m1个embb用户和m2个urllc用户。用户服务集o中主要包含embb和urllc两种服务。在当前时隙不同服务类型的用户向基站请求资源时,基站将带宽资源块按需分配给各切片上的用户。考虑网络切片ns未服务的用户的下行链路,令为网络切片n上任一服务的用户下行链路传输速率。其中,令和分别为embb和urllc数据包的传输速率。令代表基站为任一切片分配的带宽。其中,令和分别代表基站为embb切片和urllc切片分配的带宽。令
为任一切片数据包传输数量。其中,令和分别为embb切片和urllc切片的数据包传输数量。
21.二、根据异构融合网络模型建立最大化效用函数针对小区内embb和urllc多种服务类型之间的带宽资源调度分配问题,本发明旨在通过动态调整为每个切片分配带宽资源块来最大化模型效用函数f,该函数定义为不同服务切片的se和qoe的加权和。分别研究两个子目标:频谱效率se和用户体验质量qoe。
22.网络切片n上任一服务的用户下行链路信噪比如下:(1)其中,是捕获从基站到用户的路径损耗和阴影的平均信道增益,是基站发射功率,是单侧噪声频谱密度。
23.网络切片n上任一服务的用户下行链路传输速率与切片n上的用户所分得的带宽以及信噪比有关。由shannon理论定义可得网络切片ns未服务的用户的下行链路传输速率如下: (2)其中,o是embb和urllc的用户服务集,o代表embb和urllc两种服务的任意一种,n为网络切片总数,n为任一切片且。
24.模型中给定传输速率的频谱效率se如下:(3)由于urllc服务的超低时延和高可靠性的特性要求,当前时隙基站带宽资源不充足时,基站就会将传输embb数据包占用的带宽资源块部分调用给urllc服务,直到满足传输urllc数据包所需的带宽,降低其丢包率。
25.令表示embb和urllc服务集中任一服务数据包的传输数量。定义,时代表成功传输数据包,时代表丢失数据包。分别将embb和urllc用户数据包的丢包率定义为每种服务的用户体验质量qoe,如下:(4)
综上所述,网络切片中的带宽分配问题定义如下:(5)其中,网络切片中的带宽分配问题满足的条件如下: (6)
ꢀꢀ
(7)
ꢀꢀ
(8) (9)其中,和表示se和qoe的相对重要性;、分别是5g场景下embb和urllc服务传输速率技术指标。
26.三、采用dqn算法,对具有embb和urllc混合服务的异构网络资源切片,得到最佳资源调度分配方案。
27.1、dqn算法思想智能代理agent试图通过与环境的不断试错交互产生很多新的数据,然后根据这些数据学习一套策略。该策略能够使代理在给定状态下寻找最佳动作的同时最大化累计期望奖励。代理与环境的交互过程被建模为马尔可夫决策过程,其中和分别为状态空间和动作空间,r为奖励函数,是转移概率,是值为大于0小于1的折现因子。状态空间包含当前状态和下一状态。动作空间包含当前动作和下一动作。策略是将状态映射到动作上的分布。在状态下根据策略得到的状态值函数表示为:
ꢀꢀ
(10)同理,状态下根据策略执行动作得到的动作值函数表示为:
ꢀꢀ
(11)上述两式中的e表示期望值。
28.状态值和下一状态值之间的关系由bellman方程可表示为:
ꢀꢀ
(12)同理,动作值和下一动作值之间的关系由bellman方程表示为:
ꢀꢀ
(13)上述两式中的和可以分别从转移概率和策略推导出来。
29.由于rl的目标是找到对所有的和产生最大的最佳策略,设最佳策略下的动作值函数为。满足以下bellman最优方程:
ꢀꢀꢀ
(14)定义bellman最优算子为:
ꢀꢀ
(15)当时,从任意开始,迭代应用算子导致在时有收敛。最佳策略可以直接通过最大化得到。
30.2、利用基于dqn的资源切片方法对具有embb和urllc混合服务的异构网络进行带宽资源块的分配和调度。
31.(1)基站随机选择分配方案将带宽资源分配给embb和urllc用户,并按照设置的调度原则进行带宽资源块的调用,结束调度后计算embb和urllc数据包的传输数量作为初始状态;(2)基于dqn算法进行迭代训练,每一次迭代都进行如下操作:基站根据dqn中的策略选择一个带宽分配动作,之后执行调度。按照公式(5)计算出系统的效用函数,同时根据频谱效率和qoe的值计算奖励函数reward。再次计算embb和urllc数据包的传输数量作为下一状态。将输入dqn进行训练,r是奖励值。
32.dqn算法网络参数的训练流程如下:首先,代理在与环境交互中得到,利用经验重放机制将transition存入样本池中,之后在样本池中抽取最小单位的transition进行训练。其次,dqn使用评估q网络和目标q网络两个带有参数的神经网络估计q值,并且令表示具有参数的值函数。另外,dqn每c次迭代通过重置将网络参数克隆到目标网络中,这样能够有效化agent网络的参数更新过程。目标网络的目标q值为:
ꢀꢀ
(16)为采样的神经网络参数。
33.同时,dqn中定义的损失函数为:
ꢀꢀ
(17)dqn值函数的更新不是直接更新q值表,而是更新神经网络的参数。利用最小化td误差平方来获得最佳参数,公式如下:
ꢀꢀ
(18)为目标值与当前值偏差的平方。
34.最终,代理对动作值函数进行更新的公式为:
ꢀꢀ
(19)其中,为dqn网络目标值与当前值偏差的权重。
35.(3)经过预定次数的迭代,最终训练出了性能良好的值函数网络,从而可以得到最佳的带宽资源分配方案。
36.dqn算法能够在给定状态下根据最佳策略寻找到最佳动作,同时最小化损失函数并且最大化累计期望奖励reward。
37.上述基于dqn的带宽调度分配算法的伪代码如下:1:参数初始化;2:基站随机选择方案为embb和urllc分配带宽资源;3:调度:4:基站为用户分配剩余带宽资源块;5:未满足需求的urllc用户继续向基站请求资源;6: 基站根据设定的资源调度机制,将embb占用的部分带宽资源块调度给urllc用户;7:计算embb 和 urllc的数据包传输数量,并把它作为当前状态;8:重复9: for k=1到 m,m为迭代次数10:根据dqn的策略选择动作;11:执行调度;12:根据公式(5)计算模型效用函数f;13:根据奖励机制计算奖励;14:计算embb 和 urllc的数据包传输数量,并把它作为后继状态;15: #训练 dqn
16:代理将状态、动作、奖励等输入dqn并存入样本池中;17:代理将transition存入样本池中;18:代理在样本池中抽取最小单位的transitions进行训练;19:设置20:代理对中的网络参数执行梯度下降;21:每c次迭代重置;22: end for23:直到完成预定的最大迭代次数。
38.上述伪代码中,代表本次迭代计算的当前q值;代表本次迭代的当前状态值;代表本次迭代的当前动作值;代表本次迭代计算的奖励;代表本次迭代的下一状态值;代表本次迭代的目标q值;代表本次迭代的下一状态值。
39.如图3所示,该算法主要分为以下几个步骤:(1)参数初始化;(2)基站按需求将带宽资源分配给embb和urllc用户,并按照设置的调度原则进行带宽资源块的调用;(3)dqn的智能代理在与环境交互中获得状态、动作、奖励等;(4)对参数进行迭代训练获得最佳动作;(5)设定迭代次数,基站根据dqn中的策略获得资源分配的最佳方案。
40.当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献