一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的4G与5G网络间动态频谱共享方法与流程

2021-12-17 22:04:00 来源:中国专利 TAG:

基于深度强化学习的4g与5g网络间动态频谱共享方法
技术领域
1.本发明属于移动通信技术领域,具体涉及一种基于深度强化学习的智能型动态频谱共享方法。


背景技术:

2.近年来,随着入网无线设备数量的激增,移动无线通信网络中的数据流量呈指数级增长,迫使移动通信网络向第五代(5g)演进。为了支撑海量数据传输和新兴应用场景,5g网络需要更多的频谱资源作为支持,频谱短缺已成为5g移动通信网络发展亟需解决的关键问题。然而,大量研究表明,在目前固定的频谱分配策略下,大量授权频段利用率很低,在部分地区和时段甚至不足20%,这与5g对频谱的迫切需求形成了强烈的矛盾。因此,如何有效利用有限的频谱资源,解决频谱供需矛盾,已成为移动通信领域的焦点难题。
3.为提高频谱利用效率,频谱共享技术被提出并迅速得到广泛关注,其主要思想是让非授权用户在不影响授权用户正常使用的前提下,机会性地使用空闲的授权频段。该共享理念已在5g频谱部署中得到体现,根据不同网络在不同时段的业务量的不同,动态分配某段频谱共享用于5g服务提供。频谱共享对5g发展具有重大意义,一是利于5g使用4g的低频段实现网络的泛在覆盖,比如2021年初中国移动和中国广电在700mhz频段上对5g业务的共建共享;二是利于4g向5g平滑演进,在5g初期用户数量不多时,可以动态地将频谱资源用于4g用户使用,而当5g用户逐渐增多时,可以为5g网络分配更多的频谱资源。然而,目前频谱共享的实施方案主要是大尺度下的静态共享,即在特定时段和较大区域内对固定频段进行释放和共享,灵活度不高,且仍存在频谱资源浪费现象。因此,更具优势的动态频谱共享技术被提出,旨在根据业务需求的实时变化动态分配频谱资源,从而大幅度提高频谱利用效率。目前关于4g与5g网络频谱动态共享的研究存在以下不足:
4.一、目前提出的动态频谱共享方法大多基于传统的优化理论将问题建成一个全局优化问题,进而得到最优的共享策略。然而,由于网络环境在空间和时间维度上的动态特性,网络中的流量需求等相关信息是不确定的,这使得优化建模和求解十分困难,难以实现。
5.二、动态频谱共享需要根据网络的状态实时调整共享策略,由于实际网络中通常有大量智能设备接入,数据类型多,信息维度大,即使能够通过优化手段得到最优策略,其问题求解的较高复杂度将带来难以容忍的延迟。
6.三、动态共享4g的频谱资源会带来一定的信道容量损失,即降低4g用户的网络速率,影响4g用户体验。因此,在制定共享策略时,需要前瞻地预测4g网络流量需求,在保证4g用户qos(服务质量)的前提下,准确地制定频谱资源共享策略。
7.考虑上述目前研究存在的问题,本发明将基于深度强化学习设计一种以4g网络性能保证为前提,以频谱共享效率为目标的智能型4g与5g网络动态频谱共享方法,令基站可以通过学习网络环境快速制定最优策略。


技术实现要素:

8.本发明的目的是克服目前网络对频谱利用的低效性,为移动通信网络提供一种4g与5g网络之间动态频谱共享方法。在移动通信网络中,不同区域和时段内的流量需求通常不同,且具有一定变化规律,本发明将通过学习不同区域内4g流量需求变化的潜在时间相关性,预测小区的未来4g流量需求,并依此制定相应的频谱共享策略,即将多余的4g频谱用于5g服务提供。
9.本发明的技术方案是基于深度强化学习方法实现4g与5g网络间动态频谱共享。强化学习的主要框架由智能体和环境组成,智能体从环境中获得观测状态,根据状态选择动作,然后得到一个奖励值并进入下一个状态。这个与环境交互的过程称为智能体的一个决策周期,其基本思路是指导智能体在每个状态下去选择一个动作使累积折扣奖励(也被称为q值)最大化。在本发明中,某基站覆盖的区域下的频谱共享决策是周期制定的,在每个决策周期内,基站根据上一个决策周期结束时观测到的该区域的流量需求信息(即环境状态)去执行动作,即制定频谱共享策略,并根据动作结束后的状态去计算奖励值,用于评价该执行动作的好坏。基站会将状态、动作、动作结束后跳转的状态和计算得到的奖励值4组信息包成一个经验元组,存入经验池当中,用于网络训练,使其能够根据动态的环境信息不断地改进决策,以实现对4g闲置频谱的合理、高效利用。
10.本发明的一种基于深度强化学习方法实现4g与5g网络间动态频谱共享方法建立于以下系统环境:
11.考虑一个单基站覆盖的蜂窝网络,网络中包括4g和5g两种类型用户。基站覆盖区域被分为l个子区域,并且基站能够收集每个子区域中4g流量数据信息。基站总带宽为nmhz,分为f个子频带,每个子频带的带宽为b=n/fmhz。基站可调度的最小资源单位定义为资源块,每个资源块包含时间和频率两个维度,时域持续时间为t,频域带宽为b。在本发明中,基站会针对资源块周期地制定共享策略,即在每个决策周期t内决定哪些资源块共享用于5g服务供应。
12.具体步骤如下:
13.(1)基站首先构建两个结构完全相同的神经网络,分别是带有参数θ的q主网络和带有参数的q目标网络。对于任意第t个决策周期,状态定义为基站在上一个决策周期内观测到的各子区域的4g流量数据,记为s
t
={w
1,t
,w
2,t
,...,w
l,t
},并且将其作为q主网络的输入。q主网络的作用是对当前状态s
t
下所有可选的共享策略进行评估,其输出为对各策略的打分,称为q值,对于任意策略a,记为q(s
t
,a;θ)。
14.(2)基站会基于获取的状态信息s
t
制定共享策略a
t
,又称为动作。在本发明中,任意第t个决策周期内基站的动作为a
t
={a
1,t
,a
2,t
,...,a
f,t
},其中a
f,t
={0,1},用于标识各资源块是否被共享,a
f,t
=1表示第f个资源块被共享,否则a
f,t
=0。因此,总的共享资源块数量可以表示为动作的选择基于ε

greedy策略,即以ε
t
概率从所有可选动作中随机选择一个,用于学习探索,以1

ε
t
概率根据q主网络输出选择对应q值最大的动作,作为当前最佳决策。
15.(3)当基站根据ε

greedy策略执行了动作a
t
后,基站会根据动作结束后观测到的状态s
t 1
={w
1,t 1
,w
2,t 1
,...,w
l,t 1
}去计算奖励值r
t 1
。具体来说,基站会根据s
t 1
计算得到
整个基站覆盖区域所需要的资源块数量m
t
,通过与共享之后剩余的资源块数量进行比较,评价共享决策的好坏。因此,奖励值函数r
t 1
定义为:
[0016][0017]
该奖励值设定对应三种情况:一是错误决策,当共享之后剩余的资源块数量少于需求量时,会对4g网络的吞吐量带来损失,故给予负奖励值;二是正确决策,即当共享之后剩余的资源块数量等于需求量时,此时共享效率最高,故给与正奖励值;三是保守决策,即当共享之后剩余的资源块数量多于需求量时,此时没有影响4g网络吞吐量,但没有使得共享效率最大化,所以令基站得到的奖励值为0。当基站计算得到奖励值后,会将经验元组(s
t
,a
t
,s
t 1
,r
t 1
)存入基站的经验池当中。
[0018]
(4)每一个决策周期,基站都会执行上述的步骤。当内存为g的基站经验池溢出时,基站会移除最旧的经验元组并存入最新的经验元组,同时开始从经验池当中随机采样数量为s的一小批经验数据对网络进行训练。具体而言,小批量采样中的每一个经验元组(s
t
,a
t
,s
t 1
,r
t 1
)的状态s
t
会作为q主网络的输入,然后q主网络会输出对应a
t
的估计q值;而s
t 1
则作为q目标网络的输入,然后q目标网络会输出目标q值,表示为目标q值和r
t 1
组成目标值,表示为其中γ∈[0,1],是一个折扣因子。估计q值和目标值构成损失函数:
[0019][0020]
通过对损失函数求梯度来更新q主网络参数,即其中α为学习率。每隔固定j个决策周期,q主网络的参数θ就会复制给目标网络的参数
[0021]
综上,基站将在观察到的状态下持续执行动作,与环境不断进行交互,并通过在此过程中获得的奖励值去指导基站进行学习。在训练的初始阶段,基站会设置较大的探索率ε去保证基站对未知环境的探索,随着其不断地与环境进行交互,探索率会逐渐下降,训练的网络也将逐渐收敛,最终找到最优的频谱共享策略。
[0022]
本发明的效果和益处:
[0023]
(1)相比目前大尺度下的静态频谱共享方案,本发明能在保证4g网络服务质量的前提下,实时准确地基于网络的业务需求动态地分配频谱资源,克服了其依然存在频带资源浪费和灵活性低的不足,可以显著提高频谱利用效率。
[0024]
(2)相比目前基于传统优化算法的动态频谱共享方案相比,本发明不依赖特定模型,能够更加准确地制定共享策略。同时,本发明中基站能够利用训练好的网络基于当前环境的观测量直接制定频谱共享策略,省去了基于传统优化算法的复杂计算,避免了其带来的不可容忍的延迟。
[0025]
(3)本发明基于深度强化学习设计的动态频谱共享方法,能使基站通过与环境的交互学习4g网络流量特征,并根据环境的动态变化实时自适应地制定策略,克服了网络环
境动态性为基站制定频谱策略共享带来的难题。
附图说明
[0026]
图1基于深度强化学习的动态频谱共享方法工作流程图。
具体实施方式
[0027]
以下结合技术方案,进一步说明本发明的具体实施方式。
[0028]
考虑某4g基站覆盖的蜂窝网络区域,整个区域被划分为4个子区域。根据lte标准,一个资源块的时域持续时间为0.5ms,带宽为180khz。每个资源块对应的持续时间即为决策周期。考虑lte可用带宽为20mhz,左右各存在1mhz带宽的保护带,因此,每个决策周期内基站可调度的资源块数量为100个。
[0029]
图1表示了整个工作流程,具体步骤如下:
[0030]
基站首先会构建结构相同的两个神经网络,即带有网络参数θ的q主网络和带有网络参数的q目标网络,并对网络中的各类参数进行初始化设置。基站初始时刻会在初始状态基于ε

greedy策略制定频谱共享策略。完成决策后,基站收集当前决策周期内4个子区域内产生的4g流量数据信息并进入下一个决策周期。在下一个决策周期开始时,基站首先观测得到当前的状态信息,并根据公式(1)计算得到奖励值,然后,将经验元组信息存入经验池中。当经验池存满后,基站会从中随机采样一小批经验元组训练q主网络,利用公式(2)对q主网络的网络参数进行更新。每隔j个决策周期,q主网络的网络参数会复制给q目标网络。最后重复上述步骤。
[0031]
在算法的初始阶段,探索率ε将会设置成一个较大的值,如0.9,在算法迭代过程中,令ε=0.9

0.0009
×
t使其逐渐下降,t为当前决策周期的序号。随着ε减小,网络的训练也将逐渐完成。当ε的值小于0.1时,将其固定设置为0.1,目的是让基站对所处的环境保持一定的探索能力。当训练收敛后,基站能直接通过训练完成的网络指导其在不同的状态下准确做出相应的频谱共享决策,以实现在保证4g网络服务质量的前提下,最大化利用闲置频谱资源。
[0032]
下面给出算法全部流程:
[0033]
初始化:
[0034]
设定经验池大小g,小批量采样大小s,更新周期j,折扣因子γ,学习率α,贪婪因子ε=0.9,初始状态s0,q主网络参数θ,q目标网络参数t=1
[0035]
重复:
[0036]
基站基于ε

greedy策略在状态s
t
下制定共享策略a
t
[0037]
转移到下一个状态s
t 1
并计算奖励值r
t 1
[0038]
收集经验元组信息:状态s
t
,动作a
t
,下一个状态s
t 1
,奖励值r
t 1
,并将经验元组信息存入记忆单元
[0039]
t

t 1
[0040]
ε

0.9

0.0009
×
t
[0041]
如果ε<=0.1
[0042]
ε=0.1
[0043]
如果t>g
[0044]
移除记忆单元最旧的经验元组并存入最新的经验元组
[0045]
随机采样s个经验元组对网络进行训练
[0046]
计算损失函数l(θ),执行一次梯度下降并更新q主网络参数θ
[0047]
如果(t

g)mod j=0
[0048]
q主网络参数θ复制给q目标网络参数
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献