一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

认知无线电网络频谱共享中的智能功率控制方法与流程

2021-12-03 23:07:00 来源:中国专利 TAG:


1.本发明涉及无线电通信技术领域,更为具体的,涉及一种认知无线电网络频谱共享中的智能功率控制方法。


背景技术:

2.随着对频谱资源需求的日益增长,急需提出一些能够有效提高频谱效率的智能方法。美国联邦通讯委员会在一份报告指出,其所测量的美国部分地区内很大一部分频谱资源在大部分的时间内处于空闲状态,且部分频段的利用率甚至仅有15%。基于提高频谱效率的目的,近年来利用认知无线电来实现和次用户的频谱共享的研究得到了极大关注。在这种场景下,次用户可以在不造成严重干扰的条件下,利用认证合法用户拥有的频谱资源。
3.当前普遍采用的频谱共享方式有两种,分别命名为:overlay式频谱共享和underlay式频谱共享。对于overlay式频谱共享方案,仅仅允许次用户在频谱资源没有被主用户使用的时间内接入频谱。由于次用户不会对活跃状态下的主用户产生任何干扰,因此这种方式不要求对次用户的信号发送功率进行任何限制。但是,这种方式需要为次用户设计复杂的频谱感知算法以感知空闲频谱,并且这种方式也不能很好的利用不同用户网络间干扰有限的特性。对于underlay式频谱共享方案,允许次用户在主用户进行通信的同时接入频谱。采用这种方式需要对次用户的信号发送功率进行一定限制,从而使次用户对主用户的干扰在一个可以接受的范围内。除此之外,为了成功传输数据,需要对主用户和次用户设置一个最小服务质量。因此,对于这个网络中的所有用户,需要一个动态功率控制策略。
4.现有基于传统强化学习的频谱共享技术方案中,大被限制在手工选取特征和低维度观测领域中,无法适用在高维度的带噪声观测数据领域中。并且,由于在测量传感器接收信号强度时的随机性影响,次用户所得到的所有状态都是连续值,这将会产生无穷多个状态,而q

learninig并不能很好的处理这种情况。


技术实现要素:

5.本发明的目的在于克服现有技术的不足,提供一种认知无线电网络频谱共享中的智能功率控制方法,实现了次用户在不对主用户造成严重干扰的情况下与主用户共享频谱资源的目的等。
6.本发明的目的是通过以下方案实现的:
7.一种认知无线电网络频谱共享中的智能功率控制方法,将主用户网络与次用户网络通信连接,在主用户网络设置主用户发送端和主用户接收端,在次用户网络设置次用户发送端和次用户接收端;包括步骤:在主用户网络和次用户网络之间设置多个传感器节点,主用户网络根据预设的功率控制策略更新发送功率,次用户网络根据布置在不同位置的多个传感器节点收集到的接收信号强度信息,基于深度强化学习训练为次用户提供功率控制策略,使得次用户智能调整传输功率来与主用户共享频谱资源,在通过与主用户的多轮交互之后,实现主用户、次用户都能以各自要求的服务质量成功进行数据传输。
8.进一步地,所述主用户网络根据预设的功率控制策略更新发送功率包括步骤:
9.主用户的发送功率从一个长度为l1的有限集合中选择,其中如果主用户在第k帧时的发送功率为那么主用户在第k 1个时间帧时的发送功率p1(k 1)根据如下策略调整:
[0010][0011]
其中τ=p1(k)η1/sinr1(k),当sinr1(k)≤η1,时,主用户发送端增加发送功率,当sinr1(k)≥η1,时,主用户发送端降低发送功率,否则,保持当前水平不变;这里表示对第(k 1)帧时的预测信干噪比sinr;sinr1(k)表示第k个时间帧的信干噪比,η1表示主用户接收端满足的一个最小信干噪比要求。
[0012]
进一步地,所述次用户网络根据布置在不同位置的多个传感器节点收集到的接收信号强度信息包括步骤:在环境中布置n个传感器来采样接收信号强度信息,n为正整数。
[0013]
进一步地,所述基于深度强化学习训练为次用户提供功率控制策略包括步骤:
[0014]
s11,初始化一个缓存容量为o的回放记忆容器d,用来存放状态转移数据并将状态转移数据d(k)作为深度网络训练数据;其中,r(k)表示次用户根据功率控制策略选择发送功率进入下一个状态后,次用户收到的奖励且r(k)=r(s(k),a(k)),定义为:
[0015][0016]
s(k)表示第k个时间帧的状态,a(k)表示第k个时间帧的动作,sinr1(k 1)表示主用户第k 1个时间帧的信干噪比,sinr2(k 1)表示次用户第k 1个时间帧的信干噪比,η2表示次用户接收端满足的一个最小信干噪比要求;
[0017]
s12,构建一个深度强化学习网络,初始化深度强化学习网络的动作价值函数值q(s,a,θ),并令权值θ=θ0,其中θ0表示当前迭代的参数;
[0018]
s13,初始化p1(1)和p2(1),并获得s(1);
[0019]
s14,设定深度强化学习网络训练最大迭代次数k,在第k次迭代中,根据主用户的功率控制策略更新p1(k 1),令次用户以ε
k
的概率随机选择动作a(k),否则选择a(k)=max
a
q(s(k),a;θ0);根据传感器的接收信号强度获得状态s(k 1),并观测奖励r(k);将状态转移数据d(k)={s(k),a(k),r(k),s(k 1)}存储入记忆容器d;判断k≥o是否满足,如果满足,从回放记忆容器d中随机采样转移{d(i)i∈ω
k
}的小样本集合,其中ω
k
中的索引为均匀随机选择,通过最小化损失函数更新θ,令θ0=argmin
θ
l(θ);判断s(k)是否是一个最终状态,如果是,则初始化p1(k 1)和p2(k 1),并获得s(k 1);
[0020]
s15,判断迭代次数k>k,结束训练。
[0021]
进一步地,所述次用户智能调整传输功率来与主用户共享频谱资源,在通过与主用户的多轮交互之后,实现主用户、次用户都能以各自要求的服务质量成功进行数据传输
包括步骤:
[0022]
s21,初始化p2(1),并获得s(1);
[0023]
s22,对于k=1,

,k,令次用户a(k)=max
a
q(s(k),a;θ
*
),根据传感器的接收信号强度获得状态s(k 1);
[0024]
s23,若k>k,结束迭代。
[0025]
进一步地,在基于深度强化学习训练完成后,次用户仅通过传感器的反馈来决定其下一个传输功率;如果在传输中出现了中断,导致s离开了目标状态,那么次用户在重新传输数据时不需要重新学习,只需要重新按照既定的功率控制策略选择发送功率即可重新回到目标状态。
[0026]
本发明的有益效果包括:
[0027]
本发明解决了背景技术中的问题,采用深度强化学习的方法来对次用户的功率控制策略进行学习,在本发明实施例中包含一个主用户和一个次用户认知无线电系统,基于深度强化学习为次用户设计了一个智能功率控制方法,深度强化学习所训练的agent可以直接从高维度的带噪声观测数据中学习其行为价值策略,并采用环境中部署的传感器收集的信号强度作为输入,由于在无线通信中,自然条件下进行的状态测量经常受到随机噪声的影响,因此这个特征使得深度强化学习非常适合解决动态功率控制问题,实现了次用户在不对主用户造成严重干扰的情况下,和主用户共享频谱资源的目的。
附图说明
[0028]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0029]
图1为本发明实施场景中的频谱共享示意图;
[0030]
图2为本发明实施例中次用户和环境的交互示意图;
[0031]
图3为本发明实施例中深度强化学习网络示意图。
具体实施方式
[0032]
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
[0033]
如图1~图3所示,一种认知无线电网络频谱共享中的智能功率控制方法,本发明实施例考虑包含一个主用户和一个次用户认知无线电系统,基于深度强化学习为次用户设计一个智能功率控制方法,实现次用户在不对主用户造成严重干扰的情况下,和主用户共享频谱资源的目的。主用户网络包含一个主用户发送端(tx1)和一个主用户接收端(rx1),次用户网络包含一个次用户发送端(tx2)和次用户接收端(rx2)。在预设中,根据实际应用场景,可设主用户与次用户为非合作式工作,即主用户无法意识到次用户的存在,且主用户根据其自己的策略自主的调节发送功率。
[0034]
然而,由于主用户的功率控制策略依赖于环境,次用户当前采取的行动将会以某种方式影响主用户的下一步行动。主用户与次用户网络之间没有任何的通信,故次用户无
法得知主用户的发送功率和其发送策略。主用户和次用户同步地调整各自的发送功率,且发送功率的调整频率以帧为基准。
[0035]
对于主用户和次用户来说,服务质量的测定由各自的信噪比所决定。令p1和p2分别表示主用户和次用户的发送功率,则第i个接收机的信噪比可表示为:
[0036][0037]
其中,h
ij
表示发送端tx
i
到接收端rx
j
的信道增益,n
i
表示接收端rx
i
的噪声功率。为了成功传输数据,主用户接收端和次用户接收端必须满足一个最小的信噪比要求即sinr
i
≥η
i
,i=1,2。
[0038]
令主用户在第k个时间帧的发送功率为下一帧时的发送功率p1(k 1)根据如下策略调整:
[0039][0040]
其中,τ=p1(k)η1/sinr1(k)。具体来说,当sinr1(k)≤η1,时,主用户增加发送功率,当sinr1(k)≥η1,时,主用户降低发送功率,否则保持当前水平不变。这里是对第(k 1)帧时的预测信噪比。环境中布置有n个传感器来采样接收信号强度信息。
[0041]
令表示传感器n在第k帧的接收功率。这里,用下面的模型来模拟观察到的状态:
[0042][0043]
其中p1(k)和p2(k)分别表示主用户和次用户在第k个时间帧时的发送功率,g
1n
表示主用户到第n个传感器的信道增益,g
2n
表示次用户到第n个传感器的信道增益,w
n
(k)为一个零均值方差为σ2的高斯随机变量,表示遮蔽效应和估计误差引起的随机变化。对于自由空间传播,根据friis法则,g
1n
和g
2n
分别为:
[0044][0045]
其中λ为信号波长,d
1n
和d
1n
分别为主用户和次用户发送端到第n个传感器的距离。次用户的发送功率取自长度为l2的有限集合其中(右上角的s是次用户的标识),次用户的目标是根据收集到的每一帧接收信号强度信息来学习如何调整自身的发送功率,从而使得在若干次调整之后,主用户和次用户都能够满足各自的服务质量要求。这里设定至少存在一对发送功率使得主用户和次用户都能达到各自的服务质量要求,即sinr
i
≥η
i
,i=1,2。
[0046]
对于每个次用户,在每个时间帧内都要进行一个行动,即从集合中选择一个发送功率发送信号。定义第k个时间帧的状态为那么这个功率控制过程可以视为一个马尔科夫决策过程。
[0047]
这是因为当决策者(即次用户)在状态s(k)下执行动作a(k)=p2(k 1)(即选择其发送功率)后,该过程将移动至它的下一个新的状态s(k 1),而这个状态仅仅与当前状态s(k)与当前动作a(k)有关,与之前的所有状态和动作均无关,即满足马尔科夫性。同样的,在该过程进入下一个状态后,决策者会收到一个奖励r(k)=r(s(k),a(k)),定义为:
[0048][0049]
马尔科夫决策过程的核心问题是为决策者学习一个策略,这个策略函数π决定了在状态s下决策者应当采取相应的行动π(s)。具体来说,次用户的目标是学习一个基于当前状态s(k)下选择动作a(k)的策略π,从而使得如下定义的折扣累积奖励最大化:
[0050][0051]
其中γ为折扣系数,t表示到达目标状态时的帧数。对于上文中的问题,目标状态定义为使得sinr
i
≥η
i
,i=1,2均成立的状态。于是,所要学习的最优策略π
*
就是最大化折扣累积奖励的策略v
π
,表示为
[0052][0053]
直接学习最优策略π
*
相对来说比较困难。在强化学习中,q

learninig提供了一种替代的方式来求解上面的π
*
。不同于直接学习最优策略π
*
,在q

learninig中引入了一个动作价值函数(同样被称为q函数)来对给定状态s(k)下选择动作a(k)后得到的期望折扣累积奖励进行估计。当动作价值函数被成功学习后,最优的策略可以简单的构造为在每个状态下选择使得动作价值函数的值最大的动作。不论是q

learninig算法还是其他众多的强化学习算法,其最基本的思想都是来迭代地更新动作价值函数,其更新公式都可以简单地表示为:
[0054][0055]
上面的更新规则同样被称为贝尔曼等式(bellman equation),其中s

表示在当前状态s下执行动作a后达到的下一个状态。可以证明上面给出的更新规则可以收敛到最优的动作价值函数,其被定义为在某个动作选择策略下,在一个给定状态s下执行一些动作a后所能达到的最大期望折扣累积奖励。对于q

learninig来说,状态的数目是有限的,且每个状态的动作价值函数也是分开来被估计的,这也就产生了一个q表或者q矩阵,它的行表示每个状态,而其列表示所有可能的动作。在q表或q矩阵收敛后,决策者在状态s下的最优动作选择策略是执行相对应于s最大q(s,a)的动作a。
[0056]
由于在测量传感器接收信号强度时的随机性影响,次用户所得到的所有状态s都是连续值。因为将会产生无穷多个状态,而q

learninig并不能很好的处理这种情况,这导
致q

learninig方法在本发明要解决的问题中不可实现。为了克服这一问题,本发明实施例采用深度q网络(dqn)的方法来替代q

learninig对次用户的功率控制策略进行学习。不同于传统的q

learninig算法产生一个有限的动作价值表,对于dqn算法,这个动作价值表(q表)被替换为了一个深度神经网络q(s,a,θ),并用该网络q(s,a,θ)来近似q

learninig中的动作价值函数,其中θ表示q网络中的权值。特别地,给定一个输入s,深度神经网络将产生一个l2维的向量,其第i项代表在状态s下在p2中选择动作后的动作价值函数估计值。
[0057]
针对主用户的发送策略,考虑时序数据的时间相关性,本发明实施例提出采用lstm作为q网络的学习模型。用来训练q网络的训练数据按照如下方法生成:给定s(k),在第k次迭代时,要么以ε
k
的概率随机选择一个行为,要么选择一个具有最大输出q(s(k),a(k);θ0)的动作a(k),其中θ0表示当前迭代的参数。在执行动作a(k)之后,次用户收到一个奖励r(k),并且观测到一个新的状态s(k 1)。状态转移数据放在回放记忆容器d中。q网络的训练在d收集到足够转变数据的时候开始进行,通常这个数目设置为o=300。特别地,本发明实施例随机从d中选择一个小批量的转变数据{d(i)|i∈ω
k
},q网络的训练可以通过调整参数θ实现,具体为最小化下面的损失函数:
[0058][0059]
其中ω
k
表示在第k次迭代训练时均匀随机选取的小样本集合,q

(i)表示采用当前迭代下的参数利用贝尔曼公式估计得到的动作价值函数值,表示为
[0060][0061]
这里θ0表示当前迭代的dqn网络参数。注意到不同于传统的监督式学习,本发明实施例在dqn学习中的目标值会随着网络权值θ的更新而改变。
[0062]
在训练结束后,次用户可以选择动作价值估计值最大的q(s(k),a;θ
*
)作为下一个动作。需要指出的是,在dqn训练过程中,次用户需要知道主用户和次用户的服务质量需求是否得到满足这一信息。但是,一旦dqn的训练完成后,次用户仅仅需要来自传感器的反馈来决定其下一个传输功率。
[0063]
最后,需要指出本发明实施例提出的功率控制策略的收敛性可以得到证明。首先,该过程的每一个过程都是可达的。假设状态s是一个目标状态。如果次用户的传输功率保持不变,那么只要主用户自身的功率选择策略是收敛的,那么该功率选择过程的下一状态s

也一定是一个目标状态。另一方面,根据dqn学习算法的性质,次用户最终会选择一个使得下一个状态s

也是目标状态的动作。也就是说,一旦s到达了目标状态,那么它将永远停留在目标状态直到数据传输停止。如果在传输中出现了中断,导致s离开了目标状态,那么次用户在重新传输数据时不需要重新学习,只需要重新按照既定的功率控制策略选择发送功率即可重新回到目标状态。
[0064]
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
[0065]
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
[0066]
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献