基于多智能体深度强化学习的多小区多业务资源分配方法与流程

2022-03-16 13:11:18 来源：中国专利 TAG：

1.本发明涉及无线通信领域，具体的说是涉及一种通过基于多智能体深度强化学习的方法来处理多小区embb和urllc同时传输的资源分配方法，以提高多小区中embb和urllc用户的服务满意度水平。

背景技术：

2.6g网络将是一个地面无线与卫星通信集成的全连接世界，它在全球卫星定位系统、电信卫星系统等技术的支持下，能够灵活适配增强型移动宽带(enhanced mobile broadband,embb)、超可靠低时延通信(ultra-reliable low latency communications,urllc)等不同应用场景下的业务。6g中的沉浸式云xr，全息通信、感官互联等业务应用对embb和urllc提出了更高的要求。如何利用有限的系统资源来满足两种业务的不同需求成为无线通信网络的关键问题。因此，解决embb和urllc共存下的资源分配问题成为研究的重点。
3.经检索发现，x.wang等人在《ieee conference on computer communications,pp.1970-1978,april 2018.(电气和电子工程师协会计算机通信会议，2018年4月，第1970-1978页)》上发表了题为“joint scheduling of urllc and embb traffic in 5g wireless networks(5g无线网络中urllc和embb流量的联合调度)”一文，该文提出了线性模型、凸模型和阈值模型来评估embb数据速率的损失，在urllc流量稳定到达的情况下，协同优化embb用户的带宽分配以及urllc流量的抢占资源的位置。但在实际应用中，urllc流量是具有时变性的，使用该方法无法得到一个长期的最优解。并且随着用户不断增加、系统规模不断扩大，该方法存在周期性长、计算复杂度高等问题，于是研究者们考虑将具有较强计算能力和学习速率的强化学习方法应用到无线网络资源分配问题上。
4.经检索专利发现，cn109561504a公开了一种基于深度强化学习的urllc和embb的资源复用。该发明首先采集m个mini-slot的urllc和embb的数据包信息、信道信息以及队列信息作为训练数据；然后建立基于深度强化学习的urllc和embb资源复用模型，并利用训练数据对模型参数进行训练；训练完成后，将当前mini-slot的urllc和embb数据包信息、信道信息以及队列信息输入训练好的模型中，最后获得资源复用决策结果，实现对时频资源以及功率的合理分配利用。但该发明仅考虑了单小区embb和urllc系统资源分配方案。而在实际应用场景中，由于各小区占用了相同频谱资源，小区内的用户必然会受到其邻近小区的干扰，因此对多小区embb和urllc用户系统的子信道和功率的合理分配来提高系统性能已成为当下的一个研究热点。

技术实现要素：

5.本发明提出了一种基于多智能体深度强化学习的多小区embb和urllc用户系统资源分配方法，基于多智能体深度强化学习方法来解决多小区embb和urllc用户系统资源分配的问题，利用多个智能体集中训练和分布执行的模式来进行全局控制以及降低复杂任务
的维度，在降低时间成本的同时有效提高系统的性能。具体地，基于联合竞争深度q网络(ddqn)和深度确定性策略梯度网络(ddpg)来分别输出各小区的子信道和功率分配方案，然后根据系统的反馈调整分配策略以最大化多小区embb和urllc用户的服务满意度水平。
6.为了达到上述目的，本发明是通过以下技术方案实现的：
7.本发明是一种基于多智能体深度强化学习的多小区多业务资源分配方法，适用于多小区embb和urllc用户系统的资源分配问题，所述多小区多业务资源分配方法包括如下步骤：
8.步骤1：构建用于解决多小区embb和urllc用户系统资源分配的多智能体网络。
9.具体地，设定多小区embb和urllc用户系统中有n个基站，每个基站共有m个用户随机分布在小区内，其中embb用户有b个和urllc用户有u个，且m＝b u。每个用户被分配一根天线用于接收和发送数据，且每个基站内有l个子信道。然后根据用户特定要求使用不同的持续时间进行传输，本专利将时域划分成1毫秒的时隙，用于传输embb流量，再将时隙进一步划分成7个小时隙，用于传输urllc流量。其中，每个时隙有du个urllc数据包到达，每个数据包的大小为zu字节。假设该多小区系统的总带宽为3mhz。为了在有限的频谱资源条件下实现embb和urllc用户的服务满意度水平最大化，本专利构建了一个多智能体深度强化学习网络用于解决多小区embb和urllc用户的子信道和功率分配问题。首先，在本地建立了n个q-dnn和n个actor dnn，本地网络根据本地的信道状态信息输出本地的子信道分配动作和功率分配动作。然后，基于ddqn和ddpg在中心建立集中式训练网络，通过环境反馈的奖励更新网络的参数，继而更新本地网络的参数。
10.步骤2：状态获取：将本小区内embb和urllc用户在不同基站不同子信道上的信道增益信息，作为本小区当前状态s
t
；如第n个基站在t时刻的状态为：
[0011][0012]
步骤3：子信道分配和功率分配：本地神经网络将步骤2获取的状态作为输入，然后输出本地的子信道分配动作和功率分配动作，如第n个基站在t时刻的子信道和功率分配动作分别为：
[0013][0014]
和
[0015][0016]
具体地，在每个时隙开始时，获得的本地状态sn(t)被送到对应的本地q-dnn n
′
网络和actor dnn n
′
网络。本地q-dnn n
′
网络采用∈-greedy策略从本地子信道分配动作空间中选出一个动作作为当前时隙内的子信道分配方案。其中，∈-greedy策略是指以概率∈从子信道分配动作空间中随机选择一个动作作为或者以概率1-∈选择拥有最大估计q值的动作作为以平衡对新动作的探索和对已知动作的利用。与此同时，本地actor dnn n
′
网络也被激活，使用相同的状态作为输入，根据
来输出对应的功率分配动作，其中，μ(sn(t)；θ
′n)是本地actor dnn n
′
网络的策略函数，θ
′n是本地actor dnn n
′
的网络参数，表示随机噪声过程，并且遵循正太分布。最后本地网络输出联合子信道和功率分配动作如下：
[0017]
a(t)＝{a1(t)，a2(t)，...，an(t)}＝
[0018]
{[c1(t)，p1(t)]，[c2(t)，p2(t)]，...，[cn(t)，pn(t)]}。
[0019]
步骤4：反馈获取和参数更新。
[0020]
各小区收到上述联合子信道分配和功率分配动作an(t)后，从当前状态sn(t)移动到下一个状态s
′n(t)，并给出本地奖励rn(t)，然后反馈至本地网络。本地网络持续收集经验en＝{sn(t)，an(t)，rn(t)，s
′n(t)}，并将其上传至中心网络。中心网络收到后，将全局信息{s1(t)，s2(t)，...，sn(t)，a1(t)，a2(t)，...，an(t)，r(t)，s
′1(t)，s
′2(t)，...，s
′n(t)}以先进先出的方式存储在经验池d中，其中，
[0021]
在中心网络，基于ddqn和ddpg建立了多智能体网络用于更新本地网络参数。对于本地q-dnn n
′
的参数更新：在t时刻，从经验记忆池中选出一部分样本数据，通过最小化下面的损失函数来更新中心网络q-dnn n的网络参数αn和βn，
[0022][0023]
其中，
[0024]024]
和是中心网络目标q-dnn n的网络参数。然后每隔x步将中心网络q-dnn n的参数以赋值给对应的目标q-dnn网络，如下所示：
[0025]
和
[0026]
最后将更新的网络参数αn和βn下传至本地以实现q-dnn n
′
网络参数的更新。
[0027]
对于本地actor dnn n
′
的参数更新：在t时刻，同样以上述样本数据通过最小化下面的损失函数来更新中心网络critic dnn的网络参数δ,
[0028][0029]
其中，
[0030]
y(t)＝r(t) γq(s
′1(t)，...，s
′n(t)，p
′1(t)，...，p
′n(t)；δ-)，δ-是目标critic dnn的网络参数。
[0031]
然后，以soft-update的方式更新目标critic dnn的网络参数，如下所示：
[0032]
δ
‑←
τcδ (1-τc)δ-，其中，0＜τc＜＜1,τc表示目标critic dnn网络的学习率。之后，通过最大化全局奖励的期望来训练中心网络actor dnn n的网络参数，中心网络actor dnn n的网络参数θn通过以下方式更新：
[0033]
[0034]
类似于目标critic网络，目标actor dnn的网络参数更新方式如下：
[0035]
其中，0＜τn＜＜1,τn表示目标actor dnn n网络的学习率。最后将更新的网络参数θn下传至本地以实现actor dnn n
′
网络参数的更新。
[0036]
步骤5：决策驱动机制。
[0037]
本发明设计了决策驱动机制，通过对系统的状态进行监测，当两个相连时隙的状态几乎相同时，就会触发新一轮的学习过程，否则就继续将上一个时隙输出的动作作为当前时隙的最优资源分配动作。
[0038]
具体地，设定一个状态误差阈值ρ,
[0039]
ρ＝||s(t)-s(t-1)||2，其中，s(t)表示当前时隙的状态，s(t-1)表示上一时隙的状态。通过监测当前状态，然后与上一时隙的状态进行对比，决定是否进行新一轮的学习，如下所示：
[0040][0041]
其中，an(t-1)表示基站n在上一时隙的输出动作，表示基站n进行新一轮学习后的输出动作。
[0042]
本发明的有益效果是：本发明方法基于ddqn和ddpg网络在本地和中心设计了多个智能体进行分布执行和集中训练，该方法很好地解决了多小区embb和urllc用户系统的子信道分配和功率分配问题，有效降低了网络的输入输出维度、信令开销以及计算复杂度；与普通强化学习方法相比，提高了多小区embb和urllc用户的服务满意度水平，进而提高了整个网络的性能；该方法联合子信道分配和功率分配的多智能体深度强化学习网络来提高多小区embb和urllc同时传输时的系统性能的，在考虑小区间同频干扰的情况下，实现了多小区embb和urllc用户服务满意度水平最大化。
附图说明
[0043]
图1是本发明多小区embb和urllc复用场景示意图。
[0044]
图2是本发明基于多智能体深度强化学习的多小区embb和urllc用户系统资源分配框图。
[0045]
图3是本发明多智能体网络与多小区系统信息交互示意图。
[0046]
图4是本发明多小区embb和urllc用户服务满意度的对比示意图。
[0047]
图5是本发明方法与其他方法每次执行花费的时间成本对比示意图。
具体实施方式
[0048]
以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。
[0049]
本发明是一种基于多智能体深度强化学习的多小区embb和urllc用户系统的联合子信道分配和功率分配方法。
[0050]
设定多小区embb和urllc用户系统中有n个基站，每个基站共有m个用户随机分布
在小区内，其中embb用户有b个和urllc用户有u个，且m＝b u。每个用户被分配一根天线用于接收和发送数据，且每个基站内有l个子信道。然后根据用户特定要求使用不同的持续时间进行传输，本专利将时域划分成1毫秒的时隙，用于传输embb流量，再将时隙进一步划分成7个小时隙，用于传输urllc流量。其中，每个时隙有du个urllc数据包到达，每个数据包的大小为zu字节。假设该多小区系统的总带宽为3mhz。为了在有限的频谱资源条件下实现embb和urllc用户的服务满意度水平最大化。
[0051]
具体通过以下步骤实现：
[0052]
步骤1：构建用于解决多小区embb和urllc用户系统资源分配的多智能体网络。
[0053]
具体的：在本地建立了n个q-dnn和n个actor dnn，本地网络根据本地的信道状态信息输出本地的子信道分配动作和功率分配动作；然后基于ddqn和ddpg在中心建立集中式训练网络，通过环境反馈的奖励更新网络的参数，继而更新本地网络的参数。最后，智能体通过不断的学习达到奖励最大化。
[0054]
步骤2、基于多小区embb和urllc用户系统中邻近小区间的干扰，建立每个embb用户和urllc用户的信噪比(sinr)及获得的数据速率,并设定目标奖励。
[0055]
具体地，embb用户b在第k个小时隙中收到来自基站n的第l个子信道的sinr为：
[0056][0057]
urllc用户u在第k个小时隙中收到来自基站n的第l个子信道的sinr为：
[0058][0059]
其中，分别表示用户m信道分配索引、在第k个小时隙信道增益以及第k个小时隙中收到来自基站n的第l个子信道的发射功率，n0表示噪声功率。
[0060]
然后根据香农公式得到embb用户b和urllc用户u在基站n的第l个子信道第k个小时隙实现的发送速率分别为：
[0061]
和
[0062]
最后得到在基站n的所有embb用户在第t个时隙中实现的速率：
[0063][0064]
以及在基站n的所有urllc用户在第t个时隙中实现的速率：
[0065][0066]
本发明的目标奖励是实现多小区embb和urllc用户的服务满意度水平最大化，通过下述式子来分别衡量在基站n的embb和urllc用户的服务满意度水平。
[0067]
和其中，是基站n所有embb用户在第t个时隙的最低速率要求，是基站n在第t个时隙urllc用户的到达量。
[0068]
为了将上述的多目标问题转化成单目标问题，本发明设定多小区embb和urllc用户的服务满意度水平作为目标奖励，具体的优化问题描述如下：
[0069]
p1：
[0070]
s.t.c1：
[0071]
c2：
[0072]
表示基站n的最大发送功率。
[0073]
步骤3、设定状态，将各小区内所有用户在不同子信道上的信道增益信息，作为当前状态s
t
，如第n个基站在t时刻的状态为：
[0074][0075]
步骤4：子信道分配和功率分配：本地神经网络将步骤3获取的状态作为输入，然后输出本地的子信道分配动作和功率分配动作，如第n个基站在t时刻的子信道和功率分配动作分别为：
[0076][0077]
和
[0078][0079]
具体地，在每个时隙开始时，获得的本地状态sn(t)被送到对应的本地q-dnn n
′
网络和actor dnn n
′
网络。本地q-dnn n
′
网络采用∈-greedy策略从本地子信道分配动作空间中选出一个动作作为当前时隙内的子信道分配方案。其中，∈-greedy策略是指以概率∈从子信道分配动作空间中随机选择一个动作作为或者以概率1-∈选择拥有
最大估计q值的动作作为以平衡对新动作的探索和对已知动作的利用。与此同时，本地actor dnn n
′
网络也被激活，使用相同的状态作为输入，根据来输出对应的功率分配动作，其中，μ(sn(t)；θ
′n)是本地actor dnn n
′
网络的策略函数，θ
′n是本地actor dnn n
′
的网络参数，表示随机噪声过程，并且遵循正太分布。最后本地网络输出联合子信道和功率分配动作如下：
[0080]
a(t)＝{a1(t)，a2(t)，...，an(t)}＝
[0081]
{[c1(t)，p1(t)]，[c2(t)，p2(t)]，...，[cn(t)，pn(t)]}。
[0082]
步骤5：反馈获取和参数更新。
[0083]
各小区收到上述联合子信道分配和功率分配动作an(t)后，从当前状态sn(t)移动到下一个状态s
′n(t)，并给出本地奖励rn(t)，然后反馈至本地网络。本地网络持续收集经验en＝{sn(t)，an(t)，rn(t)，s
′n(t)}，并将其上传至中心网络，中心网络收到后，将全局信息{s1(t)，s2(t)，...，sn(t)，a1(t)，a2(t)，...，an(t)，r(t)，s
′1(t)，s
′2(t)，...，s
′n(t)}以先进先出的方式存储在经验池d中，其中，
[0084]
在中心网络，本专利基于ddqn和ddpg建立多智能体网络用于更新本地网络参数。对于本地q-dnn n
′
的参数更新：在t时刻，从经验记忆池中选出一部分样本数据，通过最小化下面的损失函数来更新中心网络q-dnn n的网络参数αn和βn，
[0085][0086]
其中，
[0087][0087]
和是中心网络目标q-dnn n的网络参数，然后每隔x步将中心网络q-dnn n的参数以赋值给对应的目标q-dnn网络，如下所示：
[0088]
和
[0089]
最后将更新的网络参数αn和βn下传至本地以实现q-dnn n
′
网络参数的更新。
[0090]
对于本地actor dnn n
′
的参数更新：在t时刻，同样以上述样本数据通过最小化下面的损失函数来更新中心网络critic dnn的网络参数δ,
[0091][0092]
其中，
[0093]
y(t)＝r(t) γq(s
′1(t)，...，s
′n(t)，p
′1(t)，...，p
′n(t)；δ-)，δ-是目标critic dnn的网络参数。
[0094]
然后，以soft-update的方式更新目标critic dnn的网络参数，如下所示：
[0095]
δ-←
τcδ (1-τc)δ-，其中，0＜τc＜＜1,τc表示目标critic dnn网络的学习率。之后，通过最大化全局奖励的期望来训练中心网络actor dnn n的网络参数，中心网络actor dnn n的网络参数θn通过以下方式更新：
[0096][0097]
类似于目标critic网络，目标actor dnn的网络参数更新方式如下：
[0098]
其中，0＜τn＜＜1,τn表示目标actor dnn n网络的学习率。最后将更新的网络参数θn下传至本地以实现actor dnn n
′
网络参数的更新。
[0099]
步骤6：决策驱动机制。
[0100]
本发明涉及了决策驱动机制，通过对系统的状态进行监测，当两个相连时隙的状态几乎相同时，就会触发新一轮的学习过程，否则就继续将上一个时隙输出的动作作为当前时隙的最优资源分配动作。
[0101]
具体的：设定一个状态误差阈值ρ,
[0102]
ρ＝||s(t)-s(t-1)||2，其中，s(t)表示当前时隙的状态，s(t-1)表示上一时隙的状态，决策驱动模块通过监测当前状态，然后与上一时隙的状态进行对比，决定是否进行新一轮的学习，如下所示：
[0103][0104]
其中，an(t-1)表示基站n在上一时隙的输出动作，表示基站n进行新一轮学习后的输出动作。
[0105]
如图1-5所示，考虑多小区embb和urllc系统场景，联合优化每个用户的子信道和功率分配方案，本实施例仿真场景的主要参数如表1所示。
[0106]
表1系统主要参数
[0107][0108]
图4和图5是本发明算法与其他方法关于多小区embb和urllc用户服务满意度水平以及每次执行时间成本的对比示意图。从图中可以看出，本发明提出的madrl和madrl-dd算法得到的系统性能略低于穷举法，远高于一般的强化学习算法以及随机方法。此外，madrl-dd算法的性能无限接近于madrl算法，可看出决策驱动模块在保证多小区embb和urllc用户服务满意度水平的情况下，有效的减少了时间成本和计算开销。
[0109]
该方法有效降低了网络的输入输出维度、信令开销以及计算复杂度，很好地保证了多小区embb和urllc用户的服务满意度水平，进而提高了整个网络的性能。
[0110]
以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于对象存储服务的视频存储方案的制作方法

基于多智能体深度强化学习的多小区多业务资源分配方法与流程

相关文献

最热文献