基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法

2022-11-30 11:00:53 来源：中国专利 TAG：

基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法
技术领域
1.本发明属于无蜂窝大规模mimo功率分配领域，尤其涉及一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法。

背景技术：

2.无线通信服务渗透在社会的各行各业，从普通的接听电话、发送短信，到一些新兴领域如无人驾驶、智慧医疗等，大大小小的服务都依赖于无线网络的部署。为了保证服务的质量，无线通信服务需要覆盖一个较大的地理范围，传统的无线通信服务使用了蜂窝网络拓扑结构来部署基站，每一个基站服务于一组用户设备。这种蜂窝网络拓扑已经应用了几十年，通过减小蜂窝大小和应用先进的信号处理方案，这种场景下的用户干扰才得以降低。近年来在无线网络服务领域兴起了一种新的网络拓扑，名为“无蜂窝大规模mimo系统”。无蜂窝大规模mimo系统中取消了蜂窝的划分，且基站的数量远多于用户数量。无蜂窝大规模mimo的思路是部署大量的分布式单天线接入点(ap)，将它们通过一个中央处理单元(centralprocessingunit,cpu)相连。cpu以无蜂窝边界网络mimo的方式运行系统，运用协同收发方式共同为用户服务。与传统蜂窝式大规模mimo网络相比，无蜂窝mimo方案的有强大的宏分集能力、抑制多用户干扰的能力以及为用户提供质量相近的服务的能力，近年来得到了广泛的关注与部署。
3.然而，无蜂窝mimo系统也存在一些问题。由于系统中所有ap与ue全连接，前传链路中的大量的功率消耗对无蜂窝mimo系统的能量效率造成了显著的影响，特别是在在多天线场景下，随着天线数目的增加，前传链路的功耗也进一步增加，从而导致系统能量效率降低。此外，为了进一步提高用户传输速率从而提升用户体验，无蜂窝mimo系统采用了功率分配策略来设计功率控制系数。传统的功率控制方法都需要对问题建立精确模型，再迭代求得最优解，这类算法的时间复杂度往往很高，需要消耗大量的计算资源。随着现代计算资源的发展，涌现了许多基于深度神经网络的算法。现有的基于深度强化学习的功率分配策略都使用了在线训练策略，这种算法需要在训练网络的同时与环境实时交互，以获得更多数据集，然而在实际应用场景下，智能体与环境的交互通常只能发生在一定的时间间隔内，实时交互是不现实的，因此这些算法通常无法投入实际应用。

技术实现要素：

4.本发明目的在于提供一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法,针对以用户为中心的无蜂窝大规模mimo场景中下行链路数据传输阶段，基于duelingddqn网络的离线强化学习功率分配方法。经过以用户为中心的无蜂窝大规模mimo环境建模、建立mdp模型、在线训练duelingddqn网络、离线训练duelingddqn网络后，最终得到以用户为中心的无蜂窝大规模mimo的功率控制系数，以解决背景技术中提及的技术问题。
5.为解决上述技术问题，本发明的具体技术方案如下：
6.一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法，包括以下步骤：
7.步骤s1、对以用户为中心的无蜂窝大规模mimo系统进行建模，以上行链路的信道估计为依据确定无线接入点ap与用户设备ue之间的服务关系，以下行链路数据传输阶段的功率控制系数为优化对象，以最大化下行链路速率之和为目标，提出优化问题；
8.步骤s2、根据步骤s1所述优化问题，将下行链路数据传输阶段的功率控制系数的优化过程建模为一个马尔可夫决策过程，确定马尔可夫决策过程的状态转移、动作空间、策略以及奖励；
9.步骤s3、提出基于深度强化学习的功率分配算法模型，该模型包括大规模mimo系统环境模块和智能体模块；所述大规模mimo系统环境模块用于模拟以用户为中心的无蜂窝大规模mimo系统的信道模型以及下行链路数据传输模型，所述智能体模块用于感知当前系统状态、估计功率分配策略的q值以及选择最佳的功率分配系数；智能体模块的核心是深度神经网络，该深度神经网络的训练方式包括前期的在线训练与应用时期的离线训练；
10.步骤s4、在线训练深度神经网络；在线训练阶段在基于数据集中的参数训练深度神经网络之前，需要先采集状态转移参数更新数据集；在初始化大规模mimo系统后，首先将系统的状态输入所述深度神经网络，然后基于深度神经网络输出的q值为当前ap选择功率控制系数，在环境中实施功率控制策略，从而改变环境状态并得到奖励，并存储这一次的状态转移信息；接着从数据集中随机抽取一批数据，用深度神经网络分别计算累积奖励值与期望值，以最小化奖励值与期望值的均方误差为目标更新深度神经网络参数；
11.步骤s5、基于步骤s4收集的状态转移数据集离线训练duelingddqn网络；取出步骤s4所述状态转移数据集的前20％作为离线训练数据集，每次从离线数据集中取出一批数据输入深度神经网络，用深度神经网络分别计算累积奖励值与期望值，以最小化奖励值与期望值的均方误差为目标更新深度神经网络参数，最终使得智能体模块选择最佳的功率控制系数。
12.进一步的，所述步骤s1中，所述构建以用户为中心的大规模mimo系统具体包括：
13.步骤s101、首先设定场景的分布区域，设置其中随机分布了m个ap与k个ue，每个ap要服务的n个ue，然后建立ap与ue之间信道的大尺度衰落与小尺度衰落模型；
14.步骤s102、对上行链路训练阶段进行建模，具体包括：
15.首先为ue分配正交导频序列，然后令ue将导频序列转发至各个ap，ap端接收到数据后，基于最小均方误差准则估计与ue之间的信道系数；
16.步骤s103、为每个ap关联其需要服务的ue，具体包括：
17.对每一个ap，将该ap与所有ue之间的信道估计系数降序排列，为每个ap选择信道系数最高的个ue建立服务关系，并将建立的服务关系信息转发至cpu；
18.步骤s104、对下行链路数据传输阶段建模，具体包括：
19.ap端将步骤s102中得到的信道估计视作真实信道系数，对待传输数据进行共轭波束赋形，然后以功率将预编码后的数据发送至与当前ap建立连接关系的ue。
20.进一步的，所述步骤s1中，基于下行链路数据传输阶段的用户信噪比、传输速率以及功率限制条件来构建步骤s1中的优化问题。
21.进一步的，所述下行链路数据传输阶段的用户信噪比表达式为：
[0022][0023]
公式中，sinrk,k＝1,...,k表示第k个用户的信噪比，β
mk
表示第m个ap与第k个ue之间信道的大尺度衰落；表示导频符号的归一化信噪比，表示第k个ue的导频序列，η
mk
,m＝1,...,m,k＝1,...k表示第m个ap与第k个ue之间的功率控制系数，p(k),k＝1,...k表示服务于第k个用户ap的集合；公式中，其中表示第m个ap与第k个ue之间信道的最小均方误差估计，τ
cf
表示一个相干间隔内上行训练样本数，c
mk
的表达式为：
[0024][0025]
进一步的，所述下行链路数据传输阶段的传输速率的表达式为：
[0026][0027]
公式中，表示第k个ue的传输速率，sinrk,k＝1,...,k表示k个ue的下行链路信噪比。
[0028]
进一步的，所述功率分配优化问题的表达式为：
[0029][0030]
η
mk
≥0,k＝1,...,k,m＝1,...,m；
[0031]
其中，t(m),m＝1,...,m表示与第m个ap建立连接关系的ap的索引集合，该集合中共有n个索引，表示每个ap服务n个ue。
[0032]
进一步的，所述步骤s2将下行链路数据传输阶段的功率控制系数的优化过程建模为一个马尔可夫决策过程具体包括：
[0033]
步骤s201、将系统中的功率分配系数的优化步骤建模为一个序贯决策的过程，该过程所具有的要素包括状态、动作、转移策略和奖励；在该过程中，每一步为以用户为中心的大规模mimo系统中的一个ap选择功率分配系数；
[0034]
步骤s202、设定系统状态，系统状态描述了当前功率分配策略下用户的信噪比情况，并指定了当前时刻的ap优化功率控制系数；设置当前系统状态指定为第m个ap更新功率控制系数，则会更新参数η
mk
,k∈t(m)；
[0035]
步骤s203、设定动作空间，动作空间是一个有限集合，集合中的数描述了功率控制系数的全部可选值；
[0036]
步骤s204、设定状态转移概率，状态转移概率描述了在对以用户为中心的大规模
mimo系统实施了功率分配策略后，环境改变为一个新的状态的概率，它的取值为[0,1]；
[0037]
步骤s205、设定奖励，奖励描述了对以用户为中心的大规模mimo系统实施了功率分配策略后k个用户传输速率之和的增益。
[0038]
进一步的，步骤s202所述系统状态表示为s
t
＝[sinr,c]∈s，其中，sinr是用户信噪比，它是一个k维矢量；具体表达式为：
[0039]
sinr＝[sinr1,...,sinrk,...,sinrk]，
[0040]
c是一个用于指示ap索引值的one-hot编码，其具体表达式为：em是第m维为1，其余维均为0的m维矢量，表示当前要为第m个ap更新功率控制系数，则在当前时刻，智能体会对以用户为中心的大规模mimo环境更新参数η
mk
,k∈t(m)，η
mk
＝0,即对于第m个ap建立服务关系的ue，实施这些ue与当前ap之间功率控制系数的更新；而对于没有与第m个ap建立服务关系的ue，将它们与第m个ap之间的功率控制系数置为0；
[0041]
步骤s203所述动作空间为a
t
＝(η
m1
,η
m2
,
…
,η
mk
)，其中，η
mk
＝0,描述了与ap没有建立服务关系的ue的功率系数的取值只能为0；η
mk
∈{0.1,0.4,0.7,1.0}，m＝1,...,m,k∈t(m)则描述了与ap建立服务关系的ue的功率系数功率控制系数的可选值。
[0042]
进一步的，步骤s4所述duelingddqn网络的在线训练过程具体包括：
[0043]
步骤s401、初始化以用户为中心的大规模mimo系统环境模块，即确定ap与ue的分布以及信道模型；初始化智能体模块，即初始化duelingddqn网络的参数以及缓存区；
[0044]
步骤s402、采集状态转移数据；首先将系统状态输入所述智能体模块，智能体模块估计当前状态的q值，然后基于q值进行功率分配系数的选择，并将选择的功率控制系数传输至所述大规模mimo系统环境模块中实施，从而改变环境状态并得到用户信噪比增益作为奖励，最后将本次状态转移的参数保存至所述缓存区中；
[0045]
步骤s403、训练网络；从缓存区中随机抽取一批状态转移参数，先将转移前的系统状态作为智能体模块的输入，使得智能体感知该状态并估计累计奖励值；再将状态转移后的状态作为智能体模块的输入，使得智能体感知该状态并结合状态转移中的奖励值信息得出期望的累积奖励值；
[0046]
步骤s404、以最小化累积收益与期望值之间的均方误差为目标，利用反向传播算法更新所述duelingddqn网络的网络参数；不断重复进行步骤s402～步骤s403的智能体-环境交互操作，从而不断更新网络参数与数据集。
[0047]
进一步的，步骤s5离线训练过程具体包括：
[0048]
进一步的，步骤s5离线训练过程具体包括：
[0049]
步骤s501、初始化以用户为中心的大规模mimo系统环境模块，即确定ap与ue的分布以及信道模型；初始化智能体模块，首先随机初始化duelingddqn网络的参数，然后取出步骤s4中收集的状态转移参数数据集的前20％的数据作为离线训练的数据集；
[0050]
步骤s502、从离线训练数据集中随机抽取一批状态转移参数，先将转移前的系统状态作为智能体模块的输入，使得智能体感知该状态并估计累计奖励值；再将状态转移后的状态作为智能体模块的输入，使得智能体感知该状态并结合状态转移中的奖励值信息得出期望的累积奖励值；以最小化计算累积收益与期望值之间的均方误差为目标，利用反向
传播算法更新所述duelingddqn网络的网络参数；
[0051]
步骤s503、不断重复步骤s502，利用离线数据集对duelingddqn网络更新参数，直至用户的信噪比增益收敛至某一值，停止网络训练。
[0052]
本发明的基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法，具有以下优点：
[0053]
1、本发明与一般的无蜂窝大规模mimo系统模型相比，使用了权利要求s1的步骤，以用户为中心的大规模mimo模型，降低了系统功耗，提高了系统的能量效率；
[0054]
2、本发明与传统的基于优化的功率分配算法相比，使用了权利要求s3～s5的步骤，基于强化学习的算法降低了计算上的时间复杂度与时间成本；
[0055]
3、本发明与在线强化学习算法相比，使用了权利要求s3～s5的步骤，基于离线强化学习的算法，将数据集规模降低到了在线训练的20％，且可以在环境与智能体无法实时交互的实际应用场景下，为以用户为中心的无蜂窝大规模mimo系统进行实时的功率分配。
附图说明
[0056]
图1为本发明实施例1中提供的一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法的流程示意图；
[0057]
图2为本发明实施例1中提供的离线强化学习算法功率分配模型的框架示意图；
[0058]
图3为本发明实施例1中提供的以用户为中心的无蜂窝大规模mimo模型建立的流程图；
[0059]
图4为本发明实施例1中提供的以用户为中心的无蜂窝大规模mimo系统的示意图；
[0060]
图5为本发明实施例1中提供的在线训练duelingddqn网络的流程示意图；
[0061]
图6为本发明实施例1中提供的离线训练duelingddqn网络的流程示意图；
[0062]
图7为本发明实施例1中提供的duelingddqn网络离线训练曲线。
具体实施方式
[0063]
为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法做进一步详细的描述。
[0064]
实施例1
[0065]
参见图1-图7，本实施例提供一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法，具体如图1所示，该方法包括如下步骤：
[0066]
步骤s1、构建以用户为中心的无蜂窝大规模mimo系统，具体包括：
[0067]
首先设定场景的分布区域，设置其中随机分布的无线接入点(accesspoint,ap)、用户设备(userequipment,ue)的个数以及每个ap要服务的ue的个数，然后建立ap与ue之间信道的大尺度衰落与小尺度衰落模型。
[0068]
然后为ue分配正交导频序列，然后令ue将导频序列转发至各个ap，ap端接收到数据后，基于最小均方误差准则估计与特点ue之间的信道系数。对每一个ap，将该ap与所有ue之间的信道估计系数降序排列，为每个ap选择信道系数较高的n个ue建立服务关系，并将建立的服务关系信息转发至cpu。
[0069]
ap端将基于信道估计对待传输数据进行共轭波束赋形，然后以特定的功率将预编
码后的数据发送至与当前ap建立连接关系的ue。
[0070]
将以用户为中心的无蜂窝大规模mimo系统中下行链路数据传输阶段ap与ue之间的功率控制系数作为优化对象，以最大化下行链路阶段ue的速率之和为目标，基于下行链路数据传输阶段的用户信噪比、传输速率以及功率限制条件来构建所述功率分配优化问题。
[0071]
将功率分配系数的优化过程建模为一个马尔可夫决策过程，确定马尔可夫决策过程的状态转移、动作空间、策略以及奖励。
[0072]
步骤s2、将功率分配系数的优化过程建模为一个马尔可夫决策过程。mdp模型可以由一个四元组来描述，四元组可以表示为即状态空间s、动作空间状态转移概率奖励具体如下：
[0073]
1、状态空间s，描述以用户为中心的无蜂窝大规模mimo系统的状态。s
t
＝[sinr,c]∈s，其中，sinr是用户信噪比，它是一个k维矢量。具体表达式为：
[0074]
sinr＝[sinr1,
…
,sinrk,
…
,sinrk]，
[0075]
c是一个用于指示ap索引值的one-hot编码，其具体表达式为：em是第m维为1，其余维均为0的m维矢量，表示当前要为第m个ap更新功率控制系数，则在当前时刻，智能体会对以用户为中心的大规模mimo环境更新参数η
mk
,k∈t(m)，η
mk
＝0,即对于第m个ap建立服务关系的ue，实施这些ue与当前ap之间功率控制系数的更新；而对于没有与第m个ap建立服务关系的ue，将它们与第m个ap之间的功率控制系数置为0。
[0076]
2、动作空间描述智能体可以对以用户为中心的无蜂窝大规模mimo系统实施的功率控制系数。在本实施例中，其中，η
mk
＝0,描述了与ap没有建立服务关系的ue的功率系数的取值只能为0；η
mk
∈{0.1,0.4,0.7,1.0}，m＝1,...,m,k∈t(m)则描述了与ap建立服务关系的ue的功率系数功率控制系数的可选值。
[0077]
3、状态间的转移概率的取值范围为[0,1]。
[0078]
在本实施例中，设处于状态s
t
＝[sinr,c
t
]的智能体通过在以用户为中心的无蜂窝大规模mimo环境中更新功率控制系数(η
m1
,η
m2
,
…
,η
mk
)，使得环境转移到状态s
t 1
＝[sinr
′
,c
t 1
]。
[0079]
4、收益信息在本实施例中，表示为即一次状态转移前后，以用户为中心的大规模mimo系统中全部用户速率之和的增益。
[0080]
步骤s3、构建基于深度强化学习的功率分配算法模型，该模型包括以用户为中心的大规模mimo系统环境模块和智能体模块。所述大规模mimo系统环境模块用于模拟以用户为中心的无蜂窝大规模mimo系统的信道模型以及下行链路数据传输模型，所述智能体模块用于感知当前系统状态、估计功率分配策略的q值以及选择最佳的功率分配系数；智能体模块的核心是深度神经网络，该深度神经网络的训练方式包括前期的在线训练与应用时期的离线训练。
[0081]
步骤s4、在线训练duelingddqn网络。在线训练阶段在基于数据集中的参数训练网
络之前，需要先采集状态转移参数更新数据集。在初始化大规模mimo系统后，首先将系统的状态输入所述深度神经网络，然后基于网络输出的q值为当前ap选择功率控制系数，在环境中实施功率控制策略，从而改变环境状态并得到奖励，并存储这一次的状态转移信息。接着从数据集中随机抽取一批数据，用网络分别计算累积奖励值与期望值，以最小化奖励值与期望值的均方误差为目标更新网络参数。
[0082]
步骤s5、基于步骤s4收集的状态转移数据集离线训练duelingddqn网络。离线训练取出步骤s4所述状态转移数据集的前20％作为离线训练数据集，每次从离线数据集中取出一批数据输入网络，用网络分别计算累积奖励值与期望值，以最小化奖励值与期望值的均方误差为目标更新网络参数，最终使得智能体模块选择最佳的功率控制系数。
[0083]
具体的说，在本实施例中，该功率分配算法模型的具体结构如图2所示，更具体的说，该功率分配模型包括：
[0084]
以用户为中心的无蜂窝大规模mimo环境模块：模拟了信道的大尺度衰落与小尺度衰落模型、上行链路训练模型、下行链路数据传输模型以及mdp模型的状态转移，其中mdp模型的状态转移方式包括不同系统状态以及功率控制系数下的奖励等。
[0085]
在线训练模块：包括缓存区、duelingddqn网络及动作选择策略。在线训练阶段在基于数据集中的参数训练网络之前，需要先采集状态转移参数更新数据集。在初始化大规模mimo系统后，首先将系统的状态输入所述深度神经网络，然后基于网络输出的q值为当前ap选择功率控制系数，在环境中实施功率控制策略，从而改变环境状态并得到奖励，并存储这一次的状态转移信息。接着从数据集中随机抽取一批数据，用网络分别计算累积奖励值与期望值，以最小化奖励值与期望值的均方误差为目标更新网络参数。
[0086]
离线训练模块：包括离线训练数据集、duelingddqn网络。取出在线训练缓冲区数据集的前20％作为离线训练数据集，每次从离线数据集中取出一批数据输入网络，用网络分别计算累积奖励值与期望值，以最小化奖励值与期望值的均方误差为目标更新网络参数，最终使得智能体模块选择最佳的功率控制系数。离线训练模块网络的更新完全依赖于从缓存区中采样得到的训练数据，而不需要额外与环境进行交互。
[0087]
具体的说，在本实施例中提供了一个具体的无蜂窝大规模mimo系统，其模型的建立流程如图3所示，更具体的说，该无蜂窝大规模mimo系统通过如下步骤进行建立：
[0088]
步骤s101、考虑一个面积为1km2的正方形区域，设置该区域中随机分布了m个ap与k个ue，每个ap要服务特点的n个ue。图4展示了m＝8,k＝6,n＝2时的情形，ap与ue仅有单根天线，ap之间通过一个理想回传网络与cpu相连。用g
mk
描述第m个ap与第k个ue之间的信道系数，由下式定义：
[0089][0090]
公式中，h
mk
，m＝1,...,m,k＝1,...,k表示小尺度衰落，服从独立同复高斯分布；β
mk
，m＝1,...,m,k＝1,...,k表示大尺度衰落。
[0091]
步骤s102、对上行链路训练阶段进行建模。首先为ue分配正交导频序列，然后令ue将导频序列转发至各个ap，ap端接收到数据后，基于最小均方误差准则估计与特定ue之间的信道系数，信道估计可表示为：
[0092][0093]
公式中，表示第m个ap与第k个ue之间信道的最小均方误差估计，是第m个ap的接收信号y
p,m
在第k个ue的导频上的投影。c
mk
的表达式为：
[0094][0095]
步骤s103、为每个ap关联其需要服务的ue。对每一个ap，将该ap与所有ue之间的信道估计系数降序排列，为每个ap选择信道系数较高的n个ue建立服务关系，并将建立的服务关系信息转发至cpu。如对于第m个ap，有：
[0096][0097]
则第m个ap为用户s
m1
，s
m2
，
…
，s
mn
服务，即t(m)＝{s
m1
,s
m2
,...,s
mn
}，而对于其他用户s
m,n 1
，
…
，s
mk
，第m个ap与其不传输数据，则有
[0098]
步骤s104、在下行链路数据传输阶段，ap端将步骤s102中得到的信道估计视作真实信道系数，对待传输数据进行共轭波束赋形，然后以特定的功率将预编码后的数据发送至与当前ap建立连接关系的ue。第k个ue接收到的数据可表示为：
[0099][0100]
公式中，r
d,k
表示在下行链路数据传输阶段第k个ue接收到的数据，p(k)表示服务于第k个用户的ap的集合，qk,k＝1,...,k表示要发给第k个ue的符号，qk满足w
d,k
,k＝1,...,k是均值为0，方差为1的加性复高斯噪声，即功率控制系数η
mk
满足以下限制条件：
[0101][0102]
如前所述，公式中，
[0103]
步骤s105、将以用户为中心的无蜂窝大规模mimo系统下行链路数据传输阶段的功率分配问题写为：
[0104][0105]
η
mk
≥0,k＝1,...,k,m＝1,...,m。
[0106]
公式中，表示第k个ue的传输速率，sinrk,k＝1,...,k表示第k个ue的下行链路信噪比，具体可表示为：
[0107][0108]
具体地说，在本实施例中，图5展示了在线训练duelingddqn网络的具体流程。包括：
[0109]
步骤s401、初始化以用户为中心的大规模mimo系统环境模块，即确定ap与ue的分布以及信道模型；初始化智能体模块，即初始化duelingddqn网络的参数以及缓存区。
[0110]
步骤s402、采集状态转移数据。首先将系统状态输入所述智能体模块，智能体模块估计当前状态的q值，然后基于q值进行功率分配系数的选择，并将选择的功率控制系数传输至所述大规模mimo系统环境模块中实施，从而改变环境状态并得到用户信噪比增益作为奖励，最后将本次状态转移的参数保存至所述缓存区中。
[0111]
步骤s403、训练网络。从缓存区中随机抽取一批状态转移参数，先将转移前的系统状态作为智能体模块的输入，使得智能体感知该状态并估计累计奖励值；再将状态转移后的状态作为智能体模块的输入，使得智能体感知该状态并结合状态转移中的奖励值信息得出期望的累积奖励值。
[0112]
步骤s404、以最小化累积收益与期望值之间的均方误差为目标，利用反向传播算法更新所述duelingddqn网络的网络参数。不断重复进行s402～s403的智能体-环境交互操作，从而不断更新网络参数与数据集。
[0113]
具体地说，在本实施例中，图6展示了离线训练duelingddqn网络的具体流程。包括：
[0114]
步骤s501、初始化以用户为中心的大规模mimo系统环境模块，即确定ap与ue的分布以及信道模型；初始化智能体模块，首先随机初始化duelingddqn网络的参数，然后取出步骤s4中收集的状态转移参数数据集的前20％的数据作为离线训练的数据集。
[0115]
步骤s502、从离线训练数据集中随机抽取一批状态转移参数，先将转移前的系统状态作为智能体模块的输入，使得智能体感知该状态并估计累计奖励值；再将状态转移后的状态作为智能体模块的输入，使得智能体感知该状态并结合状态转移中的奖励值信息得出期望的累积奖励值。以最小化计算累积收益与期望值之间的均方误差为目标，利用反向传播算法更新所述duelingddqn网络的网络参数。
[0116]
步骤s503、不断重复步骤s502，利用离线数据集对duelingddqn网络更新参数，直至训练步数达到10000轮。
[0117]
具体的说，在本实施例中，用离线强化学习算法训练duelingddqn网络的累积收益曲线如图7所示。图7表示在m＝10,k＝6,n＝4时，网络的离线训练曲线。图7的横坐标表示训练的轮数，纵坐标表示归一化的收益值。在训练到200轮时，奖励值开始趋于平稳，直到400轮时，奖励值基本收敛到了0.71。这说明本实施例提出的基于离线强化学习的以用户为中心的大规模mimo功率分配算法在仅使用20％的在线训练缓冲区上训练也能够得到较好收敛效果，能够设计出合适的功率分配系数，有助于提高以用户为中心的无蜂窝大规模mimo系统的能量效率。
[0118]
综上所述，本发明实现了一种基于离线强化学习的以用户为中心的无蜂窝大规模mimo系统中的功率分配方法。通过确定该优化问题中的系统状态、动作空间、转移概率以及奖励值，将该功率分配的优化问题过程建模为mdp模型，然后构建一个由以用户为中心的无蜂窝大规模mimo环境模块、在线学习模块、离线学习模块组成的离线学习算法，利用反向传播算法不断优化深度神经网络的参数，得到最大化系统内用户速率之和的功率控制系数。本发明采用了以用户为中心的无蜂窝大规模mimo系统模型，能够在保证服务质量的前提下提高系统的能量效率；本发明提出了基于离线强化学习的算法，使用离线数据集训练智能体，得到功率分配系数的分配方案。该算法只需一次在线训练，就可部署到实际场景下运用离线训练算法实现功率分配系数的动态调控。
[0119]
本发明未详述之处，均为本领域技术人员的公知技术。
[0120]
可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本技术的权利要求范围内的实施例都属于本发明所保护的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种全浏览器调用智能密码钥匙密码应用实现方法与流程

基于离线强化学习的以用户为中心的无蜂窝大规模MIMO功率分配方法

相关文献

最热文献