基于深度强化学习的多优先级无线终端的信道接入方法与流程

2021-11-05 19:50:00 来源：中国专利 TAG：

1.本发明属于无线通信技术领域，尤其涉及一种基于深度强化学习的多优先级无线终端的信道接入方法。

背景技术：

2.目前，随着无线通信技术的快速发展，数据传输、交换等新兴业务对无线信道的需求愈发增强。在无线网络中，当多个用户同时争夺特定资源的使用权(例如共享信道的使用权)时，用户通过获取信道的使用权来发送数据包，此时，由于来自不同用户的信息需要占用信道进行传输，因此可能导致数据包的冲突，从而导致通信失败。为提高通信效率，需要引入多址协议来确定用户对资源的使用权限，解决多用户共享同一物理链路资源的问题。
3.yiding yu等人在文献中在无线异构网络中提出基于深度强化学习的多址接入协议(deep
‑
reinforcement learning multiple access，dlma)。文献中针对不同优化目标提出了不同的基于深度强化学习的多址接入算法，并且对不同目标所对应的算法进行系统仿真对比分析。仿真结果表明dlma在不知道其他共存网络所采取的多址接入协议的情况下，可以实现预期目标，从而提高系统的比例公平性和系统吞吐量。但是，现有的基于深度强化学习的信道接入方法没有考虑不同优先级业务的服务质量需求差异，不能很好地保证高优先级业务的服务质量需求。
4.传统的多址接入协议如时分多址(time division multiple access，tdma)、aloha协议、码分多址(code division multiple access，cdma)、载波侦听多址访问(carrier sense multiple access，csma)等均存在信道利用率低的问题。因此，本发明主要针对上述多址接入协议存在的问题，在具有多优先级业务的网络场景中，设计一种基于深度强化学习的多优先级无线终端的信道接入方法，在保证系统较优吞吐量的约束下，减小高优先级业务的调度时延。
5.通过上述分析，现有技术存在的问题及缺陷为：
6.(1)在无线网络中，当多个用户同时争夺特定资源的使用权时，用户通过获取信道的使用权来发送数据包，由于来自不同用户的信息需要占用信道进行传输，因此可能导致数据包的冲突，从而导致通信失败。
7.(2)现有的基于深度强化学习的信道接入方法没有考虑不同优先级业务的服务质量需求差异，不能很好地保证高优先级业务的服务质量需求。
8.(3)传统的基于多优先级业务的多址接入方法不能充分利用无线信道资源，造成资源的浪费。
9.解决以上问题及缺陷的难度和意义为：本发明提供一种基于深度强化学习的多优先级无线终端的信道接入方法，该方法为无线终端赋予学习能力，利用强化学习机制，与环境进行交互，可进一步提高无线信道资源的利用率；在奖励函数的设计上，通过为不同优先级业务设置不同的奖励，可在减小高优先级业务调度时延的同时，提高低优先级业务接入信道的机会。

技术实现要素：

10.针对现有多址接入协议存在的问题，本发明提供了一种基于深度强化学习的多优先级无线终端的信道接入方法，尤其涉及一种基于深度强化学习的多优先级无线终端的信道接入方法。
11.本发明是这样实现的，一种基于深度强化学习的多优先级无线终端的信道接入方法，所述基于深度强化学习的多优先级无线终端的信道接入方法包括以下步骤：
12.步骤一，建立具有不同优先级业务的网络场景；明确网络场景，用户可以根据不同的网络场景对系统模型和神经网络模型进行修改，从而部署在不同的网络场景中。
13.步骤二，设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模，并针对不同场景设计奖励函数；根据不同的网络场景，对状态空间、动作空间进行微调和使用，针对不同要点(奖励函数设计的核心，如：针对优先级)，设计并修改奖励函数的形式，从而更好地适应不同网络场景下不同要点的需要，以更符合实际部署的需求。
14.步骤三，明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练；针对不同神经网络模型训练过程，模型收敛速度都不大相同，通过对比选择较优的神经网络模型，使训练过程更加迅速、准确。
15.步骤四，将训练好的模型通过多场景的仿真对比进行性能验证。通过多场景下与不区分优先级业务的多址接入协议进行对比，验证并说明本发明的可行性和优越性。
16.进一步，步骤一中，所述建立具有不同优先级业务的网络场景，包括：
17.建立一个有k种优先级业务的传输网络，其中k>0；所述网络场景，包括一个基站，n个drl
‑
mac节点(采取本发明的节点)，m个时分多址(time division multiple access，tdma)节点，x个q
‑
aloha节点，其中(n>1；m x>1)即至少存在一个drl
‑
mac节点和一个其他协议节点。
18.其中，所述基站，用于从节点与基站之间的无线信道上获取数据并进行传输；所述drl
‑
mac节点，采用基于深度强化学习的多址接入技术，如果该节点发送不同优先级业务，将得到由基站反馈的传输结果并根据不同优先级业务得到不同的奖励；如果该节点不发送业务，将会侦听信道并通过信道观察结果得到其他节点在某时隙的传输状态；所述时分多址节点，采用tdma协议，用于根据规律周期性的占用所分配的时隙进行业务传输；所述q
‑
aloha节点，采用q
‑
aloha，用于根据不同场景下的q值，在每个时隙以固定传输概率q进行业务传输。
19.进一步，步骤二中，每个drl
‑
mac节点相当于强化学习中的一个智能体；在每个时隙中，智能体通过当前状态计算出该状态下的q值：
[0020][0021]
其中，q(s
t
,a,θ)是深度神经网络模型计算的近似值，根据贪婪策略从动作集中选择动作a，以最大化奖励总期望或者更好的适应动态变化的无线网络环境。
[0022]
进一步，步骤二中，所述设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模，并针对不同场景设计奖励函数，包括：
[0023]
(1)动作空间建模
[0024]
系统动作集合a
t
＝{a0,a1,a2......a
k
}，其中k为网络场景中优先级业务的种类数目。在时隙t，drl
‑
mac节点需要通过深度神经网络做出决策a，用于确定在当前时隙是否将数据包接入信道；其中a0表示不接入信道；a1......a
k
表示k所对应的不同优先级业务接入信道；
[0025]
采取动作后的得到的信道观察结果为z
t
∈{success,collision,idleness}，通过监听信道获得信道观察结果用于经验元组的构成；其中success表示节点接入信道并传输数据包成功；collision表示多个节点同时接入信道进行传输，导致碰撞；idleness表示信道空闲，即没有节点接入信道；agent根据来自接入点的确认信号和侦听信道来确定信道观察结果；
[0026]
(2)状态空间建模
[0027]
状态集合其中包含着要跟踪的m个历史状态，每个历史状态由动作观察对组成，其中总共有2k 3种组合：
[0028][0029]
(3)奖励函数
[0030]
针对不同优先级业务的网络场景，奖励函数始终遵循的原则就是：业务的优先级越高，传输成功所带来的的奖励就越高，传输失败所带来的惩罚也就越多；奖励函数设置为sum_reward＝α*rewards (1
‑
α)*(delay/t)；其中α与t为可控制变量，参数α用于调整时延对整体奖励的影响值，当不考虑时延对整体奖励的影响时，初始化为1；参数t用于统一时延对奖励的影响范围，初始化为50；delay为某业务从产生到被接入信道时的时延，即调度时延；rewards为针对不同优先级业务提出的奖励值，r1......r
k
为不同优先级业务传输成功所对应的奖励，r
‑1......r
‑
k
为不同优先级业务传输失败所对应的惩罚：
[0031][0032]
进一步，步骤三中，所述明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练，包括：
[0033]
引入dqn使drl
‑
mac节点能更好的学习其他节点对信道的使用情况做出下一步决策，智能体采用深度残差网络架构进行训练，使用深度残差网络用来逼近q值，输入当前状
态s，输出动作策略a，然后结合其他信息构成经验元组，用来对深度残差网络进行训练。
[0034]
进一步，步骤三中，所述明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练，还包括：
[0035]
(1)初始化经验池，设置经验池的容量，初始化参数；
[0036]
(2)从时隙t＝0开始；
[0037]
(3)将当前状态s传入神经网络中计算该状态的q值；通过贪婪策略选择所要执行的动作，并记录采取该动作之后得到的信道观察结果z和总奖励sum_rewards；将获得的状态s，采取动作a后获得的奖励r和达到下一状态s'组成经验元组(s,a,r,s')放入经验池；
[0038]
(4)若当前所产生的经验元组大于经验池容量，则将最早进入经验池中的经验元组丢弃，将最新的经验元组放入经验池中；反之，则将经验元组按照顺序依次进入经验池；
[0039]
(5)若当前时隙t是10的倍数，则从经验池中随机抽取n个经验元组，依次计算经验元组的y值：其中r表示当前状态s下采取行动a所获取的当前奖励，γ∈(0，1)为折扣因子，为未来预测选取q值最大的动作所获得的奖励，否则进入步骤(8)；
[0040]
(6)使用半梯度下降算法更新q
‑
估计网络参数θ；
[0041]
(7)若当前时隙t是参数f的倍数，则将q
‑
估计网络参数θ赋值给目标网络参数θ
‑
，否则进入步骤(8)；
[0042]
(8)若时隙t大于等于设定训练轮次，则退出训练过程；否则进入下一时隙t＝t 1，并进入步骤(3)。
[0043]
本发明的另一目的在于提供一种应用所述基于深度强化学习的多优先级无线终端的信道接入方法的多优先级业务无线终端的信道接入系统，所述多优先级业务无线终端的信道接入系统包括：
[0044]
网络场景建立模块，用于建立具有不同优先级业务的网络场景；
[0045]
系统模型设计模块，用于设计并明确该协议的系统模型；
[0046]
空间建模模块，用于根据协议网络场景进行状态空间建模、动作空间建模；
[0047]
奖励函数设计模块，用于针对不同场景设计奖励函数；
[0048]
神经网络模型建立模块，用于明确并建立该协议所使用的神经网络模型；
[0049]
网络模型训练模块，用于通过经验元组对网络模型进行训练；
[0050]
性能验证模块，用于将训练好的模型通过多场景的仿真对比进行性能验证。
[0051]
本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：
[0052]
建立具有不同优先级业务的网络场景；设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模，并针对不同场景设计奖励函数；明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练；将训练好的模型通过多场景的仿真对比进行性能验证。
[0053]
本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：
[0054]
建立具有不同优先级业务的网络场景；设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模，并针对不同场景设计奖励函数；明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练；将训练好的模型通过多场景的仿真对比进行性能验证。
[0055]
本发明的另一目的在于提供一种无线通信信息数据处理终端，所述无线通信信息数据处理终端用于实现所述多优先级业务无线终端的信道接入系统。
[0056]
结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于深度强化学习的多优先级业务无线终端的信道接入方法(deep reinforcement learning
‑
based medium access control，drl
‑
mac)，通过建立具有不同优先级业务的网络场景；设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模、并针对不同场景设计奖励函数；明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练；将训练好的模型通过多场景的仿真对比进行性能验证，以实现在保证系统吞吐量的约束下，减小高优先级业务的调度时延。本发明使用深度强化学习对多优先级业务无线终端的信道接入方法进行设计，更适用于具有不同优先级业务的无线网络，提高了系统的吞吐量、减小了高优先级业务的调度时延。
[0057]
针对具有不同优先级业务的无线网络，本发明提供了一种基于深度强化学习的多优先级业务无线终端的信道接入方法，该方法为无线终端赋予学习能力，利用强化学习机制，与环境进行交互，可进一步提高无线信道资源的利用率；在奖励函数的设计上，通过为不同优先级业务设置不同的奖励，可在减小高优先级业务调度时延的同时，提高低优先级业务接入信道的机会。通过与未区分优先级业务的多址接入协议进行比较，结果显示，本发明提供的基于深度强化学习的多优先级业务无线终端的信道接入方法有更优的系统吞吐量和高优先级业务的调度时延。
附图说明
[0058]
为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
[0059]
图1是本发明实施例提供的多优先级业务无线终端的信道接入方法流程图。
[0060]
图2是本发明实施例提供的多优先级业务无线终端的信道接入方法原理图。
[0061]
图3是本发明实施例提供的多优先级业务无线终端的信道接入系统结构框图；
[0062]
图中：1、网络场景建立模块；2、系统模型设计模块；3、空间建模模块；4、奖励函数设计模块；5、神经网络模型建立模块；6、网络模型训练模块；7、性能验证模块。
[0063]
图4是本发明实施例提供的基于深度强化学习的训练深度神经网络流程图。
[0064]
图5是本发明实施例提供的网络模型示意图。
[0065]
图6是本发明实施例提供的仿真结果示意图。
具体实施方式
[0066]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明
进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0067]
针对现有技术存在的问题，本发明提供了一种基于深度强化学习的多优先级无线终端的信道接入方法，下面结合附图对本发明作详细的描述。
[0068]
如图1所示，本发明实施例提供的基于深度强化学习的多优先级无线终端的信道接入方法包括以下步骤：
[0069]
s101，建立具有不同优先级业务的网络场景；
[0070]
s102，设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模，并针对不同场景设计奖励函数；
[0071]
s103，明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练；
[0072]
s104，将训练好的模型通过多场景的仿真对比进行性能验证。
[0073]
本发明实施例提供的基于深度强化学习的多优先级无线终端的信道接入方法原理图见图2。
[0074]
如图3所示，本发明实施例提供的多优先级业务无线终端的信道接入系统包括：
[0075]
网络场景建立模块1，用于建立具有不同优先级业务的网络场景；
[0076]
系统模型设计模块2，用于设计并明确该协议的系统模型；
[0077]
空间建模模块3，用于根据协议网络场景进行状态空间建模、动作空间建模；
[0078]
奖励函数设计模块4，用于针对不同场景设计奖励函数；
[0079]
神经网络模型建立模块5，用于明确并建立该协议所使用的神经网络模型；
[0080]
网络模型训练模块6，用于通过经验元组对网络模型进行训练；
[0081]
性能验证模块7，用于将训练好的模型通过多场景仿真对比进行性能验证。
[0082]
下面结合实施例对本发明的技术方案作进一步描述。
[0083]
如图1所示，本发明实施例提供的drl
‑
mac协议包括以下步骤：
[0084]
(1)建立包含多种不同优先级业务的无线网络场景；
[0085]
建立一个具有两种优先级业务的无线网络，所述网络场景中包括：一个基站，n个drl
‑
mac节点(采取本发明的节点)，m个时分多址(time division multiple access，tdma)节点，x个q
‑
aloha节点，其中(n>1；m x>1)即至少存在一个drl
‑
mac节点和一个其他协议节点。
[0086]
所示基站，就是从节点与基站之间的无线信道上获取数据并进行传输；所示drl
‑
mac节点采用基于深度强化学习的多址接入技术，如果该节点发送不同优先级业务，将得到由基站反馈的传输结果并根据不同优先级业务得到不同的奖励；如果该节点不发送业务，将会侦听信道并通过信道观察结果得到其他节点在某时隙的传输状态；所示时分多址节点采用tdma协议，它根据规律周期性的占用所分配的时隙进行业务传输；所示q
‑
aloha节点采用q
‑
aloha，它根据不同场景下的q值，在每个时隙以固定传输概率q进行业务传输。
[0087]
(2)设计并明确该协议的系统模型，根据该协议网络场景进行状态空间建模、动作空间建模、并针对不同场景设计奖励函数；
[0088]
每个drl
‑
mac节点相当于强化学习中的一个智能体；在每个时隙中，智能体通过当前状态计算出该状态下的q值：
[0089][0090]
其中q(s
t
,a,θ)是深度神经网络模型计算的近似值，并根据贪婪策略从动作集中选择动作a，以最大化奖励总期望或者更好的适应动态变化的无线网络环境。
[0091]
(2.1)动作空间建模
[0092]
针对具有两种优先级业务的网络场景，系统动作集合为a
t
＝{a0,a1,a2}，在时隙t，drl
‑
mac节点需要通过深度神经网络做出决策a，来确定在当前时隙是否将数据包接入信道，其中a0表示不接入信道；a1表示将高优先级业务接入信道；a2表示将低优先级业务接入信道。
[0093]
采取动作后的得到的信道观察结果为z
t
∈{success,collision,idleness}，通过监听信道获得信道观察结果用于经验元组的构成，其中success表示节点接入信道并传输数据包成功；collision表示多个节点同时接入信道进行传输，导致碰撞；idleness表示信道空闲，即没有节点接入信道。agent根据来自接入点的确认信号(如果它发送)和侦听信道(如果它等待)来确定信道观察结果。
[0094]
(2.2)状态空间建模
[0095]
状态集合其中包含着要跟踪的m个历史状态，每个历史状态由动作观察对组成，针对具有两种优先级业务的网络场景，动作观察对总共有七种组合：
[0096][0097]
(2.3)奖励函数
[0098]
针对具有两种优先级业务的网络场景，奖励函数始终遵循的原则就是：业务的优先级越高，其传输成功所带来的的奖励就越高；其传输失败所带来的惩罚也就越多。奖励函数设置为sum_reward＝α*rewards (1
‑
α)*(delay/t)，其中α与t为可控制变量，参数α是为了调整时延对整体奖励的影响值，当不考虑时延对整体奖励的影响时，将其初始化为1；参数t主要是为了统一时延对奖励的影响范围，将其初始化为50；delay为某业务从产生到被接入信道时的时延，即调度时延；rewards为针对具有两种优先级业务的网络场景提出的奖励值。
[0099]
[0100]
(3)明确并建立该协议所使用的神经网络模型，并通过经验元组对网络模型进行训练；图4为本发明基于深度强化学习的训练深度神经网络的流程。
[0101]
引入dqn使drl
‑
mac节点能更好的学习其他节点对信道的使用情况做出下一步决策，智能体采用深度残差网络架构进行训练，使用深度残差网络用来逼近q值，输入当前状态s，输出动作策略a，然后结合其他信息构成经验元组，用来对深度残差网络进行训练。
[0102]
(3.1)初始化经验池，设置经验池的容量，初始化参数。
[0103]
(3.2)从时隙t＝0开始；
[0104]
(3.3)将当前状态s传入神经网络中计算该状态的q值；通过贪婪策略选择所要执行的动作，并记录采取该动作之后得到的信道观察结果z和总奖励sum_rewards；将获得的状态s，采取动作a后获得的奖励r和达到下一状态s'组成经验元组(s,a,r,s')放入经验池。
[0105]
(3.4)若当前所产生的经验元组大于经验池容量，那么将最早进入经验池中的经验元组丢弃，将最新的经验元组放入经验池中；反之，将经验元组按照顺序依次进入经验池。
[0106]
(3.5)若当前时隙t是10的倍数，那么从经验池中随机抽取n个经验元组，依次计算经验元组的y值：其中r表示当前状态s下采取行动a所获取的当前奖励，γ∈(0，1)为折扣因子，为未来预测选取q值最大的动作所获得的奖励，否则进入步骤(3.8)。
[0107]
(3.6)使用半梯度下降算法更新q
‑
估计网络参数θ。
[0108]
(3.7)若当前时隙t是参数f的倍数，那么将q
‑
估计网络参数θ赋值给目标网络参数θ
‑
，否则进入步骤(3.8)。
[0109]
(3.8)若时隙t大于等于设定训练轮次，那么退出训练过程；否则进入下一时隙t＝t 1；并进入步骤(3.3)。
[0110]
(4)将训练好的模型通过多场景的仿真对比进行性能验证，以实现在保证系统吞吐量的约束下，减小高优先级业务的调度时延。
[0111]
图5为本发明仿真实验中所使用的网络场景，该网络场景中包含一个基站，n个drl
‑
mac节点(采取本发明的节点)(n>1)，m个tdma节点，x个q
‑
aloha节点(m x>1)，节点和基站之间通过共享的无线信道进行数据包的传输。
[0112]
下面结合仿真实验对本发明的技术效果作详细的描述。
[0113]
1、仿真条件：
[0114]
本发明的仿真实验是在windows平台，主要配置为：cpu为intel(r)core(tm)i7
‑
7500u，2.70ghz；内存是8g；操作系统为windows10；仿真软件为pycharm。
[0115]
2、仿真内容与结果分析：
[0116]
本仿真实验是与模型感知节点做对比，模型感知节点是指该节点知道其他共存节点的多址接入协议(multiple access control,mac)机制，并利用已知mac协议的机制获得与之共存的最佳mac协议。仿真实验结果如图6所示。
[0117]
实例一：在具有两种优先级业务的传输网络下，网络场景中包含一个基站，一个drl
‑
mac节点，一个tdma节点；drl
‑
mac节点始终处于有业务要传输的状态(饱和业务场景)。
[0118]
图6(a)为在饱和业务场景下drl
‑
mac节点与一个tdma节点共存时的吞吐量结果，
其目标为实现系统最优吞吐量。
[0119]
通过图6(a)可以看出当帧长度为10时，tdma所占用时隙n从2变化到9时的吞吐量结果。柱状图中斜线填充部分和纯色填充部分分别表示drl
‑
mac节点和tdma节点的吞吐量。圆形标记虚线是drl
‑
mac节点和tdma节点共存下仿真的总吞吐量，即系统的总吞吐量。菱形标记虚线表示通过模型感知节点验证的理论最优系统吞吐量的值。从图6(a)中可以看到圆形标记虚线和菱形标记虚线几乎重合。这表明drl
‑
mac节点可以通过学习可以发现tdma未使用的时隙，而不需要知道另一个节点使用的协议。
[0120]
图6(b)为在饱和业务场景下drl
‑
mac节点与一个tdma节点共存场景共存时的吞吐量结果，其目标为实现系统最优吞吐量。
[0121]
图6(b)为drl
‑
mac节点与tdma节点在考虑业务优先级和不考虑业务优先级的场景下，高优先级数据包的接入概率。图6(b)的正方形标记实线表示在考虑业务优先级的场景下，高优先级数据包的接入概率；圆形标记实线表示在不考虑业务优先级场景下，高优先级数据包的接入概率。从图6(b)中可以看到蓝色的线在绝大多数情况下均位于红线的线上方。则可以得出结论在考虑业务优先级场景下，drl
‑
mac结点能更加及时地发送高优先级业务，从而保证高优先级业务的优先通信。
[0122]
实例二：在具有两种优先级业务的传输网络下，网络场景中包含一个基站，一个drl
‑
mac节点，一个q
‑
aloha节点；drl
‑
mac节点始终处于有业务要传输的状态(饱和业务场景)。
[0123]
图6(c)为在饱和业务场景下drl
‑
mac节点与一个q
‑
aloha节点共存时的吞吐量结果，其目标为实现系统最优吞吐量。
[0124]
图6(c)显示在饱和业务场景中q
‑
aloha节点与drl
‑
mac节点共存时，q
‑
aloha在接入概率q从0.2变化到0.9时的吞吐量结果。图6(c)中斜线填充部分和纯色填充部分分别表示drl
‑
mac节点和q
‑
aloha节点的吞吐量。圆形标记虚线是drl
‑
mac节点和q
‑
aloha节点共存下仿真的总吞吐量，即表示系统的总吞吐量。菱形标记虚线表示通过模型感知节点验证的理论最优系统吞吐量的值。从图6(c)中可以看到圆形标记虚线和圆形标记虚线在绝大多数的情况下几乎重合。这表明drl
‑
mac节点可以通过学习策略而获得最佳吞吐量，而不需要知道另一个节点是q
‑
aloha节点和传输概率q。
[0125]
图6(d)为在饱和业务场景下drl
‑
mac节点与一个q
‑
aloha节点共存时的吞吐量结果，其目标为实现节点之间的公平传输。
[0126]
图6(d)为在实现比例公平指标的情况下，q
‑
aloha在接入概率q从0.2变化到0.6时的吞吐量结果。其中q
‑
aloha节点、drl
‑
mac节点和系统的实际吞吐量分别通过圆形标记实线、三角形标记实线、正方形标记实线表示，模型感知节点得到的q
‑
aloha节点、drl
‑
mac节点和系统的理论最优吞吐量分别通过圆形标记虚线、三角形标记虚线、正方形标记虚线表示。从图6(d)中可以看到，在实现比例公平指标的情况下，实际吞吐量与理论最优吞吐量存在一些相对较小误差，这可表明drl
‑
mac节点可以通过学习策略来实现比例公平指标，而不需要知道另一个节点是q
‑
aloha节点和传输概率q。
[0127]
图6(e)为在饱和业务场景下drl
‑
mac节点与一个q
‑
aloha节点共存场景共存时的吞吐量结果，其目标为实现系统最优吞吐量。
[0128]
图6(e)是q
‑
aloha在接入概率q从0.2变化到0.9时对高优先级数据包接入概率仿
state disk(ssd))等。
[0135]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用于车辆间的数据分享方法、装置、介质及电子设备与流程

基于深度强化学习的多优先级无线终端的信道接入方法与流程

相关文献

最热文献