一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无线资源调度方法、主动资源调度模型的训练方法及装置与流程

2022-04-24 20:47:42 来源:中国专利 TAG:


1.本发明涉及无线技术领域,尤其是指一种无线资源调度方法、主动资源调度模型的训练方法及装置。


背景技术:

2.大数据和人工智能技术在无线网络中的使用将极大地提升网络的性能。无线网络中丰富的数据使得从数据中学习“知识”,进而实现网络优化成为可能。这些“知识”主要是通过对网络性能或用户行为等的预测来产生作用。据统计,90%的网络和用户行为是可预测的,如信道变化和用户移动性。利用这些预测信息,提前进行资源分配的规划,即主动资源调度,将大大提高资源调度的灵活性,在大时间尺度适配用户行为、提升资源利用率、减小服务时延。
3.现有利用预测信息提升无线网络性能的技术方案主要有:
4.1)基于精准预测信息设计资源调度方法。该方法假设已获知用户移动性、信道状态,以及用户业务量需求的精准预测信息,研究预测窗内资源的调度问题,即在假设相关的预测信息满足精度需求的前提下,设计资源调度方法;
5.2)基于预测信息估计网络和基站的平均性能阈值,以指导用户调度与数据传输。
6.然而,现有的主动资源调度方法存在以下问题:
7.1)依赖精准的预测信息,未考虑预测误差对资源调度方案的影响,而实际系统中很难获得准确的预测信息。利用含有误差的预测信息将造成调度方法性能的不稳定,不能充分发挥调度方法的能力;
8.2)多个预测信息之间缺乏统一的协调机制,某个预测信息的失准将影响整体的调度性能,造成资源浪费,增加服务时延;
9.3)在采用ai算法实现资源调度时,缺乏根据场景和成本-效益评估的动态调度算法选择机制。在某些场景ai算法性能相比于传统算法增益并不明显的情况下,选择计算量需求较大的ai算法实现方式,易造成资源浪费。


技术实现要素:

10.本发明技术方案的目的在于提供一种无线资源调度方法、主动资源调度模型的训练方法及装置,解决现有技术依赖精准预测信息进行主动资源调度,但未考虑预测误差对资源调度方案的影响,以及多个预测信息之间缺乏统一的协调机制,预测信息失准将影响整体的调度性能,造成调度方法性能不稳定,以及资源浪费、增加服务时延的问题。
11.本发明实施例提供一种无线资源调度方法,其中,包括:
12.根据用户侧数据和基站侧数据,获得预测结果信息;
13.根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
14.通过采用强化学习算法的主动资源调度模型对所述状态参数进行分析,获得资源
调度的动作参数;
15.根据所述动作参数,输出资源调度结果。
16.可选地,所述的无线资源调度方法,其中,所述预测结果信息以时间序列表示时间窗中的每一资源配置时间单元中目标参数的预测结果。
17.可选地,所述的无线资源调度方法,其中,所述预测结果信息包括以下至少之一目标参数的预测结果:
18.用户移动性、用户接入基站的可达谱效和基站可用资源。
19.可选地,所述的无线资源调度方法,其中,所述动作参数以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
20.可选地,所述的无线资源调度方法,其中,所述根据所述动作参数,输出资源调度结果,包括:
21.在根据所述动作参数确定每一资源配置时间单元所配置的资源量小于预设阈值时,则执行被动资源调度;
22.在根据所述动作参数确定每一资源配置时间单元所配置的资源量大于或等于所述预设阈值时,则执行主动资源调度。
23.可选地,所述的无线资源调度方法,其中,所述状态参数包括以下至少之一信息:
24.用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
25.本发明实施例还提供一种主动资源调度模型的训练方法,其中,包括:
26.根据用户侧数据和基站侧数据,获得预测结果信息;
27.根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
28.根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得满足目标函数主动资源调度模型。
29.可选地,所述的训练方法,其中,所述根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得主动资源调度模型,包括:
30.通过行动者actor网络,根据当前的所述状态参数s
t
和约束条件计算当前的个人回报参数r(s
t
,a
t
),并根据当前q值确定当前的动作参数a
t
;其中q值为actor网络策略的评价值;
31.通过评论者critic网络,根据当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
,计算更新q值;
32.在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断不满足目标函数的情况下,通过行动者actor网络,根据下一时刻的所述状态参数s
t 1
计算下一时刻的个人回报参数r(s
t 1
,a
t 1
),并根据更新q值确定下一时刻的动作参数a
t 1

33.在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断满足目标函数的情况下,确定模型训练结束。
34.可选地,所述的训练方法,其中,所述方法还包括:
35.将当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
存入经验池中;
36.其中,评论者critic网络由所述经验池获得当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1

37.可选地,所述的训练方法,其中,所述预测结果信息以时间序列表示时间窗中的每一资源配置时间单元中目标参数的预测结果。
38.可选地,所述的训练方法,其中,所述预测结果信息包括以下至少之一目标参数的预测结果:
39.用户移动性、用户接入基站的可达谱效和基站可用资源。
40.可选地,所述的训练方法,其中,所述动作参数以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
41.可选地,所述的训练方法,其中,所述状态参数包括以下至少之一信息:
42.用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
43.可选地,所述的训练方法,其中,所述约束条件包括如下至少之一:
44.基站所分配的资源不超过数据传输总量;
45.每一资源配置时间单元为每一用户所分配的资源满足用户需求;
46.为用户所分配的资源满足用户的服务质量qos需求。
47.本发明实施例还提供一种无线资源调度装置,其中,包括:
48.第一预测获取模块,用于根据用户侧数据和基站侧数据,获得预测结果信息;
49.第一状态转换模块,用于根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
50.资源调度模块,用于通过采用强化学习算法的主动资源调度模型对所述状态参数进行分析,获得资源调度的动作参数;
51.输出模块,用于根据所述动作参数,输出资源调度结果。
52.本发明实施例还提供一种主动资源调度模型的训练装置,其中,包括:
53.第二预测获取模块,用于根据用户侧数据和基站侧数据,获得预测结果信息;
54.第二状态转换模块,用于根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
55.训练模块,用于根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得满足目标函数的主动资源调度模型。
56.本发明实施例还提供一种处理设备,其中,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述的无线资源调度方法。
57.本发明实施例还提供一种处理设备,其中,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述主动资源调度模型的训练方法。
58.本发明实施例还提供一种控制系统,其中,包括如上所述的处理设备和如上所述的处理设备。
59.本发明实施例还提供一种可读存储介质,其中,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上任一项所述的无线资源调度方法中的步骤,或者实现如
上任一项所述主动资源调度模型的训练方法中的步骤。
60.本发明上述技术方案中的至少一个具有以下有益效果:
61.采用本发明实施例所述无线资源调度方法,利用用户侧数据和基站侧数据,进行基站性能和用户行为的相关预测,以实现主动资源调度,并利用采用强化学习算法的主动资源调度模型实现资源调度的鲁棒性,这样即使存在预测误差的情况下仍然可以确定资源调度所需数据,实现资源的高效利用,解决现有技术依赖精准预测信息进行主动资源调度,但未考虑预测误差对资源调度方案的影响,以及多个预测信息之间缺乏统一的协调机制,预测信息失准将影响整体的调度性能,造成调度方法性能不稳定,以及资源浪费、增加服务时延的问题。
附图说明
62.图1为本发明实施例所述无线资源调度方法的流程示意图;
63.图2为采用强化学习算法的基本模型的计算原理示意图;
64.图3为采用本发明实施例所述无线资源调度方法的过程架构图;
65.图4为预测结果信息的表示时序图;
66.图5为动作参数的表示时序图;
67.图6为资源调度过程的示意图;
68.图7为本发明实施例所述主动资源调度模型的训练方法的流程示意图;
69.图8为采用本发明实施例所述主动资源调度模型的训练方法的过程架构图;
70.图9为本发明实施例中,主动资源调度模型的训练方法的具体过程示意图;
71.图10为本发明实施例的其中一实施方式的无线资源调度装置的结构示意图;
72.图11为本发明实施例的另一实施方式的无线资源调度装置的结构示意图;
73.图12为本发明实施例的其中一实施方式的处理设备的结构示意图;
74.图13为本发明实施例的另一实施方式的处理设备的结构示意图;
75.图14为本发明实施例所述控制系统的结构示意图。
具体实施方式
76.为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
77.为解决现有技术依赖精准预测信息进行主动资源调度,但未考虑预测误差对资源调度方案的影响,以及多个预测信息之间缺乏统一的协调机制,预测信息失准将影响整体的调度性能,造成调度方法性能不稳定,以及资源浪费、增加服务时延的问题,本发明实施例提供一种无线资源调度方法,采用用户侧数据和基站侧数据,进行基站性能和用户行为的相关预测,实现主动资源调度,以及采用强化学习算法的主动资源调度模型进行分析,以保证预测误差的鲁棒性,从而使得无线资源调度对环境变化具有主动适应性,能够依据用户行为和基站性能的变化情况,制定精准的调度策略。
78.如图1所示,本发明其中一实施例提供一种无线资源调度方法,包括:
79.s110,根据用户侧数据和基站侧数据,获得预测结果信息;
80.s120,根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的
状态参数;
81.s130,通过采用强化学习算法的主动资源调度模型对所述状态参数进行分析,获得资源调度的动作参数;
82.s140,根据所述动作参数,输出资源调度结果。
83.采用该实施例所述无线资源调度方法,利用用户侧数据和基站侧数据,进行基站性能和用户行为的相关预测,以实现主动资源调度,并利用采用强化学习算法的主动资源调度模型实现资源调度的鲁棒性,这样即使存在预测误差的情况下仍然可以确定资源调度所需数据,实现资源的高效利用,解决现有技术依赖精准预测信息进行主动资源调度,但未考虑预测误差对资源调度方案的影响,以及多个预测信息之间缺乏统一的协调机制,预测信息失准将影响整体的调度性能,造成调度方法性能不稳定,以及资源浪费、增加服务时延的问题。
84.如图2所示为采用强化学习算法的基本模型的计算原理示意图。
85.采用强化学习算法的基本模型的组成包括三个基本元素:状态state是对环境的描述;动作action是对智能体行为的描述;回报reward是一个从状态(或者状态-动作对)到强化信号的映射,即对之前所选动作的评价。
86.智能体agent从环境environment中获取当前所处状态(state)s
t
和奖励值(reward)r
t
,由内部的状态值更新机制,输出选择的动作(action)a
t
。环境在动作a
t
的作用下,切换到新的状态s
t 1
,同时生成一个强化信号r
t 1
(奖励或者惩罚),该强化信号也就是立即回报,立即回报反馈到智能体agent,智能体agent再根据当前所处环境的状态,在保证智能体受到正回报概率增大的原则下,选择下一个动作。选择的动作a
t 1
,不仅会影响当前的立即回报,而且会影响后继以及最终的累积回报。
87.根据以上,采用强化学习算法的关键是依据对具体问题的描述,设计状态state、动作action和回报reward该三个基本元素,利用智能体agent和环境environment上述对该元素的循环更新,最终获得满足预设条件的学习结果。
88.利用上述原理,本发明实施例所述无线资源调度方法,利用根据用户侧数据和基站侧数据,获得的预测结果信息,进行状态值转换,获得主动资源调度模型的状态参数,也即为主动资源调度模型的设计状态,通过上述强化学习算法的模型计算原理,主动资源调度模型生成资源调度的动作参数,也即获得资源调度结果,以能够利用该动作参数,进行资源调度。
89.图3为采用本发明实施例所述无线资源调度方法的过程架构图。结合图1和图3所示,本发明实施例所述无线资源调度方法中:
90.步骤s110,根据用户侧数据和基站侧数据,获得预测结果信息;其中预测结果信息包括用户移动性预测结果、用户接入基站的可达谱效预测结果和基站可用资源预测结果的至少之一;
91.可选地,用户侧数据可以包括用户接入基站地址、用户接入时间和用户驻留时间,用于进行用户移动性预测,获得用户移动性预测结果;
92.可选地,用户侧数据和/或基站侧数据可以包括用户与基站的距离,用于用户接入基站的可达谱效预测,获得用户接入基站的可达谱效预测结果;
93.可选地,基站侧数据可以包括各时隙资源预留信息,用于基站可用资源预测,获得
基站可用资源预测结果。
94.步骤s120,根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;也即,预测结果信息和用户累计数据传输量作为输入数据,输出主动资源调度模型的状态参数。
95.步骤s130,依据所输入的状态参数,经过主动资源调度模型的推理分析,输出资源调度的动作参数,也即获得用于资源调度参数。
96.本发明实施例中,可选地,所述状态参数包括以下至少之一信息:
97.用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
98.本发明实施例中,可选地,为便于步骤s120中,将预测结果信息转换为主动调度模型的状态参数,所述预测结果信息以时间序列表示每一时间窗中的每一资源配置时间单元中目标参数的预测结果。其中,可选地,测量结果信息包括以下至少之一目标参数的预测结果:
99.用户移动性、用户接入基站的可达谱效和基站可用资源。
100.例如:用户移动性的预测结果表示为:φu={φ
t,u
};
101.用户接入基站的可达谱效的预测结果表示为:
102.基站可用资源的预测结果表示为:γu={γ
t,u
};
103.其中,u表示用户id;t表示时间窗,每一时间窗可以包括多个资源配置时间单元,可选地,资源配置时间单元可以为时隙,也可以为其他时间长度值。
104.例如,参阅图4所示,上述的各目标参数的预测结果以时间序列的形式表示,以时间窗为最小预测时间单位。每个时间窗包含h帧,每帧包含k个时隙,第j帧的时隙集合时隙由t表示,且t=1,2,

,hk,每时隙持续时长为δt。
105.其中,用户移动性的预测结果φu、用户接入基站的可达谱效的预测结果和基站可用资源的预测结果γu分别包括多个数据序列,也即对应多个时间序列,每一数据序列表示时间窗中的其中一资源配置时间单元中相应目标参数的预测结果。
106.本发明实施例中,可选地,用户移动性的预测结果φu中所包括的数据序列为用户接入的基站id。
107.同样,本发明实施例中,在步骤s130,对于所输出资源调度的动作参数,以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
108.具体地,如图5所示,动作参数可以表示当用户u在时隙t接入基站φ
t,u
时,基站为用户u分配资源占可配置资源的比例
109.与所输入的测量结果信息的结构相同,资源配置时间单元可以为时隙,也可以为其他时间长度值;时间窗中包括一或多个资源配置时间单元。
110.本发明实施例中,在步骤s140,根据所述动作参数,输出资源调度结果,包括:
111.在根据所述动作参数确定每一资源配置时间单元所配置的资源量小于预设阈值时,则执行被动资源调度;
112.在根据所述动作参数确定每一资源配置时间单元所配置的资源量大于或等于所述预设阈值时,则执行主动资源调度。
113.如图6所示资源调度过程的示意图,确定资源调度的动作参数后,开始执行资源调度过程,在步骤s610开始,包括:
114.s620,根据所述动作参数确定每一资源配置时间单元所配置的资源量;
115.s630,判断每一资源配置时间单元所配置的资源量是否小于预设阈值,在小于预设阈值时,执行s640;在大于或等于预设阈值时,执行s650;
116.s640,执行被动资源调度;
117.s650,执行主动资源调度;
118.s660,调度无线资源;
119.s670,结束。
120.采用本发明实施例所述无线资源调度方法,采用用户侧数据和基站侧数据,进行基站性能和用户行为的相关预测,实现主动资源调度,以及采用强化学习算法的主动资源调度模型进行分想要的,以保证预测误差的鲁棒性,从而使得无线资源调度对环境变化具有主动适应性,能够依据用户行为和基站性能的变化情况,制定精准的调度策略,从而解决现有技术依赖精准预测信息进行主动资源调度,但未考虑预测误差对资源调度方案的影响,以及多个预测信息之间缺乏统一的协调机制,预测信息失准将影响整体的调度性能,造成调度方法性能不稳定,以及资源浪费、增加服务时延的问题。
121.本发明实施例另一方面还提供一种主动资源调度模型的训练方法,该训练方法可以用于对上述无线资源调度方法中的主动资源调度模型进行模型训练,以获得所述无线资源调度方法中具有鲁棒性主动资源调度模型。
122.如图7所示,本发明实施例所述主动资源调度模型的训练方法,包括:
123.s710,根据用户侧数据和基站侧数据,获得预测结果信息;
124.s720,根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
125.s730,根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得满足目标函数的主动资源调度模型。
126.图8为采用本发明实施例所述主动资源调度模型的训练方法的过程架构图。结合图7和图8所示,本发明实施例所述训练方法中:
127.步骤s710,根据用户侧数据和基站侧数据,获得预测结果信息;其中预测结果信息包括用户移动性预测结果、用户接入基站的可达谱效预测结果和基站可用资源预测结果的至少之一;
128.可选地,用户侧数据可以包括用户接入基站地址、用户接入时间和用户驻留时间,用于进行用户移动性预测,获得用户移动性预测结果;
129.可选地,用户侧数据和/或基站侧数据可以包括用户与基站的距离,用于用户接入基站的可达谱效预测,获得用户接入基站的可达谱效预测结果;
130.可选地,基站侧数据可以包括各时隙资源预留信息,用于基站可用资源预测,获得基站可用资源预测结果。
131.步骤s720,根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模
型的状态参数;也即,预测结果信息和用户累计数据传输量作为输入数据,输出主动资源调度模型的状态参数。
132.s730,根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得满足目标函数的主动资源调度模型。
133.采用该训练方法,在步骤s730,利用深度确定性策略梯度(deep deterministic policy gradient)算法将深度q学习(deep q-learning,dqn)与行动者-评论家强化学习架构结合,可处理连续动作空间和连续状态空间的特性,采用深度确定性策略梯度(deep deterministic policy gradient)算法实现对主动资源调度模型的训练。
134.其中,步骤s730中,如图8所示,根据主动资源调度模型需要满足的数据传输性能参数和状态参数,利用ddpg网络进行模型训练。
135.可选地,所述数据传输性能参数是用于配置需要满足的无线传输需求,该数据传输性能参数包括并不限于仅能够包括用户qos保障指标、用户移动性指标和用户上限等。
136.本发明实施例所述训练方法中,模型训练的输入参数包括预测结果信息和数据传输性能参数。
137.与所述无线资源调度方法过程中所输入的预测结果信息的结构相同,所述预测结果信息以时间序列表示每一时间窗中的每一资源配置时间单元中目标参数的预测结果。其中,可选地,测量结果信息包括以下至少之一目标参数的预测结果:
138.用户移动性、用户接入基站的可达谱效和基站可用资源。
139.例如:用户移动性的预测结果表示为:φu={φ
t,u
};
140.用户接入基站的可达谱效的预测结果表示为:
141.基站可用资源的预测结果表示为:γu={γ
t,u
};
142.其中,u表示用户id;t表示时间窗,每一时间窗可以包括多个资源配置时间单元,可选地,资源配置时间单元可以为时隙,也可以为其他时间长度值。
143.例如,参阅图4所示,上述的各目标参数的预测结果以时间序列的形式表示,以时间窗为最小预测时间单位。每个时间窗包含h帧,每帧包含k个时隙,第j帧的时隙集合为时隙由t表示,且t=1,2,...,hk,每时隙持续时长为δt。
144.其中,用户移动性的预测结果φu、用户接入基站的可达谱效的预测结果和基站可用资源的预测结果γu分别包括多个数据序列,也即对应多个时间序列,每一数据序列表示时间窗中的其中一资源配置时间单元中相应目标参数的预测结果。
145.本发明实施例中,可选地,用户移动性的预测结果φu中所包括的数据序列为用户接入的基站id。
146.同样,本发明实施例中,在步骤s720,对于所输出资源调度的动作参数,以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
147.具体地,如图5所示,动作参数可以表示当用户u在时隙t接入基站φ
t,u
时,基站为用户u分配资源占可配置资源的比例
148.与所输入的测量结果信息的结构相同,资源配置时间单元可以为时隙,也可以为
其他时间长度值;时间窗中包括一或多个资源配置时间单元。
149.本发明实施例中,如图8所示,ddpg网络包括评论critic网络和行动者actor网络组成。critic网络通过学习经验池中的历史数据,对actor网络的策略进行评价,并更新q(s,a),其中q(s,a)也即为actor网络策略的评价值;结合图2,actor网络制定agent(基站)的行为策略,并依据状态参数给出agent的动作参数。actor网络然后将当前状态参数s
t
、动作参数a
t
、个人回报参数r
t
、下一时刻的状态参数s
t 1
存入经验池。其中,经验池是用于存储主动资源调度模型的训练过程中,每次训练过程中上述各参数的存储数据库。
150.利用上述功能的ddpg网络,结合图8和图9,所述主动资源调度模型的训练方法的具体过程包括:
151.s910,开始;
152.s920,收集数据传输性能参数;可选地,包括:用户qos、用户数上限和移动性需求等;
153.s930,收集用户侧数据和基站侧数据;
154.s940,根据用户侧数据和基站侧数据,获得预测结果信息;其中预测结果信息包括用户移动性预测结果、用户接入基站的可达谱效预测结果和基站可用资源预测结果的至少之一;
155.s950,根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数s
t

156.s960,状态参数发送至ddpg网络中的actor网络,计算个人回报参数r(s
t
,a
t
),并依据q值给出动作参数a
t
(资源调度结果);
157.s970,将当前时刻的s
t
、a
t
、r(s
t
,a
t
)和下一时刻的状态参数s
t 1
存入经验池;
158.s980,ddpg网络中的critic网络依据s
t
、a
t
、r(s
t
,a
t
)和下一时刻的状态参数s
t 1
更新q值;
159.s990,根据主动资源调度模型需要满足的数据传输性能参数、更新q值和当前的动作参数,判断是否满足目标函数,若不满足该目标函数,则返回执行步骤s930;若满足该目标函数,则执行步骤s991;
160.s991,获得鲁棒主动资源调度模型;
161.s992,结束模型训练。
162.因此,本发明实施例中,在步骤s730中,所述根据主动资源调度模型需要满足的数据传输性能参数和所述状态参数,进行模型训练,获得满足目标函数条件的主动资源调度模型,包括:
163.通过行动者actor网络,根据当前的所述状态参数s
t
、约束条件算当前的个人回报参数r(s
t
,a
t
),并根据当前q值确定当前的动作参数a
t

164.通过评论者critic网络,根据当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
,计算更新q值;
165.在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断不满足目标函数的情况下,通过行动者actor网络,根据下一时刻的所述状态参数s
t 1
计算下一时刻的个人回报参数r(s
t 1
,a
t 1
),并根据更新q值确定下一时刻的动作参数a
t 1

166.在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断满足目标
函数的情况下,确定模型训练结束。本发明实施例所述训练方法,采用基于模型的ddpg强化学习算法决策主动资源调度。ddpg将deep q-learning(dqn)与行动者-评论家强化学习架构结合,可处理连续动作空间和连续状态空间。
167.ddpg算法采用dqn机制实现,需要依据具体应用问题设计优化问题满足的目标函数、约束条件,及强化学习的基本元素,包括状态参数、动作参数和个人回报参数。本发明实施例中,所述主动资源调度方法,上述设计具体描述如下:
168.1)目标函数
169.为便于计算,引入辅助变量tu=(t
t,u
,t
t,u
∈{0,1})。其中,t
t,u
=1表示t时隙用户u仍有数据要传输;t
t,u
=0表示用户u已完成数据传输。用户u的服务时延可表示为tu的1阶范数,该目标函数可以表示为:
[0170][0171]
2)约束条件
[0172]
依据所配置的数据传输性能参数包括用户的移动性、qos需求和数据传输总量等,确定主动资源调度模型需要满足的约束条件为:
[0173]
a)其中表示用户u在时隙t接入基站φ
t,u
时,基站为用户u分配资源占其可配置资源的比例;该约束条件用于指示所分配的资源不超过总量;
[0174]
b)该约束条件表示每时隙为每用户分配的资源满足用户需求;
[0175]
c)该约束条件表示为用户分配的资源满足其qos需求
[0176]
其中,用户u在时隙t的最大传输速率为c
t,u
;其中
[0177]bt,u
表示t时隙用户u至少要传输的数据量占其总数据需求量的百分比;表示基站可用带宽;γ
t,u
表示用户接入基站的可达谱效;
[0178]b′
t,u
∈[0,1]表示该用户的累积传输量占其总数据需求量的百分比。
[0179]
3)状态参数
[0180]
状态参数s
t,u
包括四种元素,除用户接入基站预测值φ
t,u
、基站可用带宽用户接入基站的可达谱效γ
t,u
等预测结果外,还包括用户累计传输数据量占其总数据需求量的百分比b

t,u
,用以描述用户业务的传输完成情况。
[0181][0182]
其中,
[0183]
其中,b

t 1,u
为下一时刻用户累计传输数据量占其总数据需求量的百分比。
[0184]
4)动作参数
[0185]
动作参数a
t,u
为在每时隙为每个用户分配的基站可用资源的百分比:
[0186][0187]
5)个人回报参数
[0188]
表示用户u在状态参数s
t
下采取动作参数a
t,u
后得到的个人回报ru(s
t
,a
t
)和全局回报r(s
t
,a
t
),其中智能体旨在最大化长期全局回报。定义个人回报为:
[0189]ru
(s
t
,a
t
)=ηu(b

t 1,u-1) p1[0190]
其中,ηu为用户适配因子,描述用户的移动强度,为用户适配因子,描述用户的移动强度,为用户u的平均小区驻留时间。
[0191]
全局回报为:
[0192][0193]
其中,p1为违反上述约束条件的惩罚。
[0194]
根据以上,本发明实施例中,所述训练方法中,进行模型训练时,获得满足目标函数的主动资源调度模型。
[0195]
本发明实施例中,进行模型训练的约束条件包括如下至少之一:
[0196]
基站所分配的资源不超过数据传输总量;
[0197]
每一资源配置时间单元为每一用户所分配的资源满足用户需求;
[0198]
为用户所分配的资源满足用户的服务质量qos需求。
[0199]
本发明实施例所述无线资源调度方法和主动资源调度模型的训练方法中,利用预测信息实现主动资源调度,同时采用强化学习主动调度方法实现对预测精度的鲁棒性,保证在存在预测误差的情况下仍然可以实现资源的高效利用;另外,确定资源调度所需数据,并实现预测数据到ai模型输入的转化格式;以及设计了适用于鲁棒主动资源调度问题的强化学习基本元素。
[0200]
本发明实施例还提供一种无线资源调度装置,如图10所示,包括:
[0201]
第一预测获取模块1010,用于根据用户侧数据和基站侧数据,获得预测结果信息;
[0202]
第一状态转换模块1020,用于根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
[0203]
资源调度模块1030,用于通过采用强化学习算法的主动资源调度模型对所述状态参数进行分析,获得资源调度的动作参数;
[0204]
输出模块1040,用于根据所述动作参数,输出资源调度结果。
[0205]
可选地,所述的无线资源调度装置,其中,所述预测结果信息以时间序列表示时间窗中的每一资源配置时间单元中目标参数的预测结果。
[0206]
可选地,所述的无线资源调度装置,其中,所述预测结果信息包括以下至少之一目标参数的预测结果:
[0207]
用户移动性、用户接入基站的可达谱效和基站可用资源。
[0208]
可选地,所述的无线资源调度装置,其中,所述动作参数以时间序列表示时间窗中
的每一资源配置时间单元所接入用户及所配置的资源量。
[0209]
可选地,所述的无线资源调度装置,其中,所述输出模块1040根据所述动作参数,输出资源调度结果,包括:
[0210]
在根据所述动作参数确定每一资源配置时间单元所配置的资源量小于预设阈值时,则执行被动资源调度;
[0211]
在根据所述动作参数确定每一资源配置时间单元所配置的资源量大于或等于所述预设阈值时,则执行主动资源调度。
[0212]
可选地,所述的无线资源调度装置,其中,所述状态参数包括以下至少之一信息:
[0213]
用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
[0214]
本发明实施例还提供一种主动资源调度模型的训练装置,如图11,包括:
[0215]
第二预测获取模块1110,用于根据用户侧数据和基站侧数据,获得预测结果信息;
[0216]
第二状态转换模块1120,用于根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
[0217]
训练模块1130,用于根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得满足目标函数的主动资源调度模型。
[0218]
可选地,所述的训练装置,其中,所述训练模块1130根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得主动资源调度模型,包括:
[0219]
通过行动者actor网络,根据当前的所述状态参数s
t
和约束条件计算当前的个人回报参数r(s
t
,a
t
),并根据当前q值确定当前的动作参数a
t
;其中q值为actor网络策略的评价值;
[0220]
通过评论者critic网络,根据当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
,计算更新q值;
[0221]
在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断不满足目标函数的情况下,通过行动者actor网络,根据下一时刻的所述状态参数s
t 1
计算下一时刻的个人回报参数r(s
t 1
,a
t 1
),并根据更新q值确定下一时刻的动作参数a
t 1

[0222]
在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断满足目标函数的情况下,确定模型训练结束。
[0223]
可选地,所述的训练装置,其中,训练模块1130还用于:
[0224]
将当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
存入经验池中;
[0225]
其中,评论者critic网络由所述经验池获得当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1

[0226]
可选地,所述的训练装置,其中,所述预测结果信息以时间序列表示时间窗中的每一资源配置时间单元中目标参数的预测结果。
[0227]
可选地,所述的训练装置,其中,所述预测结果信息包括以下至少之一目标参数的预测结果:
[0228]
用户移动性、用户接入基站的可达谱效和基站可用资源。
[0229]
可选地,所述的训练装置,其中,所述动作参数以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
[0230]
可选地,所述的训练装置,其中,所述状态参数包括以下至少之一信息:
[0231]
用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
[0232]
可选地,所述的训练装置,其中,所述约束条件包括如下至少之一:
[0233]
基站所分配的资源不超过数据传输总量;
[0234]
每一资源配置时间单元为每一用户所分配的资源满足用户需求;
[0235]
为用户所分配的资源满足用户的服务质量qos需求。
[0236]
本发明实施例另一方面还提供一种处理设备,该实施方式中,所述处理设备为基站,如图12所示,包括:处理器1201;以及通过总线接口1202与所述处理器1201相连接的存储器1203,所述存储器1203用于存储所述处理器1201在执行操作时所使用的程序和数据,处理器1201调用并执行所述存储器1203中所存储的程序和数据。
[0237]
其中,收发机1204与总线接口1202连接,用于在处理器1201的控制下接收和发送数据,具体地,处理器1201用于读取存储器1203中的程序,执行下列过程:
[0238]
根据用户侧数据和基站侧数据,获得预测结果信息;
[0239]
根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
[0240]
通过采用强化学习算法的主动资源调度模型对所述状态参数进行分析,获得资源调度的动作参数;
[0241]
根据所述动作参数,输出资源调度结果。
[0242]
可选地,所述的处理设备,其中,所述预测结果信息以时间序列表示时间窗中的每一资源配置时间单元中目标参数的预测结果。
[0243]
可选地,所述的处理设备,其中,所述预测结果信息包括以下至少之一目标参数的预测结果:
[0244]
用户移动性、用户接入基站的可达谱效和基站可用资源。
[0245]
可选地,所述的处理设备,其中,所述动作参数以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
[0246]
可选地,所述的处理设备,其中,所述处理器1201根据所述动作参数,输出资源调度结果,包括:
[0247]
在根据所述动作参数确定每一资源配置时间单元所配置的资源量小于预设阈值时,则执行被动资源调度;
[0248]
在根据所述动作参数确定每一资源配置时间单元所配置的资源量大于或等于所述预设阈值时,则执行主动资源调度。
[0249]
可选地,所述的处理设备,其中,所述状态参数包括以下至少之一信息:
[0250]
用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
[0251]
其中,在图12中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器1201代表的一个或多个处理器和存储器1203代表的存储器的各种电路链接在一起。总线架
构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机1204可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器1201负责管理总线架构和通常的处理,存储器1203可以存储处理器1201在执行操作时所使用的数据。
[0252]
本发明实施例另一方面还提供一种处理设备,该实施方式中,所述处理设备为基站,如图13所示,包括:处理器1301;以及通过总线接口1302与所述处理器1301相连接的存储器1303,所述存储器1303用于存储所述处理器1301在执行操作时所使用的程序和数据,处理器1301调用并执行所述存储器1303中所存储的程序和数据。
[0253]
其中,收发机1304与总线接口1302连接,用于在处理器1301的控制下接收和发送数据,具体地,处理器1301用于读取存储器1303中的程序,执行下列过程:
[0254]
根据用户侧数据和基站侧数据,获得预测结果信息;
[0255]
根据用户累计数据传输量和所述预测结果信息,获得主动资源调度模型的状态参数;
[0256]
根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得满足目标函数主动资源调度模型。
[0257]
可选地,所述的处理设备,其中,所述处理器1301根据主动资源调度模型需要满足的数据传输性能参数、约束条件和所述状态参数,进行模型训练,获得主动资源调度模型,包括:
[0258]
通过行动者actor网络,根据当前的所述状态参数s
t
和约束条件计算当前的个人回报参数r(s
t
,a
t
),并根据当前q值确定当前的动作参数a
t
;其中q值为actor网络策略的评价值;
[0259]
通过评论者critic网络,根据当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
,计算更新q值;
[0260]
在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断不满足目标函数的情况下,通过行动者actor网络,根据下一时刻的所述状态参数s
t 1
计算下一时刻的个人回报参数r(s
t 1
,a
t 1
),并根据更新q值确定下一时刻的动作参数a
t 1

[0261]
在根据所述更新q值、当前的动作参数a
t
和所述数据传输性能参数判断满足目标函数的情况下,确定模型训练结束。
[0262]
可选地,所述的处理设备,其中,处理器1301还用于:
[0263]
将当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1
存入经验池中;
[0264]
其中,评论者critic网络由所述经验池获得当前的所述状态参数s
t
、当前的动作参数a
t
、当前的个人回报参数r(s
t
,a
t
)和下一时刻的状态参数s
t 1

[0265]
可选地,所述的处理设备,其中,所述预测结果信息以时间序列表示时间窗中的每一资源配置时间单元中目标参数的预测结果。
[0266]
可选地,所述的处理设备,其中,所述预测结果信息包括以下至少之一目标参数的预测结果:
[0267]
用户移动性、用户接入基站的可达谱效和基站可用资源。
[0268]
可选地,所述的处理设备,其中,所述动作参数以时间序列表示时间窗中的每一资源配置时间单元所接入用户及所配置的资源量。
[0269]
可选地,所述的处理设备,其中,所述状态参数包括以下至少之一信息:
[0270]
用户接入基站预测值、基站可用带度、用户接入基站的可达谱效和用户累计传输数据量。
[0271]
可选地,所述的处理设备,其中,所述约束条件包括如下至少之一:
[0272]
基站所分配的资源不超过数据传输总量;
[0273]
每一资源配置时间单元为每一用户所分配的资源满足用户需求;
[0274]
为用户所分配的资源满足用户的服务质量qos需求。
[0275]
其中,在图13中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器1301代表的一个或多个处理器和存储器1303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机1304可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器1301负责管理总线架构和通常的处理,存储器1303可以存储处理器1301在执行操作时所使用的数据。
[0276]
本发明实施例另一方面还提供一种控制系统,包括上述的两种结构的处理设备。
[0277]
本发明实施例中,上述的其中一处理设备用于主动资源调度模型的训练,另一处理设备用于利用所训练的主动资源调度模型对基站实现主动资源调度。以进行主动资源调度模型训练的处理设备为无线智能管理器,进行主动资源调度的处理设备为无线智能控制器为例,对该两个处理设备结合进行资源调度的过程进行说明,如图14所示,进行主动资源调度主要包括以下过程:
[0278]
1)鲁棒主动资源调度模型训练过程
[0279]
步骤1:无线智能管理器收集网络级(也即为基站级)和用户级数据。
[0280]
所述网络级和用户级数据至少包括:小区级的基站不同qci等级业务的负载、非实时业务的负载、用户在一定时间窗口内的接入小区id的历史记录、用户进入该小区的时刻、用户在小区内的驻留时长、用户在预测时间窗内每个资源分配单元的本小区和邻小区无线信号质量、无线信号强度、信干噪比、基站发射功率等信息;
[0281]
步骤2:无线智能管理器基于收集的数据,训练用户移动性预测模型、用户接入基站可达谱效预测模型、基站可用资源预测模型、鲁棒主动资源调度模型。
[0282]
2)鲁棒主动资源调度模型部署
[0283]
步骤3:将步骤2中训练得到的各预测模型和鲁棒主动资源调度模型下发并部署到无线智能控制器。
[0284]
3)实时资源调度(鲁棒主动资源调度模型推理)过程
[0285]
步骤4:无线智能控制器从基站实时订阅用户无线信号质量、用户在一段时间内的历史接入小区id序列、基站不同类型业务的资源负载等信息;
[0286]
步骤5:用户移动性预测模型实时预测用户在预测窗内的接入小区id;用户接入基站可达谱效预测模型预测用户接入基站的信号质量;基站可用资源预测模型实时预测基站的可用资源。上述预测信息作为鲁棒主动资源调度模型的输入,经过模型推理得到用户在
预测时间窗内,其接入基站为其分配的可用资源的百分比;
[0287]
步骤6:无线智能控制器将鲁棒主动资源调度模型推理得到的资源调度结果发送给基站;
[0288]
步骤7:基站实时测量用户的信号质量rsrp、sinr等测量数据,并依据rsrp最大准则,确定用户接入的小区;
[0289]
步骤8:根据用户接入小区的实际可配置资源量,选取资源调度方法,确定资源分配方案。若选取鲁棒主动资源调度方法,则按照鲁棒主动资源调度模型给出的资源调度结果确定资源配置方案;否则按照被动资源调度方法确定资源配置方案;
[0290]
步骤9:基站根据步骤8得到的资源配置方案进行资源调度和数据传输。
[0291]
通过上述的过程,利用用户侧数据和基站侧数据,进行基站性能和用户行为的相关预测,以实现主动资源调度,并利用采用强化学习算法的主动资源调度模型实现资源调度的鲁棒性,这样即使存在预测误差的情况下仍然可以确定资源调度所需数据,实现资源的高效利用。
[0292]
另外,本发明具体实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上中任一项所述的无线资源调度方法中的步骤,或者实现如上中任一项所述的主动资源调度模型的训练方法中的步骤。
[0293]
具体地,该计算机可读存储介质应用于上述的终端,在应用于终端时,对应烟感告警上报的方法中的执行步骤如上的详细描述,在此不再赘述。
[0294]
在本技术所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0295]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0296]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0297]
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献