一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网络资源优化方法、装置、电子设备及存储介质与流程

2022-02-22 17:17:11 来源:中国专利 TAG:


1.本技术涉及网络资源分配技术领域,尤其涉及一种网络资源优化方法、装置、电子设备及存储介质。


背景技术:

2.网络切片是指网络资源的灵活分配,根据要求划分多个具有不同特征的且相互隔离的逻辑子网。在核心网络或传统的蜂窝网络中,整个系统设计为支持许多类型的服务。然而,由移动虚拟网络运营商(mvno,mobile virtual network operator)组成的虚拟无线网络专用于一种服务(例如,视频转码和地图下载),这将提供更好的用户体验。mvno主要专注于将基础设施提供商(inp,infrastructure provider)的物理资源抽象和虚拟化为多个网络片,以满足网络片提供商(sp,service provider)的服务质量(qos,quality of service)。
3.mvno、inp、sp的作用总结如下:
4.1)mvno从inp租赁物理资源和回程带宽等资源,根据不同用户请求生成虚拟资源到不同的切片,并将虚拟资源租赁给sp执行操作。
5.2)拥有物理网络无线电资源(如回程和频谱)的inp可以操作物理网络基础设施。
6.3)sp将针对不同服务和各种qos需求的虚拟资源出租给用户。
7.但是现有的网络资源的分配方式不够合理,基于现在快速的网路资源的发展,网络传输的数据量在大幅度的递增,使得整体的网络资源容易出现运行较慢和卡顿的情况。


技术实现要素:

8.有鉴于此,本技术的目的在于提出一种网络资源优化方法、装置、电子设备及存储介质用以解决或部分解决上述技术问题。
9.基于上述目的,本技术的第一方面提供了一种网络资源优化方法,包括:
10.采集网络系统中的通信样本资源、计算样本资源、缓存样本资源以及当前用户终端信息;
11.将所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至深度确定性策略梯度模型中进行处理,输出代理动作信息和奖励数据信息;
12.利用所述环境数据信息、所述代理动作信息和奖励数据信息作为训练样本,对梯度增强决策树初始模型进行训练,得到能够对网络资源进行优化的梯度增强决策树模型;
13.将网络系统的当前环境数据信息、当前代理动作信息和当前奖励数据信息输入训练好的梯度增强决策树模型中进行处理,梯度增强决策树模型输出网络系统的最大化总效用的资源分配策略。
14.本技术的第二方面提供了一种网络资源优化装置,包括:
15.采集模块,被配置为采集网络系统中的通信样本资源、计算样本资源和缓存样本资源;
16.深度确定性策略梯度处理模块,被配置为将所述通信样本资源、所述计算样本资源、所述缓存样本资源和用户终端信息输入至深度确定性策略梯度模型中进行处理,输出代理动作信息和奖励数据信息;
17.决策树训练模块,被配置为利用所述环境数据信息、所述代理动作信息和奖励数据信息作为训练样本,对梯度增强决策树初始模型进行训练,得到能够对网络资源进行优化的梯度增强决策树模型;
18.资源分配处理模块,被配置为将网络系统的当前通信资源、当前计算资源、当前缓存资源和当前用户终端信息输入梯度增强决策树模型中进行处理,梯度增强决策树模型输出网络系统的最大化总效用的资源分配策略。
19.本技术的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
20.本技术的第四方面提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述方法。
21.从上面所述可以看出,本技术提供的网络资源优化方法、装置、电子设备及存储介质,将采集到的通信样本资源、计算样本资源、缓存样本资源和用户终端信息对深度确定性策略梯度模型进行训练,训练后输出的代理动作信息和奖励数据信息再用来训练梯度增强决策树初始模型,进而得到能够对网络资源进行优化的梯度增强决策树模型,这样就可以利用该梯度增强决策树模型快速的对深度确定性策略梯度模型输出的当前环境数据信息、当前代理动作信息和当前奖励数据信息进行处理得到最大化总效用的资源分配策略。这样,就可以按照最大化总效用的资源分配策略对网络资源进行分配,进而使得网络资源分配更加合理,使得网络资源的利用率得到大幅度提高。
附图说明
22.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本技术实施例的网络资源优化方法的流程图;
24.图2为本技术实施例的网络资源优化装置的结构框图;
25.图3为本技术实施例的电子设备的结构示意图。
具体实施方式
26.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
27.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在
该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
28.随着无线通信网的不断扩展和用户应用需求的多样化,mvno迫切需要设计由qos和经验质量(qoe,quality of experience)组成的系统,为用户提供满意服务。
29.多接入边缘计算(mec,multi access edge computing)是指在网络边缘的小基站中部署了具有特定计算资源和缓存资源的边缘服务器,该技术可充分利用网络资源,满足用户的qos。因此,当用户请求资源时,mec服务器可以以分布式的方式执行相应的任务,从而将节省回程带宽。与宏基站(mbs,mobile base station)相比,小基站中的边缘服务器是轻量级的,而且资源有限。因此,迫切需要为用户请求的计算和缓存任务找到可行的资源分配方案。此外,5g技术保证了用户的qoe和网络的qos,但在动态环境中找到分配信道资源和带宽的最优方案仍然是一个挑战。
30.深度强化学习(drl,deep reinforcement learning)作为人工智能领域的一个关键分支,具有识别动态环境的能力,并在解决资源分配问题方面具有广阔的应用前景。drl方法可以广泛地解决网络切片时变网络中复杂资源分配问题。一些研究应用drl方法来管理资源,如深度q网络(dqn,deep q network),这是联合为用户调度资源的有效方法。dqn适用于解决离散动作空间问题。然而,我们工作中的行动空间是连续的。因此,本文采用深度确定性策略梯度(ddpg,deep deterministic policy gradient)方法,将actor-critic框架与深度神经网络(dnn,deep neural networks)相结合,解决资源分配问题。
31.集成学习是将多个单一模型组合起来形成一个更好的模型的过程,考虑到drl的局限性和高计算成本,通过集成学习辅助drl算法。梯度增强决策树(gbdt,gradient boosting decision tree)是集成学习的一个分支,提出通过深度强化学习得到的解可以通过在成像领域广泛使用的蒸馏方法转化为gbdt模型。与drl方法相比,它可以显示出gbdt模型中输入参数的重要性,并更经济、更快地计算出输出。
32.基于上述理论基础,本技术的实施例提出了一种网络资源优化方法,如图1所示,步骤包括:
33.步骤101,采集网络系统中的通信样本资源、计算样本资源、缓存样本资源和用户终端信息。
34.步骤102,将所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至深度确定性策略梯度模型(即,ddpg)中进行处理,输出代理动作信息和奖励数据信息。
35.步骤103,将所述环境数据信息、所述代理动作信息和奖励数据信息进行记录,生成数据集。
36.步骤104,利用所述所述数据集对梯度增强决策树初始模型(gbdt初始模型)进行训练,得到能够对网络资源进行优化的梯度增强决策树模型(gbdt模型)。
37.步骤105,将网络系统的当前通信资源、当前计算资源、当前缓存资源和当前用户终端信息输入训练好的梯度增强决策树模型中进行处理,梯度增强决策树模型输出网络系统的最大化总效用的资源分配策略。
38.在上述方案中,深度确定性策略梯度(ddpg)是基于边缘计算和缓存的一套算法模
型,考虑了用户终端的移动性和mec服务器和用户终端之间的动态通信条件,以共同优化连续行动空间中的任务调度和资源分配。
39.为了协调网络功能和动态分配有限的资源,本技术采用改进的深度强化学习(drl)方法,充分考虑用户终端的移动性和动态无线信道条件,获得移动虚拟网络运营商(mvno)的最大利润函数。考虑到drl算法的慢收敛速度,将drl和集成学习相结合,利用ddpg算法生成的数据集来训练梯度增强决策树(gbdt)模型。训练后的gbdt模型可以完全模仿ddpg代理的行为,结果的输出速度更快,更具成本效益。
40.在一些实施例中,所述网络系统包括:相互通信连接的用户终端、设有控制器的移动通信基站(即,宏基站mbs)和配备多接入边缘计算的小基站。
41.步骤101具体包括:
42.步骤1011,所述移动通信基站根据获取的每个有服务请求的用户终端与小基站的关联指标、小基站的总频谱宽带和分配给用户终端的子信道,确定分配给小基站的频谱带宽,将确定的分配给小基站的频谱带宽作为通信样本资源。
43.网络系统由一个部署有控制器的mbs和几个配备mec服务器的小基站组成,其中代表用户终端集,代表小基站集。用户终端请求的服务可分为计算卸载和内容交付。假设请求包有标志,可以区分不同服务的服务类型。
44.表示请求计算卸载的用户终端集合,表示请求内容交付的用户终端集合。如果用户终端在同一时刻只能接受一种服务请求,请求服务的用户终端数量可以定义为n m=v。此外,表示请求服务sp的集合。请求服务sp的所有用户终端可以看作集合其中v=∪
svs

45.小基站的覆盖区域是重叠的,以确保每个有服务请求的用户终端都与小基站相关联。可以看做任务建立指标,其中表示用户终端v请求服务s与小基站u关联;否则特别地,每个用户终端只能关联一个小基站,定义为
46.所有小基站的总频谱带宽可以定义为b,即b=∪
ubu
。bu表示分配给小基站u的频谱带宽。实际上,小基站buhz的带宽可以划分为bu/b个子信道,分配给用户终端vs的子信道定义为
47.因此bu可以表示为其中是从小基站u到用户终端vs的分配带宽。
48.步骤1012,所述移动通信基站获取分配给用户终端的小基站的计算能力作为计算样本资源。
49.如果小基站属于不同的inp,每个inp的许可频谱是正交的。因此,不同的小基站之间不存在干扰。但是,属于同一个sp并连接到同一个小基站的用户终端之间存在干扰。用户
终端vs与小基站u之间的平均信号干扰噪声比(sinr)可以定义为其中和分别代表用户终端和用户终端的传输功率,和是平均通道增益,σ2是加性高斯白噪声(awgn)。
50.此外,小基站u和用户终端vs之间的数据传输速率可以通过香农理论计算,即
51.本技术用了准静态假设,即环境状态在时隙t内保持不变。用户终端请求的计算任务可以描述为其中表示输入数据大小(单位,比特),表示用户终端请求的计算任务的计算能力(计算任务的cpu周期总数),此外,是分配给用户终端的小基站u的计算能力(cpu每秒),计算任务在小基站u处的总执行时间为
52.因此,用户终端的计算速率为
53.计算任务的总能量消耗可以表示为其中eu表示每个cpu周期的小基站u能耗。
54.此外每个小基站的计算能力是有限的,即其中fu是分配给小基站u的计算能力。实际上,所有小基站的总计算能力可以定义为f,即f=∪
ufu

55.步骤1013,所述移动通信基站将获取到的分配给小基站的缓存空间作为缓存样本资源。
56.用户终端的缓存任务可以描述为本文假设小基站的存储空间有限,只能存储种内容类型。缓存任务采用先进先出的方式,即当最新的内容决定存储时,将删除最早存储的内容。用户终端请求内容f的概率服从zipf分布,建模为其中参数l表示内容的流行度,它总是一个正值。在我们的缓存模型中,如果已知用户终端的内容缓存任务,则可以直接从公式中计算出内容的流行度。
57.此外,是通过回程下载所需内容的时间。因此,通过缓存内容获得的预期回程带宽节省可以表示为其中可以通过内容流行度方程直接计
算。
58.在具体实施过程中采用一种缓存策略,其中不同内容的价格是已知的。此外,每个小基站的缓存空间是有限的,即其中cu是分配给小基站u的缓存空间。实际上,所有小基站的总缓存空间可以定义为c,即c=∪
ucu

59.基于上述得到的通信样本资源、计算样本资源和缓存样本资源和用户终端信息,为了最大化mvno的总利润,构建一个集成架构,进行任务调度和资源分配mvno向用户终端收取的虚拟网络接入费用为每bps在向mvno支付费用后,用户终端有权访问物理资源并完成任务。另一方面,mvno还为inp支付频谱使用费每hz如果请求的任务用户终端是计算卸载,mvno可能会从用户终端收取每bps的费用同时,mvno将为小基站支付计算能量成本为每j如果任务是内容交付,mvno可能会收取费用每bps同时,mvno将付出预期节省的回程带宽的费用每byte
60.因此,用户终端和小基站u间进行传输的利润函数可以定义为
[0061][0062]
mvno的总利润可以分为三个组成部分,即通信、计算和缓存收益。
[0063]
通信收益:上述利润函数的第一项是通信收入。表示用户终端为访问虚拟网络而向mvno支付的费用,表示mvno向inp支付的带宽费用。
[0064]
计算收益:上述利润函数的第二项是计算收益。表示用户终端为mvno执行计算任务而支付的费用,表示mvno为inp支付的能耗费用。
[0065]
缓存收益:上述利润函数的最后一项是缓存收入。表示用户终端为mvno执行缓存任务而支付的费用,表示mvno为缓存内容向inp的费用。
[0066]
本公开优化目标为最大化mvno的总利润op,因此可以得到
[0067][0068]
s.t.:
[0069][0070]
[0071][0072]
c1表示用户终端只能与一个小基站u关联;c2意味着从小基站u分配给与其关联的所有用户终端的带宽不能超过小基站u的频谱资源;c3和c5分别保证了用户终端的通信速率和计算速率要求;c4和c6表明每个小基站u的计算能力fu和缓存空间cu是有限的。
[0073]
在一些实施例中,步骤102具体包括:
[0074]
步骤1021,设置所述深度确定性策略梯度模型的第一输入参数和第一输出参数,其中,所述第一输入参数至少包括:所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息,所述第一输出参数至少包括:代理动作信息和奖励数据信息。
[0075]
步骤1022,将获得的所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至演化网络中,并根据时间进行循环执行,执行过程中不断计算对应的第一损失函数,根据所述第一损失函数对深度确定性策略模型的参数进行调整。
[0076]
其中,所述深度确定性策略模型包括:演化网络和评价网络。
[0077]
预先对演化网络和评价网络的参数进行初始化;在所述演化网络中进行循环执行,执行过程中,利用评价网络不断计算第一损失函数,对所述第一损失函数进行最小化处理,根据最小化的损失函数对评价网络的参数进行调整;依据采样的策略梯度对演化网络的参数进行调整;对演化目标网络和评价目标网络的参数进行调整。
[0078]
步骤1023,全部处理完成后获取深度确定性策略模型输出的第一输出参数的具体数据。
[0079]
部署在移动通信基站的控制器可以与环境交互(即收集系统状态的所有信息)并在执行动作后获得奖励(即对所有请求做出决策),目标是最大化长期累积回报。控制器探索最优策略的过程为:在时隙t观察状态信息s
t
∈s,然后根据策略π(a|s)(表示此状态下选择动作的概率)选择动作a
t
∈a;采取动作a
t
后,智能体立即收到即时奖励。通常,mdp的目标是探索一种策略π(a|s)来最大化价值函数,通常用由bellman(贝尔曼)方程计算的预期贴现累积回报来表示。
[0080]
下面介绍强化学习中的三个关键要素:状态空间、动作空间和奖励。
[0081]
状态空间:状态空间包含了两个组成部分,即配备mec服务器的小基站u(u∈u)的可用资源和用户的状态v(v∈v)。在时隙t的状态空间可以表示为s
t
={fu,bu,cu,ωv}。fu、bu和cu表示每个配备mec服务器的小基站u(u∈u)的可用计算、带宽和缓存资源。此外,用户的状态ωv包括用户与小基站之间的平均sinr、计算任务的输入数据大小(比特)、计算能力(完成任务所用的cpu周期总数)、缓存容量、内容流行度和用户位置等。
[0082]
动作空间:动作空间为小基站选择和资源分配,目标是完成计算卸载或内容交付任务。在时隙t,动作空间可以表示为任务。在时隙t,动作空间可以表示为任务。在时隙t,动作空间可以表示为和分别表示配备mec服务器的小基站分配给用户的带宽、计算资源和缓存资源量。代表了是否进行任务建立。
[0083]
奖励:采取行动a
t
后,智能体将获得奖励r
t
。特别是,奖励应该与上述优化目标函数相对应。因此,奖励可以定义为
[0084]
使用ddpg方法创建训练样本:gbdt模型的训练速度非常快,但是它不能直接从环境中学习。ddpg方法可以解决本技术的优化装置在与环境不断交互的过程中通过学习最优策略获得最大回报或实现特定目标的问题。然而,gbdt作为一种监督学习的模型,需要来自环境的正确标签。因此,在我们的模型中,首先通过ddpg创建一个训练样本,然后创建一个包含环境信息和输出奖励信息的训练样本。
[0085]
在一些实施例中,步骤104具体包括:
[0086]
步骤1041,设置所述梯度增强决策树初始模型的第二输入参数和第二输出参数,其中,所述第二输入参数包括:环境数据信息、代理动作信息和奖励数据信息,所述第二输出参数包括:网络系统的最大化总效用的资源分配策略。
[0087]
步骤1042,设置迭代计数m的初始值为0,并初始化梯度增强决策树初始模型中的附加预测器。
[0088]
步骤1043,将深度确定性策略梯度模型输出的第一预定数量的环境数据信息、代理动作信息和奖励数据信息作为训练样本输入至梯度增强决策树初始模型中进行训练,每训练一次,对应的m加1,直至m的数值达到预定阈值时,停止训练,将训练后的梯度增强决策树初始模型作为梯度增强决策树模型。
[0089]
步骤1043具体为:
[0090]
指定梯度增强决策树初始模型中的一组基学习器为目标基学习器组;
[0091]
将环境数据信息、代理动作信息和奖励数据信息输入至梯度增强决策树初始模型中进行训练,并计算训练后的第二损失函数,其中,每训练一次,对应的m加1;
[0092]
计算所述第二损失函数的第一负梯度向量;
[0093]
分别给目标基学习器组中的每个基学习器拟合第二负梯度向量;
[0094]
根据所述第二梯度向量和确定的目标基学习器组,确定最适合负梯度向量的分量;
[0095]
根据所述最适合负梯度向量的分量更新附加预测器的参数;
[0096]
确定m等于设定阈值,将最终的梯度增强决策树初始模型作为梯度增强决策树模型。
[0097]
基于决策树的gbdt,是一种迭代决策树算法。可扩展的端到端树提升系统称为xgboost,是一种改进的gbdt算法。特别是gbdt在优化中只使用一阶导数的信息,而xgboost算法使用一阶和二阶导数对代价函数进行二阶泰勒展开。此外,将包含每个树叶节点数量和得分函数的正则项添加到成本函数中,可以控制模型的复杂度。在整体框架中,使用改进的gbdt算法应用于回归任务。给定一个包含n个样本的数据集。数据集可以表示为d=(xi,yi)(|d|=n,xi∈f∪b∪c∪ω,yi∈r),其中yi表示为根据奖励函数的解决方案,xi表示为我们系统模型的状态空间
[0098]
从上述内容可以得到由大量动态环境信息组成的状态空间和包含大量连续值的动作空间。采用ddpg算法来最大化奖励函数,ddpg方法使用神经网络来评估和选择动作,与树模型相比,神经网络更复杂,获得奖励函数也更困难。因此,将ddpg算法与gbdt模型相结
合,可以加快收敛速度,实现准确估计。
[0099]
使用ddpg创建训练样本,在gbdt模型中,环境状态参数作为输入,奖励作为输出。因此,通过不断的训练,gbdt模型学习为给定的环境信息获得最大的奖励,目标是达到与drl代理相同的准确度水平。在一些实施例中,所述方法还包括:
[0100]
步骤a,将深度确定性策略梯度模型输出的第二预定数量的环境数据信息、代理动作信息和奖励数据信息作为测试样本对梯度增强决策树模型进行测试。
[0101]
步骤b,根据测试结果确定所述梯度增强决策树模型的准确率。
[0102]
步骤c,响应于确定所述准确率大于等于预定准确率阈值时,将得到的梯度增强决策树模型作为最终的梯度增强决策树模型。
[0103]
步骤d,响应于确定所述准确率小于预定准确率阈值时,利用所述测试样本对得到的梯度增强决策树模型进行再次训练,直至得到的准确率小于预定准确率阈值,将再次训练后的梯度增强决策树模型作为最终的梯度增强决策树模型。
[0104]
通过上述步骤,能够对得到的梯度增强决策树模型的准确率进行测试,进而保证最终得到的梯度增强决策树模型的准确度能够满足实际需求,进而提高梯度增强决策树模型的精度。
[0105]
需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0106]
需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0107]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种网络资源优化装置。
[0108]
参考图2,所述网络资源优化装置,包括:
[0109]
采集模块21,被配置为采集网络系统中的通信样本资源、计算样本资源和缓存样本资源;
[0110]
深度确定性策略梯度处理模块22,被配置为将所述通信样本资源、所述计算样本资源、所述缓存样本资源和用户终端信息输入至深度确定性策略梯度模型中进行处理,输出代理动作信息和奖励数据信息;
[0111]
决策树训练模块23,被配置为利用所述环境数据信息、所述代理动作信息和奖励数据信息作为训练样本,对梯度增强决策树初始模型进行训练,得到能够对网络资源进行优化的梯度增强决策树模型;
[0112]
资源分配处理模块24,被配置为将网络系统的当前通信资源、当前计算资源、当前缓存资源和当前用户终端信息输入梯度增强决策树模型中进行处理,梯度增强决策树模型输出网络系统的最大化总效用的资源分配策略。
[0113]
在一些实施例中,所述网络系统包括:相互通信连接的用户终端、设有控制器的移
动通信基站和配备多接入边缘计算的小基站;
[0114]
所述采集模块21被配置为:
[0115]
所述移动通信基站根据获取的每个有服务请求的用户终端与小基站的关联指标、小基站的总频谱宽带和分配给用户终端的子信道,确定分配给小基站的频谱带宽,将确定的分配给小基站的频谱带宽作为通信样本资源;所述移动通信基站获取分配给用户终端的小基站的计算能力作为计算样本资源;所述移动通信基站将获取到的分配给小基站的缓存空间作为缓存样本资源。
[0116]
在一些实施例中,所述深度确定性策略梯度处理模块22被配置为:
[0117]
设置所述深度确定性策略梯度模型的第一输入参数和第一输出参数,其中,所述第一输入参数至少包括:所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息,所述第一输出参数至少包括:代理动作信息和奖励数据信息;将获得的所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至演化网络中,并根据时间进行循环执行,执行过程中不断计算对应的第一损失函数,根据所述第一损失函数对深度确定性策略模型的参数进行调整;全部处理完成后获取深度确定性策略模型输出的第一输出参数的具体数据。
[0118]
在一些实施例中,所述深度确定性策略模型包括:演化网络和评价网络;
[0119]
所述深度确定性策略梯度处理模块22还被配置为:
[0120]
预先对演化网络和评价网络的参数进行初始化;在所述演化网络中进行循环执行,执行过程中,利用评价网络不断计算第一损失函数,对所述第一损失函数进行最小化处理,根据最小化的损失函数对评价网络的参数进行调整;依据采样的策略梯度对演化网络的参数进行调整;对演化目标网络和评价目标网络的参数进行调整。
[0121]
在一些实施例中,决策树训练模块23被配置为:
[0122]
设置所述梯度增强决策树初始模型的第二输入参数和第二输出参数,其中,所述第二输入参数包括:环境数据信息、代理动作信息和奖励数据信息,所述第二输出参数包括:网络系统的最大化总效用的资源分配策略;设置迭代计数m的初始值为0,并初始化梯度增强决策树初始模型中的附加预测器;将深度确定性策略梯度模型输出的第一预定数量的环境数据信息、代理动作信息和奖励数据信息作为训练样本输入至梯度增强决策树初始模型中进行训练,每训练一次,对应的m加1,直至m的数值达到预定阈值时,停止训练,将训练后的梯度增强决策树初始模型作为梯度增强决策树模型。
[0123]
在一些实施例中,所述决策树训练模块23还被配置为:
[0124]
指定梯度增强决策树初始模型中的一组基学习器为目标基学习器组;将环境数据信息、代理动作信息和奖励数据信息输入至梯度增强决策树初始模型中进行训练,并计算训练后的第二损失函数,其中,每训练一次,对应的m加1;计算所述第二损失函数的第一负梯度向量;分别给目标基学习器组中的每个基学习器拟合第二负梯度向量;根据所述第二梯度向量和确定的目标基学习器组,确定最适合负梯度向量的分量;根据所述最适合负梯度向量的分量更新附加预测器的参数;确定m等于设定阈值,将最终的梯度增强决策树初始模型作为梯度增强决策树模型。
[0125]
在一些实施例中,所述装置还包括测试模块被配置为:
[0126]
将深度确定性策略梯度模型输出的第二预定数量的环境数据信息、代理动作信息
和奖励数据信息作为测试样本对梯度增强决策树模型进行测试;根据测试结果确定所述梯度增强决策树模型的准确率;响应于确定所述准确率大于等于预定准确率阈值时,将得到的梯度增强决策树模型作为最终的梯度增强决策树模型;响应于确定所述准确率小于预定准确率阈值时,利用所述测试样本对得到的梯度增强决策树模型进行再次训练,直至得到的准确率小于预定准确率阈值,将再次训练后的梯度增强决策树模型作为最终的梯度增强决策树模型。
[0127]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0128]
上述实施例的装置用于实现前述任一实施例中相应的网络资源优化方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0129]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的网络资源优化方法。
[0130]
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0131]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0132]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0133]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0134]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0135]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0136]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0137]
上述实施例的电子设备用于实现前述任一实施例中相应的网络资源优化方法,并
且具有相应的方法实施例的有益效果,在此不再赘述。
[0138]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的网络资源优化方法。
[0139]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0140]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的网络资源优化方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0141]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0142]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0143]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0144]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献