一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网络资源优化方法、装置、电子设备及存储介质与流程

2022-02-22 17:17:11 来源:中国专利 TAG:

技术特征:
1.一种网络资源优化方法,其特征在于,包括:采集网络系统中的通信样本资源、计算样本资源、缓存样本资源以及用户终端信息;将所述通信样本资源、所述计算样本资源、所述缓存样本资源和用户终端信息输入至深度确定性策略梯度模型中进行处理,输出代理动作信息和奖励数据信息;将所述环境数据信息、所述代理动作信息和奖励数据信息进行记录,生成数据集;利用所述所述数据集对梯度增强决策树初始模型进行训练,得到能够对网络资源进行优化的梯度增强决策树模型;将网络系统的当前通信资源、当前计算资源、当前缓存资源和当前用户终端信息输入至梯度增强决策树模型中进行处理,梯度增强决策树模型输出网络系统的最大化总效用的资源分配策略。2.根据权利要求1所述的方法,其特征在于,所述网络系统包括:相互通信连接的用户终端、设有控制器的移动通信基站和配备多接入边缘计算的小基站;所述采集网络系统中的通信样本资源、计算样本资源和缓存样本资源,具体包括:所述移动通信基站根据获取的每个有服务请求的用户终端与小基站的关联指标、小基站的总频谱宽带和分配给用户终端的子信道,确定分配给小基站的频谱带宽,将确定的分配给小基站的频谱带宽作为通信样本资源;所述移动通信基站获取分配给用户终端的小基站的计算能力作为计算样本资源;所述移动通信基站将获取到的分配给小基站的缓存空间作为缓存样本资源。3.根据权利要求1所述的方法,其特征在于,所述将所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至深度确定性策略梯度模型中进行处理,输出代理动作信息和奖励数据信息,具体包括:设置所述深度确定性策略梯度模型的第一输入参数和第一输出参数,其中,所述第一输入参数至少包括:所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息,所述第一输出参数至少包括:代理动作信息和奖励数据信息;将获得的所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至演化网络中,并根据时间进行循环执行,执行过程中不断计算对应的第一损失函数,根据所述第一损失函数对深度确定性策略模型的参数进行调整;全部处理完成后获取深度确定性策略模型输出的第一输出参数的具体数据。4.根据权利要求3所述的方法,其特征在于,所述深度确定性策略模型包括:演化网络和评价网络;所述将获得的所述通信样本资源、所述计算样本资源、所述缓存样本资源和所述用户终端信息输入至演化网络中,并根据时间进行循环执行,执行过程中不断计算对应的第一损失函数,根据所述第一损失函数对深度确定性策略模型的参数进行调整,具体包括:预先对演化网络和评价网络的参数进行初始化;在所述演化网络中进行循环执行,执行过程中,利用评价网络不断计算第一损失函数,对所述第一损失函数进行最小化处理,根据最小化的损失函数对评价网络的参数进行调整;依据采样的策略梯度对演化网络的参数进行调整;对演化目标网络和评价目标网络的参数进行调整。
5.根据权利要求1所述的方法,其特征在于,利用所述环境数据信息、所述代理动作信息和奖励数据信息作为训练样本,对梯度增强决策树初始模型进行训练,得到能够对网络资源进行优化的梯度增强决策树模型,具体包括:设置所述梯度增强决策树初始模型的第二输入参数和第二输出参数,其中,所述第二输入参数包括:环境数据信息、代理动作信息和奖励数据信息,所述第二输出参数包括:网络系统的最大化总效用的资源分配策略;设置迭代计数m的初始值为0,并初始化梯度增强决策树初始模型中的附加预测器;将深度确定性策略梯度模型输出的第一预定数量的环境数据信息、代理动作信息和奖励数据信息作为训练样本输入至梯度增强决策树初始模型中进行训练,每训练一次,对应的m加1,直至m的数值达到预定阈值时,停止训练,将训练后的梯度增强决策树初始模型作为梯度增强决策树模型。6.根据权利要求5所述的方法,其特征在于,所述将深度确定性策略梯度模型输出的第一预定数量的环境数据信息、代理动作信息和奖励数据信息输入至梯度增强决策树初始模型中进行训练,每训练一次,对应的m加1,直至m的数值达到预定阈值时,停止训练,将训练后的梯度增强决策树初始模型作为梯度增强决策树模型,具体包括:指定梯度增强决策树初始模型中的一组基学习器为目标基学习器组;将环境数据信息、代理动作信息和奖励数据信息输入至梯度增强决策树初始模型中进行训练,并计算训练后的第二损失函数,其中,每训练一次,对应的m加1;计算所述第二损失函数的第一负梯度向量;分别给目标基学习器组中的每个基学习器拟合第二负梯度向量;根据所述第二梯度向量和确定的目标基学习器组,确定最适合负梯度向量的分量;根据所述最适合负梯度向量的分量更新附加预测器的参数;确定m等于设定阈值,将最终的梯度增强决策树初始模型作为梯度增强决策树模型。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:将深度确定性策略梯度模型输出的第二预定数量的环境数据信息、代理动作信息和奖励数据信息作为测试样本对梯度增强决策树模型进行测试;根据测试结果确定所述梯度增强决策树模型的准确率;响应于确定所述准确率大于等于预定准确率阈值时,将得到的梯度增强决策树模型作为最终的梯度增强决策树模型;响应于确定所述准确率小于预定准确率阈值时,利用所述测试样本对得到的梯度增强决策树模型进行再次训练,直至得到的准确率小于预定准确率阈值,将再次训练后的梯度增强决策树模型作为最终的梯度增强决策树模型。8.一种网络资源优化装置,其特征在于,包括:采集模块,被配置为采集网络系统中的通信样本资源、计算样本资源和缓存样本资源;深度确定性策略梯度处理模块,被配置为将所述通信样本资源、所述计算样本资源、所述缓存样本资源和用户终端信息输入至深度确定性策略梯度模型中进行处理,输出代理动作信息和奖励数据信息;决策树训练模块,被配置为利用所述环境数据信息、所述代理动作信息和奖励数据信息作为训练样本,对梯度增强决策树初始模型进行训练,得到能够对网络资源进行优化的
梯度增强决策树模型;资源分配处理模块,被配置为将网络系统的当前通信资源、当前计算资源、当前缓存资源和当前用户终端信息输入梯度增强决策树模型中进行处理,梯度增强决策树模型输出网络系统的最大化总效用的资源分配策略。9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。

技术总结
本申请提供一种网络资源优化方法、装置、电子设备和存储介质,将采集到的通信样本资源、计算样本资源和缓存样本资源以及用户终端信息通过深度确定性策略梯度模型进行处理,对输入信息、代理动作信息和奖励数据信息进行记录,然后生成的数据集用来训练梯度增强决策树初始模型,进而得到能够对网络资源进行优化的梯度增强决策树模型,这样就可以利用该梯度增强决策树模型快速的对包括通信、计算、缓存资源和用户终端信息的当前环境数据信息进行处理得到最大化总效用的资源分配策略。这样,就可以按照最大化总效用的资源分配策略对网络资源进行分配,进而使得网络资源分配更加合理,使得网络资源的利用率得到大幅度提高。使得网络资源的利用率得到大幅度提高。使得网络资源的利用率得到大幅度提高。


技术研发人员:魏翼飞 公雨 李骏 郭达 张勇 滕颖蕾
受保护的技术使用者:北京邮电大学
技术研发日:2021.09.14
技术公布日:2022/2/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献