一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的深度学习训练作业资源放置系统及方法与流程

2021-10-24 12:54:00 来源:中国专利 TAG:学习 作业 资源 调度 放置

技术特征:
1.基于强化学习的深度学习训练作业资源放置方法,其特征在于,包括如下步骤:初始化步骤:随机初始化drl神经网络模型的参数;状态向量生成步骤:生成批量作业的状态向量;推理步骤:将状态向量送入drl神经网络模型中推理得到批量作业的放置位置信息,并按照该放置位置信息进行作业放置,得到批量作业运行的最大完成时间记为t_rl;随机生成步骤:随机生成若干放置位置信息,并按照该随机生成的放置位置信息进行作业放置,得到该批量作业的若干最大完成时间,取得其中最小的最大完成时间记为t_random;奖励计算步骤:基于最大完成时间t_rl和最大完成时间t_random计算奖励;参数更新步骤:反向梯度更新drl神经网络模型的参数。2.根据权利要求1所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:还包括经验回放步骤:对drl神经网络模型训练过程中所生成的四元组样本进行采样,用于经验回放。3.根据权利要求1所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述状态向量生成步骤中,基于dlt作业信息和集群信息生成状态向量,记为其中,n为当前作业所需计算单元数量;t为当前作业在不出错情况下的预估运行时间;s为当前集群中各个计算单元的使用状态。4.根据权利要求3所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述推理步骤,具体包括:a1:将状态向量输入drl神经网络模型的价值网络,得到长期衡量指标v;a2:将状态向量输入drl神经网络模型的策略网络,得到n个计算单元的选择概率p
i
,其中i=1,2,...,n;a3:将被占用的计算单元和故障的计算单元所对应的概率p
j
置零,得到p

i
;a4:选取第k个计算单元作为该作业所要放置的计算单元之一,其中p
k
=max(p

i
);a5:若该作业所要放置的计算单元数量等于该作业所需计算单元数量则完成该作业的放置位置信息推理,转而推理下一个作业的位置信息,否则转跳至步骤a1。5.根据权利要求2所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述经验回放步骤,具体包括:b1:创建回放缓冲池栈;b2:将训练过程产生的四元组样本压栈进入回访缓冲池栈;b3:若回访缓冲池栈满则使最早入栈的四元组样本溢出;b4:选取x个四元组样本作为一个批,供下次训练使用,其中x的个数为当前回访缓冲池栈中四元组样本的总数。6.根据权利要求1所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述奖励计算步骤中,奖励的计算公式为:7.根据权利要求3所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:还包括训练判断步骤:判断drl神经网络模型是否训练完成,若没有完成则返回状态向
量生成步骤,否则训练结束。8.根据权利要求7所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:还包括使用步骤:使用训练完成的drl神经网络模型推理得到批量作业中各作业的放置位置。9.根据权利要求8所述的基于强化学习的深度学习训练作业资源放置方法,其特征在于:所述使用步骤具体包括:c1:获取批量作业的作业信息和集群信息;c2:基于步骤c1所收集的信息,生成状态向量;c3:将步骤c2中的状态向量输入到drl神经网络模型的策略网络中,得到策略网络输出的放置位置信息;c4:若当前推理出的计算单元数量小于当前作业所需计算单元数量则重复步骤c3;否则转跳到步骤c5;c5:按照步骤c3中推理出的放置位置信息放置对应的作业。10.基于强化学习的深度学习训练作业资源放置系统,包括drl神经网络模型和作用调度模块;其特征在于,作业调度模块使用权利要求1

8任一项所述方法的步骤对drl神经网络模型进行训练,从训练完成的drl神经网络模型中获取放置位置信息,并按照放置位置信息放置对应的作业。

技术总结
本发明涉及计算资源调度技术领域,具体公开了基于强化学习的深度学习训练作业资源放置系统及方法,方法包括如下步骤:随机初始化DRL神经网络模型的参数;生成批量作业的状态向量;将状态向量送入DRL神经网络模型中推理得到批量作业的放置位置信息,并按照该放置位置信息进行作业放置,得到批量作业运行的最大完成时间记为T_RL;随机生成若干放置位置信息,并按照该随机生成的放置位置信息进行作业放置,得到该批量作业的若干最大完成时间,取得其中最小的最大完成时间记为T_Random;基于最大完成时间T_RL和最大完成时间T_Random计算奖励;反向梯度更新DRL神经网络模型的参数。采用本发明的技术方案能够在资源出错场景下对DLT作业进行自适应放置。对DLT作业进行自适应放置。对DLT作业进行自适应放置。


技术研发人员:周悦媛 杨康 章家维 邵恩 谭光明
受保护的技术使用者:中科计算技术西部研究院
技术研发日:2021.07.30
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜