一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的舰载机保障作业人员调度方法与流程

2021-11-29 13:17:00 来源:中国专利 TAG:

技术特征:
1.一种基于深度强化学习的舰载机保障作业人员调度方法,其特征在于,包括以下步骤:步骤1:建立舰载机保障作业流程的马尔科夫决策过程模型,为智能体训练搭建环境;步骤2:根据其保障作业特点,确定智能体及其观测空间与动作空间;步骤3:根据保障作业需求,构建基于其模型的奖励函数,并将执行后一工序智能体的q值引入执行其前一工序智能体的奖励函数中,进一步设计深度强化学习算法;步骤4:将智能体投入训练,直至准确生成调度指令,得到完成训练的智能体;步骤5:将完成训练的智能体应用于场景中引导保障人员进行保障作业,此时智能体可将真实数据存储进经验池,以便空闲时间可再次学习;所述步骤3的奖励函数确定过程如下:奖励函数需满足两个条件:(1)避免环境变为稀疏奖励环境,即多步都无奖励,导致智能体学习困难;(2)奖励值需符合实际逻辑;故可写出奖励函数限制:式中,r
sta
表示开始保障工序的即时奖励;r
nop
表示无动作的即时奖励;r
mis
表示误动作的即时奖励;r
dis
为因移动距离得到的奖励;j表示舰载机;j表示舰载机集合;i表示工序i;b表示工序i的紧前工序;p
j,b
表示舰载机j的保障工序i的紧前工序是否完成,若完成则为1,否则为0;p
j,i
表示舰载机j的保障工序i是否执行完毕,若是则为1,否则为0;b
j,i
表示舰载机j是否正在进行保障工序i,若是则为1,否则为0;s
i
表示保障小组是否正在进行保障作业,若是则为1,否则为0;k为权重系数,是超参数;s
m
表示航母是否机动,若是则为1,否则为0;r
emerg
表示开始处理紧急情况的奖励;将各个智能体通过自身动作获取的奖励与执行该智能体紧后工序的智能体的q值(即智能体的动作价值函数,表示智能体未来折扣奖励之和的期望值)的加权和,作为各个智能体单步获取的即时奖励:式中,r
i
为执行工序i所有保障小组单步所获奖励总和;μ、λ都为权重系数,且都是超参数;q
h
表示执行工序i紧后工序h的小组的q值;r
i,n
为执行工序i编号为n的保障小组单步由自身动作导致环境转移获得的即时奖励,其表达式如下:
式中,m
sta
表示开始工序的次数;m
mis
表示误动作的次数;m
nop
表示无动作的次数;m
emerg
表示开始处理紧急情况次数;z为整数集;所述步骤3的深度强化学习算法设计过程如下:在本发明中,由于对奖励函数的特殊设置,将负责后一工序智能体的q值引入前一智能体价值网络观测值,使其达到不同时刻动作的协同;虽将导致价值网络无法同时计算更新,延长了训练时间,但并未影响其执行速度;多智能体深度确定策略梯度算法本质上为离线策略学习算法,为充分发挥其优势,故建立经验池,通过优先经验采样达到有目的学习的效果,提高学习质量;考虑该调度问题可承受容错率低,在基于误差和奖励的双指标优先经验回放基础上增加一个误操作数指标,构成三指标优先经验回放机制;再根据训练过程各阶段特性,对各指标设置相关参数,并根据训练次数进行自适应调整,使学习目的性更强,增加收敛效果以达到预期训练效果;各经验优先度计算如式4所示:p
j
=(a(n)
·
q
j
b(n)
·
loss
j
c(n)
·
mis
j

t
ꢀꢀꢀꢀ
(4)式中,p
j
表示经验j的优先度;a(n),b(n),c(n)为权重系数,它们随训练步数n的变化而变化;q
j
为经验j的q值;loss
j
为经验j的误差;mis
j
为经验j的误操作数;λ为重复选中经验的损失率,其值介于0~1,为超参数;t为经验j被选中的次数;若每次训练都计算整个经验池经验的优先度,则会耗费太多算力,且效率不高,故应用时,先采用随机抽样抽取n
·
k条经验,再计算出其优先度,最终选出优先度最高的n条经验进行学习。

技术总结
本发明公开了一种基于深度强化学习的舰载机保障作业人员调度方法,包括以下步骤:构建舰载机保障过程的马尔可夫决策过程(Markov Decision Process,MDP)模型,作为智能体训练环境;根据保障作业流程,确定智能体及其观测空间与动作空间;随后设计奖励函数、经验抽取机制和终止条件,并基于此设计网络结构;通过设置主要参数初始化环境,并采用多智能体深度确定策略梯度算法(Multi Agent Deep Deterministic Policy Gradient,MADDPG)训练智能体;最终使用完成训练智能体的决策辅助指挥人员进行保障作业人员调度。本发明可用于人员调度智能决策,将各类保障小组设定为智能体,辅助指挥人员和保障人员进行决策,提高保障作业决策效率,从而提高舰载机出动回收架次率。率。率。


技术研发人员:栾添添 付强 孙明晓 原张杰 张文玉 王万鹏 胡占永 谢春旺
受保护的技术使用者:哈尔滨理工大学
技术研发日:2021.08.31
技术公布日:2021/11/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献