一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于虚拟自博弈智能体的重放经验池偏置更新方法及装置与流程

2022-04-02 05:12:17 来源:中国专利 TAG:

技术特征:
1.一种用于虚拟自博弈智能体的重放经验池偏置更新方法,其特征在于,包括:初始化动态预测参数、阶梯层数、层偏置系数、基础采样偏置系数、采样偏置系数限位比、先后手优势比例和变动烈度系数;根据所述阶梯层数、所述层偏置系数和属于不同队列的多个重放经验池,初始化偏置重放经验池;根据所述动态预测参数,设置策略源为深度q值神经网络或平均策略神经网络;所述深度q值神经网络包括动作q值神经网络和目标q值神经网络;根据强化学习智能体损失函数和对手强化学习智能体损失函数乘以所述先后手优势比例后的差值、所述基础采样偏置系数和所述采样偏置系数限位比和所述变动烈度系数,更新采样偏置系数;根据所述采样偏置系数,对所述偏置重放经验池进行偏置采样,并对偏置采样结果进行随机梯度下降,更新所述动作q值神经网络;根据所述动作q值神经网络周期性地更新所述目标q值神经网络;在监督学习经验池进行采样,并对所述监督学习经验池的采样结果进行随机梯度下降,更新所述平均策略神经网络;调用目前所述策略源,采样一个当前动作并执行,获得下一个状态的状态值及下一个状态的奖励值,并将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池。2.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法,其特征在于,在所述调用目前所述策略源,采样一个当前动作并执行,获得下一个状态的状态值及下一个状态的奖励值,并将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池之后,还包括:若目前所述策略源为深度q值神经网络,那么将含有当前状态的状态值、所述当前动作的元组存入所述监督学习经验池。3.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法,其特征在于,所述采样偏置系数是在所述偏置重放经验池中进行采样的依据,用于指定旧加入的经验被采样到的概率与新加入的经验被采样到的概率之比。4.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法,其特征在于,所述根据所述采样偏置系数,对所述偏置重放经验池进行偏置采样,具体包括:对所述偏置重放经验池的各层按照各层对应数目进行均匀概率采样,采样后返回各层采样结果的并集。5.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法,其特征在于,所述将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池,具体包括:含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组加入所述偏置重放经验池的第一层队列头部,逐层将队尾最后一个经验被放入下一层队列头部。6.一种用于虚拟自博弈智能体的重放经验池偏置更新装置,其特征在于,包括:参数初始化模块,用于初始化动态预测参数、阶梯层数、层偏置系数、基础采样偏置系
数、采样偏置系数限位比、先后手优势比例和变动烈度系数;经验池初始模块,用于根据所述阶梯层数、所述层偏置系数和属于不同队列的多个重放经验池,初始化偏置重放经验池;根据所述动态预测参数,设置策略源为深度q值神经网络或平均策略神经网络;所述深度q值神经网络包括动作q值神经网络和目标q值神经网络;系数更新模块,用于根据强化学习智能体损失函数和对手强化学习智能体损失函数乘以所述先后手优势比例后的差值、所述基础采样偏置系数和所述采样偏置系数限位比和所述变动烈度系数,更新采样偏置系数;动作q值更新模块,用于根据所述采样偏置系数,对所述偏置重放经验池进行偏置采样,并对偏置采样结果进行随机梯度下降,更新所述动作q值神经网络;目标q值更新模块,用于根据所述动作q值神经网络周期性地更新所述目标q值神经网络;平均策略更新模块,用于在监督学习经验池进行采样,并对所述监督学习经验池的采样结果进行随机梯度下降,更新所述平均策略神经网络;经验池更新模块,用于调用目前所述策略源,采样一个当前动作并执行,获得下一个状态的状态值及下一个状态的奖励值,并将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池。

技术总结
本发明公开了一种用于虚拟自博弈智能体的重放经验池偏置更新方法及装置,建立一个对在不同时刻进入经验池的样本能够依照其进入时刻赋予权重并依照该权重进行采样的先入先出队列偏置重放经验池,并利用各智能体距离优化目标差距的博弈动态信息对偏置重放经验池中数据进行赋权。采用本发明实施例,动态地对新数据赋予较高权重,使得深度Q学习网络进行更有效地学习,弱化深度Q学习网络更新时的延迟和偏差带来的负面效益。迟和偏差带来的负面效益。迟和偏差带来的负面效益。


技术研发人员:余超 刘恒
受保护的技术使用者:中山大学
技术研发日:2021.12.31
技术公布日:2022/4/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献