一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于拆分动作空间的深度强化学习斗地主游戏方法

2022-08-02 23:39:58 来源:中国专利 TAG:

技术特征:
1.一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,具体操作步骤如下:(1)、对斗地主游戏空间进行拆分;(2)、对样本数据进行编码;(3)、构建主牌dqn网络,定义主牌奖励函数;(4)、构建副牌dqn网络,定义副牌奖励函数;(5)、训练未进行动作空间拆分和奖励函数设计的dqn网络,确保该dqn网络的结构和设置于主牌dqn和副牌dqn一致;(6)、将主副牌dqn智能体和单一dqn智能体置于地主、下家农民和上家农民的位置上与随机策略玩家进行模拟游戏,以胜率作为标准进行比较,将比较数据进行可视化展示。2.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,在所述步骤(1)中,对斗地主游戏空间进行拆分具体是:(1.1)、根据斗地主游戏规则,区分一个出牌为主牌和副牌两部分;(1.2)、遍历斗地主游戏所有的出牌可能性,拆分成主牌和副牌,进而构建主牌动作空间和副牌动作空间。3.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,在所述步骤(2)中,对样本数据进行编码具体是:使用一个5*15的矩阵对牌信息进行编码表示,列表示牌的点数,从3到大王;行表示数量,从0到4;选择以当前手牌信息、最近三次出牌信息、已经出了的牌和还剩下的牌作为状态信息,拼接成一个6*5*15的矩阵;将斗地主游戏数据处理为<s,a,r,s’>,构建<s,a,r,s’>样本集,其中,a表示是一个集合,包括主牌动作和副牌动作;s表示一个6*5*15的one-hot矩阵;r表示一个集合,包括采取主牌动作后的即时奖励和采取副牌动作后的即时奖励;s’表示一个6*5*15的one-hot矩阵,表示转移到的下一个状态。4.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,在所述步骤(3)中,构建主牌dqn网络,定义主牌奖励函数的具体步骤如下:(3.1)、收集并处理高水平人类玩家的游戏数据为特征数据和标签二元组:收集高水平人类玩家的斗地主游戏数据,并以当前手牌信息为特征数据,出牌动作处理为one-hot编码形式作为标签数据,形成以<特征数据,标签数据>二元组为元素的集合作为专家数据集合;(3.2)、构建主牌奖励网络;将专家数据放入主牌奖励网络中训练,即使用高水平人类玩家游戏数据进行训练;网络的输入为玩家的手牌信息,输出为玩家在该手牌信息下,采用动作的可能性;主牌奖励网络训练好后,以一个状态下采取该动作的softmax值作为该动作的即时奖励;(3.3)、构建主牌dqn网络,使用主牌奖励网络得出样本中一个状态下采取一个动作对
应的奖励值,将经过主牌奖励网络更新后的主牌样本数据输入到主牌经验池中,更新为新的样本数据,训练主牌dqn网络。5.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,在所述步骤(4)中,构建副牌dqn网络,定义副牌奖励函数是根据副牌本身的点数和副牌在其他可能性牌组出现的次数定义副牌奖励函数,其具体步骤如下:(4.1)、定义副牌奖励规则,其具体公式为:reward=k*e-(a b)
式中,a表示该副牌在其他可能动作中出现的次数,b表示该副牌组合牌面大小的总和,k表示常数超参数;(4.2)、构建副牌dqn网络,将经过副牌奖励函数规则更新后斗地主游戏样本的副牌样本数据,并作为副牌dqn网络的输入,通过新的深度强化学习框架进行训练,训练副牌dqn网络。6.根据权利要求1所述的一种基于拆分动作空间的深度强化学习斗地主游戏方法,其特征在于,在所述步骤(5)中,确保该dqn网络的结构和设置于主牌dqn和副牌dqn一致具体是构建单一的dqn网络,不拆分动作空间,不构建奖励函数。

技术总结
本发明公开了一种基于拆分动作空间的深度强化学习斗地主游戏方法。涉及游戏人工智能技术领域与深度强化学习领域。对斗地主游戏动作空间按照主牌和副牌拆分为主牌动作空间和副牌动作空间;对样本数据进行编码和预处理;再构建主牌DQN网络,预训练主牌奖励函数来更新样本中的奖励值,将新的样本输入主牌DQN网络进行训练;构建副牌DQN网络,设计副牌奖励函数、更新样本中奖励值并放入副牌DQN网络训练;以单一DQN网络的智能体作为比较对象,以游戏胜率作为比较标准,比较主副牌DQN和单一DQN的表现,并进行可视化展示。本发明能够有效解决斗地主游戏中强化学习面临的动作空间巨大和奖励稀疏的问题,提升了智能体在游戏中的表现。现。现。


技术研发人员:孔燕 芮烨锋
受保护的技术使用者:南京信息工程大学
技术研发日:2022.03.30
技术公布日:2022/8/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献