技术特征:
1.一种减少过估计的模型化强化学习机器人控制方法,其特征在于,包括:步骤1、初始化环境和各网络参数;步骤2、利用与真实环境的交互数据训练环境模型;步骤3、利用策略网络π
φ
与训练后的环境模型交互,将交互数据存放在数据存放器d
model
中;步骤4、根据环境模型,采用actor
‑
critic方法进行策略训练,其中critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;步骤5、重复执行步骤2至步骤4,直至收敛。2.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤1中,初始化构建策略网络π
φ
,q函数网络{q
ψ1
,q
ψ2
},q
‑
target函数网络target函数网络及环境模型以及构建真实环境的数据存放器d
env
←
φ和预测环境模型的数据存放器d
model
←
φ。3.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤2中,环境模型的训练方法包括以下步骤:步骤21、利用策略π
φ
与真实环境交互,将交互数据存放在真实环境的数据存放器d
env
;步骤22、通过极大似然的损失函数训练环境预测模型。4.如权利要求3所述强化学习机器人控制方法,其特征在于,所述步骤22中,根据环境模型训练损失函数l
ml
得到n个环境模型的更新方式为:式中,θ
i
表示第i个环境模型的网络参数,ω
l
表示更新步长的调节因子,表示对l
ml
的θ求梯度。5.如权利要求4所述强化学习机器人控制方法,其特征在于,所述整体的环境模型训练损失函数l
ml
为:式中,t表示矩阵的转置操作,μ
θ
表示参数为θ的均值向量,s
n
表示第n个模型所处的状态信息,a
n
表示第n个模型所处的动作信息,det表示计算矩阵的行列式。6.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤4中,训练方法包括以下步骤:步骤41、critic部分对状态动作进行评估,actor部分即为选择动作的策略;步骤42、更新q函数网络和策略网络的参数,并每隔预先设定时间更新q
‑
target函数网络参数。7.如权利要求6所述强化学习机器人控制方法,其特征在于,所述步骤42中,更新方法为:
其中,ψ
i
表示第i个q网络参数,表示第i个q
‑
target函数网络参数,φ表示策略网络参数,表示对j
q
的参数ψ求梯度,表示对j
π
的参数φ求梯度,ω,ω
π
和ω
q
分别相应的更新步长。8.如权利要求1所述强化学习机器人控制方法,其特征在于,所述步骤5中,收敛条件为:与环境交互的次数大于预先设定的数值。9.一种减少过估计的模型化强化学习机器人控制系统,其特征在于,包括:初始化模块、环境模型训练模块、数据交互模块、策略训练模块和收敛模块;所述初始化模块,用于初始化环境和各网络参数;所述环境模型训练模块,利用与真实环境的交互数据训练环境模型;所述数据交互模块,利用策略网络π
φ
与训练后的环境模型交互,将交互数据存放在数据存放器d
model
中;所述策略训练模块,根据环境模型,采用actor
‑
critic方法进行策略训练,其中critic评估方法采用带有方差惩罚项的评估方式,估计值根据权重λ进行调节;所述收敛模块,重复执行所述环境模型训练模块、所述数据交互模块和所述策略训练模块,直至收敛。10.如权利要求9所述强化学习机器人控制系统,其特征在于,所述策略训练模块中,训练方法包括以下步骤:步骤41、critic部分对状态动作进行评估,actor部分即为选择动作的策略;步骤42、更新q函数网络和策略网络的参数,并每隔预先设定时间更新q
‑
target函数网络参数。
技术总结
本发明涉及一种减少过估计的模型化强化学习机器人控制方法及系统,其包括:初始化环境和各网络参数;利用与真实环境的交互数据训练环境模型;利用策略网络π
技术研发人员:李秀 贾若楠
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2021.07.05
技术公布日:2021/9/21
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。