一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

交互模型训练方法、装置、计算机设备和存储介质与流程

2021-10-20 00:01:00 来源:中国专利 TAG:人工智能 交互 装置 模型 训练

技术特征:
1.一种交互模型训练方法,其特征在于,所述方法包括:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。2.根据权利要求1所述的方法,其特征在于,所述当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤包括:确定所述参考交互轨迹所对应的交互胜利方,获取所述交互胜利方在模型训练过程中的胜利比例;当所述胜利比例大于比例阈值时,确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤。3.根据权利要求1所述的方法,其特征在于,待训练的交互模型包括进行交互的第一交互模型以及第二交互模型;所述根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型包括:所述第一交互模型基于当前初始交互状态得到第一交互动作,在虚拟交互环境中控制第一虚拟对象执行所述第一交互动作,得到第一更新状态;基于所述第一更新状态计算第一收益值,基于所述第一收益值调整所述第一交互模型的参数;所述第二交互模型基于所述第一更新状态得到第二交互动作,在虚拟交互环境中执行所述第二交互动作,得到第二更新状态;基于所述第二更新状态计算第二收益值,基于所述第二收益值调整所述第二交互模型的参数。4.根据权利要求1所述的方法,其特征在于,所述交互模型是通过多个训练任务进行训练的,所述获取参考交互轨迹包括:对于当前训练任务,对所述多个训练任务对应的各个交互方的训练胜利数量进行统计,得到各个所述交互方对应的统计胜利数量;基于所述统计胜利数量确定所述交互方对应的候选交互轨迹的选取概率,其中,所述统计胜利数量与所述选取概率成负相关关系;基于各个所述交互方对应的候选交互轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹;其中,所述交互方对应的候选交互轨迹的胜利方为所述交互方。5.根据权利要求4所述的方法,其特征在于,所述基于各个所述交互方对应的候选交互
轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹包括:确定各个所述交互方对应的候选交互轨迹被选为参考交互轨迹的选取次数;确定最小的选取次数是否大于预设数量阈值,若是,则基于各个所述交互方对应的候选交互轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹;若否,则将最小的选取次数所对应的候选交互轨迹作为当前训练任务对应的参考交互轨迹。6.根据权利要求4所述的方法,其特征在于,所述基于各个所述交互方对应的候选交互轨迹的选取概率,从候选交互轨迹中选取当前训练任务对应的参考交互轨迹包括:基于各个所述交互方对应的候选交互轨迹的选取概率,从目标数值范围中确定所述候选交互轨迹对应的数值范围;在所述目标数值范围中产生随机数;将包括所述随机数的数值范围所对应的候选交互轨迹,作为当前训练任务对应的参考交互轨迹。7.根据权利要求1所述的方法,其特征在于,所述交互模型是通过多个训练任务进行训练的,所述按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态包括:对于各个训练任务,当第一次选择所述参考交互轨迹中的当前初始交互状态时,则获取参考交互轨迹中各个交互状态对应的选取概率,基于所述交互状态对应的选取概率从所述参考交互轨迹中选取当前初始交互状态;否则,按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态。8.一种交互模型训练装置,其特征在于,所述装置包括:参考交互轨迹获取模块,用于获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;当前初始交互状态选取模块,用于按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;训练模块,用于根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;返回模块,用于当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种交互模型训练方法、装置、计算机设备和存储介质。所述方法包括:获取参考交互轨迹;所述参考交互状态序列包括多个按照交互顺序依次进行排序的参考交互状态;按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态;根据当前初始交互状态对待训练的交互模型进行训练,得到当前初始交互状态对应的当前训练交互模型;当确定当前训练交互模型满足当前初始交互状态对应的模型收敛条件时,返回按照所述交互顺序的倒序从所述参考交互轨迹中选取当前初始交互状态的步骤,得到更新后的当前初始交互状态,以继续进行模型训练,直至满足训练停止条件,得到已训练的目标交互模型。采用本方法能够提高模型训练效果。果。果。


技术研发人员:陈昱 何嘉民 周正 石悦鑫 朱展图 朱晓龙 刘永升
受保护的技术使用者:超参数科技(深圳)有限公司
技术研发日:2021.04.16
技术公布日:2021/10/19
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜