一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种超越专家演示的阻抗控制模仿学习训练方法与流程

2021-11-15 17:02:00 来源:中国专利 TAG:

技术特征:
1.一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于步骤如下:步骤1:收集专家演示轨迹阻抗控制模型表达式为其中,e=x

x0,x为实际位置,x0为初始位置,e、和分别为末端执行器的位移、速度和加速度,m、b和k分别为惯性矩阵、阻尼矩阵和刚度矩阵,f为实际接触力;定义s
t
为当前状态,即当前跟踪位置误差e
t
,速度跟踪误差和接触力f
t
,a
t
为当前动作,即阻抗参数m,b,k的值;奖励函数r
t
可根据任务进行设置;将(s
t
,a
t
,r
t
,s
t 1
)定义为演示轨迹的一个点,专家演示轨迹即为若干个点组成的一串连续轨迹;进行训练之前需要收集尽量多的专家演示轨迹;步骤2:建立重放缓冲区将步骤1所获得的所有专家演示轨迹归入专家演示区e;建立重放缓冲区r,同样将专家演示轨迹归入,即此时专家演示区与重放缓冲区相同;对于多目标设置,期望状态由目标g∈g描述,不同的轨迹可以有不同的目标,并且每个目标对应一个声明f
g
,用来代表目标是否已经实现;所训练智能体的真正目标即达到状态s
t 1
,使得f
g
(s
t 1
)=1;从目标集合g中采样目标g,并在目标为g的情况下应用当前策略π,获得若干采样轨迹,加入重放缓冲区中;步骤3:基于生成性对抗模仿学习通过占用度量匹配更新鉴别器利用下式在专家演示区和重放缓冲区采样,得到在专家演示区采样,得到(s
t
,a
t
)
e
;在重放缓冲区采样,得到(s
t
,a
t
)
r
;生成性对抗模仿学习是通过占用度量匹配来学习参数化策略的一种方法,生成性对抗模仿学习包括鉴别器和生成器,生成器产生一系列状态

动作对,在步骤4中产生,鉴别器d(s
t
,a
t
)是一个二进制分类器,试图区分状态

动作对是来自专家还是来自经过训练的策略。鉴别器参数可以通过下式更新:其中h(π
β
)是熵正则项;步骤4:通过深度确定性策略梯度获得目标策略演员网络π
β
(s
t
)的目的是学习使动作价值函数最大的策略,用参数β控制;批评家网络q
α
(s
t
,a
t
)的目的是评估当前状态下动作的价值,从而指导演员采取最佳行动,由参数α控制;二者相互促进,最终获得目标策略;为了使学习过程稳定,采用参数分别为α

和β

的批评家网络和演员网络作为目标网络;1)批评家网络参数更新通过最小化损失函数来更新批评家网络q
α
(s
t
,a
t
);批评家网络的损失函数为
其中,q
α
(s
t
,a
t
)为预测的动作价值函数,y为时间差分目标;y可由目标网络计算;y=r
t
γq
α

(s
t 1
,π
β

(s
t 1
))γ是一个预定义的折扣因子,奖励r
t
由鉴别器奖励和额外的后见之明奖励构成,k1和k2为其对应系数;因此可用下式更新批评家网络和目标网络:α

=τα (1

τ)α

2)演员网络参数更新类似于批评家网络,演员网络π
β
(s
t
)也通过最小化损失函数来更新;演员网络的损失函数为其中,是用于加速学习的退火奖励;因此可用下式更新演员网络和目标网络:β

=τβ (1

τ)β

获得期望结果通常需重复执行一定次数,需要重新采样并扩充重放缓冲区进行进一步循环;循环若干次之后演员网络π
β
(s
t
)所代表的策略即为最终所得目标策略。2.根据权利要求1所述一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于所述的奖励函数r
t
设置为ζ为参数。3.根据权利要求1所述一种超越专家演示的阻抗控制模仿学习训练方法,其特征在于所述的专家演示采用直接接触并引导、通过操纵杆引导或手工设计。

技术总结
本发明涉及一种超越专家演示的阻抗控制模仿学习训练方法,属于机器人智能控制领域。首先通过直接接触并引导、通过操纵杆引导或手工设计等任意方式收集专家演示轨迹,放入专家演示区;将专家演示轨迹和之后用策略重新采样得到的轨迹放入重放缓冲区;通过事后经验重放,将演示数据的成功率提高;通过生成性对抗模仿学习,将训练出的策略和演示数据之间的误差逐步缩小,最终得到期望的训练策略。最终得到期望的训练策略。


技术研发人员:黄攀峰 武曦 刘正雄 马志强
受保护的技术使用者:西北工业大学
技术研发日:2021.07.13
技术公布日:2021/11/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献