一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法

2022-04-30 14:26:00 来源:中国专利 TAG:

技术特征:
1.一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,包括如下步骤:步骤1:灵巧手使用sac算法策略π
θ
在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;步骤3:搭建包含状态增量方向概率子网络模型f
d
与状态增量增幅子网络模型f
a
的灵巧手动力学模型f;步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。2.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用mujoco物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真,仿真环境不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,以模拟现实场景下随机的外力干扰;随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程,用五元组<s,a,p,r,γ>表示,其中s表示灵巧手与被抓持物体构成的系统状态空间,a表示灵巧手关节动作空间,p表示状态转移概率,r表示奖励空间,γ表示奖励折扣系数。3.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用无模型强化学习算法sac的actor网络作为灵巧手控制策略π
θ
,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境,在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s

,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s

为系统下一时刻状态,r为根据抓持目标计算得到的奖励值,保存状态转移数据,得到数据集data:data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(s
n-1
,a
n-1
,s
n
,r
n-1
)};并使用data训练actor与critic网络。4.根据权利要求3所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤2包括如下具体步骤:对数据集data进行模糊聚类,随机设置模糊聚类中心集c={c1,c2,...,c
k
},其中聚类中心c包含元素个数与系统状态s相同;计算数据集data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵其中d
ij
=‖s
i-c
j
‖表示第i个状态与第j个聚类中心的欧式距离值;调整模糊聚类中心集c,使得距离矩阵d
t
各元素平方和最小;计算数据集data内状态s对聚类类别隶属度u得到隶属度矩阵其中表示第i个状态对第j个聚类类别的隶属度。5.根据权利要求4所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练
方法,其特征在于,步骤3包括如下具体步骤:使用pytorch深度神经网络框架搭建状态增量方向概率子网络模型f
d
,与状态增量增幅子网络模型f
a
;f
d
与f
a
的输入包含灵巧手与被抓持物体系统的状态s与灵巧手关节输入动作a,并由三层线性层、两层relu层、两层正负极性通道层构成,f
d
在网络尾部另设置有一层sigmoid层;f
d
与f
a
的输出分别为系统状态变化量δs的方向与绝对值。6.根据权利要求3所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤4包括如下具体步骤:对每个聚类类别进行动力学模型训练样本采样;根据隶属度矩阵u计算数据集data状态s在每个类别中被采样概率p得到概率矩阵其中表示第i个状态在第j个聚类类别中被采样的概率,若状态s
i
被采得,则(s
i
,a
i
,s

i
)作为一个训练样本。7.根据权利要求6所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤5包括如下具体步骤:对f
d
进行训练,设定损失函数为:j
trand
(α)=e
(s,a,s

)~date(p)
[(f
d
(s,a)-g(s
′‑
s))2] 0.0005‖α‖2其中α为f
d
所有参数;使用梯度下降法,优化器使用adam;对f
a
进行训练,设定损失函数为:j
trana
(β)=e
(s,a,s

)~date(p)
[(f
a
(s,a)-|s
′‑
s|)2] 0.0005‖β‖2其中β为f
a
所有参数;使用梯度下降法,优化器使用adam。8.根据权利要求7所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤5使用包含状态增量方向概率子网络模型f
d
与状态增量增幅子网络模型f
a
的灵巧手动力学模型模型f,将当前灵巧手与被抓持物体的状态s与灵巧手关节输入动作a输入f
d
与f
a
,得到状态增量方向概率值与状态增量增幅值,从而得到下一时刻状态预测值其中dir~f
d
(s,a)。

技术总结
本发明公开了一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,包括步骤1:灵巧手使用SAC算法策略在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;步骤3:搭建包含状态增量方向概率子网络模型与状态增量增幅子网络模型的灵巧手动力学模型f;步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。本发明提高了动力学模型的精准度,减小了在动力学模型训练过程中局部过拟合现象,减小了动力学模型预测误差、提高了稳定性。性。性。


技术研发人员:周锦瑜 盛士能 王壮 祝雯豪 俞冰清 鲍官军 胥芳
受保护的技术使用者:浙江工业大学
技术研发日:2022.01.07
技术公布日:2022/4/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献