一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Q-learning的扒渣机器人阻抗控制方法

2022-06-05 03:48:24 来源:中国专利 TAG:

一种基于q-learning的扒渣机器人阻抗控制方法
技术领域
1.本发明涉及一种机器人控制领域,特别涉及一种基于q-learning的扒渣机器人阻抗控制方法。


背景技术:

2.在有色金属铸造过程中,高温下金属表面被氧化而生成的浮渣在形态和大小方面有所差异,单纯使用扒渣机器人按照固定的扒渣流程往往会导致扒渣效果不理想。同时扒渣过程是需要扒渣工具沿液态金属的表面平稳低速移动,动作太快或者抖动会造成铸模内液态金属震荡易形成飞边和波纹,而且刮板深入液态金属的深度不能太深也不能太浅,太深容易带出过多的液态金属,并且在铸模上会留有液滴或引起液态金属粘连在铸模侧边形成飞边,太浅则会扒渣不充分。
3.为解决以上问题,常用的方法有被动力控方法、力/位置混合控制方法、阻抗控制方法以及力控末端执行器技术等。为进一步提高机械臂的仿人特性,提高阻抗控制器的控制效果,以力矩控制为内环、阻抗控制作为外环的基于动力学模型的阻抗控制成为国内外研究热点。为得到机械臂力矩控制量,必须要对其动力学模型进行计算,然而,由于具有更高的自由度以及更特殊的应用背景,工业机器臂动力学模型难以实现实时计算。另一方面,在工业机械臂进行扒渣作业时,末端受到时变接触力,对阻抗控制模型的稳定性和实时性的要求较高。


技术实现要素:

4.由于机械臂模型是一个高度动态、耦合和带有不确定性的非线性系统,在扒渣机器人系统中进行精确的动力学计算,显然会耗费大量的资源,且难以保证运动时阻抗控制的实时性。本发明基于一种能够对扒渣机器人动力学模型进行快速估算的算法,将强化学习运用到阻抗控制内环的参数最优化,进而实现基于动力学模型的扒渣机器人阻抗控制,最终达到利用扒渣机器人完成扒渣流程的目的。
5.为了实现上述技术目的,本发明的技术方案是,
6.一种基于q-learning的扒渣机器人阻抗控制方法,包括以下步骤:
7.s1:根据扒渣机器人工作的期望移动轨迹,设计阻抗控制器;并采集机械臂与目标物体之间的实际接触力;
8.s2:采用maxwell模型对扒渣机器人的期望接触力进行估计,计算实际接触力与期望接触力的偏差值,将偏差值输入到扒渣机器人阻抗控制器中,实现对期望轨迹的修正;
9.s3:由扒渣机器人上一时刻和当前的各关节运行状态,结合q-learning的强化学习方法,对步骤s1的阻抗控制器进行阻抗参数的在线修正,实现控制参数的最优化,从而将阻抗控制器改进为变阻抗控制器;
10.s4:由扒渣机器人上一时刻的各关节运行状态,利用时间延时估计、期望速度反馈、期望位置反馈构建扒渣机器人的估计动力学模型,将步骤s1得到的角度空间轨迹转换
为各关节控制力矩信号,并输入机器人伺服控制器中,实现扒渣机器人的推渣操作。
11.所述的一种基于q-learning的扒渣机器人阻抗控制方法,步骤s1中的阻抗控制器为:
12.s101:首先为目标物体及扒渣机器人建立坐标系,以空间中目标物体的几何中心点为原点建立目标物体坐标系{o
l
},以为目标物体相对于世界坐标系{o}的位姿矩阵轨迹;机器人坐标系同世界坐标系,即机器人底座中心与世界坐标系原点重合;
13.s102:由步骤s101建立的坐标系,根据目标物体的中心点在笛卡尔空间中移动的期望轨迹以及目标物体的尺寸l,利用坐标变换方法求得扒渣机器人以该位姿移动目标物体时扒渣机器人的末端坐标系相对于目标物体坐标系的位姿
[0014][0015]
其中,rotx(0)∈r3×3表示以右手定则绕x轴负方向旋转0角度的旋转矩阵,为机械臂a的末端相对于目标物体坐标系{o
l
}的位姿矩阵;用rn表示矢量为n维矢量,用rn×n表示矩阵为n
×
n维矩阵;
[0016]
s103:由步骤s102所得的利用坐标变换运算得到机械臂末端相对于世界坐标系{o}的笛卡尔空间轨迹其中,表示目标物体坐标系{o
l
}相对于机械臂的末端坐标系{oe},通过对矩阵求逆得到;
[0017]
s104:利用罗德里格斯公式,将转化为期望轨迹位姿矢量的表示形式xd∈r3:
[0018][0019]
其中,rote∈r3×3是描述机械臂的末端姿态旋转矩阵,pe∈r3是描述机械臂的末端位置的位置矢量;
[0020]
s105:将步骤s104的结果,与测得的实际接触力代入阻抗公式,得到扒渣机器人的阻抗控制器,描述为:
[0021][0022]
其中,分别为末端执行器的期望轨迹的位移、速度以及加速度矢量,分别为经过阻抗控制器修正后的位移、速度和加速度矢量,分别为经过阻抗控制器需要控制位移偏差量、速度偏差量和加速度偏差量;md∈r3是期望惯性矩阵,bd∈r3是期望阻尼矩阵,kd∈r3是期望刚度矩阵,fe∈r3和fd∈r3分别表示机械臂执行器末端实际接触力和期望接触力。
[0023]
所述的一种基于q-learning的扒渣机器人阻抗控制方法,所述的步骤s1中,所述的实际接触力是通过安装于扒渣机器人末端的六自由度力/力矩传感器来采集的。
[0024]
所述的一种基于q-learning的扒渣机器人阻抗控制方法,其特征在于,步骤s2包括:
[0025]
s201:分析熔融金属表面应力特征,得到基于maxwell模型的应力fd为:
[0026][0027]
其中,μ(t)表示弹簧模型在maxwell模型中的等效占比,此处称之为凝固比率,ε表示总形变量,是弹簧模型形变的形变量和阻尼模型形变的形变量之和,e为金属熔液等效弹簧模型的刚度系数,η为金属熔液等效阻尼模型的阻尼系数,d为求导符号;计算得到的fd即为期望接触力;
[0028]
s202:将阻抗控制器的描述式移相,得到:
[0029][0030]
其中,是由阻抗控制器修正后的扒渣机器人末端笛卡尔空间的轨迹加速度控制量;
[0031]
s203:利用机器人雅可比公式的求导式,有:
[0032][0033]
其中,j,分别为机器人系统给定的雅克比矩阵以及雅克比矩阵的求导结果,为系统输入给机器人的关节速度控制量;通过上式,得到阻抗控制器修正后的扒渣机器人各关节角加速度控制量
[0034]
所述的一种基于q-learning的扒渣机器人阻抗控制方法,其特征在于,所述步骤s3包括:
[0035]
s301:基于强化学习,定义负回报函数为:
[0036][0037]
其中,q1,q2,q3为正定矩阵,用于定义奖励系数;ur定义为控制输入;
[0038]
s302:通过连续时间bellman方程和欧拉公式,定义动作值函数即q函数,递推关系式表示为:
[0039]
q(xr(k),ur(k))=r(xr(k),ur(k))
·
δt q(xr(k 1),h(xr(k 1)))
[0040]
其中,k表示为当前状态,k 1表示为下一个状态;表示末端位移和速度偏差的矢量,ur=h(xr)为控制策略;
[0041]
s303:利用线性离散时间状态方程和值函数近似思想,将q函数简化为:
[0042]
[0043]
其中,其中,表示对矢量进行张量运算,表示张量积;a表示参数集,上标t表示矩阵转置,a=(a
xx a
xu a
uu
)
t
,其中a
xx
,a
xu
,a
uu
分别表示的对应参数结果;
[0044]
s304:构造用于优化参数集a的误差函数ef(k)为:
[0045][0046]
从而将对a的优化问题转化成对ef(k)的最小值问题;
[0047]
s305:通过随机梯度法的求解,得到最优参数集a
*
,其中上标*表示最优;此时q函数达到最小,最优输出通过求解下式来获取:
[0048][0049]
其中表示求偏导数,有:
[0050][0051]
其中,具有机械弹簧阻尼系统相同的形式,即:
[0052][0053]
最终的最优参数集始终保持a
xx
,a
xu
和a
uu
对角、正定且有界,从而使和正定且有界,以达到最优参数集具有弹簧阻尼形式,且系统保持稳定。
[0054]
所述的一种基于q-learning的扒渣机器人阻抗控制方法,其特征在于,所述步骤s4包括以下步骤:
[0055]
s401:将步骤s203得到的积分,得到修正后的机械臂角速度控制量将其与该时刻实际的角速度值作差并乘以增益系数γv∈r6×6即得到期望速度反馈值即:
[0056][0057][0058]
s402:将步骤s401得到的积分,得到修正后的机械臂角度控制量q
ideal
,将其与该时刻实际的角度值q
real
作差并乘以增益系数γ
p
∈r6×6得到期望位置反馈值即:
[0059][0060][0061]
s403:设系统的采样周期为l,对当前时刻t,记录上一个采样时刻时的各关节控制力矩τ
(t-l)
以及在该控制力矩下各关节实际角加速度得到结合了期望速度反馈和期望位置反馈的机械臂动力学时间延时估计模型为:
[0062][0063]
其中,为惯性矩阵的估计值,是一个n维的正定常对角矩阵;同时有:
[0064][0065]
由此即求得扒渣机器人的控制力矩τ的值。
[0066]
一种电子设备,包括:
[0067]
一个或多个处理器;
[0068]
存储装置,用于存储一个或多个程序,
[0069]
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述的方法。
[0070]
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现前述的方法。
[0071]
本发明的技术效果在于,针对扒渣机器人的工作环境和实际需求,结合maxwell模型和q-learning的强化学习方法,搭建了基于外环的阻抗控制器。在此基础上本发明充分考虑了扒渣机器人动力学模型线性和非线性特征,通过时间延时估计对动力学模型中的线性部分进行估计,并借助期望速度反馈与期望位置反馈对动力学模型剩余的非线性部分进行补偿,进而得到各关节的控制力矩,并以此搭建动力学控制为内环的运动控制器。两者结合的控制方法既保证了扒渣机器人运动过程中接触力控制的柔顺性,又可以实现机械臂动力学模型的快速估计和控制力矩的快速生成,提高了扒渣机器人控制的运算效率。
[0072]
下面结合附图对本发明作出进一步说明。
附图说明
[0073]
图1为本发明所述扒渣机器人控制方法的流程示意图。
[0074]
图2为本发明扒渣机器人末端执行器接触力示意图。
[0075]
图3a)为本发明扒渣机器人仿真效果图;b)为本发明扒渣机器人仿真轨迹的细节图。
[0076]
图4a)为扒渣机器人运动过程的运动平均误差对比图;b)为扒渣机器人运动过程的单次操作时间对比图。
[0077]
图5为3种方法的实际轨迹对比图。
具体实施方式
[0078]
参见附图1所示,以附图3a)所示的由一台六自由度rokae机械臂组成的扒渣机器人系统为例,本实例所述的基于q-learning的扒渣机器人阻抗控制方法包括以下步骤:
[0079]
s1:根据扒渣机器人工作的期望移动轨迹,设计阻抗控制器;并采集机械臂与目标物体之间的实际接触力。
[0080]
其中阻抗控制器通过以下步骤建立:
[0081]
s101:首先为目标物体及扒渣机器人建立坐标系,以空间中目标物体的几何中心点为原点建立目标物体坐标系{o
l
},以为目标物体相对于世界坐标系{o}的位姿矩阵轨迹;机器人坐标系同世界坐标系,即机器人底座中心与世界坐标系原点重合;
[0082]
s102:由步骤s101建立的坐标系,根据目标物体的中心点在笛卡尔空间中移动的期望轨迹以及目标物体的尺寸l,利用坐标变换方法求得扒渣机器人以该位姿移动目标物体时扒渣机器人的末端坐标系相对于目标物体坐标系的位姿
[0083][0084]
其中,rotx(0)∈r3×3表示以右手定则绕x轴负方向旋转0角度的旋转矩阵,为机械臂a的末端相对于目标物体坐标系{o
l
}的位姿矩阵;用rn表示矢量为n维矢量,用rn×n表示矩阵为n
×
n维矩阵;
[0085]
s103:由步骤s102所得的利用坐标变换运算得到机械臂末端相对于世界坐标系{o}的笛卡尔空间轨迹其中,表示目标物体坐标系{o
l
}相对于机械臂的末端坐标系{oe},通过对矩阵求逆得到;
[0086]
s104:利用罗德里格斯公式,将转化为期望轨迹位姿矢量的表示形式xd∈r3:
[0087][0088]
其中,rote∈r3×3是描述机械臂的末端姿态旋转矩阵,pe∈r3是描述机械臂的末端位置的位置矢量;
[0089]
s105:将步骤s104的结果,与测得的实际接触力代入阻抗公式,得到扒渣机器人的阻抗控制器,描述为:
[0090][0091]
其中,分别为末端执行器的期望轨迹的位移、速度以及加速度矢量,分别为经过阻抗控制器修正后的位移、速度和加速度矢量,分别为经过阻抗控制器需要控制位移偏差量、速度偏差量和加速度偏差量;md∈r3是期望惯性矩阵,bd∈r3是期望阻尼矩阵,kd∈r3是期望刚度矩阵,fe∈r3和fd∈r3分别表示机械臂执行器末端实际接触力和期望接触力。
[0092]
s2:采用maxwell模型对扒渣机器人的期望接触力进行估计,计算实际接触力与期望接触力的偏差值,将偏差值输入到扒渣机器人阻抗控制器中,实现对期望轨迹的修正。
[0093]
具体来说,步骤s2包括:
[0094]
s201:分析熔融金属表面应力特征,得到基于maxwell模型的应力fd为:
[0095][0096]
其中,μ(t)表示弹簧模型在maxwell模型中的等效占比,此处称之为凝固比率,ε表示总形变量,是弹簧模型形变的形变量和阻尼模型形变的形变量之和,e为金属熔液等效弹簧模型的刚度系数,η为金属熔液等效阻尼模型的阻尼系数,d为求导符号;计算得到的fd即为期望接触力;
[0097]
s202:将阻抗控制器的描述式移相,得到:
[0098][0099]
其中,是由阻抗控制器修正后的扒渣机器人末端笛卡尔空间的轨迹加速度控制量;
[0100]
s203:利用机器人雅可比公式的求导式,有:
[0101][0102]
其中,j,分别为机器人系统给定的雅克比矩阵以及雅克比矩阵的求导结果,为系统输入给机器人的关节速度控制量;通过上式,得到阻抗控制器修正后的扒渣机器人各关节角加速度控制量从而实现对期望轨迹的修正。
[0103]
s3:由扒渣机器人上一时刻和当前的各关节运行状态,结合q-learning的强化学习方法,对步骤s1的阻抗控制器进行阻抗参数的在线修正,实现控制参数的最优化,从而将阻抗控制器改进为变阻抗控制器;
[0104]
其中步骤s3具体包括:
[0105]
s301:基于强化学习,定义负回报函数为:
[0106][0107]
其中,q1,q2,q3为正定矩阵,用于定义奖励系数;ur定义为控制输入;
[0108]
s302:通过连续时间bellman方程和欧拉公式,定义动作值函数即q函数,递推关系式表示为:
[0109]
q(xr(k),ur(k))=r(xr(k),ur(k))
·
δt q(xr(k 1),h(xr(k 1)))
[0110]
其中,k表示为当前状态,k 1表示为下一个状态;表示末端位移和速度偏差的矢量,ur=h(xr)为控制策略;
[0111]
s303:利用线性离散时间状态方程和值函数近似思想,将q函数简化为:
[0112]
[0113]
其中,其中,表示对矢量进行张量运算,表示张量积;a表示参数集,上标t表示矩阵转置,a=(a
xx a
xu a
uu
)
t
,其中a
xx
,a
xu
,a
uu
分别表示的对应参数结果;
[0114]
s304:构造用于优化参数集a的误差函数ef(k)为:
[0115][0116]
从而将对a的优化问题转化成对ef(k)的最小值问题;
[0117]
s305:通过随机梯度法的求解,得到最优参数集a
*
,其中上标*表示最优;此时q函数达到最小,最优输出通过求解下式来获取:
[0118][0119]
其中表示求偏导数,有:
[0120][0121]
其中,具有机械弹簧阻尼系统相同的形式,即:
[0122][0123]
基于此,在参数集的优化与设计上,一方面需要保证最后的最优参数集具有弹簧阻尼形式,另一方面需要保证系统的稳定,而为了达到上述目的,根据阻抗控制基本理论,即需要保证和正定且有界。那么进一步来说,为了满足上述条件,同时简化强化学习参数集,即需要始终保持a
xx
,a
xu
和a
uu
对角、正定且有界。通过这种设定方式,便实现了使用q-learning完成对阻抗参数的最优在线修正的过程。
[0124]
s4:由扒渣机器人上一时刻的各关节运行状态,利用时间延时估计、期望速度反馈、期望位置反馈构建扒渣机器人的估计动力学模型,将步骤s1得到的角度空间轨迹转换为各关节控制力矩信号,并输入机器人伺服控制器中,实现扒渣机器人的推渣操作。
[0125]
故步骤s4包括:
[0126]
s401:将步骤s203得到的进行积分,得到修正后的机械臂角速度控制量将其与该时刻实际的角速度值作差并乘以增益系数γv∈r6×6(增益系数由用户整定得到)即得到期望速度反馈值即:
[0127][0128][0129]
s402:将步骤s401得到的积分,得到修正后的机械臂角度控制量q
ideal
,将其与该时刻实际的角度值q
real
作差并乘以增益系数γ
p
∈r6×6得到期望位置反馈值即:
[0130][0131][0132]
s403:设系统的采样周期为l,对当前时刻t,记录上一个采样时刻时的各关节控制力矩τ
(t-l)
以及在该控制力矩下各关节实际角加速度得到结合了期望速度反馈和期望位置反馈的机械臂动力学时间延时估计模型为:
[0133][0134]
其中,为惯性矩阵的估计值,是一个n维的正定常对角矩阵;同时有:
[0135][0136]
由此即求得扒渣机器人的控制力矩τ的值。
[0137]
至此,已经结合附图所示描述了本发明的技术方案。在本实例中,首先由扒渣机械臂运动学推到计算得到扒渣流程的轨迹,同时借助力传感器来感知实际接触力的信息。之后通过基于q-learning的变阻抗控制器,实时完成阻抗参数的在线优化。最后,参考期望位置反馈、期望速度反馈,并利用时间延时估计模型构建估计的扒渣机器人动力学模型,并基于前序内容的综合估算扒渣机器人到达期望位姿所对应的控制力矩。
[0138]
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
[0139]
其中电子设备,包括:
[0140]
一个或多个处理器;
[0141]
存储装置,用于存储一个或多个程序,
[0142]
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述的方法。
[0143]
具体使用中,用户能够通过作为终端设备的电子设备并基于网络来与同样作为电子设备的服务器进行交互,实现接收或发送消息等功能。终端设备一般是设有显示装置、基于人机界面来使用的各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑和台式电脑等。其中终端设备上根据需要可安装各种具体的应用软件,包括但不限于网页浏览器软件、即时通信软件、社交平台软件、购物软件等。服务器是用于提供各种服务的网络服务端。
[0144]
本实施例所提供的方法一般由服务器执行,在实际运用中,在满足必要条件下,终端设备亦可直接执行本方法。
[0145]
类似的,本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献