一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

双足机器人步态控制方法、控制装置与流程

2021-10-09 11:45:00 来源:中国专利 TAG:机器人 控制 步态 地说 双足

技术特征:
1.一种双足机器人步态控制方法,其特征在于,在仿真环境中建立双足机器人完整模型,所述完整模型包括躯干、双腿、双足,躯干与双腿间通过髋关节连接,双腿与双足间通过踝关节连接,所述仿真环境为平面地形,所述方法包括模仿学习和强化学习两个阶段,其中,所述模仿学习包括:步骤s1,建立双足机器人简化模型,所述简化模型包括躯干和双腿,每条腿都通过髋关节与所述躯干连接,每条腿上各有沿腿长度方向的驱动力f和绕髋关节转动的力矩τ;步骤s2,重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模型与各当前状态对应的各驱动关节目标位置,将所述完整模型的各当前状态及对应的各驱动关节目标位置一一对应,组成模仿学习数据集;步骤s3,利用所述模仿学习数据集对第一神经网络进行监督训练,所述第一神经网络的输入为完整模型的状态,输出为各驱动关节目标位置;步骤s4,将经过训练的第一神经网络用于控制所述完整模型行走,直到所述完整模型出现不稳定,计算不稳定时的轨迹下所述完整模型的状态与动作目标之间的均方误差,若所述均方误差不收敛,则提取所述不稳定时的轨迹下的所有状态和动作目标,根据所述不稳定时的轨迹下的状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到所述完整模型在所述不稳定时的轨迹下的各驱动关节目标位置,将所述完整模型在所述不稳定时轨迹下的状态及对应的各驱动关节目标位置一一对应合并到模仿学习数据集中,重复步骤s3和s4,若所述均方误差值收敛,则保存该模仿学习过程所有轨迹中均方误差最小的一次对应的神经网络参数作为最佳参数;所述强化学习包括:构建第二神经网络,所述第二神经网络与第一神经网络结构相同,并将第二神经网络的参数初始化为第一神经网络中得到的所述最佳参数;将所述平面地形更换为真实模拟地形,采用强化学习算法训练第二神经网络,其中输入和输出均和第一神经网络相同,奖励函数设置为所述完整模型的状态与动作目标之间的均方误差;强化学习收敛后,利用强化学习后的第二神经网络控制双足机器人行走。2.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述简化模型采用slip模型,其中躯干的质量m和惯量i采用与实际机器人躯干相同的质量和惯量,忽略双腿的质量和惯量,双腿刚度k和阻尼b的取值与实际机器人双腿等效刚度和阻尼相同。3.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模型与各当前状态对应的各驱动关节目标位置,包括:从仿真环境中获取完整模型的状态,并根据完整模型与简化模型的结构映射关系将完整模型的状态映射至简化模型,代入最优控制方程中,所述最优控制方程的约束条件包括
简化模型动力学方程、状态轨迹初值、状态轨迹边界、电机驱动指令轨迹边界,公式如下:简化模型动力学方程、状态轨迹初值、状态轨迹边界、电机驱动指令轨迹边界,公式如下:x
min
≤x
t
≤x
max
u
min
≤u
t
≤u
max
其中t0为当前时刻;t为优化的时间范围长度;v
t
为状态估计得到的简化模型的质心速度,为给定的速度指令;为简化模型的状态方程;x
t
为简化模型的状态轨迹,x
t
包含质心速度v
t
,以及质心位置、双腿与地面接触力、躯干所受外力,髋关节位置,髋关节与双腿的角度和角速度、腿的长度和速度这些参数;u
t
为简化模型中电机驱动指令轨迹,包括slip模型中的两个τ和两个f;[x
min
,x
max
]为t0至t0 t时间内机器人状态的最大范围;[u
min
,u
max
]为驱动指令允许的最大范围;求解出简化模型的状态轨迹x
t
,再根据完整模型与简化模型的结构映射关系将x
t
映射为完整模型各驱动关节目标位置轨迹。4.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述第一神经网络是长短期记忆网络,其包含两个隐含层,两个隐含层的神经元数目采用128或256。5.根据权利要求1所述的双足机器人步态控制方法,其特征在于,将经过训练的第一神经网络用于控制所述完整模型行走之前,先通过在完整模型的各关节位置上添加服从标准正态分布的噪声将完整模型随机初始化,在完整模型的各关节位置上添加服从标准正态分布的噪声,包括:以完整模型呈双足站立姿态时各关节的位置或角度为基准,对于每个关节,分别从关节位置的标准正态分布中采样取得一个值加到该关节位置上,如果超过该关节允许的最大位置或角度,则取该关节允许的最大位置或角度值作为噪声。6.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述不稳定的标准是完整模型的质心高度低于身高的40%。7.根据权利要求3所述的双足机器人步态控制方法,其特征在于,所述完整模型与简化模型的结构映射关系包括:将所述简化模型的质心位置和速度设置为完整模型的质心位置和速度;将简化模型的双腿与地面接触力与完整模型的足底与地面接触力对应;将简化模型的躯干所受外力与完整模型的躯干所受外力对应;将简化模型髋关节角度和角速度设置为完整模型髋关节和踝关节连线相对于躯干旋转的角度和角速度;将简化模型腿的长度设置为完整模型髋关节与踝关节的距离。
8.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述完整模型的双腿还包括膝关节,根据完整模型髋关节与踝关节的距离以及大腿和小腿的长度比例,结合所述完整模型髋关节与踝关节的距离以及大腿、小腿之间构成的三角形关系来确定膝关节的目标位置轨迹。9.根据权利要求1所述的双足机器人步态控制方法,其特征在于,所述强化学习算法是ppo或sac。10.一种双足机器人步态控制装置,其特征在于,包括:机器人模型构建模块,用于在仿真环境中建立双足机器人完整模型,所述完整模型包括躯干、双腿、双足,躯干与双腿间通过髋关节连接,双腿与双足间通过踝关节连接,所述仿真环境为平面地形,建立双足机器人简化模型,所述简化模型包括躯干和双腿,所述双腿都通过髋关节与所述躯干连接,每条腿上各有沿腿长度方向的驱动力f和绕髋关节转动的力矩τ;模仿学习模块,模仿学习模块包括模仿学习数据集构建单元,用于重复从仿真环境中读取所述完整模型的当前状态,并根据所述完整模型的当前状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到完整模型与各当前状态对应的各驱动关节目标位置,将所述完整模型的各当前状态及对应的各驱动关节目标位置一一对应,组成模仿学习数据集;第一神经网络训练单元,用于利用所述模仿学习数据集对第一神经网络进行监督训练,所述第一神经网络的输入为完整模型的状态,输出为各驱动关节目标位置;训练数据补充单元,用于将经过训练的第一神经网络用于控制所述完整模型行走,直到所述完整模型出现不稳定,计算不稳定时的轨迹下所述完整模型的状态与动作目标之间的均方误差,若所述均方误差不收敛,则提取所述不稳定时的轨迹下的所有状态和动作目标,根据所述不稳定时的轨迹下的状态及动作目标,对所述简化模型求解轨迹规划问题和任务空间控制,得到所述完整模型在所述不稳定时的轨迹下的各驱动关节目标位置,将所述完整模型在所述不稳定时轨迹下的状态及对应的各驱动关节目标位置一一对应合并到模仿学习数据集中,若所述均方误差值收敛,则保存该模仿学习过程所有轨迹中均方误差最小的一次对应的神经网络参数作为最佳参数;强化学习模块,用于构建第二神经网络,所述第二神经网络与第一神经网络结构相同,并将第二神经网络的参数初始化为第一神经网络中得到的所述最佳参数;将所述平面地形更换为真实模拟地形,采用强化学习算法训练第二神经网络,其中输入和输出均和第一神经网络相同,奖励函数设置为所述完整模型的状态与动作目标之间的均方误差,直至强化学习收敛。

技术总结
本发明公开一种双足机器人步态控制方法、控制装置,方法包括:采用模仿学习和强化学习两个阶段,模仿学习包括建立双足机器人简化模型,重复从仿真环境中读取完整模型的当前状态,根据完整模型当前状态及动作目标,对简化模型求解轨迹规划问题和任务空间控制,得到模仿学习数据集;利用数据集对第一神经网络监督训练;保存该模仿学习过程所有轨迹中均方误差最小的一次对应的神经网络参数作为最佳参数;强化学习包括:将第二神经网络的参数初始化为该最佳参数;训练第二神经网络,强化学习收敛后,利用强化学习后的第二神经网络控制双足机器人行走。本发明使强化学习在初始时就从较优解附近开始搜索,大幅提升其学习效率。大幅提升其学习效率。大幅提升其学习效率。


技术研发人员:赵明国 陈崴
受保护的技术使用者:清华大学
技术研发日:2021.06.10
技术公布日:2021/10/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜