机器人系统的无导数模型学习系统及设计的制作方法

2022-05-08 10:05:17 来源：中国专利 TAG：

技术特征：
1.一种用于控制操纵系统的操纵器学习控制设备，所述操纵器学习控制设备包括：接口，所述接口被配置为接收所述操纵系统的操纵器状态信号和关于要由所述操纵系统在工作空间中操纵的对象的对象状态信号，其中，所述对象状态信号由至少一个对象检测器检测；输出接口，所述输出接口被配置为向所述操纵系统发送初始策略程序和更新策略程序；存储器，所述存储器用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程df-spgp核学习程序、无导数半参数高斯过程df-spgp模型学习程序、更新策略程序和初始策略程序的计算机可执行程序；以及处理器，所述处理器与所述存储器连接，所述处理器被配置为将所述初始策略程序发送到所述操纵系统以用于启动学习过程，所述学习过程在预设时间段期间操作操纵所述对象的操纵器系统，其中，所述处理器根据所述对象状态历史数据和所述操纵器状态历史数据更新所述df-spgp模型学习程序，所述对象状态历史数据和所述操纵器状态历史数据是使用所述数据预处理程序从在所述预设时间段内已经接收到的操纵器状态信号和对象状态信号的集合转换的，其中，所述处理器根据更新的df-spgp模型学习程序来对所述更新策略程序进行更新。2.根据权利要求1所述的操纵器学习控制设备，其中，在已经根据经更新的df-spgp模型学习程序对所述更新策略程序进行更新之后，将所述更新策略程序发送到所述操纵系统。3.根据权利要求1所述的操纵器学习控制设备，其中，所述操纵器状态信号由状态检测器检测，其中，所述状态检测器布置在所述操纵系统的移动部分处或者所述操纵系统的非移动部分处，或者布置在所述操纵系统的所述移动部分和所述非移动部分两者处。4.根据权利要求3所述的操纵器学习控制设备，其中，所述操纵器状态信号是来自所述操纵系统的致动器或所述操纵系统的编码器的信号，或者是来自所述致动器和所述编码器的信号的组合。5.根据权利要求3所述的操纵器学习控制设备，其中，所述状态检测器是定位传感器或编码器或者所述定位传感器和所述编码器的组合。6.根据权利要求1所述的操纵器学习控制设备，其中，所述至少一个对象检测器是生成所述对象状态信号的rgb或rgbd相机。7.根据权利要求1所述的操纵器学习控制设备，其中，所述对象状态数据表示所述对象在预定时间段内的位置的顺序测量数据的集合。8.根据权利要求1所述的操纵器学习控制设备，其中，所述至少一个对象检测器与所述操纵系统分离。9.根据权利要求1所述的操纵器学习控制设备，其中，操纵器的状态检测器布置在所述操纵系统的关节位置处。10.根据权利要求3所述的操纵器学习控制设备，其中，所述操纵器状态数据表示所述操纵器在预定时间段内的位置的顺序测量数据的集合。11.根据权利要求1所述的操纵器学习控制设备，其中，所述df-spgp模型学习程序预测所述操纵器和/或由所述操纵器操纵的所述对象的行为。
12.根据权利要求7所述的操纵器学习控制设备，其中，所述df-spgp核学习程序定义所述df-spgp模型学习程序，所述df-spgp模型学习程序预测所述操纵器和/或由所述操纵器操纵的所述对象的行为。13.根据权利要求1所述的操纵器学习控制设备，其中，所述至少一个对象检测器是生成所述对象状态信号的位置编码器。14.一种计算机实现的操纵器学习方法，所述操纵器学习方法包括以下步骤：在预设时间段内根据初始策略程序操作操纵系统，其中，所述初始策略程序启动学习过程，该学习过程操作用于操纵对象的操纵器系统；在所述预设时间段内接收操纵器状态信号和对象状态信号；根据从在所述预设时间段内已经接收到的所述操纵器状态信号和所述对象状态信号的集合转换而来的对象状态历史数据和操纵器状态历史数据来更新df-spgp模型学习程序；以及根据经更新的df-spgp模型学习程序来对更新策略程序进行更新。15.根据权利要求14所述的操纵器学习方法，所述操纵器学习方法还包括以下步骤：将经更新的更新策略程序发送到所述操纵系统。16.根据权利要求14所述的操纵器学习方法，其中，所述操纵器状态信号由布置在所述操纵系统的移动部分处的状态检测器检测。17.根据权利要求16所述的操纵器学习方法，其中，所述操纵器状态信号是来自所述操纵系统的致动器或所述操纵系统的编码器的信号，或者是来自所述致动器和所述编码器的信号的组合。18.根据权利要求16所述的操纵器学习方法，其中，所述状态检测器是定位传感器、编码器或所述定位传感器和所述编码器的组合。19.根据权利要求14所述的操纵器学习方法，其中，至少一个对象检测器是生成所述对象状态信号的rgb或rgbd相机。20.根据权利要求14所述的操纵器学习方法，其中，所述对象状态数据表示所述对象在预定时间段内的位置的顺序测量数据的集合。21.根据权利要求14所述的操纵器学习方法，其中，至少一个对象检测器与所述操纵系统分离。22.根据权利要求14所述的操纵器学习方法，其中，所述状态检测器布置在所述操纵系统的关节位置处。

技术总结
一种控制操纵系统的操纵器学习控制设备，包括：接口，其配置为接收操纵系统的操纵器状态信号和关于要由操纵系统在工作空间中操纵的对象的对象状态信号，其中，对象状态信号由至少一个对象检测器检测；输出接口，其配置为向操纵系统发送初始和更新策略程序；存储器，其用于存储包括数据预处理程序、对象状态历史数据、操纵器状态历史数据、无导数半参数高斯过程DF-SPGP核学习程序、无导数半参数高斯过程DF-SPGP模型学习程序、更新策略程序和初始策略程序的计算机可执行程序；以及处理器，其与存储器连接，配置为将初始策略程序发送到操纵系统以启动学习过程，学习过程在预设时间段内操作操纵对象的操纵器系统。内操作操纵对象的操纵器系统。内操作操纵对象的操纵器系统。

技术研发人员：D
受保护的技术使用者：三菱电机株式会社
技术研发日：2020.07.29
技术公布日：2022/5/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

机器人系统的无导数模型学习系统及设计的制作方法

相关文献

最热文献