用于控制机器人的设备和方法与流程

2021-11-20 02:09:00 来源：中国专利 TAG：

技术特征：
1.一种用于控制机器人（100）的方法，包括：接收要从机器人（100）的初始配置（102）达到的目标配置（103）的指示；通过价值迭代来确定粗略尺度价值映射，其中使用转移概率模型（200）来确定转移概率，所述转移概率模型（200）将粗略尺度状态和粗略尺度动作映射到粗略尺度状态的转移概率；和对于机器人（100）的粗略尺度状态序列中的每个粗略尺度状态，从根据机器人（100）的初始配置（102）确定的初始粗略尺度状态开始，并且直到机器人（100）达到目标配置（103）或者已经达到最大数量的精细尺度状态为止，从粗略尺度价值映射确定精细尺度子目标；由机器人（100）的致动器执行用以达到所确定的精细尺度子目标的精细尺度控制动作，以及获得传感器数据以确定作为对于机器人（100）的所得到的精细尺度状态序列中的每个精细尺度状态执行精细尺度控制动作的结果而达到的精细尺度状态，从机器人（100）的当前精细尺度状态开始，并且直到机器人（100）达到所确定的精细尺度子目标，机器人（100）转移到不同的粗略尺度状态，或者已经达到精细尺度状态序列的最大序列长度为止；从精细尺度状态序列的最后一个精细尺度状态确定粗略尺度状态序列的下一个粗略尺度状态。2.根据权利要求1所述的方法，其中转移概率模型（200）是可通过有监督学习训练的模型。3.根据权利要求1或2所述的方法，其中所述转移概率模型（200）是神经网络。4.一种机器人控制器（105），被配置为执行权利要求1至3中任一项的方法。5.根据权利要求4所述的一种用于训练机器人控制器（105）的方法，包括使用有监督学习来训练转移概率模型（200），并且包括经由强化学习来训练精细尺度控制策略，所述强化学习确定为达到子目标的精细尺度控制动作。6.根据权利要求5所述的用于训练机器人控制器（105）的方法，包括通过最大化转移概率模型（200）的概率来训练转移概率模型（200），以预测通过为达到子目标而执行的精细尺度动作所达到的粗略尺度状态。7.一种包括指令的计算机程序，所述指令当由计算机执行时，使得计算机执行根据权利要求1至3或5至6中任一项的方法。8.一种包括指令的计算机可读介质，所述指令当由计算机执行时，使得计算机执行根据权利要求1至3或5至6中任一项的方法。

技术总结
本公开涉及控制机器人的设备和方法。所述方法包括：接收要达到的目标配置的指示；通过价值迭代确定粗略尺度价值映射，其中使用转移概率模型确定转移概率；以及对于粗略尺度状态序列中的每个，从初始粗略尺度状态开始并且直到达到目标配置或者已经达到最大数量的精细尺度状态为止，从粗略尺度价值映射确定精细尺度子目标；由致动器执行精细尺度控制动作，以及获得传感器数据以确定所达到的精细尺度状态，从当前精细尺度状态开始，并且直到达到所确定的精细尺度子目标，转移到不同的粗略尺度状态，或者已经达到精细尺度状态序列的最大序列长度为止；以及从精细尺度状态序列中的最后一个确定粗略尺度状态序列中的下一个。一个确定粗略尺度状态序列中的下一个。一个确定粗略尺度状态序列中的下一个。

技术研发人员：J
受保护的技术使用者：罗伯特
技术研发日：2021.04.29
技术公布日：2021/11/19

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：远程激光制导飞行器控制系统及其控制方法与流程

用于控制机器人的设备和方法与流程

相关文献

最热文献