一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于控制机器人装置的装置和方法与流程

2022-04-09 06:16:13 来源:中国专利 TAG:


1.总的来说,不同的实施例涉及一种用于控制机器人装置的装置和方法。


背景技术:

2.机器人装置可具有多项技能,并且可为了执行任务而实施这些技能中的多项。在这种情况下,机器人装置在实施技能时的行为可取决于多个参数。例如可以借助于机器人控制模型来确定为了执行任务所要实施的技能。然而,大量的技能结合大量的参数可能导致在确定所要实施的技能时的分析时间长。如果机器人装置正在运行,则例如可能需要短的分析时间来确定所要实施的技能。
3.还可以有利的是:将来自演示中的机器人能力传授给机器人控制模型。
4.l. schwenkel, m. guo和m. b
ü
rger在2019年机器人学习会议上的出版物“optimizing sequences of probabilistic manipulation skills learned from demonstration”(在下文称为参考文献[1])描述了一种以技能为中心的方案,在该方案中,每项技能都独立地在不同场景下被学习,但是不与特定任务绑定。


技术实现要素:

[0005]
具有独立权利要求1(第一个示例)和9(第九个示例)的特征的方法和装置能够实现:以微小的计算技术构造和/或微小的时间花费来确定机器人装置的用于实施任务的技能。例如,该方法和该装置能够实现:针对机器人装置的当前状态和目标状态,以微小的计算技术构造和/或微小的时间花费来确定要由机器人装置实施的技能。尤其是,该方法和该装置可以在使用经训练的控制模型的情况下提供所要实施的技能。还提供一种方法和一种装置,借助于该方法和该装置可以将来自演示中的机器人能力传授给控制模型。
[0006]
机器人装置可以是任何类型的受计算机控制的装置,诸如机器人(例如制造机器人、维修机器人、家用机器人、医疗机器人等等)、车辆(例如自主车辆)、家用电器、生产机器、私人助理、访问控制系统等等。
[0007]
按照第一个示例产生的控制模型例如一方面考虑上一次实施的状态转变(诸如上一次实施的技能)与随后可实施的状态转变(诸如随后可实施的技能)之间的关联以及另一方面考虑这两个状态转变的排序所基于的几何条件。
[0008]
控制模型例如在如下方面是有利的:不需要复杂的计算来确定所要执行的状态转变(诸如所要执行的技能,这些技能可引起所要执行的状态转变)的排序。例如,所要实施的技能可以与大量技能、大量参数和/或在机器人装置的周围环境中的大量参与对象无关地以微小的时间花费来确定所要执行的技能。控制模型还具有如下效果:不需要手动的选择过程来选择所要实施的技能。
[0009]
控制模型例如在如下方面是有利的:该控制模型可以针对机器人装置的附加技能被线性扩展。
[0010]
每个控制-状态序列都可具有状态和状态转变的交替排序。在本段中所描述的特
征与第一个示例相结合地形成第二个示例。
[0011]
利用该控制模型对机器人装置的控制可以在每个状态下都具有:针对每个在该状态下可实施的状态转变,响应于将目标状态和用来达到该状态的状态转变输入到经训练的参数模型中,确定相应的任务参数组;针对每个在该状态下可实施的状态转变,为一个或多个对象中的每个对象响应于将目标状态、所述一个或多个对象中的其它对象的相应的状态和借助于经训练的参数模型所确定的任务参数组输入到经训练的对象模型中来确定相应的概率分布;在使用针对所述一个或多个对象所确定的概率分布的情况下,确定每个在该状态下可实施的状态转变的概率;而且将所确定的概率最高的可实施的状态转变确定为所要实施的状态转变。在本段中所描述的特征与第一个示例或第二个示例相结合地形成第三个示例。
[0012]
对于每个在该状态下可实施的状态转变来说,对相应的任务参数组的确定都可具有:确定该任务参数组的每个任务参数的相应的概率分布;而且将相应的概率分布的期望值确定为该任务参数组的任务参数。在本段中所描述的特征与第三个示例相结合地形成第四个示例。
[0013]
针对多个初始状态-目标状态对中的每个初始状态-目标状态对,对控制-状态序列的提供可具有:从初始状态开始直至目标状态为止,选择在机器人装置的相应的状态下的状态转变;而且借助于模拟来确定被分配给所选择的状态转变的任务参数组和机器人装置的由该状态转变导致的状态。在本段中所描述的特征与第一个示例至第四个示例中的一个或多个示例相结合地形成第五个示例。
[0014]
为初始状态-目标状态对提供控制-状态序列可具有:针对初始状态-目标状态对确定多个潜在的控制-状态序列,其中每个控制-状态序列都具有状态和状态转变的交替排序;而且将具有状态和状态转变的最短排序的潜在的控制-状态序列确定为用于初始状态-目标状态对的控制-状态序列。在本段中所描述的特征与第一个示例至第五个示例中的一个或多个示例相结合地形成第六个示例。
[0015]
针对每个状态转变,该控制模型还可具有机器人轨迹模型、先决条件模型和终止条件模型。对该控制模型的训练还可具有:提供用于执行状态转变中的每个状态转变的演示;在使用这些演示的情况下,针对每个状态转变来对机器人轨迹模型进行训练,其中每个机器人轨迹模型都是具有一个或多个初始状态和一个或多个最终状态的隐半马尔可夫(hidden-semi-markov)模型;在使用这些演示的情况下,针对每个状态转变来对先决条件模型和终止条件模型进行训练,其中该先决条件模型针对被分配给该状态转变的机器人轨迹模型的每个初始状态都具有在实施该状态转变之前的机器人配置的概率分布,而且其中该终止条件模型针对被分配给该状态转变的机器人轨迹模型的每个最终状态都具有在实施该状态转变之后的机器人配置的概率分布。利用该控制模型对机器人装置的控制可在每个状态下都具有:在使用经训练的参数模型的情况下,确定任务参数组;在使用经训练的对象模型的情况下,确定所要实施的状态转变;在使用所要实施的状态转变和该任务参数组的情况下,借助于机器人轨迹模型来确定机器人轨迹;而且控制机器人装置来实施所确定的机器人轨迹。在本段中所描述的特征与第一个示例至第六个示例中的一个或多个示例相结合地形成第七个示例。
[0016]
从演示中学习控制模型具有如下效果:学习效率被提高(例如所需的计算技术花
费减少,例如所需的时间花费减少,例如用于产生学习数据或训练数据的花费减少)。
[0017]
此外,从演示中学习机器人轨迹模型具有如下效果:借助于经过学习的机器人轨迹模型显著提高在确定下一项所要实施的技能时的性能(例如效率)。这还具有如下优点:不需要复杂的模拟。
[0018]
为初始状态-目标状态对提供控制-状态序列可具有:从初始状态开始直至目标状态为止,选择在机器人装置的相应的状态下的状态转变;在使用被分配给所选择的状态转变的先决条件模型的情况下,确定被分配给所选择的状态转变的任务参数组;而且在使用被分配给所选择的状态转变的终止条件模型的情况下,确定机器人装置的由该状态转变导致的状态。在本段中所描述的特征与第七个示例相结合地形成第八个示例。
[0019]
清楚的是,该控制模型可以借助于所确定的控制-状态序列依据关于当前状态和目标状态的先前的问题情况来学习,并且在此可以考虑几何条件,使得基于此可以提高在机器人装置运行时的性能。
[0020]
一种计算机程序产品可存储程序指令,如果这些程序指令被执行,则这些程序指令实施根据第一个示例至第八个示例中的一个或多个示例所述的方法。具有在本段中所描述的特征的计算机程序产品形成第十个示例。
[0021]
一种非易失性存储介质可存储程序指令,如果这些程序指令被执行,则这些程序指令实施第一个示例至第八个示例中的一个或多个示例的方法。具有在本段中所描述的特征的非易失性存储介质形成第十一个示例。
[0022]
一种永久性存储介质可存储程序指令,如果这些程序指令被执行,则这些程序指令实施第一个示例至第八个示例中的一个或多个示例的方法。具有在本段中所描述的特征的永久性存储介质形成第十二个示例。
附图说明
[0023]
本发明的实施例在附图中示出并且在随后的描述中进一步予以阐述。
[0024]
其中:图1示出了按照不同实施方式的示例性的机器人装置布局;图2示出了按照不同实施方式的用于产生控制模型的流程图;图3示出了按照不同实施方式的对示例性的控制-状态序列的确定;图4示出了按照不同实施方式的从演示中学习的流程图;图5示出了按照不同实施方式的用于记录用户的演示的布局;图6a和6b分别示出了按照不同实施方式的用于控制机器人装置的流程图;图7清楚地示出了按照不同实施方式的用于示例性任务的控制模型的工作原理;图8示出了按照不同实施方式的用于控制机器人装置的方法。
具体实施方式
[0025]
在一个实施方式中,“计算机”可以被理解为任何类型的逻辑实现实体,该逻辑实现实体可以是硬件、软件、固件或它们的组合。因而,在一个实施方式中,“计算机”可以是硬连线逻辑电路或可编程逻辑电路,诸如可编程处理器、例如微处理器(例如cisc(复杂指令集处理器)或risc(精简指令集处理器))。“计算机”可具有一个或多个处理器。“计算机”也
可以是由处理器来实现或实施的软件,例如任何类型的计算机程序、例如使用虚拟机代码、诸如java的计算机程序。与一个替选的实施方式相一致,相应的功能的任何其它类型的实现方案都可以被理解为“计算机”,这些相应的功能在下文更详细地予以描述。
[0026]
在控制机器人装置来执行任务的情况下,可以使用机器人控制模型,以便确定为了完成该任务由机器人装置实施或应该由机器人装置实施的技能。如果机器人装置正在运行,则可能需要以低时延(例如短的分析时间)来确定所要实施的技能。不同的实施例涉及一种用于控制机器人装置的装置和方法,该装置和该方法能够在考虑该任务的情况下以低时延来确定由机器人装置所要实施的技能。不同的实施例还涉及一种方法和装置,利用该方法和该装置可以在使用演示的情况下产生用于确定所要实施的技能的模型。
[0027]
图1示出了机器人装置布局100。机器人装置布局100可具有机器人装置101。为了阐明,在图1中示出且在下文示例性描述的机器人装置101代表示例性的机器人装置,而且例如可具有以用于对工件进行移动、安装或加工的机器人臂为形式的工业机器人。指出:机器人装置可以是任何类型的受计算机控制的装置,诸如机器人(例如制造机器人、维修机器人、家用机器人、医疗机器人等等)、车辆(例如自主车辆)、家用电器、生产机器、私人助理、访问控制系统等等。
[0028]
机器人装置101具有机器人链节102、103、104和底座(或者通常是支架)105,通过该底座来承载这些机器人链节102、103、104。术语“机器人链节”涉及机器人装置101的可移动部分,对这些可移动部分的操纵能够实现与周围环境的物理交互,例如以便执行任务,例如以便实施或执行一项或多项技能。
[0029]
为了进行控制,机器人装置布局100包含控制装置106,该控制装置被设立为按照控制程序来实现与周围环境的交互。机器人链节102、103、104的最后一个元件104(从底座105出发来看)也被称作末端执行器104并且可以包含一个或多个工具,如焊炬、抓持工具、涂装设备等等。
[0030]
其它机器人链节102、103(更靠近底座105)可形成定位装置,使得在其端部具有末端执行器104的机器人臂(或关节臂)与末端执行器104一起被设置。机器人臂是机械臂,该机械臂可以完成与人类手臂类似的功能(可能利用在其端部处的工具)。
[0031]
机器人装置101可包含连接元件107、108、109,这些连接元件使机器人链节102、103、104彼此连接并且与底座105连接。连接元件107、108、109可具有一个或多个关节,所述一个或多个关节中的每个关节都可以提供所属的机器人链节相对于彼此的旋转运动和/或平移运动(也就是说位移)。机器人链节102、103、104的运动可以借助于调节环节来引导,该调节环节由控制装置106来控制。
[0032]
术语“调节环节”可以被理解成适合于作为对其被驱动的反应来影响机构的组件。调节环节可以将由控制装置106输出的命令(所谓的激活)转化成机械运动。调节环节、例如机电转换器可以被设立为作为对其操控的反应将电能转换成机械能。
[0033]
术语“控制装置”(也称为“控制设备”)可以被理解成任何类型的逻辑实现单元,该逻辑实现单元例如可包含电路和/或处理器,该处理器能够实施存储在存储介质中的软件、固件或它们的组合并且可以向例如在当前示例中的调节环节发出命令。该控制装置例如可以通过程序代码(例如软件)来被设立为控制系统、在当前示例中机器人的运行。
[0034]
在当前示例中,控制装置106包含计算机110和存储器111,该存储器存储代码和数
据,计算机110基于这些代码和数据来控制机器人装置101。按照不同实施方式,控制装置106基于存储在存储器111中的机器人控制模型112来控制机器人装置101。
[0035]
按照不同实施方式,机器人装置布局100可具有一个或多个传感器113。所述一个或多个传感器113可以被设立为:提供表征机器人装置的状态的传感器数据。例如,所述一个或多个传感器113可具有:成像传感器,诸如摄像机(例如标准摄像机、数码摄像机、红外摄像机、立体摄像机等等);雷达传感器;激光雷达(lidar)传感器;位置传感器;速度传感器;超声传感器;加速度传感器;压力传感器,等等。
[0036]
机器人装置101可以处在多个状态中的一个状态下。按照不同实施方式,机器人装置101可以在任何时间点都处在所述多个状态中的当前状态下。所述多个状态中的相应的状态可以在使用由所述一个或多个传感器113提供的传感器数据和/或机器人装置101的配置的情况下被确定。
[0037]
在每个状态与该状态之后的状态之间,可发生状态转变。本文中使用的术语“状态转变”可对应于机器人装置101的动作和/或技能。清楚的是,机器人装置101可以在一个状态下实施动作和/或技能,并且这可能引起机器人装置101的新状态。
[0038]
机器人装置101可以被设立为实施多项技能。所述多项技能中的技能例如可以在控制装置106的程序代码中被预先限定。所述多项技能中的一项或多项技能例如可具有一个或多个机器人链节102、103、104的机械运动。所述多项技能中的一项或多项技能例如可具有末端执行器的动作(例如抓持、例如松开等等)。按照不同实施方式,在机器人装置101的当前状态下执行的技能可引起机器人装置101的所述多个状态中的所得出的状态。
[0039]
机器人控制模型112可以被设立为确定所要实施的状态转变,而且控制装置106可以被设立为控制机器人装置101来实施该状态转变。机器人控制模型112可以被设立为确定所要实施的技能,而且控制装置106可以被设立为控制机器人装置101来实施该技能。
[0040]
按照不同实施方式,控制模型112的至少一部分可以被设立为:针对机器人装置101的状态和机器人装置101的目标状态,提供所要实施的状态转变(例如所要实施的技能)。控制模型112可以被设立为:针对机器人装置101的状态和机器人装置101的目标状态,提供所要实施的技能和被分配给该技能的任务参数。目标状态例如可以是所要实施的任务被完成或已完成的状态。
[0041]
按照不同实施方式,可以在机器人装置101停机期间产生(例如学习)控制模型112。按照不同实施方式,所产生的控制模型112可以在机器人装置101运行期间被使用,以便确定由机器人装置101所要实施的技能。
[0042]
图2示出了按照不同实施方式的用于产生控制模型206的流程图200。这样产生的控制模型206例如可以被用作控制模型112和/或被用作控制模型112的部分。计算机可以被设立为产生控制模型206。该计算机例如可以是控制装置106的计算机110。如本文中所描述的那样,即使机器人装置101未被运行,也可以产生(例如学习)控制模型206;这样,该计算机例如可以是与计算机110不同的计算机。例如,控制模型206可以在空间上与机器人装置布局100分开地被学习。
[0043]
按照不同实施方式,可以提供多个初始状态-目标状态对202 {(s0, sn)}(例如针对同一任务的多个初始状态-目标状态对202 {(s0, sn))。按照不同实施方式,计算机可以被设立为:选择多个初始状态-目标状态对202 {(s0, sn)}。按照不同实施方式,计算机例如
可以被设立为:确定多个初始状态-目标状态对202 {(s0, sn)}。每个初始状态-目标状态对(s0, sn)都可具有初始状态s0和目标状态sn。每个初始状态s0都可以是机器人装置101的所述多个状态中的一个状态。每个初始状态s0都可以说明机器人装置101以及一个或多个对象的状态。每个目标状态sn都可以是机器人装置101的所述多个状态中的一个状态。每个目标状态sn都可以说明机器人装置101以及一个或多个对象的状态。例如,计算机可以被设立为:从具有所述多个状态的状态空间中选择(例如基本上随机选择、例如借助于预先限定的算法来选择)每个初始状态-目标状态对(s0, sn)。
[0044]
按照不同实施方式,计算机可以被设立为:针对多个初始状态-目标状态对202 {(s0, sn)}中的每个初始状态-目标状态对(s0, sn),确定控制-状态序列ξ。每个控制-状态序列都可具有来自可能的状态和状态转变的集合中的状态和状态转变。例如,针对所述多个初始状态-目标状态对202 {(s0, sn)},可以确定多个控制-状态序列204 ξ = {ξ}。按照不同实施方式,ξ可以是控制-状态序列{ξ}的数据库。所分配的初始状态-目标状态对(s0, sn)的每个控制-状态序列ξ都可具有状态和状态转变(例如技能)的交替排序。所分配的初始状态-目标状态对(s0, sn)的每个控制-状态序列ξ都可具有从初始状态s0直至目标状态sn为止的状态和状态转变的交替排序。
[0045]
为了阐明,在下文依据机器人装置101的技能来描述状态转变。
[0046]
清楚的是,在初始状态s0下可以实施(例如在理论上实施)技能,其中该技能引起机器人装置101的所得出的状态,其中在随后的状态下可以实施下一项技能,等等。在这种情况下,每项技能都可分配有任务参数组。按照不同实施方式,包含在该任务参数组中的任务参数可以描述所分配的技能。
[0047]
按照不同实施方式,所分配的初始状态-目标状态对(s0, sn)的控制-状态序列ξ可以通过
ꢀꢀꢀꢀꢀ
(1)来描述。
[0048]
清楚的是,可以通过来描述状态转变,并且可以给该状态转变分配任务参数组。
[0049]
按照不同实施方式,任务参数组的任务参数可以在使用在所分配的技能之前的机器人装置101的状态(例如在理论上实施该技能之前的状态)的情况下被确定。
[0050]
针对初始状态-目标状态对(s0, sn)的控制-状态序列例如可以借助于任务和运动规划求解器(tamp求解器)来确定。tamp求解器例如可以将离散逻辑推理与关于机器人装置101方面的几何条件相关联。tamp求解器例如可以被实现为神经网络。按照不同实施方式,针对初始状态-目标状态对(s0, sn)的控制-状态序列可以通过tamp求解器借助于应用图搜索算法来确定。图搜索算法例如可以被应用于(例如在控制装置106的存储器中)被预编程的参数。图搜索算法例如可具有广度搜索、dijkstra算法和/或算法。在这种情况下,在任何当前状态下,每个状态转变(例如每项技能)都可以被实施(在理论上被实施),以便使系统达到所得出的状态。
[0051]
被分配给技能的任务参数组例如可以借助于计算机(例如在使用tamp
求解器的情况下)被计算。按照不同实施方式,可以借助于模拟来确定由技能导致的状态。按照不同实施方式,可以成本最低地确定针对机器人装置的控制输入,以便(例如在理论上)实施具有所分配的任务参数组的任务参数的状态转变。
[0052]
按照不同实施方式,被分配给技能的任务参数组可以在使用先决条件模型的情况下被确定。按照不同实施方式,由技能导致的状态可以在使用终止条件模型的情况下被确定。对于每项技能来说,先决条件模型可以针对每个初始状态具有在实施该技能之前的机器人配置的概率分布。对于每项技能来说,终止条件模型可以针对每个由该技能导致的状态(在某些方面称为最终状态)具有在实施该技能之后的机器人配置的概率分布。先决条件模型和/或终止条件模型可以借助于从演示中学习来确定(为此例如参见关于图4和图5的描述以及参考文献[1])。
[0053]
按照不同实施方式,针对所述多个初始状态-目标状态对202 {(s0, sn)}中的每个初始状态-目标状态对(s0, sn),可以确定多个潜在的控制-状态序列。初始状态-目标状态对(s0, sn)的所述多个潜在的控制-状态序列中的每个潜在的控制-状态序列都可具有从初始状态s0直至目标状态sn为止的状态和状态转变(例如技能)的交替排序。按照不同实施方式,所述多个潜在的控制-状态序列中的具有所确定的最低成本的潜在的控制-状态序列可以被确定为针对该初始状态-目标状态对(s0, sn)的控制-状态序列ξ。按照不同实施方式,所述多个潜在的控制-状态序列中的具有状态和状态转变的最短排序(例如具有最少的状态或状态转变)的潜在的控制-状态序列可以被确定为针对该初始状态-目标状态对(s0, sn)的控制-状态序列ξ。
[0054]
在图3中示出了对示例性的控制-状态序列204a的确定。例如,可以针对初始状态-目标状态对(s0, sn) 202a确定示例性的控制-状态序列204a,其中初始状态为s0=s0而且其中目标状态为sn=s
12
。示例性的控制-状态序列204a可以在使用清楚呈现的状态-状态转变图表302的情况下例如借助于图搜索算法来确定。如本文中所描述的那样,每个状态转变都可分配有相应的任务参数(在状态-状态转变图表302中表征为p)。状态-状态转变图表302示出了示例性地确定的从初始状态直至目标状态为止的状态和状态转变的序列304。示例性的控制-状态序列204a可以依据该示例被描述如下:ξ = s
0 (a2, p4) s
4 (a6, p
11
) s
12

[0055]
参考图2,计算机可以被设立为:在使用所确定的多个控制-状态序列204 ξ = {ξ}的情况下,产生(例如训练或学习)控制模型206。控制模型206例如可以是几何任务模型而且可以考虑在控制机器人装置101时的几何条件。按照不同实施方式,控制模型206可以被设立为:响应于对机器人装置101的当前状态以及目标状态的输入,提供(例如输出)所要实施的状态转变和被分配给所要实施的状态转变的任务参数组。按照不同实施方式,控制模型206可以被设立为:响应于对机器人装置101的当前状态以及目标状态的输入,提供(例如输出)所要实施的技能和被分配给所要实施的技能的任务参数组。
[0056]
在下文,描述了按照不同实施方式的对控制模型206的示例性产生。
[0057]
按照不同实施方式,可以在控制-状态序列(也就是说状态和技能的序列)的开始处给每个控制-状态序列ξ添加虚拟初始技能。可以在控制-状态序列的结尾处给每个控制-状态序列ξ添加虚拟结束技能。因此,控制-状态序列ξ可以在有n个状态的长度下(参考等式(1))被描述成:
(2)。
[0058]
按照不同实施方式,计算机可以被设立为:确定状态转变-状态-状态转变三元组的集合,这些三元组包含在所提供的控制-状态序列中。按照不同实施方式,计算机可以针对所述多个控制-状态序列204 ξ = {ξ}中的每个控制-状态序列确定通过状态转变-状态-状态转变(例如技能-状态-技能)来给出的三元组的集合(例如每个三元组)。如本文中所描述的那样,每项技能都可分配有任务参数组。状态转变-状态-状态转变三元组(在下文也称为第一三元组)可以通过
ꢀꢀꢀꢀꢀ
(3)来描述,其中n是n的流动索引。
[0059]
清楚的是,相应的第一三元组的两个状态转变的每一对都可以是两项技能的排序。为了清楚描述的目的,相应的第一三元组的两个状态转变在本文中也称为技能转变。清楚的是,如本文中所描述的技能转变是两项可依次实施(或者被依次实施)的技能。因此,每个技能转变都可以被分配给从一项技能到下一项技能的转变。例如,每个技能转变都可以被分配给与所述多个控制-状态序列相符的从一项技能到下一项技能的转变。按照不同实施方式,第一三元组可以是多个第一三元组,并且在使用所述多个第一三元组的情况下可以确定多个技能转变(也就是说相应的第一三元组的多个状态转变对)。所述多个技能转变可以被添加给技能转变组,其中每个技能转变都可以是。
[0060]
按照不同实施方式,针对每个技能转变可以确定扩展状态组(在某些方面也称为状态数据组)。扩展状态组可具有一个或多个扩展状态。按照不同实施方式,计算机可以针对所述多个控制-状态序列204 ξ = {ξ}中的每个控制-状态序列确定通过随后的状态-后续任务参数-目标状态(在下文也称为第二三元组)给出的每个三元组。第二三元组可以通过
ꢀꢀꢀꢀ
(4)来描述。
[0061]
每个第二三元组都可以是所分配的扩展状态组的扩展状态。
[0062]
按照不同实施方式,控制模型206可具有参数模型和对象模型。按照不同实施方式,计算机可以被设立为训练映射函数,以便从每个技能转变(例如技能到技能)映射到相应的参数模型和/或相应的对象模型上。例如,每个技能转变的经训练的映射函数都可以按照等式(5)来映射参数模型和对象模型:(5)。
[0063]
按照不同实施方式,可以针对每个任务参数来学习参数模型。参数模型可以是任务参数化的高斯混合模型(tp-gmm)。参数模型可以针对每个任务参数
在使用被分配给相应的技能转变的下一项技能的任务参数组作为观察并且使用由状态sj和目标状态sn组成的对作为所分配的帧的情况下被训练。清楚的是,参数模型描述(例如建模)所选择的任务参数关于机器人装置101的当前状态和目标状态方面如何被限制(例如有条件地)。清楚的是,参数模型描述在先前的解中的任务参数在考虑到目标状态的情况下是如何被选择的。指出:在这些示例中,第一三元组的状态被称为sj,使得第一三元组由技能、状态sj和技能组成。
[0064]
按照不同实施方式,参数模型可以针对第一三元组集合中的每个第一三元组来适配。按照不同实施方式,参数模型可以被适配,使得响应于对第一三元组(状态转变-状态-状态转变三元组)和包含该第一三元组的控制-状态序列的所分配的目标状态的输入,参数模型确定来自被分配给该状态之后的状态转变的任务参数组中的每个任务参数的概率分布。
[0065]
按照不同实施方式,可以针对每个对象来学习对象模型。对象模型可以是任务参数化的高斯混合模型(tp-gmm)。对象模型可以针对每个对象在使用相应的对象的状态作为观察并且使用由所述一个或多个对象中的其它对象(也就是说不是对应于对象o的对象)的相应的状态、被分配给下一项技能的任务参数组和目标状态sn组成的三元组作为所分配的帧的情况下被训练。清楚的是,对象模型描述(例如建模)当前状态关于所选择的任务参数和目标状态方面如何被限制(例如有条件地)。清楚的是,对象模型描述依据先前的解在考虑到目标状态的情况下有大多可能进行转变。指出:在这些示例中,第一三元组的状态被称为sj,使得第一三元组由技能、状态sj和技能组成(在某些方面称为下一项技能)。
[0066]
按照不同实施方式,对象模型可以针对第一三元组集合中的每个第一三元组来适配。按照不同实施方式,对象模型可以被适配,使得对象模型针对所述一个或多个对象中的每个对象响应于对第一三元组的两个状态转变(例如第一三元组的技能转变)、所述一个或多个对象中的其它对象的相应的状态、任务参数组和所分配的目标状态的输入来确定针对该对象的状态的概率分布。
[0067]
tp-gmm例如可以借助于em(期望最大化(expectation maximization))算法来学习。参考图4和图5以及在参考文献[1]中更详细地描述tp-gmm。
[0068]
按照不同实施方式,参数模型可以在使用本文中所描述的先决条件模型和/或终止条件模型的情况下被确定。按照不同实施方式,对象模型可以在使用本文中所描述的先决条件模型和/或终止条件模型的情况下被确定。
[0069]
清楚的是,经训练的参数模型可以输出依据训练数据(例如控制-状态序列)在一个状态中在考虑到目标状态的情况下任务参数组的任务参数是如何被选择的概率分布。清楚的是,经训练的对象模型可以考虑:依据训练数据在该状态中在考虑到目标状态的情况下在使用特定任务参数的情况下参与技能的对象彼此间的关系如何。因此,经训练的对象模型可以考虑几何条件。为了额外的阐明,在一个示例中,机器人可具有将构件放
到基座上的任务:在这种情况下,技能可以是将构件放到基座上并且可以通过任务参数、诸如力、速度、旋转、构件的位置、目标位置等等来描述。经训练的参数模型可以输出:针对该技能基于训练数据是如何选择任务参数的。但是,还可能有其它对象、诸如在该构件旁边的另一构件、第二机器人、在基座上的又一其它构件等等参与该技能。经训练的对象模型可以考虑这些几何关系并且可以被用于确定该技能利用由经训练的参数模型所确定的任务参数来执行的概率。例如,经训练的参数模型可以将在训练时将该构件放到基座上的速度和运动确定为相应的任务参数的期望值。但是,在该构件与该基座之间可能存在阻挡构件,并且经训练的对象模型可以确定:对于这些构件的该格局来说并且对于这些任务参数来说,该技能被执行的概率低。另一方面,另一技能可能是:将阻挡构件移开,为此,经训练的参数模型可以确定任务参数并且经训练的对象模型可以针对具有阻挡构件的这些构件的格局以及针对第二技能所确定的任务参数来确定:第二技能在训练时是概率高地被执行的。清楚的是,机器人例如可以首先确定用于将阻挡构件移开的第二技能并且然后确定用于将构件放到基座上的技能。
[0070]
按照不同实施方式,控制模型206可以在使用多个技能转变(例如技能转变组)和映射函数的情况下被产生。例如,计算机可以确定由技能节点和技能转变组成的网络。计算机可以被设立为:在使用技能转变组的情况下确定技能节点和技能转变。在这种情况下,例如可以直接从技能转变组中推导出网络的角点和/或相应的技能转变。技能节点可以是技能集合的子集。例如,技能转变组可以通过来描述。如本文中所描述的那样,映射函数可以映射到参数模型和对象模型上并且可以通过来描述。清楚的是,描述技能可以如何依次被实施。清楚的是,针对技能转变、即针对,映射函数描述(例如建模)关于对象和机器人装置101方面的几何条件。按照不同实施方式,在映射函数之内的每个tp-gmm的组件(例如参数模型和/或对象模型)的数目都可对应于具有该技能转变的控制-状态序列(例如唯一的控制-状态序列、也就是说每个唯一的初始状态-目标状态对的正好一个控制-状态序列)的数目。
[0071]
控制模型206 可以在使用网络和映射函数的情况下被产生。例如,控制模型206 可以通过网络和映射函数来形成,使得控制模型206 可以通过三元组来描述。
[0072]
这样产生的控制模型206一方面考虑可能的技能转变而另一方面考虑这些转变所基于的几何条件,其中控制模型206针对目标状态被参数化。清楚的是,这样产生的控制模型206是针对tamp策略的紧凑表示。
[0073]
本文中所描述的在使用演示(例如参见关于图4和图5的描述以及参考文献[1])的情况下对控制模型206的训练(例如学习)可以借助于算法1来描述:
其中是目标状态(例如被输入的目标状态)。
[0074]
按照不同实施方式,控制模型206可以针对预先限定的任务来学习。按照不同实施方式,可以学习多个控制模型,其中所述多个控制模型中的每个控制模型都被分配给相应的任务。
[0075]
图4示出了按照不同实施方式的从演示中学习的流程图400。
[0076]
为了教授机器人技能,诸如使机器人按照所希望的轨迹移动,可以执行动觉演示,其中机器人直接被移动,例如通过物理推动或者借助于遥控来移动。除了为此所需的经验、安全风险和要求(例如对于需要精确运动的任务来说)之外,为了执行任务,机器人的移动对于人类来说与使用自己的手相比直观性也低得多。
[0077]
关于上述内容,按照不同实施例,提供了一种做法,该做法能够使人类用户通过该人类用户自己简单地执行活动(技能)来教授机器人该活动。在此,例如通过跟踪用户的手(以及可选地所涉及到的对象)来记录演示,而不是记录末端执行器的轨迹。接着,演示被用于学习技能的紧凑数学表示,该紧凑数学表示可以(例如被控制装置106)用于通过机器人在新场景(例如机器人与所要操纵的对象之间的新相对位置)下再现该技能。
[0078]
不同的实施例基于在如下两个领域中的技术进步:第一,基于在使用机器人的区域、例如在工厂中的摄像机图像对手的跟踪通常是可用的;而第二,用于基于人类演示来训练机器人的方法不仅允许机器人的高效学习(也就是说对机器人的训练)而且允许灵活的再现。为此的示例是tp-hsmm(任务参数化的隐半马尔可夫模型(task-parameterized hidden semi markov models)),这些tp-hsmm能够实现对所学习的运动技能的取决于任务参数的表示。
[0079]
对对象和人手的跟踪是一个活跃的研究领域(尤其是在机器视觉方面)并且对于
工业应用来说非常重要。不同于将相对应的技术应用于人机交互(例如用于视频游戏),按照不同实施方式,针对机器人的训练(教学)和学习使用该跟踪。
[0080]
在演示阶段,用户(或者一般来说是演示者)演示所希望的技能。该演示被记录。例如,借助于摄像机来创建视频记录,并且用户的手(一般来说演示者的一部分)的姿势的排序根据视频的图像来确定并且以轨迹的形式来表示。针对多个演示402重复这一点。应该注意的是:这可以以解耦的方式来实现,也就是说例如使用大量视频,这些视频是之前在没有打算教授机器人技能的情况下被记录的。
[0081]
在学习或训练阶段,从所收集到的演示中学习数学模型。例如,学习tp-hsmm,该tp-hsmm包含手的姿势作为任务参数之一。“姿势”例如包含关于位置和/或取向或者也关于状态(例如“手握住”与“手张开”)的信息。
[0082]
图5示出了按照不同实施方式的用于记录用户的演示的布局500。
[0083]
用户501通过移动他的手502来演示技能。例如,该用户从第一位置505拿起对象504并且将该对象移动到第二位置506。摄像机507记录用户的运动。也可以设置多个摄像机,这些摄像机从不同的视角、尤其是从对象504的起始位置505的角度以及从该对象504的结束位置506的角度来记录该演示。
[0084]
借此,每个演示都被表示为图像序列,该图像序列被输送给例如对应于控制装置106的控制设备508。控制设备508例如可具有计算机,以便执行计算。控制设备508基于这些演示来学习统计模型509、诸如机器人轨迹模型404和/或tp-gmm 406(例如先决条件模型和终止条件模型,如本文中所描述的那样)。还假设:每次演示都是从不同坐标系的视角p被记录,这些坐标系被称为任务参数(task-parameter)。
[0085]
例如,在演示阶段结束时,可以抽象出演示(例如表示为手502或对象504的坐标的变化过程)并且将这些演示作为(例如这只手502、该对象504或者多个手和/或多个对象的)轨迹来存储,例如存储在控制设备508的存储器中。
[0086]
参考图4,tp-hsmm不仅能够实现高效的学习而且能够实现用于从人类演示中学习机器人能力的灵活的再现。更准确地说,用户的手502的所记录的轨迹被视为应该被学习的所希望的运动,而对象504的轨迹被用于针对该技能产生不同的任务参数(task-parameter),这些任务参数表示工作区域的不同配置。这些任务参数例如可以依据当前状态来确定。这些任务参数例如可以被自由选择。
[0087]
按照不同实施方式,机器人轨迹模型404可以在使用演示402的情况下被确定。机器人轨迹模型404可以是tp-hsmm。
[0088]
hsmm(隐半马尔可夫模型)将简单的hmm(隐马尔可夫模型)扩展得使得将时间信息嵌入到基础随机过程中。这意味着:在hmm的情况下假设基础统计过程具有马尔可夫性质、也就是说转变到下一状态的概率只取决于当前状态,而在hsmm的情况下该过程的转变到下一状态的概率取决于当前状态以及在当前状态下的停留时长。hsmm通常尤其是被用在语音合成方面。
[0089]
按照一个实施方式,任务参数化的hsmm(tp-hsmm)、诸如机器人轨迹模型404通过如下等式来表示:
ꢀꢀꢀꢀꢀꢀꢀ
(6)
其中表示从状态到状态的转变概率,表示在状态下的停留时长的高斯分布(在这种情况下,上标d不是索引而是应该只表征与停留时长(英文duration)的关系)而且是(所属的或所关联的)tp-gmm(任务参数化的高斯混合模型)的第k个分量,其中k表示在混合模型中的高斯分量的数目,πk表示针对第k个分量的先验概率并且是在坐标系中的第k个分量的平均值或协方差。
[0090]
tp-gmm描述了针对每个状态k = 1, ... k的输出概率(或者发射概率、也就是说观察概率)。这种混合模型(不同于简单的gmm)不能针对每个坐标系被独立学习。原因在于:混合系数被所有坐标系共享(也就是说适用于所有坐标系)并且在坐标系中的第k个分量必须对应于在全局坐标系中的第k个分量。学习(即训练)这种模型的途径是em(期望最大化(expectation maximization))算法。
[0091]
如果tp-gmm被训练,则该tp-gmm可以在由控制设备508和/或控制装置106实施期间被用于再现所学习的能力或技能的轨迹。
[0092]
然而,在hsmm的情况下,先验概率只描述针对在t=1的情况下的初始分量的概率分布。在稍后的时间的概率通过所基于的半马尔可夫模型来给出。
[0093]
在所考虑的该tp-hsmm中,每个状态都对应于在所属的tp-gmm中的高斯分量。
[0094]
机器人装置101可以在静态的、已知的工作环境下工作。在机器人装置101(在某些方面称为机器人)的作用范围之内,存在用来表示的(令人感兴趣的)对象。每个对象都可以通过其状态来描述。
[0095]
还假设:存在核心操纵技能的集合,该集合能够使机器人操纵(例如移动)这些对象。这些核心操纵技能的集合被称为。
[0096]
针对每项活动(对应于技能),用户501执行多次演示,这些演示限定了机器人装置101应该如何执行该活动。尤其是对于技能来说涉及对象集合并且用来表示演示集合,其中每个演示用
ꢀꢀꢀꢀ
(7)来表示,其中是末端执行器104的状态,其中是状态序列s,其中每个状态都说明了根据手的跟踪(通过记录摄像机图像)所确定的(在时间点t)所希望的状态以及对象状态。借助于这些技能的组合,机器人装置101可以操纵相应的对象,使得这些对象达到所希望的最终状态。
[0097]
关于tp-gmm,每个都可以是任务参数组的任务参数。每项技能都可分配有至少一个任务参数组。例如,技能可以在使用任务参数组的情况下被实施。按照不同实施方式,相应的任务参数组可以借助于并集来描述,其中是技能的自由任务参数组。
[0098]
tp-hsmm(例如由控制设备508)在学习阶段基于用户501的演示来训练,例如按照em(期望最大化)程序来训练。
[0099]
训练的结果是参数组的表征tp-hsmm的值。
[0100]
按照不同实施方式,控制装置106可以在使用tp-hsmm机器人轨迹模型404的情况下控制机器人装置101,以便实施活动,例如针对新场景来实施活动。例如,控制装置106可以使用机器人轨迹模型404,以便确定针对新场景的参考轨迹,并且将机器人装置101控制为使得该机器人装置遵循该参考轨迹。在这种情况下,术语“场景”涉及对所建模的任务参数(例如起始位置505或当前位置以及目标位置506;例如当前状态和目标状态)的特殊选择。
[0101]
按照不同实施方式,(例如借助于控制装置508)可以确定一个或多个tp-gmm 406。例如,在学习阶段可以训练或学习先决条件模型。例如,在学习阶段可以训练或学习终止条件模型。
[0102]
先决条件模型可以是tp-gmm 406。先决条件模型可以通过
ꢀꢀꢀ
(8)来描述,其中是最佳的自由任务参数,其中从在初始时间点1的对象's的初始姿势的视角来看,是在时间点1对象的初始姿势的高斯分布(高斯分布的平均值和协方差)。清楚的是,先决条件模型描述(例如建模)在实施技能之前系统的状态。
[0103]
终止条件模型可以是tp-gmm 406。终止条件模型可以通过
ꢀꢀꢀꢀꢀ
(9)来描述,其中从对象's的初始姿势的视角来看,是在时间点对象的最终(例如得出的)姿势的高斯分布(高斯分布的平均值和协方差)。清楚的是,终止条件模型描述(例如建模)在实施技能之后系统的状态的变化。
[0104]
按照不同实施方式,特定于技能的流形可以借助于tp-hsmm机器人轨迹模型404、先决条件模型和终止条件模型按照等式(10)来描述:
ꢀꢀ
(10)。
[0105]
清楚的是,tp-hsmm机器人轨迹模型404描述(例如建模)技能的轨迹。清楚的是,先决条件模型和终止条件模型描述(例如建模)在机器人装置101与对象之间的几何关系。清楚的是,先决条件模型、终止条件模型和tp-hsmm机器人轨迹模型404可以形成技能数据库。
[0106]
关于从演示中学习、例如在对作为tp-hsmm的机器人轨迹模型404的训练和对先决条件模型和终止条件模型(在某些方面也称为效果模型)的训练方面的更多细节在参考文献[1]中被描述。
[0107]
图6a示出了按照不同实施方式的用于控制机器人装置的流程图600a。流程图600a可以是用于在运行期间控制机器人装置101的流程图。
[0108]
按照不同实施方式,在机器人装置101的初始状态s0下可以提供目标状态sf,例如借助于用户接口来输入该目标状态。例如,控制装置106可以将机器人装置101的当前状态确定为初始状态s0。例如,可以将目标状态sf提供给控制装置106。例如,控制装置106可以确定目标状态sf(例如基于用户的输入、例如基于通过机器人装置101所要执行的任务,等等)。因此,在机器人装置101的初始状态下,可以提供初始状态-目标状态对(s0, sf) 602。机器人装置101在任何时间点都可以处在从初始状态s0开始直至目标状态sf为止的当前状态s
k 604下。
[0109]
按照不同实施方式,所产生的控制模型206可以响应于对当前状态s
k 604和目标状态sf的输入来提供(例如输出)用于实施技能的数据606。按照不同实施方式,所产生的控制模型206可以响应于对当前状态s
k 604和目标状态sf的输入来提供所要实施的状态转变(例如所要实施的技能)和所分配的任务参数组。在初始状态s0下,控制模型206可以在使用虚拟初始技能的情况下确定所要实施的技能和被分配给所要实施的技能的任务参数组。
[0110]
按照不同实施方式,控制模型206可以在使用技能转变组的情况下确定所有对于上一次实施的技能来说可能的能够作为下一个被实施的技能,例如所有在技能转变组中定义的技能转变。按照不同实施方式,控制模型206可以(例如借助于所训练的参数模型)针对每个在一个状态下可实施的状态转变响应于对目标状态和用来达到该状态的状态转变的输入来确定相应的任务参数组。按照不同实施方式,控制模型206可以在使用参数模型的情况下针对技能的每个任务参数针对每个潜在的技能转变来按照等式(11)确定通过技能的经优化的(例如最佳的)任务参数组所给出的最佳任务参数:
ꢀꢀ
(11),其中是多元高斯分布的概率密度函数。清楚的是,相应的最佳任务参数是相应的任务参数的借助于参数模型所确定的高斯分布的平均值(在某些方面称为期望值)。针对相应的潜在的技能转变,参数模型可以借助于映射函数来确定。
[0111]
按照不同实施方式,控制模型206可以(例如借助于经训练的对象模型)针对每个在一个状态下可实施的状态转变为所述一个或多个对象中的每个对象响应于对目标状态、所述一个或多个对象中的其它对象的相应的状态和所确定的任务参数组的输入来确定相应的概率分布。按照不同实施方式,控制模型206可以针对每个潜在的技能转变在
使用针对相应的潜在的技能转变所确定的经优化的(例如最佳的)任务参数组的情况下按照等式(12)来确定转变概率:(12),其中是调和平均值函数而且是对对象的当前状态的观察。对象模型可以针对相应的潜在的技能转变借助于映射函数来确定。对象模型可以针对与对象不同的对象的状态、所确定的经优化的任务参数组和目标状态sf来确定被分配给对象的当前状态的高斯分布。因此,调和平均值函数考虑所有对象。因此,如果这些对象中的一个对象关于其它对象显著在所学习的关系(例如这些关系借助于所学习的对象模型来描述)方面不同,则到相应的技能的转变概率低。
[0112]
按照不同实施方式,可以基于潜在的技能转变按照等式(13)来确定所要实施的技能:
ꢀꢀꢀꢀꢀ
(13)。
[0113]
清楚的是,所要实施的技能可以是具有最高转变概率的技能。清楚的是,针对所有在当前状态s
k 604下可实施的技能来确定转变概率,并且将具有最高转变概率的可实施的技能确定为所要实施的技能。
[0114]
按照不同实施方式,机器人装置101可以与控制模型206相符地被控制。按照不同实施方式,机器人装置101可以在使用所分配的任务参数组的情况下实施(例如执行)所要实施的技能。对该技能的实施引起机器人装置101的新状态s
k 604。按照不同实施方式,控制模型206可以响应于对相应的当前状态s
k 604和目标状态sf的输入来提供用于实施相应的技能的数据606,并且机器人装置101可以在使用所分配的任务参数组的情况下实施所要实施的技能,直至当前状态s
k 604对应于目标状态sf为止。
[0115]
用于控制机器人装置101的流程图600a可以借助于算法2来描述:
其中是机器人装置的相应的状态。
[0116]
图6b示出了按照不同实施方式的用于控制机器人装置101的流程图600b。流程图600b可以基本上对应于流程图600a,其中控制装置106(例如控制装置106的计算机110)可以在使用机器人轨迹模型404 的情况下针对所要实施的技能来确定所要实施的机器人轨迹608。
[0117]
在这种情况下,可以使用借助于演示来学习的机器人轨迹模型404,以便将机器人装置101控制为使得该机器人装置在演示场景或者还有非演示场景内实施该技能。
[0118]
按照不同实施方式,控制装置106可以在使用所要实施的技能和所分配的任务参数组的情况下确定最有可能的状态序列,其中,包括在时间点(例如在考虑时间排序的情况下)借助于针对hsmm的viterbi算法。清楚的是,tp-hsmm机器人轨迹模型404还包含如下信息:tp-gmm的状态应该如何随时间运行(通过针对在每个状态下的停留时长的概率分布和在这些状态之间的转变概率来给出)。针对每个状态kt,控制装置106例如按照lqg(线性二次高斯(linear quadratic gaussian))调节来确定对应的末端执行器状态。在此,该控制装置可以针对每个状态使用相应的tp-gmm分量的平均值μ
t
作为参考。控制装置106负责:在连续的之间的区别不太大(按照所选择的调节器参数)。接着,在实施时,机器人试图遵循,k
t
只是中间变量。这样,控制装置106可以确定参考轨迹(例如所要实施的机器人轨迹608)。通常,可以被视为所希望的状态序列,而且控制装置106可以控制机器人装置101,以便机器人装置101在物理上尽可能好地遵循该参考。控制装置106可以控制机器人装置101来实施所确定的机器人轨迹。
[0119]
图7清楚地示出了按照不同实施方式的用于示例性任务700的控制模型206的工作原理。机器人装置101可以处在初始状态(“strt”)下,并且可以提供目标状态(“stp”)(例如参见图6a和图6b中的602)。控制模型206可以在使用技能转变组的情况下将技能a1和技能a2确定为潜在可能的可实施的技能,其中在该示例中将技能a2确定为所要实施的技能。机器人装置101可实施技能a2并且由此到达新状态。控制模型206可以针对该新状态将技能a3、技能a4和技能a6确定为潜在可能的可实施的技能,其中在该示例中将技能a6确定为所要实施的技能。例如,可以通过实施技能a6来到达目标状态(“stp”)。这样,机器人装置101可以实施从初始状态直至目标状态为止的控制-状态序列702。
[0120]
图8示出了按照不同实施方式的用于控制机器人装置的方法800。
[0121]
方法800可具有对控制模型的训练(在802至806中)。该控制模型可具有参数模型和对象模型。
[0122]
针对多个初始状态-目标状态对中的每个初始状态-目标状态对,对该控制模型的训练可具有:提供控制-状态序列,该控制-状态序列具有来自可能的状态和状态转变的集合中的状态和状态转变(在802中)。初始状态可以说明机器人装置以及一个或多个对象的状态。目标状态可以说明机器人装置以及一个或多个对象的状态。每个状态转变都可分配有任务参数组。
[0123]
对该控制模型的训练可具有:确定状态转变-状态-状态转变三元组的集合,这些三元组包含在所提供的控制-状态序列中(在804中)。
[0124]
针对状态转变-状态-状态转变三元组的集合的每个状态转变-状态-状态转变三元组,对该控制模型的训练可具有:使参数模型适配并且使对象模型适配(在806中)。该参数模型可以被适配,使得响应于对状态转变-状态-状态转变三元组和包含该状态转变-状态-状态转变三元组的控制-状态序列的所分配的目标状态的输入,该参数模型确定来自被分配给该状态之后的状态转变的任务参数组中的每个任务参数的概率分布。该对象模型可以被适配,使得针对所述一个或多个对象中的每个对象,响应于对状态转变-状态-状态转变三元组的这两个状态转变、所述一个或多个对象中的其它对象的相应的状态、任务参数组和所分配的目标状态的输入,该对象模型确定针对该对象的状态的概率分布。
[0125]
方法800可具有:利用该控制模型来控制该机器人装置从预先给定的初始状态出发经由状态序列到达所要实现的目标状态(在808中)。在每个状态下都可以在使用经训练的参数模型的情况下确定任务参数组。在每个状态下都可以在使用经训练的对象模型的情况下确定所要实施的状态转变。在每个状态下都可以在使用所确定的任务参数组的情况下控制该机器人装置来实施所要实施的状态转变。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献