机器人控制系统和用于训练所述机器人控制系统的方法与流程

2022-07-16 01:01:12 来源：中国专利 TAG：

机器人控制系统和用于训练所述机器人控制系统的方法
1.所公开的实施例总体涉及工业自动化和控制领域，且更具体地涉及控制技术，该控制技术涉及强化学习和常规反馈控制技术的自适应加权组合，甚至更具体地涉及适合于工业强化学习的机器人控制系统和方法。
2.常规反馈控制技术(能够在本公开中通篇被称为“常规控制”)能够解决各种类型的控制问题(诸如但不限于：机器人控制、自主工业自动化等)，这种常规控制通常是通过非常有效地捕获具有显式模型的底层物理结构来完成的。在一个实例应用中，这能够涉及用于控制给定机器人的轨迹所涉及的身体运动方程的明确定义。然而，将理解的是，现代制造业中的许多控制问题能够涉及与对象的各种物理交互，诸如能够涉及但不限于与一个或多个对象的接触、撞击和/或摩擦。这些物理交互往往更难以利用一阶物理模型来捕捉。因此，将常规控制技术应用于这些情形中常常能够导致控制器脆弱且不准确，例如，这些控制器必须进行手动调谐才能用于部署。这增加了成本，并且能够增加用于机器人部署所涉及的时间。
3.强化学习(rl)技术已被证明能够学习涉及与物理环境交互的连续机器人控制器。然而，在rl技术(特别是涉及非常具有表现力的函数近似器的深度rl技术的那些技术)中通常遇到的缺点能够是繁重且耗时的探索行为，以及能够涉及的实质性样本效率低下，诸如在从头开始学习控制策略时通常是这种情况。
4.对于能够将整体控制策略分解为由常规控制技术解决的控制部分和利用rl解决的剩余控制部分的控制技术的实例，参见以下技术论文，分别为：于2018年12月18日由t.johannink，s.bahl，a.nair，j.luo，a.kumar，m.loskyll，j.aparicio ojea，e.solowjow和s.levine发表在arxiv:1812.03201v2[cs.ro]上的标题为“residual reinforcement learning for robot control(用于机器人控制的剩余强化学习)”；以及于2019年1月3日由t.silver，k.allen，j.tenenbaum和l.kaelbling发表在arxiv:1812.06298v2[cs.ro]上的“residual policy learning(剩余策略学习)”。
[0005]
将理解的是，上述引用的论文中描述的方法对于广泛且具成本效益的工业适用性来说可能有些局限，因为例如，从头开始的强化学习往往仍然是实质性数据效率低下和/或棘手的。
[0006]
图1示出了所公开的机器人控制系统的一个非限制性实施例的框图，该机器人控制系统能够用于对机器人系统的控制且能够涉及例如能够用在涉及自主控制的工业应用中的一个或多个机器人。
[0007]
图2示出了所公开的机器学习框架的一个非限制性实施例的框图，该框架能够用于有效地训练所公开的机器人控制系统。
[0008]
图3示出了所公开的用于训练所公开的机器人控制系统的方法论的一个非限制性实施例的流程图。
[0009]
图4至图7分别示出了与所公开的用于训练所公开的机器人控制系统的方法论相结合的进一步的非限制性细节。
[0010]
本发明人已经认识到，虽然将强化学习(rl)与常规控制组合的基本想法似乎非常
有前景，但在本公开中公开的各种革新概念之前，工业环境中的实际实施方案仍然难以捉摸，因为在典型的现有技术实施中，各种重要的技术实施困难还没有完全解决。通过所公开的实施例解决的一些困难列举如下：
[0011]-适当地同步两种控制技术，使它们不会相互抵消，
[0012]-对所涉及的传统控制法则进行适当的选择和调整，
[0013]-系统地结合模拟经验和真实世界经验来在模拟器中训练控制策略，从而例如减少所需的样本量。
[0014]
至少鉴于上述考虑，所公开的实施例实现了与某些涉及rl的已知方法相结合的适当改进(例如，见上文引用的两篇技术论文)。相信所公开的实施例将实现与常规控制集成的rl的实用且具成本效益的工业部署。所公开的控制方法能够在本公开中通篇被称为工业剩余强化学习(irrl)。
[0015]
本发明人提出了各种革新的技术特征，用以基本上改进至少某些涉及rl的已知方法。以下两个公开的非限制性概念(被指示为概念i)和概念ii))构成了irrl的基础：
[0016]
概念i)
[0017]
在常规的剩余rl技术中，手动设计的控制器能够涉及死板的控制策略，并且因此，不能轻易地适应动态变化的环境，正如本领域技术人员所理解的那样，这是在此环境中进行有效操作的实质性缺点。例如，在能够涉及随机定位的对象的对象插入应用中，常规控制器能够是位置控制器。剩余rl控制部分随后能够增强控制器以用于改进整体性能。例如，如果位置控制器过快地执行给定插入(例如，插入速度过高)，则剩余rl部分不能及时推断出任何有意义的影响。例如，其不能动态地改变位置控制器。相反，在实际应用中，剩余控制部分应该能够适当地影响(例如，有益地反对)由常规控制器生成的控制信号。例如，如果由位置控制器产生的速度过高，那么剩余rl部分应能够影响由常规控制器生成的控制信号，以降低此高速度。为了解决这个基本问题，本发明人提出了由传统控制器和rl生成的相应控制信号之间的自适应交互。原则上，一方面，最初的常规控制器应该是引导部分，而不是rl部分的反对者，并且，另一方面，rl部分应能够适当地适应常规控制器。
[0018]
所公开的自适应交互能够如下所述。首先，来自两个控制策略(即，常规控制和rl控制)的相应控制信号能够就其正交性而言进行比较，例如通过计算其内积。对同一投射控制“方向”的信号贡献能够在奖励函数中受到惩罚。这就避免了两个控制部分的相互“斗争”。同时，所公开的算法能够监控剩余rl部分是否具有试图与常规控制器斗争的分量，这能够是常规控制器不足以执行给定控制任务的指示。然后，该指示能够用于修改常规控制法则，这能够自动实施或通过手动调整来实施。
[0019]
其次，代替常规剩余rl控制策略中通常采用的恒定权重，本发明人创新性地提出了可调权重。非限制性地，权重调整能够由控制信号对满足奖励函数的相应贡献来控制。权重成为奖励的函数。这应实现非常有效的学习和顺利的执行。rl控制部分能够取决于它已经学会的程度而被引导。这背后的基本原理是，只要rl控制部分至少与初始手动设计的控制器具有同等水平，原则上就不再需要手动设计的控制器并且能够部分将其关闭。然而，每当rl控制部分对于给定控制任务提供了较差的性能时，初始手动设计的控制器仍然能够贡献控制信号。这种混合是由可调权重来适度调节的。类似的简化概念是“自行车支撑训练轮”，它在学习期间能是必不可少的，但在学习结束之后也能够提供支持，至少在具有困难
性的情形期间，例如在急转弯骑得太快时。
[0020]
概念ii)
[0021]
用于在模拟中训练剩余rl的已知方法通常都有击中击不中变换(hit-or-miss)的缺点，主要是因为模拟通常都是先验设置的。典型地，控制策略能够在模拟环境中进行单独训练，并且只有在之后控制策略才被部署在真实世界环境中。相应地，基于仅仅在模拟环境中训练的控制策略的实际性能，在部署到真实世界之前是不能自证明的。
[0022]
相应地，本发明人进一步提出了一种迭代方法，如图2所示，其用于使用与真实世界传感器和执行器数据交织的虚拟传感器和执行器数据来训练irrl控制策略。非限制性地，反馈回路能够用于基于诸如能够从机器人试运行(roll-out)中获得的真实世界传感器和执行器统计属性来调整被模拟的传感器和执行器统计属性。能够看出，当此控制策略被部署在真实世界的实施方案中时，对与给定机器人系统相结合的传感器和执行器的统计属性(例如，随机误差、噪声等)的适当理解对于适当地满足在模拟中训练的控制策略的性能能够是决定性的。
[0023]
此外，在所公开的实施例中提出的迭代方法中，模拟环境能够基于真实世界经验而被连续调整。在已知的方法中，如上所述，通常在模拟中运行训练，直到被模拟的训练结束，然后被模拟的训练在机器人试运行(roll-out)时被转移到物理机器人上。相反，所公开的实施例有效地对被模拟的经验和真实世界的经验进行交织，用以例如确保被模拟的经验以高效的方式迭代地改进质量，并且充分地趋于真实世界的经验。例如，模拟中使用的摩擦系数能够基于真实世界的测量进行调整，从而使虚拟实验更加有用，因为虚拟实验将变得更接近于模仿由机器人正在执行的真实世界的任务(诸如由机器人进行的自动对象插入)中所涉及的物理学。
[0024]
需要注意的是，在实际应用中，模拟调整不一定要被配置用于使给定模拟更加真实，而是能够被配置用于实现加速(具时效性的)学习。相应地，只要学习目标能够以具时效性的方式实现，在给定模拟中所涉及的物理参数不一定要精确地趋于真实世界的参数。
[0025]
所公开的方法是用于快速拉进rl中模拟与现实的差距的适当的平衡方式。此外，所公开的方法能够允许对模拟中的物理效应进行有教育意义的改进，并且就它们针对控制策略性能/改进的相关性而言对其进行量化。例如，“在给定应用中模拟两个对象之间能够产生的电磁力有多大的相关性？”。关键是不希望将有价值的模拟资源分配给不相关的参数。
[0026]
将理解的是，将模拟和真实世界更紧密地结合在一起，能够允许适当迎合给定应用中所涉及的传感器模式。非限制性地，所公开的方法能够关于物理环境进行评估。例如，关于给定传感器和/或执行器需要多准确和/或多灵敏以用于适当地满足期望的控制策略目标的评估；或者例如是否需要添加附加传感器和/或执行器(或者是否需要使用不同的传感器模式和/或执行器模式)。非限制性地，例如，所公开的方法还能够附加地建议在哪里安装此类附加传感器和/或执行器的相应的位置。
[0027]
在以下详细描述中，阐述了各种具体细节，以便提供对此类实施例的透彻理解。然而，本领域的技术人员将理解，所公开的实施例能够在没有这些具体细节的情况下实践，本发明的各方面不限于所公开的实施例，并且本发明的各方面能够在各种各样的替代实施例中实践。在其他实例中，没有对能够被本领域的技术人员很好地理解的方法、过程和组件进
行详细描述，用以避免不必要的和繁琐的解释。
[0028]
此外，各种操作能够被描述为以有助于理解本发明的实施例的方式执行的多个分立步骤。然而，描述的顺序不应被解释为意指这些操作需要以它们所呈现的顺序来执行，也不应该被解释为它们甚至是依赖于顺序的，除非另有指示。此外，短语“在一个实施例中”的重复使用不一定指同一实施例，尽管它能够指同一实施例。需要指出的是，所公开的实施例不需要被解释为相互排斥的实施例，因为此类公开的实施例的各方面能够由本领域的技术人员取决于给定应用的需要来适当地组合。
[0029]
图1示出了所公开的机器人控制系统10的一个非限制性实施例的框图。一组传感器12能够可操作地耦合到由机器人控制系统10控制的机器人系统14(例如，一个/多个机器人)。控制器16响应于来自该组传感器12的信号。
[0030]
非限制性地，控制器16能够包括被配置用于生成常规反馈控制信号20的常规反馈控制器18，以及被配置用于生成强化学习控制信号24的强化学习控制器22。
[0031]
比较器25能够被配置用于对常规反馈控制信号20与强化学习控制信号24的正交性进行比较。比较器25能够被配置用于供应指示常规反馈控制信号20与强化学习控制信号24之间的正交性关系的信号26。
[0032]
强化学习控制器22能够包括奖励函数28，该奖励函数响应于指示常规反馈控制信号20与强化学习控制信号24之间的正交性关系的信号26。在一个非限制性实施例中，常规反馈控制信号20与强化学习控制信号24之间的正交性关系能够是基于常规反馈控制信号20和强化学习控制信号24的内积来确定的。
[0033]
在一个非限制性实施例中，指示常规反馈控制器信号20与强化学习控制器信号24之间的相互依赖性的正交性关系通过奖励函数28进行惩罚，使得避免了常规反馈控制器18与强化学习控制器22之间的控制冲突。
[0034]
在一个非限制性实施例中，强化学习控制器22的奖励函数28能够被配置用于基于常规反馈控制信号20和强化学习控制信号24对满足奖励函数28的相应贡献来生成一串自适应权重30。
[0035]
在一个非限制性实施例中，信号组合器32能够被配置用于基于由奖励函数28生成的一串自适应权重30来自适应地组合常规反馈控制信号20和强化学习控制信号24。非限制性地，信号组合器32能够被配置用于供应常规反馈控制信号20与强化学习控制信号24的自适应组合控制信号34。自适应组合控制信号34能够被配置用于在机器人执行一系列任务时控制机器人14。
[0036]
控制器16能够被配置用于执行用于常规反馈控制器18和强化学习控制器22的混合控制策略，以在机器人执行一系列任务时控制机器人14。非限制性地，混合控制策略能够包括机器人控制模式，诸如包括机器人14的轨迹控制和交互控制。举例来说，机器人的交互控制能够包括交互，诸如能够涉及摩擦、接触和撞击交互，这些交互例如能够通过机器人的关节(例如，抓手)在执行一系列任务的相应任务时发生。
[0037]
图2示出了能够作为如能够被实施用于训练所公开的机器人控制系统10(图1)的所公开的机器学习框架40的一部分的动作流的一个非限制性实施例的框图。在一个非限制性实施例中，用于常规反馈控制器18和强化学习控制器22的混合控制策略能够是在机器学习框架40中学习的，在机器学习框架中，在模拟环境44中获取的虚拟传感器和执行器数据
60，以及在物理环境46中获取的真实世界传感器和执行器数据54能够彼此迭代地交织(如下文更详细地阐述)，以在与现有技术方法相比减少的周期时间内有效且可靠地学习用于常规反馈控制器18和强化学习控制器22的混合控制策略。
[0038]
图3示出了所公开的用于训练所公开的机器人控制系统10(图1)的方法的一个非限制性实施例的流程图100。块102允许在相应机器人14(图1)上(诸如能够在物理机器人试运行(块52，(图2))期间在物理环境46(图2)中操作)部署用于机器人控制系统10的基准控制策略。基准控制策略能够是在模拟环境44中训练的(块50，(图2))。
[0039]
块104允许从可操作地耦合到相应机器人的真实世界传感器和执行器获取真实世界传感器和执行器数据(块54，(图2))，该机器人是在物理环境46中利用在模拟环境44中训练的基准控制策略控制的。
[0040]
块106允许提取所获取的真实世界传感器和执行器数据的统计属性。另见图2中的块56。一个非限制性实例能够是噪音，诸如能够指示测得物理参数的随机误差。
[0041]
块108允许提取模拟环境中的虚拟传感器和执行器数据的统计属性。另见图2中的块62。一个非限制性实例能够是模拟噪音，诸如能够指示模拟物理参数的随机误差。
[0042]
块110允许例如，在模拟环境44的反馈回路64中(图2)，基于虚拟传感器和执行器数据的统计属性相对于真实世界传感器和执行器数据的统计属性的差异来调整。
[0043]
块112允许应用所调整的模拟环境以进一步训练基准控制策略。这将是能够在图2中的块50中执行的第一次迭代。这允许在模拟环境44中基于虚拟传感器和执行器数据60与真实世界传感器和执行器数据54的数据交织来生成已更新的控制策略。
[0044]
如块114所指示，基于已更新的控制策略是否满足期望的目标，能够在反馈回路64(图2)中执行进一步的迭代，以在模拟环境44中基于在物理环境46中进一步获取的真实世界传感器和执行器数据54来进行进一步的调整。
[0045]
下面的描述将继续描述能够与所公开的用于训练所公开的机器人控制系统10的方法相结合执行的进一步的非限制性方面。
[0046]
如图4中的块120所示，在一个非限制性实施例中，模拟环境44(图2)的调整能够涉及基于真实世界传感器和执行器数据的统计属性来调整虚拟传感器和执行器数据的统计属性。
[0047]
如图5中的块140所示，在一个非限制性实施例中，模拟环境44(图2)的调整能够涉及基于真实世界传感器和执行器数据的统计属性来优化一个或多个仿真参数，诸如能够被确认为相关模拟参数的模拟参数。另见图2中的块58。
[0048]
如图6中的块160所示，在一个非限制性实施例中，能够基于虚拟传感器和执行器数据的统计属性相对于真实世界传感器和执行器数据的统计属性的差异来调整物理环境46(图2)。也就是说，在一些情形中，模拟能够是充分的，但是，例如，所用的真实世界传感器和/或执行器可能噪声过大或者不足以适当地满足期望的控制策略，诸如分辨率不足、精度不够等。
[0049]
例如，这能够允许适当地迎合在给定应用中所涉及的真实世界传感器和/或执行器的模式。非限制性地，所公开的方法能够关于以下进行评估：给定传感器和/或给定执行器需要多准确和/或多灵敏，以适当地满足期望的控制策略目标；或者例如，是否需要添加附加传感器和/或附加传感器(或者是否需要使用不同的传感器模式和/或不同的执行器模
式)。非限制性地，例如，此外，所公开的方法能够建议在哪里安装此类附加传感器和/或执行器的相应位置。
[0050]
如图7中的块180所示，在一个非限制性实施例中，物理环境的调整能够涉及对真实世界传感器中的至少一个真实世界传感器进行更新；对真实世界执行器中的至少一个真实世界执行器进行更新；或对真实世界传感器中的至少一个真实世界传感器和真实世界执行器中的至少一个真实世界执行器进行更新。
[0051]
在操作中，所公开的实施例允许具成本效益且可靠地部署深度学习算法，诸如涉及用于能够涉及机器人控制的自主工业自动化的深度学习rl技术。非限制性地，所公开的实施例对于进行诸如能够涉及混合控制策略(能够包括给定机器人的轨迹控制和交互控制)的连续的、自动化的机器人控制是有效的。举例来说，机器人的交互控制能够包括相对难以建模的交互，诸如能够涉及摩擦、接触和撞击交互，这些交互例如能够由机器人的关节(例如，抓手)在执行一系列任务的相应任务时发生。
[0052]
所公开的实施例被认为有助于机器学习网络广泛且灵活地适用于能够涉及自动化机器人控制的工业自动化和控制。例如，所公开的实施例的功效能够基于由传统控制器和rl控制器生成的相应控制信号之间的自适应交互。此外，所公开的实施例能够利用机器习得框架，有效地交织模拟的经验和真实世界的经验，以确保模拟的经验的质量迭代地改进，并且趋于真实世界的经验。最后，与现有技术的训练方法相比，用于在模拟器中训练控制策略的模拟的经验与真实世界的经验的系统性交织有效地实质性减少了所需的样本量。
[0053]
虽然本发明的实施例已经以示例性形式公开，但对于本领域的技术人员显而易见的是，能够在不脱离本发明及其等同物的范围的情况下对本发明进行诸多修改、添加和删除，如权利要求中所阐述的那样。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

机器人控制系统和用于训练所述机器人控制系统的方法与流程

相关文献

最热文献