一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于控制机器的方法和设备与流程

2022-06-08 20:09:44 来源:中国专利 TAG:

用于控制机器的方法和设备


背景技术:

1.线性二次调节器和线性二次高斯调节器旨在根据输出反馈定律来控制机器,该输出反馈定律在最小化二次成本标准的期望值的意义上是最优的。例如,这种机器可以是机器人或至少部分自主驾驶的车辆。这种机器可以在各种环境中、例如在工厂系统中操作。
2.基于这种调节器的控制器必须应对不确定性或扰动,并且必须对安全性约束进行建模和捕获。不确定性或扰动通常来自于被控制的机器的环境,诸如改变的照明或天气条件、传感器噪声、致动器噪声、动作延迟等。
3.通常,这种安全性约束在训练或优化期间不可显式地表示。这就是为什么应当表示安全性上的不确定性,并且需要鲁棒控制器。


技术实现要素:

4.根据独立权利要求1的用于控制机器的方法、特别是计算机实现方法提供了鲁棒控制。根据独立权利要求12的用于控制机器的设备提供了鲁棒控制器。
5.控制机器的特别是计算机实现方法包括:确定机器的状态;确定策略,所述策略包括参数、特别是增益,用于将机器的状态映射到机器的输入;根据所述策略将状态映射到输入;根据输入来控制机器,其中由机器的线性二次调节器的多个参数来定义锥规划(cone program),其中取决于所述多个参数和所述策略来定义成本函数,其中针对所述参数和针对所述锥规划的解来定义约束,其中确定所述策略包括:确定所述锥规划的解,针对所述解,所述成本函数满足受制于所述约束的标准;取决于所述解来确定所述参数;取决于所述策略与所述策略的参考之间的差或取决于机器的输入与输入的参考之间的差来确定损失、特别是归一化损失;确定所述损失关于所述策略的偏导数;确定所述策略关于所述解的偏导数;确定所述解关于所述多个参数的偏导数;以及取决于所述偏导数,确定针对其所述损失满足标准的所述多个参数的至少子集。
6.优选地,确定针对其所述损失满足标准的所述多个参数的至少子集包括:确定使所述损失最小化的所述多个参数的至少子集。
7.在一个方面,所述多个参数包括机器的状态方程的参数、对归因于机器的状态方程的参数的扰动进行建模的至少一个参数、对所述扰动的方差进行建模的至少一个参数、以及所述成本函数的参数,其中所述方法包括:预先确定所述状态方程的参数;预先确定对所述方差进行建模的至少一个参数;预先确定所述成本函数的参数;以及取决于预先确定参数,确定针对其所述成本函数满足所述标准的对所述扰动进行建模的至少一个参数。
8.在一个方面,所述多个参数包括机器的状态方程的参数、对归因于机器的状态方程的参数的扰动进行建模的至少一个参数、对所述扰动的方差进行建模的至少一个参数、以及所述成本函数的参数,其中所述方法包括:预先确定对所述扰动进行建模的至少一个参数;预先确定对所述方差进行建模的至少一个参数;预先确定所述成本函数的参数;以及取决于预先确定参数,确定针对其所述成本函数满足所述标准的状态方程的参数。
9.所述方法优选地包括:确定对称矩阵的子空间中属于半正定锥的满足所述约束的
半正定矩阵,其中所述矩阵包括取决于机器的状态方程的参数所定义的和/或取决于所述解所定义的元素,其中所述方法包括:预先确定机器的状态方程的参数,以及针对机器的状态方程的预先确定参数,确定针对其所述矩阵满足约束的解。
10.在一个方面,所述矩阵包括取决于对所述扰动进行建模的至少一个参数所定义的元素,并且其中所述矩阵包括取决于对所述方差进行建模的至少一个参数所定义的元素,其中所述方法包括:预先确定对所述扰动进行建模的至少一个参数;预先确定对所述方差进行建模的至少一个参数;以及针对机器的状态方程的预先确定参数、对所述扰动进行建模的预先确定的至少一个参数、以及对所述方差进行建模的预先确定的至少一个参数,确定针对其所述矩阵满足约束的解。
11.所述方法可以包括取决于大于零或等于零的因子来确定所述矩阵的至少一个元素。
12.确定所述锥规划的解可以包括:取决于使线性二次调节器的所述多个参数的成本函数最小化的解来确定所述策略。
13.所述方法可以包括:读取所述策略的参考集合;选择所述集合中的第一参考;确定所述策略与第一参考之间的第一差;确定第一差与第二差的总和,第二差是针对另一个策略以及所述策略的参考集合中的另一个参考所确定的;取决于所述总和来确定所述损失。
14.输入可以包括数字图像,其中确定状态包括:识别所述数字图像的至少一部分中的对象;确定所述对象的性质,特别是所述对象的位置、类别或属性;以及取决于所述性质来确定状态。
15.所述方法可以包括利用监测机器或机器的环境的传感器来捕获输入,所述传感器特别地是相机、雷达传感器、lidar传感器、超声传感器、运动传感器。
16.用于控制机器的设备被配置成执行所述方法的步骤。
17.还提供了一种计算机程序,其包括计算机可读指令,所述计算机可读指令当在计算机上执行时使得所述计算机执行所述方法。
附图说明
18.从以下描述和附图可以得出进一步的有利实施例。在附图中:图1描绘了控制系统的部分,图2描绘了控制方法的部分。
具体实施方式
19.图1公开了控制系统100的一部分。控制系统100包括被适配成控制机器104的控制器102。
20.机器104可以是机器人或至少部分自主驾驶的车辆。机器104可以在环境106中、例如在工厂系统中操作。
21.控制系统100可以包括传感器108。
22.传感器108被适配成捕获关于机器104的状态x的信息y。
23.传感器108可以是被适配成捕获包含该信息的数字图像的相机、雷达传感器、lidar传感器、超声传感器、运动传感器、或热成像传感器。传感器108可以是速度传感器或
加速度传感器或偏航传感器或滚转传感器。
24.传感器108可以安装到机器104以监测环境106。传感器108可以内置于机器104中以监测机器104的内部参数。
25.在图1中描绘的示例中,相机被布置成监测机器104。
26.可以布置多个相同类型的这种传感器和/或不同类型的这种传感器来提供信息。
27.控制系统100可以包括处理器110,处理器110被适配成从传感器108或从多个传感器接收信息,并且处理该信息以确定机器104的状态x。
28.处理器110可以被配置成识别已经由相机捕获的数字图像的至少一部分中的对象。处理器110可以被配置成确定该对象的性质,特别是该对象的位置、类别或属性。在该示例中,处理器110被适配成将机器104识别为对象,并且根据该对象在数字图像中的位置将机器104的位置确定为状态x。机器104的一部分(例如,机器人臂或其上的工具)可以同样被控制。
29.控制器102被适配成取决于状态x来控制机器104。控制器102被适配成根据取决于状态x的策略π(x)向机器104提供输入u。
30.处理器110可以被配置成提供输入u以控制机器104在环境中从状态x所表示的位置特别地到目标位置的移动。
31.在该示例中,传感器108利用数据链路112连接到处理器110。在该示例中,控制器102利用特别是无线数据链路114连接到机器104。
32.在一个方面,特别是针对小扰动,根据如下无限时域(infinite horizon)线性二次调节器lqr问题来布置控制器102:其中π是策略,并且是机器104在步长t处的状态,并且是在步长t处由控制器102提供给机器104的输入,并且、是对机器104进行建模的参数,并且、是对二次成本进行建模的正定矩阵。
33.在一个方面,根据椭球不确定性下的如下鲁棒无限时域线性二次高斯lqg控制问题来布置控制器102:
其中π是策略,并且是机器104在步长t处的状态,并且是在步长t处由控制器102提供给机器104的输入,并且、是对机器104进行建模的参数,并且in是n
×
n恒等式矩阵,并且i是(m n)
×
(m n)恒等式矩阵,并且[a, b]是a和b的级联向量,并且p0是初始状态分布,并且x0是初始状态,并且是机器104的标称模型,并且是在步长t处的状态x
t
的影响的标称参数,并且是在步长t处的输入u
t
的影响的标称参数,并且d是扰动的模型的参数,并且是扰动的方差,并且是高斯分布,并且w
t
是假定服从高斯分布n的随机动力学噪声,并且、是对二次成本进行建模的正定矩阵。
[0034]
在一个方面,控制器102被适配成确定策略的增益k,该增益k在考虑二次成本的期望值e的情况下最小化有限时域t的成本:
其中是稳态协方差,并且是lqr问题的参数。
[0035]
在这方面,控制器102被配置成通过求解以下优化问题来针对给定a和b确定w:这是锥规划,更具体地说是凸的半正定规划。
[0036]
在这方面,控制器102可以被配置成确定二次损失:其中u
t*
是控制器102在步长t中提供给机器104的输入的参考。
[0037]
在这方面,利用梯度下降方法来迭代地确定增益k。在这方面,控制器102被配置成确定梯度下降方法的梯度:用于训练控制器102的参考u
t*
以及状态的参考x
t*
可以从演示数据可获得。
[0038]
用于训练控制器102的参考u
t*
可以从演示数据可获得,其中y
t*
是步长t处的观测结果。
[0039]
在这方面,基于演示数据d利用梯度下降方法来训练控制器102以产生:其中h是观测函数,其例如描述卡尔曼滤波器。
[0040]
观测函数h可能是不确定的。在一个方面,椭球不确定性被建模为:,其中u是不确定性集合,并且h是p参数hi的仿射函数,并且h0是标称观测函数,并且是参数。
[0041]
在这方面,参数θ可以包括观测函数h:通过确定梯度并且利用梯度下降方法确定增益k来训练控制器102。
[0042]
在一个方面,控制器102被适配成确定策略的增益k和参数∑,其中是探索项或被理解为高斯策略参数化:
在这方面,控制器102被配置成通过近似以下优化问题的解来针对给定a和b确定w:针对不确定性的最坏情况场景由下式给出:其中在这方面,控制器102被配置成利用以下锥规划来确定w:其中λ是因子。
[0043]
在这方面,参数θ可以包括扰动d的模型参数以及方差σ:控制器102被配置成根据增益和参数来重建策略π。
[0044]
在这方面,控制器102被配置成确定梯度下降方法的梯度:用于训练控制器102的参考u
t*
以及状态的参考x
t*
可以从演示数据可获得。
[0045]
用于训练控制器102的参考u
t*
可以从演示数据可获得,其中y
t*
是步长t处的观测结果。
[0046]
通过确定梯度并且利用梯度下降方法确定增益k和参数∑来训练控制器102。
[0047]
如此训练的控制器102然后可用于在步长t处确定机器104的输入u
t

[0048]
在一个方面,上面描述的锥规划被实现为可微分层。在控制器102的实施例中,可微分层被实现为卷积神经网络。
[0049]
在一个方面,利用演示数据来训练卷积神经网络。在训练之后,将机器104的状态x映射到机器的输入u。
[0050]
在另一个方面,利用演示数据来训练卷积神经网络。在这方面,使用关于状态x的信息y。
[0051]
下面参考图2描述了用于控制机器104的方法。该方法可以在状态x
t
和输入u
t
的时间序列上在步长t中迭代地执行,其中t=1,...t。状态x
t
和输入u
t
可以是标量时间序列。该方法的目的是学习用于控制机器104并且然后相应地操作机器104的策略。
[0052]
该方法同样适用于模仿学习、跟踪或强化学习。
[0053]
模仿学习:对于模仿学习,给出演示的专家是可用的,该演示在最坏情况的情况与最优行为之间进行折衷。当存在不确定性或扰动时,在从演示中进行学习时将该不确定性考虑在内,以便改进模仿性能。
[0054]
在这种情况下,学习了策略学习了策略其中x
init
是特别为随机的初始状态,并且k是二阶锥,w
t
是高斯白噪声,c
t
、c
t
、f
t
、f
t
由椭球不确定性所界定。
[0055]
该方法包括步骤202。
[0056]
在步骤202中,确定机器104的状态x。
[0057]
在一个示例中,确定状态x包括:利用监测机器104或机器104的环境的传感器来捕获输入,所述传感器特别地是相机、雷达传感器、lidar传感器、超声传感器或运动传感器。
[0058]
在一个示例中,确定状态x包括:识别数字图像的至少一部分中的对象;确定该对象的性质,特别是该对象的位置、类别或属性;以及取决于该性质来确定状态x。
[0059]
在此之后,执行步骤204。
[0060]
在步骤204中,确定用于将机器104的状态x映射到机器104的输入u的策略π。
[0061]
在这方面,基于演示数据d利用梯度下降方法来训练控制器102以产生:其中h是观测函数。
[0062]
在该示例中,观测函数h是不确定的。在该示例中,椭球不确定性被建模为:其中u是不确定性集合,并且h是p个参数hi的仿射函数,并且h0是标称观测函数,并且是参数。
[0063]
在这方面,参数θ可以包括参数c
t
、c
t
、f
t
、f
t
和观测函数h:其中c=[r, q]。
[0064]
通过确定梯度并且利用梯度下降方法从演示数据中确定增益k来训练控制器102,其中损失为取决于参数θ和策略π所定义的成本函数被最小化。
[0065]
确定损失l可以包括:读取策略π的参考π
*
的集合;选择集合中的第一参考π
i*
;确定策略π与第一参考π
i*
之间的第一差li;确定第一差li与第二差的总和,第二差是针对另一个策略π以及策略π的参考π
*
的集合中的另一个参考所确定的;取决于该总和来确定损失l。
[0066]
取决于针对集合d的策略π
i*
所确定的距离的l2范数,损失l可以由因子1/||d||来归一化。
[0067]
可以从损失l关于策略π的偏导数、策略π关于解w的偏导数、以及解w关于相应参数θ的偏导数来确定梯度。
[0068]
确定锥规划的解w和z包括:取决于使线性二次调节器参数θ的成本函数最小化的解w来确定策略π。
[0069]
可以取决于策略π与策略π的参考π
*
之间的差||π

π
*
||来确定损失l。
[0070]
在受制于如上描述的那样针对参数θ和锥规划的解w所定义的约束的情况下,来求解如上描述的那样由机器104的线性二次调节器的参数θ所定义的锥规划。
[0071]
取决于参数θ和策略π所定义的成本函数被最小化。
[0072]
确定策略π包括:确定针对其成本函数满足受制于该约束的标准的锥规划的解w。
[0073]
利用梯度下降方法,取决于这些偏导数来确定针对其损失l满足该标准的参数θ的至少子集。该方法也可以包括确定所有参数θ。该标准可以是损失被最小化。在这方面,确定使损失最小化的参数θ的子集或参数θ。
[0074]
利用定义了策略π的参数θ来更新可微分层。在一个方面,根据参数θ来更新卷积神经网络参数。
[0075]
例如通过确定根据w和z来重建策略参数k。
[0076]
在此之后,执行步骤206。
[0077]
在步骤206中,根据策略π将状态x映射到机器104的输入u。
[0078]
在一个方面,状态x由卷积神经网络来映射。
[0079]
在此之后,执行步骤208。
[0080]
在步骤208中,根据机器104的输入u来控制机器104。例如,根据机器的输入u来致动机器104的致动器。
[0081]
在步骤208之后,可以执行步骤202。
[0082]
例如,通过重复执行这些步骤来控制机器104在环境中的移动。可以控制从状态x所表示的位置特别地到目标位置的移动。
[0083]
跟踪:对于跟踪,从对应的演示数据中学习鲁棒策略。也执行上面描述的方法步骤202至208以用于跟踪。与上面描述的步骤204形成对照,从演示数据中学习鲁棒策略以用于跟踪,其中y
t*
是步长t处的观测结果。
[0084]
在这方面,基于演示数据d利用梯度下降方法来训练控制器102以产生:如上所描述的那样,可以从损失l关于策略π的偏导数、策略π关于解w的偏导数、以及解w关于相应参数θ的偏导数来确定梯度。
[0085]
强化学习:对于强化学习,学习了一种鲁棒策略,该鲁棒策略既安全(即,针对最坏情况进行
了优化),又能够在探索与开发(exploitation)之间进行折衷。也执行上面描述的方法步骤202至208以用于强化学习。与上述步骤204形成对照,通过利用如上所描述的对应梯度下降方法确定增益k和/或参数∑来学习具有探索项参数的策略。
[0086]
控制器102的训练取决于策略π的类型。策略π可以包括lqr控制器的增益k而不具有探索参数∑。
[0087]
在这方面,该方法包括:如上所描述的,取决于解w来确定增益k,并且确定损失l。
[0088]
策略π可以包括增益k和探索参数∑。
[0089]
在这方面,该方法包括:如上所描述的,取决于解w来确定增益k和探索参数∑。
[0090]
在一个方面,参数包括机器104的状态方程的参数、,对归因于机器104的状态方程的参数、的扰动进行建模的至少一个参数d,对扰动的方差进行建模的至少一个参数σ、以及成本函数的参数q、r。
[0091]
控制器102的训练取决于训练数据的配置。
[0092]
在一个方面,该方法可以包括:预先确定状态方程的参数、;预先确定对方差进行建模的至少一个参数σ;以及预先确定成本函数的参数q、r。在这方面,该方法可以包括:取决于这些预先确定参数,确定针对其成本函数满足该标准的对扰动进行建模的至少一个参数d。
[0093]
该方法包括:如上所描述的,确定对称矩阵的子空间中属于半正定锥的满足约束的半正定矩阵m。该矩阵包括取决于机器104的状态方程的参数所定义的元素。该矩阵m包括取决于解w所定义的元素。
[0094]
在另一方面,该方法可以包括:预先确定机器104的状态方程的参数,以及针对机器104的状态方程的预先确定参数,确定针对其矩阵m满足约束的解w。
[0095]
除此之外,矩阵m可以包括取决于对扰动进行建模的至少一个参数d所定义的元素。
[0096]
除此之外,矩阵m可以包括取决于对方差进行建模的至少一个参数σ所定义的元素。
[0097]
在这种情况下,该方法可以包括预先确定对扰动进行建模的至少一个参数d;预先确定对方差进行建模的至少一个参数σ;以及针对机器104的状态方程的预先确定参数、对扰动进行建模的预先确定的至少一个参数d、以及对方差进行建模的预先确定的至少一个参数σ,确定针对其矩阵m满足约束的解w。
[0098]
取决于大于零或等于零的因子λ,可以如上所描述的那样确定矩阵m的至少一个元素。
[0099]
在另一个方面,该方法可以包括:预先确定对扰动进行建模的至少一个参数d;预
先确定对方差进行建模的至少一个参数σ;预先确定成本函数的参数q、r。在这方面,该方法可以包括:取决于这些预先确定参数,确定针对其成本函数满足标准的状态方程的参数、。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献