一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于为贝叶斯优化法选择评估点的控制装置和方法与流程

2021-12-08 02:54:00 来源:中国专利 TAG:


1.不同的实施例一般地涉及用于为贝叶斯优化法选择评估点的控制装置和方法。


背景技术:

2.在控制过程、例如控制用于生产产品的设施或加工工件或使机器人移动的控制过程中,控制参数的值与结果、也就是说能观察到的输出参数值之间的关系可能非常复杂。此外,对控制参数值的这种评估可能花费高且有错误。在这种情况下,贝叶斯优化(bo)适合于确定控制参数值,因为贝叶斯优化允许当只有受到噪声干扰的评估供支配时优化未知的黑箱(black

box)功能。贝叶斯优化法的效率在很大程度上取决于如何选择评估点。与此相对应地,值得期望的是用于为贝叶斯优化法选择评估点的途径,这些途径能够实现对例如机器人的高效的控制。


技术实现要素:

3.按照不同的实施方式,提供了一种用于为用来优化通过统计模型来被建模的物理或化学过程的贝叶斯优化法选择评估点的方法,该方法具有:根据在先前评估点的一次或多次评估的结果来确定该统计模型的后验模型;并且通过优化关于搜索空间的采集函数来选择下一个评估点,该下一个评估点通过由该后验模型给出的在搜索空间中的点的预测方差的预先给定的极限来被给出。
4.贝叶斯优化是用于优化功能的一种非常通用的方法。该方法的优势在于:该方法由于其需要很少的功能评估来找到最优值而非常高效,而且可以处理有噪声的功能评估,并且不需要梯度信息。因此,该方法适合于其中例如实验参数必须被优化以便使一定参量最大化的大量应用。
5.通过上述用于为贝叶斯优化法选择评估点的方法,关于良好的控制参数值的先前知识被充分利用并且控制参数空间被谨慎勘探。该局部方案(而不是全局方案)允许将贝叶斯优化应用于维数相对高(例如维度10至100)的控制参数空间。应用示例是控制装置的设计、生产技术中的过程参数的优化或者具有大量控制参数的构件的优化。
6.上述途径能够实现关于所需的功能评估的数目方面的高效优化(低的所谓的“simple regret(简单遗憾)”)以及对控制参数空间的仔细调查,使得(例如在像机器人那样的受控设备处的)损坏被避免(低的所谓的“cumulative regret(累积遗憾)”)。
7.在下文说明不同的实施例。
8.实施例1是如上所述的用于为贝叶斯优化法选择评估点的方法。
9.实施例2是按照实施例1的方法,其中静态模型是高斯过程并且预先给定的极限是高斯过程的内核的信号方差的预先给定的一小部分。
10.借助于高斯过程对过程的建模能够实现高效的贝叶斯优化。通过根据高斯过程的内核的信号方差来确定预先给定的极限,使搜索空间与高斯过程的内核适配。
11.实施例3是按照实施例1或2的方法,其中通过从评估点范围中采样来确定下一个
评估点的备选方案的集合并且选择这些备选方案中的对其来说采集函数在这些备选方案的集合中取最优值的一个备选方案作为下一个评估点。
12.这能够实现关于搜索空间的高效的优化。
13.实施例4是按照实施例3的方法,其中评估范围是参数范围的子集并且通过采样借助于从参数范围中的拒绝方法来确定备选方案的集合,其中将不在搜索空间中的样本丢弃。
14.如上所述被规定的搜索空间通常不连续。按照权利要求4的途径在这种情况下仍能够实现高效的采样(也就是说从搜索空间中选择抽样)。
15.实施例5是按照实施例4的方法,其中在参数范围内进行采样具有在参数范围的子空间中进行采样,这些子空间分别包含先前评估点中的一个或多个。
16.以这种方式,可以保证在采样时检测搜索空间的所有关联组件。通过选择简单的子空间(尤其是低维度、例如一维的子空间),还可以花费低地执行采样。
17.实施例6是一种控制装置,该控制装置被设立为实施根据实施例1至5中任一项所述的方法。
18.实施例7是一种生产系统,其具有:根据实施例6所述的控制装置;生产设备,该生产设备被设立为借助于物理或化学过程来制造产品;和至少一个传感器,该传感器被设立为向该控制装置提供该物理或化学过程的被分配给控制参数值的输出参数值;其中该控制设备被设立为:借助于贝叶斯优化法来确定该物理或化学过程的一个或多个最优的控制参数值,其方式是该控制设备在使用输出参数值的情况下对控制参数值进行评估,并且按照所确定的一个或多个控制参数值来控制该生产设备。
19.实施例8是一种加工系统,其具有:根据实施例6所述的控制装置;加工设备,该加工设备被设立为借助于物理或化学过程来加工工件;至少一个传感器,该传感器被设立为向该控制装置提供该物理或化学过程的被分配给控制参数值的输出参数值;其中该控制设备被设立为:借助于贝叶斯优化法来确定该物理或化学过程的一个或多个最优的控制参数值,其方式是该控制设备在使用输出参数值的情况下对控制参数值进行评估;并且按照所确定的一个或多个控制参数值来控制该加工设备。
20.实施例9是一种机器人系统,其具有:根据实施例6所述的控制装置;机器人元件,该机器人元件被设立为借助于物理或化学过程来实施移动;至少一个传感器,该传感器被设立为向该控制装置提供该物理或化学过程的被分配给控制参数值的输出参数值;其中该控制设备被设立为:借助于贝叶斯优化法来确定该物理或化学过程的一个或多个最优的控制参数值,其方式是该控制设备在使用输出参数值的情况下对控制参数值进行评估,并且按照所确定的一个或多个控制参数值来控制该机器人元件。
21.实施例10是一种计算机程序,其具有程序指令,当这些程序指令由一个或多个处理器来实施时,这些程序指令使所述一个或多个处理器执行根据实施例1至5中任一项所述的方法。
22.实施例11是一种计算机可读存储介质,在其上存储有程序指令,当这些程序指令由一个或多个处理器来实施时,这些程序指令使所述一个或多个处理器执行根据实施例1至5中任一项所述的方法。
附图说明
23.本发明的实施例在附图中被示出并且在下文详细地予以阐述。在附图中,相同的附图标记在多个视图中各处通常都涉及相同的部分。这些附图不一定比例正确,其中重点反而通常在于呈现本发明的原理。
24.图1示出了按照实施方式的机器人。
25.图2示出了阐明按照实施方式的用于借助于贝叶斯优化来确定控制参数的方法的流程图。
26.图3示出了阐明按照实施方式的用于为贝叶斯优化法选择评估点的方法的流程图。
具体实施方式
27.不同的实施方式、尤其是下文描述的实施例可以借助于一个或多个电路来被实现。在一个实施方式中,“电路”可以被理解为任何类型的逻辑实现实体,该逻辑实现实体可以是硬件、软件、固件或它们的组合。因而,在一个实施方式中,“电路”可以是硬接线逻辑电路或可编程逻辑电路,诸如可编程处理器、例如微处理器。“电路”也可以是由处理器实现或实施的软件、例如任何类型的计算机程序。根据一个替选的实施方式,相应的功能性的任何其它类型的实现方案都可以被理解成“电路”,这些功能性在下文更详细地予以描述。
28.图1示出了机器人100。
29.机器人100包含机器人臂101(通常是机器人元件),例如用于移动、安装或加工工件的工业机器人臂。机器人臂101具有机器人链节(roboterglieder)102、103、104和底座(或者通常是支架)105,通过该底座来承载这些机器人链节102、103、104。术语“机器人链节”涉及机器人臂101的可移动部分,对这些可移动部分的操纵能够实现与周围环境的物理交互,例如以便执行任务。为了进行控制,机器人100包含控制装置106,该控制装置被设立为按照控制程序来实现与周围环境的交互。机器人链节102、103、104的最后一个元件104(从底座105出发来看)也被称作末端执行器104并且可以包含一个或多个工具,如焊枪、抓持工具、涂装设备等等。
30.其它机器人链节102、103(更靠近底座105)可形成定位设备,使得在其端部具有末端执行器104的机器人臂(或关节臂)与末端执行器104一起被设置。机器人臂101是机械臂,该机械臂可以执行与人类手臂类似的活动(可能利用在其端部处的工具)。
31.机器人臂101可包含连接元件107、108、109,这些连接元件使机器人链节102、103、104彼此连接并且与底座105连接。连接元件107、108、109可具有一个或多个关节,所述一个或多个关节中的每个都可以提供所属的机器人链节相对于彼此的旋转运动和/或平移运动(也就是说位移)。机器人链节102、103、104的运动可以借助于调节环节来被引导,该调节环节由控制装置106来控制。
32.术语“调节环节”可以被理解成适合于作为对其被驱动的反应来影响机构的组件。调节环节可以将由控制装置106输出的命令(所谓的激活)转化成机械运动。调节环节、例如机电转换器可以被设立为作为对其操控的反应将电能转换成机械能。
33.术语“控制装置”(英文也被称作“controller(控制器)”)可以被理解成任何类型的逻辑实现单元,该逻辑实现单元例如可包含电路和/或处理器,该处理器能够实施存储在
存储介质中的软件、固件或它们的组合并且可以向例如在当前示例中的调节环节发出命令。控制装置例如可以通过程序代码(例如软件)来被设立为控制系统、在当前示例中是机器人的运行。
34.在当前示例中,控制装置106包含存储器111和一个或多个处理器110,该存储器存储代码和数据,处理器110依据这些代码和数据来控制机器人臂101。按照不同的实施方式,控制装置106基于存储在存储器111中的控制规则(英文也称作“policy(策略)”)112来控制机器人臂101。
35.应该注意的是:具有机器人臂的机器人100的设计方案仅仅是一个示例,并且机器人可以以其中能控制机械元件(包括阀门或其它可移动部分在内)的任何机器的形式来被设计。
36.机器人的示例是借助于人工智能来被改进的制造机器,诸如铣床、车床、深孔钻,其中控制装置106例如将深孔钻的进给速度、铣头的旋转速度等等作为机器的当前状态(和/或时间)的函数来调整。
37.在此,控制规则112例如具有控制参数,这些控制参数影响控制行为,以便例如权衡生产速度和机器彼此间的磨损。
38.这些参数可以由具有多年专业知识的专家来调整(并且然后保持不变)。但是,即使对于专家来说也难以调整具有超过大约10个参数的控制装置(该数目当然可能视机器而异)。
39.在下文描述的实施方式的一个可能的应用是:基于专家对这种控制参数的初始调整,将这些控制参数调整为使得优化某个质量标准、例如生产速度。这里,其它应用领域也可能会是车辆中的用于esp(电子稳定程序)或abs(防抱死制动系统)的控制设备。
40.在机器人较复杂(诸如具有自由度数目较多的机器人臂101的机器人)的情况下,由专家来调整控制参数非常罕见,因为参数的数目在此常常超过20至50个。因而,通常借助于仿真来调整这些参数。不过,仿真常常与现实并不精确一致,而且在仿真中优化的参数并不满足真实系统(也就是说在其真实环境中的真实机器人)的质量标准。尽管如此,通过仿真来获得的参数值可以用作对真实系统进行精调的良好开端,类似于专家在较简单的机器的上述示例中所作的那样。在这种情况下,控制准则如何被参数化并不重要。这里,一个非常具体的应用例如是用于自动化安装或拆卸构件的操纵机器人领域。
41.控制装置106不仅仅可以驱动致动器,以便调整在元件(诸如末端执行器104)的空间中的位置,而且通常可以进行控制,以便(例如通过调整像阀门或者还有电源那样的受控元件)来调整在生产过程或加工过程方面的过程参数、诸如过程温度、过程时间、真空或气体氛围等等,使得获得工件的所希望的特性、诸如硬度、强度、导热能力、导电能力等等。
42.在这种具有机器人、机器、生产或加工设施的控制场景中,输出参数通常有噪声。这意味着:(如被操纵的对象的到达位置或者工件的所实现的特性)虽然取决于输入参数值(也就是说控制参数,这些控制参数又引起特定的过程参数),但是即使控制参数值都相同,这些输出参数值也发生变化。
43.为了获得所希望的输出参数值,控制参数应该被确定为使得取决于输出参数的目标函数被优化。例如,所要移动的对象应该被移动到尽可能接近目的地,特定温度应该尽可能精确地被调整或者产品的硬度应该尽可能接近目标值。
44.由于输出参数值有噪声并且目标函数取决于这些输出参数值,所以目标函数也有噪声。此外,目标函数通常未知,因为该目标函数表示输入参数值和输出参数(该目标函数的值取决于它们)的复杂关系。
45.控制装置106可以从一个或多个传感器113(在机器人的示例中例如是摄像机,在其它应用的情况下例如还有温度传感器、电流传感器等等)获得传感器数据,以便获得关于针对特定输入参数值(也就是说控制参数值)的输出参数值的信息,也就是说以便对目标函数进行评估。传感器113例如也可以是机器人臂101的一部分。
46.按照不同的实施方式,确定用于在使用贝叶斯优化(英文bayesian optimization)的情况下优化物理或化学过程(也就是说相对应地给出的如上所述的目标函数)的控制参数。
47.如果未知函数f(所谓的“黑箱(black

box)”功能、如在上述示例中的目标函数)应该被优化(最小化或最大化),则可以应用贝叶斯优化。该未知函数f是可以仅针对值x被评估或测量以及(可能由于有噪声)被观察的函数。得出所观察的值y为y = f(x) e,其中e表示噪声成分。还假定:对未知函数f的每次评估(测量)都昂贵,也就是说造成成本,即对未知函数的评估造成高花费,如其例如在实验台上实施实验时就是如此情况。由于对未知函数的评估昂贵,值得追求的是:在优化期间仅须进行少量评估。在一定的预设条件、诸如未知函数的连续性的情况下,可以借助于统计模型来对该未知函数进行近似。通常使用高斯过程(也称作gau
ß
scher prozess)作为统计模型,也就是说执行针对评估点(x1, ..., xn)和在这些评估点处的评估、也就是说对在这些评估点处的相对应的函数值(y1, ..., yn)的观察的高斯过程回归。
48.高斯过程的特征是:在评估点周围的范围内,模型预测非常好并且该未知函数良好地被近似。这反映在模型预测的不确定性低方面。如果远离先前的评估点,则关于该未知函数的模型预测变差并且不确定性随着距这些评估点的距离增加而升高。优化函数f的一种可能的策略是在多个不同的位置(例如在规则网格上)评估该未知函数并且采纳所观察到的最低的函数值作为优化结果。然而,该做法并不高效,而且需要花费相对应地高的很次评估来找到最优值。
49.替代该方法,高斯过程本身可以被用于选择新的评估点。为此,用于评估的新的评估点被选择为使得由此一方面改善了模型的说服力,例如使得该未知函数的所估计的期望值的不确定性降低。为此,通常在其中该未知函数还不曾被评估(exploration(勘探))的范围内选择评估点。另一方面,用于评估该未知函数的新的评估点被选择为使得找到最优值的目标尽可能快地或在这些评估点处的测量的数目少的情况下被实现。为此,优选选择如下评估点,这些评估点(按照高斯过程)预示着低函数值(在最小化的情况下)或高函数值(在最大化的情况下)(exploitation(开发))。这两个矛盾的标准通过如下方式来予以权衡:借助于预先给定的采集函数来选择评估点。采集函数使用高斯过程、即期望值μ(x)和被分配给该期望值的标准差σ(x)。
50.示例是所谓的lcb(置信下限(lower confidence bound))采集函数,该采集函数如下给出:lcb(x)=μ(x)
‑ꢀ
kσ(x)。
51.因子k例如恒定地被规定到特定值,诸如k = 2。该标准可以利用常见的基于梯度
的方法来高效地被最小化,而且lcb(x)的最小值的位置接着形成用于该未知函数f的新的评估点。
52.在这种情况下应注意:关于特定范围、也就是说关于在搜索下一个评估点之内的范围进行对采集函数的优化。
53.在所选择的下一个评估点处对函数f进行评估之后,利用新的数据来对高斯过程进行更新并且根据上述方法来选择下一个评估点。通常,对评估点、在所选择的评估点处的评估和根据该评估对高斯过程的更新的该选择一直迭代地被重复,直至满足中断标准为止、即例如达到应为了优化未知函数f而应用的时长为止。
54.在该函数的最小化的情况下,接着输出使高斯过程的期望值最小化的点(也就是说输入参数值向量或控制参数值向量),作为该函数的最小值的位置。在最大化的情况下,类似地,输出使高斯过程的期望值最大化的点。接着,该点说明了机器人或机器或设施按照其来被控制的控制参数值向量。
55.除了lcb采集函数之外,也可以使用其它采集函数,这些其它采集函数基于其它采集标准,诸如ei(预期改进(expected improvement))、ucb(置信上限(upper confidence bound))、pi(改进概率(probability of improvement))或者还有所谓的熵搜索(entropy

search)方法,所述熵搜索方法基于信息理论的考虑。
56.如上文所提及的那样,关于控制参数值和控制参数值组合(也就是说控制参数向量,在下文也被称作控制参数空间或搜索空间的点)的特定范围进行对采集函数的优化。为此,用户可以定义优化范围(也就是说搜索空间),从该优化范围中,用户假定所要优化的函数的全局最优值位于其中。在此应注意:1) 对优化域的选择对收敛到最优值有很大影响而且既不应该被选择得太大(收敛持续时间太长)也不应该被选择得太小(可能缺少良好的参数值)。
57.2) 在硬件应用的情况下,可存在可能损坏或损害系统的控制参数调整,使得这些区域不应该被研究。
58.3) 如果优化过程基于专家知识而以良好的初步估计开始,则优化并非全局,而是更可能局部的。
59.按照不同的实施方式,通过在优化时在已经被评估的点附近进行评估来考虑这三个事实。因此,这一点使用户无需规定优化范围、仔细研究控制参数空间并且保持在初始估计附近。
60.按照不同的实施方式规定:根据由当前的后验高斯过程(也就是说在使用上一次评估的情况下的更新之后的高斯过程)给出的预测方差来规定因评估而异的搜索空间。例如,按如下地选择下一个评估点:其中是置信范围,该置信范围包含其预测后验方差(也就是说后验模型、例如后验高斯模型的方差)小于预先给定的极限的所有点。
61.在该示例中,该预先给定的极限通过高斯过程的内核(英文kernel)的信号方差的预先给定的一小部分来给出。高斯过程的内核例如通过来给出,其中是两个输入参数向量(也就是说可能的评估点)之间的距离,并且是该内核的长度缩放(l
ä
ngenskalierung)。
62.应该注意:如果新的评估点已被选择、被评估并且高斯过程已被更新(也就是说后验高斯过程附加地考虑在新的评估点处的新的评估),则置信范围扩大。搜索空间的相对大小可以通过调整置信参数γ来被协调,该置信参数确定了优化的勘探行为的“谨慎”程度。置信参数γ也可以被设置到固定值,例如被设置得小于1,如0.1或0.5,或者可以在迭代过程中基于该值来被适配(例如被减小)。
63.应该注意:按照高斯过程的内核信号方差来选择该极限仅仅是一个示例而已。也可以使用做出置信结论(即关于点的方差的结论)的其它统计模型,诸如贝叶斯神经网络,并且可以相对应地预先给定该极限(例如绝对地或者像上述示例中那样根据统计模型的(超)参数)。
64.图2示出了阐明用于借助于贝叶斯优化来确定控制参数的方法的流程图。
65.在201中,给出初始评估点x0(例如基于专家知识的首次估计)并且在该评估点处对所要优化的函数f进行评估,以便获得(“第0个”)观察y0 = f(x0) e0。
66.在202中,只要尚不满足停止标准(例如尚未达到迭代的最大次数),就一直实施while循环。
67.在每次迭代中:
· 在203中,确定置信范围(例如在使用如当前的高斯过程(也就是说其中所有到目前为止的评估都被加入的后验高斯过程)所说明的预测方差的情况下);
· 在204中,关于该置信范围对采集函数(例如lcb)进行优化,以便获得新的(也就是说下一个)评估点xi;
· 在205中,在位置xi处对函数f进行评估,以便获得新的(第i个)观察yi = f(xi) ei;
· 在206中,在使用第i次评估的情况下对高斯过程进行更新。
68.在while循环结束之后,在207中输出对最优值的估计(例如高斯过程具有最大或最小期望值的控制参数向量)。
69.对采集函数的优化可以通过两步过程来实现:1) 从优化范围(也就是说置信范围)中例如均匀分布地或者按照sobol序列或者在使用latin hypercube采样的情况下进行采样(也就是说提取抽样)。
70.2) 例如在使用顺序二次规划(sqp)或者所谓的信任区域内部点技术(trust region interior point technique)的情况下在采样点中的其中采集函数最大的那些采样点周围进行局部优化。
71.由于置信范围通常不连续而且不是凸的,所以按照一个实施方式,为了对置信范
围内的点进行采样,使用拒绝方法(英文rejection sampling(拒绝采样)),例如在依次被选择的一维子空间的情况下使用拒绝方法。算法1(以伪代码为形式)是这种做法的一个示例。
72.按照提议分布来进行采样也是优化采集功能的一种可能性,该提议分布在每次评估(采集功能)时都朝着有希望的控制参数范围的方向被更新。在使用置信范围的情况下,可以隐性地减少在更新之间的步幅。
73.概括来说,按照不同的实施方式,提供了在图3中示出的方法。
74.图3示出了阐明用于为用来优化通过统计模型来被建模的物理或化学过程的贝叶斯优化法选择评估点的方法的流程图300。
75.在301中,根据在先前的评估点处的一次或多次评估来确定统计模型的后验模型(例如关于高斯过程的后验高斯过程)。
76.在302中,通过优化关于搜索空间的采集函数来选择下一个评估点,所述下一个评估点通过由所述后验模型给出的在所述搜索空间中的点的预测方差的预先给定的极限来被给出。
77.换言之,按照不同的实施方式,优化用于在贝叶斯优化法中关于点范围确定下一个评估点的采集函数,该点范围包含对其来说后验模型的预测方差小于预先给定的极限的点。换言之,其中搜索下一个评估点的范围限于包含对其来说后验模型的预测方差小于预先给定的极限的点的范围。
78.贝叶斯优化法例如可以被用于确定例如针对机器人的控制参数。每个评估点例如对应于具有多个(例如10至20个)分量的控制参数向量,其中每个分量都说明了该物理或化学过程的控制参数(例如温度、速度、电压等等)的值。
[0079]“机器人”可以被理解成任何(具有其运动被控制的机械部分的)物理系统,如计算机控制的机器、车辆、家用电器、电动工具、制造机器、私人助理或门禁系统。
[0080]
尽管本发明主要是在参考特定实施方式的情况下被展示和描述的,但是熟悉该专业领域的人员应该理解:可以在不脱离本发明的如通过随后的权利要求限定的精神和范围的情况下关于设计方案和细节进行大量更改。因而,本发明的范围通过随附的权利要求来
被确定,而且意图涵盖落入权利要求的字面含义或等效范围的全部更改。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献