一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于控制技术系统的控制装置和用于配置控制装置的方法与流程

2022-07-24 03:44:15 来源:中国专利 TAG:
用于控制技术系统的控制装置和用于配置控制装置的方法
1.复杂的技术系统、诸如燃气轮机、风力涡轮机、内燃机、机器人、加工设备、机动车辆或电网为了生产性运行通常需要耗费的配置,以便例如有针对性地优化技术系统的收益、资源需求、效率、有害物质排出、磨损和/或其他目标参数。
2.技术系统的合乎时代的控制装置经常使用机器学习的方法用于配置。借助于这种学习方法,可以根据训练数据训练控制装置,以便从技术系统的当前运行数据出发来确定用于控制技术系统的特定地引起技术系统的期望的或在其他方面最优的行为的那些控制动作。为此目的,大量已知的学习方法、诸如强化学习方法可供使用。在此,尤其是技术系统或相似技术系统的历史和/或当前运行数据可以被用作训练数据。
3.在已知的学习方法情况下,对于成功的训练通常需要大数量的训练数据,所述训练数据此外应该尽可能有代表性地涵盖技术系统的运行条件。太少数量的代表性训练数据或相关运行条件的太少涵盖可能对训练成功产生负面影响。
4.本发明的任务是说明一种用于控制技术系统的控制装置和一种用于配置控制装置的方法,所述控制装置和方法允许更高效的训练。
5.该任务通过具有专利权利要求1的特征的方法、具有专利权利要求13的特征的控制装置、具有专利权利要求14的特征的计算机程序产品以及具有专利权利要求15的特征的计算机可读存储介质来解决。
6.为了借助于机器学习方法配置用于技术系统的控制装置,采集用于机器学习方法的训练数据的时间序列。在此情况下,训练数据包括指定技术系统的状态的状态数据以及指定技术系统的控制动作的控制动作数据。技术系统尤其是可以包括燃气轮机、风力涡轮机、太阳能动力设备、发电站、内燃机、机器人、加工设备、机动车辆、交通管制系统、用于建筑物的能量控制装置、能量输送网络、3d打印机或其他机器。根据本发明,特定地采集所述控制动作数据的时间变化,并且在不同的时间窗内与所述状态数据的时间变化相关,其中分别确定特定于时间窗的相关值。然后根据所确定的相关值确定所得出的时间窗,并且以特定于时间窗的方式提取位于所得出的时间窗内的训练数据。然后根据所提取的训练数据借助于机器学习方法训练所述控制装置,并且因此配置所述控制装置用于控制所述技术系统。
7.设置控制装置、计算机程序产品以及优选地非易失性的计算机可读存储介质用于执行根据本发明的方法。
8.根据本发明的方法以及根据本发明的控制装置可以例如借助于一个或多个计算机、处理器、专用集成电路(asic)、数字信号处理器(dsp)和/或所谓的“现场可编程门阵列”(fpga)来执行或实施。
9.只要所得出的时间窗有针对性地被确定为使得其中包含的状态数据的时间变化与控制动作数据的时间变化相关,就可以预期在所得出的时间窗中包含的训练数据包含关于控制干预对技术系统的状态的影响的平均水平以上地多的信息。证明的是,通过特定地提取和使用位于所得出的时间窗内的训练数据,通常可以显著更快速并且更高效地学习在控制干预与其影响之间的因果关系。在许多情况下,与流行的学术观点相反,可以观察到,
限制于特定地选择的训练数据的训练比利用所有可用的训练数据的训练更高效。不太相关的或冗余的训练数据经常甚至可能恶化训练成功。
10.本发明的有利实施方式和改进方案在从属权利要求中予以说明。
11.根据本发明的一种有利实施方式,可以比较针对不同的时间窗的相关值。据此可以将关于相关值优化的时间窗确定为所得出的时间窗。尤其是可以选择具有说明最高相关性或最高反相关性的相关值的时间窗作为所得出的时间窗。可替代地或附加地,可以通过组合具有提高的或特别高的相关性或反相关性的不同的时间窗来确定所得出的时间窗。
12.根据本发明的另一有利实施方式,可以生成大量不同的时间窗,其中借助于数值优化方法控制生成,使得优化所生成的时间窗的相应的相关值。以这种方式,可以获得特别高度相关的训练数据,所述训练数据通常证明是特别促进训练的(trainingsf
ö
rdernd)。
13.梯度下降方法、粒子群优化和/或遗传优化方法可以优选地被用作优化方法。对于上述优化方法,大量实施可用。
14.根据本发明的另一有利实施方式,控制动作数据可以包括指定不同控制动作的动作分量。然后可以特定地针对相应的动作分量采集控制动作数据的时间变化,并且可以特定地针对相应的动作分量确定相关值。据此可以通过组合特定于动作分量的时间窗来确定所得出的时间窗。尤其是为此目的可以借助于特定于动作分量的权重来组合高度相关的特定于动作分量的时间窗。
15.此外,状态数据可以包括指定技术系统的不同状态参数的状态分量。然后可以特定地针对相应的状态分量确定相关值。据此可以通过组合特定于状态分量的时间窗来确定所得出的时间窗。尤其是为此目的可以借助于特定于状态分量的权重来组合高度相关的特定于状态分量的时间窗。
16.优选地,可以采集控制动作数据的大量时间变化,并且通过相对于控制动作数据的相应的时间变化定义的不同的时间窗分别与状态数据的大量时间变化相关,其中分别确定特定于时间窗的相关值。以这种方式,通常可以显著提高所确定的相关值的统计显著性。
17.根据本发明的另一有利实施方式,可以通过不同的时间窗的联合、平均和/或其他尤其是加权的组合来确定所得出的时间窗。尤其是,特定于动作分量的和/或特定于状态分量的权重可以被用于加权。以这种方式,可以确定所得出的时间窗,所述所得出的时间窗对于所有动作分量和/或状态分量或至少对于大多数动作分量和/或状态分量强烈相关。
18.根据本发明的一种有利改进方案,可以通过(
ü
ber)聚合时间窗聚合状态数据和/或控制动作数据。然后可以根据聚合的状态数据和/或聚合的控制动作数据来确定所得出的时间窗。通过这种聚合可以在时间上组合和/或减少状态数据和/或控制动作数据。例如通过构成多个在时间上相继的状态数据和/或控制动作数据的连续地必要时加权的平均值、中值、最大值、最小值和/或其他组合。以这种方式,可以至少部分地补偿状态数据和/或控制动作数据的随机或异常波动,所述波动否则可能使识别因果相互关系变得困难。
19.可以优选地使用不同的聚合时间窗,并且可以特定地针对相应的聚合时间窗确定相关值。据此可以确定和使用关于相关值优化的聚合时间窗。
20.根据本发明的另一有利实施方式,在训练控制装置时可以抑制或丢弃位于所得出的时间窗之外的训练数据。可替代地或附加地,位于所得出的时间窗之外的训练数据在训练时可以比所提取的训练数据较小被加权。
21.下面根据附图更详细地阐述本发明的实施例。在此分别以示意图:图1示出具有根据本发明的控制装置的燃气轮机,图2示出处于训练阶段中的根据本发明的控制装置,和图3示出具有相对于时间绘制的训练数据的图表。
22.图1示例性地图解作为技术系统ts的燃气轮机。可替代地或附加地,技术系统ts也可以包括风力涡轮机、太阳能动力设备、发电站、内燃机、机器人、加工设备、机动车辆、交通管制系统、用于建筑物的能量控制装置、能量输送网络、3d打印机或其他机器。
23.燃气轮机ts与以计算机辅助方式可训练的控制装置ctl耦合,所述控制装置可以实施为燃气轮机ts的一部分或完全或部分地实施在燃气轮机ts外部。控制装置ctl用于控制技术系统ts并且可以为此目的借助于机器学习方法被训练。在此情况下技术系统ts的控制也应该被理解为技术系统ts的调节以及与控制相关的、即有助于控制技术系统ts的数据和控制信号的输出和使用。
24.这种与控制相关的数据尤其是可以包括控制动作数据、预测数据、监控数据和/或分类数据,所述数据尤其是可以被用于优化运行、监控或维护技术系统ts和/或用于识别磨损或损坏。
25.燃气轮机ts此外拥有与控制装置ctl耦合的传感器s,所述传感器连续地测量技术系统ts的一个或多个运行参数并且将所述运行参数以运行数据bd的形式传送给控制装置ctl。除了传感器数据之外,还可以通过控制装置ctl从技术系统ts的其他数据源或从外部数据源采集其他运行参数。
26.在这里和在下面尤其是物理的、调节技术的、效果技术的(wirkungstechnische)和/或结构方式决定的运行参量、特性数据、性能数据、效果数据、状态数据、系统数据、预设值、控制数据、传感器数据、测量值、环境数据、监控数据、预测数据、分析数据和/或在技术系统ts的运行中出现的和/或描述技术系统ts的运行状态或控制动作的其他数据可以被理解为运行数据bd。这例如可以是关于技术系统ts的温度、压力、排放、振动、振荡状态或资源消耗的数据。特别在燃气轮机的情况下,运行数据bd可以涉及涡轮机功率、旋转速度、振动频率或振动幅度。运行数据bd可以是标量的、向量值的或张量值的并且尤其是高维的。
27.图2以示意图示出处于训练阶段中的根据本发明的控制装置ctl,通过所述训练阶段配置控制装置ctl用于以优化方式控制技术系统ts。控制装置ctl耦合到技术系统ts上。
28.控制装置ctl以及技术系统ts可以如结合图1所描述的那样被设计或实施。控制装置ctl拥有一个或多个用于执行控制装置ctl的所有方法步骤的处理器proc以及拥有一个或多个用于存储由控制装置ctl要处理的数据的存储器mem,所述存储器与处理器proc耦合。
29.不仅包括状态数据而且包括控制动作数据的运行数据的时间序列由技术系统ts以感测方式被采集并且作为训练数据td(t)被传送给控制装置ctl。在这里和在下面,t表示相应参量的时间依赖性或所述相应参量与相应时间点t的关联。
30.在本实施例中,训练数据td(t)的时间顺序源自技术系统ts。一般而言,同时可以使用技术系统ts或相似技术系统的为了训练可使用的任意历史的、当前的和/或经模拟的运行数据作为训练数据。
31.训练数据td(t)尤其是包含状态数据sd(t)的时间序列以及控制动作数据ad(t)的
时间序列。在此情况下,状态数据sd(t)指定技术系统ts的运行状态,而控制动作数据ad(t)指定在技术系统ts处执行的控制动作。运行状态例如可以涉及技术系统ts的功率、转速、温度、压力、振荡状态和/或排放。
32.控制装置ctl拥有以数据驱动的方式可训练的计算模块nn,所述计算模块实施机器学习方法。在本实施例中,可训练的计算模块nn拥有人工神经网络,借助于所述人工神经网络实施通常也称为reinforcement-learning(强化学习)的强化学习方法。这样的可训练的计算模块或相应地经训练的控制装置经常也被称为可训练或学习策略代理或控制模型。计算模块nn的神经网络具有在训练期间形成的训练结构。
33.训练通常应该被理解为优化参数化系统模型(例如神经网络)的输入参数到一个或多个输出参数上的映射。该映射在训练阶段期间根据预先给定的、已学习的和/或要学习的准则被优化。例如在控制模型的情况下,控制动作的成功可以被用作准则,所述成功例如可以涉及收益、资源需求、有害物质排出、磨损或量化技术系统的性能的其他参数。训练结构可以例如包括神经网络的神经元的联网结构和/或神经元之间的连接的权重,其(die)通过训练被构造为使得尽可能好地满足准则。
34.在本实施例中,借助于强化学习方法训练计算模块nn,以便以优化方式控制技术系统ts。在此,计算模块nn被训练,以便根据作为输入参数所输送的技术系统ts的运行数据输出经优化的控制动作数据oad作为输出参数,所述输出参数(在应用于技术系统ts上时)优化目标函数rf。大量已知的标准例程可用于这种学习方法。
35.目标函数rf从所输送的运行数据中计算性能参数pp,所述性能参数可以通过所提到的学习方法被优化。为此目的,性能参数pp的通过目标函数rf计算的值被输送给计算模块nn,如图2中通过虚线箭头表明的。从而,神经网络的训练结构借助于学习方法被适配为使得神经网络的输出参数oad优化性能参数pp。
36.技术系统ts的期望的行为通过性能参数pp被量化。从而,作为性能参数pp例如可以使用技术系统ts或其一部分的收益、产量、效率、有害物质排出、磨损和资源消耗的可能加权的组合或与技术系统ts的性能有关的其他参数。通过优化性能参数pp,计算模块nn被训练以输出经优化的控制动作数据oad,并且控制装置ctl因此被配置用于以优化方式控制技术系统ts。
37.用于计算性能参数(在这里为pp)的目标函数(在这里为rf)经常也被称为报酬函数或成本函数。性能参数优选地说明长期的、累积的和/或打折扣的增益或总报酬。
38.包含到目标函数rf中的运行数据经常也被称为目标数据,并且通常是包含在运行数据中的技术系统ts的状态数据的一部分。为了从技术系统ts的目标数据中计算性能参数,大量方法是已知的。
39.证明的是,计算模块nn的训练成功显著地与训练数据td的质量有关。在这个意义上,根据本发明应该力求找到以及提取对于训练或训练成功特别有用的那些训练数据。
40.为了选择和提取这些促进训练的训练数据,控制装置ctl包含过滤器f,训练数据td(t)被传送给所述过滤器f。过滤器f用于以下目的,即标识优选地包含促进训练的训练数据的时间区间或时间窗,并且特定地提取或滤出这些促进训练的训练数据。
41.证明的是,包含关于控制干预对技术系统ts的状态的影响的信息的那些训练数据特别是促进训练的。通过将学习方法集中于这种训练数据,通常可以显著更快速并且更高
效地学习在控制干预和其影响之间的相互关系。因此证明有利的是,标识应用控制动作的那些时间窗或变换,也即其中控制动作在时间上发生变化。
42.为了确定控制动作的时间变化,过滤器f包括变化检测器dd,控制动作数据ad(t)的时间序列被传送给所述变化检测器。为此,通过过滤器f特定地从训练数据td(t)中提取控制动作数据ad(t)。
43.为了检测控制动作数据ad(t)的时间变化,变化检测器dd连续地确定变化量度d。所述变化量度例如可以被计算为相继的控制动作数据的差的数值或被计算为这种差的平方。在具有多个动作分量的控制动作数据ad(t)的情况下,可以相应地将相继的控制动作向量的多维欧几里得或加权距离确定为变化量度d。尤其是,控制动作数据ad(t)可以通过聚合时间窗被聚合以确定所述控制动作数据的时间变化。例如,通过连续地构成滑动(gleitenden)平均值。然后可以例如通过控制动作数据的相继的平均值的差的数值或平方来确定变化量度d。以这种方式,可以至少部分地补偿控制动作数据ad(t)的异常或随机波动。
44.变化检测器dd将连续地确定的变化量度d与预先给定的或以其他方式确定的阈值th进行比较,并且由于超过该阈值th而确定出控制动作数据ad(t)的时间变化。在多分量控制动作数据的情况下,可以相应地设置特定于分量的阈值。可替代地或附加地,变化检测器dd可以在控制动作数据ad(t)的序列中搜寻预先给定的或以其他方式确定的变化模式,并且由于该变化模式的出现而确定出控制动作数据ad(t)的时间变化。
45.由于确定出相应的变化,而确定控制动作数据ad(t)的序列中的相应的变化点。在本实施例中,将相应的变化时间点ts确定为相应的变化点,在所述相应的变化时间点处,通过相应的变化量度d超过阈值th。
46.所确定的变化时间点ts从变化检测器dd被传送给过滤器f的选择模块sel。训练数据td(t)、即控制动作数据ad(t)以及状态数据sd(t)也被传送给该选择模块sel。
47.根据变化时间点ts,选择模块sel分别特定地选择并且提取控制动作数据ad(t)中的在相应的变化时间点ts处或在相应的变化时间点ts左右存在的那些控制动作数据。这些控制动作数据在下面也被简称为ad(ts)。
48.过滤器f此外拥有用于生成大量时间窗tf的时间窗生成器gen。尤其是,这些时间窗可以分别由一个或多个时间区间指定。所述时间区间分别可以通过起始时间和结束时间或通过时间点和区间长度来量化。在此,时间区间可以绝对地或相对于变化时间点或相对于另一事件被说明。在本实施例中,时间窗相对于相应的变化时间点ts被定义。
49.所生成的时间窗tf从时间窗生成器gen被传送到选择模块sel。根据所传送的时间窗tf,选择模块sel分别特定地选择和提取状态数据sd(t)中的相对于相应的变化时间点ts位于该时间窗tf内的那些状态数据。对于具有相对于变化时间点ts说明的起始时间dl和区间长度l的时间窗tf=[dl, dl l],所提取的状态数据例如可以由集合或者一般作为给出。相对起始时间dl在这里可以在一定程度上被解释为相对于变化时间点ts的延迟时间。针对相应的变化时间点ts和相应的时间窗tf提取的状态数据在下面也被简称为。
[0050]
所提取的控制动作数据ad(ts)与所提取的状态数据sd(ts tf)一起从选择模块sel
被传送到过滤器f的相关模块cor。根据所提取的控制动作数据ad(ts),通过相关模块cor量化控制动作数据ad(t)在相应的变化时间点ts处或在相应的变化时间点ts左右的时间变化。这可以例如通过按照。这可以例如通过按照形成差来进行,其中1是预先给定的小持续时间。只要通过聚合时间窗聚合控制动作数据ad(t)以确定其时间变化,则可以通过在控制动作数据的相继的聚合值之间形成差以类似的方式确定所述控制动作数据的时间变化。在多分量控制动作数据ad(t)的情况下,可以相应地分别如上面描述的那样量化多个变化分量。
[0051]
此外,通过相关模块cor根据所提取的状态数据在相应的时间窗tf内的量化其时间变化。这可以例如通过按照形成差来进行。只要通过聚合时间窗聚合状态数据sd(t)以确定其时间变化,则可以通过在状态数据的相继的聚合值之间形成差以类似的方式确定所述状态数据的时间变化。在多分量状态数据sd(t)的情况下,可以相应地分别如上面描述的那样量化多个变化分量。
[0052]
根据图3进一步图解相应的时间窗tf的应用。图3示出其中相对于时间点t绘制训练数据td(t)的序列的图表。训练数据td(t)包括在图表的下面部分中图解的状态数据sd(t)和在上面部分中图解的控制动作数据ad(t)。为了清楚起见,仅分别以大大简化的方式示出单个值的变化过程。
[0053]
控制动作数据ad(t)的时间序列示出多个时间变化。对于本实施例应该假设,所确定的变化量度d在所示的时间区间内仅在变化时间点ts处超过阈值th。因此,控制动作数据ad(t)的时间变化

ad在该时间区间中仅在变化时间点ts处或在变化时间点ts左右被确定。因此,在相对于变化时间点ts定义的时间窗tf内确定状态数据sd(t)的时间变化

sd。在此,时间窗tf的开始与所确定的变化时间点ts相比偏移延迟时间dl。时间窗tf的结束相应地由其长度l定义。
[0054]
再次根据图2图解根据本发明的方法的进一步流程。
[0055]
根据本发明,通过相关模块cor针对大量不同的时间窗tf将控制动作数据的时间变化

ad与状态数据在相应的时间窗tf中的时间变化

sd相关。分别在大量所检测的变化时间点ts上构成相关性。为此,例如可以利用数值标准方法计算相关和、相关积分和/或相关系数,以便获得数值相关值。
[0056]
在本实施例中,从而针对时间窗tf中的每一个确定特定于该时间窗tf的相关值cc(tf)。相关值cc(tf)从相关模块cor被传输到过滤器f的优化模块opt。此外,时间窗tf也从时间窗生成器gen被传送到优化模块opt。
[0057]
优化模块opt借助于比较器cmp比较针对不同的时间窗tf确定的相关值cc(tf),并且从而确定时间窗tf中的其中状态数据中的时间变化

sd与控制动作数据的时间变化

ad具有高或最高相关性或高或最高反相关性的一个或多个时间窗。此外,通过优化模块opt根据相关值cc(tf)有针对性地改变时间窗tf的参数,以便找到关于相关值cc(tf)优化的时间窗。时间窗生成器gen优选地通过优化模块opt被控制为使得所生成的时间窗tf的相应的相关值cc(tf)被优化。为此目的,可以优选地使用粒子群优化、梯度下降方法和/或遗传优化方法。
[0058]
如果控制动作数据ad(t)和/或状态数据sd(t)通过聚合时间窗被聚合,则相应的
聚合时间窗的长度或位置同样可以通过优化模块opt被优化,以便确定关于相关值cc(tf)优化的聚合时间窗并且在进一步的方法中使用。
[0059]
根据相关性优化时间窗,通过优化模块opt确定一个或多个所得出的时间窗rtf,在所述一个或多个所得出的时间窗中状态数据的时间变化

sd特别强烈地与控制动作数据的时间变化

ad相关。所得出的时间窗rtf尤其是可以通过不同的时间窗tf的平均、联合和/或其他尤其是加权的组合被确定。尤其是,可以使用特定于动作分量的和/或特定于状态分量的权重用于加权。以这种方式,可以确定所得出的时间窗rtf,所述时间窗的状态数据sd(ts rtf)对于所有动作分量和/或状态分量或至少对于大多数动作分量和/或状态分量强烈相关。所得出的时间窗rtf通过优化模块opt被传送到选择模块sel。
[0060]
根据所得出的时间窗rtf,选择模块sel特定地选择并且提取训练数据td(t)中的位于该所得出的时间窗rtf内的那些训练数据。位于所得出的时间窗rtf内的这些训练数据在下面被称为所提取或所过滤的训练数据ftd。对于具有起始时间t1和结束时间t2的所得出的时间窗,所提取的训练数据例如可以通过或通常作为给出。
[0061]
以特定于时间窗的方式选择和过滤的训练数据ftd从选择模块sel或从过滤器f被传送到计算模块nn。此外,所过滤的训练数据ftd被输送给目标函数rf,所述目标函数rf从包含在所提取的训练数据ftd中的运行数据中并且尤其是从其中所包含的状态数据中计算性能参数pp。根据所提取的训练数据ftd以及所计算的性能参数pp,计算模块nn的神经网络如上已经表明的那样被训练为使得控制动作数据oad被输出,所述控制动作数据(在应用于技术系统ts是时)优化性能参数pp。
[0062]
在本实施例中,不将位于所得出的时间窗rtf之外的训练数据输送给计算模块nn,并且因此仅仅根据所提取的训练数据ftd训练神经网络。如上已经提及的那样,替代于或附加于神经网络,尤其是可以在计算模块nn中实施强化学习方法。
[0063]
可替代地,也可以将位于所得出的时间窗rtf之外的训练数据输送给计算模块nn。在这种情况下,可以至少优选地或主要地根据所过滤的训练数据ftd来训练计算模块nn。因此,在训练时,所过滤的训练数据ftd可以比位于所得出的时间窗rtf之外的训练数据更强地被加权,或者位于所得出的时间窗rtf之外的训练数据可以被减少、稀释和/或部分地被丢弃。
[0064]
优选地,可以通过过滤器f对连续地并且当前采集的训练数据td(t)连续地进行过滤,并且可以在正在进行中的运行中根据所过滤的训练数据ftd继续训练控制装置ctl。
[0065]
通过对神经网络并且因此计算模块nn进行训练,对控制装置ctl进行配置用于以优化方式控制技术系统ts。在控制时,控制装置ctl应用通过训练学习的控制策略,即将当前系统状态映射到关于目标函数rf最优的控制动作或控制动作数据oad上。
[0066]
通过特定地对训练数据进行过滤,计算模块nn通过特别促进训练的训练数据被训练。这些所选择的训练数据ftd包含控制干预与其对技术系统ts的系统状态的影响之间的特别多的相关性,并且因此对于所述技术系统的控制特别有代表性。通过特定地选择训练数据可以有效地避免冗余的、不太相关的或不太重要的信息干扰或延迟学习过程。表明的是,通过根据本发明对训练数据的过滤可以显著改善训练成功或显著减少训练耗费。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献