借助于变换器网络将数据集压缩为函数项的制作方法

2023-02-10 18:53:26 来源：中国专利 TAG：

1.本发明涉及将特别是测量数据的输入变量向量分别分配给输出变量值的数据集压缩成函数项，所述函数项对输入变量和输出变量之间的包含在数据集中的关系进行建模。

背景技术：

2.在许多应用中，都会出现一个问题，即技术系统的预给定输出变量以何种方式取决于预给定的输入变量集。从而例如对于发动机而言期望说明扭矩在多大程度上取决于角速度、负载、滑动和其他参数。对于简单的应用存在分析模型。在没有分析模型的更复杂应用中，可以使用测量技术在数据集中检测输入变量和输出变量。然后存在多种可能性将该数据集压缩为有意义的描述。例如，参数化模型可以通过优化其参数来拟合该数据集。然而，也可以例如使用符号回归来寻找数学函数空间，以找到正确描述输入变量和输出变量之间关系的函数。

技术实现要素：

3.在本发明的范围内开发了一种用于将数据集压缩为函数项的方法，所述数据集将大量输入变量向量xi，i＝1，...，n分别分配给输出变量值yi。函数项的这种确定也称为符号回归。下面，术语“压缩”和“符号回归”作为同义词使用。
4.在这种方法中，使用构造为变换器网络的神经网络对来自给定字母表a的一个或多个基本函数表达式进行采样。将这些基本函数表达式组合为一个或多个候选函数项。
5.变换器网络特别是例如理解为一种神经网络，其中在至少一层中定义或至少允许所有输入变量之间的相互依赖性。将这种层称为“注意力层”。由此特别是例如将变换器网络与卷积网络（convolutional network）区分开来，在所述卷积网络中通过应用滤波器核优选地使具有空间和/或时间邻近关系的那些输入变量彼此结算。
6.函数表达式的采样特别是例如理解为，变换器网络为字母a中的各个基本函数表达式产生概率分布，然后从该概率分布中对基本函数表达式进行采样（绘制）。特别地，所述概率分布可以是其中所有基本函数项的概率加起来为1的softmax分布。
7.检查一个或多个候选函数项是否完整。函数项特别是在可以通过为其输入变量使用具体值来评估该函数项并且然后将这些值分配给输出变量值时是完整的。
8.响应于一个或多个候选函数项尚不完整，返回以对另外的基本函数表达式采样。因此，一直对另外的基本函数表达式采样，直到一个或多个候选函数项完整为止。例如，可以首先仅对一个算术运算（例如“ ”）进行采样。然后在函数项完整并且可以得到评估之前，还必须通过另外的采样来开发两个被加数。
9.响应于一个或多个候选函数项4完整，基于每个候选函数项将输入变量xi分别映射为相关联的候选输出变量值yi*。使用预给定度量评估候选输出变量值yi*和来自所述数据集的与所述候选输出变量值对应的输出变量值yi之间的偏差。
10.检查是否满足预给定的终止条件。如果不是这种情况，则更新表征变换器网络行为的参数θ，目标是在重新对函数表达式进行采样并将这些表达式组合为一个或多个完整的候选函数项时获得的评估预计得到改善。此外，然后返回以使用变换器网络对基本函数表达式进行采样。
11.参数θ的更新可以例如通过变换器网络中的反向传播以任何形式或者例如通过强化学习进行。
12.在重新对基本函数表达式进行采样时，最常见的情况是在此重新开始开发另外的候选函数项，即不考虑已经产生的候选函数项。然而，可选地，可以附加地将至少一个候选函数项的一个或多个基本函数表达式及其在该候选函数项中的位置输送给变换器网络。因此，变换器网络可以建立在先前经验之上，其方式是例如修改或补充已经使用的候选函数项。然而，变换器网络并不依赖于此，并且它还可以产生全新的候选函数项，即使向该变换器网络输送这种先前经验，对于所述全新的候选函数项无法识别出与迄今为止的候选函数项的关联。
13.相反，如果满足预给定的终止条件，则将具有最佳评估的候选函数项确定为所寻找的函数项，数据集被压缩为该函数项。所述终止条件可以特别是例如包括阈值或用于评估候选函数项的其他标准。
14.已经认识到，正是变换器网络中存在的注意力层特别使这种网络能够开发候选功能项。注意力层使得可以随时访问完整的候选函数项。
15.候选函数项特别是可以被表示为例如表达式树。在这种表达式树中，一方面运算符或函数形成节点，另一方面操作数形成节点。操作数特别是可以包括在评估候选函数项时被输入变量值占据的变量以及常数。属于运算符或函数的节点将属于由该运算符或该函数处理的操作数的那些节点作为子节点。这种表达式树的开发例如可以首先基本上朝着向深度的方向进展，然后该开发停止并且在表达式树中明显位于更高的其他点处再次开始。为此正好需要变换器网络中的注意力层所提供的基本上随机的访问。与此相比，例如原则上也可用于寻找函数项的长短期记忆lstm与其对基本函数表达式进行采样所采取的顺序更紧密地关联。因此，例如如果表达式树首先朝着深度继续，则以后将继续所述开发的其他点可能已经从在先前采样的基本函数表达式处由lstm保持的时间范围中消失了。
16.在特别有利的设计中，向来自字母表的基本函数表达式以及它们在候选函数项中的位置分别分配数字代码。将至少一个候选函数项转换为由这些数字代码形成的代表。该代表在采样期间被输送给变换器网络，以便能够逐步开发所述候选函数项。通过这种方式，使得变换器网络也能够在语义上正确解释非常深的树结构，并且分别理解哪个公式元素在树中的哪个点实现了哪个函数。例如，涉及基本函数表达式的数字代码可以通过与涉及候选函数项中的位置的数字代码相加或连接来组合。涉及基本函数表达式的数字代码可以在组合之前加以预处理，特别是例如通过嵌入层。利用这样的嵌入层，特别是例如可以将数字代码映射到（嵌入）具有预给定维度的向量空间中。涉及候选函数项中位置的数字代码也可以在与基本函数表达式的数字代码组合之前通过位置编码加以预处理。根据该位置编码，数字代码特别是可以例如对相应基本函数表达式在表达式树中的位置进行编码。
17.因此，所述数字代码特别有利地说明所述基本函数表达式在所述语义表达式树中的位置。
18.存在在所述语义表达式树中分配数字代码的多种可能性。特别有利地，也向树中的未占用位置分配数字代码。这特别是例如意味着，首先将树开发到预给定的最大可能深度，其中在从一个级别变化到下一个级别时每个节点都分支为预给定数量的子节点。然后例如当一个节点在下一个更深级别上具有两个或更多个子节点，但被仅预期唯一自变量的函数（例如正弦或余弦）占用时，位置可以保持未占用，因为每个节点的数字代码仅取决于该节点在树中的位置，而不例如取决于树的其他内容。
19.相反，如果节点是连续编号的，则只需预给定候选函数项的最大长度，而无需预给定树的最大深度。作为回报，变换器网络更难以理解树结构。
20.在另一有利的设计中，所述数字代码包括向量，每个向量针对树的每个级别具有单独的分量。因此，如果树的深度例如为3，则向量具有三个分量。然后，分配给一个级别的每个分量说明在从树根到节点的途中在转变为相应级别时分支到的方向。因此，如果例如从数字代码为(0,0,0)的根节点向左分支到第二级别，则该节点可以获得数字代码(0,-1,0)，并且如果向右分支到第二级别，则该节点可以获得数字代码（0,1,0）。在该方案中，变换器网络可以特别好地识别节点的邻近关系。树的最大深度将被预给定。如果如在本示例那样第一个分量始终为0，则可选地可以省略第一个分量。因此，具有最大深度n的树的节点可以由n-1维向量代表。
21.在特别有利的设计中，优化表征变换器网络的行为的参数θ，目标是改进对多个候选函数项或候选函数项分布平均的评估。特别地，可以使用强化学习，以便尽管采样具有不确定性仍可用于逐步改进。
22.例如，令τ为候选函数项，令xi为输入变量的向量(x1,...,xj)。然后可以例如通过用该候选函数项确定的输出变量值τ(xi)与预给定输出变量值yi的均方偏差确定该候选函数项τ的拟合度ξ：其中σ
y 说明输出量值yi的标准偏差。从拟合度ξ可以定义奖励r(τ)。
23.强化学习的目标是优化变换器网络的参数θ，使得在参数θ的给定状态下候选函数项τ的分布p(τ | θ)上的预期值最大化。这例如可以通过梯度上升方法来实现。由于该项通常不能通过解析确定，因此代替地可以使用所述预期值的无偏估计量：。
24.对于符号回归，这意味着由具有参数θ的变换器网络对m个函数项采样。如果这些函数项仍然包含常数，则可以使用常数优化器对这些函数项进行优化。然后确定这些项的
奖励，并且如所述那样估计梯度以更新变换器网络的参数，使得预期的奖励随时间而最大化。替代地或与此相结合地，例如可以将另外的层添加到变换器网络，借助于所述另外的层可以对常数进行采样。
25.但是，最终目标并不是增加所有函数项的奖励的期望值。相反，感兴趣的是最佳函数项具有高奖励。因此，在另一特别有利的设计中，仅将源自选择最佳评估的候选函数项的偏差用于更新参数θ。例如，可以为奖励设定阈值rε(θ)并且对项进行最大化，这可以通过经由的梯度估计实现。在此是指标函数。
26.例如，petersen等人在“deep symbolic regression: recovering mathematical expressions from data via risk-seeking policy gradients（深度符号回归：通过风险寻求策略梯度从数据中恢复数学表达式）”，arxiv:1912.04871中提供了对应的通用形式体系。
27.在变换器网络的训练中，可以使用诸如熵损失的正则化项来实现项的更高方差。
28.如开头所解释的，输入变量向量xi和/或输出变量值yi特别是可以包括用至少一个传感器记录的测量数据。从而特别是例如可以将大量以高分辨率记录的测量数据压缩为紧凑的函数项。除了单纯的体积压缩之外，这也使得可以获得关于取决于输入变量的输出变量行为的更好的定性知识。从而例如可以从坠塔中的坠落测试结果中推导出众所周知的坠落定律。
29.在另一特别有利的设计中，输出变量yi是第一传感器的测量变量，并且输入变量向量包含另外的传感器的测量变量，从这些测量变量中可以至少近似地确定第一传感器的测量变量。如果可以通过这种方式很好地对第一传感器的测量变量对另外的传感器的测量变量的依赖性建模，则也可以省略该第一传感器。例如，在设备开发过程中，预系列模型可以包含所有传感器，而在进入系列模型的过程中，可以依次省略其测量变量也可以毫无问题地从其他传感器的测量变量中导出的传感器。然后，硬件成本的节省乘以批量生产的件数。
30.一般而言，使用该方法确定的函数项可以用于随后评估另外的测量数据。这对于通常仅具有有限硬件资源的车辆控制设备中的数据评估是特别有利的。因此，在另一特别有利的设计中，将使用至少一个传感器记录的测量数据作为具有所确定的函数项的输入变量向量的分量映射为输出变量值。从这些输出变量值中形成操控信号。使用该操控信号来操控车辆。
31.在另一特别有利的设计中，将可用的基本函数表达式的字母表a限制为在预给定的嵌入式平台上可用于评估所确定的函数项的运算符或函数。然后将预给定的嵌入式平台用于评估所确定的函数项，例如通过安装对应的软件或其他程序。从而例如在市场上可获得特别节能的嵌入式平台，代价是可用的指令集有限。例如存在以下平台，这些平台上只有四种基本计算类型可用，并且可以从表格中检索对数，但不能计算指数函数和三角函数。于
是该方法提供了在有限字母表a的边界条件下最近似输入变量和输出变量之间关系的函数项。
32.在另一特别有利的设计中，将至少一个最佳评估的候选函数项的基本函数表达式及其在该最佳评估的候选函数项中的位置在多个时期输送到所述变换器网络。通过以这种方式存储跨时期的最佳经验，使得所述变换器网络加强了对良好的函数项进行采样。这可以与强化学习中的“经验回放”相媲美。可选地，在此可以修改再次导入的函数项的一部分，其方式是将旧的基本函数表达式替换为新采样的基本函数表达式或向函数项添加新采样的基本函数表达式。由此可以执行探索，目标是找到更好的函数项。
33.采样的函数项仍然可以包含简化潜力。从而sin(x x-x)和sin(x)这两个函数项是相同的，但后一项更简单，因此应被优先选择。因此，有利的是通过变换器网络不仅传播候选函数项而且传播这些候选函数项的可能简化。然后可以在变换器网络中以与其他项完全相同的方式处理这些可能简化。通过这种方式，变换器网络学会了优先选择简单的项。
34.为了在函数项中实现更高的可变性并防止变换器网络的参数优化导致局部极值，可以从关于字母表a中所有基本函数表达式的诸如均匀分布的预给定分布中采样出一定百分比的基本函数表达式。所述百分比可以在优化过程中加以适配。例如，如果奖励在多个时期内平均没有改进，则可以增加所述百分比。这增加了跳出局部极值的机会。相反，如果改进了奖励，则可以降低所述百分比，因为然后网络训练似乎朝着正确的方向发展。
35.特别地，该方法可以完全或部分地由计算机实现。因此，本发明还涉及具有机器可读指令的计算机程序，当所述机器可读指令在一个或多个计算机上执行时，所述机器可读指令促使所述一个或多个计算机执行所描述的方法。从这个意义上说，同样能够执行机器可读指令的车辆的控制设备和技术设备的嵌入式系统也应被视为计算机。
36.本发明还涉及具有计算机程序的机器可读数据载体和/或下载产品。下载产品是可以通过数据网络传输、即可由数据网络的用户下载的数字产品，所述数字产品可以在在线商店中出售以供立即下载。
37.此外，计算机可以配备有所述计算机程序、所述机器可读数据载体或所述下载产品。
38.下面与基于附图对本发明的优选实施例的描述一起更详细地介绍改进本发明的进一步措施。
附图说明
39.图1示出了用于压缩数据集1的方法100的实施例；图2示出了在方法100中使用的变换器网络1的示例性结构；图3示出了以数字代码7a-7d对候选函数项4中的位置3a#-3d#的示例性编码。
具体实施方式
40.图1是用于将数据集2压缩为函数项4*的方法100的实施例的示意性流程图，所述数据集将大量输入变量向量xi，i＝1，...，n分别分配给输出变量值yi。
41.在步骤110中，使用变换器网络1对来自字母表a的一个或多个基本函数表达式进行采样。
42.在此，根据框111，可以将字母表a限制为在预给定的嵌入式平台上可用于评估所确定的函数项4*的运算符或函数。
43.在步骤120中，将基本函数表达式3a-3d组合为一个或多个候选函数项4。
44.根据框112，向来自字母表a的基本函数表达式3a-3d及其在候选函数项4中的位置3a#-3d#分别分配数字代码6a-6d；7a-7d。然后根据框113，可以将至少一个候选函数项4转换为由这些数字代码6a-6d；7a-7d形成的代表8。然后根据框114，可以在采样110期间将代表8输送给变换器网络1，以便也能够在多个采样步骤中开发候选函数项4。
45.在步骤125中，检查一个或多个候选函数项4是否完整。如果不是这种情况（真值0），则在步骤126中返回以对另外的基本函数表达式进行采样110。
46.然而，如果一个或多个候选函数项4是完整的（真值1），则在步骤130中基于每个候选函数项4将输入变量xi分别映射到相关联的候选输出变量值yi*。
47.在步骤140中，使用预给定度量5评估候选输出变量值yi*和来自数据集2的与候选输出变量值对应的输出变量值yi之间的偏差。
48.在步骤180中，检查是否满足预给定的终止条件。如果不是这种情况，则
•
在步骤150中更新表征变换器网络1的行为的参数θ，目标是在重新对函数表达式3a-3d进行采样并将这些表达式组合为一个或多个完整的候选函数项4时获得的评估5a预计得到改善，并且
•
在步骤160中返回以使用变换器网络1对基本函数表达式3a-3d进行采样110。
49.在此，根据框151，优化表征变换器网络1的行为的参数θ，目标是改进对多个候选函数项4或候选函数项4分布平均的评估5a。
50.根据框152，仅分别将源自选择最佳评估的候选函数项4的偏差用于更新参数θ。
51.可选地，可以在步骤170中附加地将至少一个候选函数项4的一个或多个基本函数表达式3a-3d及其在该候选函数项4中的位置3a#-3d#输送给变换器网络1。在此，特别是可以例如将基本函数表达式3a-3d和它们的位置3a#-3d#分别以与最初创建完整候选函数项时相同的方式用数字代码6a-6d；7a-7d编码。
52.根据框174，可以将至少一个最佳评估的候选函数项4的基本函数表达式3a-3d和它们在该最佳评估的候选函数项4中的位置3a#-3d#在多个时期输送给变换器网络1。
53.相反，如果满足终止条件(步骤180中的真值1)，则在步骤190中将具有最佳评估5a的候选函数项4确定为寻找的函数项4*，数据集2被压缩为该寻找的函数项。在此，如果从具有不同复杂度的多个候选函数项4中进行选择，则特别是例如可以优先给定不太复杂的候选函数项4。
54.在步骤210中，将用至少一个传感器记录的测量数据作为具有所确定的函数项4*的输入变量向量xi的分量映射为输出变量值yi。
55.在步骤220中，由这些输出变量值yi形成操控信号220a。
56.在步骤230中，用操控信号220a来操控车辆50。
57.如果根据框111将字母表a限制为在预给定嵌入式平台上可用的运算符或函数，则在步骤240中将该预给定嵌入式平台用于评估所确定的函数项4*。
58.图2示出了变换器网络1的示例性结构及其用于对基本函数表达式3a-3d进行采样的用途。在图2所示的快照中，已经产生了函数项sin(y) -，但该函数项尚不完整。当前正在
寻找减号的第一个操作数。该函数项显示在表达式树9中，其中各个基本函数表达式3a-3d的位置3a#-3d#分别设置有数字代码7a-7d。这些数字代码7a-7d的形成将在图3中更详细地解释。
59.通过预处理层11或12将基本函数表达式3a-3d以及它们的位置3a#-3d#和/或它们的数字代码6a-6d、7a-7d处理成变换器网络1的输入1a。变换器网络1包括两个多头的注意力层13和14，这些注意力层产生输出1b。该输出1b在平均层15中组合，并被处理为基本函数表达式δ的softmax概率分布 p(δ)。从概率分布p(δ)中得出下一个要添加到函数项的基本函数表达式3a-3d。该基本函数表达式在表达式树9中获得具有数字代码5的位置7e。
60.图3示出了为了在表达式树9中显示函数项sin(y) y-c可以如何为基本函数表达式3a-3d的位置3a#-3d#分配数字代码7a-7d的三种不同方式。
61.根据图3a，假设除了先前设定的最深级别中的那些节点之外的所有节点都具有两个子节点。然而，以虚线示出的节点没有被占用，因为正弦函数只预期一个自变量。这个未被占用的节点仍然被计算在内。在该示例中，位置3a#-3d#的数字代码7a-7d仅取决于节点的位置（“先序遍历”）。
62.相反，根据图3b，仅对被占用的节点连续编号（“渐进”）。这里，不必预给定树9的最大深度。为此，数字代码7a-7d在函数项的语义意义方面不大有说服力。
63.根据图3c，为每个节点说明在从树根到节点的途中在转换为相应级别时分支到哪个方向。因此，树根具有向量(0,0,0)作为数字代码，并且所有其余向量的第一个分量也是0，因为树根是在没有分支的情况下出现的。
64.通过向根左侧分支到达的所有节点在其数字代码的第二个分量中获得方向-1。通过向根右侧分支到达的所有节点在其数字代码的第二个分量中获得方向1。对于树的第二级别中的节点而言，第三个分量仍然为0，因为还没有到达第三级别。
65.类似地，当从树的第二级别转换到第三级别时向左侧分支会导致条目-1，而向右侧分支会导致数字代码的第三个分量中的条目1。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

借助于变换器网络将数据集压缩为函数项的制作方法

相关文献

最热文献