用于处理大宽数据的过程控制工具的制作方法

2021-10-20 01:55:00 来源：中国专利 TAG：过程控制用于工具引用操作

用于处理大宽数据的过程控制工具
1.相关申请的交叉引用本技术要求2018年12月14日提交的题为“system and method for selecting important parameters and measurements in wide datasets”的美国临时专利申请第62/780,095号的优先权，其全部内容出于所有目的通过引用全部并入本文。
技术领域
[0002] 本公开大体上涉及用于制造操作的过程控制工具，并且尤其涉及用于在由复杂制造操作所生成的大宽（big and wide）数据结构中发现重要参数的过程控制工具。

背景技术：

[0003]
存在用于解决大数据要求的许多具体用例、最佳分析实践、方法和系统。然而，可用的系统和软件工具将大数据表征为具有大量的逻辑行或具有相对较少的逻辑列或变量的情况（分析单位）。作为具体示例，典型的客户交易数据库可以包含数百万或数亿的客户和交易（“行”和分析单位），其中，每个逻辑行可以仅包含相对少的（例如，几百或几千的）特性或“变量”，诸如最近交易的日期、购买的产品、花费的金额、人口统计信息、和描述特定客户的其他属性等。对于这样的数据，用于分析建模、聚集或预测建模的现有方法被良好地定义并成熟，并且这些方法通常将分析推送到计算节点的集群，其中，行（客户）上的计算可以被并行化以满足针对相应应用的性能要求。
附图说明
[0004]
为了更完整地理解本公开的特征和优点，现在请参考详细描述以及附图，其中，不同附图中的对应数字指代对应部分，并且其中：图1是根据某些示例性实施例的用于管理从自动化制造操作生成的宽大数据的过程控制系统的图示；图2a和图2b是根据某些示例性实施例的用于过程系统的过程控制工具的特征选择、分析和可视化的算法的流程图的图示；图3是根据某些示例性实施例的大宽数据结构变换的图示；以及图4是描绘根据某些示例性实施例的计算机器和系统应用的框图。
具体实施方式
[0005]
虽然下文详细论述本公开的各种实施例的制作和使用，但应当理解，本公开提供了许多可应用的发明概念，其可在各种各样的特定上下文中实施。本文所讨论的具体实施例仅是说明性的，并不限定本公开的范围。为了清楚起见，在本公开中可能没有描述实际实现的所有特征。当然，应当理解，在任何这种实际实施例的开发中，必须做出许多实现特定的决定以实现开发者的特定目标，例如符合系统相关和商业相关的约束，这将因实现的不同而不同。此外，应当理解，这种开发努力可能是复杂且耗时的，但是对于受益于本公开的
本领域普通技术人员而言将是常规任务。
[0006]
数据结构通过许多列和行来表征，并且它们通常包含极大量的列和相对少的行，尽管通常也有数百万行。这种大宽数据结构实际上确实跨各种领域以增加的频率出现，而尤其是在其中工具和过程被非常好地装备的半导体制造中。通常，可以按批次、晶片和管芯来对准几百万个参数，从而在所有处理步骤之上详细描述制造过程。通常，在自动化制造中，可以存在由设施、机器或工具以及传感器索引的数千个传感器和（例如，电气）测试数据参数。此外，传感器可以记录运行期间的过程条件的时空映射；当将这种测量结果编码到针对每个传感器的变量（列）中时，数据的维度或宽度进一步增大。这些类型的记录为每个逻辑行（例如批次/晶片）创建了大量的时间序列，从而进一步波动地增大了数据的维度或宽度。时间序列数据可以被聚合为跨所有行的固定数量的经过时间区间（interval），并且聚合测量结果可作为预测因子变量被附加到后续分析。针对数百个时间序列而执行的该数据准备步骤可附加大量的预测因子变量，从而进一步增大数据的维度或宽度。
[0007] 除了大量变量的问题之外，描述半导体制造过程的数据通常涉及具有许多独特标签的离散测量结果。例如，许多晶片被移动通过涉及特定工具的大量处理步骤。当大量独特工具（具有独特工具标签）处理每个单独批次时，所得数据将记录在大量处理步骤中的每一个处施加的相应特定离散标签。由于在每个处理步骤处使用了数百个工具（标签），所以必须解决这些离散变量中的高基数（high cardinality）问题。高基数数据问题与宽大数据问题有关，因为离散数据通常被重新编码到多个指示符列中（例如，经由一个热或虚变量编码），从而进一步附加到数据中的通常已经大量的变量中。
[0008]
许多应用的要求是执行有用的根本原因分析、预测建模、风险建模、故障标识和分类以及产量预报等，其中，必须针对由可能数百万个变量表征的大宽数据来应用分析。在此上下文中的术语“建模”是指分析目标和方法，诸如：（1）出于构建一些重要结果的预测模型（例如，用于可靠性分析、产量预测或根本原因分析）的目的的监督学习：（2）出于标识大数据的行和/或列中的结构（例如，如由时间序列数据的连续块定义的行的聚集、变量的聚集、状态的聚集）的目的的无监督学习；和/或（3）异常检测（例如，相对于由大多数数据定义的“正常”模式，在一些、大多数或所有测量变量上的不寻常模式的检测）。
[0009]
这些分析通常要求建模流水线的开发，即，被布置到这样的处理步骤的流水线中的顺序处理步骤，以便对相应的分析问题进行准备、分析和报告。这里的具体问题是，更难以用数百万列来并行化用于这种数据的建模流水线。将数据从现场存储位置移动到远程分析计算环境或将整个数据集装入存储器以供计算是不切实际或不可能的。目前，没有可以令人满意地和高效地解决与大宽数据相关联的分析挑战的可用的普遍接受或立即可用的方法或系统。此外，被设计成处理大数据的任何现有解决方案完全缺乏执行实时或接近实时所需的建模和分析以有效地解决复杂制造场景中的操作问题的能力，在该复杂制造场景中，制造过程中的异常的延时检测会导致产品的损失以及时间因而金钱的损失。
[0010]
本文呈现的系统解决了上述问题，并且包括在分布式处理环境中工作以按顺序和/或异步地高效执行分析的两个组件、以及提供对数据的实时或接近实时访问的第三可视化组件。在一个实施例中，两个组件中的第一组件靠近过程数据工作，并且在过程数据被缩减到较小尺寸之后，数据可以被移动到第二组件，在该第二组件处，可以在更高效的存储器内环境中处理数据。即，在本实施例中，第一组件进行数据附近的预测因子的初始特征选
择；第二组件采用所选预测因子的子集并使用高效的存储器内（或单个专用计算环境内计算）执行附加处理（即，更密集的处理）。
[0011] 第一组件是多节点并行数据处理系统，例如apache hadoop
®
或apache spark
tm
，其中，执行初始数据准备、特征选择、特征工程和其他数据聚合、缩放和其他操作，以将大宽数据变换成可被更高效地处理和过滤的堆叠结构。然而，应当理解，堆叠数据是仅在需要时执行的可选步骤。结果可以被旋转（pivot）成宽数据集以用于后续处理。该组件可以受益于可用于并行化和优化的数据库内（即，集群内）数据处理的技术，诸如通过tibco spotfire
®
数据科学。然后，这些步骤之后是最终模型构建和在专用分析服务器上的进一步模型细化，其中，这样的计算可以在存储器内快速地执行，并且利用现在不再是大数据的数据来执行。针对这种现在不再是大数据的并行化数据库内计算布置的计算开销将使得这种计算低效，而排序数据库内大数据操作之后是服务器上计算使得能够在两个系统上针对连续操作实现高效的连续计算。结果，例如，当在半导体制造商处支持根本原因分析时，（一个或多个）应用可以在其大数据平台上针对（通常是几拍字节的）数据连续地执行数据准备和特征选择/提取，同时将结果的最终计算切换到专用计算服务器和可视化平台以用于结果的最终消费。第三组件是诸如tibco spotfire
®
的视觉探索平台，其使得用户能够交互地探索最终结果，并且由此基于对具有可能数百万输入变量的大宽数据结构的分析来提取感兴趣的信息。因此，所提出的系统在分配特定计算负载（其中，它们最适合执行）方面是高效的。
[0012]
该系统全面地描述了用于管理同样大的宽数据的高效且有效的计算机系统。大宽数据要求某些或大部分计算靠近数据（即，数据库内）并且以最少的数据移动来执行。专门执行数据库内所有计算的标准方法和算法是不切实际的，因为它们通常是针对大量行而不是列来优化的。因此，该系统组合了数据库内并且使用并行化计算而执行的特定分析步骤，以选择对于特定分析和分析目标以及如前所述的用例是重要的变量子集。然后，可以在专用分析服务器上以非常快的方式处理所选择的变量子集。
[0013]
本文呈现的系统描述了特定分析方法、工作流和计算架构，其解决大宽数据问题以及与分析非常高维数据或具有非常高基数的离散变量（例如，具有数千个不同类别）的数据相关联的独特问题，以便满足针对过程监视和异常检测、预测分析和故障分类以及（自动化）根本原因分析的要求。该系统被设计为解决关于包括半导体制造的自动化制造应用的特定问题，并且实现灵活且高度交互性和视觉分析环境。该通用方法还在其中出现类似的大宽数据和分析问题的许多其他领域中具有适用性。
[0014]
现在参考图1，示出了根据某些示例性实施例的用于管理从自动化制造操作生成的宽大数据的过程控制系统，其总体上被表示为10。系统10包括过程控制工具20，其用于处理从自动化制造操作40接收的来自至少一个复杂制造应用42a
‑
42n（例如半导体制造应用）的数据。过程控制工具20包括多级数据处理、变换和分析系统，以实时或接近实时地呈现可视化，这对于管理来自这些复杂制造操作的产品产量的人员来说可以具有显著的益处。过程控制工具20包括计算集群（多节点数据库内系统）22、分析服务器24和可视化服务器26，其用于执行诸如数据准备、特征选择、多节点数据库内计算、模型构建、特征选择的递归应用、和参数排名之类的任务，以便从非常大的过程数据集生成关键过程指示符，以用于关键过程指示符的可视化。在一个实施例中，分析服务器24可以是专用于执行本文定义的功能的分析服务器。
[0015] 现在参考图2a和2b，示出了根据某些示例性实施例的过程控制工具20的特征选择、分析和可视化算法的流程图，其总体上表示为60。特征选择算法可以使用针对对数据的数据库内并行化执行而特别优化的多个算法。这种算法的示例包括spark chi
‑
square选择器算法、提升树算法、袋装树算法（随机森林）和变量乘变量断点（分段）回归算法。在这些计算中可以应用特定的分析算法，以确保所需计算的数值稳定性，例如通过在均值、标准偏差和更高矩的计算期间使用中心常数。分析和可视化算法包括使用至少一个专用分析服务器来执行的进一步的特征选择和模型构建、特征选择和参数排名流水线的递归应用、以及结果的可视化。
[0016]
图2a描述了特征选择算法，并从框62和64开始，其中，经由多节点、多模计算集群22为数据库内计算准备了接收的过程数据（参见用于过程观察值和测量数据90的图3）。在该步骤中，存储在例如hadoop
®
中的宽大数据可被访问以用于进一步的处理。可以逻辑地布置处理数据，以用于高效的后续并行化的数据库内处理。参见图3，数据可以被堆叠，使得数据的每个逻辑行经由测量id（过程观察id）、行id和实际测量（过程观察）来描述（索引）一个数据点（测量结果）。变换使得能够在多模计算集群22（即，用于执行数据库内计算的计算集群22）中高效地并行化特征选择方法。然而，数据仅在需要时才被堆叠。
[0017]
为了在处理极宽的数据集或宽大的数据集时实现所需的性能，数据访问和数据的正确结构化是重要的。例如，通过以宽的非堆叠数据格式的逻辑行来组织数据是低效的，其中，每行表示分析单元（例如晶片），并且其中，列表示特征或变量（例如晶片上的测量结果、与晶片制造相关联的传感器迹线）。对于其中缺乏对实时或接近实时的过程数据的访问可能会严重影响操作的复杂制造操作，这可能是严重且昂贵的问题。
[0018] 在框66、68、70和72，可以使用冲击编码（impact
‑
coding）方法来自动标识和编码分类（离散、编码）的过程输入变量。实质上，离散变量被转换成连续预测因子。连续预测因子变量不是默认地变换的，但是用户可以选择通过应用一个或多个数值变换来导出新的预测因子变量，诸如平方根变换、对数变换等。可以使用n. zumel的2012年7月23日的win
‑
vector博客“modeling trick: impact coding of categorical variables with many levels.”中描述的冲击编码方法来将离散预测因子变换成连续预测因子。然而，zumel中没有教导的是本公开中描述的实现，其中，将用于每个离散预测因子变量的数据随机地分成两个随机样本。然后，分别针对每个样本，在离散预测因子变量中针对每个类别来计算平均值（对于连续结果）或平均频率（对于类别结果）。然后，用从另一个样本中的数据所计算的平均值来代替两个随机样本中的每一个中的离散码，从而将离散预测因子变量的所有行重新编码为连续值。结果，所有离散变量可以在后续步骤中被视为连续预测因子变量。此外，冲击编码方法使用交叉验证技术将这样的输入变量转换成单列排名的数据。
[0019] 另外，可以标识时间序列输入过程数据，并使用公共聚合函数将其转换为固定数量的区间。例如，sax样式编码方法可用于为固定数量的时间区间（即，用于每个序列的相同数量的区间）创建聚合值。用于时间序列数据（波形）的sax样式编码：符号聚合近似或sax编码方法已经被证明是一种在许多应用中大规模地比较时间序列模式（波形）的有效技术。参见例如2007年数据挖掘和知识发现第15，2卷，第107
‑
144页，由j. lin，e. keogh，l. wei和s. lonardi发表的“experiencing sax: a novel symbolic representation of time series.”。即使当不同的时间序列包含具有微小时移的模式（表示在稍微不同的经过时间
处发生的相同模式）时，这也是成立的，使得不必应用用于协调时间序列的计算上昂贵的方法，诸如动态时间扭曲（dtw）算法。dtw也可被用于sax编码的基于时间区间的值，以实现序列之间的更好的对准。简言之，sax编码可转换时间序列中的连续观察值，这是通过（a）将值聚合到特定的固定数量的时间区间、以及（b）将时间区间中的时间序列值典型地聚合到字母或整数中或聚合到诸如但不限于每个区间中的最大或最小值的其他聚集值中，以将相应的平均值表示为时间序列值范围上的时间序列标准偏差的倍数。此外，用于从时间序列中提取数字向量的其他常见和新兴技术可应用于时间序列数据，以便将时间序列数据与其他离散或连续输入变量对准。
[0020]
这些计算的结果是宽数据中的每个变量的变量重要性（预测因子）值的列表，即，根据关于特定分析问题（聚集或无监督学习；预测或监督学习和根本原因分析）的重要性按变量的顺序排名的列表。也就是说，结果包括对预测因子值与结果之间的关系或相关性的强度进行测量的统计数据。
[0021]
图2a的特征选择算法包括通过计算每个输入和输出之间的简单线性r平方值（相关性）或通过计算每个输入和输出之间的关联（关系）的更一般统计数据来确定变量重要性的不同方法。前一种方法更快，但是可能无法捕获连续变量之间的高度非线性关系。第二种方法基于鲁棒（对于异常值）卡方统计，其针对双向频率表而计算，该双向频率表从针对每个预测因子的装仓值以及装仓或离散输出变量来构建；这种方法在计算上更昂贵，但通常更有用以便检测非线性和非单调关系。
[0022] 算法可以通过预测因子变量执行一阶搜索；它们将不会在其对结果的影响中特别地搜索预测因子之间的交互。实际上，通常的情况是，除了相应预测因子的主要影响之外还存在交互影响，并且在这种情况下，例如基于随机森林算法显式搜索交互影响的后续建模和特征选择可以标识它们。参见2009年机器学习研究杂志第10卷第1341
‑
1366页由e. tuv，a. borisov，g.runger和k. torkkola发表的“feature selection with ensembles, artificial variables, and redundancy elimination.”。此外，在半导体制造中的许多实际应用中，标识被标识为重要的单独预测因子（例如，特定传感器）的特定组通常会提供关于根本原因和/或必要的预防性维护步骤的最多诊断信息。
[0023]
另外，基于这些统计数据对预测因子变量进行排序，并将其向下过滤为预测因子变量的子集。提取数据以创建子集的变量的数量可以由系统的用户来控制，或者基于在先前框中计算的整体重要性值而自动确定（对于全自动操作）。作为使用靠近数据的高效并行计算环境（例如spark
tm
）对宽大数据执行的分析的结果，标识了“重要”预测因子的子集，即，关于感兴趣结果是诊断性的预测因子。例如，分析可以从数百万个预测因子和传感器波数据中标识出在正常和异常晶片或特定故障模式之间区分的那些特定预测因子和传感器迹线。一旦已经标识了这样的重要变量的更小子集，就可以在专用分析服务器中执行进一步的分析和建模。此外，那些计算可以关于在数据库内并行化计算环境中执行的计算而异步地发生，使得数据库内计算可以被应用于新到达的数据，而第二存储器内分析阶段同时进行。
[0024]
所得的变量数据集（即包括子集的排序列表）被旋转（参见图3），并被传递到分析算法（图2b）。当以这种方式组织数百万的预测因子时，不可能使高效的特征选择（例如相关、分析）并行化。相反，旋转、拆堆数据使得每行数据标识晶片、参数、时间戳（对于时间序
列），并且相应的测量值允许下游的高效得多的并行处理。然而，当预测因子的子集被切换至存储器内快速分析服务器24时，数据被拆堆为行（分析单元）和列（参数）格式，这对于许多机器学习算法是更高效的。
[0025]
在图2b中，分析和可视化算法开始于框74，其中，接收经旋转的变量子集，并提取该子集以供进一步处理。给定针对所选数据子集的数据，一个或多个专用分析服务器然后将在存储器内高效地执行最终计算，以完成预测模型、聚集模型、根本原因分析或异常检测。这些计算可以包括通常应用于这样的（现在不再是大的）数据的各种迭代算法，包括但不限于各种回归算法（例如，逻辑回归）、神经网络、深度学习网络、或包括梯度增大的树和树网的递归划分算法。然后，将包括任何预测概率、值或预测分类、或聚集分配或距离的该模型的结果传递到可视化引擎，以用于显示和由用户进行探索。
[0026]
在框76，标识了需要资源密集计算的数据中的变量和行。在框78，对所标识的变量和行执行操作。另外，如果与重复且频繁地属于特定传感器的若干时间区间相关联的编码值被标识为重要的，例如使用应用于在先前步骤中标识的重要预测因子的列表的基于简单规则的逻辑，则存储器内分析服务器算法可以查询与相应传感器相关联的原始原数据并将它们向下游发送以用于交互式可视化。以这种方式，即使对于非常大的数据集，也可以实现具有响应交互挖掘能力的有意义的波形分类分析。执行例如针对逻辑回归的最大似然估计计算，和/或执行重要变量之间的交互的显式（即算法）搜索。操作在存储器内、虚拟存储器内和多线程计算中的至少一个中执行。操作不是并行化的，并且是完全独立的计算。作为选项，分析算法可以被多次（递归地）应用，直到重要预测因子或参数的合适和期望的子集被标识。在框80，生成了结果的可视化。
[0027]
结果的可视化包括用于呈现对相应分析结果的质量和可靠性以及再现性进行反映的预测分类、预测概率、聚集结果或相关统计数据的方法。例如，类帕累托图表可被用于显示针对最终模型所选择的变量的相对重要性，以及用于任何参数估计、预测值、集群值等的置信区间。另外，可以通过点击类帕累托图表中的任何框来交互地绘制盒须图，以检查变量和/或集群之间的关系的特定性质等，其取决于相应分析的特定分析目标。可以将结果可视化的另一种方式是作为变量的网络，其中，没有被标识为重要的但是与所选择的重要预测因子明显相关（或仅相关）的变量被示出为网络图中的节点，其经由边连接到重要变量。因此，该图揭示了在分析中被标识为重要的预测因子变量中的结构和聚集，即使这些变量由于它们是冗余的而被排除在重要变量的最终列表之外。
[0028]
对生产规模hadoop
®
集群和spark
tm
计算环境的速度改进证明了本文描述的系统架构和算法使得能够利用数百万的预测因子变量对非常宽的逻辑数据集进行高效分析，从而在传统方法和分析工具完全失败或者在能够导出有用的洞察之前需要数小时（如果不是数天的话）时在数分钟内返回结果。
[0029]
现在参考图4，示出了根据示例性实施例的计算机器100和系统应用模块200。计算机器100可以对应于本文所呈现的各种计算机、移动设备、膝上型计算机、服务器、嵌入式系统或计算系统中的任何一个。模块200可以包括一个或多个硬件或软件元件，例如，其他os应用以及用户和内核空间应用，其被设计成促进计算机器100执行本文所呈现的各种方法和处理功能。计算机器100可以包括各种内部或附接组件，诸如处理器110、系统总线120、系统存储器130、存储介质140、输入/输出接口150、以及用于与网络170（例如，回送、局域网、
广域网、蜂窝/gps、蓝牙、wifi和wimax）通信以用于接收制造过程输入的网络接口160、以及用于处理制造过程输入的过程控制器180。
[0030]
计算机器100可以被实现为常规的计算机系统、嵌入式控制器、膝上型电脑、服务器、移动设备、智能电话、可穿戴计算机、定制机器、任何其他硬件平台、或其任何组合或多样性。计算机器100可以是被配置成使用经由数据网络或总线系统而互连的多个计算机器来工作的分布式系统。
[0031]
处理器110可以被设计为执行代码指令，以便执行这里描述的操作和功能、管理请求流和地址映射、以及执行计算和生成命令。处理器110可以被配置成监视和控制计算机器中的组件的操作。处理器110可以是通用处理器、处理器核、多处理器、可重新配置处理器、微控制器、数字信号处理器（“dsp”）、专用集成电路（“asic”）、控制器、状态机、选通逻辑、离散硬件组件、任何其他处理单元、或其任何组合或多样性。处理器110可以是单个处理单元、多个处理单元、单个处理核、多个处理核、专用处理核、协处理器、或其任何组合。根据某些实施例，处理器110连同计算机器100的其他组件可以是在一个或多个其他计算机器内执行的基于软件或基于硬件的虚拟化计算机器。
[0032]
系统存储器130可以包括非易失性存储器，诸如只读存储器（“rom”）、可编程只读存储器（“prom”）、可擦除可编程只读存储器（“eprom”）、闪速存储器、或能够在具有或没有施加功率的情况下存储程序指令或数据的任何其他设备。系统存储器130还可以包括易失性存储器，诸如随机存取存储器（“ram”）、静态随机存取存储器（“sram”）、动态随机存取存储器（“dram”）和同步动态随机存取存储器（“sdram”）。其他类型的ram也可以用于实现系统存储器130。系统存储器130可以使用单个存储器模块或多个存储器模块来实现。虽然系统存储器130被描绘为计算机器的一部分，但是本领域技术人员应当理解，系统存储器130可以与计算机器100分离，而不脱离本主题技术的范围。还应当理解，系统存储器130可以包括诸如存储介质140的非易失性存储设备，或者与其结合操作。
[0033]
存储介质140可以包括硬盘、软盘、压缩盘只读存储器（“cd
‑
rom”）、数字多功能盘（“dvd”）、蓝光盘、磁带、闪速存储器、其他非易失性存储器设备、固态驱动器（“ssd”）、任何磁存储设备、任何光存储设备、任何电存储设备、任何半导体存储设备、任何基于物理的存储设备、任何其他数据存储设备、或其任何组合或多样性。存储介质140可以存储一个或多个操作系统、应用程序和程序模块、数据或任何其他信息。存储介质140可以是计算机器的一部分或连接到计算机器。存储介质140也可以是与计算机器进行通信的一个或多个其他计算机器的一部分，诸如服务器、数据库服务器、云存储、网络附接存储等。
[0034]
应用模块200和其他os应用模块可以包括一个或多个硬件或软件元件，其被配置成促进计算机器执行这里所提出的各种方法和处理功能。应用模块200和其他os应用模块可以包括作为与系统存储器130、存储介质140或两者相关联的软件或固件而存储的一个或多个算法或指令序列。存储介质140因此可以代表机器或计算机可读介质的示例，在其上可以存储指令或代码以供处理器110执行。机器或计算机可读介质通常可以指用于向处理器110提供指令的一个或多个任何介质。与应用模块200和其他os应用模块相关联的这种机器或计算机可读介质可以包括计算机软件产品。应当理解，包括应用模块200和其他os应用模块的计算机软件产品也可以与用于经由网络、任何信号承载介质、或任何其他通信或传送技术将应用模块200和其他os应用模块传送到计算机器的一个或多个过程或方法相关联。
应用模块200和其他os应用模块还可以包括硬件电路或用于配置硬件电路的信息，例如用于fpga或其他pld的微码或配置信息。在一个示例性实施例中，应用模块200和其他os应用模块可以包括能够执行通过本文呈现的流程图和计算机系统而描述的功能操作的算法。
[0035]
输入/输出（“i/o”）接口150可被配置成耦合到一个或多个外部设备，以从一个或多个外部设备接收数据，并将数据发送到一个或多个外部设备。这样的外部设备与各种内部设备一起也可以被称为外围设备。i/o接口150可以包括用于将各种外围设备耦合到计算机器或处理器110的电和物理连接。i/o接口150可以被配置成在外围设备、计算机器或处理器110之间传送数据、地址和控制信号。i/o接口150可被配置成实现任何标准接口，例如小型计算机系统接口（“scsi”）、串行附接scsi（“sas”）、光纤信道、外围组件互连（“pci”）、pci高速（pcie）、串行总线、并行总线、高级技术附接（“ata”）、串行ata（“sata”）、通用串行总线（“usb”）、雷电、火线、各种视频总线等。i/o接口150可被配置成仅实现一个接口或总线技术。或者，i/o接口150也可被配置成实现多个接口或总线技术。i/o接口150可被配置成系统总线120的一部分、全部、或与其结合操作。i/o接口150可以包括一个或多个缓冲器，其用于缓冲一个或多个外部设备、内部设备、计算机器、或处理器120之间的传输。
[0036] i/o接口120可以将计算机器耦合到各种输入设备，包括鼠标、触摸屏、扫描仪、电数字化仪、传感器、接收器、触摸板、轨迹球、相机、麦克风、键盘、任何其他定点设备、或其任何组合。i/o接口120可以将计算机器耦合到各种输出设备，包括视频显示器、扬声器、打印机、投影仪、触觉反馈设备、自动化控制、机器人组件、致动器、电动机、风扇、螺线管、阀、泵、发送器、信号发射器、灯等等。
[0037] 计算机器100可以使用通过nic 160到网络上的一个或多个其他系统或计算机器的逻辑连接在联网环境中操作。网络可以包括广域网（wan）、局域网（lan）、内联网、因特网、无线接入网、有线网络、移动网络、电话网络、光网络、或其组合。网络可以是任何拓扑的分组交换、电路交换，并且可以使用任何通信协议。网络内的通信链路可以涉及各种数字或模拟通信介质，例如光纤光缆、自由空间光学器件、波导、电导体、无线链路、天线、射频通信等。
[0038]
处理器110可以通过系统总线120连接到计算机器的其他元件或这里讨论的各种外设。应当理解，系统总线120可以在处理器110内、在处理器110外、或两者。根据一些实施例，处理器110、计算机器的其他元件、或本文所讨论的各种外设中的任何一个可以集成到单个设备中，例如片上系统（“soc”）、系统级封装（“sop”）或asic设备。
[0039]
实施例可以包括实施这里描述和示出的功能的计算机程序，其中，计算机程序在计算机系统中实现，该计算机系统包括存储在机器可读介质中的指令和执行指令的处理器。然而，应当清楚，在计算机编程中可以存在实现实施例的许多不同方式，并且除非针对示例性实施例另外公开，否则实施例不应当被解释为限于任何一组计算机程序指令。此外，本领域的程序员将能够基于申请文本中的所附流程图、算法和相关联的描述来编写这样的计算机程序以实现所公开的实施例中的某一实施例。因此，特定程序代码指令集的公开不应被认为对于充分理解如何制造和使用实施例是必需的。此外，本领域技术人员应当理解，本文描述的实施例的一个或多个方面可以由硬件、软件或其组合来执行，如可以在一个或多个计算系统中实施。此外，对由计算机执行的动作的任何引用不应被解释为是由单个计算机来执行的，因为多于一个计算机可以执行该动作。
[0040]
这里描述的示例性实施例可以与执行先前描述的方法和处理功能的计算机硬件和软件一起使用。本文描述的系统、方法和过程可以在可编程计算机、计算机可执行软件、或数字电路中实施。软件可以存储在计算机可读介质上。例如，计算机可读介质可以包括软盘、ram、rom、硬盘、可移动介质、闪速存储器、存储棒、光学介质、磁光介质、cd
‑
rom等。数字电路可以包括集成电路、门阵列、构建块逻辑、现场可编程门阵列（fpga）等。
[0041]
在之前呈现的实施例中描述的示例性系统、方法和动作是说明性的，并且在替选实施例中，某些动作可以以不同的顺序执行、彼此并行地执行、完全省略和/或在不同的示例性实施例之间进行组合，和/或可以执行某些附加动作，而不脱离各种实施例的范围和精神。因此，这样的替选实施例包括在本文的描述中。
[0042]
如本文所用，单数形式“一”、“一个”和“该”旨在包括复数形式，除非上下文另有明确指示。还应当理解，术语“包括”和/或“包含”在本说明书中使用时，指定了存在所陈述的特征、整体、步骤、操作、元件和/或组件，但不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组的存在或附加。如本文所使用的，术语“和/或”包括相关联的所列项目中的一个或多个的任何和所有组合。如本文所用，诸如“在x和y之间”和“在约x和y之间”之类的短语应被解释为包括x和y。如本文所用，诸如“在约x和y之间”之类的短语是指“在约x和约y之间”。如本文所用，诸如“从约x到y”之类的短语是指“从约x到约y”。
[0043]
如本文所使用的，“硬件”可以包括分立组件、集成电路、专用集成电路、现场可编程门阵列或其他合适硬件的组合。如本文所使用的，“软件”可以包括一个或多个对象、代理、线程、代码行、子例程、单独的软件应用、在两个或更多个软件应用中、在一个或多个处理器（其中，处理器包括一个或多个微计算机或其他合适的数据处理单元、存储器设备、输入
‑
输出设备、显示器、诸如键盘或鼠标的数据输入设备、诸如打印机和扬声器的外设、相关联的驱动器、控制卡、功率源、网络设备、对接站设备、或在与处理器或其他设备结合的软件系统的控制下操作的其他合适的设备）上操作的两个或更多个代码行或其他合适软件结构、或其他合适的软件结构。在一个示例性实施例中，软件可以包括在诸如操作系统的通用软件应用中操作的一个或多个代码行或其他合适的软件结构、以及在专用软件应用中操作的一个或多个代码行或其他合适的软件结构。如本文所使用，术语“耦合”及其同族术语（例如“进行耦合”和“被耦合”可包含物理连接（例如铜导体）、虚拟连接（例如通过数据存储器设备的随机分配存储器位置）、逻辑连接（例如通过半导体设备的逻辑门）、其他合适的连接、或此类连接的合适组合。术语“数据”可以指用于使用、传送或存储数据的适当结构，诸如数据字段、数据缓冲器、具有数据值和发送者/接收者地址数据的数据消息、具有数据值的控制消息、以及使得接收系统或组件执行使用数据的功能或者用于数据的电子处理的其他适当硬件或软件组件的一个或多个操作符。
[0044]
通常，软件系统是在处理器上操作以响应于预定数据字段而执行预定功能的系统。例如，系统可以由它执行的功能和它对其执行该功能的数据字段来定义。如本文所使用的，name系统是指被配置成在处理器上操作并对所公开的数据字段执行所公开的功能的软件系统，其中，name通常是由系统执行的一般功能的名称。除非公开了特定算法，否则本领域技术人员已知的用于使用相关联的数据字段来执行功能的任何合适的算法都被认为落入本公开的范围内。例如，对包括发送者地址字段、接收者地址字段和消息字段的消息进行生成的消息系统将包含在处理器上操作的软件，该软件可从处理器的适当系统或设备（例
如缓冲器设备或缓冲器系统）获得发送者地址字段、接收者地址字段和消息字段，可将发送者地址字段、接收者地址字段和消息字段组装成适当的电子消息格式（例如电子邮件消息、tcp/ip消息或具有发送者地址字段、接收者地址字段和消息字段的任何其他适当的消息格式），并且可在通信介质（例如网络）之上使用电子消息收发系统和处理器的设备来传送电子消息。本领域普通技术人员应当能够基于前述公开内容提供用于特定应用的特定编码，其旨在阐述本公开的示例性实施例，并且不为具有比本领域普通技术人员少的技术的人员提供教程，诸如不熟悉以合适的编程语言的编程或处理器的人员。用于执行功能的特定算法可以以流程图形式或以其他合适的格式来提供，其中，数据字段和相关联的功能可以以示例性操作顺序来阐述，其中，该顺序可以被适当地重新布置并且没有进行限制的意图，除非明确地声明为是限制性的。
[0045]
为了说明的目的，已经呈现了以上公开的实施例，并且使得本领域普通技术人员能够实践本公开，但是本公开并不是穷举的或限于所公开的形式。在不背离本公开范围和精神的情况下，许多非实质性的修改和变化对于本领域普通技术人员来说将是显而易见的。权利要求的范围旨在广泛地覆盖所公开的实施例和任何这样的修改。此外，以下条款代表本公开的附加实施例并且应当被认为是在本公开的范围内：条款1，一种用于处理来自自动化制造操作的宽数据的过程控制工具：特征选择器，其被配置成：从至少一个制造过程应用，接收过程输入数据，其中，所述过程输入数据包括多个观察值和相关联的变量；将标识的类别变量转换为数值变量，并且将标识的时间序列数据转换为固定数量的区间；以及计算统计数据，其测量预测因子值与结果变量之间的关系的强度；分析服务器，其被配置成：执行至少一个操作以标识预测因子值之间的交互；可视化引擎，其被配置成显示所述交互以用于管理所述制造操作；条款2，根据条款1所述的过程控制工具，其中，所述特征选择器还被配置成将所接收的过程输入数据转换为在每个观察值中针对每个变量具有一行的堆叠格式；条款3，根据条款1所述的过程控制工具，其中，使用冲击编码技术将标识的类别变量转换成数值变量；条款4，根据条款2所述的过程控制工具，其中，所述特征选择器还被配置成：基于所计算的统计数据对所述预测因子值进行排序；基于阈值将所述预测因子值过滤成预测因子值的子集；以及将所述子集旋转成宽格式；条款5，根据条款4所述的过程控制工具，其中，所述分析服务器被配置成：接收经旋转的预测因子值的子集；以及执行最大似然计算以及预定义搜索中的至少一个，以标识所述子集中的预测因子值之间的交互；条款6，根据条款1所述的过程控制工具，其中，所述分析服务器还被配置成在存储器内、虚拟存储器内和多线程计算中的至少一个中操作；条款7，根据条款1所述的过程控制工具，其中，所述特征选择器和所述分析服务器同时且异步地工作；条款8，根据条款1所述的过程控制工具，其中，所述分析服务器是专用分析服务器；条款9，根据条款1所述的过程控制工具，其中，所述过程输入数据被表征为具有宽数据集或宽大数据集；
条款10，一种处理来自自动化制造操作的宽数据的方法，所述方法包括：从至少一个制造过程应用，接收过程输入数据，其中，所述过程输入数据包括多个观察值和相关联的变量；将标识的类别变量转换为数值变量，并且将标识的时间序列数据转换为固定数量的区间；以及计算统计数据，其测量预测因子值与结果变量之间的关系的强度；执行至少一个操作以标识预测因子值之间的交互；以及显示所述交互以用于管理所述制造操作；条款11，根据条款10所述的方法，还包括将所接收的过程输入数据转换为在每个观察值中针对每个变量具有一行的堆叠格式；条款12，根据条款10所述的方法，还包括使用冲击编码技术将标识的类别变量转换成数值变量；条款13，根据条款11所述的方法，还包括：基于所计算的统计数据对所述预测因子值进行排序；基于阈值将所述预测因子值过滤成预测因子值的子集；以及将所述子集旋转成宽格式；条款14，根据条款13所述的方法，还包括：接收经旋转的预测因子值的子集；以及执行最大似然计算和预定义搜索中的至少一个，以标识所述子集中的预测因子值之间的交互；条款15，一种非暂时性计算机可读存储介质，包括可由处理器执行以用于处理来自自动化制造操作的宽数据的一组计算机指令，所述计算机指令被配置成：从至少一个制造过程应用，接收过程输入数据，其中，所述过程输入数据包括多个观察值和相关联的变量；将标识的类别变量转换为数值变量，并且将标识的时间序列数据转换为固定数量的区间；以及计算统计数据，其测量预测因子值与结果变量之间的关系的强度；执行至少一个操作以标识预测因子值之间的交互；显示所述交互以用于管理所述制造操作；条款16，根据条款15所述的非暂时性计算机可读存储介质，还包括被配置成将所接收的过程输入数据转换为在每个观察值中针对每个变量具有一行的堆叠格式的计算机指令；条款17，根据条款15所述的非暂时性计算机可读存储介质，还包括被配置成使用冲击编码技术将标识的类别变量转换成数值变量的计算机指令；条款18，根据条款16所述的非暂时性计算机可读存储介质，还包括被配置成进行如下操作的计算机指令：基于所计算的统计数据对所述预测因子值进行排序；基于阈值将所述预测因子值过滤成预测因子值的子集；将所述子集旋转成宽格式；以及执行最大似然计算和预定义搜索中的至少一个，以标识所述子集中的预测因子值之间的交互；条款19，根据条款15所述的非暂时性计算机可读存储介质，还包括被配置的计算机指令，其中，所述分析服务器还被配置成执行至少一个操作，以标识预测因子值与存储器内、虚拟存储器内和多线程计算中的至少一个中的至少一个结果变量之间的交互；以及条款20，根据条款15所述的非暂时性计算机可读存储介质，其中，所述指令的某一子集与所述指令的另一子集同时且异步地操作。
[0046]
为了说明和描述的目的，已经呈现了本公开的实施例的前述描述。其并非旨在是穷举的或将本公开限制为所公开的精确形式，并且，根据以上教导，修改和变化是可能的，或者可以从本公开的实践中获取。选择和描述实施例是为了解释本公开的原理及其实际应
用，以使得本领域技术人员能够在各种实施例中并且在具有适合于所设想的特定用途的各种修改的情况下利用本公开。在不脱离本公开范围的情况下，可以在实施例的设计、操作条件和布置中做出其他替代、修改、改变和省略。在参考本说明书后，对说明性实施例以及其他实施例的这样的修改和组合对于本领域技术人员来说是显而易见的。因此，所附权利要求旨在涵盖任何此类修改或实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：视频分发系统的制作方法
下一篇：请求响应方法、请求响应装置、电子设备及可读存储介质与流程

用于处理大宽数据的过程控制工具的制作方法

相关文献

最热文献