用于从大容量、高速流式数据动态生成预测分析的算法学习引擎的制作方法

2022-12-06 18:59:02 来源：中国专利 TAG：

用于从大容量、高速流式数据动态生成预测分析的算法学习引擎

背景技术：

1.机器学习、统计分析、高级分析和/或人工智能（ai）方法（在本文中称为算法学习方法）例行地针对各式各样的数据源应用，以便提取可付诸行动的信息或驱动自动化决策制定，其目的是改进一些业务、制造或其它过程。对算法学习方法、特别是预测分析的当前实践认为分析过程是一个多角色生命周期，其中，首先从离线历史数据构建模型。接着，通过涉及多个检验和验证步骤的过程部署模型，以最终在生产环境中通知或做出决策。然后，关于各种质量、合意性和风险特性（一般来说，是它如何影响业务）监测该环境中的模型性能。当发现模型不再有效或不足以生成所要求的投资回报率（roi）时，建模生命周期随着模型的重新构建（重新校准、重定基准）而重复。
2.传统上，围绕算法学习的讨论集中在静态大数据上，并且具体是集中在如何最好地从历史数据的巨大存储库中提取可用于预测未来结果的诊断信息上，以使用应用于历史数据的统计方法来检验假设，或检测数据中的复现模式和集群。在许多真实世界应用中，包含在历史数据中的与未来数据和事件相关的诊断信息可以为特定的系统过程提供有用的价值。然而，还有许多真实世界应用，其中，包含在历史数据中的信息并不有用。
3.作为一示例，例如，在银行系统上实施诈骗的人几乎不会重复使用相同的攻击方法。一旦攻击方法被确定，犯罪者就会改变它。例如，保险公司和金融服务公司将希望实现最敏捷且反应最快的方法来检测指示欺诈的不寻常活动，即使从未观察到具体的模式；否则，预防欺诈的努力将总是落后于欺诈的犯罪者一步。竞争力取决于成功管理高度敏感和动态不稳定的过程的制造商将希望在新兴质量问题影响底线之前标识、验证此类问题并执行有效的根本原因分析。几乎所有的过程制造商，从发电到化学制造或食品和药品的制造，都面临着监测高度自动化但是良好仪表化的复杂过程的问题；并非仅仅依靠经验丰富的操作人员或工程师的视觉检查或依靠基于简单的硬工程规则的偏差的原始自动化过程控制系统和警告，这些用户将希望尽快标识任何新兴的新模式和从未见过的问题及其原因，这依赖于大多数工程师（例如，接受过六西格玛培训的工程师）所熟悉的不断更新的统计。
4.在线内容的营销者和创建者将需要不断地更新他们的策略，以使他们的客户参与并致力于他们的网站和服务以及通过那些网站交付的商品。在激烈的竞争和快速改变的消费者偏好面前，这一点特别重要，并且在实时社交媒体、无处不在的移动消息接发和交互的时代尤其重要。在这些新技术的背景下，情绪可能会迅速“漂移”或改变。因此，用于在发生时检测、预料和/或测量该改变、情绪“漂移”的速率并重新评估预测的结果的实时数据科学模型的前景的重要性正在上升。
5.生成预测分析的传统方法（即，“多角色生命周期”）非常耗时，有时需要花费数月时间，以例如在许多金融服务或保险业务中实现欺诈检测算法。当数据中的变量之中的关系快速改变时，据说业务和过程会遭遇快速的“概念漂移”，这是机器学习和统计文献中所使用的术语，它用于描述变量和/或它们的多元平均数、分布、可变性或其它统计属性之间的关系、或视为输入（又称为“自变量”）和输出（又称为“因变量”）的变量之间的关系随时间
并且有时以前所未有的方式改变时的状况。当发生概念漂移时，基于历史数据的基于离线的学习方法可能会失效，并且例如，导致错失机会并招致费用。
附图说明
6.为了更完整地理解本公开的特征和优点，现在参考详细描述以及附图，在附图中，不同附图中的对应数字指代对应部分，并且在附图中：图1是根据某些示例实施例的系统架构和算法学习引擎的图示；图2是根据示例实施例用于基于用户定义的要求和/或领域要求选择变量的算法学习引擎的框图的图示；图3是用于连续流式数据以使得能够执行如本公开中描述的某些统计和分析计算的数据聚合和对齐方法的图示；以及图4是根据某些示例实施例的计算机器和系统应用模块的图示。
具体实施方式
7.虽然下文详细讨论了本公开各种实施例的制作和使用，但应当领会，本公开提供了可以在多种多样的特定情境下体现的许多可适用的发明概念。本文讨论的具体实施例仅仅是说明性的，并且不限制本公开的范围。为了清楚起见，可以在本公开中不描述实际实现的所有特征。当然，将领会，在任何这样的实际实施例的开发中，必须做出许多特定于实现的决策，以实现诸如符合系统相关和商业相关的约束之类的开发者的特定目标，所述特定目标将从一个实现到另一个实现而变化。此外，将领会，这样的开发努力可能是复杂且耗时的，但是对于受益于本公开的本领域普通技术人员而言，这将是例行任务。
8.前面提到的分析学习的生命周期最常在预测建模的背景下被关注，在预测建模中，将像机器学习或深度学习和ai之类的技术应用于历史数据。然而，这个过程生命周期和框架同样可适用于简单的建模任务，诸如质量控制图表，其中，模型可以是简单的平均数以及平均数周围的观测的预期可变性。这些步骤在传统的统计假设检验中也得到关注，以例如检验相同样本或两个或更多个独立样本中的变量的分布不同或相同的假设，或检验两个或更多个变量之间的关系在统计上是否显著，或检验是否存在单个变量或跨两个或更多个变量的值的相似配置的自然发生的集群。同样地，在开发基于规则的机制以影响决策制定时，也经常会关注这些步骤。在所有情况下，都使用历史数据来通知分析模型或规则，然后通常针对流式数据实现此类分析模型或规则，以驱动洞察力、异常检测监视器或实时可视化。
9.静态过程和过程动力学相对于动态改变过程所常见的概念漂移的问题在于，当构建能够检测可用于为特定系统过程做出信息决策的模式的预测模型时，历史数据的诊断价值。通常应用从历史数据中的算法学习的目的是获得洞察力或提取预测模型，由此预料流式数据中的未来观测或事件。这种方法假设，数据中的模式随时间是稳定的，从而使得从历史数据中提取的洞察力与现在或未来实时收集的数据相关。随时间的模式意味着，不仅它们的分布特性（平均数、中位数、标准偏差、偏斜度、峰度等）将不会改变，而且变量之间的关系保持恒定。例如，在基于历史数据的预测建模中，隐含地假设，预测模型所描述的输入之中、以及感兴趣的输入和输出之间的关系将不会向前改变。
10.在许多系统过程应用中，历史数据可能不包含任何与未来数据或事件相关的特别感兴趣的信息（重复的数据模式），因为当前或最近收集的实时数据中的重复模式（即，概念漂移）以前从未观测到（并存档）。换句话说，如果没有历史参考，那么就没有可确定的重复模式与实时数据的预测或洞察力相关或诊断，此类实时数据可以基于历史数据使用前面提到的“多角色生命周期”方法或传统的算法学习方法发现。使用这种传统方法，可能无法检测或理解概念漂移，即，实际的模式或信息数据，并且因此，会失去任何诊断价值。在实践中，这意味着，基于历史数据的“多角色生命周期”和分析的传统方法不足以检测新的和意想不到的重复模式的出现。
11.动态不稳定过程使历史数据具有较少或没有信息。存在许多系统过程，其中，相关联的业务希望理解、监测和控制被标识为不稳定也不容易通过利用对新兴的、新的或动态发展的数据的洞察力来控制的过程。现金流、销售和销售趋势、客户情绪和偏好（例如，在时尚方面）都在不断改变。消费者行为是不断改变的，因为新的时尚、趋势、消费者担忧和/或其它因素可能会极大地影响消费者行为，从而关于影响业务健康和前景的所有过程创建非固定且频繁改变的模式和数据流中的变量之间的关系。也许最明显的是，一个过程可能只是新的，并且因此，可能没有任何历史数据。快速改变的产品线或消费项目等就是这种情况的明显示例。
12.本文呈现一种用于处理从系统过程接收的大容量、高速流式数据的算法学习引擎。该算法学习引擎可以实时或者相对于前面提到的传统方法实时地处理流式数据。通过在数据流式传输时（即，在将数据存储在大数据存储库之前）对数据进行处理并使用本文所呈现的算法学习引擎的独特处理特征，显著缩短了检测、分析在流式数据中所遇到的非平稳且不断演变的关系、趋势和模式并将其转化为可付诸行动的信息的时间，这些数据不断地报道正在考虑的过程。
13.在一实施例中，算法学习引擎包括算法模型生成器，算法模型生成器配置成：使用模式识别算法和统计检验算法中的至少一个来处理来自流式数据的系统变量的集合，以标识模式、变量之间的关系和重要变量；并生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型，关于相关性、变量或独立数据组之间的差异或跨变量的时间模式的统计检验模型，以及跨变量的相似观测的复现集群模型。
14.在另一个实施例中，算法学习引擎包括数据预处理器，数据预处理器配置成：通过执行聚合选择系统变量的值和对齐选择系统变量中的至少一个来创建系统变量的集合。数据预处理器还配置成：通过基于时间对齐选择系统变量来创建系统变量的集合；以及将对齐的变量布置成行。数据预处理器还配置成基于关于给定分析问题感兴趣的变量的用户定义的和/或领域（即，系统过程特定的）要求选择系统变量。然而，取决于特定的应用，可能不要求数据预处理器和其中的特征或特征子集。例如，如果流式变量已经聚合和/或对齐，那么可能不需要算法学习引擎的一个或两个特征。
15.在又一个实施例中，数据预处理器进一步配置成使用从历史信息导出的预测来增强逻辑行；并且算法学习算法进一步配置成增量式生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。
16.总而言之，将诸如统计和机器学习预测分析的动态算法学习添加到流式数据处理
中并将实时更新的统计/动态学习汇总和成果添加到下游可视化、警报或自动化界面中，为应用于流式数据源的分析增加了敏捷性、效率和实用性的新维度。这些方法还可以大大提升基于历史数据的分析和建模项目和活动的敏捷性、效率和有效性，并且对于流式数据流实现为部署的预测模型或基于规则的系统。当数据纲目（data schema）（数据流、它们的数据类型）相对稳定但是那些数据流中的模式和关系频繁且快速地改变时（如前所述，概念漂移），那么快速检验和评估关于新兴的数据模式的假设或直接从数据流中学习那些模式的能力可能会产生显著的价值。另外，实时导出的数据科学模型、经筛选和优先化的警报与可以指导决策、调整模型行为或改变规则行为的人工分析师之间的高速连接，创建了用这些动态学习模型实时增强人类智能的数据科学-人类界面。
17.在本说明书中，模型是指用来生成统计信息或预测的算法方程，此类统计信息或预测描述了系统变量的集合中的模式、系统变量的集合中的变量之间的关系、以及系统变量的集合中的重要变量。变量之间的关系是指变量之间的一些可测量的因素（dependent）。重要变量是指对预测结果有重要意义的变量。观测、行和情况是所测量的数据（即，变量）的转置列。概念漂移涉及输入变量或模型试图预测的目标变量的统计属性和关系，此类变量会随着时间以不可预见的方式改变。增量学习算法是指在不借助于历史统计信息的情况下标识系统变量的集合中的模式、系统变量的集合中的变量之间的关系、以及系统变量的集合中的重要变量的算法。非增量学习算法是指在历史统计信息的辅助下标识系统变量的集合中的模式、系统变量的集合中的变量之间的关系、以及系统变量的集合中的重要变量的算法。筛选器是指配置成基于一个或多个预定值和一个或多个定义的参数中的至少一个从流式数据源中选择变量的算法过程。筛选器还可以指配置成在osi（开放标准互连）模型的链路、网络、传输和更高层从流式数据源中选择变量的算法或用户启动的过程。语言“...中的至少一个”意在解释为或者连接词或者非连接词。换句话说，a和b中的至少一个应该解释为包括a和b两者或者只包括a或只包括b。
18.增量学习算法可以包括使用增量算法来计算变量的平均数、标准偏差、高阶矩和分布特性、变量之间的平均数、标准偏差等的比较、以及预测和聚类（clustering）模型的简单的临时平均数/矩算法，增量算法可以是诸如增量判别分析、相关矩阵的计算、主成分分析、hoeffding树以及带有和不带有概念漂移的检测的增强hoeffding树算法、用于聚类的增量算法等。非增量学习算法可以包括用于比较变量之间的分布、比较跨多个变量的相同变量之间的分布的非参数统计、用于单个或多个变量的时间序列分析方法、或用于聚类或预测建模的任何已知算法；这些算法将应用于观测的滑动或翻转窗口，并按用户规定的或自动确定的间隔（例如，每次有新的逻辑观测行变成可用时）进行更新。
19.现在参考图1，图示根据示例实施例的系统架构10和算法学习引擎20。系统过程10包括众多服务器、传感器或其它装置，它们连续收集数据。系统过程10可以传达在各种过程中从定位于设备（诸如，在物联网（iot）和晶圆制造机器中所使用的设备）上的传感器、或从作为大容量、高速流式数据的来源的任何系统过程（其中标识新兴数据模式对于业务而言很重要）接收的数据。算法学习引擎20包括算法模型生成器22、数据预处理器和可视化处理器30，数据预处理器包括数据聚合单元24、数据对齐单元26和可选的或可付诸行动的辅助对齐单元28a、b。应该理解，数据预处理器可能只在来自流式数据的选择变量尚未聚合和/或对齐的情况下才需要。
20.在实践中，从系统过程10接收的流式数据可能是异步的，或者是以其它方式随机接收的过程变量。流式数据在到达算法模型生成器22之前基于感兴趣的变量参数，诸如温度、压力、用户活动等
……
以及在一些实施例中基于变量值在数据预处理器处进行筛选。在聚合单元24（在一些实施例中，它可能是可选的），首先使用至少一个预定义的聚合（诸如例如用于制造工艺的每秒读数或每周期读数）来聚合感兴趣的变量参数的变量值。其它聚合方法可包括平均数、中位数、百分位值、标准偏差、最大值和最小值、模态值、范围、标准偏差、百分位范围、截尾平均数。可以针对单个输入变量计算多于一个聚合值，从而创建呈现给后续处理步骤的多个下游聚合值。然后，在数据对齐单元28a，对变量参数的聚合变量值进行时间对齐。
21.接着，将系统变量（即，经聚合、对齐的变量）的集合提供给算法模型生成器22。算法模型生成器22使用模式识别算法或统计检验算法来标识模式、变量之间的关系以及系统变量的集合中的重要变量。在一实施例中，并且响应于该标识，算法模型生成器22生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。可以存储所标识的模式、变量之间的关系、重要变量和相关联的系统变量的集合以供数据预处理器后续使用。
22.在另一个实施例中，数据预处理器进一步配置成使用从存储的历史信息导出的预测信息来增强（调谐）经聚合、对齐的变量。接着，将系统变量（即，经聚合、对齐、增强的变量）的集合提供给算法模型生成器22。然后，作为响应，算法模型生成器22可以增量式生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。在任何实施例中，可视化处理器30可以基于预测模型、统计检验模型和复现集群中的至少一个的输出来生成可视化和/或生成警报。
23.现在参考图2，图示根据示例实施例用于基于用户定义的和/或领域要求选择变量的算法学习引擎20的算法（一般指代为60）的框图。从大容量、高速流式数据源中筛选系统变量的集合，以使得可以标识与重要变量相关联的预测模式，并以连续、实时的方式（即，随着模式的出现和演变）起作用。在一实施例中，算法学习引擎20使用若干个数据预处理步骤和机器学习算法来标识大容量、高速流式数据中的新兴数据模式。
24.在方框62，通过基于领域、分析问题和一个或多个计算的预定义的聚合来筛选数据而从流式数据中选择系统变量的集合。作为一示例，可以从数据流中标识来自晶圆制造机械和设施的感兴趣的或被用户或分析类型的自动化过程视为相关的变量参数、温度和压力读数。筛选器可以计算（即，确定）基于一个或多个预定义的聚合间隔收集哪些变量值，例如，每个参数每秒、每分钟的值等...和/或每个参数（诸如温度、压力等）每个指标值的多个值（即，最大值、最小值、中位数、标准偏差范围等...）。换句话说，选择系统变量可以基于选择变量参数、多个相关联的参数值和某些系统过程的过程周期。筛选器可以基于用户输入、先验信息、从系统过程10接收的信息或随机地动态调整如何聚合变量。
25.在方框64，基于时间（例如，来自流式数据的报头信息的事件数据标识记录日期和时间）将聚合的变量对齐。这可以包括起始和终止日期和时间。还应该理解，事件数据也可以标识其它信息，诸如发起变量的特定机器（即，系统过程）。在方框66，一旦将聚合的变量
对齐，便可以将经对齐、聚合的变量布置到逻辑行中，其中，每个逻辑行由特定的绝对或流逝时间间隔（相对于开始时间/日期、记录相应的数据变量的时间等）定义。换句话说，一旦对选择变量进行了聚合和时间对齐，便将选择变量布置成行，其中每一行代表一个分析单元。分析单元基于时间或时间间隔。换句话说，一个行标识了时间或时间间隔和传感器读数或在时间间隔内从系统过程10计算的传感器读数的聚合（例如，平均温度测量）。一行中对于某个时间或时间间隔的每个条目可以包括单个传感器读数或多个传感器读数，并且它可以包含为每个传感器读数计算的多个聚合统计。作为一示例，图3示出了方框62和64的逻辑过程。基于聚合（例如，在时间间隔t1内接收的变量的平均数）筛选在时间间隔t1中接收的流式数据。图3中的表图示了可以如何在表的第一（顶部）实例中存储或输入时间t1和传感器读数（a值、b值和c值）以及可以如何在表的第二（底部）实例中在t1和相关联的传感器读数下方存储或输入时间t2和t2的传感器读数（a值、b值和c值）。
26.在方框68（可选或可付诸行动的过程）中，可以用预测信息来增强经聚合、对齐的变量的行。方框68的过程可以由用户激活或取消激活。对于方框62、64和66的每个周期，即，基于最新接收的数据和来自对齐到来自方框66的逻辑行的方框68的数据，重新构建模型和统计。不管是否激活了过程68，算法模型生成器22都生成与系统变量的集合相关的预测信息，此类信息在新的变量从流式系统过程到达时实时更新。例如，当激活该过程时，算法60可以将经聚合、对齐的变量的当前行与从算法模型生成器22生成的历史信息（诸如，系统变量的集合和预测模型、统计检验和复现集群）进行比较。
27.在方框70，使用模式识别算法和统计检验算法中的至少一个来处理逻辑行，以标识模式、变量之间的关系和重要变量。本质上，学习算法可以只使用逻辑行或具有增强的预测的逻辑行来检测模式，例如正常和异常模式。在方框72，生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。在方框74，随着新信息变得可用，可以实时生成各种用户界面，以可视化系统变量（行）的经聚合、对齐的集合和统计、集群、预测模型、以及在新数据变成可用时从上述过程实时计算的预测和预测残差。在方框74，还可以将由方框72生成的量传递给其它系统，这些系统通知决策制定或自动化决策过程。
28.在一实施例中，可以通过方框74的过程来显示预测感兴趣的某个结果的最重要变量，例如，显示多个传感器之中连续收集数据以显示与产品质量的显著共性的特定传感器。当按重要性降序布置时，所得显示使得能够实时分析根本原因，例如对于制造应用。另一个示例实施例是，通过方框74的过程显示流式输入数据的决策树表示，以描绘来自系统变量的集合中的变量的数据的最新（基于最近数据）分区，从而得到输出变量中的值或离散值计数的最大差异。又一个实施例是，方框74的过程可以用概率或置信度值不断地更新特定的统计量，以使得用户可以快速地确定多个数据流（来自那些数据流的值的聚合）是否遵循相同的分布（是否“等效”），或者源自多个机器的一个或多个变量是否等效，并且如果否，则哪些特定变量在哪些机器间不同，或者两个或更多个变量之间的简单或多重相关性在多个机器间是否相同。在每一种情况下，简单的概率以及为多次比较进行调整或为计算的统计量建立概率边界的各种版本的事后检验概率都可以不断更新，从而不仅提供即时洞察力，而且还提供关于洞察力的确定性的信息。
29.该系统提供了将用户定义的或自动警告附连到特定统计量（例如，比较变量或机器/组的概率）的能力；从过程74生成的用户界面可以呈现用概率声明定义那些警告或定义链接到控制图表的语言（即，用k乘以西格玛（例如，3-西格玛极限）表述）的那些警告的选项，以便向用户提供关于错误率的反馈。如上所述从流式数据导出的统计、建模或其它分析计算中所导出的警告和警报可以看作是数据流，以便例如基于那些警报的频率或平均优先级/重要性执行统计分析或可视化。方框74的过程的一个方面是，它为流式数据提供了将统计方法嵌入到实时可视化工具（诸如tibco
®ꢀ
spotfire streaming或其它ui/ux工具）中的功能性。
30.现在参考图4，图示了根据示例实施例的计算机器100和系统应用模块200。计算机器100可以对应于本文呈现的各种计算机、移动装置、膝上型计算机、服务器、嵌入式系统或计算系统中的任何一个。模块200可以包括一个或多个硬件或软件元件，其被设计成促进计算机器100执行本文呈现的各种方法和处理功能。计算机器100可以包括各种内部或附接组件，诸如处理器110、系统总线120、系统存储器130、存储介质140、输入/输出接口150和用于与网络170通信的网络接口160，网络170例如是回送、局域网、广域网、蜂窝/gps、蓝牙、wifi和wimax以及服务器/传感器180。
31.计算机器100可以实现为常规计算机系统、嵌入式控制器、膝上型计算机、服务器、移动装置、智能电话、可穿戴计算机、定制机器、任何其他硬件平台或其任何组合或多重性。计算机器100和相关联的逻辑和模块可以是分布式系统，其被配置为使用经由数据网络和/或总线系统互连的多个计算机器来运转。
32.处理器110可以被设计成执行代码指令，以便执行本文描述的操作和功能性，管理请求流和地址映射，并执行运算和生成命令。处理器110可以被配置为监视和控制计算机器中的组件的操作。处理器110可以是通用处理器、处理器内核、多处理器、可重新配置的处理器、微控制器、数字信号处理器（“dsp”）、专用集成电路（“asic”）、控制器、状态机、门控逻辑、离散硬件组件、任何其他处理单元或其任何组合或多重性。处理器110可以是单个处理单元、多个处理单元、单个处理核心、多个处理核心、专用处理核心、协处理器或其任何组合。根据某些实施例，处理器110连同计算机器100的其他组件可以是在一个或多个其他计算机器内执行的基于软件或基于硬件的虚拟化计算机器。
33.系统存储器130可以包括非易失性存储器，诸如只读存储器（“rom”）、可编程只读存储器（“prom”）、可擦除可编程只读存储器（“eprom”）、闪存或者能够在具有输入功率或没有输入功率的情况下存储程序指令或数据的任何其他装置。系统存储器130还可以包括易失性存储器，诸如随机存取存储器（“ram”）、静态随机存取存储器（“sram”）、动态随机存取存储器（“dram”）和同步动态随机存取存储器（“sdram”）。其他类型的ram也可以用于实现系统存储器130。系统存储器130可以使用单个存储器模块或多个存储器模块来实现。虽然系统存储器130被描绘为计算机器的一部分，但是本领域技术人员将认识到，在不脱离本主题技术范围的情况下，系统存储器130可以与计算机器100分离。还应当领会，系统存储器130可以包括诸如存储介质140的非易失性存储装置或者与其结合操作。
34.存储介质140可以包括硬盘、软盘、光盘只读存储器（“cd-rom”）、数字多功能光盘（“dvd”）、蓝光光盘、磁带、闪存、其他非易失性存储器装置、固态驱动器（“ssd”）、任何磁存储装置、任何光存储装置、任何电存储装置、任何半导体存储装置、任何基于物理的存储装
置、任何其他数据存储装置或其任何组合或多重性。存储介质140可以存储一个或多个操作系统、应用程序和程序模块、数据或任何其他信息。存储介质140可以是计算机器的部分，或者连接到计算机器。存储介质140也可以是与诸如服务器、数据库服务器、云存储、网络附接存储等等之类的计算机器通信的一个或多个其他计算机器的部分。
35.应用模块200可以包括一个或多个硬件或软件元件，所述一个或多个硬件或软件元件被配置为促进计算机器执行本文呈现的各种方法和处理功能。应用模块200可以包括一个或多个算法或指令序列，所述一个或多个算法或指令序列被存储为与系统存储器130、存储介质140或两者相关联的软件或固件。因此，存储介质140可以表示机器或计算机可读介质的示例，在其上可以存储指令或代码以供处理器110执行。机器或计算机可读介质一般可以指代用于向处理器110提供指令的任何一个或多个介质。与应用模块200相关联的这样的机器或计算机可读介质可以包括计算机软件产品。应当领会，包括应用模块200的计算机软件产品也可以与用于经由网络、任何信号承载介质或任何其他通信或递送技术将应用模块200递送到计算机器的一个或多个过程或方法相关联。应用模块200还可以包括硬件电路，或用于配置硬件电路的信息、诸如用于fpga或其他pld的微码或配置信息。在一个示例性实施例中，应用模块200可以包括能够执行由本文呈现的流程图和计算机系统描述的功能操作的算法。
36.输入/输出（“i/o”）接口150可以被配置为耦合到一个或多个外部装置，从一个或多个外部装置接收数据，并向一个或多个外部装置发送数据。这样的外部装置连同各种内部装置也可以被称为外围装置。i/o接口150可以包括用于将各种外围装置耦合到计算机器或处理器110的电气和物理连接两者。i/o接口150可以被配置为在外围装置、计算机器或处理器110之间传达数据、地址和控制信号。i/o接口150可以被配置为实现任何标准接口，诸如小型计算机系统接口（“scsi”）、串行附接scsi（“sas”）、光纤信道、外设组件互连（“pci”）、pci express（pcie）、串行总线、并行总线、高级技术附接（“ata”）、串行ata（“sata”）、通用串行总线（“usb”）、thunderbolt、firewire、各种视频总线等等。i/o接口150可以被配置为仅实现一个接口或总线技术。备选地，i/o接口150可以被配置为实现多个接口或总线技术。i/o接口150可以被配置成系统总线120的部分、全部或者与系统总线120结合操作。i/o接口150可以包括一个或多个缓冲器，用于缓冲一个或多个外部装置、内部装置、计算机器或处理器120之间的传输。
37.i/o接口120可以将计算机器耦合到各种输入装置，所述各种输入装置包括鼠标、触摸屏、扫描仪、电子数字化仪、传感器、接收器、触摸板、轨迹球、相机、麦克风、键盘、任何其他指向装置或其任何组合。i/o接口120可以将计算机器耦合到各种输出装置，所述各种输出装置包括视频显示器、扬声器、打印机、投影仪、触觉反馈装置、自动化控制、机器人组件、致动器、马达、风扇、螺线管、阀、泵、传送器、信号发射器、灯等等。
38.计算机器100可以使用通过网络接口160与跨网络的一个或多个其他系统或计算机器的逻辑连接而在联网环境中操作。网络可以包括广域网（wan）、局域网（lan）、内联网、因特网、无线接入网、有线网络、移动网络、电话网络、光网络或其组合。网络可以是任何拓扑的分组交换、电路交换，并且可以使用任何通信协议。网络内的通信链路可以涉及各种数字或模拟通信介质，诸如光纤线缆、自由空间光学器件、波导、电导体、无线链路、天线、射频通信等等。
39.处理器110可以通过系统总线120连接至计算机器的其他元件或本文讨论的各种外围装置。应当领会，系统总线120可以在处理器110内，在处理器110外，或者两者兼具。根据一些实施例，处理器110、计算机器的其他元件或本文讨论的各种外围装置中的任何一个可以被集成到单个装置中，所述单个装置诸如是片上系统（“soc”）、封装上系统（“sop”）或asic装置。
40.实施例可以包括体现本文所描述和所图示功能的计算机程序，其中计算机程序在计算机系统中实现，所述计算机系统包括存储在机器可读介质中的指令和执行指令的处理器。然而，应当领会，在计算机编程中可以存在实现实施例的许多不同方式，并且实施例不应当被解释为限于任何一个计算机程序指令集，除非针对示例性实施例另有公开。此外，熟练的程序员将能够基于所附的流程图、算法和申请文本中的相关联描述来编写这样的计算机程序，以实现所公开实施例中的实施例。因此，对于充分理解如何制造和使用实施例，特定程序代码指令集的公开不被认为是必要的。此外，本领域技术人员将领会，本文描述的实施例的一个或多个方面可以由硬件、软件或其组合来执行，如可以在一个或多个计算系统中体现的。此外，对由计算机执行的动作的任何引用不应当被解释为由单个计算机执行，因为多于一个计算机可以执行该动作。
41.本文描述的示例实施例可以与执行先前所述的方法和处理功能的计算机硬件和软件一起使用。本文描述的系统、方法和过程可以在可编程计算机、计算机可执行软件或数字电路系统中体现。该软件可以存储在计算机可读介质上。例如，计算机可读介质可以包括软盘、ram、rom、硬盘、可移除介质、闪存、记忆棒、光学介质、磁光介质、cd-rom等。数字电路系统可以包括集成电路、门阵列、构建块逻辑、现场可编程门阵列（fpga）等。
42.先前呈现的实施例中所述的示例系统、方法和动作是说明性的，并且在备选实施例中，在不脱离各种实施例的范围和精神的情况下，某些动作可以按不同次序执行、彼此并行、完全省略和/或在不同的示例实施例之间组合，和/或可以执行某些附加动作。因此，这样的备选实施例包括在本文的描述中。
43.如本文使用的，单数形式“一”、“一个”和“该”也意在包括复数形式，除非上下文另有清楚指示。将进一步理解，术语“包括”和/或“包含”当在本说明书中使用时，规定所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合的存在或添加。如本文使用的，术语“和/或”包括相关联列出项目中的一个或多个的任何和所有组合。如本文使用的，诸如“在x和y之间”和“在大约x和y之间”的短语应当解释为包括x和y。如本文使用的，诸如“在大约x和y之间”的短语意指“在大约x和大约y之间”。如本文使用的，诸如“从大约x到y”的短语意指“从大约x到大约y”。
44.如本文使用的，“硬件”可以包括分立组件、集成电路、专用集成电路、现场可编程门阵列或其他合适硬件的组合。如本文使用的，“软件”可以包括一个或多个对象、代理、线程、代码行、子例程、单独的软件应用程序、两个或更多个代码行或者在一个或多个处理器上的两个或更多个软件应用程序中操作的其他合适的软件结构（其中处理器包括一个或多个微型计算机或其他合适的数据处理单元、存储器装置、输入-输出装置、显示器、诸如键盘或鼠标的数据输入装置、诸如打印机和扬声器的外围装置、相关联的驱动器、控制卡、电源、网络装置、坞站装置或者在软件系统的控制下结合处理器或其他装置操作的其他合适的装置）或其他合适的软件结构。在一个示例性实施例中，软件可以包括在诸如操作系统的通
用软件应用中操作的一个或多个代码行或者其他合适的软件结构，以及在专用软件应用中操作的一个或多个代码行或者其他合适的软件结构。如本文使用的，术语“耦合”及其同源术语（诸如“耦合着”和“耦合了”）可以包括物理连接（诸如铜导体）、虚拟连接（诸如通过数据存储器装置的随机指配的内存位置）、逻辑连接（诸如通过半导体器件的逻辑门）、其他合适的连接或者这样的连接的合适组合。术语“数据”可以指代用于使用、输送或存储数据的合适的结构，诸如数据字段、数据缓冲器、具有数据值和发送者/接收者地址数据的数据消息、具有数据值的控制消息和使得接收系统或组件使用数据执行功能的一个或多个操作符，或者用于数据的电子处理的其他合适的硬件或软件组件。
45.一般而言，软件系统是在处理器上操作以响应于预定数据字段执行预定功能的系统。例如，系统可以由它执行的功能和它执行该功能的数据字段来定义。如本文使用的，名称系统——其中名称通常是由系统执行的一般功能的名称——指代被配置为在处理器上操作并对公开的数据字段执行公开的功能的软件系统。除非公开了特定的算法，否则本领域技术人员将已知的用于使用相关联数据字段执行功能的任何合适的算法都被设想为落入本公开的范围内。例如，生成包括发送者地址字段、接收者地址字段和消息字段的消息的消息系统将涵盖在处理器上操作的软件，该软件可以从处理器的合适系统或装置（诸如缓冲装置或缓冲系统）得到发送者地址字段、接收者地址字段和消息字段，可以将发送者地址字段、接收者地址字段和消息字段组装成合适的电子消息格式（诸如电子邮件消息、tcp/ip消息或具有发送者地址字段、接收者地址字段和消息字段的任何其他合适的消息格式），并且可以使用处理器的电子消息系统和装置通过通信介质（诸如网络）传送电子消息。本领域的普通技术人员将能够基于前述公开内容为特定的应用提供特定的编码，该公开内容意在阐述本公开内容的示例性实施例，并且不是为不具备本领域普通技术的人（诸如不熟悉用合适的编程语言的编程或处理器的人）提供教程。用于执行功能的特定算法可以以流程图的形式或以其他合适的格式来提供，其中数据字段和相关联功能可以以示例性的操作次序来阐述，其中该次序可以被重新布置为合适的次序，并且除非明确声明是限制性的，否则不意在是限制性的。
46.上述公开的实施例已出于说明目的被呈现，并且使得本领域普通技术人员能够实践本公开，但本公开不意在是穷举的或限于公开的形式。在不脱离本公开的范围和精神的情况下，许多非实质性的修改和变型对于本领域普通技术人员而言将是清楚的。权利要求的范围意在广泛覆盖所公开的实施例和任何这样的修改。此外，以下条款表示本公开的附加实施例，并且应当被认为在本公开的范围内：条款1. 一种用于处理从系统过程接收的大容量、高速流式数据的算法学习引擎，所述算法学习引擎包括：算法模型生成器，其配置成：使用模式识别算法和统计检验算法中的至少一个来处理来自所述流式数据的系统变量的集合，以标识模式、变量之间的关系和重要变量；以及生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。
47.条款2. 条款1的算法学习引擎，进一步包括数据预处理器，所述数据预处理器配置成选择感兴趣的系统变量并执行以下中的至少一个：聚合所选择的系统变量；以及对齐所述所选择的系统变量。
48.条款3. 条款2的算法学习引擎，其中，数据预处理器进一步配置成：基于时间对齐所述所选择的系统变量；以及将所对齐的变量布置成行。
49.条款4. 权利要求3的算法学习引擎，其中，所述数据预处理器进一步配置成基于至少一个预定义的聚合来聚合所述所选择的系统变量。
50.条款5. 条款4的算法学习引擎，其中，所述预定义的聚合是以下中的至少一个：平均数，最大值，最小值，最大值，中位数标准偏差。
51.条款6. 条款3的算法学习引擎，其中：所述数据预处理器进一步配置成使用从历史信息导出的预测来增强逻辑行；并且所述算法学习算法进一步配置成增量式生成以下中的至少一个：基于所述所标识的模式、变量之间的关系和重要变量的所述预测模型，关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型，以及跨变量的相似观测的复现集群模型。
52.条款7. 条款1的算法学习引擎，进一步包括可视化处理器，所述可视化处理器配置成：基于系统变量的集合和以下中的至少一个生成图形、统计信息和警告中的至少一个：所述预测模型、所述统计检验和复现集群。
53.条款8. 一种用于处理从系统过程接收的大容量、高速流式数据的方法，所述方法包括：使用模式识别算法和统计检验算法中的至少一个来处理来自所述流式数据的系统变量的集合，以标识模式、变量之间的关系和重要变量；以及生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。
54.条款9. 条款8的方法，进一步包括：选择感兴趣的系统变量，并执行以下中的至少一个：聚合所选择的系统变量；以及对齐所述所选择的系统变量。
55.条款10. 条款9的方法，进一步包括：基于时间对齐所述所选择的系统变量；以及将所对齐的变量布置成行。
56.条款11. 条款9的方法，进一步包括基于至少一个预定义的聚合来聚合所述所选择的系统变量。
57.条款12. 条款11的方法，其中，所述预定义的聚合是以下中的至少一个：平均数，最大值，最小值，最大值，中位数标准偏差。
58.条款13. 条款11的方法，进一步包括：使用从历史信息导出的预测来增强所述逻辑行；并且增量式生成以下中的至少一个：基于所述所标识的模式、变量之间的关系和重要变量的所述预测模型；关于相关性、变量之间的差或跨变量的时间模式的所述统计检验模型；以及跨变量的相似观测的所述复现集群模型。
59.条款14. 条款8的方法，进一步包括基于所述系统变量的集合和以下中的至少一个生成图形、统计信息和警告中的至少一个：所述预测模型、所述统计检验和复现集群。
60.条款15. 一种用于处理从系统过程接收的大容量、高速流式数据的系统，所述系统包括：多个系统过程服务器，它们配置成：生成所述流式大容量、高速数据；数据预处理器，其配置成：通过执行聚合选择系统变量和对齐选择系统变量中的至少一个来创建所述系统变量的集合：算法模型生成器，其配置成：使用模式识别算法和统计检验算法中的至少一个来处理来自所述流式数据的系统变量的集合，以标识模式、变量之间的关系和重要变量；以及生成以下中的至少一个：基于所标识的模式、变量之间的关系和重要变量的预测模
型；关于相关性、变量之间的差异或跨变量的时间模式的统计检验模型；以及跨变量的相似观测的复现集群模型。
61.条款16. 条款15的系统，其中，所述数据预处理器进一步配置成：基于时间对齐所述所选择的系统变量；以及将所对齐的变量布置成行。
62.条款17. 条款16的系统，其中，所述数据预处理器进一步配置成基于至少一个预定义的聚合来聚合所述所选择的系统变量。
63.条款18. 条款17的系统，其中，所述预定义的聚合是以下中的至少一个：平均数，最大值，最小值，最大值，中位数标准偏差。
64.条款19. 条款16的系统，其中：所述数据预处理器进一步配置成：使用从历史信息导出的预测来增强所述逻辑行；并且所述算法模型生成器进一步配置成增量式生成以下中的至少一个：基于所述所标识的模式、变量之间的关系和重要变量的所述预测模型；关于相关性、变量之间的差异或跨变量的时间模式的所述统计检验模型；以及跨变量的相似观测的所述复现集群模型。
65.条款20. 条款15的系统，进一步包括可视化处理器，其配置成：基于所述系统变量的集合和以下中的至少一个生成图形、统计信息和警告中的至少一个：所述预测模型、所述统计检验和复现集群。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于以高分辨率对图像序列中的包含感兴趣元素的区域进行编码的系统和方法与流程

用于从大容量、高速流式数据动态生成预测分析的算法学习引擎的制作方法

相关文献

最热文献