用于最优预测模型选择的多方法系统与流程

2022-03-01 18:25:21 来源：中国专利 TAG：

用于最优预测模型选择的多方法系统
1.相关申请的交叉引用本技术要求2019年6月6日提交的标题为“multi-method system for optimal predictive model selection”的美国临时专利申请62/858,165的优先权，该美国临时专利申请通过引用以其整体并入本文中以用于所有目的。

背景技术：

2.世界各地的公司都在使用人工智能（ai）和机器学习（ml）来预测异常、提高效率和使利润最大化。通常，向组织的业务过程中采用数据驱动的ai/ml技术需要进行重大调整，以及对运营支持结构进行更改。这个话题被广泛承认和讨论；例如参见：福布斯2018年11月30日——“why transforming your organization using data science must come from the top”https://www.forbes.com/sites/forbestechcouncil/2018/11/30/why-transforming-your-organization-using-data-science-must-come-from-the-top/#365af652da87）；和哈佛商业评论2017年8月——“how to make ai work for your business”https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/how-to-make-ai-work-for-your-business。
3.企业必须如何改变以便成功部署ai/ml的大部分讨论聚焦于组织支持、识别和确保“早期胜利”（成功）的方法，以及如何总体上使ai/ml活动与组织目标和结果一致。然而，在实践中，实际构建和选择ai/ml模型的任务通常被分配给指定的分析师或数据科学家，他们利用建模/分析软件来（1）构建“准确”的模型以用于测量的响应，诸如购买意愿、欺诈、机器故障或维护要求、不同类型的异常，或（2）识别数据中的结构，包括与预期模式的偏离。
4.几乎所有实现的ai/ml算法通常提供使用准确性或与准确性直接相关的指数来评估和比较预测模型的选项。它们要么提示分析师来选择，要么自动选择最准确的模型进行部署；例如参见：https://en.wikipedia.org/wiki/model_selection；或https://en.wikipedia.org/wiki/evaluation_of_binary_classifiers。
5.所谓的“模型的竞争-评估”途径和“auto-ml方法”自动将各种ml算法和策略应用于可用的训练数据，并在留出（hold-out）或测试样本中评估不同模型的准确性。测试样本仅用于模型评估，而不用于实际模型构建，以便提供关于微分模型准确性的信息。
附图说明
6.为了更完整地理解本公开的特征和优点，现在参考详细描述以及附图，在附图中，不同附图中的对应数字指代对应部分，并且在附图中：图1a是根据某些示例实施例的用于生成算法模型的系统的框图的图示，所述算法模型用于从过程的模型数据集生成预测分析；
图1b是根据某些示例实施例的ui模块生成的度量的图示，以在显示模块处显示一组识别的或生成的预测模型，其中基于automl的系统仅使用单一模型性能标准来生成或识别预测模型；图1c是根据某些示例实施例的ui模块生成的度量的图示，以在显示模块处显示一组识别的或生成的预测模型，其中基于automl的系统和满意度函数模块使用多元标准来生成或识别预测模型；图2a-2b是根据某些示例实施例的算法模型生成器的逻辑的算法流程图的图示；和图3是根据某些示例实施例的用于处理数据并选择最优预测模型选择和执行最优预测模型的计算机器的图示。
具体实施方式
7.虽然下文详细讨论了本公开的各种实施例的制作和使用，但是应当领会到，本公开提供了许多可应用的发明的概念，其可以在各种各样的特定上下文中具体化。本文所讨论的特定实施例仅是说明性的，并不对本公开的范围定界。为了清楚起见，在本公开中可能没有描述实际实现的所有特征。当然，应当领会到，在任何这种实际实施例的开发中，必须做出许多实现特定的决策以实现开发者的特定目标，诸如符合系统相关和业务相关的约束，这将因实现的不同而不同。此外，应当领会到，这种开发努力可能是复杂且耗时的，但是对于受益于本公开的本领域普通技术人员而言将是例行的任务。
8.为了实现组织的预测模型的最大值，准确性很少是在不同的ml/ai模型之间进行选择的最有帮助的度量。仅仅最近才尝试包含成本和roi作为标准来从使用传统的一般准确性标准生成的多个预测模型中选择“最佳模型”；然而，这种途径没有捕捉到使模型构建和选择与组织的优先级、需求和目标一致的真正挑战。
9.在ml/ai预测模型的基于准确性的评估与几乎所有希望或需要使用此类模型的组织的总体目标和实际限制之间存在明显的脱节。例如，最准确的预测模型可能：
‑ꢀ
过于复杂，并且因此不适合在低延迟流数据中部署（例如，考虑集成模型和低延迟机器人系统）；
‑ꢀ
足够复杂，以致于对新数据进行评分的计算成本会高于进行此类评分的预期投资回报（roi）；
‑ꢀ
需要特定昂贵的数据用于输入，使得与预期roi相比，使用该模型会过于昂贵；
‑ꢀ
不生成遵循实际上在真实数据中观察到的分布的预测，使所选模型不适合高保真度假设情景分析、过程模拟或优化项目（所有这些在工业4.0应用中是常见的）；
‑ꢀ
与特定的商业、法律或其他硬约束或高成本软约束的组合不兼容；和
‑ꢀ
在准确性具有最大值的情况下，特定预测因子的特定（离散、连续）值或值范围不太准确；当模型应用于生产中时，这种相对于特定观察的准确性的偏差也可能导致不合期望的偏差和不利的歧视性影响。
10.为了最大化组织或特定过程的最佳模型的业务价值（value），诸如数据采集（数据成本）、模型复杂性、模型评估标准、偏差或歧视性影响的风险、部署成本和其他模型属性之类的其他度量都必须与业务目标、资源、约束和合期望的业务结果一致。否则，ml和ai算法
可能会产生非常准确的模型，其将仍然无法为组织带来价值（roi-投资回报），或者更糟地，导致损失。
11.当前可用的自动模型构建和自动选择最佳模型的商业和开源解决方案，诸如在以下中实现的那些:h20 driverless ai (https://www.h2o.ai/products/h2o-driverless-ai/)；auto-sklearn (https://github.com/automl/auto-sklearn)；auto-keras (https://github.com/keras-team/autokeras)；mlbox; (https://github.com/axelderomblay/mlbox)；和许多商业解决方案聚焦于构建和/或找到最准确的预测模型的技术挑战。在ai/ml行业中，它们被表示为自动机器学习系统，并被称为基于automl的系统。
12.本文提出了一种用于产生算法模型的装置、系统和方法，该算法模型用于从过程（例如，业务过程）的模型数据集生成预测分析。该装置、系统和方法通过使用于生成机器学习模型的自动或其他方法和最佳实践与特定的业务结果和约束一致，显著地改进和扩展了当前可用的最先进的系统，即基于automl的系统和用于生成和评估预测模型的其他系统。这进而将显著地缩短从定义可以使用机器学习和ai解决的业务问题到给定当前业务约束下成功和连续可持续部署基于ml/ai的解决方案的时间。因此，该装置、系统和方法将有助于更快和更大的业务及其他的实际价值和roi。
[0013]“满意度”的概念在应用的统计领域有着长文献记载历史，以通知针对多种输出或kpi，到预测模型中的输入值的最佳选择的决策，每种输出或kpi都有其自己的目标特性和约束；例如参见2018年derringer, g. 和suich, r.的《质量技术杂志》的第2卷第214-219页。
[0014]
在www.itl.nist.gov/div898/handbook/pri/section5/pri5322.htm规定：“满意度函数途径是行业中最广泛使用的进行多响应过程优化的方法之一。它基于这样一种想法，即具有多个质量特性的产品或过程的“质量”，其中它们中的一个超出了某些“期望的”限制，是完全不可接受的。该方法找到提供
‘
最合期望的’响应值的操作条件”。
[0015]
一般来说，所提出的公式将多个测量或分级的kpi（关键绩效指标）或质量标准的特定值或值范围的满意度组合成单一满意度值。构成作为质量标准的函数的单一满意度值的值，可以分类为成本、中立、收益或介于其之间的某类。在本公开中，关于与一标准相关联的值的术语“价值”和“收益”具有相同的含义，并且可以互换使用。
[0016]
本公开将这些公式应用于系统和方法，其中多个kpi其通常与预测模型的质量和应用相关联或约束预测模型的质量和应用，如图2a和2b的框46至54中描述的。如图2a和图2b中描述的，将影响与预测模型相关联的总体满意度的多个标准的规定或测量的重要性，可以被组合成每个预测模型的单一满意度值，这通过使用已知的或用户提供的等式来从范围或测量的评估标准（诸如单个kpi的值或成本）计算总体满意度来进行。
[0017]
如上面引用的derringer和suich 所提供的等式提供了一个如何可以将多个标准上的满意度值或值范围组合成单一满意度值的示例。因为多个标准上的满意度是通过计算几何平均值（通过将各个满意度值相乘，缩放到从0.0到1.0的范围）来组合的，所以如果任何一个标准具有为0（零）的满意度，则相应预测模型的满意度也是0（零），并且因此是不合
期望的。这只是将不同的kpi组合成单一满意度值的可能途径之一。
[0018]
利用这种途径，使基于多种评估标准（诸如成本、与组织的目标的一致性、关键绩效指标（kpi）、约束和潜在风险或其标准的任何组合）选择的模型与用于构建和选择ai/ml模型以进行部署的过程和方法一致和统一。ai/ml模型的模型构建过程以及其他属性被认为是反映模型满意度的多目标优化问题的输入，所述模型满意度是诸如模型准确性或部署成本以及模型的预期收益之类的多个评估标准的函数，同时还在总体模型满意度值中反映关于性能要求和资源的可应用的约束，以及可能的责任和风险，例如由于算法模型的某些输入区域中的非预期的歧视性影响或不准确性。
[0019]
当构建和选择ai/ml模型时，用于生成算法模型的装置、系统和方法基于以下标准（非穷举）中的每一个考虑模型的满意度，该算法模型用于从过程的模型数据集生成预测分析：
‑ꢀ
获取对新观察评分所必需的数据元素的成本；
‑ꢀ
数据集子区域中的隐藏模式；
‑ꢀ
基于用户定义的约束的模型输入和输出；
‑ꢀ
模型复杂性和对新观察评分所需的时间；
‑ꢀ
模型复杂性和与对新观察评分相关联的成本；
‑ꢀ
模型复杂性和构建和/或重新校准模型所需的成本/时间；
‑ꢀ
手术中假阳性和假阴性的成本；
‑ꢀ
与模型预测中的偏差相关联的风险，或者如果模型被部署用于在生产中自动作出决策则会产生的歧视性影响；
‑ꢀ
预测分布相对于实际值分布的保真度；和
‑ꢀ
统计和预测准确性衍生的性能指标。
[0020]
因此，通过使用如以上所讨论的计算的总体模型满意度值，该装置、系统和方法在它训练、评估和比较合适的ai/ml模型时考虑各种统计和业务度量以及指导自动机器学习机器的约束。在本公开中，ai/ml模型和预测模型是相同的，并且可以互换使用。给定与所选模型相关联的预期业务价值，同时还考虑业务需求和约束，该装置、系统和方法引导用户并驱动自动化来选择用于部署的（一个或多个）最佳ai/ml模型。
[0021]
满意度函数是统计和数据科学领域中使用和很好理解的函数。满意度函数定义了不同评估标准上的值和值范围到预测模型关于各个组织的目标、政策或其他关键绩效指标的总体满意度值的映射。标准，诸如评分成本或模型准确性以及先前段落中描述的其他标准，是相应组织必须考虑以便评估模型的总体满意度的维度。约束定义了标准、多标准或标准的组合的可允许的值或值范围。约束可以是硬约束或软约束。例如，硬约束可以是这样一种约束，其中如果标准的值落在定义约束的可允许界限之外，则预测模型的满意度将为0（零）（例如，特定模型可能具有比规章允许的更大的歧视性影响，并且因此不能被组织选择和使用）。例如，软约束可以是这样一种约束，其中标准的某些值范围或标准的组合将使模型变得越来越不太合期望。例如，如果给定某个预测模型，对单个新案例、行或实例进行评分的成本超过某个值，则评分成本超过该值的程度将使该模型的满意度朝向0（零）迅速降低。满意度函数可以将一个或多个标准、环境、事实或影响的特定测量值或指定值转换为数值，该数值表明相对于不合期望的结果和期望的收益的总体满意度，当相应预测模型用于
对新数据进行评分时，以及当那些预测进而用于通知将影响组织的结果的过程决策时，预期对业务或组织产生所述不合期望的结果和期望的收益。映射到小的满意度值的标准值使得相应模型不太合期望；映射到较大满意度值的标准值使得相应模型更合期望。
[0022]
automl是一个专用于使构建复杂算法模型的过程自动化的研究领域。如本文中使用的automl（即自动机器学习）模块，涉及基于automl的系统。这些系统是软件解决方案，其处理自动化过程的各种领域。这些软件解决方案目前在开源以及商业市场中可得到。本说明书中的观察意指数据集中的一个逻辑行。本说明书中的预测因子变量意指在算法模型中使用的独立变量，它为定义的结果提供关于因变量的信息。结果变量是因变量，它响应于输入变量的变化而变化。其中至少一个的语言有意被解释为连接或非连接的。换句话说，a和b中的至少一个应该被解释为包括a和b两者，或者只包括a或者只包括b。
[0023]
算法是用于估计预测模型的参数的特定计算方法。分析方法指的是生成预测模型的过程，例如，通过使用自动机器学习（automl）或通过先验地选择某些统计或机器学习算法来用于从模型训练数据构建预测模型。分析途径定义了用于特定目的或具有某些共同特性的一类算法；例如，存在用于分类任务的多种分析途径，其包括许多适合预测分类（诸如信用卡客户是否会拖欠债务偿还，或图像分类）的机器学习算法；或者，例如，存在用于回归任务的多种分析途径，其包括用于连续结果变量的回归预测的许多算法。存在机器学习算法可以如何分类为多种类型的分析途径的许多方式，并且可以通过其定义分析途径的特定方式通常是领域特定的（不同的业务领域有所不同）。
[0024]
现在参考图1a，图示了根据某些示例实施例的用于生成算法模型的系统的框图，该算法模型用于从过程的模型数据集生成预测分析，该系统总体上表示为10。系统10包括算法模型生成器12、业务模型14、数据科学和业务分析输入模块16、多个模型集18和显示生成器20。本质上，系统10使用与特定过程相关的业务模型（诸如银行运作的业务模型）、预测因子变量和结果变量，基于预定义标准生成算法模型、预测结果，即观察和度量。
[0025]
业务模型14是描述过程的变量数据集，诸如包括组织的部门结构、过程和产品的组织的结构。数据科学和业务分析模块16是允许用户输入选择变量的模块，所述变量诸如是预测因子变量和预测因子变量类型以及结果变量和结果变量类型、模型分析类型、一个或多个算法模型准确性标准、一个或多个算法模型质量评估标准、以及将影响模型满意度的一个或多个评估标准。算法模型生成器12包括用于生成预测模型的基于automl的系统或与其等效的其他系统12a和满意度函数模块12b。模型数据集18是包括与业务模型相关的模型数据集的数据库储存库，该模型数据集用于训练算法模型以获得某些预测因子和结果变量和类型的预测结果。显示生成器20是交互式图形显示器和编程用户界面（ui）模块，其生成用于显示算法模型、曲线图、图表、一个和多个标准以及从算法模型生成器12生成的变量的图形显示，并向算法模型生成器12提供用户反馈。
[0026]
在一个实施例中，满意度函数模块12b处理结果和预测因子变量、结果和预测因子变量类型、模型分析类型、一个或多个算法模型准确性标准、一个或多个算法模型质量评估标准、以及将影响模型部署满意度的一个或多个评估标准，诸如但不限于货币成本、价值、风险、与政策或监管要求相符的程度以及如图2a和图2b的48-52中列举的其他，以便生成满意度函数。模型构建/生成或自动的基于automl的系统12a对模型数据集进行采样，以基于结果、输入和预测因子变量、结果、输入和预测因子变量类型、模型分析类型以及由满意度
函数模块12b提供的满意度函数来生成一组训练的算法模型和预测结果，即观察。显示生成器20使用图形显示语言（诸如基于java的html（超文本标记语言））生成交互式逻辑界面，并使该界面与显示模块20同步。图1b是针对一组识别或生成的预测模型的显示生成器20生成的度量的图示，其中，模型构建/生成或基于automl的系统12a仅使用性能标准来生成或识别预测模型。图1b是针对一组识别或生成的预测模型的显示生成器20生成的度量的图示，其中，模型构建/生成或基于automl的系统12a和满意度函数模块12b使用多元标准来生成或识别预测模型。
[0027]
算法模型生成器12可以基于模型数据集18和用户提供的输入变量和结果变量来构建预测模型，用于从如由相应组织选择的输入变量来预测结果变量。输入变量可以是独立变量（因果关系相关）和预测因子变量。算法模型生成器12可以实现如先前描述的全自动化的automl系统，或者它可以在不同分析途径或算法的列表上循环。此外，模型构建/生成或基于automl的系统12a可以使用满意度函数模块12b来生成至少一个算法模型；例如，模型构建/生成或基于automl的系统12a可以使用由满意度函数模块12b基于某个或某些标准生成的一个或多个总体满意度值来生成满足一个或多个总体满意度值的预测分类模型，所述标准例如是错误分类（不正确预测）行或案例的成本，这取决于相应案例所属的特定类别和它被错误分类到的特定类别。然而，即使生成的模型不是基于标准生成的，每个生成的模型也可以与特定标准的特定值相关联，如先前讨论的；那些标准可以通过12b中描绘的满意度函数转换成每个算法模型的满意度值。然后，经由显示生成器20向用户显示预测模型的结果得到的表、每个模型的相关联标准的值以及每个模型的总体满意度的值。用户可以经由显示生成器20再查看每个模型的这些结果，并选择一个模型或配置系统和ui以自动选择最合期望的模型以用于其中要应用相应预测模型的相应指定业务过程的最终部署。可以通过显示生成器20显示结果的细节、标准的值和满意度值。显示生成器20还允许用户手动选择不同的变量或选择修改算法模型生成器框12中使用的特定算法和分析途径。
[0028]
现在参考图2a-2b，图示了算法模型生成器12的逻辑的算法流程图，其总体表示为40。在框44，基于特定的过程，可以选择结果变量、结果类型、预测因子变量、预测因子变量类型、输入变量、输入变量类型以及用于ml、ai或用于对原因的简单解释和追溯性的线性模型的分析方法、算法类型和途径。在框46，选择对模型准确性、复杂性和保真度的一个或多个评估。可以选择模型准确性、复杂性和保真度的度量。也可以选择每个标准的重要性顺序和基于该重要性的每个标准的权重。
[0029]
在框48，可以选择模型部署价值（收益）和成本的评估标准。非穷举列表包括：对预先选择数量的训练算法模型和预测结果进行评分和部署的成本；每个分类结果变量假阳性预测的成本；每个分类结果变量假阳性预测的成本/满意度；每个分类结果正确预测的价值；每个连续结果变量预测错误的成本；获取每个预测因子变量的数据的成本；训练的算法模型构建和重新校准的成本。成本和价值中的一个或多个可以由每个类别的输入值分层。
[0030]
在框50，可以选择一个或多个其他业务标准。可以选择针对准确性、复杂性、保真度、部署、价值和成本的训练算法模型质量标准。框46和48中列出的每个标准可以被指定一个约束。而且，可以针对以下各项指定约束：训练算法模型性能价值、成本或两者；模型估计成本的训练算法模型；训练算法模型部署成本的限制；训练算法模型的可解释性的最大输入数量；以及对照其评估算法模型的歧视性影响的每个变量的一个或多个标准。
[0031]
可以考虑对训练算法模型进行部署和评分的时间复杂性。在其中开账单与资源利用相关联的云场景中，执行单一数据记录（单一数据点）所花费的时间量可能尤其有重要性。可以考虑对训练算法模型进行部署和评分的空间复杂性。执行单个数据点所消耗的空间量可以用于定制系统资源分配。所消耗的空间越少，可以在同一硬件（示例：虚拟机、容器等）上执行的数据点的数量就越高。
[0032]
可以考虑对训练算法模型进行部署和评分的分布比较。来自训练、测试和留出数据集的目标值的分布相比于留出数据集上的预测之间的比较用以评估模型拟合。在大量观察中，观察值和预测值的分布必须相似。可以考虑来自模拟数据的输出相对于某些预测因子（诸如人口统计属性）的比较，其将表明训练算法模型的偏差和歧视性影响。
[0033]
可以考虑用于对训练算法模型进行部署和评分的模型更新度量。部署的训练算法模型需要定期检查和更新以便保持相关性和性能。该度量捕捉关于在新数据上再次重新训练同一模型花费多长时间的信息。例如，线性回归模型不需要太多时间来重新训练。然而，复杂的神经网络可能会消耗大量的系统资源。
[0034]
可以考虑预测分布中的子区域的准确性的差别重要性。该度量捕捉关于数据的子区域中的预测准确性的信息（包括错误分类成本的影响）。例如，训练算法模型可能能够准确预测20与30岁之间的人的流失率，但不能预测30岁以上的人的流失率。如果对组织来说最重要和最有价值的人口统计部分是20到30岁的部分，那么模型构建和评估/比较过程应该反映这种业务偏好/要求。这样的信息对于识别数据中的模式以及对于数据清洗也可能很重要。
[0035]
可以考虑算法模型的基于约束的训练。在训练过程期间，可以选择算法模型上的特定约束。在其中生成多个模型（例如automl或模型网格搜索）的场景中，进行一些基于约束的训练可能是有用的。例如，只应该考虑可以在不到10ms内执行并且占用少于5mb空间的模型来能够被指定用于生产。该度量在比如iot（物联网）的低资源场景中或者在其中用户具有有限的财务预算进行部署情况下是有用的。时间序列（时间索引）变量的另一种类型的约束是限制某些预测因子变量的最小允许滞后时间，以便确保那些预测因子的值在需要支持低延迟实时系统中的预测时可用。
[0036]
可以考虑对训练算法模型进行部署和评分的数据成本。在一些建模和部署场景中，获取（测量）一些预测因子变量的值可能很昂贵。例如，当对客户数据建模时，可能必须从数据经纪人处购买特定的家庭和人口统计信息；在制造应用中，某些测量可能需要破坏性或另外成本高的测试。使用该度量，可以考虑获取特定预测因子的数据以训练（重新校准）和对新数据点评分两者的成本。
[0037]
在框52，每个标准可以被指定为硬标准或软标准。还可以为每个标准指定表示每个算法模型选择标准的重要性的权重。在框54，生成总体模型满意度值并将其呈现给用户。用户可以对总体模型满意度执行假设情景和分析。在框56，可以基于选择的结果和预测因子变量、结果和预测因子变量类型、模型分析类型、满意度函数的任何组合以及用户做出的任何修改来训练一个或多个算法模型。应当理解，框56可以在框54之前或之后在逻辑上执行。
[0038]
现在参考图3，图示了根据示例实施例的计算机器100和系统应用模块200。计算机器100可以对应于本文所呈现的各种计算机、移动设备、膝上型计算机、服务器、嵌入式系统
或计算系统中的任何一个。模块200可以包括一个或多个硬件或软件元件，其被设计成促进计算机器100执行本文所呈现的各种方法和处理功能。计算机器100可以包括各种内部或附接组件，诸如处理器110、系统总线120、系统存储器130、存储介质140、输入/输出接口150、以及用于与网络170（例如，回送、局域网、广域网、蜂窝/gps、蓝牙、wifi和wimax）通信的网络接口160。
[0039]
计算机器100可以被实现为常规的计算机系统、嵌入式控制器、膝上型电脑、服务器、移动设备、智能电话、可穿戴计算机、定制机器、任何其他硬件平台、或其任何组合或多样性。计算机器100以及相关联的逻辑和模块可以是被配置成使用经由数据网络和/或总线系统而互连的多个计算机器来工作的分布式系统。
[0040]
处理器110可以被设计为执行代码指令，以便执行本文描述的操作和功能、管理请求流和地址映射、以及执行计算和生成命令。处理器110可以被配置成监视和控制计算机器中的组件的操作。处理器110可以是通用处理器、处理器核、多处理器、可重新配置处理器、微控制器、数字信号处理器（“dsp”）、专用集成电路（“asic”）、控制器、状态机、选通逻辑、分立硬件组件、任何其他处理单元、或其任何组合或多样性。处理器110可以是单个处理单元、多个处理单元、单个处理核、多个处理核、专用处理核、协处理器、或其任何组合。根据某些实施例，处理器110连同计算机器100的其他组件可以是在一个或多个其他计算机器内执行的基于软件或基于硬件的虚拟化计算机器。
[0041]
系统存储器130可以包括非易失性存储器，诸如只读存储器（“rom”）、可编程只读存储器（“prom”）、可擦除可编程只读存储器（“eprom”）、闪速存储器、或能够在具有或没有施加功率的情况下存储程序指令或数据的任何其他设备。系统存储器130还可以包括易失性存储器，诸如随机存取存储器（“ram”）、静态随机存取存储器（“sram”）、动态随机存取存储器（“dram”）和同步动态随机存取存储器（“sdram”）。其他类型的ram也可以用于实现系统存储器130。系统存储器130可以使用单个存储器模块或多个存储器模块来实现。虽然系统存储器130被描绘为计算机器的一部分，但是本领域技术人员应当认识到，系统存储器130可以与计算机器100分离，而不脱离本主题技术的范围。还应当领会到，系统存储器130可以包括诸如存储介质140的非易失性存储设备，或者与其结合操作。
[0042]
存储介质140可以包括硬盘、软盘、压缩盘只读存储器（“cd-rom”）、数字多功能盘（“dvd”）、蓝光盘、磁带、闪速存储器、其他非易失性存储器设备、固态驱动器（“ssd”）、任何磁存储设备、任何光存储设备、任何电存储设备、任何半导体存储设备、任何基于物理的存储设备、任何其他数据存储设备、或其任何组合或多样性。存储介质140可以存储一个或多个操作系统、应用程序和程序模块、数据或任何其他信息。存储介质140可以是计算机器的一部分或连接到计算机器。存储介质140也可以是与计算机器进行通信的一个或多个其他计算机器的一部分，诸如服务器、数据库服务器、云存储、网络附接存储等。
[0043]
应用模块200可以包括一个或多个硬件或软件元件，其被配置成促进计算机器执行本文所提出的各种方法和处理功能。应用模块200和其他os应用模块可以包括作为与系统存储器130、存储介质140或两者相关联的软件或固件而存储的一个或多个算法或指令序列。存储介质140因此可以代表机器或计算机可读介质的示例，在其上可以存储指令或代码以供处理器110执行。机器或计算机可读介质通常可以指用于向处理器110提供指令的一个或多个任何介质。与应用模块200和其他os应用模块相关联的这种机器或计算机可读介质
可以包括计算机软件产品。应当领会到，包括应用模块200和其他os应用模块的计算机软件产品也可以与用于经由网络、任何信号承载介质、或任何其他通信或传送技术将应用模块200和其他os应用模块传送到计算机器的一个或多个过程或方法相关联。应用模块200和其他os应用模块还可以包括硬件电路或用于配置硬件电路的信息，诸如用于fpga或其他pld的微码或配置信息。在一个示例性实施例中，应用模块200和其他os应用模块可以包括能够执行通过本文呈现的流程图和计算机系统而描述的功能操作的算法。
[0044]
输入/输出（“i/o”）接口150可以被配置成耦合到一个或多个外部设备，以从一个或多个外部设备接收数据，并将数据发送到一个或多个外部设备。这样的外部设备与各种内部设备一起也可以被称为外围设备。i/o接口150可以包括用于将各种外围设备耦合到计算机器或处理器110的电和物理连接两者。i/o接口150可以被配置成在外围设备、计算机器或处理器110之间传送数据、地址和控制信号。i/o接口150可以被配置成实现任何标准接口，例如小型计算机系统接口（“scsi”）、串行附接scsi（“sas”）、光纤信道、外围组件互连（“pci”）、pci高速（pcie）、串行总线、并行总线、高级技术附接（“ata”）、串行ata（“sata”）、通用串行总线（“usb”）、雷电、火线、各种视频总线等。i/o接口150可被配置成仅实现一个接口或总线技术。或者，i/o接口150也可被配置成实现多个接口或总线技术。i/o接口150可被配置成系统总线120的一部分、全部、或与其结合操作。i/o接口150可以包括一个或多个缓冲器，其用于缓冲一个或多个外部设备、内部设备、计算机器、或处理器120之间的传输。
[0045]
i/o接口120可以将计算机器耦合到各种输入设备，包括鼠标、触摸屏、扫描仪、电数字化仪、传感器、接收器、触摸板、轨迹球、相机、麦克风、键盘、任何其他定点设备、或其任何组合。i/o接口120可以将计算机器耦合到各种输出设备，包括视频显示器、扬声器、打印机、投影仪、触觉反馈设备、自动化控制、机器人组件、致动器、电动机、风扇、螺线管、阀、泵、发送器、信号发射器、灯等等。
[0046]
计算机器100可以使用通过nic 160到网络上的一个或多个其他系统或计算机器的逻辑连接在联网环境中操作。网络可以包括广域网（wan）、局域网（lan）、内联网、因特网、无线接入网、有线网络、移动网络、电话网络、光网络、或其组合。网络可以是任何拓扑的分组交换、电路交换，并且可以使用任何通信协议。网络内的通信链路可以涉及各种数字或模拟通信介质，诸如光纤光缆、自由空间光学器件、波导、电导体、无线链路、天线、射频通信等。
[0047]
处理器110可以通过系统总线120连接到计算机器的其他元件或本文讨论的各种外设。应当领会到，系统总线120可以在处理器110内、在处理器110外、或两者。根据一些实施例，处理器110、计算机器的其他元件、或本文所讨论的各种外设中的任何一个可以集成到单个设备中，诸如片上系统（“soc”）、系统级封装（“sop”）或asic设备。
[0048]
实施例可以包括使本文描述和说明的功能具体化的计算机程序，其中，计算机程序在计算机系统中实现，该计算机系统包括存储在机器可读介质中的指令和执行指令的处理器。然而，应当清楚，在计算机编程中可以存在实现实施例的许多不同方式，并且除非针对示例性实施例另外公开，否则实施例不应当被解释为限于任何一组计算机程序指令。此外，熟练的程序员将能够基于申请文本中的所附流程图、算法和相关联的描述来编写这样的计算机程序以实现所公开的实施例的某一实施例。因此，特定程序代码指令集的公开不应被认为对于充分理解如何制造和使用实施例是必需的。此外，本领域技术人员应当领会
到，本文描述的实施例的一个或多个方面可以由硬件、软件或其组合来执行，如可以在一个或多个计算系统中具体化。此外，对由计算机执行的动作的任何引用不应被解释为是由单个计算机来执行的，因为多于一个计算机可以执行该动作。
[0049]
本文描述的示例实施例可以与执行先前描述的方法和处理功能的计算机硬件和软件一起使用。本文描述的系统、方法和过程可以在可编程计算机、计算机可执行软件、或数字电路中具体化。软件可以存储在计算机可读介质上。例如，计算机可读介质可以包括软盘、ram、rom、硬盘、可移动介质、闪速存储器、存储棒、光学介质、磁光介质、cd-rom等。数字电路可以包括集成电路、门阵列、构建块逻辑、现场可编程门阵列（fpga）等。
[0050]
在先前呈现的实施例中描述的示例系统、方法和动作是说明性的，并且在替选实施例中，某些动作可以以不同的顺序执行、彼此并行地执行、完全省略和/或在不同的示例实施例之间进行组合，和/或可以执行某些附加动作，而不脱离各种实施例的范围和精神。因此，这样的替选实施例包括在本文的描述中。
[0051]
如本文所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确指示。还应当领会到，术语“包括”和/或“包含着”当在本说明书中使用时，指定了存在所陈述的特征、整体、步骤、操作、元件和/或组件，但不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组的存在或附加。如本文所使用的，术语“和/或”包括相关联的所列项目中的一个或多个的任何和所有组合。如本文所使用的，诸如“在x和y之间”和“在约x和y之间”之类的短语应被解释为包括x和y。如本文所使用的，诸如“在约x和y之间”之类的短语意指“在约x和约y之间”。如本文所使用的，诸如“从约x到y”之类的短语意指“从约x到约y”。
[0052]
如本文所使用的，“硬件”可以包括分立组件、集成电路、专用集成电路、现场可编程门阵列或其他合适硬件的组合。如本文所使用的，“软件”可以包括一个或多个对象、代理、线程、代码行、子例程、单独的软件应用、在两个或更多个软件应用中、在一个或多个处理器（其中，处理器包括一个或多个微计算机或其他合适的数据处理单元、存储器设备、输入-输出设备、显示器、诸如键盘或鼠标的数据输入设备、诸如打印机和扬声器的外设、相关联的驱动器、控制卡、功率源、网络设备、对接站设备、或在与处理器或其他设备结合的软件系统的控制下操作的其他合适的设备）上操作的两个或更多个代码行或其他合适的软件结构。在一个示例性实施例中，软件可以包括在诸如操作系统的通用软件应用中操作的一个或多个代码行或其他合适的软件结构、以及在专用软件应用中操作的一个或多个代码行或其他合适的软件结构。如本文所使用的，术语“耦合”及其同族术语（诸如“进行耦合”和“被耦合”可以包含物理连接（诸如铜导体）、虚拟连接（诸如通过数据存储器设备的随机分配存储器位置）、逻辑连接（诸如通过半导体设备的逻辑门）、其他合适的连接、或此类连接的合适组合。术语“数据”可以指用于使用、传送或存储数据的适当结构，诸如数据字段、数据缓冲器、具有数据值和发送者/接收者地址数据的数据消息、具有数据值和使得接收系统或组件使用数据执行功能的一个或多个操作符的控制消息、或者用于数据的电子处理的其他合适的硬件或软件组件。
[0053]
通常，软件系统是在处理器上操作以响应于预定数据字段而执行预定功能的系统。例如，系统可以由它执行的功能和它对其执行该功能的数据字段来定义。如本文所使用的，name系统是指被配置成在处理器上操作并对所公开的数据字段执行所公开的功能的软
件系统，其中，name通常是由系统执行的一般功能的名称。除非公开了特定算法，否则本领域技术人员已知的用于使用相关联的数据字段来执行功能的任何合适的算法都被设想落入本公开的范围内。例如，生成包括发送者地址字段、接收者地址字段和消息字段的消息的消息系统将包含在处理器上操作的软件，该软件可以从处理器的适当系统或设备（诸如缓冲器设备或缓冲器系统）获得发送者地址字段、接收者地址字段和消息字段，可以将发送者地址字段、接收者地址字段和消息字段组装成适当的电子消息格式（诸如电子邮件消息、tcp/ip消息或具有发送者地址字段、接收者地址字段和消息字段的任何其他合适的消息格式），并且可以在通信介质（诸如网络）之上使用电子消息收发系统和处理器的设备来传送电子消息。本领域普通技术人员将能够基于前述公开内容提供用于特定应用的特定编码，其旨在阐述本公开的示例实施例，并且不为具有比本领域普通技术人员少的技术的人员提供教程，诸如不熟悉以合适的编程语言的编程或处理器的人员。用于执行功能的特定算法可以以流程图形式或以其他合适的格式来提供，其中，数据字段和相关联的功能可以以示例性操作顺序来阐述，其中，该顺序可以被适当地重新布置并且没有进行限制的意图，除非明确地声明为是限制性的。
[0054]
为了说明的目的，并且为了使得本领域普通技术人员能够实践本公开，已经呈现了以上公开的实施例，但是本公开并不旨在是穷举的或限于所公开的形式。在不脱离本公开的范围和精神的情况下，许多非实质性的修改和变化对于本领域普通技术人员来说将是显而易见的。权利要求的范围旨在广泛地覆盖所公开的实施例和任何这样的修改。此外，以下条款代表本公开的附加实施例并且应当被认为是在本公开的范围内：条款1，一种用于生成算法模型的装置，所述算法模型用于从过程的模型数据集生成预测分析，所述装置包括：满意度函数模块，被配置为生成满意度函数，其中所述满意度函数定义：至少一个结果变量和结果变量类型以及至少一个预测因子变量和至少一个预测因子变量类型；至少一个算法模型准确性标准、至少一个模型分析类型、至少一个算法模型质量评估标准和至少一个模型部署成本评估标准；以及自动机器学习模块，被配置为：生成至少一个算法模型，所述算法模型具有根据满意度函数选择的变量集；以及对照模型数据集训练至少一个算法模型；条款2，根据条款1所述的装置，其中所述分析模型类型包括从包括分析方法、分析算法和分析途径的群组中选择的至少一个；条款3，根据条款1所述的装置，其中算法模型质量评估标准包括来自包括以下各项的群组的至少一个：算法模型准确性的度量；算法模型复杂性的度量；和算法模型保真度的度量；条款4，根据条款1所述的装置，其中模型部署成本评估标准包括来自包括以下各项的群组的至少一个：对至少一个算法模型进行评分的成本；每个分类结果假阳性预测的成本；每个分类结果假阴性预测的成本；每个分类结果正确预测的价值；每个连续结果预测错误的成本；获取每个预测因子变量的数据的成本；和模型构建和重新校准的成本；条款5，根据条款4所述的装置，其中每个分类结果假阳性预测的成本由每个类别的每个输入值分层；其中每个分类结果假阴性预测的成本由每个类别的每个输入值分层；其中每个分类结果正确预测的价值由每个类别的每个输入值；并且其中每个连续结果预测错误的成本可选地针对每个类别的每个输入值被分层；
条款6，根据条款1所述的装置，其中所述满意度函数进一步定义了来自包括以下各项的群组的至少一个：模型质量标准；模型性能价值；模型性能成本；模型估计成本的限制；模型部署成本的限制；模型可解释性的最大输入数量；用于评估预测模型的歧视性影响的变量的标准；条款7，根据条款1所述的装置，其中所述满意度函数进一步为至少一个算法模型准确性标准；和至少一个算法模型质量评估标准；至少一个模型部署成本评估标准中的一个或多个定义权重、硬限制或权重和硬限制的组合；条款8，一种用于生成算法模型的系统，所述算法模型用于从过程的模型数据集生成预测分析，所述系统包括：满意度函数模块，被配置为生成满意度函数，其中所述满意度函数定义：至少一个结果变量和结果变量类型以及至少一个预测因子变量和至少一个预测因子变量类型；以及至少一个算法模型准确性标准、至少一个模型分析类型、至少一个算法模型质量评估标准和至少一个模型部署成本评估标准；自动机器学习模块，被配置为：生成至少一个算法模型，所述算法模型具有根据满意度函数选择的变量集；以及对照模型数据集训练至少一个算法模型；以及ui（用户界面）模块，被配置为生成用户界面，以显示至少一个算法模型准确性标准、至少一个模型分析类型、至少一个算法模型质量评估标准和至少一个模型部署成本评估标准；其中所显示的标准和成本是可选择和可定义的；条款9，根据条款8所述的系统，其中算法模型质量评估标准包括来自包括以下各项的群组的至少一个：算法模型准确性的度量；算法模型复杂性的度量；和算法模型保真度的度量；条款10，根据条款8所述的系统，其中模型部署成本评估标准包括来自包括以下各项的群组的至少一个：对至少一个算法模型进行评分的成本；每个分类结果假阳性预测的成本；每个分类结果假阴性预测的成本；每个分类结果正确预测的价值；每个连续结果预测错误的成本；获取每个预测因子变量的数据的成本；和模型构建和重新校准的成本；条款11，根据条款10所述的系统，其中每个分类结果假阳性预测的成本由每个类别的每个输入值分层；其中每个分类结果假阴性预测的成本由每个类别的每个输入值分层；其中每个分类结果正确预测的价值由每个类别的每个输入值；并且其中每个连续结果预测错误的成本可选地针对每个类别的每个输入值被分层；条款12，根据条款8所述的系统，其中所述满意度函数进一步定义来自包括以下各项的群组的至少一个：模型质量标准；模型性能价值；模型性能成本；模型估计成本的限制；模型部署成本的限制；模型可解释性的最大输入数量；用于评估预测模型的歧视性影响的变量的标准；条款13，根据条款8所述的系统，其中所述满意度函数进一步为至少一个算法模型准确性标准；至少一个算法模型质量评估标准；至少一个模型部署成本评估标准中的一个或多个定义权重、硬限制或权重和硬限制的组合；条款14，一种用于生成算法模型的方法，该算法模型用于从过程的模型数据集生成预测分析，所述方法包括：生成满意度函数；定义至少一个结果变量和结果变量类型以及至少一个预测因子变量和至少一个预测因子变量类型；定义至少一个算法模型准确性标准、至少一个模型分析类型、至少一个算法模型质量评估标准和至少一个模型部署成本评估标准；生成至少一个算法模型，所述算法模型具有根据满意度函数选择的变量集；对照模
型数据集训练至少一个算法模型；以及生成用户界面以显示至少一个算法模型准确性标准、至少一个模型分析类型、至少一个算法模型质量评估标准和至少一个模型部署成本评估标准；其中所显示的标准和成本是可选择和可定义的；条款15，根据条款14所述的方法，其中所述分析模型类型包括从包括分析方法、分析算法和分析途径的群组中选择的至少一个；条款16，根据条款14所述的方法，其中算法模型质量评估标准包括来自包括以下各项的群组的至少一个：算法模型准确性的度量；算法模型复杂性的度量；和算法模型保真度的度量；条款17，根据条款14所述的方法，其中模型部署成本评估标准包括来自包括以下各项的群组的至少一个：对至少一个算法模型评分的成本；每个分类结果假阳性预测的成本；每个分类结果假阴性预测的成本；每个分类结果正确预测的价值；每个连续结果预测错误的成本；获取每个预测因子变量的数据的成本；和模型构建和重新校准的成本；条款18，根据条款17所述的方法，其中每个分类结果假阳性预测的成本由每个类别的每个输入值分层；其中每个分类结果假阴性预测的成本由每个类别的每个输入值分层；其中每个分类结果正确预测的价值由每个类别的每个输入值；并且其中每个连续结果预测错误的成本可选地针对每个类别的每个输入值被分层；条款19，根据条款14所述的方法，还包括定义来自包括以下各项的群组的至少一个：模型质量标准；模型性能价值；模型性能成本；模型估计成本的限制；模型部署成本的限制；模型可解释性的最大输入数量；用于评估预测模型的歧视性影响的变量的标准；和条款20，根据条款14所述的方法，还包括为至少一个算法模型准确性标准；至少一个算法模型质量评估标准；和至少一个模型部署成本评估标准中的一个或多个定义权重、硬限制或权重和硬限制的组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于超像素和稀疏约束的活动轮廓图像分割方法及装置与流程

用于最优预测模型选择的多方法系统与流程

相关文献

最热文献