关联干扰事件与事故或凭单的制作方法

2023-02-19 01:54:32 来源：中国专利 TAG：

1.本技术总体涉及计算机和计算机应用，尤其涉及用于生成用于训练机器学习模型以执行预测和预报的数据的系统和方法

背景技术：

2.诸如天气风暴、暴雪和电磁灾害的环境干扰，通常会导致资产故障或失灵以及相关停电事件，导致服务质量问题。然而，此类故障事件在没有环境灾难的时候也可能发生。就是说，由于数据汇编时可用的信息有限、时间限制或人员培训不足，通常无法根据数据确定故障是由干扰引起的。对于更好的业务管理来说，始终需要对所有故障事件进行适当的标记或分类，例如标记或分类为灾难。
3.此类干扰的例子常见于基础设施公司、配电电力公司的电力基础设施(天气风暴)、在野外部署的用于化学制造工艺的传感器网络(电磁灾害)。
4.当今任何认真分析都需要这些失灵或故障事件的干净数据。因此，需要对事件进行自动标记，以区分正常或环境干扰情况。
5.从数据质量的角度来看，需要验证现有的标记，填补缺失的标记。

技术实现要素：

6.一种系统、方法和计算机程序产品能够将资产失灵、故障或停电事件可靠地自动标记为由干扰(例如环境干扰)引起的事件。
7.由于机器学习(ml)模型可以由硬件处理器训练和运行，以执行预测并生成与输入相关的预报，该系统，方法和计算机程序产品在将数据用作模型训练集的训练数据之前，先处理数据，以正确地标记数据和/或对数据分类(例如标记和/或分类为灾难)，从而提高训练数据质量。
8.该系统、方法和计算机程序产品对与基础设施故障事件相关的问题凭单(trouble ticket)进行自动标记和/或分类(标记和/或分类为灾难)，这些事件伴随区域内的环境干扰，这些环境干扰通常会导致某些资产失灵(malfunction)或故障(fail)，和/或导致停电(outage)。
9.该系统、方法和计算机程序产品提供了一种概率标记(probabilistic labeling)，将资产失灵、故障或中断与干扰相关联，干扰本身或者是基于可用数据而已知的，或者可能是未知的。
10.该系统、方法和计算机程序产品对与相关地理子区域中的服务凭单(service tickets)相对应的时间序列事件进行统计变化点分析。
11.在用作模型训练集的训练数据之前，系统和方法框架自动地标记事件，以分离(separate)正常情况或环境干扰情况。
12.该系统和方法框架提供了自动的数据处理，以“清理”各种用例域的失灵或故障事件的数据，然后将其用作模型训练集的训练数据。
13.该系统和方法框架进一步验证现有标记，填补模型训练集缺失的标记，并实现自动化，大大减少了人工验证人员所需的时间。最终，该系统和方法识别所有风暴，并将凭单标记为与风暴相关或不相关的。
14.在一些示例中，提供一种概率标记系统。该系统包括：存储器；包含硬件的处理器，该处理器被配置得与存储器通信。该处理器配置用于：从数据源接收一组服务记录，一个或多个服务记录对应于一段时间内发生的指定区域的多个干扰揭示事件，一个或多个服务记录被错误标记或没有与相关干扰相关的标记；确定该时期的干扰揭示事件的观察到的实际事件比率；确定在该时期的非干扰条件下预期服务相关记录的基准平均定期合计比率；确定作为该时期内的基准平均定期合计比率和观察到的实际事件比率的函数的一组标准化定期合计分数；基于该时期内检测到的标准化定期合计分数的变化来识别干扰时间窗口；生成与所识别的干扰时间窗口相对应的服务凭单的干扰相关概率；以及基于所生成的概率，向服务记录重新分配与所识别的干扰时间窗口相关的标记。
15.在一些示例中，提供了一种概率标记方法。计算机实现的方法包括：由硬件处理器从数据源接收一组服务记录，一个或多个服务记录对应于指定区域在一个时期内发生的多个干扰揭示事件，一个或多个服务记录被错误标记或没有与相关联的干扰相关的标记；由硬件处理器确定该时期的干扰揭示事件的观察到的实际事件比率；由硬件处理器确定在该时期的非干扰条件下预期服务相关记录的基准平均定期合计比率；由硬件处理器确定作为该时期内的基准平均定期合计比率和观察到的实际事件比率的函数的一组标准化定期合计分数；由硬件处理器基于该时期内检测到的标准化定期合计分数的变化来识别干扰时间窗口；由硬件处理器生成与所识别的干扰时间窗口相对应的服务凭单的干扰相关概率；以及基于所生成的概率，向服务记录重新分配与所识别的干扰时间窗口相关的标记。
16.在一些示例中，一般性地描述了用于概率标记的计算机程序产品。计算机程序产品可以包括具有包含在其中的程序指令的计算机可读存储介质。程序指令可由设备的处理元件执行，以使设备执行本文所述的一种或多种方法。
17.下面参考附图详细描述各种实施例的进一步特征以及结构和操作。在附图中，相似的参考号表示相同或功能相似的元件。
附图说明
18.图1显示了事件的概率标记、干扰检测和识别的系统框架的一般性概述；
19.图2a显示了在补救(remediation)之前数据质量分析中使用的服务凭单数据集；
20.图2b示出补救后的修改数据集输出，包括具有检测到的风暴信息的记录，并包括概率标记；
21.图3示出根据本文实施例的用于实现用于提高问题凭单数据集的性能的框架和方法的计算机系统；
22.图4是由执行自动化任务的监控程序运行的方法，用于更准确地标记(概率地)带有干扰(例如风暴)的问题凭单数据，如图3的系统运行的；
23.图5示出示例实施例中显示风暴揭示凭单(storm-revealing tickets)的特征的表；
24.图6示出用图3的系统对先前已知的干扰(特定子区域中的已知风暴)进行干扰识
别、概率标记和事件(凭单)分配的总体系统架构；
25.图7是示出特定位置子区域随时间(x轴)的期间合计srt计数率(y轴)的时间序列的图；
26.图8a示出总结根据本文实施例的变化点分析中使用的符号和示例性默认值的表；
27.图8b示出显示根据本文实施例的分析中使用的多个时间序列数据的总结的表；
28.图9示出诸如具有涉及三种状态的生命周期的风暴的干扰寿命；
29.图10a示出根据时间绘制的计算cusum值的示例cusum控制图，用于说明应用用于识别本地干扰边界的校准变化点算法的方面；
30.图10b示出第一替代实例中计算的cusum值的示例性cusum控制图；
31.图10c示出第二替代实例中计算的cusum值的示例性cusum控制图；
32.图10d示出第三替代实例中计算的cusum值的示例性cusum控制图；
33.图11示出校准变化点方法的示例伪代码，其中如图10a所示获得时间点以确立风暴边界；
34.图12示出在验证过程中使用的数据子集的图，特别示出了根据本文实施例的公用事业公司的凭单分类；
35.图13是根据本文实施例的用于验证过程的关键指标的示意图；
36.图14是示出可由处理器执行以使用根据实施例的机器学习模型实现预防动作的过程的流程图；
37.图15示出在本发明的一个实施例中可以实现服务凭单的概率标记的示例计算机或处理系统的示意图。
具体实施方式
38.在一个实施例中，系统框架实现用于与事件(例如，资产失灵、设备故障和停电)、干扰检测和识别相关的记录或数据的概率标记的方法。
39.将资产失灵、故障和停电事件可靠地标记为由干扰引起的事件的能力，大大提高了数据质量，并为其他分析技术开辟了道路，最终导致更好的停电检测、预测和管理。
40.举例来说，在例如由公用事业公司实施的天气相关的干扰管理的示例上下文中描述系统框架。特别令人感兴趣的是与风暴有关的干扰，这类公司往往强调做好准备，尽量减少受影响的客户数量，并进行资源规划。因此，对这类公司来说，了解干扰(天气条件)与其停电之间的关系是至关重要的。
41.为了帮助解释，提供管理与天气相关的停电的上下文中的几个术语的定义。
[0042]“服务”(service)是指根据某些合同义务为客户执行工作的行为。例如提供电力或计算支持。在一个例子中，重点是服务提供公司的利益，如电力公用事业公司。
[0043]“干扰”(disturbance)是指已解决或正常服务条件的中断。干扰可以是完全或部分可预测的。其影响是改变支持服务的基础设施或对其产生压力，从而导致服务质量问题，例如停电。在与天气相关的停电分析中，干扰对应于风暴。在这种情况下，干扰的影响通常与当地子区域的电力线基础设施及其特性(例如人口统计或地形)有关。另一个域或背景中干扰的另一个例子，是例如在服务台服务域的情况下，诸如计算机操作系统变更的干扰。
[0044]“事件”是指提供纠正措施以确保服务质量的维护或维修请求。事件可能(也可能
不)与干扰有关。在风暴分析中，事件通常与停电维修凭单形式的电力恢复请求相对应。
[0045]“干扰揭示事件”(dre：disturbance-revealing event)是在有干扰的情况下比没有干扰的情况下更容易发生的特定事件族。此类事件可以通过先前的主题知识或统计分析来识别。在风暴停电分析的情况下，一种dre的一种类型对应于由倒下的树木引起的电源故障；另一种类型是由于需要移除一棵向电线倾斜的树而导致的停电。在与天气相关的停电的情况中，dre与在本文中称为风暴揭示凭单(srt)服务凭单相关联。
[0046]“先前已知干扰”(prior-known disturbances)是在事件分配给它们之前就已知的一组干扰。在与天气相关的应用中，这些是“已知风暴”，也称为“命名的风暴”。
[0047]“先前标记事件”(prior-labeled events)是指已被分配给相应的干扰的事件。在与天气相关的示例中，它们表示到关闭时分配给风暴的服务凭单。
[0048]“干扰相关概率”(disturbance-related probability)是指dre事件与干扰相关联的概率。在天气性停电的情况下，这是给定srt与风暴相关联的概率。
[0049]“标记”(labeling)是将dre(或srt)分配给干扰的过程。这种分配可以是确定性的(即真/假)或概率性的。在与天气相关的应用中，系统框架提供将srt分配给已知或新发现的风暴的概率标记。
[0050]“验证(validation)是确立基于先前标记的事件集合和对应于已知和新发现的风暴的时期的概率标记的一致性的过程。事件和干扰常常是特定于位置的。例如，在给定的风暴停电分析中，由于凭单启动过程和风暴的空间覆盖，凭单被细分为子区域。在这种情况下，本地干扰(local disturbances)被定义为针对特定地理位置所识别的干扰。
[0051]
与天气相关的停电是电力公司关注的主要原因。图1显示了用于事件的概率标记、干扰检测和识别的系统框架50的一般概述。由计算机系统实现的第一个处理步骤是访问初始数据55，其例如是从问题凭单数据库60获得的，包括与特定区域的服务凭单流70相关的、包括与诸如由天气相关干扰引起的服务中断相关的数据的一组数据。这些凭单可包括将特定停电与所识别的风暴相关联的信息。因此，至少需要两组数据：凭单或日志以及天气(或环境数据)。凭单可以包含与干扰族相关的信息，并且凭单的一部分已经知道风暴id(用于验证)，通常他们没有被标记为非风暴相关的。所包括的其他数据可包括天气数据，例如但不限于：每小时气压、风速、阵风、降雨量等。
[0052]
计算机系统执行的进一步处理步骤75，是对srt数据质量的评估，例如，检查1)缺失标记的百分比，2)检查不可靠地标记的凭单，例如具有时间或空间(地理)差异的凭单。此类质量确定可由验证器执行，验证器分析数据，并生成质量报告，包括描述、通过/失败评估、分数和/或带有任何细节和/或可视化的建议。补救者可以分析质量报告，修复数据报告，并生成补救报告。替代地，可以采用迭代过程，该过程接收输入的服务凭单数据并采用工作流流水线，该工作流流水线实施知识图谱来学习和配置约束，生成数据简档，应用该约束并在生成的质量报告中显示结果，该报告由补救者用于在补救过程中的修复数据。
[0053]
因此，在图1中，在75处，如果认为srt数据质量是不可接受的，例如不满足质量阈值，则按照本文描述的实施例的方式执行补救步骤。在80执行补救步骤，以更新并整理数据集，即识别遗漏的风暴，并执行对每个干扰揭示事件中的适当单个干扰的分配，以及提供量化这种分配的置信度的概率。这样的补救步骤可以有效地估算缺失的标记(概率标记)并确定适当的风暴/风暴期。生成概率标记并识别所有遗漏的风暴，以便更新数据集并提高训练
机器学习模型的适用性。
[0054]
图2a显示了在补救之前的数据质量分析中使用的服务凭单数据集60。在图2a中，数据集60包括对应于实际和预期停电处理的电力设施服务记录(凭单)70。每个记录70是自包含的并指示多个属性。数据集60中的记录数量没有限制，并且该数据集可以包含数十万条记录，覆盖多个变电站，并跨越数年。如图所示，每个记录70包括用于分析的属性，包括：凭单id字段63；估计停电开始时间65，其在凭单启动时用时间戳填充；以及指示受影响覆盖区域的有效变电站字段68。此外还包括：风暴id字段73，该字段仅在停电是由风暴引起的情况下填充；原因描述字段75，其指示特定停电的原因；表示受影响客户的数量的字段78。可以有对应于结束时间的、包括在凭单关闭时填充的时间戳的附加字段(未予示出)。虽然凭单可以具有分配的风暴id，但是，如数据集60所示，在补救之前，有许多与风暴相关的凭单记录-例如凭单72-的相关联风暴id字段缺失或为空。此外，存在此字段错误的凭单。因此，如图2a的数据集60所示，对于这些字段/记录，插补和补救措施是必要的。
[0055]
图3示出根据本文实施例的、用于实现用于提高用于机器模型训练的问题凭单数据集的性能的框架和方法的、特别是用于将服务单与干扰事件关联的计算机系统100。在一些方面，系统100可以包括计算设备、移动设备或服务器。在一些方面，计算设备100可以包括例如个人计算机、笔记本电脑、平板电脑、智能设备、智能手机或任何其他类似的计算设备。
[0056]
计算系统100包括一个或多个硬件处理器152a、152b、存储器150(例如，用于存储操作系统和应用程序指令)、网络接口156、显示设备158、输入设备159以及计算设备常见的任何其他特征。在一些方面，计算系统100可以是任何计算设备，其被配置为通过公共或私有通信网络99与包括基于web或云的服务器120的一个或多个网站125通信。例如，虽然本文描述的示例性实施例的背景是公用事业公司服务和管理侧重于天气相关干扰的问题凭单，但网站125可以包括提供电力公用事业服务记录(凭单)的数据库资源130。
[0057]
由于本文的框架适用于许多环境，数据库130可包括其他企业在其他领域的干扰管理环境中持有的问题凭单数据。此类领域的示例包括技术(分析计算机网络过载和qos保证中产生的其他现象时)、保险(其中干扰通常与异常高的索赔量相关)或金融(其中事件对应于交易)。
[0058]
此外，如系统100的一部分所示，提供了本地存储器160，用于存储和处理凭单和凭单子集161和/或存储在数据处理框架中使用的选定和/或默认参数和例如用于评估数据质量的其他指标162。这种设备可以包括附接的存储器存储设备，或可通过远程网络连接访问以输入到系统100远程存储器存储设备，例如数据库。
[0059]
在图3所示的实施例中，处理器152a、152b可以包括例如微控制器、现场可编程门阵列(fpga)或配置为执行各种操作的任何其他处理器。此外，还显示了通信信道140，例如用于在系统100的各个组件之间路由信号的有线连接，诸如数据总线、地址总线、输入/输出(i/o)数据线等。处理器152a、152b被配置为执行如下所述的方法指令。这些指令可以例如作为编程模块存储在另一个相关联的存储器存储设备150中。
[0060]
存储器150可以包括例如易失性存储器形式的非瞬态计算机可读介质，诸如随机存取存储器(ram)和/或高速缓冲存储器或其他存储器。例如，存储器150可以包括其他可移动/不可移动、易失性/非易失性存储介质。仅作为非限制性示例，存储器150可包括便携式
计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、便携式光盘只读存储器(cd-rom)、光存储设备、磁存储设备或上述的任何适当组合。
[0061]
网络接口156被配置为例如通过有线或无线连接向网站服务器120发送和从网站服务器120接收数据或信息。例如，网络接口156可以利用无线技术和通信协议，诸如服务器120接收数据或信息。例如，网络接口156可以利用无线技术和通信协议，诸如wifi(例如802.11a/b/g/n)、蜂窝网络(例如cdma、gsm、m2m和3g/4g/4g lte)、近场通信系统、卫星通信、局域网(lan)、广域网(wan)，或允许计算设备100向服务器120发送信息或从服务器120接收信息的任何其他形式的通信。
[0062]
显示器158可以包括，例如，计算机监视器、电视、智能电视、集成到诸如笔记本电脑、智能手机、智能手表、虚拟现实耳机、智能可穿戴设备的个人计算设备中的显示屏，或用于向用户显示信息的任何其他机制。在一些方面，显示器158可包括液晶显示器(lcd)、电子纸/电子墨水显示器、有机led(oled)显示器或其他类似显示技术。在一些方面，显示器158可以是触感的，还可以用作输入设备。
[0063]
输入设备159可以包括例如键盘、鼠标、触敏显示器、小键盘、麦克风或其他类似的输入设备或任何其他输入设备，它们可以单独使用或一起使用，以向用户提供与计算设备100交互的能力。
[0064]
如前所述，计算机系统100的存储器150进一步存储包括编程指令的处理模块，这些指令适于调用操作，以便更准确地将资产失灵(例如停电事件)可靠地标记为由干扰(例如风暴)引起的故障，并大幅提高数据质量，使数据可用于训练机器学习模型，并启用其他分析技术，从而更好地进行停电检测、预测和管理。
[0065]
在一个实施例中，存储在相关联的存储器150中的编程处理模块之一包括模块165，该模块配备有计算机可读指令、数据结构、程序组件和应用接口，用于摄取、输入、收集和/或处理从问题凭单数据库130或类似数据源接收的问题凭单70。
[0066]
另一个编程处理模块包括干扰凭单分类模块170，其配备有计算机可读指令、数据结构、程序组件和应用接口，用于准备凭单分类，这有助于(a)确保srt的正确性和(b)识别错误标记的凭单。
[0067]
另一个编程处理模块包括概率标记模块175，该模块配备有计算机可读指令、数据结构、程序组件和应用接口，用于与srt交互，并自动化本文所述的问题凭单事件的概率标记过程。这个模块运行一种方法，用于确立风暴揭示凭单(或更一般地说，干扰揭示事件)族，作为天气风暴(或干扰)检测和诊断的基础。运行另一种概率标记方法，以分配与某干扰类型相关联的事件的概率。该方法涉及统计方法、数据分析和领域知识专长的组合。在实施例中，用鲁棒估计方法和插补法来获得完整时间范围的基准过程特征。然后识别干扰期，并将其特征与基准进行对比。然后使用对比的形式获得概率标记。
[0068]
另一个编程处理模块包括干扰识别模块180，该模块配备有计算机可读指令、数据结构、程序组件和应用接口，用于识别干扰的时期，该模块具体运行一个或多个规模校准的变化点检测方法，用以识别干扰周期。该处理模块提供对非干扰(基准)行为的单独建模，包括使用本文所述的边界和偏差校正的修剪估计来开发基准，以及对干扰(风暴)条件下的凭单流进行建模。该技术可用于在干扰不支配数据集的情况下高效并自动生成概率标记(pl)。
[0069]
另一个编程处理模块包括验证模块185，该模块配有计算机可读指令、数据结构、程序组件和应用接口，提供了一个可行的程序，该程序(a)重新发现并处理“已知风暴”的标记，以及(b)发现错失的风暴的主要部分，并标记相应的凭单。该阶段对(b)的验证，可以借助人类专家，并可涉及进行参数调整，以实现客户认为满意的指标。
[0070]
在一个实施例中，存储在系统框架100的相关存储器150中的另一个编程处理模块190使用指令来配置系统，以构建和运行监督机器学习模型，该模型经过训练，以基于标记数据将天气干扰与特定停电和/或天气条件相关联。例如，该框架将srt标记为先前存在的风暴，以解决数据质量问题。然而，在许多情况下，公用事业公司的一个主要目标是实现与即将到来的风暴相关的停电的最佳预测能力。基于之前风暴事件的数据和预期风暴持续时间，该框架获得了各种原因(任何给定风暴和子区域)的凭单数量分布。预测的质量取决于为先前观察到的凭单分配概率的策略。结合天气监测，机器学习模型还可以预测受影响客户的数量、成本或在相关时间范围内缓解风暴影响所需的资源。例如，然后使用经过训练的模型回答以下问题：基础设施因素(极数、变压器、线路里程)对停电成本的贡献是什么？地理特征的贡献是什么？天气相关变量(降雨量、风速、阵风)的影响是什么。
[0071]
停电预测模型195可包括深度学习神经网络(dnn)模型，例如卷积神经网络(cnn)、图cnn、多层感知器(mlp)或递归神经网络(rnn)。可以使用tensorflow库用python编写来深度学习模型。
[0072]
根据本文中的方法，可以使用结果数据集(包括更准确的重新标记的数据)对此类机器学习模型进行训练，并可用训练后的模型来针对天气条件输入集预测天气相关的服务中断(service outage)。替代地或者另外地，可以运行使用此类重新标记的数据集训练的机器学习模型来促进长期规划和资源分配，使基础设施更能抵御风暴。例如，对于每一场即将到来的风暴，该框架可以建议采取预防措施来缓解风暴后果：例如，如果确定在风暴期间更可能发生杆塔火灾，则在风暴之前从连接器上清除潜在有威胁的碎片的行动可能在这方面有所帮助；如果倾斜的树木是过多数量的风暴内凭单的原因，公用事业公司也可以采取/先发制人的措施来应对这种威胁。
[0073]
如图3所示，存储器150包括一个监控程序110，该程序具有配置计算系统100调用各种模块和运行本文所述的方法来“清理”问题凭单数据-即实现所有干扰(例如风暴)的问题凭单数据的概率标记-的指令。
[0074]
图4是由如系统100运行的监控程序110运行的方法200，该方法实现自动化任务，以更准确地(概率地)用干扰(例如风暴)标记问题凭单数据。例如，概率[凭单与风暴有关]＝0.8。
[0075]
在图4的方法200中，第一步202涉及确立一族干扰揭示事件(凭单)。就是说，在实施例中，该框架实施一种取决于存在具有这样的特定属性的凭单族的方法：它们往往在存在干扰的情况下比在没有干扰的情况下更频繁地发生。在本文的示例性实施例中，在公用事业公司的环境中，干扰是导致发出与停电事件相关的问题凭单的风暴。因此，在202处识别出一族风暴揭示凭单(srt)。在实施例中，仅基于主题知识来开发族。为了创建srt族，可以咨询专家，分析独立来源和潜在的科学证据。在一个实施例中，基于观察到的特征—无论是手动观察的还是来自物联网(iot)传感器的特征一来确定该族。
[0076]
在实施例中，基于领域知识选择该srt族，然后使用统计分析来确认该选择。图5示
出显示示例实施例中的风暴揭示凭单的特征的表90。在实施例中，首先基于例如领域知识来选择srt族91，然后可以使用统计分析来确认该选择。如表90所示，两个列94、96分别表示正创建的第一和第二组凭单：1)预先分配了风暴id的凭单(百分比，顺序)；和2)所有凭单(百分比，顺序)。表90的第一列92显示了示例性凭单族的原因描述：例如，树落在主电源线上；树落在辅电源线上；因风暴引起的材料故障导致的设备失灵；风暴导致的设备失灵；或者树或树枝落在电线上。根据表90所示的百分比，可以预期原因描述的分布存在显著差异。为了防止信号稀释，问题凭单族(风暴揭示)的原因的数量事先是有限的，例如图5的表90中所示的六个原因。
[0077]
回到图4，进一步的步骤205涉及检查在干扰期间发出的凭单的数据质量。该检查分析了属于干扰揭示事件族的凭单的标记覆盖率(labeling coverage)，该覆盖率是数据质量的指标。
[0078]
上述凭单数据集中可能会出现几个重大的数据质量挑战。原则上，这些挑战中有些是不可避免的，因此代表了“缺失数据”问题，而不是质量问题本身。关键的数据问题是：1)缺失字段：在数据库中，很大一部分srt缺少风暴id分配，即使它们落在已知的风暴时间窗口。使用本文描述的技术，统计证明存在缺失标标记问题，并通过插补解决该问题。出现此问题的可能原因是，未能在凭单完成时确定与风暴的因果关系，或者关于风暴本身的信息不足；2)错误标记：可能将非srt分配给已知风暴(实际上是由风暴引起的)-然而，可能存在分配被非常宽泛地被应用的情况，有时除了凭单落入已知风暴时间窗口之外没有其他原因。在这里，也可以使用本文的框架方法和补救措施从统计学上证明标记错误的存在；3)遗漏风暴——根据分析，“已知风暴”干扰的列表不完整：存在未在凭单数据库中记录的各种量级的风暴。这些风暴导致通常覆盖几个子区域的可识别的srt集群。对于机器学习和任何其他推理活动来说，系统100识别此类风暴并向其分配相关凭单，以在数据库中创建风暴相关影响的整体一致的图画。
[0079]
在实施例中，在图4的205处，运用数据质量检查来确定：1)缺失标记的百分比，以及2)检查具有时间或空间(地理)差异(discrepancy)的缺失标记。在实施例中，数据质量检查可能需要创建一个指标来定义落入已知干扰期集合的标记事件(凭单)的覆盖率；以及指标值的量化。在实施例中，该指标是落入已知干扰期集合的标记的srt凭单与落入已知干扰期集合的所有srt凭单之间的比率。继续在图4的208处进行确定，以确定数据质量是否是可接受的，例如，通过确定如果覆盖率低于阈值，是否会产生质量差的信号来进行确定。如果认为数据质量是可接受的，则过程结束和/或可以返回，以处理新收到的问题凭单。可接受的数据质量确保根据此类数据训练的开发的停电预测模型的准确性更高。
[0080]
否则，返回到208，如果认为数据质量是不可接受的，则过程继续到210，其中系统按照本文描述的实施例进行补救，并插补缺失的数据值。之后，在215处，该方法生成补救总结，包括：1)已经分配或重新分配了分布id的凭单的数量；2)数据质量的提高。进一步确定是否需要重新评估缺失值的补救和插补结果，并重新运行数据质量检查，确定是否需要进一步补救。如果需要进一步补救，可以重新运行图4的步骤。
[0081]
在基本补救方法中，srt分配分两个阶段实现。第一阶段侧重于单个子区域的srt凭单的时间序列，这些凭单通常通过相应服务子站的名称来识别。使用时间序列，计算每个日期srt的与风暴相关的概率。这就完成了概率标记的任务。通过对所计算的概率应用阈
值，可以将预先存在的风暴与风暴揭示概率较高的相应srt相关联。
[0082]
在实施例中，系统在第一阶段执行校准的变化点分析，以分离正常期间与环境干扰(风暴)期间。这种分离是在环境干扰显著增加受影响日子的造成损失事件的可能性的假设下完成的。接下来，计算在非风暴条件下预期的srt数量(反映非风暴事件比率)与每个确定的风暴期观测到的凭单数量(实际事件比率)之间的差异。这种差异为计算风暴暴露概率提供了基础。
[0083]
在第二阶段，系统通过使用在数据库中风暴id已经被分配了的一组凭单来提高向风暴id分配凭单的质量。这个信息或知识可以进一步用于验证概率标记和模型的充分性。
[0084]
图6示出用于用图3的框架100进行干扰识别、概率标记和向先前已知干扰(特定子区域中的已知风暴)分配事件(凭单)的整体系统架构300。如图6的系统架构300所示，有子区域特定的所有问题凭单的序列301被检索到。根据这个凭单序列，在302处，系统为每年的每个月和每个子区域生成srt基准每日比率(baseline daily rate of the srts)。
[0085]
为了从该数据生成基准每日比率，系统将srt的每日计数的时间序列分离为对应于单个子区域的时间序列集合。图7是描绘位置特定子区域随时间(x轴)的期间合计比率(srt计数)(y轴)的时间序列的图350。在实施例中，是每周或每天进行合计(aggregation)。除了存在srt族的基本假设外，还假设：所有子区域的srt到达均遵循非齐次泊松过程(nhpp)。非均匀性有两个主要来源。首先，存在“正常”的季节性影响，例如包括厄尔尼诺年份的影响，甚至可能影响计划的凭单处理的财政年末或季度因素。其次，存在期间srt比率会增加的风暴期。该方法从图7所示类型的数据中识别基准比率360，之后，该方法能够识别风暴期。
[0086]
回到图6的系统架构300，在基准生成步骤302，假设非风暴期提供足够的信息来估计srt的每日基准比率，即在没有风暴的情况下会观察到的比率。基准比率将针对具体位置，并纳入上述季节性因素。错误预先标记的凭单只占总预先标记的凭单的一小部分。随后，在图6的305处，执行校准的变化点算法以识别本地风暴，即识别干扰规模、寿命和动态状态(开始、中间和结束)。此时，进一步调用风暴id字典生成器过程315，以记录特定位置或子区域的新识别的事件(例如风暴)的新风暴id。图8a所示的表400总结了变化点分析中使用的记号和示例性默认值。图8b的表402总结了这些分析中使用的多个时间序列。
[0087]
对于基准生成，系统将srt的nhpp的基准比率表示为λ(t)。对于给定的时期，例如一个月，系统获得作为随机变量向量x的srt凭单的每日计数：x＝{xi}
[0088]
其中，指数(index)i是例如月内的日期。在一个实施例中，该估计适用于具有完整月度数据的月份(因此，可用日期指数为i＝1，2，
…
，d，其中d＞＝28)。此外，系统由λ表示所考虑月份的平均每日比率(在非风暴条件下)。一个目标是基于x找到鲁棒估值然后将该值视为所考虑子区域内当月每天的基准。
[0089]
计算的方法步骤如下：
[0090]
1)设置修剪数r(例如，选择默认值，r＝10)，并从每月数据中剔除最高r和最低r的每日比率。应当理解，修剪数r＝10确定了估计器的分解值：它可处理任何给定月份中多达10个风暴日，而不会产生异常值引起的偏差。一般而言，修剪后平均值(trimmed mean)给出
对称分布的中心趋势的无偏估计。泊松分布是右偏的，因此传统的修剪估计器系统地向下偏移，因为从顶部剔除的点比从底部剔除的点更有影响力。该偏差是有界的，随λ
→
∞而趋向于极限b；
[0091]
2)通过对x中的剩余数据点进行平均，计算修剪后平均值
[0092]
3)根据下式，应用相加(additive)调整因子(偏差校正)b，例如b＝0.15，获得中间估计：
[0093]
4)通过防止鲁棒估值过小来纠正鲁棒估值。为此，采用较低的阈值β
l
，例如β
l
＝0.2，其中，在非风暴条件下，预计每个服务子区域平均每5天至少有一个srt。的新估计计算为：
[0094]
随着每年每个月和每个子区域的基准可用，进一步进行风暴期的隔离。为了实现这个目标，所有每日比率都进行了标准化，以便在非风暴条件下，它们形成了以平均值0和标准差1边缘分布的一系列变量。对于给定的月份，标准化的每日比率通过如下等式1的公式产生与原始每日比率x＝{xi}有关的一组分数(时间序列)y＝{yi}：
[0095]
其中，i＝1，2，
…
，d，是用于实现标准高斯分布校准的比例常数。根据对srt比率的nhpp假设，然而，可以通过多种方式来估计比例常数当月度分数序列组合成单个时间序列时，风暴期将对应于yi值升高的一段(xi值增加)，并且可以检测到这些段并对其进行界定。每日比率的标准化使得能够使用适用于数据集中所有分数系列的统一算法。
[0096]
在另一替代实施例中，不是计算每个月在非风暴条件下的每日比率并将值分配给该月的每一天，而是可以使用滑动窗口，在滑动窗口内可以执行相同的操作，并将基准计算为移动平均值。就是说，将该过程应用于可以在其中执行相同操作的(例如长度＝d天的)滑动窗口。基于这个窗口计算的基准值被分配给第i天(i＝窗口中点)。因此，随着窗口的滑动，新值被传递到基准曲线。
[0097]
返回图6，步骤305，进一步执行风暴期的识别和隔离。通过创建每个月的基准值并将其转换为标准化的分数时间序列(1)，系统被定位，用于本地风暴识别。在实施例中，使用校准的变化点算法来识别本地风暴。一个目标是自动将凭单标记为与风暴相关的或与风暴无关的。如图9所示，风暴的生命周期包括三种状态：开始(s)、中间(m)和结束(e)。对于任何给定的一天，都有从集合[n，s，m，e]中选择的如图9所示的对应状态，其中n表示正常(非风暴)日期。回到图2a，对应于单个凭单的记录70可以包括从集合[n，s，m，e]中选择的额外的风暴状态属性。
[0098]
对于对应于给定子区域的分数时间序列，可以观察到多个风暴。它们会导致在各自的持续时间内持续存在的异常高水平的分数(相对于标准化基准分数0)。为了组织有效的风暴期识别过程，宣布“风暴”条件的一个标准是当等式(1)的分数序列的平均值从其标
称水平0变为1时，即每日比率的基本序列经历一个标准差的偏移。通过将0指定为分数过程的可接受平均水平，接下来应用一种形式的累积和(cusum)控制方案，当检测到风暴开始时触发警报。用于检测过程平均值向上的单侧cusum过程要求使用按照如下的等式(2a)、(2b)的过程，将记为{y(i)}(i＝1，2，
…
)的分数序列(1)转换为控制方案值序列{s(i)}(i＝1，2，
…
)：s(0)＝s0ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2a)s(i)＝max[s(i-1) (y(i)-k)，0]，i＝1，2，
…ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2b)
[0099]
并在s(i)＞h的第一时间i触发信号，其中，h＞0是适当选择的控制极限。在实施例中，s0＝0，然而，它可以是另一个大于0的值。在上述公式中，k是参考值，例如锚，通常在可接受和不可接受水平之间选择；在一种情况中，
[0100]
k＝(μ
y，accept
μ
y，unaccept
)/2。
[0101]
例如，μ
y，accept
＝μ0＝0，μ
y，unaccept
＝μ1＝1
→
k＝(0 1)/2＝0.5。参考值k的作用，是随着该方法继续累积y(i)值和k值之间的差值(其中y基本上是非风暴条件下0左右值的噪声)而将cusum向下拉。注意，使用记号y(i)代替yi，是要强调等式(1)的时间序列仅涵盖任何给定的一个月时期，而y(i)中的指数i则表示多年数据序列中的连续天数。
[0102]
在实施例中，选择阈值h以实现假警报率与灵敏度之间的期望的折中。在实施例中，值h可以等于5。然而，由于等式(1)中的分数y表现出某种正偏差和顺序相关性，因此需要更高的阈值来实现合理的假警报保护。因此，在实施例中使用稍高的阈值h＝6。
[0103]
图10a示出根据时间绘制的计算的cusum值{s(i)}501的示例cusum控制图500，并说明了应用用于识别局部干扰(例如风暴)边界的校准变化点算法的各方面。在实施例中，基于y和如图8a的表400所示的两个参数(k＝1和h＝6)计算cusum时间序列。对于变电站，该算法从所记录的凭单的开始日期开始，系统创建用于干扰识别的值501的cusum时间序列，即s＝{si}，并识别风暴的初始指标。根据cusum时间序列和已发现风暴的指标，系统确定每个风暴期的开始和结束日期。
[0104]
如图10a的计算的cusum值控制图500所示，对于对应于日期t 510的已知风暴指标，系统首先将该风暴指标的邻域(neighborhood)定义为如沿x轴所示的[t-m，t n]。s
t-m
＝0的cusum值505，是日期t510之前的最后一个零值方案(zero-valued scheme point)点。值s
t d
＝0是日期t后的第一个零值方案点520(例如，其中0≤n＜d)。n＝0的情况仅在d＝1时存在。鉴于等式(2b)，如图10a所示，在非风暴条件下，cusum值si不会低于0，。当y值在风暴条件下系统性地大于1(例如y≥2)时，cusum值si501增加。在实施例中，如图10a所示，当cusum值在510的时间t达到超过阈值h的值时，触发风暴条件的声明。在另一个实施例中，可以基于经过一段额外时间后可能发挥作用的额外信息(例如，关于风速的额外信息)来确定当时干扰的开始点，或者可以随着情况的发展，重新评估对开始点的评估。
[0105]
虽然系统使得能够可靠地检测时间序列中的第一场风暴及其起源点，以宣布“风暴结束”，从而产生序列中每个风暴窗口的开始和终点，从而标记如图10a所示的各状态si，但实施了修改的cusum过程，其中包括：在信号的每个点自动重新启动cusum过程(2a，2b)。也就是说，对于cusum计算，t的当前cusum值将在下一个日期点重置为零。在实施例中，在图10a中，在风暴声明的点t 510处发生重新启动，但在点520处声明“发作期(episode)结束”之前，没有发生其他重新启动。在该点，t n515被宣布为风暴的最后一天。
[0106]
在修正的cusum过程中，风暴期识别的过程根据如下所示的等式(3a，3b)进行：
[0107]
s(i)＝max[s(i-1) y(i)-k，0]，当s(i-1)≤h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3a)
[0108]
s(i)＝max[s0 y(i)-k，0]，当s(i-1)＞h
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3b)
[0109]
在等式(3b)中，将超过阈值(h)超标的第一个事件视为风暴已在所考虑的子区域开始的信号。这里，0＝＜s0《h。因此，过程s(i)产生(全部以超过阈值h而结束的)周期(cycles)，并且只要干扰继续，就可能有几个周期。最终，将出现一个其中值s(i)在达到阈值之前达到0的周期525-此时系统宣布风暴在该周期的某处结束。因此，这将是“发作期结束”(end-of-episode)的决策点，例如时间t d。然后，该方法开始搜索最后一个周期内认为风暴实际结束的点。在图10a中，这是时间515。
[0110]
就是说，在超过阈值(h)的第一次事件作为风暴已在所考虑的子区域开始的信号之后，随后的阈值违反(当其前一次事件之后合理地很快发生时)将作为持续风暴的指标。最终，违反阈值的时间集群将停止，这将作为宣布风暴发作期的根据。此时，可以宣布风暴边界。特别地，对于与日期t相对应的已知风暴指标，风暴期因此是时间邻域[t-m，t n]。s(t-m)＝0的cusum值是t之前的最后一个零值方案点。设s(t d)＝0为在时间t发现风暴后的第一个零值方案点，让时间(t n)515对应于时期p[t，t d]525中的最大峰值，则风暴结束日期定义为(t n)，因为cusum轨迹表明，该时间后的凭单率(ticket rates)与基准过程一致。因此，所识别的风暴长度为l＝m n 1。
[0111]
在实施例中，只要风暴持续，cusum值将有增加并超过k＝1参考值的趋势。因此，cusum值将趋向上升，直到超过阈值(警报被触发)。此时，s(i)值在警报触发后重置。在实施例中，可以重置为0和阈值h之间的值s0。因此，只要风暴条件持续，并且其值趋于增加并保持超过阈值，则cusum过程和s(i)值的重新设置就将继续。随着干扰条件的继续，警报触发后s(i)的重置可能会发生多次(由于重置)。一旦分数y变小，轨迹将开始下降，直到时间t n 520，宣布风暴干扰期结束点的依据，是在其之后数值趋于消融的时间t n 515。
[0112]
在替代实施例中，关于干扰窗口的右端点，可以在时间t d作出确定(然后找到点t n作为合适的端点)。然而，存在多种替代策略。例如，在作出干扰发作期结束的决定之前，可以收集额外的数据。
[0113]
例如，在第一个替代实例中，干扰边界的估计基于使用带有变量ξ的“孪生”过程s(i)和s
*
(i)。即，在s0处重新启动后，可以运行等式(2b)的过程s(i)。然而，激活并行过程s
*
(i)，该过程也从s0开始，与s(i)相同，只是它的下界不为0。相反，它被允许进入负域。因此，这个公式变为：s
*
(i)＝s
*
(i-1) y(i)-k。图10b显示了示出检测前期间507的s(i)值501、干扰检测点t510、干扰起源点505(t-m)、检测510后的第一个周期530、检测第二重新开始点512后的第二个(且最后一个)周期535，以及基于过程s(i)的最后一个干扰点515(t n)。图10b也显示了使用“x”符号的s
*
(i)值511(仅用于最后一个周期)，这些值是未被反映的cusum值。图10b进一步指示了s
*
(i)＜ξ时发生的决策点，其中ξ＞0定义了低于0的水平条带。在所示示例中，在时间540(t d0)，是“发作期结束”决策点，即干扰在第二个周期535内的某处结束。因此，在这个替代实例中，在最后一个周期中s(i)达到0并不足以宣布干扰发作期的结束，即，可能会经过额外的时间，直到s
*
(i)＜ξ。之后，可以进行搜索，如图10b所示地找到s(i)的最大值，以确立终点。
[0114]
在第二个替代实例中，干扰边界的估计基于使用变量u的“孪生”过程s(i)和s
*
(i)。也就是说，在s0重新启动后，运行等式(2b)的过程s(i)。然而，除了计算如图10c所示的s
*
(i)值511外，系统进一步计算当前周期中s
*
(i)的最大值545与s
*
(i)之差。当(i)之差。当(其中u＞0是某个合适阈值)时，可以宣布干扰发作期的结束，并且该方法可如图10b所示地找出s(i)的最大值，以确立终点。这里，时间541(t d1)是干扰在第二周期535中结束的“发作期结束”决策点540，并成为确立时间点t n 515时的最后一个点。注意，同时，s(i)可以像往常一样运行，并且可能超过h，从而触发重新开始点512处的新周期。
[0115]
在第三个替代实例中，干扰边界的估计基于使用具有显著性水平阈值α的“孪生”过程s(i)和s
*
(i)。也就是说，在s0重新启动后，系统监控的位置，并评估与之后的过程相对应的点y(i)。只有当这些点显示出如统计测试所证实的足够低的中心趋势测量值(例如，平均值)，才会做出“发作期结束”的决定。然后，系统可以如图10d所示地寻找s(i)的最大值，以确立终点。就是说，为了探索是否应在时间542t d2宣布”发作期结束”，系统提取与如图10d所示的数据段seg
d 550相对应的数据y(i)，并进行统计测试，以一定程度的置信度确认”发作期结束”(即返回到基准条件)。例如，通过以下方式来进行统计测试：1)测试假设h0：对于分段segd中的每个点，分段segd550内y(i)的平均值在基准的目标区域(zone)内，具有一定的置信度，而假设为：h1：对于分段segd550中的至少一个点，y(i)的平均值在与干扰相对应的区域内；2)确定是否不能在某个预先指定的显著性值α水平拒绝h0，然后宣布”发作期结束”，将t n确定为干扰的最后一点并关闭该周期。在另一个示例实施例中，这可以形式化如下：给定测试假设h0：对于最后一个数据段segd中的某些子段，μy＞ε≥0，与之相比，假设h1为：对于所有子段，μy≤ε。如果可以在显著性水平α拒绝h0，则宣布”发作期结束”，并将t n确定为终点，关闭该周期。应当明白，可以使用其他中心趋势度量(measures ofcentral tendency)来代替平均值。
[0116]
一般来说，在决定干扰发作期的结束时，可以考虑其他因素，包括外部信息。然而，一般来说是最后一个周期中s(i)的最大值决定了干扰的终点。可以可以向右调整该点，以包括所观察到的分数y(i)＞0升高的其他点。
[0117]
在实施例中，将干扰的起始点t-m估计为信号触发轨迹的第一点引入了正偏差。可以通过(顺序地)包含另外的点而向左扩展起点来解决这个问题-只要数据值y(i)支持比率升高的假设，例如，a.只要y(i)＞μ0，或b.只要干扰的假设相对于基准得到支持(可以使用类似于确立t d，和t n的过程，但是向左)。
[0118]
在实施例中，对于动态边界调整：系统可以不必非要在检测时间t设置起始点。就是说，可以随着新信息的到来而调整干扰边界，新信息例如是与在例如一个月的时间内观察到的凭单相对应的新信息，可以通过研究基准和季节性效应的时间序列，重新评估一年前那个月的基准，并且用修改后的基准进行分析，可能会导致当时观测到的风暴边界的修订。
[0119]
基于区域特定的干扰模式，可以进一步增强。例如，对于风暴干扰，可能知道其影响在短时间内出现，但逐渐消失。
[0120]
此外，在进一步的实施例中，可以例如通过基准调整将协变量合并到该方法中。
[0121]
图11示出了校准变化点方法的示例伪代码600，其中如图10a所示地获得时间点以确立风暴边界。如图所示，在初始化s_previous＝s(0)＝s0后，在601处进入for循环，并在610处连续地针对每个指数i(当月天数)重新计算s(i)，其为如等式(3a)、(3b)中所示的、y(i)分数与k参考值之间的差的函数，不低于值0。在620处，判定s(i)值是否超过阈值h。如果s(i)值不超过阈值h，则在625处，s(i)取先前值。在超过阈值时，宣布风暴条件，过程重新开始，并可在622处将s_previous重置为s0。然而，在替代实施例中，如果超过阈值，可以在622处向cusum值s_previous分配介于0与阈值h之间的某个值。因此，当(s＞h)时的s(i)的重置未必要在值0处重新开始，而是在0和阈值h之间的中间值s0处重新开始。
[0122]
返回图6，在305处识别了子区域中的风暴(例如，本地风暴)并使用cusum过程s＝{s(i)}确立了风暴期后，在310处的下一个任务是提供与所宣布风暴窗口相对应的srt的与风暴相关的概率。在实施例中，使用模型驱动的事件分配公式来分配要与干扰的其中之一相关的事件的概率。为了提供srt与风暴相关的概率，并且假设nhpp过程的一个基本属性是其本身是由自身强度函数{λj(t)}，j＝1，2，
…
，j驱动的nhpp子过程的叠加，那么当事件发生时，事件由子过程j引起的概率由λj(t)/λ(t)给出，其中λ(t)是总强度。第i天发出的srt与干扰相关的概率p可根据等式(4)计算如下：
[0123][0124]
这里，λ^是特定于月份的估计每日基准比率，x(i)是srt的每日比率。对于任何本地风暴之外的srt凭单，该方法将与风暴相关的概率指定为p＝0。该方法用于为srt分配概率标记。
[0125]
此外，在图6中，在320处，在将概率标记分配给srt之后，下一步是将srt分配给已知风暴。这可以用已知风暴的衍生数据集来实现。对于每个已知风暴id，这个数据集提供向其分配的凭单总数、估计的风暴开始和持续时间、以及受影响的子区域的数量。通过为每个srt计算的风暴揭示概率(p)，可以如下所示地将任何给定的凭单都与已知风暴关联。假设d的风暴期为[t1，t2]，则根据如下所示的等式(5)定义属于该风暴的srt集：
[0126]
{e|t
1-ε1≤t≤t2 ε2，p≥p0}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0127]
其中(ε1，ε2)提供不确定性相关的缓冲并如图8a的表400所示默认为(1，1)且定义了扩展的风暴期，p0是概率阈值。在实施例中，值p0＝0.5是概率阈值的合适实现。
[0128]
进一步，返回图6，在325处，在已经将srt分配给已知风暴后，下一步是验证概率标记和风暴识别过程的结果。在实施例中，可以由人类专家来验证是否确实应该将检测到的风暴分类为风暴，以及是否保证要向凭单分配高的与风暴相关的概率。
[0129]
在实施例中，实现了一个可行的过程，该过程(a)重新发现和处理已知风暴的标记，以及(b)发现遗漏的风暴的主要部分并标记相应的凭单。(b)的验证可借助人类专家、通过调整表400和图8a的参数来实现。就是说，手动调整表400图8a中列出的参数，以实现客户满意的指标。
[0130]
图12示出在验证过程中使用的数据子集的图700，具体示出了公用事业公司的凭单分类。图13是用于验证过程的关键指标710的示意图。重要的是具有高的与风暴相关的概率(即对于某阈值p0，p≥p0)的srt子集h715。可以用子集h来验证概率标记。验证过程识别h的一个子集—该子集含有没有风暴id的凭单，而用等式(5)的方法可找到匹配的风暴id。然
后将重点放在h的不能与任何已知风暴相关联的子集上。该子集使得能够评估已知风暴列表的完整程度，并进一步帮助识别和表征遗漏的本地风暴。可以将集合l中的凭单用于验证过程中的全自动部分。集合l中的srt满足以下特性：i)高的风暴揭示概率p≥p0；ii)具有根据等式(5)分配的标记。这个部分的验证基于l和v(即所有预先标记的srt的集合)之间的比较。在实施例中，首先需要具有几乎完全的覆盖其次，需要确保v中基于等式(5)的凭单标记与原始风暴id一致。然后，该方法根据如下所示的等式(6)计算散度(divergence)度量720：
[0131]
∈＝1-|l∩v|/|v|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0132]
其中，散度测度∈表示预先标记的凭单的未通过基于概率的标记过程恢复的部分。使用表400中的默认过程参数，观察到∈＝3.1％，这证实了风暴id的几乎完全的重构。
[0133]
在实施例中，∈的低值本身不足以宣布过程成功：即，还需要确保系统不会“发现”任何验证器不同意的风暴。这里的主要手段是cusum过程的信号水平h：如果该水平被设置得太低，则可能会增加此类误发现的比率。
[0134]
因此，关于用遗漏的风暴id标记srt的步骤，图13是示出验证过程的关键指标的示意图。如图13所示，虽然∈720衡量重构已知标记的能力，但在进一步的实施例中，该框架提供了无干扰(例如风暴id)分配的凭单的标记。例如，尽管系统识别出可与扩展的已知风暴期相关联的具有高的与风暴相关的概率(p≥p0)的srt子集l，并非l中的所有凭单都需要进行标记-只有那些缺少已知风暴id的凭单需要进行标记。将这组新发现的风暴相关凭单记为ga。因此，发现位于已知风暴大致附近的风暴相关凭单的能力，由按照等式(7)的公式表征如下：
[0135]
η＝|ga|/|l|＝|(h\v)∩l|/|l|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0136]
使用表400图8a的默认参数进行分析，得出η＝20.9％的与已知风暴期相关联的新发现的风暴相关凭单。这些凭单随后由专家验证，针对对所导致的标记的任何分歧，可能需要调整一些参数。
[0137]
最后，还有另一类新发现的风暴相关凭单，其具有高的与风暴相关的概率p≥p0，但不能用等式(5)的过程与任何已知风暴相关联。将该srt子集记为gb725，如图13所示。因此，将发现遗漏的风暴和相关凭单的能力按照等式(8)表征为：
[0138]
ξ＝|gb|/|h|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0139]
该分析得出ξ＝13.3％，表明已知风暴列表尚不完整。该框架进一步识别遗漏的风暴，并为其提供人工名称，在其内进行凭单标记，并例如用专家来验证识别结果。
[0140]
然后，根据所生成的概率以及它是否落入已知干扰期，重新标记服务凭单。就是说，如图2b所示，由于图6的过程，系统输出修改后的记录，其中包括检测到的风暴的信息，并包括概率标记。也就是说，如图2b所示，系统返回其中包括额外的填充的字段的示例记录90，填充的字段包括：字段93，其中填充了以变电站和相应时间标识的风暴，风暴状态字段95；其中包括集合[n，s，m，e]中的指示；计算出的概率标记，例如字段96中所示的值0.95；以及已知风暴id字段98。如几个示例返回记录90所示，已发现了不与已知风暴关联的高概率凭单-如无风暴id标记97a所示，以及与已知干扰(风暴)(其具有97b处显示的风暴id标记)相关的高概率凭单。
[0141]
图14是示出可以由处理器执行的过程800的流程图，以使用根据实施例的机器学
习模型来实现预防动作。示例过程可以包括如一个或多个方框所示的一个或多个操作、动作或功能。尽管不同方框被示为分立的方框，但可以将这些方框划分为其它的方框，合并成更少的方框、去除其中的方框，或并行执行其中的方框，这取决于所需的实现。
[0142]
处理可以在方框802处开始。在方框802，处理器可以从对应于特定域的数据源接收提高了准确性的数据集，其包括具有使用本文所述过程获得的概率标记的记录。处理可以继续到方框804。在方框804，处理器可以训练机器学习模型以关联干扰对一个或多个资产的影响。机器学习模型可用于基于经过训练的机器学习模型生成与一个或多个资产的性能指标相关的预测。例如，机器学习模型可以是具有隐藏层的神经网络。
[0143]
处理可以从方框804继续到方框806。在方框806，处理器可以接收指示预测的干扰(例如风暴)或天气条件/模式的输入。处理可以从方框806继续到方框808。在框808，处理器可以运行机器学习模型，以生成-给定预报的干扰、天气条件或模式-有关资产的性能指标或对资产的特定影响的预报。在一些示例中，处理器可以进一步运行机器学习模型以生成该预报的解释，其中，所述解释可指示对服务公司资产的重要性。
[0144]
在实施例中，对于与干扰相关的事件进行概率标记，使用来自天气相关的停电管理领域的示例来说明问题。例如，环境干扰(例如天气风暴、暴风雪和电磁灾害等)会显著影响基础设施系统的服务能力和质量(公用事业系统、传感器网络)。然而，环境干扰规模取决于特定位置的天气或电磁条件(例如，风速、阵风、总降雨量)。基础设施的鲁棒性在此类环境灾难是否中断服务或损坏设备方面也起着重要作用。
[0145]
在非限制性示例实施例中，本文提供的总体框架结合天气数据(或监测的电磁数据)使用位置特定的维护或问题凭单来识别这些环境干扰事件，并使其对未来规划和基础设施改进(例如，地下布线、电磁屏蔽机制等)有用。
[0146]
虽然如本文所述将srt标记为先前存在的风暴解决数据质量问题，但在许多情况下，公用事业公司的主要目标是实现对与即将到来的风暴相关的停电的最佳预测能力。根据之前风暴事件的数据和预期风暴持续时间，系统获得各种原因(任何给定风暴和子区域)的凭单的数量的分布。预测的质量取决于为先前观察到的凭单分配概率的策略。结合天气监测，还可以运行模型来预测受影响客户的数量、成本或在相关时间范围内减轻风暴影响所需的资源。
[0147]
本文提供的总体框架进一步促进使基础设施更能抵御风暴的长期规划和资源分配。例如，对于每一次即将到来的风暴，可以使用经过训练的模型来建议用以缓解风暴后果的预防性措施：例如，如果确定杆塔火灾在风暴期间更可能发生，则在风暴之前从连接器上清除潜在威胁碎片的行动可能会在这方面有所帮助；如果倾斜的树木是风暴内凭单数量过多的原因，也可以采取/先发制人的措施来应对这种威胁。
[0148]
该总体框架进一步处理对事故凭单、维护和qos日志数据峰值的干扰。在一个方面，总体框架的处理结果使公用事业公司能够始终准备好应对天气风暴(干扰)。该方法自动为所有凭单分配适当的风暴id(例如干扰id)；此外，由于存在一组共享公共抽象的数据质量问题，因此总体框架实施将干扰分配为凭单或qos日志事件原因的方法。
[0149]
因此，在实施例中，系统100和导致自动标记停电凭单和风暴期识别的电力公用事业数据概率标记框架最终可以回答以下类型的问题：变电站在每个时期预计有多少风暴相关的凭单？基础设施因素(塔杆数、变压器、线路里程)对停电成本的贡献是什么？地理特征
的贡献是什么？天气相关变量(降水、风速、阵风)的影响？
[0150]
虽然框架是通用的，但具有类似数据结构并由类似随机模型驱动的应用程序比比皆是。因此，可以将分析扩展到更广泛类别的模型和系统特征。例如，一旦有足够丰富和可靠的数据源可用，可以将服务凭单的到达过程建模为nhpp涵盖一系列可能的组件、协变量和依赖关系。具体而言，在与天气相关的停电管理问题中，可以利用反映受影响子区域天气条件的额外数据，例如通常可从服务子区域附近的气象站获得的风速和方向、阵风强度和持续时间、气压读数或降水量。然而，合并此类数据的任务相当复杂，是正在进行的研究的主题。
[0151]
基础设施公司的开发、管理和维护中出现一组应用。本文讨论的电力公司案例可以适用于处理公司管理交通网络、水资源管理或建设项目的问题。在制造业中，该方法可用于管理物联网部署的传感器网络，以服务于化工和相关行业。
[0152]
可能的应用领域的其他示例包括但不限于诸如以下的用例：(例如，分析计算机网络过载和qos保证中产生的其他现象的)技术、保险索赔(其中干扰通常与异常高的数量的索赔相关)或金融服务，其中事件对应于交易。这些用例具有相似的挑战，需要涉及系统框架运行算法来将凭单或日志事件与干扰相关联的解决方案。
[0153]
因此，对于计算机服务的示例用例来说，系统接收数据记录(即凭单或日志事件)，包括但不限于：服务qos日志和服务凭单(例如，服务延迟、输入/输出错误和服务故障)。指标包括a)路由器网络流量；b)存储延迟；c)cpu利用率；d)内存使用量；e)服务流量；f)ttl(流量寿命)。特定干扰可包括但不限于：网络攻击、预期或意外的服务活动峰值；web服务攻击；网络故障；cpu利用率过高，存储失灵导致的大量输入/输出错误；互联网路由故障(通信延迟)。使用这种框架解决的问题陈述可以是：1)如何将qos凭单与已知干扰相关联；以及2)根据凭单流或事件日志识别干扰和对其进行分类。
[0154]
对于保险应用的示例用例来说，系统接收数据记录(即凭单或日志事件)，包括但不限于：服务请求，如索赔；注册；以及人寿和定期保险的撤销。特定干扰可包括但不限于：大流行(例如冠状病毒)、经济危机、当地经济变化(例如企业或工厂关闭或开业)。使用这种框架解决的问题陈述可以是：1)识别服务请求的根本原因；识别此类原因的影响；2)识别影响企业的未知干扰。
[0155]
对于金融应用程序的示例用例来说，系统接收数据记录(即凭单或日志事件)，包括但不限于：买卖特定股票的要求或投资组合的调整。具体干扰可能包括但不限于：正面或负面新闻，来自国际、国内、政治或经济事件的市场干扰。使用这种框架解决的问题陈述可以是：1)通过干扰的关联，联系金融活动的动机与请求；2)识别异常金融活动的未发现的原因(例如隐藏的干扰)。
[0156]
对于服务台服务的示例用例来说，系统接收数据记录(即凭单或日志事件)，包括但不限于：凭单(例如，服务公司提供呼叫服务)。例如，每个呼叫都标记有应用于现有windows部署的新补丁。特定干扰可包括但不限于：异常密集的传入凭单流表明其中许多凭单都与共同的原因有关。新的软件应用程序；服务故障；应用了新补丁。使用这种框架解决的问题陈述可以是：帮助中心需要了解每个凭单的原因(时间和性质)。因此，有必要根据数据对干扰进行识别和分类，以提高操作效率。
[0157]
图15示出在本公开的一个实施例中可以实现服务凭单的概率标记的示例计算机
或处理系统的示意图。计算机系统只是一个适当处理系统的示例，并不旨在对本文所述方法的实施例的使用范围或功能提出任何限制。所示的处理系统可以与许多其他通用或专用计算系统环境或配置一起运行。可能适合与图6所示的处理系统一起使用的众所周知的计算系统、环境和/或配置的示例可以包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、厚客户端、手持或笔记本设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络pc、小型计算机系统、大型计算机系统、超级计算机和包括上述任何系统或设备等的分布式云计算环境。
[0158]
可以在由计算机系统执行的计算机系统可执行指令(例如程序模块)的一般上下文中描述计算机系统。一般而言，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。该计算机系统可在分布式云计算环境中实施，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可位于本地和远程的、包括内存存储设备的计算机系统存储介质中。
[0159]
计算机系统的组件可以包括但不限于一个或多个处理器或处理单12、系统存储器16和将各种系统组件(包括系统存储器16)耦合到处理器12的总线14。处理器12可以包括执行本文所述方法的模块(例如，机器学习模块)。这些模块可以编程到处理器12的集成电路中，或者从存储器16、存储设备18或网络24或其组合加载。
[0160]
总线14可代表几种总线结构中的一种或多种，包括内存总线或内存控制器、外围总线、加速图形端口以及使用各种总线架构中的任何一种的处理器或本地总线。例如但非限制，此类架构包括工业标准架构(isa)总线、微通道架构(mca)总线、增强isa(eisa)总线、视频电子标准协会(vesa)本地总线和外围组件互连(pci)总线。
[0161]
计算机系统可以包括各种计算机系统可读介质。此类介质可以是计算机系统可访问的任何可用介质，并且可以包括易失性和非易失性介质、可移动和不可移动介质。
[0162]
系统存储器16可包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)和/或高速缓冲存储器或其他易失性存储器。计算机系统还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅作为示例，可以提供存储系统18用于读取和写入不可移动、非易失性磁介质(例如，“硬盘驱动器”)。尽管未示出，但可以提供用于读取和写入可移动非易失性磁盘(例如“软盘”)的磁盘驱动器和用于读取或写入可移动非易失性光盘(例如cd-rom、dvd-rom或其他光学介质)的光盘驱动器。在这种情况下，每个可以通过一个或多个数据媒体接口连接到总线14。
[0163]
计算机系统还可以与诸如键盘、定点设备、显示器28之类的一个或多个外部设备26通信；与使用户能够与计算机系统交互的一个或多个设备通信；和/或与使计算机系统能够与一个或多个其他计算设备通信的任何设备(例如网卡、调制解调器等)通信。这种通信可以通过输入/输出(i/o)接口20进行。
[0164]
此外，计算机系统可以通过网络适配器22与诸如局域网(lan)、通用广域网(wan)和/或公共网络(例如因特网)之类的一个或多个网络24通信。如图所示，网络适配器22通过总线14与计算机系统的其他组件通信。应当理解，尽管未示出，但其他硬件和/或软件组件可以与计算机系统结合使用。示例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、raid系统、磁带机和数据存档存储系统等。
[0165]
本发明可以是任何可能的技术细节集成水平的系统、方法、和/或计算机程序产
品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。
[0166]
计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式紧凑盘只读存储器(cd-rom)、数字通用盘(dvd)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的槽中的凸出结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。
[0167]
本文所述的计算机可读程序指令，可以从计算机可读存储介质下载到相应的计算/处理设备，或者通过网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0168]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码，这些编程语言包括面向对象的编程语言(如java、smalltalk、c 等)和常规的过程编程语言(如“c”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(lan)或广域网(wan))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。
[0169]
本文参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中各框的组合，都可以通过计算机可读程序指令实现。
[0170]
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图的框中规定的功能/动作的方面的指令的制造品。
[0171]
也可将计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设
备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
[0172]
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
[0173]
本文使用的术语仅用于描述特定实施例，并不旨在限制本发明。如本文所用的单数形式“一”、“一个”和“该”，除非上下文另有明确指示，否则也旨在包括复数形式。将进一步理解，当在本说明书中使用术语“包括”和/或“包含”时，指定所述特征、整数、步骤、操作、元件和/或组件的存在，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。
[0174]
以下权利要求中所有装置或步骤加功能元件(如有的话)的相应结构、材料、动作和等效物旨在包括用于与具体请求保护的其他权利要求的元件组合执行功能的任何结构、材料或动作。本发明的描述是为了说明和描述的目的而提供的，但并不旨在是穷尽性的或限于所公开形式的发明。在不脱离本发明的范围和精神的情况下，许多修改和变化对于本领域的普通技术人员来说是显而易见的。实施例的选择和描述是为了最好地解释本发明的原理和实际应用，并使本领域的其他普通技术人员能够理解本发明适用于各种实施例的各种修改，以适合预期的特定用途。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：数据备份方法、装置及存储介质与流程

关联干扰事件与事故或凭单的制作方法

相关文献

最热文献