一种异常检测方法及装置与流程

2022-04-30 13:33:14 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种异常检测方法及装置。

背景技术：

2.为了及时掌握系统中多种设备的运行状况，并对设备中的异常及时告警，异常检测已经成为业界关注的重点。异常检测是指通过数据挖掘的方式来识别数据中的“异常点”。时序数据的异常检测是异常检测中的主要应用场景，通过异常检测算法检测出时序数据中的异常点并做出告警。在实际应用场景中，不同的时序数据符合不同的分布，如泊松分布，高斯分布等，但在进行异常检测时，大部分运维人员会忽略不同数据的分布问题，采取相同的异常检测算法进行检测，从而会导致异常检测效果较差。
3.因此，如何提高异常检测结果的准确性是值得考虑的技术问题之一。

技术实现要素：

4.有鉴于此，本技术提供一种异常检测方法及装置，用以提高异常检测结果的准确性。
5.具体地，本技术是通过如下技术方案实现的：
6.根据本技术的第一方面，提供一种异常检测方法，包括：
7.获取设备的待识别数据；
8.对所述待识别数据进行聚类处理，确定所述待识别数据对应的聚类结果；
9.利用与所述聚类结果相匹配的异常检测模型，对所述待识别数据进行检测，得到所述识别数据的异常检测结果。
10.可选地，在对所述待识别数据进行聚类处理之前，还包括：
11.对所述待识别数据进行数据填充处理，得到处理后的待识别数据；
12.进一步地，对所述待识别数据进行聚类处理，包括：
13.对处理后的待识别数据进行聚类处理。
14.可选地，对所述待识别数据进行数据填充处理，包括：
15.利用就近插补算法或线性差值算法对所述待识别数据进行数据填充处理。
16.可选地，对所述待识别数据进行聚类处理，包括：
17.利用不同类型的核函数对所述待识别数据进行聚类处理，确定所述待识别数据在各个核函数下的概率；
18.根据确定出的各个概率，将概率最大的核函数所属的类型确定为所述待识别数据的聚类结果。
19.可选地，所述不同类型的核函数至少包括以下一项：矩形分布对应的核函数、高斯分布对应核函数和泊松分布对应的核函数。
20.根据本技术的第二方面，提供一种异常检测装置，包括：
21.获取模块，用于获取设备的待识别数据；
22.聚类处理模块，用于对所述待识别数据进行聚类处理，确定所述待识别数据对应的聚类结果；
23.检测模块，用于利用与所述聚类结果相匹配的异常检测模型，对所述待识别数据进行检测，得到所述识别数据的异常检测结果。
24.可选地，本实施例提供的异常检测装置，还包括：
25.填充模块，用于在所述聚类处理模块对所述待识别数据进行聚类处理之前，对所述待识别数据进行数据填充处理，得到处理后的待识别数据；
26.进一步地，所述聚类处理模块，具体用于对处理后的待识别数据进行聚类处理。
27.可选地，所述填充模块，具体用于利用就近插补算法或线性差值算法对所述待识别数据进行数据填充处理。
28.可选地，所述聚类处理模块，具体用于利用不同类型的核函数对所述待识别数据进行聚类处理，确定所述待识别数据在各个核函数下的概率；根据确定出的各个概率，将概率最大的核函数所属的类型确定为所述待识别数据的聚类结果。
29.可选地，所述不同类型的核函数至少包括以下一项：矩形分布对应的核函数、高斯分布对应核函数和泊松分布对应的核函数。
30.根据本技术的第三方面，提供一种电子设备，包括处理器和机器可读存储介质，机器可读存储介质存储有能够被处理器执行的计算机程序，处理器被计算机程序促使执行本技术实施例第一方面所提供的方法。
31.根据本技术的第四方面，提供一种机器可读存储介质，机器可读存储介质存储有计算机程序，在被处理器调用和执行时，计算机程序促使处理器执行本技术实施例第一方面所提供的方法。
32.本技术实施例的有益效果：
33.通过对待识别数据进行聚类分析，然后分析确定出该待识别数据所属的聚类，然后利用待识别数据所属的聚类对应的异常检测模型对该待识别数据进行检测，与现有技术的单一检测算法相比，本技术会利用与该待识别数据相匹配的异常检测模型来检测，从而提高了异常检测结果的准确性。
附图说明
34.图1是本技术实施例提供的一种异常检测方法的流程示意图；
35.图2是本技术实施例提供的一种异常检测装置的结构示意图；
36.图3是本技术实施例提供的一种实施异常检测方法的电子设备的硬件结构示意图。
具体实施方式
37.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如本技术的一些方面相一致的装置和方法的例子。
38.在本技术使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术。
在本技术中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相对应的列出项目的任何或所有可能组合。
39.应当理解，尽管在本技术可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
40.下面对本技术提供的异常检测方法进行详细地说明。
41.参见图1，图1是本技术提供的一种异常检测方法的流程图，该方法可包括如下所示步骤：
42.s101、获取设备的待识别数据。
43.本步骤中，上述设备可以但不限于为需要异常检测的设备，如业务处理比较多的网络设备等等。由此一来，本技术中实施异常检测方法的检测设备就可以对上述需要检测的设备进行监测，以获取到该设备的待识别数据。
44.可选地，上述待识别数据可以但不限于为设备的关键绩效指标kpi，上述kpi指标可以但不限于包括cpu使用率(mem_used_percent)、内存使用率(cpu_idle)、cpu下载服务情况(cpu_server_loading)、设备的tcp连接丢失情况(net_tcp_loss)等等。
45.s102、对所述待识别数据进行聚类处理，确定所述待识别数据对应的聚类结果。
46.具体地，为了避免现有技术中采用单一算法对待识别数据进行异常检测时所导致的检测准确度不高的问题发生，本技术提出，先对待识别数据进行聚类处理，以确认出该待识别数据对应的聚类结果。
47.需要说明的是，在对待识别数据进行聚类处理时，可以采用基于数据分布的聚类算法，后续详细说明。
48.s103、利用与所述聚类结果相匹配的异常检测模型，对所述待识别数据进行检测，得到所述识别数据的异常检测结果。
49.本步骤中，在确定出待识别数据的聚类结果后，利用聚类与异常检测模型之间的对应关系，确定出步骤s102中聚类结果对应的异常检测模型，而确定出的异常检测模型是利用与确定出的聚类结果对应的数据训练样本训练得到的，该数据训练样本符合聚类结果对应的数据分布，从而表明待识别数据所属的数据分布与上述数据训练样本所属的数据分布一致，进而再利用与聚类结果相匹配的异常检测模型对该待识别数据进行异常检测，从而确定出该待识别数据是否存在异常，即，上述异常检测结果，从而能够提高待识别数据的异常检测结果的准确性。
50.可选地，上述聚类可以但不限于包括泊松分布、高斯分布、矩形分布等等，而每个聚类对应一个异常检测模型，而每个异常检测模型为利用其对应的聚类所属的数据分布所包括的数据训练样本训练得到的。
51.通过实施图1所示的异常检测方法，对待识别数据进行聚类分析，然后分析确定出该待识别数据所属的聚类，然后利用待识别数据所属的聚类对应的异常检测模型对该待识别数据进行检测，与现有技术的单一检测算法相比，本技术会利用与该待识别数据相匹配
的异常检测模型来检测，从而提高了异常检测结果的准确性。
52.可选地，基于上述实施例，本实施例提供的异常检测方法，还包括：在执行步骤s102中对待识别数据进行聚类处理之前，对待识别数据进行数据填充处理，得到处理后的待识别数据。
53.在此基础上，可以按照下述过程执行步骤s102：对处理后的待识别数据进行聚类处理。
54.具体地，设备的待识别数据在进行异常检测时，由于数据获取过程中存在的问题，可能存在设备的数据未上报或者数据采集设备未采集的情况，从而导致检测设备获取到的待识别数据可能存在一定缺失的情况，为了避免缺失数据影响待识别数据检测结果的准确性，本步骤提出，会对待识别数据进行数据填充处理，得到处理后的待识别数据，以弥补缺失数据所造成的影响检测结果准确性的不足。在此基础上，再对处理后的待识别数据进行聚类处理，从而提高了确定出的聚类结果的准确性，进而在一定程度上，提升了异常检测结果的准确度。
55.可选地，基于上述实施例，本实施例中，可以按照下述过程执行对待识别数据进行数据填充处理，得到处理后的待识别数据：利用就近插补算法或线性差值算法对待识别数据进行数据填充处理。
56.通过利用就近插补算法或线性差值的填充算法对待识别数据进行填充处理，这样可以不破坏待识别数据原有的数据结构及待识别数据包含的信息，同时上述算法处理机制比较简单，不会耗费较多时间，这样也能考虑到异常检测作为一个及时任务对数据处理时间有一定要求的前提。
57.当然，还可以但不限于采用其他填充算法，如均值填充、固定值填充等等，具体使用何种填充算法，具体可以根据实际场景来配置，本技术仅是列举几个可用的填充算法，并不构成对填充算法的限定。
58.可选地，基于上述任一实施例，本实施例中，还可以执行下述过程：对待识别数据或上述处理后的待识别数据进行标准化处理，得到目标待识别数据；
59.在此基础上，在执行步骤s102时，则可以对目标待识别数据进行聚类处理。通过对上述待识别数据进行标准化处理，使得得到的目标待识别数据更符合异常检测模型的对输入数据的要求，从而使得异常检测模型在对目标待识别数据进行异常检测时，检测准确度更高。
60.可选地，基于上述任一实施例，本实施例中，可以按照下述方法执行步骤s103：利用不同类型的核函数对所述待识别数据进行聚类处理，确定所述待识别数据在各个核函数下的概率；根据确定出的各个概率，将概率最大的核函数所属的类型确定为所述待识别数据的聚类结果。
61.具体地，为了能够对待识别数据的数据分布进行准确地识别，进而选出与所属数据分布对应的异常检测模型，本实施例提出，基于数据分布的聚类算法对待识别数据进行聚类处理，即：利用不同数据分布类型的核函数对待识别数据进行聚类处理，然后确定出待识别数据在每个核函数下的概率，将最大的概率对应的核函数所属的数据分布类型确定为待识别数据的聚类结果。
62.需要说明的是，本实施例提出的不同类型的核函数是不同数据分布的核函数，如
本实施例提供了泊松分布的核函数、高斯分布的核函数和矩形分布的核函数等等。为了方便描述，后续以上述三个分布的核函数为例进行说明，由于待识别数据(可以是获取到的待识别数据、处理后的待识别数据或目标待识别数据)使用关键绩效指标kpi表征，在此基础上，针对每个核函数，可以将该kpi曲线上各个待识别点输入到该核函数上，该核函数就可以输出待识别数据在该核函数上的概率；基于此就可以分别确定出在高斯分布的核函数下的概率、在泊松分布的核函数下的概率和在矩形分布的核函数下的概率，进而比较各个核函数的概率大小，概率越大则表明该待识别数据越符合对应核函数所属类型的数据分布，概率越小，则表明该待识别数据越不符合对应核函数所属类型的数据分布。基于此，将最大的概率对应的核函数所属的类型确定为待识别数据的聚类结果。进而就可以利用确定出的聚类结果对应的异常检测模型对该待识别数据进行异常检测，由于利用与待识别数据的数据分布相匹配的异常检测模型来进行异常检测，从而能够明显的提升待识别数据异常检测结果的准确性。
63.可选地，上述每个类型的核函数中的核用来提供权重，表示不同数据点出现的概率值。不同kpi的核函数需要囊括所有可能出现的数据值的情况。实际生活中，同一业务产生的不同kpi数据需要不同的核函数描述，部分kpi会属于同一核函数。对于可用同一核函数描述的kpi数据，可以使用同一种异常检测算法。但是对于使用不同核函数的数据，仍使用同一异常检测算法明显会降低异常检测的准确度。有鉴于此，本技术中使用kde来对kpi数据进行聚类，输出为该kpi符合当前核函数的概率，即对一条kpi数据(一个待识别数据)选取不同的核函数进行拟合，最终选取概率最大的核函数。将符合同一核函数的kpi分为一类，聚类结果类似表1所示，利用不同的值表征不同的类型，其中：
64.表1
65.kpi核函数类型mem_used_percent泊松分布1cpu_idle泊松分布1cpu_server_loading高斯分布2net_tcp_loss高斯分布2
66.需要说明的是，上述表1仅是一个示例，并不构成对聚类结果的限定。
67.目前大多数基于统计的异常检测模型如3西格玛标准差(如果某一点在该段数据的三标准差之外，即算作该数据点异常)，默认数据属于高斯分布，但该异常检测模型对于非高斯分布数据预测效果较差，有鉴于此，本技术提出针对不同类别的数据需要使用不同的异常检测模型，针对符合高斯分布的待识别数据，其对应的异常检测模型可以直接使用业界常用的3标准差等统计学算法对待识别数据进行异常检测。而对于非高斯分布的待识别数据，则其对应的异常检测模型可以利用符合数据分布的训练样本对机器学习或深度学习模型进行训练得到，例如，针对泊松分布，则可以利用符合泊松分布的训练样本对机器学习模型或深度学习模型进行训练得到泊松分布对应的异常检测模型，而矩形分布对应的异常检测模型则可以利用符合矩形分布的训练样本对机器学习模型或深度学习模型进行训练得到矩形分布对应的异常检测模型。
68.值得注意的是，高斯分布的异常检测模型也可以参考泊松分布或矩形分布的异常检测模型的训练方法训练得到，此处不再一一详细赘述。
69.需要说明的是，上述机器学习模型或深度学习模型可以但不限于为：隔离森林、神经网络等训练模型。且针对不同的分布，单独训练上述任一模型，最终根据其分布选择相应的模型以提高异常检测效果。
70.基于同一发明构思，本技术还提供了与上述异常检测方法对应的异常检测装置。该异常检测装置的实施具体可以参考上述对异常检测方法的描述，此处不再一一论述。
71.参见图2，图2是本技术一示例性实施例提供的一种异常检测装置，包括：
72.获取模块201，用于获取设备的待识别数据；
73.聚类处理模块202，用于对所述待识别数据进行聚类处理，确定所述待识别数据对应的聚类结果；
74.检测模块203，用于利用与所述聚类结果相匹配的异常检测模型，对所述待识别数据进行检测，得到所述识别数据的异常检测结果。
75.可选地，本实施例提供的异常检测装置，还包括：
76.填充模块(图中未示出)，用于在所述聚类处理模块对所述待识别数据进行聚类处理之前，对所述待识别数据进行数据填充处理，得到处理后的待识别数据；
77.进一步地，上述聚类处理模块202，具体用于对处理后的待识别数据进行聚类处理。
78.可选地，上述填充模块(图中未示出)，具体用于利用就近插补算法或线性差值算法对所述待识别数据进行数据填充处理。
79.可选地，上述聚类处理模块202，具体用于利用不同类型的核函数对所述待识别数据进行聚类处理，确定所述待识别数据在各个核函数下的概率；根据确定出的各个概率，将概率最大的核函数所属的类型确定为所述待识别数据的聚类结果。
80.可选地，所述不同类型的核函数至少包括以下一项：矩形分布对应的核函数、高斯分布对应核函数和泊松分布对应的核函数。
81.通过实施上述异常检测装置，对待识别数据进行聚类分析，然后分析确定出该待识别数据所属的聚类，然后利用待识别数据所属的聚类对应的异常检测模型对该待识别数据进行检测，与现有技术的单一检测算法相比，本技术会利用与该待识别数据相匹配的异常检测模型来检测，从而提高了异常检测结果的准确性。
82.基于同一发明构思，本技术实施例提供了一种电子设备，该电子设备可以为上述检测设备。如图3所示，该电子设备包括处理器301和机器可读存储介质302，机器可读存储介质302存储有能够被处理器301执行的计算机程序，处理器301被计算机程序促使执行本技术任一实施例所提供的异常检测方法。此外，该电子设备还包括通信接口303和通信总线304，其中，处理器301，通信接口303，机器可读存储介质302通过通信总线304完成相互间的通信。
83.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
84.通信接口用于上述电子设备与其他设备之间的通信。
85.存储器可以包括随机存取存储器(random access memory，ram)、ddr sram
(double data rate synchronous dynamic random access memory，双倍速率同步动态随机存储器)，也可以包括非易失性存储器(non-volatile memory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
86.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
87.另外，本技术实施例提供了一种机器可读存储介质，机器可读存储介质存储有计算机程序，在被处理器调用和执行时，计算机程序促使处理器执行本技术实施例所提供的异常检测方法。
88.对于电子设备以及机器可读存储介质实施例而言，由于其涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
89.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
90.上述装置中各个单元/模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
91.对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的，作为单元/模块显示的部件可以是或者也可以不是物理单元/模块，即可以位于一个地方，或者也可以分布到多个网络单元/模块上。可以根据实际的需要选择其中的部分或者全部单元/模块来实现本技术方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
92.以上所述仅为本技术的较佳实施例而已，并不用以限制本技术，凡在本技术的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本技术保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于虚拟仿真技术的印刷机虚拟装配方法

一种异常检测方法及装置与流程

相关文献

最热文献