一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于集成学习的电网数据异常检测方法及装置与流程

2021-11-09 23:21:00 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种基于集成学习的电网数据异常检测方法及装置。


背景技术:

2.随着电网信息化程度的提高,电网数据量也在日益增加,针对电网数据的异常分析任务也越来越重。目前针对电网的异常检测主要集中在运维监控领域,比如对网络流量异常、温度过高或过低等电网信息运维过程中常见的各类异常现象或故障问题。这类检测由于传统异常检测技术的限制,能检测的异常检测问题与时间因素密切相关,即异常在初期形成时可以在数据集中得以体现,且异常的发展是随着时间的累积而愈发明显,并不适用于突发类型异常的检测:如突然的环境因素或人为因素导致的设备功能异常或损坏等形成与发展特别迅速的故障等。同时,在企业运营经济活动领域,也就是宏观指标检测领域,却罕有针对电网运营指标的异常检测算法。而企业运营生产活动存在的异常模式与运维监控领域存在很大的差别,并且运维监控领域大多采用有监督方法,不适用于企业运营生产活动数据少,标签少的特点,因此无法对企业运营活动中的各种异常模式进行合适全面的检测。


技术实现要素:

3.本发明所要解决的技术问题在于,提供一种基于集成学习的电网数据异常检测方法及装置,能够结合集成算法实现对电网指标数据的无监督异常检测,从而可以实现对宏观层面上的多种类型的电网指标数据进行异常监控,进而实现对电网企业运营活动中的各种异常模式进行合适全面的检测。
4.为了解决上述技术问题,本发明第一方面公开了一种基于集成学习的电网数据异常检测方法,所述方法包括:
5.获取目标电网指标数据,对所述目标电网指标数据进行预处理;
6.提取所述目标电网指标数据中的时序数据特征;
7.基于预设的集成学习异常检测模型,对所述目标电网指标数据中的时序数据特征进行异常检测,并得到异常检测结果;所述集成学习异常检测模型的基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类异常检测模型中的至少一种。
8.作为一种可选的实施方式,在本发明第一方面中,所述获取目标电网指标数据之前,所述方法还包括:
9.检测电网数据是否有变化;
10.若检测到变化,执行所述获取目标电网指标数据的步骤;所述目标电网指标数据为所述电网数据在检测到变化的时刻之前预设时间区间内的数据。
11.作为一种可选的实施方式,在本发明第一方面中,所述提取所述目标电网指标数据中的时序数据特征,包括:
12.计算所述目标电网指标数据中任一时间点的数据与邻近时间点的数据之间的数据差;
13.将多个所述时间点的数据的所述数据差确定为所述目标电网指标数据中的时序数据特征。
14.作为一种可选的实施方式,在本发明第一方面中,所述提取所述目标电网指标数据中的时序数据特征,包括:
15.根据预测算法,预测所述目标电网指标数据中任一时间点的数据预测值;
16.计算所述数据预测值数据和所述时间点对应的实际数据值之间的数据差;
17.将多个所述时间点的数据的所述数据差确定为所述目标电网指标数据中的时序数据特征。
18.作为一种可选的实施方式,在本发明第一方面中,所述提取所述目标电网指标数据中的时序数据特征,包括:
19.对所述目标电网指标数据中的时序数据进行时域

频域转换得到频域数据;
20.对所述频域数据中的噪声数据进行提取并进行逆转换,确定为所述目标电网指标数据中的时序数据特征。
21.作为一种可选的实施方式,在本发明第一方面中,所述集成学习异常检测模型,包括:
22.所述基础模型;
23.集成学习算法模型,通过使用所述基础模型的输出结果进行二次集成训练得到;
24.可视化算法模型,用于对所述集成学习异常检测模型进行可视化展示。
25.作为一种可选的实施方式,在本发明第一方面中,所述集成学习算法模型为孤立森林算法模型,所述可视化算法模型为echart算法模型。
26.作为一种可选的实施方式,在本发明第一方面中,所述统计学异常检测模型包括正态分布异常检测模型和/或高斯核密度异常检测模型;所述数据距离异常检测模型为lof算法模型;所述聚类异常检测模型为dbscan算法模型。
27.本发明第二方面公开了一种基于集成学习的电网数据异常检测装置,其包括:
28.获取处理模块,用于获取目标电网指标数据,对所述目标电网指标数据进行预处理;
29.特征提取模块,用于提取所述目标电网指标数据中的时序数据特征;
30.异常检测模块,用于基于预设的集成学习异常检测模型,对所述目标电网指标数据中的时序数据特征进行异常检测,并得到异常检测结果;所述集成学习异常检测模型的基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类异常检测模型中的至少一种。
31.作为一种可选的实施方式,在本发明第二方面中,所述装置还包括检测模块,用于检测电网数据是否有变化,若检测到变化,则触发所述获取处理模型执行所述获取目标电网指标数据的步骤;所述目标电网指标数据为所述电网数据在检测到变化的时刻之前预设时间区间内的数据。
32.作为一种可选的实施方式,在本发明第二方面中,所述特征提取模块提取所述目标电网指标数据中的时序数据特征的具体方式,包括:
33.计算所述目标电网指标数据中任一时间点的数据与邻近时间点的数据之间的数据差;
34.将多个所述时间点的数据的所述数据差确定为所述目标电网指标数据中的时序数据特征。
35.作为一种可选的实施方式,在本发明第二方面中,所述特征提取模块提取所述目标电网指标数据中的时序数据特征的具体方式,包括:
36.根据预测算法,预测所述目标电网指标数据中任一时间点的数据预测值;
37.计算所述数据预测值数据和所述时间点对应的实际数据值之间的数据差;
38.将多个所述时间点的数据的所述数据差确定为所述目标电网指标数据中的时序数据特征。
39.作为一种可选的实施方式,在本发明第二方面中,所述特征提取模块提取所述目标电网指标数据中的时序数据特征的具体方式,包括:
40.对所述目标电网指标数据中的时序数据进行时域

频域转换得到频域数据;
41.对所述频域数据中的噪声数据进行提取并进行逆转换,确定为所述目标电网指标数据中的时序数据特征。
42.作为一种可选的实施方式,在本发明第二方面中,所述集成学习异常检测模型,包括:
43.所述基础模型;
44.集成学习算法模型,通过使用所述基础模型的输出结果进行二次集成训练得到;
45.可视化算法模型,用于对所述集成学习异常检测模型进行可视化展示。
46.作为一种可选的实施方式,在本发明第二方面中,所述集成学习算法模型为孤立森林算法模型,所述可视化算法模型为echart算法模型。
47.作为一种可选的实施方式,在本发明第二方面中,所述统计学异常检测模型包括正态分布异常检测模型和/或高斯核密度异常检测模型;所述数据距离异常检测模型为lof算法模型;所述聚类异常检测模型为dbscan算法模型。
48.本发明第三方面公开了另一种基于集成学习的电网数据异常检测装置,所述装置包括:
49.存储有可执行程序代码的存储器;
50.与所述存储器耦合的处理器;
51.所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的基于集成学习的电网数据异常检测方法中的部分或全部步骤。
52.与现有技术相比,本发明实施例具有以下有益效果:
53.本发明实施例中,获取目标电网指标数据,对所述目标电网指标数据进行预处理;提取所述目标电网指标数据中的时序数据特征;基于预设的集成学习异常检测模型,对所述目标电网指标数据中的时序数据特征进行异常检测,并得到异常检测结果;所述集成学习异常检测模型的基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类异常检测模型中的至少一种。可见,本发明能够结合集成算法实现对电网指标数据的无监督异常检测,从而可以实现对宏观层面上的多种类型的电网指标数据进行异常监控,进而实现对电网企业运营活动中的各种异常模式进行合适全面的检测。
附图说明
54.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
55.图1是本发明实施例公开的一种基于集成学习的电网数据异常检测方法的流程示意图;
56.图2是本发明实施例公开的一种基于集成学习的电网数据异常检测装置的结构示意图;
57.图3是本发明实施例公开的另一种基于集成学习的电网数据异常检测装置的结构示意图。
具体实施方式
58.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
59.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
60.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
61.本发明公开了一种基于集成学习的电网数据异常检测方法及装置,能够结合集成算法实现对电网指标数据的无监督异常检测,从而可以实现对宏观层面上的多种类型的电网指标数据进行异常监控,进而实现对电网企业运营活动中的各种异常模式进行合适全面的检测。以下分别进行详细说明。
62.实施例一
63.请参阅图1,图1是本发明实施例公开的一种基于集成学习的电网数据异常检测方法的流程示意图。其中,图1所描述的方法可以应用于相应的检测终端、检测设备或检测服务器中,且该服务器可以是本地服务器,也可以是云服务器。如图1所示,该基于集成学习的电网数据异常检测方法可以包括以下操作:
64.101、获取目标电网指标数据,对目标电网指标数据进行预处理;
65.102、提取目标电网指标数据中的时序数据特征;
66.103、基于预设的集成学习异常检测模型,对目标电网指标数据中的时序数据特征进行异常检测,并得到异常检测结果。
67.本发明实施例中,集成学习异常检测模型的基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类异常检测模型中的至少一种。
68.可见,实施本发明实施例所描述的方法能够结合集成算法实现对电网指标数据的无监督异常检测,从而可以实现对宏观层面上的多种类型的电网指标数据进行异常监控,进而实现对电网企业运营活动中的各种异常模式进行合适全面的检测。
69.作为一种可选的实施方式,上述步骤101之前,该方法还包括:
70.检测电网数据是否有变化;
71.若检测到变化,执行步骤101中的获取目标电网指标数据的步骤。
72.其中,目标电网指标数据为电网数据在检测到变化的时刻之前预设时间区间内的数据。可选的,可以提取电网数据在检测到变化的时刻前n天的数据作为目标电网指标数据。
73.作为一种可选的实施方式,上述步骤102中的,提取目标电网指标数据中的时序数据特征,包括:
74.计算目标电网指标数据中任一时间点的数据与邻近时间点的数据之间的数据差;
75.将多个时间点的数据的数据差确定为目标电网指标数据中的时序数据特征。
76.可选的,可以基于数值分析方式进行时序序列特征提取,进行特定需求的特征提取,例如对各个时间点的数据临近左右时间窗口的中位数做差来检测数值变档,和/或,对各个时间点的数据临近左右时间窗口的标准差做差来检测数值波动异常。
77.作为一种可选的实施方式,上述步骤102中的,提取目标电网指标数据中的时序数据特征,包括:
78.根据预测算法,预测目标电网指标数据中任一时间点的数据预测值;
79.计算数据预测值数据和时间点对应的实际数据值之间的数据差;
80.将多个时间点的数据的数据差确定为目标电网指标数据中的时序数据特征。
81.可选的,可以基于时序预测方式进行时序序列特征提取,利用趋势周期分解预测,根据业务知识预测和相关机器学习预测模型进行预测,将预测值与真实值的差视为时序数据特征。
82.作为一种可选的实施方式,上述步骤102中的,提取目标电网指标数据中的时序数据特征,包括:
83.对目标电网指标数据中的时序数据进行时域

频域转换得到频域数据;
84.对频域数据中的噪声数据进行提取并进行逆转换,确定为目标电网指标数据中的时序数据特征。
85.可选的,可以基于信息处理方式进行时序序列特征提取,将目标电网指标数据的时序数据视为波段,利用傅里叶转换、离散小波转换和拉普拉斯转换中的一种或多种算法,将时序数据进行转换,提取噪声后进行逆转换,其结果视为时序数据特征。
86.作为一种可选的实施方式,集成学习异常检测模型,包括:
87.基础模型;
88.集成学习算法模型,通过使用基础模型的输出结果进行二次集成训练得到;
89.可视化算法模型,用于对集成学习异常检测模型进行可视化展示。
90.可选的,基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类
异常检测模型,其中,统计学异常检测模型包括正态分布异常检测模型和/或高斯核密度异常检测模型;数据距离异常检测模型为lof算法模型;聚类异常检测模型为dbscan算法模型,集成学习算法模型为孤立森林算法模型,可视化算法模型为echart算法模型。
91.具体的,统计学异常检测模型通过估计概率分布的参数来建立一个数据模型,如果一个数据对象不能很好的跟该模型拟合,即如果它很可能不服从该分布,则它是一个离群点。统计学方法是基于模型的方法,即为数据创建一个模型,并且根据对象拟合模型的情况来评估它们。如果一个数据对象不能很好的跟该模型拟合,即如果它很可能不服从该分布,则它是一个离群点。可选的,统计学异常检测模型的计算方式可以包括:
92.1、3倍四分位差:正态分布是统计学中最常用的分布之一。n(0,1)的数据对象出现在该分布的两边尾部的机会很小,因此可以用它作为检测数据对象是否是离群点的基础。数据对象落在三倍标准差中心区域之外的概率仅有0.0027,因此超过三倍标准差的数据对象可以视为离群点。
93.2、高斯核密度估计:用来估计未知的密度函数,属于非参数检验方法之一。利用高斯核对单指标数据进行概率密度估计,之后视概率密度过低的数据点为异常点。具体的,所有平滑的峰值函数均可作为核密度估计的核函数来使用,只要对归一化后的核密度估计而言(描绘在图上的是数据点出现的概率值),该函数曲线下方的面积和等于1即可。只有一个数据点时,单个波峰下方的面积为1,存在多个数据点时,所有波峰下方的面积之和为1。概而言之,函数曲线需囊括所有可能出现的数据值的情况
94.具体的,lof算法模型是基于距离的经典算法。通过对相邻点的平均距离进行计算,可以理解其倒数为密度,密度越高,我们认为越可能属于同一簇,密度越低,越可能是离群点。如果和周围邻域点是同一簇,那么可达距离越可能为较小的,导致可达距离之和较小,密度值较高;如果和周围邻居点较远,则导致密度比较小,越可能为离散点。具体的,一个对象是异常的,如果它远离大部分点。这种方法比统计学方法更一般、更容易使用,因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。一个对象的离群点得分由到它的k

最近邻的距离给定。离群点得分对k的取值高度敏感。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
95.具体的,dbscan算法模型是基于密度的经典算法。为了正确的识别这种数据集中的离群点,我们需要与对象邻域相关的密度概念,也就是定义相对密度。从基于密度的观点来说,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用dbscan聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。需要小心的选择d,如果d太小,则许多正常点可能具有低密度,从而具有高离群点得分。如果d太大,则许多离群点可能具有与正常点类似的密度(和离群点得分)。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地,当数据包含不同密度的区域时,它们不能正确的识别离群点。
96.具体的,孤立森林算法模型,其思想为,异常数据跟其他数据点较为疏离,可能需要较少几次切分就可以将它们单独划分出来,而正常数据恰恰相反。孤立森林算法模型采
用二叉树去对数据进行切分,数据点在二叉树中所处的深度反应了该条数据的“疏离”程度。整个算法大致可以分为两步:训练:抽取多个样本,构建多棵二叉树;预测:综合多棵二叉树的结果,计算每个数据点的异常分值。本方案中,集成学习异常检测模型采用stacking算法模型,其是一种模型融合算法,基本思路是通过一个模型融合若干单模型的预测结果,目的是降低单模型的泛化误差。上述各个基础模型可以称作一级模型,而孤立森林算法模型可以称作二级模型。stacking算法模型先从初始的训练集训练出上述若干一级模型,然后把一级模型的输出结果作为样本特征进行整合,并把原始样本标记作为新数据样本标记,生成新的训练集。再根据新训练集训练一个二级模型,最后用二级模型对样本进行预测。
97.本发明实施例中公开的基于集成学习的电网数据异常检测方法,可以对历史的全部指标数据进行批量的异常检测,也可以对每天产生的指标数据进行增量的异常检测。其有益效果包括:
98.1.集成,准确率高,查全率高,覆盖率高
99.采用集成学习框架,很好地解决了单模型检测能力弱的问题。多种方法探测同种异常类型,减少了单模型预测出错的可能性,同时采用智能分类器的方式,更好地集成这些异常算法,提高了准确率。
100.很好地解决了检测不同异常类型的模型群的融合问题,stacking集成框架学习不同种异常模型之间的关联关系,输出异常结论,可以同时检测多种不同种类的异常,大大提升了框架整体的异常查全率和覆盖率。
101.2.针对电网指标
102.针对电网运营管控指标的各种特殊特性,周期性,影响因素,对异常检测算法进行对应的改进,使得在电网运管领域的异常检测更加精准,更加稳健。
103.3.可扩展性强
104.设计了可扩展的异常检测框架,使得后期出现新型异常后,通过多种方式可以简单集成新型的异常检测方法,而不需要对其他原有的检测模型或是检测器进行改动。
105.实施例二
106.请参阅图2,图2是本发明实施例公开的一种基于集成学习的电网数据异常检测装置的结构示意图。其中,图2所描述的装置可以应用于相应的检测终端、检测设备或检测服务器,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该装置可以包括:
107.获取处理模块201,用于获取目标电网指标数据,对目标电网指标数据进行预处理;
108.特征提取模块202,用于提取目标电网指标数据中的时序数据特征;
109.异常检测模块203,用于基于预设的集成学习异常检测模型,对目标电网指标数据中的时序数据特征进行异常检测,并得到异常检测结果。
110.本发明实施例中,集成学习异常检测模型的基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类异常检测模型中的至少一种。
111.可见,实施本发明实施例所描述的装置能够结合集成算法实现对电网指标数据的无监督异常检测,从而可以实现对宏观层面上的多种类型的电网指标数据进行异常监控,
进而实现对电网企业运营活动中的各种异常模式进行合适全面的检测。
112.作为一种可选的实施方式,该装置还包括检测模块,用于检测电网数据是否有变化,若检测到变化,则触发获取目标电网指标数据的步骤。
113.其中,目标电网指标数据为电网数据在检测到变化的时刻之前预设时间区间内的数据。可选的,可以提取电网数据在检测到变化的时刻前n天的数据作为目标电网指标数据。
114.作为一种可选的实施方式,特征提取模块202提取目标电网指标数据中的时序数据特征的具体方式,包括:
115.计算目标电网指标数据中任一时间点的数据与邻近时间点的数据之间的数据差;
116.将多个时间点的数据的数据差确定为目标电网指标数据中的时序数据特征。
117.可选的,可以基于数值分析方式进行时序序列特征提取,进行特定需求的特征提取,例如对各个时间点的数据临近左右时间窗口的中位数做差来检测数值变档,和/或,对各个时间点的数据临近左右时间窗口的标准差做差来检测数值波动异常。
118.作为一种可选的实施方式,特征提取模块202提取目标电网指标数据中的时序数据特征的具体方式,包括:
119.根据预测算法,预测目标电网指标数据中任一时间点的数据预测值;
120.计算数据预测值数据和时间点对应的实际数据值之间的数据差;
121.将多个时间点的数据的数据差确定为目标电网指标数据中的时序数据特征。
122.可选的,可以基于时序预测方式进行时序序列特征提取,利用趋势周期分解预测,根据业务知识预测和相关机器学习预测模型进行预测,将预测值与真实值的差视为时序数据特征。
123.作为一种可选的实施方式,特征提取模块202提取目标电网指标数据中的时序数据特征的具体方式,包括:
124.对目标电网指标数据中的时序数据进行时域

频域转换得到频域数据;
125.对频域数据中的噪声数据进行提取并进行逆转换,确定为目标电网指标数据中的时序数据特征。
126.可选的,可以基于信息处理方式进行时序序列特征提取,将目标电网指标数据的时序数据视为波段,利用傅里叶转换、离散小波转换和拉普拉斯转换中的一种或多种算法,将时序数据进行转换,提取噪声后进行逆转换,其结果视为时序数据特征。
127.作为一种可选的实施方式,集成学习异常检测模型,包括:
128.基础模型;
129.集成学习算法模型,通过使用基础模型的输出结果进行二次集成训练得到;
130.可视化算法模型,用于对集成学习异常检测模型进行可视化展示。
131.可选的,基础模型中包括有统计学异常检测模型、数据距离异常检测模型和聚类异常检测模型,其中,统计学异常检测模型包括正态分布异常检测模型和/或高斯核密度异常检测模型;数据距离异常检测模型为lof算法模型;聚类异常检测模型为dbscan算法模型,集成学习算法模型为孤立森林算法模型,可视化算法模型为echart算法模型。
132.具体的,统计学异常检测模型通过估计概率分布的参数来建立一个数据模型,如果一个数据对象不能很好的跟该模型拟合,即如果它很可能不服从该分布,则它是一个离
群点。统计学方法是基于模型的方法,即为数据创建一个模型,并且根据对象拟合模型的情况来评估它们。如果一个数据对象不能很好的跟该模型拟合,即如果它很可能不服从该分布,则它是一个离群点。可选的,统计学异常检测模型的计算方式可以包括:
133.1、3倍四分位差:正态分布是统计学中最常用的分布之一。n(0,1)的数据对象出现在该分布的两边尾部的机会很小,因此可以用它作为检测数据对象是否是离群点的基础。数据对象落在三倍标准差中心区域之外的概率仅有0.0027,因此超过三倍标准差的数据对象可以视为离群点。
134.2、高斯核密度估计:用来估计未知的密度函数,属于非参数检验方法之一。利用高斯核对单指标数据进行概率密度估计,之后视概率密度过低的数据点为异常点。具体的,所有平滑的峰值函数均可作为核密度估计的核函数来使用,只要对归一化后的核密度估计而言(描绘在图上的是数据点出现的概率值),该函数曲线下方的面积和等于1即可。只有一个数据点时,单个波峰下方的面积为1,存在多个数据点时,所有波峰下方的面积之和为1。概而言之,函数曲线需囊括所有可能出现的数据值的情况
135.具体的,lof算法模型是基于距离的经典算法。通过对相邻点的平均距离进行计算,可以理解其倒数为密度,密度越高,我们认为越可能属于同一簇,密度越低,越可能是离群点。如果和周围邻域点是同一簇,那么可达距离越可能为较小的,导致可达距离之和较小,密度值较高;如果和周围邻居点较远,则导致密度比较小,越可能为离散点。具体的,一个对象是异常的,如果它远离大部分点。这种方法比统计学方法更一般、更容易使用,因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。一个对象的离群点得分由到它的k

最近邻的距离给定。离群点得分对k的取值高度敏感。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
136.具体的,dbscan算法模型是基于密度的经典算法。为了正确的识别这种数据集中的离群点,我们需要与对象邻域相关的密度概念,也就是定义相对密度。从基于密度的观点来说,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用dbscan聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。需要小心的选择d,如果d太小,则许多正常点可能具有低密度,从而具有高离群点得分。如果d太大,则许多离群点可能具有与正常点类似的密度(和离群点得分)。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地,当数据包含不同密度的区域时,它们不能正确的识别离群点。
137.具体的,孤立森林算法模型,其思想为,异常数据跟其他数据点较为疏离,可能需要较少几次切分就可以将它们单独划分出来,而正常数据恰恰相反。孤立森林算法模型采用二叉树去对数据进行切分,数据点在二叉树中所处的深度反应了该条数据的“疏离”程度。整个算法大致可以分为两步:训练:抽取多个样本,构建多棵二叉树;预测:综合多棵二叉树的结果,计算每个数据点的异常分值。本方案中,集成学习异常检测模型采用stacking算法模型,其是一种模型融合算法,基本思路是通过一个模型融合若干单模型的预测结果,目的是降低单模型的泛化误差。上述各个基础模型可以称作一级模型,而孤立森林算法模
型可以称作二级模型。stacking算法模型先从初始的训练集训练出上述若干一级模型,然后把一级模型的输出结果作为样本特征进行整合,并把原始样本标记作为新数据样本标记,生成新的训练集。再根据新训练集训练一个二级模型,最后用二级模型对样本进行预测。
138.本发明实施例中公开的基于集成学习的电网数据异常检测装置,可以对历史的全部指标数据进行批量的异常检测,也可以对每天产生的指标数据进行增量的异常检测。其有益效果包括:
139.1.集成,准确率高,查全率高,覆盖率高
140.采用集成学习框架,很好地解决了单模型检测能力弱的问题。多种方法探测同种异常类型,减少了单模型预测出错的可能性,同时采用智能分类器的方式,更好地集成这些异常算法,提高了准确率。
141.很好地解决了检测不同异常类型的模型群的融合问题,stacking集成框架学习不同种异常模型之间的关联关系,输出异常结论,可以同时检测多种不同种类的异常,大大提升了框架整体的异常查全率和覆盖率。
142.2.针对电网指标
143.针对电网运营管控指标的各种特殊特性,周期性,影响因素,对异常检测算法进行对应的改进,使得在电网运管领域的异常检测更加精准,更加稳健。
144.3.可扩展性强
145.设计了可扩展的异常检测框架,使得后期出现新型异常后,通过多种方式可以简单集成新型的异常检测方法,而不需要对其他原有的检测模型或是检测器进行改动。
146.实施例三
147.请参阅图3,图3是本发明实施例公开的又一种基于集成学习的电网数据异常检测装置的结构示意图。如图3所示,该装置可以包括:
148.存储有可执行程序代码的存储器301;
149.与存储器301耦合的处理器302;
150.处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于集成学习的电网数据异常检测方法中的部分或全部步骤。
151.实施例四
152.本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于集成学习的电网数据异常检测方法中的部分或全部步骤。
153.以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
154.通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,
该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read

only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read

only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one

time programmable read

only memory,otprom)、电子抹除式可复写只读存储器(electrically

erasable programmable read

only memory,eeprom)、只读光盘(compact disc read

only memory,cd

rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
155.最后应说明的是:本发明实施例公开的一种基于集成学习的电网数据异常检测方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献