一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于密度距离综合决策的电力调度监控数据异常检测方法与流程

2021-11-06 06:57:00 来源:中国专利 TAG:

一种基于密度距离综合决策的电力调度监控数据异常检测方法
【技术领域】
1.本发明涉及电力调度监控数据异常检测方法,尤其涉及一种基于密度距离综合决策的电力调度监控数据异常检测方法。


背景技术:

2.智能电网旨在通过积极利用通信及信息化技术,解决从发电设施经送电、变电一直到最终用户的整个过程中存在的各种问题的概念。智能电网调度控制系统作为电网运行的指挥中枢,在电力系统的发电、输电、变电、配电环节都发挥着十分重要的作用,是实现电网的可靠、安全、经济、高效、环境友好和使用安全目标的关键。虽然智能电网调度控制系统可以提供大量的电网运行数据与分析结果,为电力系统运维人员准确评估电网状况带来便利,但是其拥有海量规模的数据,且特征繁多,彼此之间存在着复杂的关系。随着系统规模的不断扩大,传统的基于运维调度人员和专家经验的异常检测方法主观性较强,且无法全面考虑数据特征之间的关系和数据之间的互相影响,已经难以满足准确异常检测的需求。同时,由于数据规模庞大,很难通过咨询专家等方式人工为这些数据标定正、异常标签,从而难以使用有监督的机器学习方法检测异常,而使用无监督机器学习方法能够在无标签的情况下对数据分布进行分析并检测异常,因此可以认为无监督方法能够较为有效地解决电力调度监控数据的异常检测问题。而由于电力调度业务种类繁多,监控数据的正常样本会形成多模式分布的情况,当前已有的无监督异常检测方法大部分没有考虑到该情况而导致难以检测局部和成簇异常。因此,提出一种能够对局部和成簇异常进行有效检测的无监督算法,以提高异常的检测准确率,对于加强电网状态监测、保障电网安全有重要意义。


技术实现要素:

3.有鉴于此,本发明提出了一种基于密度距离综合决策的电力调度监控数据异常检测方法,以提高电力调度监控数据异常检测的性能。
4.本发明提出一种基于密度距离综合决策的电力调度监控数据异常检测方法,包括如下步骤:
5.(1)计算数据样本的局部可达核密度,具体为:
6.将电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据作为电力调度监控历史数据集输入,记为x={x1,x2,x3,...,x
n
},其中x
n
∈r
u
,r代表实数集,u=6代表数据的维度,具体包括进程cpu占用率、内存占用率、磁盘io、网络io、线程个数、网络连接数;输入数据集x的总样本数目为n;
7.计算第i个样本x
i
到x中所有样本的欧式距离d(x
i
,x
j
),x
j
∈x,并取距离x
i
最近的k个样本,记为knn(x
i
);计算x
i
到knn(x
i
)中的所有样本的局部可达距离:
8.d
k

reach
(x
i
,x
j
)=max{d
k

dis
(x
j
),d(x
i
,x
j
)},x
j
∈knn(x
i
)
9.其中,j=1,2,...k;d
k

dis
(x
j
)为x
j
到其第k个最近邻的欧式距离。使用高斯核函数
与局部可达距离对x
i
进行核密度估计:
[0010][0011]
其中,h(x
j
)为高斯核函数在x
j
处的带宽,取值为d
k

dis
(x
j
);i=1,2,...n,n表示输入数据集x的总样本数目;
[0012]
(2)计算样本的局部密度比,具体为:
[0013]
基于步骤(1)中计算的局部可达核密度ρ(x
i
),使用自然对数函数ln(x 1)作为缩放函数,计算输入样本集x中每个样本x
i
的局部密度比:
[0014][0015]
其中,j=1,2,...k;|knn(x
i
)|代表x
i
的k最近邻数量;
[0016]
(3)计算样本的密度提升距离,具体为:
[0017]
对于样本x
i
,基于步骤(1)中计算的局部可达核密度ρ(x
i
),寻找核密度比x
i
大的样本并计算它们到x
i
的欧式距离,找到其中距离x
i
最近的k
d
个样本,将它们到x
i
的距离记为δd
m
(x
i
),m=1,2,...k
d
;计算其中每个样本的权重ω
m

[0018][0019]
根据δd
m
(x
i
)与权重ω
m
,计算输入样本集x中每个样本x
i
的密度提升距离δd(x
i
):
[0020][0021]
(4)根据步骤(2)计算的输入样本集x中每个样本的局部密度比与步骤(3)计算的对应的密度提升距离,计算最终异常分数并检测异常,具体为:
[0022]
通过norm()标准化函数对输入样本集x中每个样本x
i
的δρ(x
i
)与δd(x
i
)进行最大最小标准化后,计算x
i
的最终异常分数:
[0023]
dgof(x
i
)=norm(δρ(x
i
))
·
norm(δd(x
i
))
[0024]
其中标准化函数norm()的定义如下:
[0025][0026]
根据计算的异常分数dgof(x
i
)对数据样本进行排序,分数最高的前t%样本将被判定为异常,实现电力调度监控数据异常检测。
[0027]
上述方法步骤(1)中,k的取值为6log(n),其中n为输入数据集x的总样本数目。
[0028]
上述方法步骤(3)中,k
d
的取值为3log(n),其中n为输入数据集x的总样本数目。
[0029]
上述方法步骤(4)中,将排序后分数最高的前t%个样本判定为异常,取5≤t≤20。
[0030]
所述电力调度监控数据异常检测方法使得电力调度监控数据的异常检测准确率有所提高。
[0031]
由以上技术方案可以看出,本发明具有以下有益效果:
[0032]
本发明实施的技术方案中,通过使用局部可达距离和核密度估计,能够更为准确地判断样本的局部密度,通过使用局部密度比作为局部异常程度、密度提升距离作为全局异常程度进行异常分数的计算,能够更为有效检测局部与成簇异常,从而提高电力调度监控数据异常检测的性能。
【附图说明】
[0033]
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0034]
图1是本发明所提出的基于密度距离综合决策的电力调度监控数据异常检测方法框架流程示意图;
[0035]
图2是计算局部可达距离的示意图;
[0036]
图3是计算密度提升距离的示意图;
[0037]
图4是在测试数据集上根据局部密度比与密度提升距离画出的密度距离决策图;
[0038]
图5是本发明算法的输入数据和输出结果示意图。
【具体实施方式】
[0039]
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
[0040]
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0041]
本发明给出一种基于密度距离综合决策的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测,根据局部可达核密度计算局部密度比与密度提升距离指标,并在标准化后计算最终异常分数来判断异常。
[0042]
图1是本发明所提出的基于密度距离综合决策的电力调度监控数据异常检测方法框架流程示意图,该方法包括以下步骤:
[0043]
步骤101,将电力调度监控历史数据作为输入数据集,通过局部可达距离与核密度估计计算样本的局部密度。
[0044]
具体的,将电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据作为电力调度监控历史数据集输入,记为x={x1,x2,x3,...,x
n
},其中x
n
∈r
u
,r代表实数集,u=6代表数据的维度,具体包括进程cpu占用率、内存占用率、磁盘io、网络io、线程个数、网络连接数;输入数据集x的总样本数目为n。
[0045]
计算第i个样本x
i
到x中所有样本的欧式距离d(x
i
,x
j
),x
j
∈x,并取距离x
i
最近的k个样本,记为knn(x
i
);计算x
i
到knn(x
i
)中的所有样本的局部可达距离:
[0046]
d
k

reach
(x
i
,x
j
)=max{d
k

dis
(x
j
),d(x
i
,x
j
)},x
j
∈knn(x
i
)
[0047]
其中,j=1,2,...k;d
k

dis
(x
j
)为x
j
到其第k个最近邻的欧式距离;k=6log(n),n表示数据集的样本数目。计算局部可达距离的示意图如图2所示。使用高斯核函数与局部可达距离对x
i
进行核密度估计:
[0048][0049]
其中,h(x
j
)为高斯核函数在x
j
处的带宽,取值为d
k

dis
(x
j
);i=1,2,...n,n表示输入数据集x的总样本数目。
[0050]
步骤102,使用自然对数函数作为缩放函数,计算每个样本与其近邻的密度比。
[0051]
具体的,基于步骤101中计算的局部可达核密度ρ(x
i
),使用自然对数函数ln(x 1)作为缩放函数,计算输入样本集x中每个样本x
i
的局部密度比:
[0052][0053]
其中,j=1,2,...k;|knn(x
i
)|代表x
i
的k最近邻数量。
[0054]
步骤103,通过欧式距离找到每个样本密度比自身大的近邻,计算密度提升距离。
[0055]
具体的,对于样本x
i
,基于步骤101中计算的局部可达核密度ρ(x
i
),寻找核密度比x
i
大的样本并计算它们到x
i
的欧式距离,找到其中距离x
i
最近的k
d
个样本,将它们到x
i
的距离记为δd
m
(x
i
),m=1,2,...k
d
,k
d
=3log(n)。δd
m
(x
i
)的示意图如图3所示。计算其中每个样本的权重ω
m

[0056][0057]
根据δd
m
(x
i
)与权重ω
m
,计算输入样本集x中每个样本x
i
的密度提升距离δd(x
i
):
[0058][0059]
步骤104,根据步骤102计算的局部密度比与步骤103计算的密度提升距离画出决策图,并计算最终异常分数,检测异常。
[0060]
具体的,以局部密度比δρ作为横轴,密度提升距离δd作为纵轴,画出所有样本在该二维坐标系下的散点图,以可视化的方式展现异常程度,如图4所示,其中灰色圆点代表正常样本,黑色叉叉标记代表异常样本。通过norm()标准化函数对输入样本集x中每个样本x
i
的δρ(x
i
)与δd(x
i
)进行最大最小标准化后,计算x
i
的最终异常分数:
[0061]
dgof(x
i
)=norm(δρ(x
i
))
·
norm(δd(x
i
))
[0062]
其中标准化函数norm()的定义如下:
[0063][0064]
根据计算的异常分数dgof(x
i
)对数据样本进行排序,分数最高的前t%样本将被判定为异常,其中5≤t≤20,实现电力调度监控数据异常检测。
[0065]
图5是本发明算法的输入数据和输出结果示意图,本发明算法的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,包括进程cpu占用率、内存占用率、磁盘io、网络io、线程个数、网络连接数;本发明算法的输出为异常分数dgof和将异常分数排序后分数最高的前t%被判定为异常的数据样本。
[0066]
算法1为基于密度距离综合决策异常检测方法的伪代码:
[0067][0068][0069]
用于具体实施例中,使用16个公开数据集进行测试,数据集来自于各个领域,并经过最大最小缩放对所有特征进行标准化。数据集的具体信息如表1所示。为了降低结果的随机性,全部结果均是进行10折交叉验证后的平均值。
[0070]
表1 具体实施例中使用的数据集
[0071]
数据集样本数目异常数目异常占比维度pendigits9869200.20%16shuttle1013131.28%9wbc454102.20%9wdbc367102.72%30waveform34431002.90%21glass21494.21%7annthyroid72005347.42%21stamps340319.12%9pageblocks547356010.23%10cardiotocography212647122.15%21wpbc1984723.74%33
pima76826834.90%8ionosphere35112635.90%32spambase4601181339.40%57heartdisease27012044.44%13arrhythmia45020645.78%259
[0072]
为验证所提算法的有效性,本发明实施例中使用了12种典型无监督异常检测算法作为对比算法,如表2所示,本发明实施例在表格中用dgof表示。
[0073]
表2 具体实施例中进行对比的算法
[0074][0075][0076]
本发明实施例使用roc曲线来衡量异常检测的结果。roc曲线是一个准确率与误报率随着判定阈值的变化画出的曲线。一个完美的异常检测器的曲线应该由在误报率为0时的一条竖直线以及准确率为1时的一条横直线组成。roc曲线可以通过一个简单的指标来衡量,即曲线下方面积(auc)。auc的取值从0到1,异常检测准确率越高,auc的值越大,完美的异常检测器得出的排名结果可以让auc达到1,而最差的排名结果将导致auc为0。
[0077]
本发明实施例中异常类标记方法中t设置为10。
[0078]
本发明实施例和基于密度的对比方法在公开数据集上的auc结果如表3所示。可以看到本发明基于密度距离综合决策的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的auc,并获得了最高的平均auc与最低的平均秩。
[0079]
表3 在公开数据集上与基于密度方法对比的auc结果
[0080]
数据集lofcblofldfrdoscelofdgofpendigits0.91680.90020.960.67960.93560.9808shuttle0.92410.60460.90560.93430.91330.9262wbc0.97780.98870.98980.97890.9820.9901wdbc0.94040.93740.9310.93120.94350.938waveform0.7430.73750.75950.73390.76430.7783
glass0.86830.87480.90680.91440.8580.9062annthyroid0.67370.53180.64630.65720.67230.6528stamps0.74780.92380.82560.57370.82490.9408pageblocks0.78570.90830.81440.70360.76170.8525cardiotocography0.59460.69080.60910.52510.6030.6061wpbc0.52520.51250.57830.56640.51540.617pima0.64570.67160.70910.62430.64630.7571ionosphere0.90550.93190.88910.63560.90760.9239spambase0.48190.57710.49890.50860.48050.6457heartdisease0.58730.60480.63340.57170.61030.8043arrhythmia0.73750.74360.70380.45370.75740.7634平均auc0.75350.75870.77250.68700.76100.8177平均秩4.133.503.314.693.631.75
[0081]
本发明实施例和其他对比方法在公开数据集上的auc结果如表4所示。可以看到本发明基于密度距离综合决策的电力调度监控数据异常检测方法在大部分公开数据集上均获得了超过其他方法的auc值,并获得了最高的平均auc与最低的平均秩。综合表3与表4结果,说明本发明实施例方法的异常检测准确率高。
[0082]
表4 在公开数据集上与其他方法对比的auc结果
[0083]
数据集knnabodiforesthboslgodcopodmod dgofpendigits0.98640.96990.87580.75370.98730.57930.98490.9808shuttle0.94550.77880.67250.80670.89820.62610.92510.9262wbc0.98970.98660.98970.98510.98980.98690.98780.9901wdbc0.94040.92480.95740.96280.95480.96990.92270.938waveform0.76230.67980.7260.69690.76250.73660.77170.7783glass0.87320.86230.81140.82820.86340.7550.86530.9062annthyroid0.63520.67960.65310.7350.58470.68650.62750.6528stamps0.90110.84340.91230.91170.86570.93020.92480.9408pageblocks0.87230.76060.90780.80830.82690.87540.83060.8525cardiotocography0.62480.51190.74320.62990.66950.66290.58670.6061wpbc0.5370.52610.52130.54840.56080.52330.58330.617pima0.72910.70680.69970.70580.74430.6540.74740.7571ionosphere0.9270.93090.85620.86340.90130.78950.91490.9239spambase0.57230.40780.65080.68070.61770.67710.58160.6457heartdisease0.67510.6460.64640.76270.79910.69460.7320.8043arrhythmia0.75120.74930.77560.75120.74620.75760.73880.7634平均auc0.79520.74780.77500.77690.79830.74410.79530.8177平均秩4.196.194.694.754.134.884.502.69
[0084]
同样将本发明实施例应用在三种智能电网调度控制系统业务异常上,这三种异常分别为数据跳变、应用断网和遥测表不刷新。
[0085]
表5、6展示了本发明实施例和其他对比方法在这三种异常上的auc结果。
[0086]
表5 在三种异常上与基于密度方法对比的auc结果
[0087]
异常类型lofcblofldfrdoscelofdgof数据跳变0.94500.94210.96030.86320.95370.9696应用断网0.86460.93100.88190.71350.89200.9342遥测表不刷新0.84430.89960.89750.72260.87280.9426
[0088]
表6 在三种异常上与基于密度方法对比的auc结果
[0089][0090][0091]
从表5与表6中可以看到与所有所选的对比方法相比,本发明基于密度距离综合决策的电力调度监控数据异常检测方法都获得了较佳的auc结果,仅在数据跳变数据集上弱于lgod方法。三种实际电力调度监控数据异常上的对比结果结合大量公开数据集上的对比结果,说明本发明可以在应对较为复杂、存在局部与成簇异常的电力调度监控数据异常检测时有效的降低误报率。
[0092]
综上所述,本发明实施例具有以下有益效果:
[0093]
本发明实施的技术方案中,将电力调度监控历史数据作为待测数据集输入,通过局部可达距离与核密度估计计算样本的局部密度;使用自然对数函数作为缩放函数,计算每个样本与其近邻的密度比;通过欧式距离找到每个样本密度比自身大的近邻,计算密度提升距离;将局部密度比与密度提升距离标准化后计算乘积,得到最终的异常分数,并判定数据中的异常样本。根据本发明实施例提供的技术方案,当面对电力调度监控数据较为复杂、存在局部与成簇异常时,与典型的无监督异常检测方法对比,本方法能够提升电力调度监控数据异常检测的准确率。
[0094]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献