一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于动静态选择集成的电力调度监控数据异常检测方法

2022-04-27 11:46:24 来源:中国专利 TAG:

一种基于动静态选择集成的电力调度监控数据异常检测方法
【技术领域】
1.本发明涉及电力调度监控数据异常检测方法,尤其涉及一种基于动静态选择集成的电力调度监控数据异常检测方法。


背景技术:

2.统一坚强智能电网是以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,其包含发电、输电、变电、配电、用电和调度环节。在电力系统实际工作中,调度承担指挥、监督和管理电力生产运行的职能,是电力系统安全运行的重要保障。随着电网规模日益扩大,对电网安全稳定运行的要求也越来越高,电网调度监控数据的异常检测也愈显重要。由于监控系统在电网运行时会在短时间内产生大量监控数据,通过咨询专家等方式人工为这些数据全部标定正、异常标签几乎是不可能的。因此,这些存储的历史电网调度监控数据往往缺少准确的标签信息。所以,不需要使用训练数据标签信息的无监督异常检测方法能够较好地应对这种存储的历史数据缺少准确标签的情况。当前已有的基于动态选择集成的无监督异常检测方法中结合全部初始训练的基检测器所生成的假真值会受到性能较差的基检测器的影响而产生偏差,导致以假真值为基准计算的基检测器性能得分不够准确;而且现有动态选择集成方法均只使用单一评价指标来衡量基检测器性能,通用性有限,导致在其所使用的指标不适用时方法性能较差。因此,提出一种先通过静态选择剔除部分性能较差的基检测器来生成更加准确的假真值,再融入元学习思想来结合多种指标综合评价检测器性能并动态选择基检测器的动静态选择集成异常检测方法,能够提高基于集成的电力调度监控数据异常检测方法的准确率,对于加强电网状态监测、保障电网安全有重要意义。


技术实现要素:

3.有鉴于此,本发明提出了一种基于动静态选择集成的电力调度监控数据异常检测方法,以提高电力调度监控数据异常检测的准确率。
4.本发明提出一种基于动静态选择集成的电力调度监控数据异常检测方法,包括如下步骤:
5.(1)使用电力调度监控历史数据训练一定数量的基检测器,具体为:
6.将全部电力监控历史数据作为训练集x
tr
,基于训练集使用不同的无监督异常检测算法训练m个基检测器,一般取m≥50,记全部基检测器组成的基检测器池为po。每个基检测器的输出为异常分数,异常分数越大输入数据的异常程度越大,将po中每个基检测器输出的异常分数进行z分数标准化转换为z分数。记po中第i个基检测器在x
tr
中第j个历史数据上输出的异常分数为其z分数为:
7.8.其中:i=1,2,...,m,j=1,2,...,n,n为x
tr
中历史数据的数量,为第i个基检测器在全部历史数据上输出的异常分数的平均值,为第i个基检测器在全部历史数据上输出的异常分数的标准差。
9.每个基检测器的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,包括进程cpu占用率、内存占用率、磁盘io、网络io、线程个数、网络连接数。如果第i个基检测器输出的z分数小于则输入数据为正常;如果第i个基检测器输出的z分数大于等于则输入数据为异常。将第i个基检测器在全部训练数据x
tr
上输出的z分数从大到小排序,第i个基检测器的分类阈值为排序之后前r
da
%个z分数中的最小值。r
da
%为设定的基检测器输出转换比例,一般取10%。
10.(2)使用孤立森林剔除性能较差的基检测器,具体为:
11.使用po中全部m个基检测器在训练集x
tr
中全部n条历史数据上输出的z分数组成的训练一个由n_itree个孤立树组成的孤立森林,n_itree一般取100。构建一个孤立树时,从中均匀无放回抽样出ψ条数据,一般取将全部ψ条n维数据score
ψ
×n作为这个孤立树的训练样本。在每个孤立树样本中,随机选一个维度,并从样本在这个维度上的最大值与最小值之间随机选一个值,对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集。分别在左右两边的数据集上重复上面的过程,直到达到终止条件,终止条件有两个:
12.1)数据集本身只包括一个样本,或全部样本相同;
13.2)树的高度达到log2(ψ)。
14.将全部训练的孤立树组成孤立森林iforest,孤立森林iforest的输出为连续值,输出越小输入数据的异常程度越大。
15.将中的第r条数据作为孤立森林iforest的输入,r=1,2,...,m,孤立森林对应的输出为将孤立森林iforest在上的m个输出从小到大排序,将排序之后前rd%个输出对应的基检测器标记为异常,rd%一般取10%。从po中剔除被标记为异常的基检测器,记筛选后剩余的m

个基检测器组成的基检测器池为pf。
16.(3)使用平均值法根据剩余基检测器的输出生成历史数据的假真值,并分别将假真值和基检测器的输出转换为二类标签,具体为:
17.记pf中全部m

个基检测器在训练集x
tr
中第j个历史数据上输出的z分数组成计算中全部z分数的平均值作为的假真值记训练集x
tr
中全部历史数据对应的假真值集为
18.将中的假真值从大到小排序,阈值pscore
thr
为排序之后前r
ga
%个假真值中的最小值,r
ga
%为设定的假真值转换比例,一般取20%。如果第j个历史数据对应的假真值大于等于pscore
thr
,则其假标签为1,否则为0。记训练集x
tr
中全部历史数据对应的假标签集为
19.如果pf中第a个基检测器在历史数据上输出的z分数大于等于其分类阈值a=1,2,...,m

,则其在上输出的二类标签为1,否则为0。记第a个基检测器在训练集x
tr
上输出的二类标签为全部基检测器在x
tr
上输出的二类标签集为
20.(4)剔除假真值过小的历史数据,并提取基检测器在剩余历史数据上的元特征和元标签,具体为:
21.将全部历史数据的假真值从小到大排序,剔除排序后前rs%个假真值对应的历史数据。记剩余的n

个历史数据为x
str
,其对应的假标签集和二类标签集分别为和剩余基检测器在x
str
上的z分数为
22.对于x
str
中第t个历史数据计算其到原训练集x
tr
中第j个历史数据的欧氏距离
[0023][0024]
其中:t=1,2,...,n

,l=1,2,...,u,u为历史数据的维数,为在第l维上的数值,为在第l维上的数值。
[0025]
将原训练集x
tr
中全部历史数据根据其到的欧氏距离从小到大排序,取排在前面的k
rc
个历史数据作为的性能评估集一般取10≤k
rc
≤30。
[0026]
对于记pf中全部基检测器在上输出的z分数为对于记pf中全部基检测器在上输出的z分数为计算与的欧氏距离
[0027]
[0028]
其中:为pf中第a个基检测器在上输出的z分数,为pf中第a个基检测器在上输出的z分数。
[0029]
将原训练集x
tr
中全部历史数据根据基检测器在其上输出的z分数与的欧氏距离从小到大排序,取排在前面的k
sop
个历史数据作为的近似输出集一般取10≤k
sop
≤30。
[0030]
提取pf中第a个基检测器在上的六组元特征:
[0031]
1)计算在性能评估集中基检测器输出的二类标签和对应假标签相同的历史数据的数量,并计算其与k
rc
的比值作为特征;此组包含一个特征;
[0032]
2)计算在近似输出集中基检测器输出的二类标签和对应假标签相同的历史数据的数量,并计算其与k
sop
的比值作为特征;此组包含一个特征;
[0033]
3)对于性能评估集中的每个历史数据,基检测器是否能正确判断其正异常情况;如果基检测器能够正确判断中的第q个历史数据,q=1,2,...,k
rc
,则此组中的第q个特征为0,否则为1;此组包含k
rc
个特征;
[0034]
4)对于近似输出集中的每个历史数据,基检测器是否能正确判断其正异常情况;如果基检测器能够正确判断中的第p个历史数据,p=1,2,...,k
sop
,则此组中的第p个特征为0,否则为1;此组包含k
sop
个特征;
[0035]
5)计算性能评估集中基检测器对每个历史数据输出的z分数与基检测器自身分类阈值的差值的绝对值;此组包含k
rc
个特征;
[0036]
6)计算基检测器对要提取元特征的数据输出的z分数与基检测器自身正分类阈值的差值的绝对值;此组包含1个特征。
[0037]
以上六组共包含m个元特征,m=3 2
×krc
k
sop
;通过以上方法提取pf中每个基检测器在x
str
中每个历史数据上的元特征构成元特征集x
trm
,x
trm
中包含n
′×m′
条元特征数据。
[0038]
比较pf中第a个基检测器在上输出的二类标签与的假标签是否相同。如果相同,则第a个基检测器在上的元标签为0,表示第a个基检测器可以正确判断否则为1,表示第a个基检测器不能正确判断通过上述方法计算pf中每个基检测器在x
str
中每个历史数据上的元标签集l
trm
,l
trm
中包含n
′×m′
个元标签。
[0039]
(5)通过元特征和元标签训练随机森林,具体为:
[0040]
使用元特征集x
trm
和元标签集l
trm
训练一个由n_dtree个决策树组成的随机森林,
n_dtree一般取100。构建一个决策树时,从x
trm
中均匀有放回抽样出n条数据作为这个决策树的训练样本,一般取n=n
′×m′
。在每个决策树样本中,随机从m维中取m

个维度,一般取根据基尼指数在所选m

个维度上选择最优划分维度和划分点对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集。分别在左右两边的数据集上重复上面的过程,直到数据集本身只包括一个样本,或全部样本的元标签相同。将全部训练的决策树组成随机森林rfc,其输出为二类标签0或者1,表示对应的基检测器能否正确判断对应的数据。
[0041]
(6)提取基检测器在待检测数据上的元特征,将其输入随机森林,根据随机森林的输出选择基检测器,取所选基检测器的输出的最大值作为待检测数据的检测结果,实现电力调度监控数据异常检测,具体为:
[0042]
对于待检测数据x
te
,使用和步骤(4)中相同的方法提取pf中每个基检测器在x
te
上的m个元特征构成检测元特征集x
tem
。将x
tem
输入到步骤(5)中训练的随机森林rfc,得到包含m

个二类标签的检测元标签集l
tem

[0043]
对于pf中的每个基检测器,如果其对应的检测元标签为0,意味着此检测器被认为能够正确判断待检测数据,则将其加入到选择后的基检测器池ps中。计算ps中全部基检测器在x
te
上输出的z分数的最大值作为待检测数据x
te
的检测结果。计算ps中全部基检测器的分类阈值的最大值作为本次检测的检测阈值,检测结果大于或等于检测阈值的待检测数据x
te
被判断为异常数据,实现电力调度监控数据异常检测。
[0044]
由以上技术方案可以看出,本发明具有以下有益效果:
[0045]
本发明实施的技术方案中,通过在动态选择基检测器前使用孤立森林预先剔除掉部分在全部训练数据上性能较差的基检测器,可以提高生成的假真值的准确度,更准确地评价基检测器的性能;在动态选择基检测器时,通过元学习思想有效结合了多种评价指标来综合评价基检测器性能,可以缓解单一指标通用性有效而导致动态选择集成方法在部分情况下性能较差的问题,从而提高基于集成方法的电力调度监控数据异常检测的准确率。
【附图说明】
[0046]
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0047]
图1是本发明所提出的基于动静态选择集成的电力调度监控数据异常检测方法框架流程示意图;
[0048]
图2是本发明所提出的基于动静态选择集成的电力调度监控数据异常检测方法示意图;
[0049]
图3是本发明使用的基检测器的输入数据和输出结果示意图;
【具体实施方式】
[0050]
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
[0051]
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0052]
本发明给出一种基于动静态选择集成的电力调度监控数据异常检测方法。本发明为满足电力调度监控数据的异常检测,使用孤立森林筛选基检测器,结合多种评价指标综合衡量基检测器的性能,由随机森林选择性能较好的基检测器来检测待检测数据。
[0053]
图1是本发明所提出的基于动静态选择集成的电力调度监控数据异常检测方法框架流程示意图,该方法包括以下步骤:
[0054]
步骤101,使用电力调度监控历史数据训练一定数量的基检测器。
[0055]
具体的,将全部电力监控历史数据作为训练集x
tr
,基于训练集使用不同的无监督异常检测算法训练m个基检测器,一般取m≥50,记全部基检测器组成的基检测器池为po。每个基检测器的输出为异常分数,异常分数越大输入数据的异常程度越大,将po中每个基检测器输出的异常分数进行z分数标准化转换为z分数。记po中第i个基检测器在x
tr
中第j个历史数据上输出的异常分数为其z分数为:
[0056][0057]
其中:i=1,2,...,m,j=1,2,...,n,n为x
tr
中历史数据的数量,为第i个基检测器在全部历史数据上输出的异常分数的平均值,为第i个基检测器在全部历史数据上输出的异常分数的标准差。
[0058]
每个基检测器的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,包括进程cpu占用率、内存占用率、磁盘io、网络io、线程个数、网络连接数。如果第i个基检测器输出的z分数小于则输入数据为正常;如果第i个基检测器输出的z分数大于等于则输入数据为异常。将第i个基检测器在全部训练数据x
tr
上输出的z分数从大到小排序,第i个基检测器的分类阈值为排序之后前r
da
%个z分数中的最小值。r
da
%为设定的基检测器输出转换比例,一般取10%。
[0059]
步骤102,使用孤立森林剔除性能较差的基检测器。
[0060]
具体的,使用po中全部m个基检测器在训练集x
tr
中全部n条历史数据上输出的z分数组成的训练一个由n_itree个孤立树组成的孤立森林,n_itree一般取100。构建一个孤立树时,从中均匀无放回抽样出ψ条数据,一般取将全部ψ条n维数据score
ψ
×n作为这个孤立树的训练样本。在每个孤立树样本中,随机选一个维度,并从样本在这个维度上的最大值与最小值之间随机选一个值,对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集。分别在左右两边的数据集上重复上面的过程,直到达
到终止条件,终止条件有两个:
[0061]
1)数据集本身只包括一个样本,或全部样本相同;
[0062]
2)树的高度达到log2(ψ)。
[0063]
将全部训练的孤立树组成孤立森林iforest,孤立森林iforest的输出为连续值,输出越小输入数据的异常程度越大。
[0064]
将中的第r条数据作为孤立森林iforest的输入,r=1,2,...,m,孤立森林对应的输出为将孤立森林iforest在上的m个输出从小到大排序,将排序之后前rd%个输出对应的基检测器标记为异常,rd%一般取10%。从po中剔除被标记为异常的基检测器,记筛选后剩余的m

个基检测器组成的基检测器池为pf。
[0065]
算法1为此步骤的伪代码:
[0066]
[0067][0068]
步骤103,使用平均值法根据剩余基检测器的输出生成历史数据的假真值,并分别将假真值和基检测器的输出转换为二类标签。
[0069]
具体的,记pf中全部m

个基检测器在训练集x
tr
中第j个历史数据上输出的z分数组成计算中全部z分数的平均值作为的假真值记训练集x
tr
中全部历史数据对应的假真值集为
[0070]
将中的假真值从大到小排序,阈值pscore
thr
为排序之后前r
ga
%个假真值中的最小值,r
ga
%为设定的假真值转换比例,一般取20%。如果第j个历史数据对应的假真值大于等于pscore
thr
,则其假标签为1,否则为0。记训练集x
tr
中全部历史数据对应的假标签集为
[0071]
如果pf中第a个基检测器在历史数据上输出的z分数大于等于其分类阈值a=1,2,...,m

,则其在上输出的二类标签为1,否则为0。记第a个基检测器在训练集x
tr
上输出的二类标签为全部基检测器在x
tr
上输出的二类标签集为
[0072]
步骤104,剔除假真值过小的历史数据,并提取基检测器在剩余历史数据上的元特征和元标签。
[0073]
具体的,将全部历史数据的假真值从小到大排序,剔除排序后前rs%个假真值对应的历史数据。记剩余的n

个历史数据为x
str
,其对应的假标签集和二类标签集分别为和剩余基检测器在x
str
上的z分数为
[0074]
对于x
str
中第t个历史数据计算其到原训练集x
tr
中第j个历史数据的欧氏距离
[0075][0076]
其中:t=1,2,...,n

,l=1,2,...,u,u为历史数据的维数,为在第l维上的数值,为在第l维上的数值。
[0077]
将原训练集x
tr
中全部历史数据根据其到的欧氏距离从小到大排序,取排在前面的k
rc
个历史数据作为的性能评估集一般取10≤k
rc
≤30。
[0078]
对于记pf中全部基检测器在上输出的z分数为对于记pf中全部基检测器在上输出的z分数为计算与的欧氏距离
[0079]
[0080]
其中:为pf中第a个基检测器在上输出的z分数,为pf中第a个基检测器在上输出的z分数。
[0081]
将原训练集x
tr
中全部历史数据根据基检测器在其上输出的z分数与的欧氏距离从小到大排序,取排在前面的k
sop
个历史数据作为的近似输出集一般取10≤k
sop
≤30。
[0082]
提取pf中第a个基检测器在上的六组元特征:
[0083]
1)计算在性能评估集中基检测器输出的二类标签和对应假标签相同的历史数据的数量,并计算其与k
rc
的比值作为特征;此组包含一个特征;
[0084]
2)计算在近似输出集中基检测器输出的二类标签和对应假标签相同的历史数据的数量,并计算其与k
sop
的比值作为特征;此组包含一个特征;
[0085]
3)对于性能评估集中的每个历史数据,基检测器是否能正确判断其正异常情况;如果基检测器能够正确判断中的第q个历史数据,q=1,2,...,k
rc
,则此组中的第q个特征为0,否则为1;此组包含k
rc
个特征;
[0086]
4)对于近似输出集中的每个历史数据,基检测器是否能正确判断其正异常情况;如果基检测器能够正确判断中的第p个历史数据,p=1,2,...,k
sop
,则此组中的第p个特征为0,否则为1;此组包含k
sop
个特征;
[0087]
5)计算性能评估集中基检测器对每个历史数据输出的z分数与基检测器自身分类阈值的差值的绝对值;此组包含k
rc
个特征;
[0088]
6)计算基检测器对要提取元特征的数据输出的z分数与基检测器自身正分类阈值的差值的绝对值;此组包含1个特征。
[0089]
以上六组共包含m个元特征,m=3 2
×krc
k
sop
;通过以上方法提取pf中每个基检测器在x
str
中每个历史数据上的元特征构成元特征集x
trm
,x
trm
中包含n
′×m′
条元特征数据。
[0090]
比较pf中第a个基检测器在上输出的二类标签与的假标签是否相同。如果相同,则第a个基检测器在上的元标签为0,表示第a个基检测器可以正确判断否则为1,表示第a个基检测器不能正确判断通过上述方法计算pf中每个基检测器在x
str
中每个历史数据上的元标签集l
tem
,l
trm
中包含n
′×m′
个元标签。
[0091]
步骤105,通过元特征和元标签训练随机森林。
[0092]
具体的,使用元特征集x
trm
和元标签集l
trm
训练一个由n_dtree个决策树组成的随
机森林,n_dtree一般取100。构建一个决策树时,从x
tem
中均匀有放回抽样出n条数据作为这个决策树的训练样本,一般取n=n
′×m′
。在每个决策树样本中,随机从m维中取m

个维度,一般取根据基尼指数在所选m

个维度上选择最优划分维度和划分点对样本进行二叉划分,将在此维度上小于该值的样本划分到节点的左边,大于等于该值的样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集。分别在左右两边的数据集上重复上面的过程,直到数据集本身只包括一个样本,或全部样本的元标签相同。将全部训练的决策树组成随机森林rfc,其输出为二类标签0或者1,表示对应的基检测器能否正确判断对应的数据。
[0093]
算法2为步骤103-105的伪代码:
[0094]
[0095][0096][0097]
步骤106,提取基检测器在待检测数据上的元特征,将其输入随机森林,根据随机森林的输出选择基检测器,取所选基检测器的输出的最大值作为待检测数据的检测结果,实现电力调度监控数据异常检测。
[0098]
具体的,对于待检测数据x
te
,使用和步骤104中相同的方法提取pf中每个基检测器在x
te
上的m个元特征构成检测元特征集x
tem
。将x
tem
输入到步骤(5)中训练的随机森林rfc,得到包含m

个二类标签的检测元标签集l
tem

[0099]
对于pf中的每个基检测器,如果其对应的检测元标签为0,意味着此检测器被认为能够正确判断待检测数据,则将其加入到选择后的基检测器池ps中。计算ps中全部基检测器在x
te
上输出的z分数的最大值作为待检测数据x
te
的检测结果。计算ps中全部基检测器的分类阈值的最大值作为本次检测的检测阈值,检测结果大于或等于检测阈值的待检测数据x
te
被判断为异常数据,实现电力调度监控数据异常检测。
[0100]
算法3为步骤106的伪代码:
[0101]
[0102]
[0103][0104]
图2是本发明所提出的基于动静态选择集成的电力调度监控数据异常检测方法示意图。首先,使用电力调度监控历史数据训练一定数量的基检测器,并根据全部基检测器在全部历史数据上输出的z分数训练孤立森林,剔除掉孤立森林在全部z分数上较小的输出对应的基检测器;其次,使用平均值法根据剩余基检测器输出的z分数生成每个历史数据的假真值,并将假真值转换为假标签;从全部历史数据中剔除假真值较小的数据,提取每个基检测器在剩余历史数据上的元特征构成元特征集,根据基检测器在剩余历史数据上输出的标签和对应的假标签是否相同生成元标签集;然后,使用元特征集和元标签集训练随机森林;最后,提取各基检测器在待检测数据上的检测元特征集,将其输入到随机森林中得到检测元标签集,根据检测元标签集选择基检测器并取所选基检测器的z分数的最大值作为检测结果,取所选基检测器的分类阈值的最大值作为本次的检测阈值,检测结果大于或等于检测阈值的待检测数据被判断为异常数据,实现电力调度监控数据异常检测。
[0105]
图3是本发明使用的基检测器的输入数据和输出结果示意图,每个基检测器的输入为电力调度监控系统采集到的与电力调度系统业务相关的进程实时资源占用数据,包括进程cpu占用率、内存占用率、磁盘io、网络io、线程个数、网络连接数。如果第i个基检测器输出的z分数小于则输入数据为正常;如果第i个基检测器输出的z分数大于等于则输入数据为异常。将第i个基检测器在全部训练数据xtr上输出的z分数从大到小排序,第i个基检测器的分类阈值为排序之后前r
da
%个z分数中的最小值。r
da
%为设定的基检测器输出转换比例,一般取10%。
[0106]
用于具体实施例中,使用智能电网调度控制系统(简称d5000系统)中的三种异常情况:数据跳变、应用断网和遥测表不刷新发生时的系统监控数据。数据跳变异常是对于一个遥测点,定周期采集d5000系统的进程数据,若相邻采样点的数值差值大于人为设定的阈值,则认为出现数据跳变异常。在发生数据跳变异常时,电力调度处在给下属的电网公司分配发电量时会出现偏差,影响电网的调度计划,同时也会导致电量的报表出现偏差,影响电量收费。应用断网异常是运行d5000系统应用的服务器网络连接中断或者网卡出现故障,导致d5000系统关键进程运行缓慢甚至停止运行,该应用下的业务无法正常执行任务,影响电网调度。遥测表不刷新异常指电网自动化系统未能及时更新遥测数据。能够收到实时、准确的遥测数据,调度人员才能及时、准确地调整电网的工作状况。在电网的状态发生变化时,对应的遥测数据应立即被反映到调度中心,若遥测表长时间没有更新数据,会影响调度人员对于电网运行状况的整体把控。
[0107]
三种异常对应的系统监控数据的具体信息如表1所示:
[0108]
表1出现三种异常时系统监控数据的具体信息
[0109][0110][0111]
表2为本发明实施例中使用的基检测器算法及其参数:
[0112]
表2具体实施例中使用的基检测器算法及参数
[0113][0114]
为验证所提算法的有效性,本发明实施例中对动静态选择集成异常检测方法和其他直接集成异常检测方法average、max、aom、moa,基于静态选择集成的异常检测方法hens、ss-fs、boostselect和基于动态选择集成的异常检测方法lscp和elscp进行对比。
[0115]
本发明实施例使用auc值进行评定。通常roc曲线下的面积(area under curve,auc)被用来评估异常检测算法的性能,roc area越接近于1,即auc值越大,表示异常检测算法的性能越好。
[0116]
本发明实施例中参数r
da
%设置为10%,r
ga
%和rs%均设置为20%,k
rc
和k
sop
均设置为30,n_itree和n_dtree均设置为100。
[0117]
本发明实施例和对比方法在d5000监控数据集上的auc结果如表3所示。可以看到本发明基于动静态选择集成的电力调度监控数据异常检测方法在数据跳变异常上获得了最高的auc,并在三种异常上获得了最高的平均auc,说明本发明在调度监控数据异常检测上取得了比现有方法更高的准确率。
[0118]
表3在三种异常上的auc结果
[0119]
异常名称averagemaxaommoahensss-fsboostselectlscpelscp本发明应用断网0.99080.98480.98720.99040.97950.98620.96030.96720.97570.9885数据跳变0.75710.81320.78440.76040.75060.78400.60990.78740.80950.8575遥测表不刷新0.99790.99710.99710.99770.58400.99781.00000.99570.99660.9970平均auc值0.91530.93170.92290.91620.77140.92270.85670.91680.92720.9477
[0120]
综上所述,本发明实施例具有以下有益效果:
[0121]
本发明实施的技术方案中,基于原始电力调度监控历史数据使用不同无监督异常检测算法训练一定数量的基检测器;使用孤立森林剔除掉全部基检测器中性能较差的基检测器;使用平均值法根据剩余基检测器输出的z分数生成每个历史数据的假真值,并将假真值转换为假标签;从全部历史数据中剔除假真值较小的数据,提取每个基检测器在剩余历史数据上的元特征构成元特征集,根据基检测器在剩余历史数据上输出的标签和对应的假标签是否相同生成元标签集;然后,使用元特征集和元标签集训练随机森林;最后,提取各
基检测器在待检测数据上的检测元特征集,将其输入到随机森林中得到检测元标签集,根据检测元标签集选择基检测器并取所选基检测器的z分数的最大值作为检测结果,取所选基检测器的分类阈值的最大值作为本次的检测阈值,检测结果大于或等于检测阈值的待检测数据被判断为异常数据,实现电力调度监控数据异常检测。根据本发明实施例提供的技术方案,当面对电力调度监控数据的异常检测问题时,与其他基于集成的异常检测方法相比,本方法可获得更高的准确率。
[0122]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献