一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种风电异常数据识别清理方法及系统

2022-09-03 22:54:02 来源:中国专利 TAG:


1.本发明涉及风电技术领域,具体地,涉及一种风电异常数据识别清理方法及系统。


背景技术:

2.高质量的数据清洗效果是描述各个风速段内风力机真实出力情况的保证,是数据分析挖掘和风电预测领域的基础。
3.现有的风电数据清洗方式主要分为两类,第一类是通过建立功率曲线边界模型,将位于功率曲线边界之外的数据视为异常数据;第二类是根据异常数据和正常数据具有不同的数学统计特性来区分和清洗异常数据或根据异常值的位置分布来检测。
4.由于现有异常数据清理方法为基于某个单一数学统计特性,同时,风电异常数据评价指标往往从某单方面进行评价,基于单一评价指标设置权值和阀值,将出现过度删减正常数据和过度保留异常数据或适用性弱等情况。
5.综上,如何保证不过度删减正常数据和过度保留异常数据,提高清理效果和适用性,是目前风电异常数据清理领域急需解决的问题。


技术实现要素:

6.本发明的目的是为了解决过度删减正常数据和过度保留异常数据或者适用性弱等问题,提供一种风电异常数据识别清理方法及系统。
7.为实现上述目的,本发明提供了一种风电异常数据识别清理方法及系统,该方法包括以下步骤:
8.获得原始scada系统数据,对所述的原始scada系统数据进行初步剔除,建立原始数据矩阵h
zk

9.分别按u种特征的数值大小对所述的原始数据矩阵h
zk
进行升序排序,获得排序后的数据矩阵h
nzk,
,n=1,2,...,u;
10.采用m种单一异常数据清理方法,对所述的排序后的数据矩阵h
nzk
进行异常功率数据识别,获得u
×
m种异常数据识别结果矩阵a
izt
; i=1,2,3
…u×
m;t=1,2;
11.分别对所述的u
×
m种异常数据识别结果矩阵a
izt
的第二列进行升序排序,得到排序后的u
×
m种异常数据识别结果矩阵b
izt
;i=1,2,3
…u×
m;t=1,2;
12.通过优化算法opt,以综合评分指标socsi最大为目标,寻优获得所述的u
×
m种异常数据识别结果矩阵b
izt
的权重系数ωi和数据清理阈值f; i=1,2,3
…u×
m;
13.将所述的排序后的u
×
m种异常数据识别结果矩阵b
izt
中的第一列按下式计算进行加权组合,构建综合异常数据识别结果矩阵ca;所述的矩阵ca 的维度是z行1列;
14.15.其中,ca为综合异常数据识别结果矩阵,z为所述b
izt
的样本数据总数;ωi为对应所述的第i种异常数据识别结果矩阵的权重系数;
16.根据所述的数据清理阈值f,对所述的综合异常数据识别结果矩阵 ca,进行数据清理,得到异常数据集ad和正常数据集nd。
17.可选的,所述的原始数据矩阵h
zk
的列数为k,行数为z;将所述的原始数据矩阵h
zk
的行定义为单个样本;所述的原始数据矩阵h
zk
的第1列为所述的原始数据矩阵h
zk
的样本序号,所述的原始数据矩阵h
zk
的其余列数为所述的原始数据矩阵h
zk
的特征;所述的原始数据矩阵h
zk
的特征包括:功率特征,风速特征,风向特征,温度特征,气压特征,湿度特征,湍流特征,风剪切特征,空气密度特征,偏航误差特征,桨距角特征,转速特征,叶尖速比特征。
18.可选的,所述u种特征为所述的原始数据矩阵h
zk
的除了功率特征之外的任意u种特征,可选的,所述u种特征为风速特征、转速特征、叶尖速比特征,u=3。
19.可选的,所述m种的单一异常数据清理方法包括拉伊达准则法、四分位数法、滑动标准差法、具有噪声的基于密度的聚类方法,m=4;所述的识别结果矩阵a
izt
的第一列是所述排序后的数据矩阵h
nzk
的异常数据的判断结果,由0和1组成,其中0代表异常,1代表正常;所述的识别结果矩阵a
izt
的第二列是所述的排序后的数据矩阵h
nzk
的样本序号。
20.可选的,所述的优化算法opt可以是遗传算法、粒子群算法、数学形态学聚类与果蝇优化算法的混合算法、人工蜂群算法或混沌布谷鸟搜索算法中的任意一种;所述的综合评分指标socsi按以下公式计算:
[0021][0022]
其中,socsi为所述综合评分指标,sii为n
si
种单一评价指标分别对应的评分值,和分别为所述的单一评价指标的主观权重系数和客观权重系数;α为主观经验因子,可选的,取α=0.5;所述的n
si
种单一评价指标包括:数据保留率、pearson系数、平均标准差和变异系数,n
si
=4;所述的 sii的计算方法为:将所述的数据保留率和所述的pearson系数的原始指标值进行升序排序,所得序号即为sii;将所述的平均标准差和所述的变异系数的原始指标值进行降序排序,所得序号即为sii。
[0023]
可选的,所述的数据清理具体为:若矩阵ca第i行所在的样本点低于阈值f,则在所述的原始数据矩阵h
zk
中,将第i行中所有的特征数据加入所述的异常数据集ad;若矩阵ca第i行所在的样本点高于阈值f,则在所述的原始数据矩阵h
zk
中,将第i行中所有的特征数据加入所述的正常数据集nd。
[0024]
本发明还提供了一种风电异常数据识别清理系统,该系统包括:
[0025]
模块m1:获得原始scada系统数据,对所述的原始scada系统数据进行初步剔除,建立原始数据矩阵h
zk

[0026]
模块m2:分别按u种特征的数值大小对所述的原始数据矩阵h
zk
进行升序排序,获得排序后的数据矩阵h
nzk
,n=1,2,...,u;
[0027]
模块m3:采用m种单一异常数据清理方法,对所述的排序后的数据矩阵h
nzk
进行异常功率数据识别,获得u
×
m种异常数据识别结果矩阵a
izt
; i=1,2,3
…u×
m;t=1,2;
[0028]
模块m4:分别对所述的u
×
m种异常数据识别结果矩阵a
izt
的第二列进行升序排序,
得到排序后的u
×
m种异常数据识别结果矩阵b
izt
; i=1,2,3
…u×
m;t=1,2;
[0029]
模块m5:通过优化算法opt,以综合评分指标socsi最大为目标,寻优获得所述的u
×
m种异常数据识别结果矩阵的权重系数ωi和数据清理阈值 f;i=1,2,3
…u×
m;
[0030]
模块m6:将所述的排序后的u
×
m种异常数据识别结果矩阵b
izt
中的第一列按以下公式计算进行加权组合,构建综合异常数据识别结果矩阵ca;所述的矩阵ca的维度是z行1列;
[0031][0032]
式中:ca为综合异常数据识别结果矩阵,z为所述b
izt
的样本数据总数;ωi为对应所述的第i种异常数据识别结果矩阵的权重系数;
[0033]
模块m7:根据所述的数据清理阈值f,对所述的综合异常数据识别结果矩阵ca,进行数据清理,得到异常数据集ad和正常数据集nd。
[0034]
根据本发明提供的具体实施例,本发明公开了以下技术效果:
[0035]
1、本发明通过原始数据矩阵u种特征和m种单一异常数据清理方法,构建综合异常数据识别结果矩阵ca,能够综合考虑多种原始数据信息避免使用单一数据统计特征,从而使得异常数据识别更为合理,提高了数据清理方法的适用性。
[0036]
2、本发明提出的优化算法opt,对异常数据识别结果矩阵的权重系数ωi和数据清理阈值f进行寻优,可以避免人为设置权值和阀值对数据清理带来不利影响。
[0037]
3、本发明提出的综合评分指标socsi对数据清理效果进行定量评价,可以避免单一评价指标造成数据清理阀值设置偏低或偏高,可以实现对复杂数据清理效果的综合评价。
附图说明
[0038]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039]
图1为本发明的一种风电异常数据识别清理方法及系统的实施例的流程图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
本发明的目的是提供一种风电异常数据识别清理方法及系统,解决过度删减正常数据和过度保留异常数据或者适用性弱等问题。
[0042]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实
施方式对本发明作进一步详细的说明。
[0043]
本发明的一种风电异常数据识别清理方法及系统的实施例包括以下步骤;
[0044]
步骤s1,获得原始scada系统数据,对所述的原始scada系统数据进行初步剔除,建立原始数据矩阵h
zk

[0045]
可选的,所述的原始数据矩阵h
zk
的列数为k,行数为z;将所述的原始数据矩阵h
zk
的行定义为单个样本;所述的原始数据矩阵h
zk
的第1列为所述的原始数据矩阵h
zk
的样本序号,所述的原始数据矩阵h
zk
的其余列数为所述的原始数据矩阵h
zk
的特征;所述的原始数据矩阵h
zk
的特征包括:功率特征,风速特征,风向特征,温度特征,气压特征,湿度特征,湍流特征,风剪切特征,空气密度特征,偏航误差特征,桨距角特征,转速特征,叶尖速比特征。
[0046]
步骤s2,分别按u种特征的数值大小对所述的原始数据矩阵h
zk
进行升序排序,获得排序后的数据矩阵h
nzk
,,n=1,2,...,u;
[0047]
可选的,所述u种特征为所述的原始数据矩阵h
zk
的除了功率特征之外的任意u种特征,可选的,所述u种特征为风速特征、转速特征、叶尖速比特征,u=3。
[0048]
步骤s3:采用m种单一异常数据清理方法,对所述的排序后的数据矩阵h
nzk
进行异常功率数据识别,获得u
×
m种异常数据识别结果矩阵a
izt
; i=1,2,3
…u×
m;t=1,2;
[0049]
可选的,所述m种的单一异常数据清理方法包括拉伊达准则法、四分位数法、滑动标准差法、具有噪声的基于密度的聚类方法,m=4;所述的识别结果矩阵a
izt
的第一列是所述排序后的数据矩阵h
nzk
的异常数据的判断结果,由0和1组成,其中0代表异常,1代表正常;所述的识别结果矩阵a
izt
的第二列是所述的排序后的数据矩阵h
nzk
的样本序号。
[0050]
步骤s4,分别对所述的u
×
m种异常数据识别结果矩阵a
izt
的第二列进行升序排序,得到排序后的u
×
m种异常数据识别结果矩阵b
izt
; i=1,2,3
…u×
m;t=1,2;
[0051]
步骤s5:通过优化算法opt,以综合评分指标socsi最大为目标,寻优获得所述的u
×
m种异常数据识别结果矩阵b
izt
的权重系数ωi和数据清理阈值f;i=1,2,3
…u×
m;
[0052]
可选的,所述的优化算法opt可以是遗传算法、粒子群算法、数学形态学聚类与果蝇优化算法的混合算法、人工蜂群算法或混沌布谷鸟搜索算法中的任意一种;所述的综合评分指标socsi按以下公式计算:
[0053][0054]
式中,socsi为所述综合评分指标,sii为n
si
种单一评价指标分别对应的评分值,和分别为所述的单一评价指标的主观权重系数和客观权重系数;α为主观经验因子,可选的,取α=0.5;所述的n
si
种单一评价指标包括:数据保留率、pearson系数、平均标准差和变异系数,n
si
=4;所述的 sii的计算方法为:将所述的数据保留率和所述的pearson系数的原始指标值进行升序排序,所得序号即为sii;将所述的平均标准差和所述的变异系数的原始指标值进行降序排序,所得序号即为sii。
[0055]
将所述的排序后的u
×
m种异常数据识别结果矩阵b
izt
中的第一列按以下公式计算进行加权组合,构建综合异常数据识别结果矩阵ca;所述的矩阵ca的维度是z行1列;
[0056][0057]
其中,ca为综合异常数据识别结果矩阵,z为所述b
izt
的样本数据总数;ωi为对应所述的第i种异常数据识别结果矩阵的权重系数;
[0058]
步骤s7:根据所述的数据清理阈值f,对所述的综合异常数据识别结果矩阵ca,进行数据清理,得到异常数据集ad和正常数据集nd。
[0059]
可选的,所述的数据清理具体为:若矩阵ca第i行所在的样本点低于阈值f,则在所述的原始数据矩阵h
zk
中,将第i行中所有的特征数据加入所述的异常数据集ad;若矩阵ca第i行所在的样本点高于阈值f,则在所述的原始数据矩阵h
zk
中,将第i行中所有的特征数据加入所述的正常数据集nd。
[0060]
基于同一发明构思,本发明实施例还提供了一种风电异常数据识别清理系统,由于这些设备解决问题的原理与一种风电异常数据识别清理方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。
[0061]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献