一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于融合模型的风电机组齿轮箱故障预警方法

2022-06-05 08:35:38 来源:中国专利 TAG:


1.本发明涉及数据分析技术领域,具体为一种基于融合模型的风电机组齿轮箱故障预警方法。


背景技术:

2.风电机组齿轮箱在使用时,其故障预警领域主要存在如下问题:(1)风电机组的运行环境长期受外部恶劣环境影响,scada数据中存在大量异常噪声数据,需要清除;(2)风电机组各部件之间存在耦合关系,导致scada样本数据中各预测维度之间并非完全相互独立;(3)针对风电机组故障预警问题,现有的单一模型往往预测的准确率不高,或者训练时间长,导致无法及时为运维人员提供有效的预警信息。对于上述问题现有的解决方案为:针对scada数据存在异常噪声的问题可以采用如拉依达准则法、密度聚类、距离算法等识别剔除,但是样本集数据量大时往往耗时较长;针对多特征变量之间的耦合问题,现有的方法有主成分分析法、随机森林、神经网络等,对特征变量进行关键性排序筛选,消除主成分之间的相关性;针对模型预测准确率不高的问题,近年来采用了神经网络和深度学习的方法,提高了预测准确率,但需要耗费时间对模型进行训练,机器学习的方法可以较快得出预测结果,但是单一的模型预测准确率较低。


技术实现要素:

3.本发明所解决的技术问题在于提供一种基于融合模型的风电机组齿轮箱故障预警方法,通过提取数据采集与监控(scada)系统数据库中风电机组的正常运行数据,采用统计学四分位原理对缺失、异常数据进行预处理,利用pearson相关系数对关键特征变量进行筛选,由于模型结构存在差异,分别对极端梯度提升树(xgboost)和长短期记忆网络(lstm)模型进行单独训练,采用误差倒数法对两个预测时序数据进行加权组合,计算权重,得到最终预测结果,根据误差分析来评判模型的优劣,最后,依据马氏距离的阈值设定对齿轮箱进行故障预警,从而解决了背景技术中提出的问题。为实现上述目的,本发明提供如下技术方案:一种基于融合模型的风电机组齿轮箱故障预警方法,具体包括以下内容:
4.步骤1:选择scada一个月的历史数据,剔除包含“无数据”和所有状态变量都为“0”的值的变量,再用四分位原理剔除噪音得到数据集;
5.步骤2:对数据集归一化处理,利用pearson相关系数分别与齿轮箱温度做相关性计算,剔除冗余特征,得到样本集;
6.步骤3:首先在样本集中随机选取80%的数据对xgboost模型作第一次训练,通过网格搜索和交叉验证对xgboost模型进行参数优化,得到温度预测值y1;
7.步骤4:将训练数据输入lstm模型进行训练,通过迭代更新权值和偏置使误差最小,获得齿轮箱温度预测模型,输出齿轮箱温度预测值y2;
8.步骤5:通过误差倒数法对温度预测值y1和y2进行加权组合,得到不同预测温度值情况下的权重w1、w2,最后计算齿轮箱温度值预测结果y,得到lstm-xgboost融合模型;
9.步骤6:将样本集剩余的20%数据加载到训练好的lstm-xgboost模型中对齿轮箱温度预测;
10.步骤7:将融合模型的预测结果与单一的xgboost,lstm和gbdt模型的预测结果作对比,通过计算rmse、mae、mre和r2的值验证lstm-xgboost模型在齿轮箱温度预测拥有良好的适用性;
11.步骤8:计算融合模型的预测输出值与输入数据集之间的重构误差,依据马氏距离设定阈值,若重构误差超出阈值上限,则对齿轮箱运行状态进行故障预警,反之,则齿轮箱正常运行;
12.步骤9:将scada实时数据加载到lstm-xgboost模型中,实现齿轮箱温度预测与故障预警。
13.优选地,所述步骤1中四分位原理具体内容为:设ql为下四分位数,表示全部观察值中有四分之一的数据取值比它小;qu为上四分位数,表示全部观察值中有四分之一的数据取值比它大;iqr为四分位间距,是上四分位数qu与下四分位数ql之差,期间包含了全部观察值的一半;其中,最小估计值便为:ql-k*iqr,最大估计值便为:qu k*iqr;其中k=1.5(中度异常),k=3(重度异常),异常值通常被定义为小于ql-1.5*iqr或大于qu 1.5*iqr。
14.优选地,所述步骤2中的pearson相关系数计算方法为:设(xi,yi)(i=1,2,

,n)为取自总体(x,y)的样本,则样本的pearson相关系数的计算公式为:
[0015][0016]
其中,r为pearson相关性系数,为x的平均值,为y的平均值,n为样本数。
[0017]
优选地,所述步骤8中马氏距离具体内容为:马氏距离表示数据的协方差距离,是一种有效的计算两个未知样本集的相似度的方法,不受量纲的影响,由原始数据与均值之差计算出的二点之间的马氏距离相同;对于一个均值为μ=(μ1,μ2,μ3,

μ
p
)
t
,协方差矩阵为s的多变量x=(x1,x2,x3,

x
p
)
t
,其马氏距离为:
[0018]
与现有技术相比,本发明具有以下有益效果:本发明提供的方法可以对大数据样本中的异常数据有效剔除,且提取关键性特征减少后续模型训练的时间,融合模型提高了泛化能力,防止过拟合现象,由于xgboost可并行运行,大大减少了训练时间,提高了训练效率,且对时间序列数据的预测准确率高;具有长短期记忆网络(lstm)和极端梯度提升树(xgboost)两者的优点,长短期记忆网络在处理时间序列数据时表现出强大的优势,而极端梯度提升树作为树模型,运算时间短,且可以控制模型复杂度,融合模型能够有效减少因长短期记忆网络带来的训练时长问题,提高效率以及预测精度,从而指导运维人员提前发现齿轮箱故障并制定运维计划。
附图说明
[0019]
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]
图1为本发明的流程图;
[0021]
图2为四分位原理示意图。
具体实施方式
[0022]
为了使本发明的技术手段、创作特征、工作流程、使用方法达成目的与功效易于明白了解,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,及进行非创造性的扩展而得出的其它结论,都属于本发明保护的范围。
[0023]
实施例
[0024]
如图1所示一种基于融合模型的风电机组齿轮箱故障预警方法,具体包括以下内容:
[0025]
步骤1:选择scada一个月的历史数据,剔除包含“无数据”和所有状态变量都为“0”的值的变量,再用四分位原理剔除噪音得到数据集;
[0026]
步骤2:对数据集归一化处理,利用pearson相关系数分别与齿轮箱温度做相关性计算,剔除冗余特征,得到样本集;
[0027]
步骤3:首先在样本集中随机选取80%的数据对xgboost模型作第一次训练,通过网格搜索和交叉验证对xgboost模型进行参数优化,得到温度预测值y1;
[0028]
步骤4:将训练数据输入lstm模型进行训练,通过迭代更新权值和偏置使误差最小,获得齿轮箱温度预测模型,输出齿轮箱温度预测值y2;
[0029]
步骤5:通过误差倒数法对温度预测值y1和y2进行加权组合,得到不同预测温度值情况下的权重w1、w2,最后计算齿轮箱温度值预测结果y,得到lstm-xgboost融合模型;
[0030]
步骤6:将样本集剩余的20%数据加载到训练好的lstm-xgboost模型中对齿轮箱温度预测;
[0031]
步骤7:将融合模型的预测结果与单一的xgboost,lstm和gbdt模型的预测结果作对比,通过计算rmse、mae、mre和r2的值验证lstm-xgboost模型在齿轮箱温度预测拥有良好的适用性;
[0032]
步骤8:计算融合模型的预测输出值与输入数据集之间的重构误差,依据马氏距离设定阈值,若重构误差超出阈值上限,则对齿轮箱运行状态进行故障预警,反之,则齿轮箱正常运行;
[0033]
步骤9:将scada实时数据加载到lstm-xgboost模型中,实现齿轮箱温度预测与故障预警;
[0034]
所述步骤1中四分位原理具体内容为:如图2所示,设ql为下四分位数,表示全部观察值中有四分之一的数据取值比它小;qu为上四分位数,表示全部观察值中有四分之一的数据取值比它大;iqr为四分位间距,是上四分位数qu与下四分位数ql之差,期间包含了全部观察值的一半;其中,最小估计值便为:ql-k*iqr,最大估计值便为:qu k*iqr;其中k=1.5(中度异常),k=3(重度异常),异常值通常被定义为小于ql-1.5*iqr或大于qu 1.5*iqr;
[0035]
所述步骤2中的pearson相关系数计算方法为:设(xi,yi)(i=1,2,

,n)为取自总
体(x,y)的样本,则样本的pearson相关系数的计算公式为:
[0036][0037]
其中,r为pearson相关性系数,为x的平均值,为y的平均值,n为样本数;
[0038]
所述步骤8中马氏距离具体内容为:马氏距离表示数据的协方差距离,是一种有效的计算两个未知样本集的相似度的方法,不受量纲的影响,由原始数据与均值之差计算出的二点之间的马氏距离相同;对于一个均值为μ=(μ1,μ2,μ3,

μ
p
)
t
,协方差矩阵为s的多变量x=(x1,x2,x3,

x
p
)
t
,其马氏距离为:
[0039]
其中长短期神经网络(lstm)的具体内容为:lstm的核心概念在于单元状态以及“门”结构。单元状态能在序列链中传递信息,克服了短时记忆的影响。门可以实现选择性地让信息通过,主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的,sigmoid层输出(是一个向量)的每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重(或者占比)。lstm有三种类型的门结构:遗忘门、输入门和输出门。
[0040]
遗忘门:f
t
=σ(wf[h
t-1
,x
t
] bf)
[0041]
该门会读取上一个单元的输出h
t-1
和当前单元的输入x
t
,输出一个在0到1之间的数值给每个在细胞状态c
t-1
中的数字,1表示“完全保留”,0表示“完全舍弃”,σ表示sigmod函数。
[0042]
输入门:i
t
=σ(wi[h
t-1
,x
t
] bi)
[0043][0044]
该门决定加入到单元状态中新信息的多少,sigmoid层决定哪些信息需要更新,tanh层生成一个向量,即备选的用来更新的内容
[0045]
单元:
[0046]
把旧状态c
t-1
与f
t
相乘,丢弃信息,接着加上新的候选值就是当前单元状态c
t
[0047]
输出门o
t
=σ(wo[h
t-1
,x
t
] bo)
[0048]
最终输出h
t
=o
t

tanh(c
t
)
[0049]
运行sigmoid层确定单元状态的输出部分,把单元状态通过tanh进行处理,得到一个在-1到1之间的值,并将它和sigmoid门的输出相乘,最终得到输出。
[0050]
极端梯度提升树(xgboost)的具体内容为:
[0051]
xgboost是在gbdt的基础上进行改进,将许多cart回归树模型集成在一起,形成一个很强的分类器。xgboost算法的步骤和gb基本相同,都是首先初始化为一个常数,不同于传统的gbdt方式,只利用了一阶的导数信息ri,xgboost是根据一阶导数gi和二阶导数hi,迭代生成基学习器,相加更新学习器。xgboost对损失func做了二阶的泰勒展开,并在目标函数之外加入正则项整体求最优解,用以权衡目标函数的下降和模型复杂程度,避免过拟合。
[0052]
xgboost模型为:
[0053][0054]
其中,n为树的数目;f
t
为函数空间f中的一个函数;为预测值;xi为输入的第i个数据;f为所有可能的cart集合。
[0055]
xgboost的目标函数如下所示:
[0056][0057][0058]
xgboost算法的目标函数由损失值和正则项两部分组成。正则项用于控制模型的复杂度,包含了树的叶子节点个数t,每个叶子节点上输出的分数ω的l2模的平方和,正则项降低了模型的方差,使学习出来的模型更加简单,防止过拟合。
[0059]
最终得到目标函数为:
[0060][0061][0062]
训练一个基本的xgboost模型,然后进行网格搜索调节参数,通过交叉验证来观察结果的变换,使用平均绝对误差mae来衡量。主要调整以下几个参数:树的个数(当该参数取值适当大时,可以提升模型的鲁棒性)、树的最大深度(该参数设定适当时,可防止模型的过拟合)、学习速率,以及最小叶子节点样本权重和(正则化参数,如果树分区中的实例权重小于定义的总和,则停止树构建过程)等。
[0063]
xgboost参数调节过程如下:
[0064]
step1:选取50和100棵树训练一个基本模型,测试树的数量对模型的影响
[0065]
step2:选择一组初始参数
[0066]
step3:改变max_depth和min_child_weight,选取树的最大深度3-10,节点权重取1,3,6,不同树深度和节点权重组合可以以热力图形式查看。
[0067]
step4:调节gamma降低模型过拟合风险
[0068]
step5:调节subsample和colsample_bytree改变数据采样策略
[0069]
step6:调节学习率eta,可减小学习率并增大树个数。
[0070]
以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明的要求保护范围由所附的权利要求书及其等效物界定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献