一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于RelieF-softmax算法的综合能源系统故障风险预警方法

2022-04-27 02:46:34 来源:中国专利 TAG:

一种基于relief-softmax算法的综合能源系统故障风险预警方法
技术领域
1.本发明涉及一种基于relief-softmax算法的综合能源系统故障风险预警方法。


背景技术:

2.近年来为解决传统用于发电的石油、煤炭等不可再生能源短缺、环境污染严重等问题,早日实现我国“碳达峰、碳中和”的战略目标,很多学者相继提出了综合能源系统的概念。综合能源系统将传统的电力网、然气网、热力网等不同能源系统进行优化组合,并且利用先进的信息网络技术和通信技术,实现多种能源系统的耦合,促进能源及设备的高效利用。
3.然而,综合能源系统也和配电网一样,网架结构复杂,覆盖面广,设备种类多且杂,影响其稳定运行的因素就会增多,造成系统的故障可能性也会增加。以气网系统为例,大规模天然气引入系统后,使得电、气系统之间的耦合性增强的同时,也导致了系统的可靠性问题日益凸显。比如,天然气管道出现泄漏、气源供给中断等随机故障都可能导致燃气机组因天然气的供给不足出力迅速减小的情况发生,进而威胁到电系统的安全稳定运行。因此以电力系统和天然气系统耦合的区域综合能源系统为研究对象,充分了解区域综合能源系统运行过程中潜在的故障特征因素,并且探究如何提取故障特征来进行预警。
4.综合能源系统作为能源互联网的物理载体,包括电能、天然气、热能等多种能源,它通过多能源互补的方式提高可再生能源的利用率。根据不同的地理因素和能源性质,综合能源系统可以划分为用户级、区域级和跨区级(见图1)。其中区域综合能源系统除了电网系统、气网系统和热网系统外,还包括各种能源转换等,本发明就以电网与气网系统的耦合系统为例,探究区域综合能源系统的故障风险等级预测。


技术实现要素:

5.本发明中,针对区域综合能源系统故障预警问题,提出了一种基于改进的relief-softmax算法的综合能源系统故障风险预警方法。
6.为了实现上述目的,本发明的技术方案为:一种基于relief-softmax算法的综合能源系统故障风险预警方法,包括以下步骤:
7.s1:构建综合能源系统模型;
8.s2:对故障特征数据进行预处理,数据预处理包括数据清洗、数据变换、数据集成和异常样本数据剔除;
9.s3:根据特征对样本距离的远近区分能力来筛选特征,从原始数据集中选择部分特征构造一个最佳特征子集,使其能够描述原始样本空间;
10.s4:综合能源系统的故障风险等级划分;
11.s5:基于relief-softmax算法进行综合能源系统故障风险预警,对提取后的故障特征分类以及对样本数据进行训练学习的方法。
12.进一步,所述步骤s1中构建的综合能源系统模型,利用电网子系统、气网子系统之间的能量相互转化过程,通过电转气技术和燃气轮机设备实现。
13.进一步,所述步骤s2中,数据预处理方法如下:
14.s2-1:数据清洗:指针对原始数据中的空缺指、重复值、异常值进行处理,以确保数据集在进行训练和测试时是完整且合理的;数据空缺值处理是对原始数据中的记录缺失进行平均数或中位数补充替换或者将数据剔除;数据重复值处理是对数据集里相似或重复数据进行去除;数据异常值处理是根据原始数据的逻辑关系,针对偏差过大的数据进行识别剔除;
15.s2-2:数据变换:指原始数据中复杂数据替换成易于分析的数据,对连续数值进行离散化分级处理;
16.s2-3:数据集成:指进行数据统计,将数据集成到统一的数据库里;
17.s2-4:异常样本数据剔除:指针对原始数据集中出现的偏差极大、极小数据、错误输入数据、无意义数据进行识别检查和剔除;
18.s2-5:通过上述数据预处理,得到最终的故障特征集合。
19.进一步,所述步骤s3中,故障特征的选择方法如下:
20.s3-1:对样本集d中的每一个特征赋予初始权重值w=0,每次从样本中随机抽取一个样本s,利用欧几里得距离公式,计算出样本s与其他样本的距离,在同类样本中,找到与样本s距离最近的k个同类最近邻h;在非同类样本中,找到与样本s距离最近的非同类最近邻m;距离函数计算公式为:
[0021][0022]
式中,d(a,x,y)表示样本x和样本y在特征a上的差值;
[0023]
故障特征的权重值更新计算公式为:
[0024][0025]
式中,wa是特征a的权重值,k是最近邻的样本数量,t是抽样次数,hi,mi分别表示与样本s的同类最近邻和非同类最近邻,class为样本的数量占总样本数量的比值函数;
[0026]
s3-2:采用基于聚类算法的分层抽样方法:
[0027]
1)采用k-maxmin聚类算法来进行分层抽样;
[0028]
2)采用k-maxmin聚类算法对初始的特征数据集进行聚类,然后再对聚类后的数据按比列分层抽样,占比选择初始样本中各类别占总样本的比例来确定抽样的次数分配到每种类别上的次数,即各类别抽样的总次数为m;
[0029]
s3-3:采用pearson相关系数法来对两个相关性比较大特征进行筛选和剔除;pearson系数表示的相关性ρij的计算公式为:
[0030][0031]
式中cov(di,dj)是样本i和样本j之间的协方差,δdi,δdj分别是样本i和样本j的方
差;
[0032]
提取最优故障特征变量:对采集到的原始数据进行处理,提取出最终的特征集合。
[0033]
进一步,所述步骤s4中,划分故障风险等级:
[0034]
s4-1以馈线百公里的故障发生频率和故障发生时影响的住户数量和范围作为故障风险等级划分的依据;百公里故障率记为si:
[0035][0036]
式中,si为该区域内第i个馈线的百公里故障率,f
ij
为第i个馈线上第j次故障发生时的辨识标志,li是第i个馈线的长度;
[0037]
故障发生时的影响范围以百公里影响的住户数量作为标准,其计算公式是:
[0038][0039]
式中,ci表示第i条馈线上受故障影响的住户数量,nf是该区域一个月故障发生的总数,f
ij
是第i条馈线上第j次发故障发生时受影响的变压器的集合,n
ij
、k和t
ij
、k分别表示第i条馈线上第j次故障中第k个受影响的变压器影响的住户数量和受影响的时间;
[0040]
s4-2将综合能源系统故障风险等级划分为三个等级:一级、二级、三级;分别对应三个风险程度:正常、紧急、严重。
[0041]
进一步,所述步骤s5中,采用基于relief-softmax算法进行故障风险等级预警:
[0042]
s5-1输入m个数据{(x1,y1),(x2,y2),...,(xm,ym)},其中x为输入向量,y是其对应输出的类别向量,设有k个类别,则输出向量yi属于{1,2,...,k};softmax回归主要是估计输入数据归属于每一类的概率,对于任一输入向量,其预测函数表达式为:
[0043][0044][0045]
其中,p(*)表示括号内事件发生的概率;θ=[θ1,θ2,...θk]为n
×
k的权重向量,n为样本的故障特征个数,是保证θ概率之和为1的归一化参数;
[0046]
s5-2在对数据进行softmax分类前,首先要对数据进行归一化处理;softmax损失函数可表示为:
[0047][0048]
其中,lnd(yi=j)为0-1指示函数,(yi=j)值为真,则lnd(yi=j)取1,否则为0;
[0049]
s5-3结合式(6),将故障特征分类问题转化为通过求解softmax损失函数的最小值来预测函数参数θ,以此来判断当前样本所属各类别的概率;,在式(6)的基础上,增加一项正则化函数;
[0050][0051]
其中,第一项可平衡样本的分类误差,第二项是正则化函数;采用梯度下降法求解函数的最优解,对softmax分类器进行训练;
[0052]
对上述改进后的损失函数求偏导:
[0053][0054]
每一次更新迭代都按照下式对θ进行运算:
[0055][0056]
本发明的有益效果是:
[0057]
1.基于改进的relief算法进行特征提取,在数据上进行数据预处理,包括数据清洗、变换、集成和有目的的识别剔除,确定初始样本数据矩阵,该方法结合皮尔森相关系数法有效克服了传统的relief算法无法去除冗余的不足,能够实现对特征量的降维,提高分类性能,最终获得相关性小冗余度低的用于softmax分类的最优特征集合;
[0058]
2.基于改进的softmax分类器对综合能源系统故障风险等级进行预测,该预测模型能有效避免错误分类高风险故障所带来的严重后果,降低预测出现误差带造成的代价,验证了本发明所利用的方法的有效性和科学性。
[0059]
3.本发明基于微电网、天然气网共同组成的区域综合能源系统为研究对象,通过对南方某地区的含电-气综合能源系统191条馈线进行故障风险等级预测分析发现气象数据、运行数据、台账数据及气网数据的故障特征量对电-气综合能源系统的稳定运行均有一定的影响。
附图说明
[0060]
图1为本发明的流程图;
[0061]
图2是综合能源划分;
[0062]
图3是基于改进的relief算法提取特征方法的流程图;
[0063]
图4故障特征权重值直方图。
[0064]
具体实施方法
[0065]
下面结合附图对本发明做进一步说明。
[0066]
参照图1至图4,一种基于relief-softmax算法的综合能源系统故障风险预警方法,所述方法包括以下步骤:
[0067]
s1:构建综合能源系统模型。
[0068]
s2:对故障特征数据进行预处理,数据预处理包括数据清洗、数据变换、数据集成和异常样本数据剔除4个步骤。
[0069]
s3:利用改进的relief算法根据特征对样本距离的远近区分能力来筛选特征,从原始数据集中选择部分特征来构造一个最佳特征子集,使其能够描述原始样本空间。
[0070]
s4:综合能源系统的故障风险等级依据主要包括两部分:故障发生的频率(百公里
故障率)和故障带来的后果及影响(故障影响范围)。本文以其百公里的故障发生频率和故障发生时影响的住户数量和范围作为故障风险等级划分的依据。
[0071]
s5:基于relief-softmax算法进行综合能源系统故障风险预警,主要对提取后的故障特征分类以及对样本数据进行训练学习的方法。
[0072]
进一步,所述步骤s1中,构建的综合能源系统模型重点考虑电网子系统,气网子系统之间的能量相互转化过程,主要通过电转气技术和燃气轮机设备实现。
[0073]
再进一步,在所述步骤s2中,综合能源系统预处理方法如下:
[0074]
s2-1:数据清洗:指针对原始数据中的空缺指、重复值、异常值进行处理,以确保数据集在进行训练和测试时是完整且合理的。数据空缺值处理是对原始数据中的记录缺失进行平均数或中位数补充替换或者将数据剔除;数据重复值处理是对数据集里相似或重复数据进行去除;数据异常值处理是根据原始数据的逻辑关系,针对偏差过大的数据进行识别剔除。
[0075]
s2-2:数据变换:指原始数据中复杂数据替换成易于分析的数据,包括特征构造、数据分级和数据量化等,文章运用到max-min等方法。对于降雨量、雷暴、风量等数据,为凸显数据差异,可对连续数值进行离散化分级处理。
[0076]
s2-3:数据集成:指进行数据统计,将数据集成到某个统一的数据库里,考虑到区域综合能源系统故障特征数据来源的多样性,有必要进行交叉验证的方法。
[0077]
s2-4:异常样本数据剔除:指针对原始数据集中出现的偏差极大、极小数据、错误输入数据、无意义数据等进行识别检查和剔除。因为异常样本数据对整体样本的影响较大,对数据的训练造成较大误差,影响测试集的精度结果,所以可采用统计、k-邻近值和聚类方法将异常数据剔除,以提高训练结果的精度。
[0078]
s2-5:最终,通过数据预处理,得到最终的故障特征集合共故障数据、气象数据、运行数据、台账数据和然气网数据五类,24个特征因素。
[0079]
在所述步骤s3中,故障特征的选择提取方法如下:
[0080]
s3-1:特征选择是按照一定的评价准则从原始数据集中选择部分特征来构造一个最佳特征子集,使其能够描述原始样本空间。为了提高区域综合能源系统的故障风险预警的准确性,必须要从大量的数据中提取到与系统故障匹配度相对较高的最优故障特征,剔除相关性不高的特征。本发明采用的算法在relief算法之上进行了改进,该算法的特点是根据特征对样本距离的远近区分能力来筛选特征。
[0081]
算法具体定义:对样本集d中的每一个特征赋予初始权重值w=0,每次从样本中随机抽取一个样本s,利用欧几里得距离公式,计算出样本s与其他样本的距离,在同类样本中,找到与样本s距离最近的k个同类最近邻h;在非同类样本中,找到与样本s距离最近的非同类最近邻m。距离函数计算公式为:
[0082][0083]
式中,d(a,x,y)表示样本x和样本y在特征a上的差值。
[0084]
故障特征的权重值更新计算公式为:
[0085][0086]
式中,wa是特征a的权重值,k是最近邻的样本数量,t是抽样次数,hi,mi分别表示与样本s的同类最近邻和非同类最近邻,class为样本的数量占总样本数量的比值函数。
[0087]
s3-2:针对relief算法存在的一些问题:在初始样本随机抽样且为有放回的抽样时,会在重复抽样的情况对分类的信息造成局限性,易导致分类不准确的问题,采用了基于聚类算法的分层抽样方法:
[0088]
1)采用k-maxmin聚类算法来进行分层抽样。k-maxmin聚类法也称最大最小距离法,是模式识别领域的一种聚类算法
[17]
,他的主要思路是:基于欧式距离公式,尽可能的选取距离较远的数据点作为聚类中心,从而避免k-means算法可能出现的聚类中心过于密集的情况。
[0089]
2)采用k-maxmin聚类算法对初始的特征数据集进行聚类,然后再对聚类后的数据按比列分层抽样,占比选择初始样本中各类别占总样本的比例来确定抽样的次数分配到每种类别上的次数,即各类别抽样的总次数为m。这样能有效避免随机抽样的局部概率不足问题,此外,该抽样为不放回抽样,确保每一次抽样样本为特征向量赋予的新的权重值,以此发挥该聚类分层抽样的最优特性。
[0090]
s3-3:针对relief算法存在的算法不能识别特征中的冗余量,导致分类预测输入的噪声偏大等问题,在原有relief算法的基础上,提出结合pearson相关系数法:
[0091]
采用pearson相关系数法来对两个相关性比较大特征进行筛选和剔除。pearson系数被广泛运用与统计学中,它反映了变量之间的线性相关程度,在(-1,1)之间表示由负相关到正相关的不同程度,负数就表示为负相关,正数即为正相关,绝对值越大,表示相关程度就越高。pearson系数表示的相关性ρij的计算公式为:
[0092][0093]
式中cov(di,dj)是样本i和样本j之间的协方差,δdi,δdj分别是样本i和样本j的方差。
[0094]
通过相关性计算输入的各特征值之间的相关系数,得到相关系数矩阵。一般认为,相关系数的值大于0.7即为相关性程度较高,应将其对应的特征归于冗余特征向量中,结合relief算法计算得出特征权重值,对相关程度较高的冗余特征向量中权重值较小的特征进行剔除,在冗余特征中仅保留一个权重值较高的特征。
[0095]
经过前两个步骤接下来将提取最优故障特征变量:对我们采集到的原始数据进行处理,提取出最终的特征集合。为了提高综合能源系统的故障风险等级预测的准确性,我们需要在已经进行过预处理的特征集合中剔除冗余的特征向量,筛选出最具有代表性的最小冗余特征集合。基于改进的relief算法提取特征集合的方法流程图如图2所示。
[0096]
在所述步骤s4中,划分故障风险等级:
[0097]
s4-1结合电网公司的考核标准,选取南方某地区的含电-气综合能源系统191条馈线为研究对象,以其百公里的故障发生频率和故障发生时影响的住户数量和范围作为故障风险等级划分的依据。百公里故障率记为si:
[0098][0099]
式中,si为该区域内第i个馈线的百公里故障率,f
ij
为第i个馈线上第j次故障发生时的辨识标志,li是第i个馈线的长度。
[0100]
故障发生时的影响范围以百公里影响的住户数量作为标准,其计算公式是:
[0101][0102]
式中,ci表示第i条馈线上受故障影响的住户数量,nf是该区域一个月故障发生的总数,f
ij
是第i条馈线上第j次发故障发生时受影响的变压器的集合,n
ij
、k和t
ij
、k分别表示第i条馈线上第j次故障中第k个受影响的变压器影响的住户数量和受影响的时间。
[0103]
s4-2根据以上指标计算南方某地区的含电-气综合能源系统191条馈线上的数据,将综合能源系统故障风险等级划分为三个等级:一级、二级、三级;分别对应三个风险程度:正常、紧急、严重。
[0104][0105]
表1综合能源系统的故障风险等级划分
[0106]
在所述步骤s5中,采用基于softmax算法进行故障风险等级预警:
[0107]
s5-1输入m个数据{(x1,y1),(x2,y2),...,(xm,ym)},其中x为输入向量,y是其对应输出的类别向量,设有k个类别,则输出向量yi属于{1,2,...,k}。softmax回归主要是估计输入数据归属于每一类的概率,对于任一输入向量,其预测函数表达式为:
[0108][0109][0110]
其中,p(*)表示括号内事件发生的概率。θ=[θ1,θ2,...θk]为n
×
k的权重向量,n为样本的故障特征个数,是保证θ概率之和为1的归一化参数。
[0111]
s5-2在对数据进行softmax分类前,首先要对数据进行归一化处理。softmax损失函数可表示为:
[0112]
[0113]
其中,lnd(yi=j)为0-1指示函数,(yi=j)值为真,则lnd(yi=j)取1,否则为0。softmax损失函数的物理意义是充分提高样本正确分类样本的比例,但是函数对于均衡的样本数据来说,各类别的默认正确分类是没有区别的。
[0114]
s5-3结合式(6),我们可以将故障特征分类问题转化为通过求解softmax损失函数的最小值来预测函数参数θ,以此来判断当前样本所属各类别的概率。但是,在一些研究对象中有特殊要求,比如文章研究的综合能源系统故障预警问题中,将高风险故障等级预测为低风险远比降低风险等级预测为高风险的代价要大,所以本研究需要对高风险等级的样本预测更为精准,而本实验采取的数据样本中低风险等级的样本数据相较于高风险等级样本要多,样本分布不平衡。因此,在对样本进行softmax预测分类时,要对softmax损失函数进行优化,本文在式(6)的基础上,增加一项正则化函数,使之函数适应本文所需的分类要求。
[0115][0116]
其中,第一项可平衡样本的分类误差,以调节样本分布不平衡的问题,第二项是正则化函数,正则化也称l2范数,以此来寻求全局最优解,同时避免了训练模型过拟合情况的发生。这里采用梯度下降法求解函数的最优解,用此方法对softmax分类器进行训练。
[0117]
对上述改进后的损失函数求偏导:
[0118][0119]
每一次更新迭代都按照下式对θ进行运算:
[0120][0121]
为使本领域技术人员更好地理解本发明,算例分析包括以下构成:
[0122]
一、算例描述及仿真结果分析
[0123]
发明以南方某地区的含电-气综合能源系统191条馈线为研究对象,以2019年1月至2019年12月的馈线数据作为训练样本,对2020年1月至6月的月馈线故障风险等级进行预测。
[0124]
1)我们将采集到的样本数据进行算例分析,首先对样本数据进行预处理,经过数据清洗、数据变换、数据集成以及对数据冗余度和相关性进行识别剔除,最终得到的初始样本数据共2700条,其中一类样本2538个,二类样本111个,三类样本51个。
[0125]
由前文所述的k-maxmin聚类算法,对初始样本数据集进行分类抽样,按照每一类样本个数在总样本中的占比确定各类样本的抽样比例。然后基于改进的relief算法对抽样样本进行故障特征的提取,计算每个故障特征的权重值,绘制直方图,结果如图1所示,本次算法抽样次数为30,最近邻为8,迭代20次。在特征权重值的直方图中,计算权重的平均值为0.125,我们将权重均值设置为阈值,从图中可以看出20个故障特征中有14个超过均值,因此将其他低于阈值的故障特征剔除。
[0126]
由图3可以看到,其中有11个故障特征权重值高于阈值,提出其他13个低于阈值的故障特征;再根据前文所述的皮尔森相关系数法,计算权重值之间的相关性,剔除11、9以及6号故障特征,因此剩余的5、7、10、13、14、15、21、22号故障特征所组成的集合为最终的最优
特征集合。
[0127]
接着我们再次调整样本数据集的抽样次数为80次,最近邻取10,观察最终结果剩余的故障特征集合,与第一次得到的最有特征集合几乎一致,这表明基于relief算法提取得到的故障特征的较为准确,可以进入下一步数据分类训练学习。
[0128]
2)基于上文所提取的8个故障特征集合,重新组成样本数据集用于softmax分类算法的训练与测试。对于softmax分类器设置初始化参数,权重衰减参数λ为0.002,α对应各类别取值分别为1、2、3,梯度下降学习速率取0.1,迭代次数为500次。
[0129][0130]
表2
[0131]
模型预测结果如表2所示。行为实际类别,列为预测类别,表格中的数据表示实际类别被正确或错误预测为预测类别的样本数,例如:1238表示实际类别为1的样本被正确预测为1类的样本数有1238个,而11表示实际类别为1的样本被预测为2类的样本数有11个,最后一列为每一类别的预测准确率。
[0132]
由表2可以看到,测试1347条样本数据各等级类别预测准确率分别为99.76%、87.21%和90.00%,计算得出总体样本的准确率为92.32%,由此可以看出等级为1的故障风险预测准确率较高,这是因为第一类样本基数大,对应的故障风险等级低,学习性能较好;而第三类样本总样本数较少,对应的风险等级又比较高,对结果的影响较大。从表4中可以看出,预测出现的偏差都集中在一类样本错误预测为二类三类中,而二类三类样本的预测更为精准,说明改进之后的softmax分类器,对于高等级的故障预测效果更佳,避免了高等级风险预测成低等级风险。
[0133]
在本说明书中,对本发明的示意性表述不是必须针对的是相同的实施例或示例,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。此外,本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施案例所陈述的具体形式,本发明的保护范围也包括本领域技术人员根据本发明构思所能够想到的等同技术手段。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献