基于voting集成的智能电能表故障多分类方法

2022-08-27 01:30:46 来源：中国专利 TAG：

无参考价值。因此，还需解决数据不平衡问题。
64.针对选取九个输入特征存在的冗余特征，为确定数据集应该保留有效特征，降低模型训练的复杂度，通过计算特征间及特征与故障类型间的相关系数，从而确定保留特征。
65.为确定应该保留的有效特征，本实施例采用皮尔逊系数进行相关系数求解，其计算式为：
[0066][0067]
式中，cov(x,y)为变量x,y之间的协方差；d(x),d(y)分别为变量x,y的方差；p
x,y
的取值范围为[-1,1]，(0,1]，表示两个变量为正相关，[-1,0)表示两个变量为负相关，0表示两个变量无关系。智能电能表各属性间相关系数如图3所示。由图3可知，接入方式和接线方式该两个特征属性与故障现象的相关性最弱，属于冗余特征应该剔除。为进一步证明采用皮尔逊系数法得到相关性的分析可靠性，基于(1)通讯协议、准确度、计量方向、厂家、硬件版本、表龄、接线方式与接入方式；(2)通讯协议、准确度、计量方向、厂家、硬件版本、表龄及接线方式；(3)通讯协议、准确度、计量方向、厂家、硬件版本与表龄，上述三组特征集进行模型训练。本发明提供的优选实施例中基于决策树模型得到三者的准确率分别为48.4％、48.5％和51.6％，由该三个特征集的实验数据可知，在去除掉接线方式和接入方式两个特征后准确率增加，证明采用皮尔逊系数法计算特征相关性的准确性，并确定本实施例最终采用通讯协议、准确度、计量方向、厂家、硬件版本及表龄共6个特征属性作为数据集的输入特征。
[0068]
数据不平衡处理包括欠采样和过采样两类。欠采样方法将多数类样本丢失部分数据，实现多数类样本和少数类样本的数据平衡，主要代表为随机欠采样；过采样方法将少数类样本通过数学模型或数据合成方法增加少数类样本，最终实现少数类样本和多数类样本的平衡。而少数类的样本量过少，采用欠采样方法使本实施例数据量变得很少，模型训练时无法充分挖掘特征间的联系。因此，在本发明提供的实施例中采用smote算法进行不平衡数据处理。
[0069]
smote算法原理如图3所示，即设有一少数类样本数据集x共有n个样本，则：
[0070]
1)从少数类样本中选取样本xi(i∈[1,n])作为合成新样本的根样本；
[0071]
2)根据向上采样倍率n，选取k(k一般为奇数，图中取k＝3)个近邻样本x
ij
作为合成新样本的辅助样本，其中x
ij
∈j，j＝1,2,...,k；
[0072]
3)在根样本xi和辅助样本x
ij
间通过式(2)进行插值，生成新样本x
new
，γ是随机数， γ∈(0,1)即
[0073]
x
new
＝xi γ
*
|x
ij-xi|
ꢀꢀꢀ
(2)。
[0074]
该新样本x
new
即用于构建训练用的模型数据集。
[0075]
针对故障类型样本分布情况，在九类故障其中5类占比少且样本数量较少，因此，本实施例基于smote算法生成新样本x
new
，采样后各故障类型样本分布如图5所示。由图5可见，生成后的新样本分布均匀，确保模型训练充分学习各类样本数据。
[0076]
本发明提供的实施例中采用软投票法，voting算法关键在于基模型的构建训练/测试与权重分配。
[0077]
构建基模型要求好而不同，即要求基模型的性能好且基模型的多样性。以二分类为例，分析多个独立的基模型集成后，集成效果的变化。对于二分类问题，预测目标为y多样性1,1}，函数的映射关系为f,分类器的误差为ε，则所有分类器误差关系为：
[0078]
p(hi(x)≠f(x))＝ε
ꢀꢀꢀ
(3)。
[0079]
将t个分类器进行投票后的误差关系为：
[0080][0081]
式中，hi(x)为构建的第i个基模型的分类器，i＝1,2,...,t，i表示第i个基模型，t为分类器总个数。在本发明提供的实施例中，分类器是基模型的核心，其用于分析/预测故障，分类器基于现有技术构建，此处不再赘述。
[0082]
由上式(4)可知，随着t增大集成学习的误差率不断降低，体现不同基模型集成后的效果如表2所示，表中√表示预测正确，
×
表示预测错误。
[0083][0084][0085]
表2不同学习器集成效果表
[0086]
由表2可知，其中基模型1、2、3各自的预测率为66.7％，且在不同的测试例上有不同的性能，因此集成模型a的效果达到100％；基模型4、5、6的预测率虽然也达到66.7％，但是这三者的性能相同，因此，集成模型b不起作用，基模型7、8、9的性能较差，集成模型c 起负作用。
[0087]
voting算法准确性还取决于权重wi，为更优获得voting算法各基模型权重参数组合，本实施例采用pso算法确定。首先初始化位置和速度随机的粒子，当程序运行时，粒子通过优化函数获得相应的适应度值，迭代过程中各个粒子搜索各自最优解即当前个体极值 pbest，通过与其他粒子共享寻找出最优的个体极值作为全局最优解记为gbest，所有粒子根据个体极值和全局最优解调整自己的位置和速度，直到所有粒子都接近最优解。
[0088]
在n个粒子组成的种群中，单个粒子wi的位置可表示为一个d维向量，即：
[0089]
wi＝(w
i1
,w
i2
,
…
,w
id
),i＝1,2,
…
,n
ꢀꢀꢀ
(5)。
[0090]
其飞行速度可表示为：
[0091]vi
＝(v
i1
,v
i2
,
…
,v
id
),i＝1,2,
…
,n
ꢀꢀꢀ
(6)。
[0092]
粒子wi当前迭代到的个体极值可表示为：
[0093]
p
best
＝(p
i1
,p
i2
,
…
,p
id
),i＝1,2,
…
,n
ꢀꢀꢀ
(7)。
[0094]
整个粒子群当前迭代到的全局极值可表示为：
[0095]gbest
＝(p
g1
,p
g2
,
…
,p
gd
)
ꢀꢀꢀ
(8)。
[0096]
获得两个极值后，粒子速度和位置更新式子分别表示为：
[0097]vid
＝ωv
id
c
1γ
(p
id-w
id
) c
2γ
(p
gd-w
id
)
[0098]wid
＝w
id
v
id
ꢀꢀꢀ
(9)。
[0099]
式中，ω为惯性因子，c1和c2为加速常数，γ为随机数通常在处于(0,1)间，p
id
表示第 i个变量的个体极值第d维，p
gd
表示全局最优解的第d维。
[0100]
集成学习基本原理是将多个分类器进行融合，得到比单一分类器更好的集成模型。基于投票法的集成学习结构图如图6，将训练集通过多个基分类器进行训练，并将各基分类器测试集结果按照投票方法进行融合确定最终输出。
[0101]
投票方法分为两类：硬投票和软投票。以二分类问题为例，预测目标为y{-1,1}，有 a、b、c三个模型对样本(xi，yi)进行预测。硬投票法即对模型预测标签进行投票，设 a、b、c三个模型的预测结果为yi-predict-a＝1,yi-predict-b＝1,yi-predict-c＝-1，所以最后预测结果为yi-predict-voting＝1；软投票法即对各基模型预测各个类别的概率进行加权投票，类别概率最高者即为最终结果，其计算式为：
[0102][0103]
式中，pk为基模型预测为类别k的概率，k＝1,2,...,m，m为总类别个数，wi为各基模型权重，i＝1,2,...,n，n为总基模型个数，ek为加权投票后预测类别为k的概率，y
i-predict-voting
为最终结果。
[0104]
本发明还提供一种实施例，用于示例性地显示应用本发明提供的方法进行故障多分类过程即效果。
[0105]
如图7所示，其实现流程如下：
[0106]
(1)程序运行时，将预处理得到的数据输入并划分成训练集、验证集、测试集；
[0107]
(2)将训练集分别输入基模型hi(x)，i＝1,2,3进行训练，保存模型参数，并分别输出验证集预测结果；
[0108]
(3)将各模型预测结果通过式(3)进行融合，把融合后的准确率作为粒子群优化算法的优化目标函数，设置粒子群算法迭代次数，经过寻优确定出当故障分类准确率最高时的各基模型的权重值wi；
[0109]
(4)构建出基于voting集成的智能电能表故障多分类模型，保存模型参数；
[0110]
(5)将测试集输入到voting融合模型中，输出最终结果y
i-predict-voting
。
[0111]
为验证本实施例提出方法的准确性和有效性，实验数据采用国网湖南省电力公司计量中心2020年拆回故障表，共计16452个实际数据样本，实验平台在anaconda(基于 python3.8)环境运行。为避免过拟合和数据划分的随机性，实验采取随机采样划分形式，将智能电能表的历史故障数据集70％作为训练集，30％作为测试集，本实施例所有结果均为多次训练平均值。
[0112]
本实施例采用10类常用分类算法进行实验分析，得到各分类算法对各故障类别分类的准确率如表3所示，各算法识别各类别准确率图如图8所示。
[0113]
由表3可知，准确率最高为xgbt算法，达到74.79％，gbdt、knn、adaboost和rf算法
分别为74.63％、73.35％、60.62％和60.18％。由图7可知，xgbt算法在故障类型2、3、 6、7、8分类效果比其他算法更优，knn算法在故障类型1、5分类效果优于其他算法，nb 和svm算法分别在故障类型9和类型4的分类效果最优。
[0114]
上述xgbt、gbdt、adaboost算法均属于boosting算法，rf算法属于bagging算法， boosting算法和bagging算法是集成学习方法，效果相对单一方法更好；knn算法是基于实例的算法，对异常值和噪声有较高的容忍度，但在故障与特征相关性较弱时相对于其他算法有更优；nb算法是基于贝叶斯定理的监督算法，svm算法最大特点能构造最大间距的决策边界，提高分类算法的鲁棒性，该两类算法多应用于二分类领域，在某类分类效果更好。因此，基于上述分析以及2.2中基模型选择策略，本实施例选择以xgbt knn为主体基模型，rf、nb、svm为辅助基模型的形式进行模型融合。
[0115][0116]
表3各分类算法对智能电能表故障类型分类准确率
[0117]
混淆矩阵是衡量分类模型的重要工具，tp表示实际为正预测也为正的样本数量；fp表示实际为负但预测为正的样本数量；fn表示实际为正但预测为负的样本数量；tn表示实际为负预测也为负的样本数量。本实施例采用精确率(precision)、召回率(recall)、 f1-score作为评价模型的指标。
[0118][0119]
精确率体现模型对负样本的区分能力，其值越高模型区分负样本能力越强，其计算式为：
[0120][0121]
召回率体现模型对正样本的区别能力，其值越高表明模型识别正样本能力越强，其计算式为：
[0122][0123]
f1-score为精确率和召回率的综合，该值越高模型越稳健，其计算式为：
[0124][0125]
式中：m表示故障类型总数；i为故障类型，i∈[1,m]。
[0126]
结合表3和图8分析，根据基模型的选择策略，采用xgbt knn分别与rf、nb、svm 算
法进行组合，根据粒子群优化算法确定各基模型的权值，得到分类效果如表5所示。
[0127][0128]
表5不同基模型集成效果表
[0129]
如表5，粒子群寻优算法得到xgbt knn rf的权值分别为[9.61,10,1]， xgbt knn nb的权值分别为[10,4.71,1]，xgbt knn svm的权值分别为[2.05,1,1]。由表5可知，采用xgbt knn nb集成后效果最好，基于本实施例提出的xgbt knn nb 的模型组合进行智能电能表故障分类，将集成后的xgbt knn nb方法与表3的10类算法性能进行对比如表6所示。
[0130][0131]
表6集成方法与各分类算法对比表
[0132]
由表6可知，集成后的xgbt knn nb方法明显优于其他算法，相较于基模型nb有较大提升，精确率、召回率、f1-score均提升超过50％，对于基模型xgbt也有1.5％提升，且集成后算法运行时间相较于所选基模型运行时间无明显差别，确保本实施例提出方法的分类效率。
[0133]
为进一步分析以xgbt knn nb进行集成后方法在各个类别分类准确率的提升性能，将本实施例提出方法与xgbt算法在各类别的分类准确率上进行比较如图9所示。
[0134]
由图9可见，各类别准确率均有所上升，其中故障5提升最大达到7.31％，由此可知本实施例提出方法能明显提升智能电能表的各故障分类准确性。
[0135]
同时为对比本实施例集成方法与现有集成方法性能，将本实施例提出基于 xgbt knn nb模型的故障多分类方法与现有方法对比如表7所示。
[0136][0137]
表7与现有方法对比
[0138]
由表7可知，本实施例提出方法在精确率、召回率以及f1-score明显优于svm rf和 rf lightgbm方法，因此本实施例提出方法相比与现有方法综合性能更好。
[0139]
综上所述，本发明提供的一种基于voting集成的智能电能表故障多分类方法，实际数据分析表明：通过皮尔逊系数法和smote算法可有效提取特征，构建获得所需的数据集，避免人为特征提取的不确定性和复杂性；基于voting集成方法构建的xgbt knn nb模型，可充分发挥各基模型的优点，在各故障类别的准确率均有所提升，从而提高模型整体准确分类能力且不会造成模型运行时间的冗余，兼顾了高性能和高效率。相比于现有方法，本实施例提出方法在精确率、召回率以及f1-score评价指标上均明显更优，表现出更高的准确度和良好的稳定性。本实施例提出方法对机器学习多分类方法应用到智能电能表故障分类研究提供了新的思路，为智能电能表故障原因的诊断提供更准确可靠的依据。此外，本实施例研究工作未来可增加元器件主要信息作为特征，通过细化智能电能表的故障特征，以增强数据特征与智能电能表故障类型的相关度；并可通过提升合适采样技术解决数据不平衡问题，减少噪声输入影响，据此于进一步提升智能电能表故障多分类的准确率。
[0140]
本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。
[0141]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0142]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0143]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，
都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：疲劳曲线标定方法及可读存储介质与流程

基于voting集成的智能电能表故障多分类方法

相关文献

最热文献