一种基于XGBoost模型的继电保护缺陷文本定级方法

2022-07-31 07:34:53 来源：中国专利 TAG：

一种基于xgboost模型的继电保护缺陷文本定级方法
技术领域
1.本发明涉及继电保护装置缺陷分析技术领域，尤其涉及一种基于xgboost模型的继电保护缺陷文本定级方法。

背景技术：

2.近年来，电网规模日趋庞大，继电保护装置数量也发生了跨越式的增长。受设计缺陷、部件老化、外界环境干扰等因素的影响，继电保护装置难免会发生缺陷，继而影响继电保护系统可靠性，威胁电网安全。值得注意的是，不同严重等级的缺陷对二次设备系统稳定运行乃至对整个电网运行可靠性的影响不同。同时，在目前的实际生产中，装置的缺陷定级主要是依靠运维人员，根据现场状况参考缺陷定级手册自主决定。受个人主观因素的限制，难免出现缺陷定级不准确的现象，从而影响消缺工作的进展。继电保护装置作为保障电网安全稳定运行的第一道防线，有必要从分析缺陷、消除缺陷的角度出发，结合人工智能领域的新型数据分析模型，探究适用于准确定级继电保护装置缺陷严重程度的方法，提高继电保护的正确动作率，更好的保护电网安全。

技术实现要素：

3.本发明的目的是提供一种基于xgboost模型的继电保护缺陷文本定级方法，该方法能较好地实现对继电保护缺陷文本的向量化，并可以良好的同前沿的ai领域模型结合，从而构造出适合实际应用和缺陷数据分析的分类器，使保护缺陷数据等级能够快速的被划分，完成定级工作。
4.本发明的目的是通过以下技术方案实现的：
5.一种基于xgboost模型的继电保护缺陷文本定级方法。所述方法包括：
6.步骤1、继电保护缺陷文本结构组成及特征分析；
7.步骤2、基于词典的继电保护缺陷日志处理模型构建；
8.步骤3、缺陷数据的文本向量化表达与特征提取；
9.步骤4、引入集成学习xgboost模型，构建保护装置缺陷定级分类器。
10.所述步骤1中，针对某网数据库存储的继电保护缺陷记录信息的组成结构，根据其特征划分为结构化数据和非结构化数据。本专利将从非结构化数据入手，从非结构化信息中提取有效特征作缺陷分类。
11.所述步骤2采用机器与人工相结合的方法，从文本中提取停用词并构建停用词表，并构建了继电保护缺陷文本分词词典，实现了缺陷文本中的同义词合并；整合停用词表、分词词典、同义词表各部分，最终构建了适用于保护装置缺陷文本分析的专业词典；通过词典剔除文本中的噪音词汇并规范用词，提高缺陷文本质量，利用专业词典对缺陷文本做切词工作。
12.所述步骤3中，将切词后的缺陷数据利用tf-idf实现文本向量化提供给模型处理。
13.所述步骤4中，利用向量化文本结合xgboost模型做训练，构建缺陷定级分类器。
14.由上述本发明提供的技术方案可以看出，上述方法直接从保护缺陷记录文本出发，文本预处理后通过tf-idf向量化获取缺陷文本中的特征，采取xgboost模型训练出缺陷定级分类器，基于该方法构建的缺陷文本定级分类器可以为现场运维人员提供辅助决策和缺陷数据分析处理做参考指导。
附图说明
15.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
16.图1为本发明实施例提供的xgboost模型的继电保护缺陷文本定级方法总体流程示意图；
17.图2为本发明实施例继电保护缺陷专业词典形成流程图；
18.图3为本发明实施例某条缺陷记录经过tf-idf向量化后结果示意图。
具体实施方式
19.下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
20.下面将结合附图对本发明实施例作进一步地详细描述，如图1所示为本发明实施例提供的缺陷定级分类器构造方法总体流程示意图，所述方法包括：
21.步骤1、继电保护缺陷文本结构组成及特征分析。
22.继电保护缺陷记录信息由2部分组成：
23.1)有属性标签表征的规范型数据；
24.2)无属性标签表征的短文本数据，即缺陷日志，称为非规范型数据。
25.规范型数据具有便于计算机保存管理和编译的特点，目前有关继电保护数据研究方面的工作：状态检修、可靠性评估、关联规则获取、缺陷定级等都集中在此类数据。而缺陷日志这类半结构化文本数据虽蕴含着丰富的历史状态、检修举措及效果信息，但受限于多歧义、难切分、模糊性的特点，尚未得到挖掘。有鉴于此，本节基于某区域电网继电保护设备缺陷日志，分析日志格式，总结挖掘难点问题，并建立了数据处理模型。
26.步骤2、基于词典的继电保护缺陷日志处理模型构建。
27.由于缺陷日志这类半结构化文本数据有着多歧义、难切分、模糊性的特点，无法直接利用，故本文将利用词典的方法对保护缺陷数据作预处理工作，实现缺陷文本挖掘。
28.本课题词典的构建流程主要如下:基于正则表达式的停用词识别方法，实现了缺陷文本中无关字词的剔除；采用机器与人工相结合的方法，构建了继电保护缺陷文本分词词典；采用潜在语义分析和决策树分类方法，实现了缺陷文本中的同义词合并；整合了停用词表、分词词典、同义词表各部分，最终构建了适用于保护装置缺陷文本分析的专业词典。具体流程见图2。
29.利用词典和python工具库jieba函数包对缺陷数据进行分词，将非结构化的缺陷日志切分为质量较高的、信息准确的数据，为下一步利用词袋模型做基础。具体预处理结果示例参见表2。
30.表2预处理前后示例
[0031][0032]
步骤3、缺陷数据的文本向量化表达与特征提取。
[0033]
定义继电保护领域词典中的词汇作为特征项，简称为词项，所有词项的集合称为词表空间，将给定的缺陷文本数据转化为词项的序列，然后基于tf-idf对词项的权重进行赋值。上述过程被称为词袋模型。
[0034]
采用tf-idf方法对词项进行权重赋值的公式为：
[0035]
tfi＝n(ti,d)(1)
[0036][0037]
tf_idfi＝tfi*idfi(3)
[0038]
tf表示特征频率，用以表征词项在当前文本出现的次数，特征频率越高代表重要性越大；df表示文档频率，用以表征语料中包含词项的文档的数目，df值越大，所包含的有效信息就越低；idf作为倒文档频率是反应词项在整个语料库重要性的统计特征。tf-idf定义为tf和idf的乘积。
[0039]
以某区域电网为例，得到的继电保护领域词典共包含了4365个词汇，由此得到4365维的词表空间。根据tf-idf法我们可以将缺陷文本转化得到4265维的词向量。用文本向量代表该条缺陷数据提供给分类器模型做后续处理计算。以某条缺陷记录为例，经过tf-idf向量化后结果如图3所示。
[0040]
步骤4、引入集成学习xgboost模型，构建保护装置缺陷定级分类器。
[0041]
xgboost实现的是一种通用的treeboosting算法，相比梯度提升算法，性能有10倍以上的提升。每次训练单个弱(基)分类器时，都会将上次的分错数据提高权重再进行本次的弱分类器训练，通过加入新的弱分类器来不断纠正前面分类器的残差，最终将所有弱分类器加权求和在一起作为最终分类结果。模型具体如下：
[0042]
所用树模型是回归数(cart)模型，树的集成模型为：
[0043][0044]
式中：为第i个样本的预测值；k为树的数目；f为cart(回归树)的集合；fk对应于集合f中的一个函数；xi表示输入的第i个数据。
[0045]
xgboost模型的目标函数l包含两部分：
[0046][0047]
式中：第1项代表预测值和真实值yi之差；第2项为对树模型规模的惩罚项，是所有回归树的复杂度之和，即：
[0048][0049]
式中：γ和λ为惩罚系数；t为叶子节点个数；w为叶子节点的分数。
[0050]
式(3)在计算过程中，通过寻找最佳f
t
(xi)，不断叠加来最小化目标函数。第t轮的目标函数可改写为：
[0051][0052]
对式(4)进行二阶泰勒近似展开，定义ij＝{i|q(xi＝j)}为第j棵树每一叶子中的样本集合。其中，为一阶导数，为二阶导数，于是可得：
[0053][0054]
定义可得：
[0055][0056]
对上式中w求偏导可得最优w为：将式(6)代入式(5)可得：
[0057][0058]
目标函数越小则模型越好，在训练过程中，应用贪心算法对子树进行划分，并枚举可行的分割点，不断计算结点损失以选择增益最大的叶子结点。增益l
gain
的计算公式如下：
[0059][0060]
式中：第1项为左子树分裂后的增益；第2项为右子树分裂后的增益；第3项表示不进行子树分裂的增益。
[0061]
本专利中模型的数据来源为：将3566条数据集以8:2的比例划分为训练集和测试集。最终得到的各类别数目见表3。
[0062]
表3数据各缺陷类别统计表
[0063][0064]
本专利中模型的主要实现流程为如下，本实验调用python函数工具包的xgbclassifier分类器，相关参数设置如表4，其余参数采取默认值。
[0065]
1)从训练集中抽取277条数据(测试集数据条数
×
学习率)，从数据中通过采样法训练基分类模型；
[0066]
2)重复步骤1)150次形成150个决策树基分类器；每次数据采样过程中每条数据被采样概率不相同，每条数据被采样概率会随着每一个弱分类器的错误率赋予不同权值；
[0067]
3)利用决策树基分类器对每条测试数据分类投票，根据正确率对票数有权向加获得票数最多一类，即为所划分的缺陷等级；
[0068]
4)采用十折交叉法，评估xgbclassifier准确率。
[0069]
表4 xgboost分类器参数表
[0070][0071]
为了全面评估训练模型的准确性，需要通过k折交叉法(k＝10)对原始数据进行交叉验证。将原始数据均分成10组，每个子集数据分别做一次测试集，其余的9组子集数据作为训练集，得到10个模型，分类器的最终性能指标由10个模型准确率的均值确定。基于10折交叉方法，将某区域电网继电保护单年度缺陷文本数据输入上述构造的分类器进行缺陷定级，决策树基分类器和xgboost分类器结果如表5所示。
[0072]
表5缺陷文本定级分类器的分类准确率对比
[0073][0074]
从表中看出单个基分类器的缺陷定级准确率只有68.9％，采取xgboost模型的缺陷定级模型正确率达到了75.7％。
[0075]
综上，本发明所述的基于xgboost模型的继电保护缺陷文本定级方法可行。
[0076]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，
任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：文本分类模型的训练方法、文本分类方法及相关设备与流程

一种基于XGBoost模型的继电保护缺陷文本定级方法

相关文献

最热文献