一种信息运维故障日志的特征选择方法与流程

2022-02-25 18:24:51 来源：中国专利 TAG：

accuracy对rc算法进行了评价。在文本分类领域中常用精度p、召回率r结果进行度量。精度p为正确分类的样本数量与测试样本总数之比。召回率r是正确分类的样本数量与预先标记的样本数量之比。而f1
micro
和f1
macro
度量是结合了精度和召回率进行的评价的指标，计算公式如下：
[0008][0009][0010][0011][0012][0013][0014]
准确率为正确分类的百分比，常被用来衡量分类器的性能，计算公式如下：
[0015][0016]
本发明的一种信息运维故障日志的特征选择方法与现有的特征选择算法相比的有益效果是：从相对贡献率的角度度量一个特征对于分类的重要性，基于rc算法的微平均性能和宏平均性能优于其他的特征选择算法，并且随着特征的增多性能越来越好，准确率也随着特征数量的增加而越来越高。
附图说明
[0017]
图1为两个特征在不同类别中的特征频率曲线图；
[0018]
图2为不同特征选择算法应用在20n数据集时贝叶斯分类器的微平均曲线图；
[0019]
图3为不同特征选择算法应用在20n数据集时支持向量机分类器的微平均曲线图；
[0020]
图4为不同特征选择算法使用20n数据集时的贝叶斯分类器的宏平均曲线图；
[0021]
图5为不同特征选择算法使用20n数据集时的支持向量机分类器的宏平均曲线图；
[0022]
图6为不同特征选择算法应用在20n数据集时贝叶斯分类器的准确率曲线图；
[0023]
图7为不同特征选择算法应用在20n数据集时支持向量机分类器的准确率曲线图。
[0024]
图8为不同特征选择算法应用在20n数据集时随机森林分类器的准确率曲线图。
具体实施方式
[0025]
下面结合附图对本发明的一种信息运维故障日志的特征选择方法作详细描述。
[0026]
图1给出了两个特征在不同类别中的特征频率曲线图。相对的特征频度为一个特征tk在类别ci中的频度与在其它类中的特征频度的差值的总和，差值的总和越大证明这个特征在类别ci中越重要，说明它的贡献率越大。基于该思想，可计算图1中所示的两个特征t1，t2在类别c1中的重要性，分别为：t1在c1中的相对特征频度为t1在c1中的绝对特征频度(216)减去 t1在其它类中的绝对特征频度的差值的总和，t2在c1中的相对特征频度为t2在c1中的绝对特征频度(80)减去t2在其它类中的绝对特征频度的差值的总和，所以t2特征对类别c1的贡献率大，其在类别c1中比t1重要。从图1可以看出t2的相对特征频度(所有绿色直线距离之和) 比t1大的多。
[0027]
图2和图3分别给出了不同特征选择算法应用在20n数据集时贝叶斯分类器和支持向量机分类器的微平均曲线图，从图中可以看出，rc曲线在其他算法曲线之上，表明rc算法的微平均性能优于其他算法。
[0028]
图4和图5分别给出了不同特征选择算法使用20n数据集时的贝叶斯分类器和支持向量机分类器的宏平均曲线图，从图中可以看出，rc曲线在其他算法曲线之上，表明rc算法的宏平均性能优于其他算法。
[0029]
图6和图7分别给出了不同特征选择算法应用在20n数据集时的贝叶斯分类器和支持向量机分类器的准确率曲线图，从图中可以看出，rc曲线在其他算法曲线之上，表明rc算法的准确率性能优于其他算法。
[0030]
图8给出了不同特征选择算法应用在20n数据集时的随机森林分类器的准确率曲线图，从图中可以看出，mi曲线随着训练特征数量的增加，准确率提升最为明显，表明mi算法受特征数量影响最为敏感。

技术特征：
1.一种信息运维故障日志的特征选择方法，其特征是，它包括以下步骤：步骤1)提出了一种针对不平衡信息运维故障日志数据集的基于相对贡献率的特征选择算法。该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小，从而进行特征选择。并且使用了基准数据集20-newgroups，在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证；(1.1)根据特征-频度矩阵计算特征t1，t2在类别中的重要性；(1.2)为了削弱与类别相关的影响，本文使用每个类中的特征总频度对特征在类别中的贡献进行了平衡，计算公式为：(1.3)为了让结果曲线较圆滑，防止特征频率为0的情况，对上述算法进行了进一步的处理，公式为：(1.4)评估所提出的信息运维故障日志特征选择算法的性能；步骤2)提出了一种基于相关程度与区分程度的特征选择算法。该算法利用特征选择的四个基本信息要素，把特征对于类别的相关程度表示出来，同时也把特征对于类别的区分程度表示出来；(2.1)根据特征，计算出t
k
对类别c
i
的区分能力为：(2.2)特征t
k
与某个类别c
i
的相关程度为：(2.3)最后得到ad方法的公式为：步骤3)对步骤2)进行进一步的简化，通过理解和数学简化的角度把公式进行简化，并且做了很多的实验，终于提出了改进的相关程度与区分程度的特征选择算法，它的公式为：步骤4)基于dbscan和欠抽样方结合的重采样方法，该方法首次从数据密度的角度对数据集进行聚类，得到多数类中携带重要信息的样本，筛选出噪声样本，以达到选择性的删除和保留多数类样本的目的；(4.1)设训练集为s，少数类集合记为p，多数类集合记为n，设置dbscan算法中的参数eps，minpts的数值；
(4.2)采用已设置好参数的dbscan算法对多数类数据集n，进行聚类分析，得到聚类结果，聚类簇和噪声数据；(4.3)删除聚类结果中的噪声数据；(4.4)计算聚类簇n0，n1，n2…
n
i
所对应的平均值m0，m1，m2…
m
i
；(4.5)在每一簇中，找到距离该簇均值最近的样本，将它作为该簇的伪心ci；(4.6)保留每簇靠近伪心ci的样本，删除远离伪心的样本。

技术总结
本发明针对信息运维故障日志的不断增长且文本分类系统中原始特征向量空间的维数巨大，造成文本表示的数据稀疏和分类器过分拟合影响文本分类的效率和精确度的问题，主要从不平衡数据的特殊性开始研究，从信息运维故障日志的特征选择和重采样入手，研究针对不平衡数据的特征选择和重采样方法，提出了一种信息运维故障日志的特征选择方法。首先提出了一种针对不平衡数据集的基于相对贡献率的特征选择算法。该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小，进行特征选择。其次提出了一种基于相关程度与区分程度的特征选择算法。该算法利用特征选择的四个基本信息要素，把特征对于类别的相关程度表示出来，同时也把特征对于类别的区分程度表示出来。最后提出了基于不平衡信息运维故障日志的重采样方法，对欠采样方法进行改进。对欠采样方法进行改进。对欠采样方法进行改进。

技术研发人员：吕洪波郝成亮马旭东张凯樊家树
受保护的技术使用者：国网吉林省电力有限公司信息通信公司
技术研发日：2020.07.30
技术公布日：2022/2/24

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种电力信息物理系统虚假数据注入攻击检测方法与流程

一种信息运维故障日志的特征选择方法与流程

相关文献

最热文献