一种用电信息采集设备故障分类模型训练方法及装置与流程

2021-12-14 22:55:00 来源：中国专利 TAG：

1.本技术涉及机器学习分类技术领域，具体而言，涉及一种用电信息采集设备故障分类模型训练方法及装置。

背景技术：

2.随着智能电网的快速发展，智能电能表作为计量电力的装置，已成为用电信息采集系统最重要的组成设备。现今，用电信息采集系统建设的覆盖率越来越高，随之而来的是智能电能表故障类型的多样化以及故障频率的不断上升，为运维工作带来了新的挑战。故障诊断的传统方法是根据采集到的电流、电压和用户功率信息，通过连续差值算法找出智能电能表运行异常及疑似用电异常用户。

技术实现要素：

3.有鉴于此，本技术实施例的目的在于提供一种用电信息采集设备故障分类模型训练方法及装置。通过解决故障数据类别不平衡问题后训练加权融合模型，提高了分类模型有效预测故障的准确性、稳定性。
4.第一方面，本技术实施例提供了一种用电信息采集设备故障分类模型训练方法，包括：对故障信息样本集进行数据处理，以得到训练集；将所述训练集输入到多个分类器进行训练，获得多个分类器不同故障类型的召回率；根据所述召回率，对所述多个分类器进行加权融合，以得到目标故障分类模型。
5.在上述实现过程中，通过获取的故障信息样本数据，进行一系列数据处理，将处理后的数据输入到多个分类器进行训练，训练出基于多个分类器建立的加权融合分类模型，通过加权融合分类模型进行后续的故障预测。其中，召回率作为加权融合分类模型的权重，召回率可以代表分类器针对每一个故障类型的准确率，因此，目标故障分类模型通过类别准确率加权的投票方式构建，能够综合考虑不同单分类器对不同种类故障信息分类准确率不一致的结果，能够体现出不同单分类器的优势，从而进一步提高训练模型有效地分类与预测的准确率、稳定性。
6.结合第一方面，本技术实施例提供了第一方面的第一种可能的实施方式，其中：所述对故障信息样本集中进行数据处理，以得到训练集，包括：对所述故障信息样本集进行数据预处理，以得到初始训练集；调整所述初始训练集的不平衡比例，以得到所述训练集。
7.在上述实现过程中，获取的故障信息数据样本集作为原始数据样本集，在分类算法开始训练之前对原始数据样本集进行一系列预处理以及不平和类别处理等数据处理操作，一方面可以防止由于数据的原因导致分类模型无法工作，另一方面可以加速分类模型的训练，提高算法的精度，提高分类算法模型对不平衡数据集的适应性。
8.结合第一方面的第一种可能的实施方式，本技术实施例提供了第一方面的第二种可能的实施方式，其中：所述对所述故障信息样本集进行数据预处理，以得到初始训练集，包括：对所述故障信息样本集进行识别，以确定出缺失样本；对所述缺失样本进行处理，以
得到初始训练集；或者，对所述故障信息样本集进行标准化处理，得到初始训练集；或者，对所述故障信息样本集进行相关性分析，以确定出所述故障信息样本集中的各项样本的相关性，根据所述故障信息样本集中的各项样本的相关性筛选样本，以得到初始训练集。
9.在上述实现过程中，在对获取的故障信息数据样本集预处理过程中：基于原始数据样本集的复杂性，可以对原始数据样本集中的缺失数据进行相关处理，消除缺失数据的影响，防止由于缺失数据的原因导致后续训练分类模型无法正常工作；基于原始数据样本集的复杂性，可以对原始数据样本集进行标准化，即均值方差归一化无量纲处理，将不同的属性特征缩放到相同的数值区间，使得不同指标可以相互比较，可以降低属性特征对基于距离的分类器如k最邻近方法分类器的影响；基于原始数据样本集的复杂性，可以对原始数据样本集进行相关性分析，剔除与故障类型相关性弱的属性特征和冗余特征，选出最利于分类模型构建的数据属性，从而能够加速构建分类模型的训练，提高加权融合分类模型的精度。
10.结合第一方面的第一种可能的实施方式，本技术实施例提供了第一方面的第三种可能的实施方式，其中：调整所述初始训练集的不平衡比例，以得到所述训练集，包括：对所述初始训练集的少数类样本进行过采样处理，获得过采样初始训练集；对所述过采样初始训练集进行欠采样处理，清除所述过采样初始训练集的噪声值，得到消除不平衡数据的所述训练集。
11.在上述实现过程中，对预处理后的数据集，通过过采样与欠采样结合的混合采样方式调整不平衡比例的方法，避免了单独使用过采样或欠采样数据处理存在的缺点，即能够防止多数类样本数据丢失以及少数类样本生成过拟合，通过重构样本数据集使得多数类与少数类样本的分布达到一个新的平衡状态，效果更好。
12.结合第一方面的第一种可能的实施方式，本技术实施例提供了第一方面的第四种可能的实施方式，其中：所述多个分类器为k最近邻分类器、决策树分类器、支持向量机分类器、贝叶斯分类器或随机森林分类器中的一种或多种任意组合。
13.在上述实现过程中，基于几种常用分类器进行训练，加权融合后，训练得到最终的目标故障分类模型，综合考虑了不同单分类器对不同故障信息类型分类准确率不一致的结果。利用不同单分类器独有的优势，综合比较各个单分类器的组合效果，构建一个相比单分类器更稳定可靠的目标故障分类模型，整体提升了分类预测的准确性。
14.第二方面，本技术实施例提供了一种用电信息采集设备故障类型确定方法，包括：获取待识别用电故障信息数据；将所述待识别用电故障信息数据，输入到上述用电信息采集设备故障分类模型训练方法确定的目标故障分类模型进行识别，以确定出所述待识别用电故障信息数据的故障类型。
15.在上述实现过程中，通过上述用电信息采集设备故障分类模型训练方法经训练、加权融合后得到用于判断、确定故障类型的分类模型，即该分类模型为所需的目标故障分类模型。将待识别用电故障信息数据输入到所构建的目标故障分类模型中，使用该分类模型预测故障种类，便能够比较精确地识别出用电故障信息数据故障的类型，从而实现对用电信息采集设备故障的准确分类与预测，指导运维人员快速排查故障类型，分析故障原因，还能对同地区和同批次设备进行故障预测，减小了人力资源与时间成本。
16.第三方面，本技术实施例还提供一种用电信息采集设备故障分类模型训练装置，
包括：处理模块，用于对故障信息样本集进行数据处理，以得到训练集；训练模块，用于将所述训练集输入到多个分类器进行训练，获得多个分类器不同故障类型的召回率；融合模块，用于根据所述召回率，对所述多个分类器进行加权融合，以得到目标故障分类模型。
17.在上述实现过程中，用电信息采集设备故障分类模型训练装置包括处理模块、训练模块和融合模块等三个模块。处理模块，能够对故障信息样本集进行数据处理，以得到训练集；训练模块，能够将训练集输入到多个分类器进行训练，获得多个分类器不同故障类型的召回率；融合模块，能够根据召回率，对多个分类器进行加权融合，以得到目标故障分类模型。
18.第四方面，本技术实施例还提供一种用电信息采集设备故障分类装置，包括：获取模块，用于获取待识别用电故障信息数据；分类模块，用于将所述待识别用电故障信息数据，输入到上述用电信息采集设备故障分类模型训练方法确定的目标故障分类模型进行识别，以确定出所述待识别用电故障信息数据的故障类型。
19.在上述实现过程中，用电信息采集设备故障分类装置包括获取模块和分类模块等两个模块。获取模块，能够获取待识别用电故障信息数据；分类模块，能够将待识别用电故障信息数据，输入到上述任意一种用电信息采集设备故障分类模型训练方法确定的目标故分类模型进行识别，以确定出待识别用电故障信息数据的故障类型。
20.第五方面，本技术实施例还提供一种电子设备，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的任一种可能的实施方式中的方法的步骤。
21.第六方面，本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的任一种可能的实施方式中用电信息采集设备故障分类模型训练方法及用电信息采集设备故障类型确定方法的步骤。
22.本技术实施例提供的用电信息采集设备故障分类模型训练方法及用电信息采集设备故障类型确定方法、装置、电子设备及计算机可读存储介质。训练多个分类器，使用召回率进行加权融合，构建目标故障分类模型，与现有技术中的训练单个分类器，使用模型分类预测具有不确定性，准确率不高相比，其训练多个单分类器，使用召回率作为目标故障分类模型加权融合时的权重，通过基于类别准确率加权的投票方式训练模型，能够体现出不同单分类器的优势，从而进一步提高训练模型有效地分类与预测的准确率、稳定性。将待识别用电故障信息数据输入到所构建的目标故障分类模型中，使用加权融合分类模型预测故障种类，能够精确地识别出用电故障信息数据故障的类型，从而实现对用电信息采集设备故障的准确分类与预测。
23.为使本技术的上述目的、特征和优点能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。
附图说明
24.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这
些附图获得其他相关的附图。
25.图1为本技术实施例提供的电子设备的方框示意图；图2为本技术实施例提供的用电信息采集设备故障分类模型训练方法的流程图；图3为本技术实施例提供的求解召回率的流程图；图4为本技术实施例提供的训练目标故障分类模型的流程图；图5为本技术实施例提供的用电信息采集设备故障分类模型训练装置的功能模块示意图；图6为本技术实施例提供的一种用电信息采集设备故障模型确定方法的流程图；图7为本技术实施例提供的用电信息采集设备故障分类装置的功能模块示意图。
26.图标：100
‑
电子设备；111
‑
存储器；112
‑
存储控制器；113
‑
处理器；114
‑
外设接口；115
‑
输入输出单元；116
‑
显示单元；310
‑
处理模块；320
‑
训练模块；330
‑
融合模块；510
‑
获取模块；520
‑
分类模块。
具体实施方式
27.下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行描述。
28.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
29.本技术发明人注意到，如果能够对用电信息采集设备故障进行准确分类与预测，将能够指导运维人员快速排查故障类型，分析故障原因，确保用电安全与稳定。随着大数据技术的发展，运用机器学习分类方法进行监测，能够大大降低人力资源与时间成本。
30.目前，在面向智能电能表的故障类别诊断方面，使用卷积神经网络分类器判断故障类别，其需要大量样本数据进行训练才能提高准确性。使用改进粒子群算法与支持向量机分类模型，该模型需要训练多个二分类器寻找最优参数，训练时间长。由于不同故障类别在单个分类器下分类准确率偏差较大，不能保证作出有效的分类预测，分类预测具有不确定性。对于类别不平衡的故障信息数据，分类器的训练效率与模型分类准确率通常较低。
31.基于上述研究，本技术实施例提供了一种用电信息采集设备故障分类模型训练方法及装置。能够通过基于类别准确率加权的投票方式训练目标模型，提高了目标模型有效地对故障信息分类与预测的准确率、稳定性。下面通过几个实施例进行描述。
32.为便于对本实施例进行理解，首先对执行本技术实施例所公开的用电信息采集设备故障分类模型训练方法和用电信息采集设备故障类型确定方法的电子设备进行详细介绍。
33.如图1所示，是电子设备的方框示意图。电子设备100可以包括存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115、显示单元116。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对电子设备100的结构造成限定。例如，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
34.上述的存储器111、存储控制器112、处理器113、外设接口114、输入输出单元115及显示单元116各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用
于执行存储器中存储的可执行模块。
35.其中，存储器111可以是，但不限于，随机存取存储器（random access memory，简称ram），只读存储器（read only memory，简称rom），可编程只读存储器（programmable read
‑
only memory，简称prom），可擦除只读存储器（erasable programmable read
‑
only memory，简称eprom），电可擦除只读存储器（electric erasable programmable read
‑
only memory，简称eeprom）等。其中，存储器111用于存储程序，所述处理器113在接收到执行指令后，执行所述程序，本技术实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中，或者由处理器113实现。
36.上述的处理器113可能是一种集成电路芯片，具有信号的处理能力。上述的处理器113可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
37.上述的外设接口114将各种输入/输出装置耦合至处理器113以及存储器111。在一些实施例中，外设接口114，处理器113以及存储控制器112可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。
38.上述的输入输出单元115用于提供给用户输入数据。所述输入输出单元115可以是，但不限于，鼠标和键盘等。
39.上述的显示单元116在电子设备100与用户之间提供一个交互界面（例如用户操作界面）给用户参考。在本实施例中，所述显示单元116可以是液晶显示器或触控显示器。液晶显示器或触控显示器可以对处理器执行所述程序的过程进行显示。
40.本实施例中的电子设备100可以用于执行本技术实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述用电信息采集设备故障分类模型训练方法的实现过程。
41.请参阅图2，是本技术实施例提供的用电信息采集设备故障分类模型训练方法的流程图。下面将对图2所示的具体流程进行详细阐述。该用电信息采集设备故障分类模型训练方法的执行主体可以是计算机、云服务器、智能终端或其他能够进行运算处理的电子设备。
42.步骤210，对故障信息样本集进行数据处理，以得到训练集。
43.示例性地，故障信息样本集可以来源于用电信息采集设备故障计量或采集工单的异常信息数据。
44.故障信息样本集中的样本的故障类型可以包括但不限于电能表反向电量异常、电能表运行误差、电压断相、电能表倒走、电能表停走、电能表时钟异常、电能表示值不平、电能表飞走和长期计量装置异常等九种类型的异常类型。该九种异常类型可以作为故障信息样本数据集中的各个样本的标签。可选地，每一个异常类型可以以类别标签值表示。例如，九种异常类型对应的类别标签值可以分别表示为类别0、类别1、类别2、类别3、类别4、类别5、类别6、类别7、类别8。
45.电能表的故障与设备运行环境、运行时长以及设备信息相关。则故障信息样本集中的样本可以包括：台区编号、终端资产号、电能表局编号、运行时长、库存时间、地市公司、终端厂家、终端型号、电能表生产厂家、电能表类型、电能表硬件版本、通讯规约、电能表接线方式等属性特征数据。属性特征数据可以转换为电子设备能够处理的属性特征值。
46.故障信息样本集可以是由人工采集的数据。由于人工采集工单异常信息数据时存在误差及不确定性，导致故障信息样本集中的数据存在数据缺失、数据重复、数据异常等固有缺陷。
47.进一步地，对故障信息样本集进行数据处理，以消除故障信息样本集的固有缺陷产生的误差以及其他不利影响，得到训练前包括类别标签值和属性特征值等故障信息的正常数据集，提高了后续分类学习、训练加权融合模型的精度，从而提高后续根据训练模型进行故障分类预测的准确度与稳定性。
48.步骤220，将所述训练集输入到多个分类器进行训练，获得各个分类器不同故障类型的召回率。
49.示例性地，输入的训练集中每个训练样本可以包含的信息有多个属性特征值，可以表示为：，为第k个属性特征值，其中，为属性特征值的个数。
50.进一步地，输入的训练集中每个训练样本可以包含属性特征值对应的类别标签值，可以表示为：，y
i
表示第i个类别的类别标签值，其中，i为类别标签的个数。可选地，i取值的最大值为9，表示输入的训练集数据最多有9种类别标签的故障信息。那么，输入的训练集数据具体可以表示为：（x1，x2，...，x
k
；y
i
）。
51.具体地，将这些训练集中的训练样本输入到每一个初始分类器中进行训练学习，找到属性特征与标签类别间的映射关系，从而针对每一个初始分类器学习出一个目标分类器。
52.目标分类器可以简单表示为：, 为分类器的个数。当新的有属性特征而无标签类别的故障信息未知数据输入目标分类器时，可以根据该目标分类器对输入的未知数据进行预测，以得到该未知数据的故障类型。
53.召回率，又称查全率，定义为真正样本与所有正样本的比值。召回率可以表示故障信息样本集中的正例有多少被预测正确了，即针对每一个故障类别预测正确的准确率，可以衡量分类器对正例的识别能力。
54.具体地，通过对每一个初始分类器的训练学习，最终可以得到每个目标分类器对每个标签类别的召回率。
55.请参阅图3，是本技术实施例提供的求解召回率的流程图。下面将对图3所示的具体流程进行详细阐述。
56.可选地，通过k折交叉验证法求解召回率，整个流程是把初始输入的训练数据平均分成k等份，每次实验拿一份做测试，其余用做训练，重复实验五次求平均值。
57.具体地，步骤220可以包括步骤221至步骤223。
58.步骤221，根据当前训练集，确定出训练子集和测试子集；首次执行时，当前训练集为训练集；第n次循环时，当前训练集为第n
‑
1次训练所使用的训练子集。该n的取值为小于等于k的正整数。
59.可选地，训练子集和测试子集的比值为：（k
‑
n）：1。
60.在一个实例中，k的取值可以是4、5、6、7、8、9等数值。
61.步骤222，将训练子集输入多个分类器中进行训练，得到训练中间分类器；步骤223，将测试子集输入中间分类器进行测试，以得到目标分类器；重复执行步骤221至步骤223步骤，直到n等于k。
62.步骤224，求分类准确率的平均值，得到召回率。
63.可选地，k的取值为5，通过将处理后的故障信息样本集5次循环划分为不同的训练集和测试集，得到不同的互补子集，进行5次交叉验证，取5次验证分类准确率结果的平均值作为召回率。实现从多个角度去学习故障信息样本集，避免陷入局部的极值，从而提高了交叉验证法求解召回率结果的稳定性。
64.步骤230，根据所述召回率，对所述多个分类器进行加权融合，以得到目标故障分类模型。
65.示例性地，为了找到属性特征值与类别标签间的映射关系，将经过一系列数据处理后的故障信息样本集输入到多个初始分类器进行训练，求取一个从属性特征值输入变量x到离散的类别标签输出变量y之间的目标分类器映射函数f(x)。召回率可以代表分类器针对每一个故障类别的分类准确率，将每一个初始分类器训练得到的召回率作为每一个目标分类器映射函数的权重，加权融合得到基于多个目标分类器建立的目标故障分类模型，根据这个目标故障分类模型进行后续的未知类别标签故障数据的预测分类。
66.请参阅图4，是本技术实施例提供的训练目标故障分类模型的流程图。下面将对图4所示的具体流程进行详细阐述。
67.可选地，步骤230可以包括：步骤231至步骤233。
68.步骤231，将故障信息样本集按比例划分训练集和测试集；具体地，设故障信息样本集总样本数为t，样本标签类别个数为m，分类器个数为n。将故障信息样本集按7:3划分为训练集与测试集。测试集划分过少会使得测试集中故障类别种类不全，降低后续测试集验证模型的性能；测试集划分过多会使得训练集样本数过少，从而降低训练出分类模型的准确率，因此，测试集划分三等份。然后将划分的训练集进行一系列数据处理，消除数据本身的影响，得到新的训练集，该新的训练集样本作为输入的训练集样本。
69.步骤232，将数据处理后的训练集输入到多个分类器进行训练，得到召回率；具体地，基于输入的训练集样本对多个初始分类器进行五折交叉验证，得到各个目标分类器不同类别的召回率r，可以表示为：，为第i类别的样本在第j个分类器上的召回率；同时，经过多次训练，初始分类器中的参数不断调整，最终得到每一个目标分类器的映射函数，可以简单表示为：, 为分类器的个数。
70.步骤233，将测试集输入到多个分类器进行预测分类，基于召回率进行加权融合，以得到目标故障分类模型。
71.具体地，将故障信息样本集划分的三等份测试集对多个已训练出的目标分类器映射函数进行分类预测，得到每个目标分类器分为不同类别标签的概率值。
72.使用目标分类器该类别标签召回率作为权重，目标分类器分类预测为该类别标签
的概率值可以表示为：p
ij
，即第i类别的样本在第j个目标分类器上预测的概率值。
73.将类别标签的召回率与目标分类器分为该类别标签的概率值乘积作为目标分类器输出该类别标签的得分，每一个目标分类器得分进行求和叠加，可以得到加权融合后的目标故障分类模型，如下式表示：
74.其中，为第i类别标签的样本在第j个目标分类器上的召回率，p
ij
为第j个目标分类器把类别分为i类的预测概率值，n表示把类别分为第i类标签的目标分类器个数，l
i
表示目标故障分类模型最终分为类别标签i的最后得分。
75.请参阅图4，步骤210可以包括：步骤211和步骤212。
76.示例性地，故障信息样本集来源于用电信息采集设备故障计量或采集工单的异常信息数据，采集的异常信息数据各类别故障信息的样本数量可以由如下表1表示。
77.表1
78.步骤211，对所述故障信息样本集进行数据预处理，以得到初始训练集。
79.示例性地，表1中的数据为获取的故障信息样本集的原始数据，可以看到数据之间无关联、无规律。基于原始数据的复杂性，在分类器开始训练之前对原始数据可以进行筛选，填充，类别处理等数据预处理操作，防止由于数据本身的缺陷导致分类算法无法直接计算，数据处理后可以提高分类器的训练速度，提高分类模型的精度。
80.可选地，步骤211可以包括：步骤211a、步骤211b和步骤211c。
81.步骤211a，对所述故障信息样本集进行识别，以确定出缺失样本，对所述缺失样本进行处理，以得到初始训练集。
82.示例性地，若原始故障信息数据样本集存在缺失数据，缺失数据会削弱原始数据样本集中属性特征的有效性，给训练的加权融合分类模型最终预测结果造成很大误差。因此，对获取的故障信息样本集进行识别，识别出缺失值，对缺失值处理，消除缺失数据的影响。
83.具体地，步骤211a可以包括：步骤211a1和步骤211a2。
84.步骤211a1，若所述缺失样本的数据类型为离散型，将所述缺失样本从所述故障信
息样本集进行删除处理。
85.由于用电信息采集系统覆盖规模较大，很多电能表的详细信息难以查找。因此，缺失数据属性特征如果为离散性变量，该离散型数据可以为包含电能表生产厂家、终端厂家和终端型号等属性特征的缺失数据样本。
86.可选地，pycharm是一种python ide（integrated development environment：集成开发环境），其带有一整套可以帮助用户在使用python语言开发时提高其效率的工具，比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。
87.进一步地，这些离散型数据样本不宜在训练模型中使用，不便进行填补，直接在pycharm数据库中删除该数据样本。
88.步骤211a2，若所述缺失样本的数据类型为连续型，对所述缺失样本进行填补处理。
89.进一步地，缺失数据属性特征如果为连续性变量，该连续型数据可以为包含电能表运行时长等属性特征的缺失数据样本。可以选择缺失数据邻近批次的样本进行填补，沿用邻近数据的运行时间属性特征。
90.可选地，通过调用pycharm中计算机编程语言数据库中的fillna（）函数实现连续型缺失数据的填补。
91.对于连续型的缺失数据补插最近邻的数据，以补充缺失值；对于离散型的缺失数据，不宜在训练模型中使用，直接删除处理，消除缺失数据的影响，从而可以提高训练效果。步骤211b，或者，对所述故障信息样本集进行标准化处理，得到初始训练集。
92.示例性地，对获取的故障信息样本集中的原始数据按照如下公式进行标准化处理：
93.其中，为第i类类别标签的故障信息样本标准化后的数据，为故障信息样本集中的原始数据，为第i类类别标签的故障信息样本最大值，为第i类类别标签的故障信息样本最小值。
94.通过对原始数据样本进行统一变换把所有数据归一化到均值为0，标准差为1的范围内，如果出现异常点，由于具有一定的数据量，少量的异常点对于平均值的影响并不大，从而提高了后续分类训练的准确性。将不同的属性特征值缩放到相同的数值区间，使得不同指标可以相互比较，有效地消除了不同单位大小的数据对最终分类模型的权重影响。
95.步骤211c：或者，对所述故障信息样本集进行相关性分析，以确定出所述故障信息样本集中的各项样本的相关性，根据所述故障信息样本集中的各项样本的相关性筛选样本，以得到初始训练集。
96.示例性地，在对原始故障信息数据样本进行数据预处理过程中，数据冗余、重复也会降低后续训练学习的效率，降低训练模型的精度。因此，可以在训练之前对原始故障信息样本进行相关性分析，确定样本集中的各项样本的相关性。
97.可选地，根据皮尔逊相关系数进行相关性分析，计算过程如下：
98.其中，为第i个类别标签与第k个属性特征之间的相关系数，为第k个属性特征值，y
i
表示第i个类别类别标签值。
99.可选地，特征之间相关性系数大于0.7的属性判定为冗余属性特征，保留冗余属性特征中的一项即可。然后将特征与故障信息类型的相关系数按绝对值从大到小排序，保留前三分之二相关性强的属性特征值，去除后三分之二相关性弱的属性特征值。
100.剔除与故障类别标签相关性弱的属性特征值和冗余特征值，从而筛选出最利于构建分类模型的数据属性特征，得到待处理的不平衡数据集。
101.步骤212，调整所述初始训练集的不平衡比例，以得到所述训练集。
102.示例性地，表2为采集的故障信息样本集各类别的占比百分比。可以看出故障信息样本种类分布相当不平衡。多数类样本如电能表时钟异常类别的故障占比将近整个故障信息样本集的一半，而少数类样本如长期计量装置故障类别的故障仅占比0.36%。
103.表2
104.步骤212可以包括步骤212a和步骤212b。
105.步骤212a，通过对其中的少数类样本进行smote过采样，可以将少数类样本提升到与多数类相同的数量。过采样的计算过程如下：
106.其中，x为少数类样本的数据，随机选择一个最近邻的样本，然后从x到的连线上随机选取一个样本点作为新的少数类样本数据；对每一个类别标签的故障类型，分别应用smote过采样算法增加少数类样本数量至与类别数量最多的多数类样本相同的数量。
107.步骤212b，然后对smote过采样处理后的数据集全局进行欠采样处理，清除每一个类别标签故障信息数据的噪声。
108.可选地，采用enn欠采样。enn欠采样是通过求取多数类样本的k个近邻样本，如果这些近邻样本全部或大多数与多数类样本类型不一致，则认为该样本为噪声值，剔除该样本。使用enn算法可以在一定程度上降低多数类样本数量，但该方法剔除的数量有限。
109.具体地，采用过采样和欠采样的合采样处理方式消除不平衡，形成故障类别比较
均衡的数据集，然后基于一个经过平衡化处理的数据集构建分类器进行训练，提高少数类故障样本检出率。
110.进一步地，将获取的原始数据进行两次处理，首先进行数据预处理，尽可能降低数据本身的缺陷对后续分类训练的影响。然后将预处理后的数据进行消除不平衡特征的处理，能够得到更稳定可靠的训练数据。
111.请参阅图2，多个分类器为k最近邻分类器、决策树分类器、支持向量机分类器、贝叶斯分类器或随机森林分类器中的一种或多种任意组合。
112.示例性地，训练的分类器是常用的k最近邻分类器、决策树分类器、支持向量机分类器、贝叶斯分类器或随机森林分类器等几种分类器的组合。基于几种常用分类器进行训练，基于召回率进行加权融合后，训练得到最终的目标故障分类模型。
113.可选地，同样将故障信息样本集按7:3划分为训练集与测试集。训练集进行一系列数据处理，包括对训练集进行smote过采样和enn欠采样数据处理，消除不平衡数据。在训练融合模型过程时，选用k最近邻分类器、决策树与随机森林作为三个基分类器，通过召回率进行加权。
114.使用划分的训练集通过上述用电信息采集设备故障分类模型训练方法在上述三个基分类器上进行训练，表3表示了三个基分类器和目标故障分类模型训练得到的不同类别标签故障的召回率，召回率可以表示每个类别的分类准确率。
115.从表3可以看出，不同基分类器在各类别上的分类准确率各有优势。k最近邻分类器在类别7、类别8上效果更好，决策树在类别2和类别5上分类优于k最近邻分类器与随机森林分类器，而随机森林分类器在类别0、类别1和类别3上分类准确率更高。
116.表3
117.可选地，使用k最近邻分类器、决策树与随机森林作为三个基分类器训练融合模型，得到目标故障分类模型。对比目标故障分类模型分类准确率，可以看出，除了在类别0、
类别1和类别7上，分类准确率低于个别基分类模型，其它类别均取得最高的分类准确率，体现了三个不同基分类器的性能，证明了基于召回率加权融合建立分类模型的方法在用电采集系统智能电能表故障分类上的有效性。
118.进一步地，如表4所示，三个基分类器和目标故障分类模型经测试集预测分类准确率、召回率、f分数以及几何平均值等几个性能指标的比较。
119.可以看出，目标故障分类模型在准确率、召回率、f分数和几何平均值上分别提高了1.68%、3.64%、0.85%和2.54%。该目标故障分类模型在用电采集系统智能电能表故障分类与预测上具有良好的性能，可以提高分类的准确率。
120.表4
121.为了配合本技术实施例的用电信息采集设备故障分类模型训练方法，本技术实施例还提供了一种用电信息采集设备故障分类模型训练装置。
122.基于同一申请构思，本技术实施例中还提供了与用电信息采集设备故障分类模型训练方法对应的故障分类模型训练装置，由于本技术实施例中的装置解决问题的原理与前述的用电信息采集设备故障分类模型训练方法实施例相似，因此本实施例中的装置的实施可以参见上述方法的实施例中的描述，重复之处不再赘述。
123.请参阅图5，是本技术实施例提供的用电信息采集设备故障分类模型训练装置的功能模块示意图。本实施例中的用电信息采集设备故障分类模型训练装置中的各个模块用于执行上述方法实施例中的各个步骤。用电信息采集设备故障分类模型训练装置包括处理模块310、训练模块320和融合模块330。
124.其中，处理模块310，用于对上述故障信息样本进行处理，以得到训练集；训练模块320，用于将所述训练集输入到多个分类器进行训练，获得多个分类器不同故障类型的召回率；融合模块330，用于根据所述召回率，对所述多个分类器进行加权融合，以得到目标故障分类模型。
125.一种可能的实施方式中，上述的处理模块310，包括第一处理单元和调整单元：第一处理单元，用于对所述故障信息样本集进行数据预处理，以得到初始训练集；调整单元，用于调整所述初始训练集的不平衡比例，以得到所述训练集。
126.一种可能的实施方式中，上述的第一处理单元，用于：对所述故障信息样本集进行识别，以确定出缺失样本；对所述缺失样本进行处理，以得到初始训练集；或者，对所述故障信息样本集进行标准化处理，得到初始训练集；
或者，对所述故障信息样本集进行相关性分析，以确定出所述故障信息样本集中的相关性，根据所述故障信息样本集中的各项样本的相关性筛选样本，以得到初始训练集。
127.一种可能的实施方式中，上述的第一处理单元，可以用于：对所述故障信息样本集进行识别，以确定出缺失样本；对所述缺失样本进行处理，以得到初始训练集；或者，对所述故障信息样本集进行标准化处理，得到初始训练集；或者，对所述故障信息样本集进行相关性分析，以确定出所述故障信息样本集中的各项样本的相关性，根据所述故障信息样本集中的各项样本的相关性筛选样本，以得到初始训练集。
128.若所述缺失样本的数据类型为离散型，将所述缺失样本从所述故障信息样本集进行删除处理；若所述缺失样本的数据类型为连续型，对所述缺失样本进行填补处理。
129.一种可能的实施方式中，上述的调整单元，可以用于：对所述初始训练集的少数类样本进行过采样处理，获得过采样初始训练集；对所述过采样初始训练集进行欠采样处理，清除所述过采样初始训练集的噪声值，得到消除不平衡数据的所述训练集。
130.一种可能的实施方式中，上述的训练模块320，可以用于：所述多个分类器为k最近邻分类器、决策树分类器、支持向量机分类器、贝叶斯分类器或随机森林分类器中的一种或多种任意组合。
131.一种可能的实施方式中，上述的融合模块330，可以用于：所述多个分类器为k最近邻分类器、决策树分类器、支持向量机分类器、贝叶斯分类器或随机森林分类器中的一种或多种任意组合。
132.请参阅图6，是本技术实施例提供的一种用电信息采集设备故障类型确定方法。下面将对图6所示的具体流程进行详细阐述。
133.步骤410，获取待识别用电故障信息数据；示例性地，待识别用电故障信息数据来源于用电信息采集设备故障计量或采集工单异常信息数据。
134.步骤420，将所述待识别用电故障信息数据，输入到上述用电信息采集设备故障分类模型训练方法确定的目标故障分类模型进行识别，以确定出所述待识别用电故障信息数据的故障类型。
135.示例性地，通过上述用电信息采集设备故障分类模型训练方法学习出一个加权融合分类函数或分类模型，作为目标故障分类模型，该目标故障分类模型可以表示为：
136.可选地，通过求最大值计算，比较每一个类别标签基于目标故障分类模型的得分，分数最高的类别标签即为待识别用电故障信息数据最终的分类结果，可以通过如下表达式表示：
137.其中，为目标故障分类模型第i个类别标签得分的最大值，分类结果为上述9种故障类型之一，即待识别用电故障信息数据的预测类别标签。
138.基于同一申请构思，本技术实施例中还提供了与用电信息采集设备故障类型确定方法对应的用电信息采集设备故障分类装置，由于本技术实施例中的装置解决问题的原理与前述的用电信息采集设备故障类型确定方法实施例相似，因此本实施例中的装置的实施可以参见上述方法的实施例中的描述，重复之处不再赘述。
139.请参阅图7，是本技术实施例提供的用电信息采集设备故障分类装置的功能模块示意图。本实施例中的用电信息采集设备故障分类装置中的各个模块用于执行上述方法实施例中的各个步骤。用电信息采集设备故障分类装置包获取模块510和分类模块520；其中，获取模块510，可以用于获取上述待识别用电故障信息数据；分类模块520，可以用于将上述待识别用电故障信息数据，输入到上述用电信息采集设备故障分类模型训练方法确定的目标故障分类模型进行识别，以确定出上述待识别用电故障信息数据的故障类型。
140.此外，本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的用电信息采集设备故障分类模型训练方法及用电信息采集设备故障类型确定方法的步骤。
141.本技术实施例所提供的用电信息采集设备故障分类模型训练方法及用电信息采集设备故障类型确定方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的用电信息采集设备故障分类模型训练方法及用电信息采集设备故障类型确定方法的步骤，具体可参见上述方法实施例，在此不再赘述。
142.综上所述，本技术实施例提供了一种用电信息采集设备故障分类模型训练方法及装置，所述用电信息采集设备故障分类模型训练方法包括：对故障信息样本集进行数据处理，以得到训练集；将所述训练集输入到多个分类器进行训练，获得多个分类器不同故障类型的召回率；根据所述召回率，对所述多个分类器进行加权融合，以得到目标故障分类模型。所述用电信息采集设备故障类型确定方法包括：获取待识别用电故障信息数据；将所述待识别用电故障信息数据，输入到所述用电信息采集设备故障分类模型训练方法确定的目标故障分类模型进行识别，以确定出所述待识别用电故障信息数据的故障类型。
143.在上述实现过程中，通过获取的故障信息样本数据，进行数据处理，将处理后的数据输入到多个分类器进行训练，将每一个分类器训练得到的召回率作为每一个分类器相同类别的权重，加权融合得到基于多个分类器建立的目标故障分类模型，根据这个目标故障分类模型进行后续的未知类别标签故障数据的预测分类。从而体现出不同单分类器的优势，提高了训练模型有效地分类预测的准确率、稳定性。
144.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每
个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
145.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
146.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read
‑
only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
147.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
148.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种校验导入excel的模板内容的方法和系统与流程

一种用电信息采集设备故障分类模型训练方法及装置与流程

相关文献

最热文献