一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户用电安全检测方法、系统、设备及存储介质与流程

2022-11-30 15:36:26 来源:中国专利 TAG:


1.本发明涉及机器学习技术领域,特别是涉及一种用户用电安全检测方法、系统、设备及存储介质。


背景技术:

2.随着科技的进步,各种新技术不断涌现,电气化产品应用得到了极大的普及,各种低压电器已经遍布人们生产生活的各个领域,但由此也带来了一定的用电安全隐患。由于电气线路老化,配置不当等原因造成的电气安全事故有逐年上升的趋势,低压故障电弧是电气火灾的主要诱因之一。低压配电装置中以短路形式出现的低压电弧故障仍然存在,由此造成的损失非常严重,给人们的生命和财产安全带来巨大的隐患。此外,由于漏电引发的瓦斯爆炸事故,造成工作人员的严重伤亡,不仅给家庭造成了很大的痛苦,而且对社会也产生了严重冲击。因此,需要一个适用于低压用户的用电安全感知的方法,从而对低压用户系统中的故障电弧、漏电和短路故障进行实时检测。
3.目前,有一些方法可以基于特征选择及人工智能分类模型,进行低压用户用电安全智能感知。例如基于遗传算法的特征选择算法,基于粒子群算法的特征选择算法,基于演化计算的特征选择算法等等。目前,大多数研究的重点都是放在人工智能分类模型的优化设计方面,当发生电气短路、漏电和故障电弧时,对于采样频率较高的数据采集系统,实时数据的数量之大难以估量,所采用的特征选择算法消耗的计算成本很高,还会影响故障识别的准确率和效率,无法短时间内完成对于大量数据进行准确有效的特征选择的任务。
4.并且,传统的一些特征选择方法,如高维矩阵降维方法,还会改变原有特征项的自然语义,在部分场合中,这将会影响人工智能分类模型运行结果的准确率。此外,目前使用的算法模型在解决复杂非线性函数的全部极值时可能会陷入局部极值的情况,导致模型训练失败。目前的人工智能模型还容易出现过拟合或者泛化能力差的情况。
5.综上所述,如何高效、准确地进行用户用电安全检测,保留特征项的自然语义,避免出现传统的人工智能模型容易出现局部极值、过拟合、泛化能力差的情况,是本领域技术人员急需解决的技术问题。


技术实现要素:

6.本发明的目的是提供一种用户用电安全检测方法、系统、设备及存储介质,以高效、准确地进行用户用电安全检测,保留特征项的自然语义,避免出现传统的人工智能模型容易出现局部极值、过拟合、泛化能力差的情况。
7.为解决上述技术问题,本发明提供如下技术方案:一种用户用电安全检测方法,包括:构造针对输入信息,输出用户用电安全检测结果的初始随机森林模型;分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集;
基于采集的用电信息进行特征提取,并按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本;针对每一种标签,确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤,按照使得所述初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集;基于每一种标签各自对应的最优特征子集,对所述初始训练样本进行特征选取,得到目标训练样本;通过所述目标训练样本对所述初始随机森林模型进行训练,得到训练完毕的目标随机森林模型;检测用户端当前的用电信息并在特征选取后输入至所述目标随机森林模型,得到所述目标随机森林模型输出的用户用电安全检测结果。
8.优选的,所述按照使得所述初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集,包括:针对每一种标签,在将信息增益低于预设阈值的各个特征项进行过滤之后,通过sfs算法遍历特征空间,得到多个特征集合;分别确定出在各个所述特征集合的条件下,所述初始随机森林模型的分类准确率,并将使得所述初始随机森林模型分类准确率最高时所采用的特征集合作为最优特征子集。
9.优选的,在确定出各个特征项各自与该标签之间的信息增益之后,还包括:基于各个特征项的信息熵,对各个特征项各自的信息增益进行惩罚得到信息增益率;相应的,所述将信息增益低于预设阈值的各个特征项进行过滤,包括:将完成惩罚之后的各个信息增益率分别与预设阈值比较,并且将低于所述预设阈值的各个信息增益率各自对应的特征项进行过滤。
10.优选的,构造的所述初始随机森林模型采用有放回的采样,参数random_state设置为固定值,参数oob_score设置为true。
11.优选的,所述进行用户端的用电信息的采集,包括:采集用户端的电流,所述用户端的电压,以及所述用户端的剩余电流。
12.优选的,所述基于采集的用电信息进行特征提取,包括:基于采集的用电信息,针对各个采样时刻点,提取出对应于该采样时刻点的电流波形因子,电流脉冲因子,电流峰值因子,电流裕度因子,电流峭度因子,电流能量指标,电压波形因子,电压脉冲因子,电压峰值因子,电压裕度因子,电压峭度因子,电压能量指标,剩余电流波形因子,剩余电流脉冲因子,剩余电流峰值因子,剩余电流裕度因子,剩余电流峭度因子,剩余电流能量指标。
13.优选的,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流波形因子,电压波形因子以及剩余电流波形因子分别表示为:
,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流脉冲因子,电压脉冲因子以及剩余电流脉冲因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流峰值因子,电压峰值因子以及剩余电流峰值因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流裕度因子,电压裕度因子以及剩余电流裕度因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流峭度因子,电压峭度因子以及剩余电流峭度因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流能量指标,电压能量指标以及剩余电流能量指标分别表示为:,,;其中,为第i采样时刻点的用户端的剩余电流值,为第i采样时刻点的用户端的电流值,为第i采样时刻点的用户端的电压值,为在进行用户端的用电信息的采集时单个工频周期的采样时刻点的数量,为近一个工频周期内的电流峰值,为近一个工频周期内的电压峰值,为近一个工频周期内的剩余电流峰值,为
近一个工频周期内的电流能量最大值,为近一个工频周期内的电压能量最大值,为近一个工频周期内的剩余电流能量最大值。
14.一种用户用电安全检测系统,包括:初始随机森林模型构造模块,用于构造针对输入信息,输出用户用电安全检测结果的初始随机森林模型;用电信息采集模块,用于分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集;特征提取模块,用于基于采集的用电信息进行特征提取,并按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本;最优特征子集选取模块,用于针对每一种标签,确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤,按照使得所述初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集;目标训练样本确定模块,用于基于每一种标签各自对应的最优特征子集,对所述初始训练样本进行特征选取,得到目标训练样本;训练模块,用于通过所述目标训练样本对所述初始随机森林模型进行训练,得到训练完毕的目标随机森林模型;执行模块,用于检测用户端当前的用电信息并在特征选取后输入至所述目标随机森林模型,得到所述目标随机森林模型输出的用户用电安全检测结果。
15.一种用户用电安全检测设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上述所述的用户用电安全检测方法的步骤。
16.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的用户用电安全检测方法的步骤。
17.应用本发明实施例所提供的技术方案,分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集,进而基于采集的用电信息进行特征提取,并按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本,因此,在经过后续的训练得到训练完毕的目标随机森林模型之后,可以检测用户端当前的用电信息并在特征选取后输入至目标随机森林模型,得到目标随机森林模型输出的用户用电安全检测结果,即本技术的方案可以检测出用户用电是正常状态,还是发生了漏电故障、电弧故障、短路故障。
18.并且,本技术的方案中采用的是随机森林模型进行用户用电安全检测,随机森林模型是基于其中的所有决策树的输出,采用少数服从多数的原则作为最终的用户用电感知结果,因此可以大幅降低发生过拟合情况的概率,且增强了泛化能力,不容易陷入局部极值的情况。
19.进一步的,本技术考虑到故障识别检测的准确率高低不仅与模型优劣有关,特征数据的优劣对故障识别的准确率也是至关重要的,合适的特征选择可以提供原始特征数据的语义和信息,即使是简单的分类模型也可以取得良好的分类效果。因此,针对每一种标
签,本技术会确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤,即有效地降低了特征集合当中无关冗余信息的数量,也就有利于提高目标随机森林模型在应用过程中的检测效率。进一步的,还按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集,不仅进一步的降低了特征集合当中无关冗余信息的数量,还有利于保障所选取的最优特征子集具有良好的用户用电安全检测性能,提高检测的准确性。且本技术的方案是进行特征项的筛选,因此不会破坏原有特征项的自然语义。
20.综上所述,本技术的方案可以高效、准确地进行用户用电安全检测,保留了特征项的自然语义,且可以避免出现传统的人工智能模型容易出现局部极值、过拟合、泛化能力差的情况。
附图说明
21.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本发明中一种用户用电安全检测方法的实施流程图;图2a为本发明中bootstrap有放回抽样的原理示意图;图2b为本发明中随机森林模型的多决策树原理示意图;图3为本发明中一种用户用电安全检测系统的结构示意图。
具体实施方式
23.本发明的核心是提供一种用户用电安全检测方法的实施流程图,可以高效、准确地进行用户用电安全检测,保留了特征项的自然语义,且可以避免出现传统的人工智能模型容易出现局部极值、过拟合、泛化能力差的情况。
24.为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.请参考图1,图1为本发明中一种用户用电安全检测方法的实施流程图,该用户用电安全检测方法可以包括以下步骤:步骤s101:构造针对输入信息,输出用户用电安全检测结果的初始随机森林模型。
26.具体的,本技术的方案中,是基于随机森林模型进行用户用电安全检测,本技术将构造出来的还未经过训练的模型称为初始随机森林模型。
27.在一种具体场合中,在构造初始随机森林模型时,可以使用random forest regressor进行模型的构建,先导入相关包再进行参数设置。
28.在构造初始随机森林模型时,具体参数可以根据实际需要进行设定和调整,例如一种具体场合中,可以将n_estimators设置为15,n_estimators参数表示最大的弱学习器(决策树)的个数。一般来说,若n_estimators太小,模型容易欠拟合,n_estimators太大,又
容易过拟合,一般选择一个适中的数值。
29.参数oob_score默认设置为false。但本技术考虑到,由于袋外分数反应了一个模型拟合后的泛化能力,因此可以将该参数设置为true。参数oob_score表示是否采用袋外样本来评估模型的好坏。有放回采样中,大约36.8%的没有被采样到的数据,称之为袋外数据(out of bag),这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。
30.参数criterion可以设置为基尼系数gini。参数criterion表示决策树做划分时对特征的评价标准。
31.参数random_state可以设置为某一固定值,以保证每次运行该算法可生成相同的随机森林模型。random_state是每一个树利用bagging策略中的bootstrap进行抽样(即有放回的袋外随机抽样)时,随机选取样本的随机数种子。
32.参数max_depth可以设置为不输入的默认状态,将该参数设置为不输入时,决策树在建立子树时将不会限制子树的深度。
33.参数max_features可以不进行设置,使用默认值。参数max_features决定每棵树的随机性大小,较小的话可以降低过拟合。如果max_features较大,那么随机森林中的树将会十分相似。如果max_features较小,那么随机森林中的树将会差异很大。为了更好地拟合数据,每棵树的深度都要很大。
34.参数bootstrap可以设置为true的默认状态,即构造的初始随机森林模型采用有放回的采样。参数bootstrap表示是否有放回的采样,能够从数据集中应用袋装法,随机且有放回地抽取子数据集,用于森林中单棵决策树的训练。即保证每棵决策树使用了不同数据集,训练完毕后类似但不相同。
35.可参阅图2a,为bootstrap有放回抽样的原理示意图。采用bootstrap有放回抽样时,可以执行步骤(1)采用重抽样技术从原始样本m中抽取一定数量n的样本,此过程允许重复抽样。(2)根据抽出的样本计算给定的统计量t。(3)重复上述(1)、(2)n次(一般大于1000),得到n个统计量t。(4)计算上述的n个统计量t的样本方差,得到统计量的方差。(5)可以估计总体的均值等其余统计量。
36.步骤s102:分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集。
37.本技术的方案需要进行用户用电安全检测,因此,在进行用户端的用电信息的采集时,需要采集用户端正常用电时的用电信息,以及用户端故障时的用电信息。而考虑到漏电故障,电弧故障,以及短路故障是目前较为常见的故障类型,因此,本技术的方案中,是分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集。
38.漏电故障是指被保护线路的相线直接或通过非预期负载对大地接通,而产生近似正弦波形并且其有效值是缓慢变化的剩余电流,当该电流大于一定数值时,电路中的保护器件可以切断线路,起到漏电保护的作用。故障电弧则是由于线路绝缘老化、破损、空气潮湿引起的空气击穿或者电气连接松动等原因造成的气体游离放电现象。短路故障是指电路或电路中的一部分被短接而发生的故障。
39.在实际应用中,可以通过实验分别模拟用户端漏电故障,电弧故障,短路故障的情况,进而在实验过程中,通过传感装置采集用户端发生相应故障时的用电信息。当然,除了
实验之外,也可以通过现场监测的方式获取用户端发生相应故障时的用电信息。
40.此外,在执行步骤s102时,具体所采集的用电信息项目可以根据实际需要进行设定和调整,可以理解的是,可以选取能够反映出用户端用电故障的用电信息进行采集。
41.例如在本发明的一种具体实施方式中,考虑到用户端的电流,电压以及剩余电流能够有效地反映出用户端是否用电故障,因此,步骤s102中描述的进行用户端的用电信息的采集,可以具体包括:采集用户端的电流,用户端的电压,以及用户端的剩余电流。
42.用户端的电流即入户的总电流,在低压用户的场合中,通常是火线上的电流。此外,在少部分使用的是三相电的场合中,可以任意选择一相进行相电流的检测。相应的,用户端的电压即为入户的总电压,即火线与零线之间的电压。剩余电流,是指低压配电线路中各相(含中性线)电流矢量和不为零的电流。通俗地讲,当用电侧发生了事故时,电流从带电体通过人体流到大地,此时电流的瞬时矢量合成有效值称为剩余电流,俗称漏电。
43.此外,其他场合中,根据实际需要,所采集的用电信息还可以包括其他类型,例如线缆温度等。
44.步骤s103:基于采集的用电信息进行特征提取,并按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本。
45.在步骤s102中采集到的用户端的用电信息是原始采集数据,为了能够有效地对初始随机森林模型进行训练,得到高性能的目标随机森林模型,本技术会基于采集的用电信息进行特征提取。当然,具体的特征提取项目也有多种,可以根据实际情况设定。并且可以理解的是,与选择所采集的用电信息的具体项目同理,在进行特征提取时,可以提取能够有效地反映出用户端用电故障情况的特征。
46.此外需要说明的是,目标随机森林模型输出的用户用电安全检测结果,能够反映出具体的故障类型,因此,在上述步骤s102中进行用户端的用电信息的采集时,需要分别在用户端发生漏电故障,电弧故障,短路故障以及用户端正常用电时进行用电信息的采集,同样的,在基于采集的用电信息进行特征提取之后,也需要按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本。
47.因此,本技术的方案便是有4种标签,分别代表“漏电故障”,“电弧故障”,“短路故障”以及“正常用电”。例如标签000表示“正常用电”,标签100表示“漏电故障”,标签010表示“电弧故障”,标签001表示“短路故障”。可以理解的是,某一个训练样本具体设置的是哪一个标签,取决于提取出该训练样本的用电信息是在什么情况下采集到的。
48.此外,进行用户端的用电信息的采集时,采样频率可以根据需要进行设置,例如一种场合中设置为10khz,工频为50hz,则每个工频周期包括200个采样时刻点,简称为200个采样点。实际应用中,对于用户端发生漏电故障,电弧故障,短路故障以及用户端正常用电时的每一种情况,可以将该情况下的训练样本进行编号,即本技术的第i采样时刻点中的i为正整数。
49.此外需要说明的是,在部分场合中,进行针对第i采样时刻点采集的用电信息进行特征提取时,需要使用到第i时刻点之前的数据,例如后文的实施例中使用的是第i采样时刻点最近的一个工频周期采集的用电信息,因此,实际应用中,在基于采集的用电信息进行特征提取时,可以不是从第1采样时刻点开始便进行特征提取。例如一种场合中,可以从第
二个工频周期开始进行特征提取,即从第n采样时刻点开始进行特征提取。并且可以理解的是,针对4种不同情况下所采集的用电信息,需要分类处理。
50.在本发明的一种具体实施方式中。步骤s103中的基于采集的用电信息进行特征提取,可以具体包括:基于采集的用电信息,针对各个采样时刻点,提取出对应于该采样时刻点的电流波形因子,电流脉冲因子,电流峰值因子,电流裕度因子,电流峭度因子,电流能量指标,电压波形因子,电压脉冲因子,电压峰值因子,电压裕度因子,电压峭度因子,电压能量指标,剩余电流波形因子,剩余电流脉冲因子,剩余电流峰值因子,剩余电流裕度因子,剩余电流峭度因子,剩余电流能量指标。
51.在进行上述的特征提取时,具体计算方式可以根据实际情况进行设定。
52.波形因子又称波形指标,为信号(第i个采样点时刻)的均方根值与绝对均值之比,可反映出实际波形与标准正弦波相比的差异和畸变程度。因此,波形因子的计算公式可以表示为:。其中的为信号的均方根值,为信号的绝对均值。由于本技术的信号具体可以为电流,电压,总电流,即第i个采样点时刻的信号可以具体为用户端的电流,用户端的电压,以及用户端的剩余电流。
53.因此,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流波形因子,电压波形因子以及剩余电流波形因子分别表示为:,,。其中,为第i采样时刻点的用户端的剩余电流值,为第i采样时刻点的用户端的电流值,为第i采样时刻点的用户端的电压值,为在进行用户端的用电信息的采集时单个工频周期的采样时刻点的数量,在上述实施例中每个工频周期包括200个采样时刻点,则为200。
54.脉冲因子又称脉冲指标,为信号峰值与绝对均值(整流平均值)之比,可反映出信号的冲击性质,因此,脉冲因子的计算公式可以表示为:。即为信号峰值,则表示的是在第i采样时刻点之前的一个工频周期内的信号峰值。因此,在本发明的一种具体实施方式中,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流脉冲因子,电压脉冲因子以及剩余电流脉冲因子分别表示为:
,,。其中,为近一个工频周期内的电流峰值,为近一个工频周期内的电压峰值,为近一个工频周期内的剩余电流峰值。
55.峰值因子又称峰值指标,为信号峰值与均方根值之比,可以反映出峰值与整体波形相比的极端程度。当出现冲击信号时,波形峰值将有所增大,该指标随之增大。峰值指标计算公式可以表示为:。
56.因此,在本发明的一种具体实施方式中,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流峰值因子,电压峰值因子以及剩余电流峰值因子分别表示为:,,。
57.裕度因子又称裕度指标,为信号峰值与方根幅值之比,可反映出波形的丰满程度。裕度指标计算公式可以表示为:。
58.因此,在本发明的一种具体实施方式中,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流裕度因子,电压裕度因子以及剩余电流裕度因子分别表示为:,,。
59.峭度因子又称峭度指标,定义为归一化的4阶中心矩,可反映出波形的平缓程度。峭度指标对信号中的冲击成分十分敏感,冲击成分能量越大,其峭度值就会越大,波形越不平缓。峭度指标计算公式可以表示为:。其中的表示的是峭度值。
60.因此,在本发明的一种具体实施方式中,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流峭度因子,电压峭度因子以及剩余电流峭度因子分别表示
为:,,。
61.考虑到发生电弧故障后,部分电能会转换成其他形式能量散出,因此对电流波形进行能量计算,并根据当前周期能量最大值进行无量纲化得到能量指标,来探究能量的变化情况。定义能量指标的计算公式可以表示为:。其中的为能量,为周期能量最大值。
62.因此,在本发明的一种具体实施方式中,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流能量指标,电压能量指标以及剩余电流能量指标分别表示为:,,;其中,为近一个工频周期内的电流能量最大值,为近一个工频周期内的电压能量最大值,为近一个工频周期内的剩余电流能量最大值。
63.步骤s104:针对每一种标签,确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤,按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集。
64.本技术考虑到故障识别检测的准确率高低不仅与模型优劣有关,特征数据的优劣对故障识别的准确率也是至关重要的,合适的特征选择可以提供原始特征数据的语义和信息,即使是简单的分类模型也可以取得良好的分类效果。
65.例如按照上述实施方式进行特征提取之后,得到的每一组初始训练样本可以包括18维的特征,其他场合中,进行更多项的特征提取时,维度还可以更高,也就使得目标随机森林模型后续在使用时,需要实时分析大量数据。对此,本技术通过步骤s104的操作进行特征的筛选,得到最优特征子集,即根据一定的评估准则剔除一些不相关特征而保留一些最有效特征,从而有效减少特征的波动,保留了原始特征数据的自然语义,降低了特征集合当中无关冗余信息的数量,进而使得目标随机森林模型可以高效、准确地进行用户用电安全检测。
66.具体的,本技术是采用filter wrapper的混合模式进行特征选择,选取出最优特征子集。filter过滤法是对某一个特征子集的内在特征进行计算,如对于特征项与类标签的关联度、信息量、样本距离等,以此判断该特征子集是否最大程度表达和区分了数据。wrapper封装法是直接利用目标数据处理任务作为评价系统,即类似黑盒子测试,它并不清楚所选用的子集有何特性,只看基于该子集进行的数据处理效果有多好。因此在评价子集的时候,需要运行所面向的特定数据处理任务的操作,是根据分类结果不断循环改进反馈的过程。
67.采用filter过滤法时,本技术的具体方案是确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤。
68.具体的,如果随机变量x和y分别用和来表示,和为概率密度函数,那么随机变量x的熵h(x)可定义为:。同样的,随机变量y的熵h(y)可定义为:。
69.随机变量x和y的条件熵定义为:。
70.信息增益(ig)是可以用来度量两个变量之间的相关性的信息量,其值越大,变量之间的相关性就越大。信息增益不具有对称性,特征间的相关性可从非线性的角度进行衡量,因此,信息增益和熵、条件熵三者之间的关系为。也就是说,当=0时,说明变量x和变量y不相关。而如果变量x和y的相关性越大,那么ig(x|y)的值就越大。
71.信息增益可以被用于度量某特征对当前系统分类的贡献程度,能助于样本中噪声敏感度的降低。
72.本技术的方案中,需要将信息增益低于预设阈值的各个特征项进行过滤。预设阈值可以根据需要进行设定,例如设定为0时,只有特征项与标签完全不相关时,才会将该特征项过滤。
73.还需要说明的是,本技术对于不同的标签,是分别进行过滤,即不同标签下是各自进行过滤。例如特征a,b,c中,特征a与标签1(例如标签1为电弧故障)的相关性为0,则将标签1中的特征项a过滤,而例如对于其余3个标签而言,特征a与相应标签之间的信息增益都超过了预设阈值,则针对其余3个标签,特征a不会被过滤。也就是说,该例子中,后续在对初始训练样本进行特征选取得到目标训练样本时,是将标签为电弧故障的初始训练样本中的特征a进行删除,其余标签下的特征a并不会删除。
74.进一步的,在本发明的一种具体实施方式中,考虑到信息增益偏向于选择分支较多的特征,由此可能产生过拟合现象。因此,可以对分支较多的特征进行惩罚。
75.即在本发明的一种具体实施方式中,在确定出各个特征项各自与该标签之间的信息增益之后,还可以包括:基于各个特征项的信息熵,对各个特征项各自的信息增益进行惩罚得到信息增益率。
76.,且惩罚后的信息增益与该特征项的信息熵呈负相关;相应的,将信息增益低于预设阈值的各个特征项进行过滤,包括:将完成惩罚之后的各个信息增益率分别与预设阈值比较,并且将低于所述预设阈值的各个信息增益率各自对应的特征项进行过滤。
77.该种实施方式中,会对各个特征项各自的信息增益进行惩罚,并且可以理解的是,特征的分支越多,惩罚程度越高。例如在本发明的一种具体实施方式中,通过
进行信息增益的惩罚,计算出的即为特征项x的信息增益率。
78.其中,表示特征项x与标签y之间的信息增益,表示标签y下对应于特征项x的惩罚因子,也即特征x的取值熵,表示特征项x与标签y之间的信息增益率。
79.可以看出,随机变量x的信息增益率和它的信息增益呈正相关,和它的取值熵即特征的分支呈负相关。所以,如果随机变量x的取值较多,那么x的信息增益率就会减小,这有利于选择偏好的降低。
80.并且可以理解的是,如果没有进行惩罚,则对于计算出的各个信息增益,直接与预设阈值比较即可,而该种实施方式中,需要在计算出信息增益之后按照分支数量的不同进行信息增益的惩罚,因此,是将完成惩罚之后的各个信息增益率分别与预设阈值比较,进而将低于预设阈值的各个信息增益率各自对应的特征项进行过滤。
81.在进行wrapper封装时,本技术是按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集,具体算法可以有多种。
82.例如在本发明的一种具体实施方式中,按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集,可以具体包括:针对每一种标签,在将信息增益低于预设阈值的各个特征项进行过滤之后,通过sfs算法遍历特征空间,得到多个特征集合;分别确定出在各个特征集合的条件下,初始随机森林模型的分类准确率,并将使得初始随机森林模型分类准确率最高时所采用的特征集合作为最优特征子集。
83.该种实施方式中,可以按照filter过滤阶段中计算得到的信息增益,对特征项进行降序排序。并且需要说明的是,如果采用的是前述进行了信息增益惩罚的方案,则此时便可以按照filter过滤阶段中计算得到的信息增益率,对特征项进行降序排序。通过sfs(sequential forward selection,顺序前进法)算法遍历特征空间,可以得到多个特征集合。然后,可以分别确定出在各个特征集合的条件下,初始随机森林模型的分类准确率,例如通过随机森林算法来对各个特征集合进行分类准确率的计算。当选择一个特征集合时,使得分类准确率最高,则该特征集合便作为所需要的最优特征子集。
84.sfs算法是一种从底向上的方法,第一个特征选择单独最优的特征,第二个特征从其余所有特征中选择与第一个特征组合在一起后表现最优的特征,后面的每一个特征都选择与已经入选的特征组合最优的特征。优点是考虑了一定的特征间组合的因素。
85.步骤s105:基于每一种标签各自对应的最优特征子集,对初始训练样本进行特征选取,得到目标训练样本。
86.对于每一种标签,通过步骤s104的filter wrapper的特征选择,都可以得到该标签对应的最优特征子集,从而对初始训练样本进行特征选取,得到目标训练样本。
87.步骤s106:通过目标训练样本对初始随机森林模型进行训练,得到训练完毕的目标随机森林模型。
88.在得到了目标训练样本之后,便可以通过目标训练样本对初始随机森林模型进行训练,得到训练完毕的目标随机森林模型。
89.实际应用中,可以将目标训练样本中的大部分用于训练,小部分用于测试,例如其中的80%的样本数据用于训练,20%的样本数据用于测试。
90.随机森林模型是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。可参阅图2b,为随机森林模型的多决策树原理示意图,在确定出每一种标签各自对应的最优特征子集之后,可以对初始训练样本进行特征选取,得到目标训练样本,拆分为训练集和测试集,然后采用bootstrap方法从训练集中随机抽取多个训练样本子集,对每个子集分别进行决策树建模,综合多棵树的决策结果,通过投票得出最终的用户用电安全检测的模型。即,每个决策树都输出一个故障状态判别结果,遵循“少数服从多数”的原则对所有决策树的识别结果进行统计,从而将结果占比最大的感知状态作为最终结果。
91.步骤s107:检测用户端当前的用电信息并在特征选取后输入至目标随机森林模型,得到目标随机森林模型输出的用户用电安全检测结果。
92.通过训练得到了目标随机森林模型之后,便可以将目标随机森林模型进行使用,即将数据输入至目标随机森林模型,目标随机森林模型便可以输出用户用电安全检测结果,例如输出000表示“正常用电”,输出100表示“漏电故障”,输出010表示“电弧故障”,输出001表示“短路故障”。
93.此外可以理解的是,在执行步骤s107时,检测用户端当前的用电信息,在特征选取后再输入至目标随机森林模型,此处的特征选取,也即按照上述确定出的每一种标签各自对应的最优特征子集,进行特征选取。
94.应用本发明实施例所提供的技术方案,分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集,进而基于采集的用电信息进行特征提取,并按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本,因此,在经过后续的训练得到训练完毕的目标随机森林模型之后,可以检测用户端当前的用电信息并在特征选取后输入至目标随机森林模型,得到目标随机森林模型输出的用户用电安全检测结果,即本技术的方案可以检测出用户用电是正常状态,还是发生了漏电故障、电弧故障、短路故障。
95.并且,本技术的方案中采用的是随机森林模型进行用户用电安全检测,随机森林模型是基于其中的所有决策树的输出,采用少数服从多数的原则作为最终的用户用电感知结果,因此可以大幅降低发生过拟合情况的概率,且增强了泛化能力,不容易陷入局部极值的情况。
96.进一步的,本技术考虑到故障识别检测的准确率高低不仅与模型优劣有关,特征数据的优劣对故障识别的准确率也是至关重要的,合适的特征选择可以提供原始特征数据的语义和信息,即使是简单的分类模型也可以取得良好的分类效果。因此,针对每一种标签,本技术会确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤,即有效地降低了特征集合当中无关冗余信息的数量,也就有利于提高目标随机森林模型在应用过程中的检测效率。进一步的,还按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集,不仅进一步的降低了特征集合当中无关冗余信息的数量,还有利于保障所选取的最优特征子集具有良好的用户用电安全检测性能,提高检测的准确性。且本技术的方案是进行
特征项的筛选,因此不会破坏原有特征项的自然语义。
97.综上所述,本技术的方案可以高效、准确地进行用户用电安全检测,保留了特征项的自然语义,且可以避免出现传统的人工智能模型容易出现局部极值、过拟合、泛化能力差的情况。
98.相应于上面的方法实施例,本发明实施例还提供了一种用户用电安全检测系统,可与上文相互对应参照。
99.参见图3所示,为本发明中一种用户用电安全检测系统的结构示意图,包括:初始随机森林模型构造模块301,用于构造针对输入信息,输出用户用电安全检测结果的初始随机森林模型;用电信息采集模块302,用于分别在用户端发生漏电故障时,用户端发生电弧故障时,用户端发生短路故障时,以及用户端正常用电时,进行用户端的用电信息的采集;特征提取模块303,用于基于采集的用电信息进行特征提取,并按照采集用电信息时的用户端状态设置相应的标签,得到初始训练样本;最优特征子集选取模块304,用于针对每一种标签,确定出特征提取后的各个特征项各自与该标签之间的信息增益,并且将信息增益低于预设阈值的各个特征项进行过滤,按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集;目标训练样本确定模块305,用于基于每一种标签各自对应的最优特征子集,对初始训练样本进行特征选取,得到目标训练样本;训练模块306,用于通过目标训练样本对初始随机森林模型进行训练,得到训练完毕的目标随机森林模型;执行模块307,用于检测用户端当前的用电信息并在特征选取后输入至目标随机森林模型,得到目标随机森林模型输出的用户用电安全检测结果。
100.在本发明的一种具体实施方式中,按照使得初始随机森林模型分类准确率最大的原则,从过滤后剩余的特征项中选取出最优特征子集,包括:针对每一种标签,在将信息增益低于预设阈值的各个特征项进行过滤之后,通过sfs算法遍历特征空间,得到多个特征集合;分别确定出在各个特征集合的条件下,初始随机森林模型的分类准确率,并将使得初始随机森林模型分类准确率最高时所采用的特征集合作为最优特征子集。
101.在本发明的一种具体实施方式中,最优特征子集选取模块304在确定出各个特征项各自与该标签之间的信息增益之后,还用于:基于各个特征项的信息熵,对各个特征项各自的信息增益进行惩罚得到信息增益率;相应的,将信息增益低于预设阈值的各个特征项进行过滤,包括:将完成惩罚之后的各个信息增益率分别与预设阈值比较,并且将低于所述预设阈值的各个信息增益率各自对应的特征项进行过滤。
102.在本发明的一种具体实施方式中,构造的所述初始随机森林模型采用有放回的采样,参数random_state设置为固定值,参数oob_score设置为true。
103.在本发明的一种具体实施方式中,进行用户端的用电信息的采集,包括:
采集用户端的电流,用户端的电压,以及用户端的剩余电流。
104.在本发明的一种具体实施方式中,基于采集的用电信息进行特征提取,包括:基于采集的用电信息,针对各个采样时刻点,提取出对应于该采样时刻点的电流波形因子,电流脉冲因子,电流峰值因子,电流裕度因子,电流峭度因子,电流能量指标,电压波形因子,电压脉冲因子,电压峰值因子,电压裕度因子,电压峭度因子,电压能量指标,剩余电流波形因子,剩余电流脉冲因子,剩余电流峰值因子,剩余电流裕度因子,剩余电流峭度因子,剩余电流能量指标。
105.在本发明的一种具体实施方式中,针对第i采样时刻点,提取出的对应于第i采样时刻点的电流波形因子,电压波形因子以及剩余电流波形因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流脉冲因子,电压脉冲因子以及剩余电流脉冲因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流峰值因子,电压峰值因子以及剩余电流峰值因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流裕度因子,电压裕度因子以及剩余电流裕度因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流峭度因子,电压峭度因子以及剩余电流峭度因子分别表示为:,,;针对第i采样时刻点,提取出的对应于第i采样时刻点的电流能量指标,电压能
量指标以及剩余电流能量指标分别表示为:,,;其中,为第i采样时刻点的用户端的剩余电流值,为第i采样时刻点的用户端的电流值,为第i采样时刻点的用户端的电压值,为在进行用户端的用电信息的采集时单个工频周期的采样时刻点的数量,为近一个工频周期内的电流峰值,为近一个工频周期内的电压峰值,为近一个工频周期内的剩余电流峰值,为近一个工频周期内的电流能量最大值,为近一个工频周期内的电压能量最大值,为近一个工频周期内的剩余电流能量最大值。
106.相应于上面的方法和系统实施例,本发明实施例还提供了一种用户用电安全检测设备以及一种计算机可读存储介质,可与上文相互对应参照。
107.该用户用电安全检测设备可以包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序以实现如上述任一实施例中的用户用电安全检测方法的步骤。
108.该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例中的用户用电安全检测方法的步骤。这里所说的计算机可读存储介质包括随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
109.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
110.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
111.本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献