一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种异常用电用户识别方法与流程

2022-07-02 12:50:13 来源:中国专利 TAG:


1.本发明涉及电网控制技术领域,尤其是涉及一种异常用电用户识别方法。


背景技术:

2.目前,大多数供电公司要求台区线损率在10%以内,在国网日益严格的线损管理要求下,异损排查和降损治理已成为各基层单位的长效工作,既要处理长期异常台区,又要对线损进行实时管控,处理波动的异常台区。由于受人员、设备、窃电等因素的影响,导致用电出现异常,从而使得台区线损率较高,需要进行排查和消缺,但目前缺乏有效的作业手段,基层线损排查工作仍以人工对比分析和现场排查为主,凭经验来确定电能计量异常用户,这些传统的方法时效性差、准确率低。


技术实现要素:

3.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种异常用电用户识别方法,效率高,节省人力物力成本,准确定位线损异常原因。
4.本发明的目的可以通过以下技术方案来实现:
5.一种异常用电用户识别方法,包括以下步骤:
6.构建用户特征数据集,所述的用户特征数据集分为长周期特征数据和中短期特征数据;
7.分别对长周期特征数据和中短期特征数据依次进行分箱操作、woe编码以及变量筛选,对应获得长周期筛选特征集和中短期筛选特征集;
8.将长周期筛选特征集输入长期异常用电模型,获得第一输出结果,将中短期筛选特征集输入短期异常用电模型,获得第二输出结果;
9.将第一输出结果和第二输出结果输入评分模型,获得用户异常评分;
10.根据用户异常评分排序输出异常用电用户。
11.进一步地,所述的长周期特征数据包括第一历史时间区间内的用户特征数据,所述的长周期特征数据包括第一历史时间区间内的用户特征数据,所述的中短期特征数据包括第二历史时间区间内的用户特征数据,所述的第一历史时间区间包含第二历史时间区间。
12.进一步地,所述的用户特征数据包括计数型数据、数值型数据、比值型数据和档案信息;
13.所述的计数型数据包括数据采集成功次数;
14.所述的数值型数据包括用户和台区的电量数据;
15.所述的比值型数据包括某用户电量占台区电量的比值;
16.所述的档案信息包括用户行业属性和表计类型。
17.进一步地,所述的分箱操作满足如下条件:
18.箱的个数不超过设定值;
19.每个箱内占比不低于设定占比;
20.每个箱中同时存在好样本和坏样本;
21.每个箱的woe以及该箱的坏样本率单调递减。
22.进一步地,所述的分箱操作根据最优ks标准选择切分点,所述的ks的表达式为:
[0023][0024]
其中,badk和goodk分别为分数累积到第k个分位点的坏样本个数和好样本个数。
[0025]
进一步地,所述的woe编码的计算公式为:
[0026][0027]
其中,woei为第i个分箱的woe编码,good
total
为整体好样本的数量,bad
total
为整体坏样本的数量,goodi为第i个分箱中好样本的数量,badi为第i个分箱中坏样本的数量。
[0028]
进一步地,所述的变量筛选的具体过程包括以下步骤:
[0029]
通过缺失度检验和iv值检验对编码后的变量进行第一次筛选;
[0030]
通过两两相关性检验对第一次筛选后的变量进行第二次筛选。
[0031]
进一步地,所述的第一次筛选的具体过程包括:
[0032]
保留满足以下条件的变量:
[0033]
数据的缺失度不高于90%且iv值不低于0.1。
[0034]
进一步地,所述的第二次筛选的具体过程包括:
[0035]
计算出每一对变量的pearson线性相关系数,对于pearson线性相关系数的绝对值超过0.8的一对变量,保留iv值较高的变量。
[0036]
进一步地,所述的评分模型的表达式为:
[0037][0038]
其中,xi为变量,ai为xi的系数,b为截距,y为用户异常评分;
[0039]
其中,ai满足以下条件:
[0040]
在0.05的置信度下显著;
[0041]
符号为负。
[0042]
与现有技术相比,本发明具有以如下有益效果:
[0043]
本发明异常用电用户识别方法基于多源数据的智能诊断算法为基础,通过数据挖掘算法、人工智能算法的运用,结合电气理论,对海量数据进行深度分析,形成多异常维度的分析算法,实现线损异常智能诊断工具化,有效解决人工排查效率较低、线损异常原因定位难的问题,有效降低线损异常处理的人力物力成本,减轻基层人员的工作量,间接增长了经济效益。
附图说明
[0044]
图1为本发明的方法流程示意图;
[0045]
图2为ks示意图;
[0046]
图3为短期异常用电特征的单变量分析结果示例图;
[0047]
图4为长期异常用电模型特征的单变量分析结果示例图;
[0048]
图5为实施例的性能检测结果示意图。
具体实施方式
[0049]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0050]
一种异常用电用户识别方法,如图1,包括以下步骤:
[0051]
s1、构建用户特征数据集,所述的用户特征数据集分为长周期特征数据和中短期特征数据;
[0052]
s2、对特征数据集进行分箱操作;
[0053]
s3、对特征数据集进行woe编码;
[0054]
s4、通过变量分析对特征数据集中的变量进行筛选;
[0055]
s5、将长周期特征数据输入长期异常用电模型,获得第一输出结果,将中短期特征数据输入短期异常用电模型,获得第二输出结果;
[0056]
s6、将第一输出结果和第二输出结果输入评分模型,获得用户异常评分;
[0057]
s7、根据用户异常评分排序输出异常用电用户。
[0058]
步骤s1完成特征构建:
[0059]
分别针对样本数据进行特征工程构建,根据选定的分析日期对电量、线损、用户档案等数据进行特征构建。考虑到特征的属性,可将特征分为以下集中类型:
[0060]
计数型:某事件的次数,如采集成功次数等;
[0061]
数值型:某用户和台区的电量数据,包括日/尖/峰/谷电量等;
[0062]
比值型:某用户电量占台区电量的比值、尖/峰/谷时刻电量占日电量比值等;
[0063]
静态信息:用户行业属性、表计类型等档案信息。
[0064]
除了静态信息外,考虑了上述类型在不同时间异常用电的衍生,包括过去7天、14天、28天、56天和84天的数据累加情况以及前后数据平均值变化情况。
[0065]
短期异常用电模型主要构建日内以及28天以内的特征,包括日内96个数据点的负荷变化、电量变化、线损变化以及相应的比值变化规律,以及7天、14天、28天的变化规律。长期异常用电模型主要构建84天以内的数据变化规律,包括7天、14天、28天、56天、84天等。
[0066]
步骤s2完成特征分箱:
[0067]
完成指标计算后,对连续型变量进行分箱操作,部分类别型变量进行onehot编码。例如,类别型变量“行业类别”有几十种不同的取值,连续性变量“正向有功总/日用电量”从0到数千都有分布,不进行分箱操作会使得变量的表现不稳定。分箱操作需满足如下条件:
[0068]
(1)箱的个数不宜过多,通常认为不超过6个类;
[0069]
(2)每个箱内占比不低于5%;
[0070]
(3)每箱中必须同时存在好坏样本;
[0071]
(4)每箱的woe和该箱的坏样本率(坏样本个数/所有样本个数)单调递减。
[0072]
分箱操作按照最优ks标准来选择切分点,即在所有满足上述条件的方案下,选取ks值最高的方案来进行分箱。在分箱步骤中,如果原始变量是有序的(例如年龄),需要按顺序合并相邻的两个组别;如果原始变量是无序的(例如归属地),需要按照某种参照物先进行排序,再进行相邻组别的合并。在本次建模中,我们按照坏样本率对无序变量进行排序。
[0073]
ks概念:把样本按分数由低到高排序,x轴是总样本累积比例,y轴是累积bad/good样本分别占总的bad/good样本的比例,两条曲线在y轴方向上的相差最大值即ks,ks越大说明模型的区分能力越好,ks的表达式为:
[0074][0075]
其中,badk和goodk分别为分数累积到第k个分位点的坏样本个数和好样本个数,如图2所示,实际计算中可以每一分作为一个分位点求出最大的ks。
[0076]
步骤s3对特征数据集进行woe编码:
[0077]
对分箱后的变量进行woe编码,woe编码能够反映各变量对正负样本的区分贡献,并且实现数据标准化的功能,同时可以降低对异常值的敏感程度。woe编码之前需要先进行分箱操作。第i个分箱的woe编码计算公式如下:
[0078][0079]
其中,woei为第i个分箱的woe编码,good
total
为整体好样本的数量,bad
total
为整体坏样本的数量,goodi为第i个分箱中好样本的数量,badi为第i个分箱中坏样本的数量。
[0080]
步骤s4通过变量分析对特征数据集中的变量进行筛选,步骤s4的具体过程包括以下子步骤:
[0081]
s401、通过缺失度检验和iv值检验对编码后的变量进行第一次筛选;
[0082]
s402、通过两两相关性检验对第一次筛选后的变量进行第二次筛选。
[0083]
子步骤s401对编码后的变量进行单变量分析。由于数据质量普遍不高,要求数据的缺失度不高于90%且iv不低于0.1。
[0084]
由于候选变量多达上千个,限于篇幅限制,不列出每个变量的单变量分析结果,仅列出入模变量的分析,展示部分变量的分箱结果、woe编码、iv值、每箱的坏样本率等信息,短期异常用电特征的单变量分析结果示例图如图3所示,主要集中在28天内的变量特征,包括7、14、28天的电量变化率、线损变化率、线损电量与电量变化比例等特征,长期异常用电模型特征的单变量分析结果示例图如图4所示,主要集中在较长期的特征变化,包括56、84天的特征变化。
[0085]
子步骤s402对第一次筛选后的变量进行多变量分析,先后进行两两相关性检验和共线性检验,相关性检验的阈值是0.8,共线性检验中的线性膨胀因子(vif)不得超过10。对于存在强线性相关性的一对变量,保留iv较高的一方,剔除iv较低的一方。对于vif较高的一组变量,逐个检验来找出共线性的原因。
[0086]
变量两两间的线性相关性是(广义)线性回归中需要重点对待的问题。从业务角度讲,两个变量存在高线性相关性意味着它们包含的信息程度是高度近似的,此时二者并存将导致信息资源的重复,提高了模型使用和维护的成本。从数学的原理上来讲,高线性相关性可能会导致样本矩阵的奇异性从而引发一定的不稳定性。因此本实施例要求任意两个变量(woe编码后)的pearson线性相关系数的绝对值不超过0.8,如果系数绝对值超过0.8,则保留iv较高的变量,剔除iv较低的变量。iv的计算公式如下所示。
[0087][0088]
其中,gk和bk分别是woe编码后每个分组的好坏样本数,限于篇幅,不列出所有变量两两间的线性相关系数,仅列出入模变量的线性相关系数。
[0089]
完成上述的woe编码和变量筛选后,我们在训练集中用剩下的变量对逾期指标建立模型。考虑到样本数量较少,复杂逻辑的应用极易导致模型过拟合,因此评分模型采用逻辑回归模型(lr模型),评分模型的计算公式如下所示:
[0090][0091]
其中,xi为变量,ai为xi的系数,b为截距,y为用户异常评分;
[0092]
由woe的计算公式可以得出,高异常用电率会导致低woe,所以在模型正确的情况下,woe编码后的变量应与异常用电指标呈负相关关系,因此回归结果中的系数应该为负值。因而要求所有变量的系数满足以下条件:
[0093]
(1)在0.05的置信度下显著;
[0094]
(2)符号为负。
[0095]
对于统计显著但是符号为正的变量,不妨设为x,通常认为由2种原因造成:
[0096]
(1)x变量对异常用电的预测能力不强;
[0097]
(2)某些其他变量与x变量存在(多重)共线性。
[0098]
对于原因(1),我们单独用x变量对异常用电标签建立逻辑回归,如果系数不显著则原因(1)是成立的,如果系数显著,则检验原因(2),从其余变量中逐一选择一个变量与x变量组合,对异常用电标签建立逻辑回归,当发现加入某一变量后x变量的系数的符号由负转为正时,会剔除iv较低的一个变量。
[0099]
分别基于对应的样本构造长期异常用电模型和短期异常用电模型,再以长期模型和短期模型的输出作为评分模型的输入,最终输出每个用户的异常评分,根据异常评分的排序输出异常用户。
[0100]
本实施例提出的异常用电用户识别方法的性能检验:
[0101]
如图5所示,以长期异常用电模型为例,如果把0.5分以上定为异常用电,0.5分以下定为非异常用电,6万4千多用户里,有3800个用户被定义为1,其中真正的异常用电用户2196个,命中率是58%;同理如果把0.8以上定义为异常用电,0.8以下定义为非异常用电,那么2160个用户定义为异常用电,其中命中率为77%。
[0102]
本实施例提出的异常用电用户识别方法,基于多源数据的智能诊断算法为基础,通过数据挖掘算法、人工智能算法的运用,结合电气理论,对海量数据进行深度分析,形成多异常维度的分析算法,实现线损异常智能诊断工具化,有效解决人工排查效率较低、线损
异常原因定位难的问题,有效降低线损异常处理的人力物力成本,减轻基层人员的工作量,间接增长了公司经济效益,400v综合线损率降低近2%,每年减少损失电量约576万千瓦时。
[0103]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献