一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于决策树的电费异常数据分析方法、装置、设备及介质与流程

2021-10-24 11:32:00 来源:中国专利 TAG:分析 数据 电费 介质 装置


1.本发明涉及电力数据分析的技术领域,尤其涉及一种基于决策树的电费异常数据分析方法、装置、设备及介质。


背景技术:

2.目前的电网公司采用的电费异常检测技术包括,计量自动化系统远程在线监测、人工制定的逻辑判断规则等,也有利用人工智能的方法,如利用神经网络进行电费异常数据分析。在当前的技术中计量自动化系统远程在线监测功能经常误报,存在过多的无用信息,造成大量人力物力资源的浪费,以神经网络为模型的电费异常数据分析易出现过拟合现象,即对训练集过度学习,而且超参数较多不易调整,效果不明显,人工制定的逻辑判断规则,是以人工经验等主观因素主导具有较多不确定性,无法合理分析用电用户数据特征,在后期人工复核上必须耗费大量人力。


技术实现要素:

3.本发明目的在于,提供一种基于决策树的电费异常数据分析方法、装置、设备及介质,以解决现有技术分析电费异常产生过拟合现象以及成本偏高的问题。
4.为实现上述目的,本发明提供一种基于决策树的电费异常数据分析方法,包括:
5.根据实验数据确定的分割特征构建多个子集,获取多个所述子集对应的子结点,根据多个所述子结点构造决策树模型,其中,所述实验数据根据电力客户数据确定;
6.分别计算所述决策树模型中所述子集的信息增益比,获取所述子集的判断特征;
7.将待分析的第一电力客户数据输入到所述决策树模型;
8.若所述第一电力客户数据不满足所述判断特征,则确定所述第一电力客户数据为异常用户数据,否则,确定所述第一电力客户数据为正常用户数据。
9.优选地,所述实验数据,包括:
10.对所述电力客户数据进行异常值和缺失值处理,获取处理结果,并对所述处理结果采用数据归一化的方式获取所述实验数据,如下:
[0011][0012][0013]
[0014]
其中,x
i
表示一段时间内的用电量,i表示同等采样时间间隔下的顺序时间序列,x
i
‑1,x
i 1
表示缺失值前数据和缺失值后的数据,nan表示数据未定义或不可表示的值,mean(x)表示一天各个时间段总用电量x的平均值,std(x)表示一天各个时间段总用电量x的标准差,x
i
表示处理结果,z
i
表示实验数据。
[0015]
优选地,所述构造决策树模型,包括:
[0016]
遍历所述实验数据,将所述实验数据划分为训练集和测试集;
[0017]
根据所述训练集的所述分割特征确定多个所述子集,计算多个所述子集的最大信息增益比,获取分类结点,构建决策树模型,根据所述测试集逐级测试所述决策树模型,获取优化后的决策树模型。
[0018]
优选地,所述分别计算所述决策树模型中所述子集的信息增益比,获取所述子集的判断特征,具体包括:
[0019]
根据所述优化后的决策树模型的度量指标以及信息增益计算信息增益比,选取所述子集的最大信息增益比作为所述判断特征。
[0020]
本发明还提供一种基于决策树的电费异常数据分析装置,包括:
[0021]
构造模块,用于根据实验数据确定的分割特征构建多个子集,获取多个所述子集对应的子结点,根据多个所述子结点构造决策树模型,其中,所述实验数据根据电力客户数据确定;
[0022]
获取模块,用于分别计算所述决策树模型中所述子集的信息增益比,获取所述子集的判断特征;
[0023]
输入模块,用于将待分析的第一电力客户数据输入到所述决策树模型;
[0024]
判断模块,用于若所述第一电力客户数据不满足所述判断特征,则确定所述第一电力客户数据为异常用户数据,否则,确定所述第一电力客户数据为正常用户数据。
[0025]
优选地,所述构造模块,还用于:
[0026]
对所述电力客户数据进行异常值和缺失值处理,获取处理结果,并对所述处理结果采用数据归一化的方式获取所述实验数据,如下:
[0027][0028][0029][0030]
其中,x
i
表示一段时间内的用电量,i表示同等采样时间间隔下的顺序时间序列,x
i
‑1,x
i 1
表示缺失值前数据和缺失值后的数据,nan表示数据未定义或不可表示的值,mean(x)表示一天各个时间段总用电量x的平均值,std(x)表示一天各个时间段总用电量x的标准差,x
i
表示处理结果,z
i
表示实验数据。
[0031]
优选地,所述构造模块,还用于:
[0032]
遍历所述实验数据,将所述实验数据划分为训练集和测试集;
[0033]
根据所述训练集的所述分割特征确定多个所述子集,计算多个所述子集的最大信息增益比,获取分类结点,构建决策树模型,根据所述测试集逐级测试所述决策树模型,获取优化后的决策树模型。
[0034]
优选地,所述判断模块,还用于:
[0035]
根据所述优化后的决策树模型的度量指标以及信息增益计算信息增益比,选取所述子集的最大信息增益比作为所述判断特征。
[0036]
本发明还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的基于决策树的电费异常数据分析方法。
[0037]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述任一实施例所述的基于决策树的电费异常数据分析方法。
[0038]
本发明根据电力客户数据获取原始数据,采用插值法和填充法处理原始数据,获取实验数据,遍历实验数据确定的分割特征构建多个子集,获取多个子集对应的子结点,构造决策树模型,计算多个所述子集的信息增益比,获取对应子结点的判断特征,若输入电力客户数据所述特征不满足判断特征,则为异常用户数据,否则为正常用户数据,通过遍历决策树模型,判断是否满足判断特征,提高判断电力数据的精确度以及降低判断的成本,节约资源。
附图说明
[0039]
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1是本发明某一实施例提供的基于决策树的电费异常数据分析方法的流程示意图;
[0041]
图2是本发明另一实施例提供的构建决策树的流程示意图;
[0042]
图3是本发明某一实施例提供的分类模型的决策树示意图;
[0043]
图4是本发明某一实施例提供的基于决策树的电费异常数据分析装置的结构示意图。
具体实施方式
[0044]
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0045]
应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺
序的限定。
[0046]
应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0047]
术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0048]
术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0049]
请参阅图1,本发明提供一种基于决策树的电费异常数据分析方法,包括:
[0050]
s101、根据实验数据确定的分割特征构建多个子集,获取多个所述子集对应的子结点,根据多个所述子结点构造决策树模型,其中,所述实验数据根据电力客户数据确定。
[0051]
具体的,从电网公司营销系统中提取相关电力客户数据,电力客户数据是指用户电费计量点,每月用电量、分时计费方式,是否变损电量异常等,对数据进行预处理,针对数据中重复、缺失问题进行处理,首先针对数据中的重复值进行删除处理,再运用插值法和填充法恢复丢失的数据,如下:
[0052][0053][0054][0055]
其中,x
i
表示一段时间内的用电量,i表示同等采样时间间隔下的顺序时间序列,x
i
‑1,x
i 1
表示缺失值前数据和缺失值后的数据,nan表示数据未定义或不可表示的值,mean(x)表示一天各个时间段总用电量x的平均值,std(x)表示一天各个时间段总用电量x的标准差,x
i
表示处理结果,z
i
表示实验数据。
[0056]
在完成异常值和缺失值的处理后,为使得决策树模型在应用分类时具有更好的泛化能力,对电费数据进行归一化处理,得到实验数据。
[0057]
请参阅图2,导入实验数据,实验数据按照7:3的比例分为训练集和测试集,根据训练集的分割特征确定多个子集,计算多个子集的最大信息增益比,获取分类结点,构建决策树模型,具体的,遍历所有的训练数据集选择一个最优分割特征,按照这一特征将训练集分割成子集,使得每个子集有一个在当前特征条件下最好的分类,即信息增益比最大的作为分类结点,若子集已可被正确分类,构造子结点并将这些子集分到对应子结点,若子集不能被正确分类,再次对这些子集中选择剩余信息增益比最大的最优特征进行分割,构建相应的结点,按照上述方式递归下去,直至所有训练数据子集被正确分类,则生成一个决策树模型。
[0058]
s102、分别计算所述决策树模型中所述子集的信息增益比,获取所述子集的判断特征。
[0059]
具体的,在决策树生成时根据电费数据,设置了多类参数来生成不同的决策树模型,具体参数有限制决策树的深度,限制决策树结点的最小样本数量,在特征属性选择上采用信息增益比的计算比较,根据测试集逐级测试决策树模型,获取电费异常数据分析模型,根据电费异常数据分析模型的度量指标以及信息增益计算信息增益比,选取所述子集的最大信息增益比为所述判断特征,若输入电力客户数据所述特征的信息增益比不满足判断特征,则为异常用户数据,否则为正常用户数据,具体的计算方法如下:
[0060]
计算信息熵的度量指标,设当前样本特征集合i中第k类样本所占比例为p
k
=(k=1,2,

,n),则d的信息熵定义为其中entropy(i)的值越小,则i的纯度越高。
[0061]
计算信息增益,假定特征a有v个可能的取值{a1,a2,...,a
v
},若使用a来对样本集合i进行划分,可以得到v个样本子集{i1,i2,...,i
v
},每个样本子集对应到一个分支结点上,再给每个子结点定义权重于是计算出特征a对i进行划分获得的信息增益为如下:
[0062][0063]
其中,信息增益越大,特征a来划分所获得的纯度提升越大。
[0064]
计算增益比(gain ratio)如下:
[0065][0066]
其中称为特征a的固有值,它随着a取值变多而增大。
[0067]
s103、将待分析的第一电力客户数据输入到所述决策树模型。
[0068]
s104、若所述第一电力客户数据不满足所述判断特征,则确定所述第一电力客户数据为异常用户数据,否则,确定所述第一电力客户数据为正常用户数据。
[0069]
请参与图3,每个x结点都有一个判断条件a, 1代表正常的用户数据,

1代表异常的用户数据。具体的,在决策树生成时根据电费数据,设置了多类参数来生成不同的决策树模型,具体参数有限制决策树的深度,限制决策树结点的最小样本数量,在特征属性选择上采用信息增益比的计算比较,根据测试集逐级测试决策树模型,获取电费异常数据分析模型。
[0070]
利用训练数据构建出多棵不同参数下的决策树模型后,即生成了if

then规则的模型,每一个结点都是一个判断特征条件(例:本月电费计量点是否大于上月),在满足一个结点的一侧条件后进入其下层的结点继续判断特征条件或者得出最终的子结点的两类中的一边对应于是与否,即分别为异常用户与正常用户。
[0071]
最后比较在给定一致的训练集样本下,识别出异常用户最多的决策树即为最终决
策树模型,最后可利用该决策树模型带入数据对每一户数据特征进行自上而下的上述规则判断,直至最终某个子结点判断出该户异常/正常,然后继续带入下一户数据进行判断如此迭代直至全部数据判断为止,结果表明决策树算法是可以做到所有数据全部判断,较精确识别出用电异常用户。
[0072]
本发明通过将数据划分,分别训练与测试模型,获取决策树模型,再遍历决策树的所有结点,获取判断特征,遍历所有数据的全部判断,精确识别出用电异常用户,提高电费异常的识别效率。
[0073]
请参阅图4,本发明提供一种基于决策树的电费异常数据分析装置,包括:
[0074]
构造模块11,用于根据实验数据确定的分割特征构建多个子集,获取多个所述子集对应的子结点,根据多个所述子结点构造决策树模型,其中,所述实验数据根据电力客户数据确定。
[0075]
获取模块12,用于分别计算所述决策树模型中所述子集的信息增益比,获取所述子集的判断特征。
[0076]
输入模块13,用于将待分析的第一电力客户数据输入到所述决策树模型。
[0077]
判断模块14,用于若所述第一电力客户数据不满足所述判断特征,则确定所述第一电力客户数据为异常用户数据,否则,确定所述第一电力客户数据为正常用户数据。
[0078]
关于基于决策树的电费异常数据分析装置的具体限定可以参见上文中对于的限定,在此不再赘述。上述基于决策树的电费异常数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0079]
本发明提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的基于决策树的电费异常数据分析方法。
[0080]
处理器用于控制该计算机终端设备的整体操作,以完成上述的基于决策树的电费异常数据分析方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read

only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read

only memory,简称eprom),可编程只读存储器(programmable read

only memory,简称prom),只读存储器(read

only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。
[0081]
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(application specific 1ntegrated circuit,简称as1c)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元
件实现,用于执行上述的基于决策树的电费异常数据分析方法,并达到如上述方法一致的技术效果。
[0082]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的基于决策树的电费异常数据分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的基于决策树的电费异常数据分析方法,并达到如上述方法一致的技术效果。
[0083]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜