一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于随机森林的电费分析方法、装置、设备及介质与流程

2021-10-24 11:32:00 来源:中国专利 TAG:分析 电费 差错 介质 装置


1.本发明涉及电力数据差错分析技术领域,尤其涉及一种基于随机森林的电费分析方法、装置、设备及介质。


背景技术:

2.目前电网公司传统电费差错分析方法主要是根据人工经验制定规则,通过规则对电费数据进行电费差错数据的筛查,亦有采用人工智能方法,如人工神经网络、支持向量机等算法进行电费差错分析。然而,依据人工经验制定规则,具有较高的主观因素和不确定性,无法利用已有的电费大数据资源、结合数据特点进行电费差错分析,采用人工智能算法,如人工神经网络算法等在进行电费差错分析时,易陷入局部最小点,难以达到最优结果,在训练神经网络时容易出现过拟合现象,即对训练集过度学习,在测试以及实际使用时效果落差较大,而且,电费数据是极度不平衡样本,即正常样本量和异常样本量差距悬殊,而大部分人工智能算法对此类不平衡样本学习效果较差。


技术实现要素:

3.本发明目的在于,提供一种基于随机森林的电费分析方法、装置、设备及介质,以解决目前的电费差错分析结果精确度不高的问题。
4.为实现上述目的,本发明提供一种基于随机森林的电费分析方法,包括:
5.采用混淆矩阵评估随机森林模型,获取电费差错分析模型,其中,所述随机森林模型根据电力客户用电数据确定;
6.根据预处理待分析电力客户用电数据获取归一化数据,将所述归一化数据输入所述电费差错分析模型进行电费差错分析,获取电费分析结果。
7.优选地,所述根据预处理待分析电力客户用电数据获取归一化数据,具体为:
8.对所述电力客户用电数据进行预处理,包括对数据特征维度的降维、数据缺失值的填补以及数据归一化处理。
9.优选地,所述采用混淆矩阵评估随机森林模型,获取电费差错分析模型,具体为:
10.所述电力客户用电数据分为训练样本和测试样本,其中,采用自助采样法确定训练样本的多个特征子集分别构建决策树模型,根据多个所述决策树模型构建所述随机森林模型,根据预设的条件,采用所述测试样本以及所述混淆矩阵评估所述随机森林模型,获取电费差错分析模型。
11.优选地,所述将所述归一化数据输入所述电费差错分析模型进行电费差错分析,包括:
12.根据所述电费差错分析模型,计算所述归一化数据的查准率和召回率确定评估指标,若所述评估指标达到预设的阈值,则确定电力客户用电数据为正常,否则,确定电力客户用电数据为不正常。
13.本发明还提供一种基于随机森林的电费分析装置,包括:
14.建模模块,用于采用混淆矩阵评估随机森林模型,获取电费差错分析模型,其中,所述随机森林模型根据电力客户用电数据确定;
15.分析模块,用于根据预处理待分析电力客户用电数据获取归一化数据,将所述归一化数据输入所述电费差错分析模型进行电费差错分析,获取电费分析结果。
16.优选地,所述建模模块,还用于:
17.对所述电力客户用电数据进行预处理,包括对数据特征维度的降维、数据缺失值的填补以及数据归一化处理。
18.优选地,所述建模模块,还用于:
19.所述电力客户用电数据分为训练样本和测试样本,其中,采用自助采样法确定训练样本的多个特征子集分别构建决策树模型,根据多个所述决策树模型构建所述随机森林模型,根据预设的条件,采用所述测试样本以及所述混淆矩阵评估所述随机森林模型,获取电费差错分析模型。
20.优选地,所述分析模块,还用于:
21.根据所述电费差错分析模型,计算所述归一化数据的查准率和召回率确定评估指标,若所述评估指标达到预设的阈值,则确定电力客户用电数据为正常,否则,确定电力客户用电数据为不正常。
22.本发明还提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的基于随机森林的电费分析方法。
23.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一实施例所述的基于随机森林的电费分析方法。
24.本发明通过电力客户用电数据构建及训练随机森林模型,并采用混淆矩阵进行评估确定电费差错分析模型,进而获取电费分析结果,提高获取电费差错分析结果的效率及准确度。
附图说明
25.为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
26.图1是本发明某一实施例提供的基于随机森林的电费分析方法的流程示意图;
27.图2是本发明另一实施例提供的基于随机森林的电费分析方法的流程示意图;
28.图3是本发明又一实施例提供的基于随机森林的电费分析装置的结构示意图。
具体实施方式
29.下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
31.应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
32.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
33.术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
34.请参阅图1,本发明提供一种基于随机森林的电费分析方法,包括:
35.s101、采用混淆矩阵评估随机森林模型,获取电费差错分析模型,其中,所述随机森林模型根据电力客户用电数据确定。
36.具体的,从电网公司营销系统中提取相关电力客户用电数据,称为原始数据,原始数据包括客户的用电信息以及该月份用电数据,包括用电类别、计量方式、计量电费以及总电费等。对原始数据进行预处理,包括,对数据特征维度的降维、数据缺失值的填补以及数据归一化处理。
37.对数据特征维度的降维包括,通过删除与电费差错筛查无关的特征,如用户编号、计量点编号等,删除后数据集特征维度由65维降至47维,数据缺失值的填补包括,采用填补固定值的方法进行缺失值填补,固定值为0,数据归一化处理包括,采用均值方差归一化方法对数据集中的特征进行特征归一化,如下:
38.x
scaled
=(x

x
mean
)/x
std

39.其中,x
scaled
表示归一化数据,x表示待归一化的数据,x
mean
表示数据集中的均值,x
std
表示数据集的标准差。
40.请参照图2,将原始数据划分为训练样本和测试样本,通过自助采样法对训练集采样出若干个含有固定数量训练样本的采样集,对每个采样集的特征进行无放回的随机选取,构建特征子集,多个特征子集构建多个决策树模型,决策树分支时选择最优特征,随机森林包括多个决策树模型的分类器,根据多个决策树模型优选特征的结果进行投票得到最终分类结果,决策树得到结果即为决策树为该结果投票,则一半以上决策树投票的结果为随机森林最终的分类结果。
41.采用混淆矩阵评估随机森林分类器在测试集上的性能,对于电费差错用户和非电费差错用户的分类问题,其混淆矩阵如表1。
42.表1混淆矩阵
[0043][0044]
其中,表1中tp表示被随机森林分类器正确分类的电费正常用户,fn表示被错误标记为电费差错用户的电费正常用户,fp表示被错误分类为电费正常用户的电费差错用户,
tn表示被正确分类的电费差错用户。电力客户用电数据中,电费差错与电费正常用户极度不均衡,因此采用如下评估标准:
[0045]
查准率,代表模型预测为正常数据的样本中真正常数据占的比例:
[0046][0047]
召回率,代表模型预测为差错数据的样本中真差错数据占的比例:
[0048][0049]
f1值(f1 score),综合了查准率和召回率的调和平均结果:
[0050][0051]
当评估指标f1达到阈值时,则保存相关参数,则当前训练的随机森林模型为电费差错分析模型。
[0052]
s102根据预处理待分析电力客户用电数据获取归一化数据,将所述归一化数据输入所述电费差错分析模型进行电费差错分析,获取电费分析结果。
[0053]
具体的,对待处理的电力客户用电数据进行预处理,包括步骤s101的预处理过程,对预处理的数据作为电费差错分析模型的输入,计算预处理后的数据的查准率和召回率确定评估指标,若评估指标达到预设的阈值,则电力客户用电数据正常,否则不正常。
[0054]
本发明通过将数据划分为训练样本和测试样本,将训练样本的训练随机模型获取电费差错分析模型,然后通过测试样本进行测试模型的效果,获取最终的电费分析结果,并通过查准率、召回率等多个指标进行评估,提高电费分析的效率及准确度。
[0055]
请参阅图3,本发明提供一种基于随机森林的电费分析装置,包括:
[0056]
建模模块11,用于采用混淆矩阵评估随机森林模型,获取电费差错分析模型,其中,所述随机森林模型根据电力客户用电数据确定。
[0057]
分析模块12,用于根据待分析所述电力客户用电数据获取归一化数据,将所述归一化数据输入所述电费差错分析模型进行电费差错分析,获取电费分析结果。
[0058]
关于基于随机森林的电费分析装置的具体限定可以参见上文中对于的限定,在此不再赘述。上述基于随机森林的电费分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0059]
本发明提供一种计算机终端设备,包括一个或多个处理器和存储器。存储器与所述处理器耦接,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任意一个实施例中的基于随机森林的电费分析方法。
[0060]
处理器用于控制该计算机终端设备的整体操作,以完成上述的基于随机森林的电费分析方法的全部或部分步骤。存储器用于存储各种类型的数据以支持在该计算机终端设备的操作,这些数据例如可以包括用于在该计算机终端设备上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器可以由任何类型的易失性或非易失性存储设
备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read

only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read

only memory,简称eprom),可编程只读存储器(programmable read

only memory,简称prom),只读存储器(read

only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。
[0061]
在一示例性实施例中,计算机终端设备可以被一个或多个应用专用集成电路(application specific 1ntegrated circuit,简称as1c)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的基于随机森林的电费分析方法,并达到如上述方法一致的技术效果。
[0062]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述任意一个实施例中的基于随机森林的电费分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器,上述程序指令可由计算机终端设备的处理器执行以完成上述的基于随机森林的电费分析方法,并达到如上述方法一致的技术效果。
[0063]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜