一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电力用户行为画像方法、系统及装置与流程

2022-06-11 09:22:41 来源:中国专利 TAG:


1.本发明涉及电力行业客户管理技术领域,尤其涉及一种电力用户行为画像方法、系统及装置。


背景技术:

2.用户画像作为一种快速、精准再现消费者全貌的数据分析与服务设计工具,不仅能够反映消费者的消费行为模式、消费习惯等特征,而且为挖掘消费者需求与价值、促进企业精准营销、实施企业市场细化、提升用户体验提供了新思路。近年来,随着大数据技术的迅猛发展,不少电力企业基于用户画像,建立与大数据相关的营销体系,以进行精准营销和信息推荐。
3.聚类算法能够以无监督方式从海量数据中形成若干数据集合,包括基于划分的聚类、基于层次的聚类、基于密度的聚类、基于模糊的聚类以及高斯混合模型聚类。由于每个算法有其特有的优化准则,仅适用于特定的数据结构以及簇的形状,聚类效率、精度及鲁棒性往往难以兼顾。
4.现有技术中,通常基于层次聚类、密度聚类、模糊c均值聚类等聚类算法对电力用户负荷数据进行聚类,以用于进行关于电力用户用电行为的画像。电力负荷数据往往具有高维特征、数据量大的特点,上述的聚类算法虽然具有较好的算法成熟度,但存在初始聚类中心难以确定、聚类精度和效率一般的缺陷。


技术实现要素:

5.本发明提供了一种电力用户行为画像方法、系统及装置,解决了现有用于电力用户画像的聚类算法难以确定初始聚类中心、聚类精度和效率一般的技术问题。
6.本发明第一方面提供一种电力用户行为画像方法,包括:
7.获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
8.采用canopy-k-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
9.确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
10.根据本发明第一方面的一种能够实现的方式,所述采用canopy-k-means算法对所述样本集进行聚类,包括:
11.通过canopy算法对所述样本集进行预聚类,得到多个canopy子集以及各canopy子集的质心;
12.以各canopy子集的质心作为初始聚类中心,采用k-means算法对所述样本集进行聚类。
13.根据本发明第一方面的一种能够实现的方式,所述通过canopy算法对所述样本集进行预聚类,包括:
14.根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值t1、t2,且t1》t2;
15.从所述样本列表中随机选择一个样本点,作为第一个canopy质心,并为所述第一个canopy质心生成一个canopy子集,记为s0;
16.从样本列表剩余的样本点中再随机选择一个样本点,记为q,设其到所述第一个canopy质心的距离为d,若d≤t1,则视q为弱标记样本点并放入s0,若d≤t2,则视q为强标记样本点并放入s0,若d》t1,则以q生成新的canopy子集,将q从样本列表中删除;其中,每个canopy子集中所有强标记样本点的中心位置即为对应的质心;
17.重复第三步直到所述样本列表中元素个数为零,输出得到的canopy子集及其质心。
18.根据本发明第一方面的一种能够实现的方式,所述计算每种聚类方案的聚类有效性指标,包括:
19.按照下式计算第一聚类有效性指标:
[0020][0021]
式中,t
qd
为第一聚类有效性指标,t
qd
(i)为聚类中第i个类内数据对象到聚类中心的距离,n为聚类中类内数据对象的数量;
[0022]
按照下式计算第二聚类有效性指标:
[0023][0024]
式中,t
pd
为第二聚类有效性指标,q
ij
为qi与qj的聚类中心之间的距离,qi为第i类对象集合,qj为第j类对象集合,di为qi中数据对象到其聚类中心的平均距离,dj为qj中数据对象到其聚类中心的平均距离,k为聚类数;
[0025]
按照下式计算第三聚类有效性指标:
[0026][0027]
其中
[0028][0029]
式中,t
yd
为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δ
ij
为布尔值。
[0030]
根据本发明第一方面的一种能够实现的方式,所述确定用户用电行为的最优特征集,包括:
[0031]
构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
[0032]
根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
[0033]
根据本发明第一方面的一种能够实现的方式,所述根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像,包括:
[0034]
采用打分制的方法来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
[0035]
本发明第二方面提供一种电力用户行为画像系统,包括:
[0036]
样本集形成模块,用于获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
[0037]
聚类模块,用于采用canopy-k-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
[0038]
画像生成模块,用于确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
[0039]
根据本发明第二方面的一种能够实现的方式,所述聚类模块包括用于采用canopy-k-means算法对所述样本集进行聚类的聚类子模块,所述聚类子模块包括:
[0040]
预聚类单元,用于通过canopy算法对所述样本集进行预聚类,得到多个canopy子集以及各canopy子集的质心;
[0041]
再聚类单元,用于以各canopy子集的质心作为初始聚类中心,采用k-means算法对所述样本集进行聚类。
[0042]
根据本发明第二方面的一种能够实现的方式,所述预聚类单元具体用于:
[0043]
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值t1、t2,且t1》t2;
[0044]
从所述样本列表中随机选择一个样本点,作为第一个canopy质心,并为所述第一个canopy质心生成一个canopy子集,记为s0;
[0045]
从样本列表剩余的样本点中再随机选择一个样本点,记为q,设其到所述第一个canopy质心的距离为d,若d≤t1,则视q为弱标记样本点并放入s0,若d≤t2,则视q为强标记样本点并放入s0,若d》t1,则以q生成新的canopy子集,将q从样本列表中删除;其中,每个canopy子集中所有强标记样本点的中心位置即为对应的质心;
[0046]
重复第三步直到所述样本列表中元素个数为零,输出得到的canopy子集及其质
心。
[0047]
根据本发明第二方面的一种能够实现的方式,所述聚类模块包括用于计算每种聚类方案的聚类有效性指标的计算子模块,所述计算子模块包括:
[0048]
第一计算单元,用于按照下式计算第一聚类有效性指标:
[0049][0050]
式中,t
qd
为第一聚类有效性指标,t
qd
(i)为聚类中第i个类内数据对象到聚类中心的距离,n为聚类中类内数据对象的数量;
[0051]
第二计算单元,用于按照下式计算第二聚类有效性指标:
[0052][0053]
式中,t
pd
为第二聚类有效性指标,q
ij
为qi与qj的聚类中心之间的距离,qi为第i类对象集合,qj为第j类对象集合,di为qi中数据对象到其聚类中心的平均距离,dj为qj中数据对象到其聚类中心的平均距离,k为聚类数;
[0054]
第三计算单元,用于按照下式计算第三聚类有效性指标:
[0055][0056]
其中,
[0057][0058]
式中,t
yd
为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δ
ij
为布尔值。
[0059]
根据本发明第二方面的一种能够实现的方式,所述画像生成模块包括用于确定用户用电行为的最优特征集的特征确定子模块,所述特征确定子模块包括:
[0060]
构建单元,用于构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
[0061]
特征筛选单元,用于根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
[0062]
根据本发明第二方面的一种能够实现的方式,所述画像生成模块包括用于根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像的生成子模块,所述生成子模块具体用于:
[0063]
采用打分制的系统来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
[0064]
本发明第三方面提供了一种电力用户行为画像装置,包括:
[0065]
存储器,用于存储指令;其中,所述指令用于实现如上任意一项能够实现的方式所述的电力用户行为画像方法;
[0066]
处理器,用于执行所述存储器中的指令。
[0067]
本发明第四方面一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项能够实现的方式所述的电力用户行为画像方法。
[0068]
从以上技术方案可以看出,本发明具有以下优点:
[0069]
本发明对电力用户负荷数据进行修正及归一化处理,以处理后的数据作为样本集,采用canopy-k-means算法对其进行聚类,并计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,以所述最优聚类数对应的聚类划分结果为目标聚类划分结果,进而确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像;本发明采用canopy-k-means算法对样本集进行聚类,可以提高聚类算法的整体效率,并解决初始聚类中心难以确定的问题,且通过各聚类有效性指标的值确定最优聚类数,能够有效提高聚类精度。
附图说明
[0070]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0071]
图1为本发明一个可选实施例提供的一种电力用户行为画像方法的流程图;
[0072]
图2为本发明一个可选实施例提供的一种电力用户行为画像系统的原理框图。
[0073]
附图标记:
[0074]
1-样本集形成模块;2-聚类模块;3-画像生成模块。
具体实施方式
[0075]
本发明实施例提供了一种电力用户行为画像方法、系统及装置,用于解决现有用于电力用户画像的聚类算法难以确定初始聚类中心、聚类精度和效率一般的技术问题。
[0076]
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0077]
本发明提供了一种电力用户行为画像方法。
[0078]
请参阅图1,图1示出了本发明实施例提供的一种电力用户行为画像方法的流程图。
[0079]
本发明实施例提供的一种电力用户行为画像方法,包括:
[0080]
步骤s1,获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处
理,形成样本集。
[0081]
获取电力用户负荷数据时,可以通过安装于用户处的数据采集装置进行数据采集。其中,所采集的电力用户负荷数据往往存在着部分空缺值、负值和零值。由于很多聚类算法对于原始数据中的异常值都较为敏感,负荷数据中的异常数据会影响聚类结果的准确性,使得聚类效果不佳,甚至产生错误的分类。通过查找并修正原始数据中的异常数据,使得修正后的数据能够接近甚至还原原始数据,是聚类中必不可少的重要环节。
[0082]
为了避免数据异常值和缺失值对聚类效果产生影响,对所述电力用户负荷数据进行修正时,可以由现场负荷预测人员根据长期积累的经验对数据进行修正,也可以通过数据横纵向对比法对数据进行修正。
[0083]
其中,通过数据横纵向对比法对数据进行修正,具体为:
[0084]
将某一时刻的负荷与其前后时刻的负荷进行比较,或将某一时刻的负荷值,分别与其前一两天相同时刻的负荷值进行比较,如果偏差大于某一闭值,则取平均值代替。
[0085]
本发明实施例,通过对修正的数据进行归一化处理,能够保证聚类结果的有效性,降低算法的计算复杂度,从而发挥聚类算法的最佳效果。
[0086]
作为一种实施方式,对修正的数据进行归一化处理,包括:
[0087]
设修正后的电力用户负荷数据序列为xi=(x
i,1
,x
i,2
,

,x
i,ρ
),采用下列归一化处理公式对数据进行处理:
[0088][0089]
式中,x
i,j
为序列xi的第j个样本的负荷值,x
i,j

为对x
i,j
进行归一化处理后的值,x
i,min
、x
i,max
分别为序列xi中的负荷最小值、负荷最大值,ρ为序列xi的数据数量。
[0090]
步骤s2,采用canopy-k-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标。
[0091]
在一种能够实现的方式中,所述采用canopy-k-means算法对所述样本集进行聚类,包括:
[0092]
通过canopy算法对所述样本集进行预聚类,得到多个canopy子集以及各canopy子集的质心;
[0093]
以各canopy子集的质心作为初始聚类中心,采用k-means算法对所述样本集进行聚类。
[0094]
canopy算法是根据一种简单、计算量较小的方法来判断对象相似性,因此常用于海量的高维数据的初始聚类。canopy算法与其他聚类算法不同之处在于,其聚类得到的canopy子集之间允许重叠,即一个数据对象可能属于两个canopy子集,聚类精度一般,因此其聚类结果通常不直接作为最终聚类结果,而是作为预处理,再进行其他精确聚类。canopy聚类中不存在孤立点,即每个数据对象必属于某个canopy子集,也可以一个数据对象单独属于一个canopy子集。canopy算法的特点决定了该算法的数据处理速度很快,可以快速高效的将数据对象分为若干个canopy子集,并确定每个子集的质心,即聚类中心。
[0095]
在一种能够实现的方式中,所述通过canopy算法对所述样本集进行预聚类,包括:
[0096]
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值t1、t2,且t1》t2;
[0097]
从所述样本列表中随机选择一个样本点,作为第一个canopy质心,并为所述第一个canopy质心生成一个canopy子集,记为s0;
[0098]
从样本列表剩余的样本点中再随机选择一个样本点,记为q,设其到所述第一个canopy质心的距离为d,若d≤t1,则视q为弱标记样本点并放入s0,若d≤t2,则视q为强标记样本点并放入s0,若d》t1,则以q生成新的canopy子集,将q从样本列表中删除;其中,每个canopy子集中所有强标记样本点的中心位置即为对应的质心;
[0099]
重复第三步直到所述样本列表中元素个数为零,输出得到的canopy子集及其质心。
[0100]
k-means算法是一种经典的传统聚类算法,k-means聚类算法通过距离计算,将多个样本对象分成若干类,该算法计算简单,效率高,且原理比较简单,但是该算法需要人为预设聚类数,并随机确定与聚类数对应的初始聚类中心,多个样本对象会根据距离公式计算到各聚类中心的距离,并选择最近的一类加入,结束后重新计算聚类中心,直到不再变化或者迭代次数完成为止,最终得出聚类结果,其聚类结果常用均方差作为判断指标。
[0101]
本发明上述实施例,通过使用canopy算法对数据进行预聚类,并在预聚类结果上进行k-means聚类,可以提高算法整体计算效率。将canopy算法预聚类得到的canopy子集,作为k-means算法初始聚类中心,同时确定聚类数,解决了k-means聚类初始聚类中心和聚类数不确定的问题。
[0102]
在一种能够实现的方式中,所述计算每种聚类方案的聚类有效性指标,包括:
[0103]
按照下式计算第一聚类有效性指标:
[0104][0105]
式中,t
qd
为第一聚类有效性指标,t
qd
(i)为聚类中第i个类内数据对象到聚类中心的距离,n为聚类中类内数据对象的数量;
[0106]
按照下式计算第二聚类有效性指标:
[0107][0108]
式中,t
pd
为第二聚类有效性指标,q
ij
为qi与qj的聚类中心之间的距离,qi为第i类对象集合,qj为第j类对象集合,di为qi中数据对象到其聚类中心的平均距离,dj为qj中数据对象到其聚类中心的平均距离,k为聚类数;
[0109]
按照下式计算第三聚类有效性指标:
[0110]
[0111]
其中,
[0112][0113]
式中,t
yd
为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δ
ij
为布尔值。
[0114]
在根据各聚类方案的聚类有效性指标的值确定最优聚类数时,本发明实施例结合第一聚类有效性指标、第二聚类有效性指标以及第三聚类有效性指标来确定最优聚类数。
[0115]
其中,第一聚类有效性指标是聚类中类内所有数据对象到聚类中心的距离度量。在聚类数一定时,该值越小,证明类内各数据对象到其聚类中心的距离越小,每一类的数据对象越集中,聚类效果越好;
[0116]
第二聚类有效性指标的值越大,则认为聚类算法的聚类结果越好;
[0117]
第三聚类有效性指标的值越小,则认为聚类算法的聚类结果越好。
[0118]
步骤s3,确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
[0119]
在一种能够实现的方式中,所述确定用户用电行为的最优特征集,包括:
[0120]
构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
[0121]
根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
[0122]
在电力用电行为分析中,通常会采用源于用电曲线的用电特征来表征用户用电行为。用户用电行为特征集的目标是快速掌握不同客户群体的用电特征,从而实现不同用电群体的差异化服务。因此,在用户用电行为特征集的选择上,需要考虑最能反映客户用电特征的指标。
[0123]
本发明实施例中,基于用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征构建用户用电行为特征集。
[0124]
各用电特征指标的说明及属性如表1所示。
[0125]
表1:
[0126]
[0127][0128]
最大相关最小冗余准则是一种滤波式特征选择方法。其核心思想为最大化特征与分类变量之间的相关性,最小化特征与特征之间的冗余性。本实施例将其应用于用户用电特征选取中,得到相关性最强、冗余度最低的特征集,用以表征用户用电特性。
[0129]
特征与分类变量相关性以特征与分类变量之间的互信息值作为衡量指标,其表征的是已知该特征时类别不确定性减少程度。在求解过程中,为了让各项特征变量更具有统计学意义,需要对各个变量进行变量域离散化处理,即把各个变量的数值序列转化为概率分布区间。
[0130]
本发明实施例,先对特征进行归一化处理,再将变量区间均匀离散,得到各特征变量的概率分布,继而完成对各个特征量与用户类别的互信息计算。
[0131]
具体地,设置特征集与类别e的最大相关性指标d(y,e)为:
[0132][0133]
式中,ny为特征集y所包含的特征数量,di为特征集y中的第i个特征,u(di;e)为di和用户类别e之间的互信息值。
[0134]
两个特征间信息的冗余性可以用信息增益、基尼系数、相关系数等指标来衡量。作为一种实施方式,采用相关系数衡量两个特征间信息的冗余性:
[0135][0136]
式中,为特征di与特征dj的相关系数,取值范围为[-1,1],绝对值越接近于1,相关性越大,越接近0,相关性越小;cov(di,dj)为特征di与特征dj的协方差,为特征di的标准差,为特征dj的标准差。
[0137]
设置最小冗余性指标s(y)为:
[0138][0139]
综合以上两个指标得到最大相关最小冗余准则,相应的公式如下:
[0140][0141]
式中,i
mrmr
表示最大相关最小冗余准则。
[0142]
求解满足最大相关最小冗余准则的特征集y即为最优特征集。
[0143]
最优特征集的求解可转化为优化问题,考虑到用户用电行为的初始特征数量不大,作为一种实施方式,采用遍历法来得到全局最优解。令fi为集合隶属度指示函数,对其进行0-1编码,fi=1表示该特征存在于y中,fi=0则表示在y中不存在特征di。为简化公式表达,将互信息u(di;e)与相关系数分别用ui与v
ij
表示,则i
mrmr
的表达式为:
[0144][0145]
遍历f=(0,0,

,0)至f=(1,1,

,1)得到使i
mrmr
最大的f向量,解码后得到最优特征集。
[0146]
在一种能够实现的方式中,所述根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像,包括:
[0147]
采用打分制的方法来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
[0148]
本发明实施例,通过雷达图进行各类用户用电特性的可视化表达,且通过柱状图进行不同类之间用户用电特性对比的可视化表达,便于业务人员更准确便捷地了解电力用户用电行为的共性与个性。
[0149]
其中,用户用电行为数据大多为数值型数据,需要经过一定的转化规则才能转化为便于业务人员理解的标签。本实施例中,采用打分制,满分为10分,以每类用户每个标签的得分来衡量该类用户的用电特性。每类用户每个标签的得分由下式得到:
[0150]
[0151]
式中,t
i,j
为第i类用户的第j个特征的得分;为隶属于第i类的所有用户的第j个特征的平均值;t
jmax
、t
jmin
分别为第j个特征的最大值、最小值。
[0152]
本发明还提供了一种电力用户行为画像系统。
[0153]
请参阅图2,图2示出了本发明实施例提供的一种电力用户行为画像系统的原理框图。
[0154]
本发明实施例提供了一种电力用户行为画像系统,包括:
[0155]
样本集形成模块1,用于获取电力用户负荷数据,对所述电力用户负荷数据进行修正及归一化处理,形成样本集;
[0156]
聚类模块2,用于采用canopy-k-means算法对所述样本集进行聚类,计算每种聚类方案的聚类有效性指标,根据各聚类方案的聚类有效性指标的值确定最优聚类数,确定所述最优聚类数对应的聚类划分结果为目标聚类划分结果,所述聚类有效性指标包括用于表征类内紧凑度的第一聚类有效性指标、用于表征类间分离度相对于类内紧凑度的程度的第二聚类有效性指标以及用于表征类内紧凑度相对于类间分离度的程度的第三聚类有效性指标;
[0157]
画像生成模块3,用于确定用户用电行为的最优特征集,根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像。
[0158]
在一种能够实现的方式中,所述聚类模块2包括用于采用canopy-k-means算法对所述样本集进行聚类的聚类子模块,所述聚类子模块包括:
[0159]
预聚类单元,用于通过canopy算法对所述样本集进行预聚类,得到多个canopy子集以及各canopy子集的质心;
[0160]
再聚类单元,用于以各canopy子集的质心作为初始聚类中心,采用k-means算法对所述样本集进行聚类。
[0161]
在一种能够实现的方式中,所述预聚类单元具体用于:
[0162]
根据所述样本集生成样本列表,根据样本平均值的80%和60%分别确定初始距离阀值t1、t2,且t1》t2;
[0163]
从所述样本列表中随机选择一个样本点,作为第一个canopy质心,并为所述第一个canopy质心生成一个canopy子集,记为s0;
[0164]
从样本列表剩余的样本点中再随机选择一个样本点,记为q,设其到所述第一个canopy质心的距离为d,若d≤t1,则视q为弱标记样本点并放入s0,若d≤t2,则视q为强标记样本点并放入s0,若d》t1,则以q生成新的canopy子集,将q从样本列表中删除;其中,每个canopy子集中所有强标记样本点的中心位置即为对应的质心;
[0165]
重复第三步直到所述样本列表中元素个数为零,输出得到的canopy子集及其质心。
[0166]
在一种能够实现的方式中,所述聚类模块2包括用于计算每种聚类方案的聚类有效性指标的计算子模块,所述计算子模块包括:
[0167]
第一计算单元,用于按照下式计算第一聚类有效性指标:
[0168][0169]
式中,t
qd
为第一聚类有效性指标,t
qd
(i)为聚类中第i个类内数据对象到聚类中心的距离,n为聚类中类内数据对象的数量;
[0170]
第二计算单元,用于按照下式计算第二聚类有效性指标:
[0171][0172]
式中,t
pd
为第二聚类有效性指标,q
ij
为qi与qj的聚类中心之间的距离,qi为第i类对象集合,qj为第j类对象集合,di为qi中数据对象到其聚类中心的平均距离,dj为qj中数据对象到其聚类中心的平均距离,k为聚类数;
[0173]
第三计算单元,用于按照下式计算第三聚类有效性指标:
[0174][0175]
其中,
[0176][0177]
式中,t
yd
为第三聚类有效性指标,oi、oj分别为第i类和第j类的聚类中心,n为样本集的样本个数,xj为样本数据,nj为第j类对象集合的样本个数,δ
ij
为布尔值。
[0178]
在一种能够实现的方式中,所述画像生成模块3包括用于确定用户用电行为的最优特征集的特征确定子模块,所述特征确定子模块包括:
[0179]
构建单元,用于构建用户用电行为特征集,所述用户用电行为特征集包括用电规模、用电类别、用电时节差异性、用电温度差异性、日平均负荷稳定性、日平均电量利用率、用电涨跌环比趋势、日峰谷差和工作特征;
[0180]
特征筛选单元,用于根据最大相关最小冗余准则,从所述用户用电行为特征集中确定用户用电行为的最优特征集。
[0181]
在一种能够实现的方式中,所述画像生成模块3包括用于根据所述最优特征集和所述目标聚类划分结果生成用户用电行为画像的生成子模块,所述生成子模块具体用于:
[0182]
采用打分制的系统来分析不同用电行为的最优特征集,通过雷达图进行各类用户用电特性的可视化表达,和/或通过柱状图进行不同类之间用户用电特性对比的可视化表达。
[0183]
本发明还提供了一种电力用户行为画像装置,包括:
[0184]
存储器,用于存储指令;其中,所述指令用于实现如上任意一项实施例所述的电力用户行为画像方法;
[0185]
处理器,用于执行所述存储器中的指令。
[0186]
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计
算机程序,所述计算机程序被处理器执行时实现如上任意一项实施例所述的电力用户行为画像方法。
[0187]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,上述描述的系统、装置和模块的具体有益效果,可以参考前述方法实施例中的对应有益效果,在此不再赘述。
[0188]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0189]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0190]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
[0191]
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0192]
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献