一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户用电行为聚类分析方法、系统及存储介质与流程

2021-11-06 05:54:00 来源:中国专利 TAG:


1.本发明涉及电力用户用电行为分析技术,特别是一种用户用电行为聚类分析方法。


背景技术:

2.用户用电行为分析是用户负荷管理调度、电力用户能效提升改造、电网侧需求响应策略实施等许多工作的基础。用户侧大数据是用户用电行为的数据体现,因而采用合适的数据挖掘方法能够从大量的用户侧数据中挖掘出有价值的用户用电行为信息。k

means聚类算法因其数据相似性度量划分效果明显且易于实现等优势,在智能用电领域的用电数据挖掘分析方面获得广泛的应用,但传统的k

means聚类算法具有初始聚类中心选取随机、聚类数目需预先给定等缺点,会导致聚类结果准确性较差的情况出现。
3.近年来利用负荷特性指标作为用电特征来进行用户用电行为聚类分析的研究较多。在当前复杂的用电环境之下,各种电力设备普及程度及利用程度增大,电力用户的用电行为具有多样性与复杂性,固定的特征集并不能适用于所有电力用户用电行为分析的目标,不具有用电分析的通用性;同时,因为用电行为特征与用户用电习惯关联紧密,所以在利用特征集分析用电行为时,特征集中必然会存在大量的冗余性与无关性特征,而这些特征无疑会增加算法的复杂度和运行时间,带来“维数灾难”的问题,降低模型的准确性。目前在利用负荷特性指标替代原始负荷曲线数据进行聚类分析时,都只是引用常见的负荷特性指标(负荷率、日峰谷差率、峰期负载率、平期负载率、谷期负载率)作为用电特征,对这些特征并没有经过数据分析和优化选择,所以具有分析的局限性,即不具有用户用电行为分析的通用性。


技术实现要素:

4.本发明所要解决的技术问题是,针对现有技术不足,提供一种用户用电行为聚类分析方法、系统及存储介质,提高用户用电特征集的相关性,降低冗余性,提高聚类结果的准确度。
5.为解决上述技术问题,本发明所采用的技术方案是:一种用户用电行为聚类分析方法,包括以下步骤:
6.s1、对用户原始负荷数据进行聚类,得到原始用户聚类分组信息;对根据候选特征子集所计算的用户数据进行聚类,得到候选用户聚类分组信息;
7.s2、将用户聚类分组信息与原始用户聚类分组信息进行对比分析,得到聚类分组正确的用户数,根据公式计算聚类准确率
8.s3、取下一个候选特征子集返回步骤2),直至得到所有候选特征子集的聚类准确率;
9.s4、记录所有候选特征子集的聚类准确率中的最大值,以及该最大值所对应的候选特征子集,该候选特征子集即为精简特征子集。
10.本发明能够快速准确地从众多候选特征子集中得到需要的精简特征子集,使聚类结果更加准确。通过引入真实的聚类结果指标即聚类准确率来衡量每一候选特征子集的聚类结果优劣,聚类准确率最大者所对应的候选特征子集即为精简特征子集。计算聚类准确率中用到的聚类分组正确的用户数是通过用户聚类分组信息与原始用户聚类分组信息进行对比得到,操作简单,结果清晰。精简特征子集中的特征不存在冗余性和无关性。
11.步骤s1中,原始用户聚类分组信息的具体获取过程包括:
12.1)给定用户原始负荷数据;
13.给定用户典型用电行为类别数k的最大值k
max
、最小值k
min
,k
min
=2,n为用户原始负荷数据样本总数;
14.2)以k
min
为k的初值,利用k

means方法找到用户典型用电行为聚类中心,计算用电用户典型用电行为类别内所有用户的相似性w;w=intra(k) (1

inter(k)/inter(k));
15.3)判断k值是否大于k
max
,若小于则k
min
的值加1,转步骤2);否则,进入步骤4);
16.4)取w的值最小时对应的k值k
best
,k
best
即用户典型用电行为类别最优聚类数;
17.6)根据确定的用户典型用电行为类别最优聚类数,采用最大最小距离算法确定k
best
种用户典型用电行为,最后将各用户原始负荷数据按最小距离的原则分到各个用户典型用电行为类别中,得到原始用户聚类分组信息。
18.本发明通过改进k

means聚类算法解决了传统k

means聚类算法对原始用户聚类分组会使初始用户典型用电行为聚类中心选取随机、用户典型用电行为类别数目需预先给定的问题,避免原始用户聚类分组结果准确性较差的情况出现。给定用户典型用电行为类别数k的最大值最小值,而后依据数据簇类间相似度函数w进行初步计算,从中获得一个w最小值所对应k值作为最优k值,以此解决了用户典型用电行为类别数目需预先给定的问题。采用最大最小距离算法来选取初始用户典型用电行为聚类中心,避免初始用户典型用电行为聚类中心的随机选取,从而使原始用户聚类分组结果准确性大幅度提高。
19.步骤s2中,聚类分组正确的用户数的确定过程包括:对于原始用户聚类分组信息中的第1组用户,获取第1组用户中的所有用户被聚类到候选用户聚类分组信息不同分组中的数量,若被聚类到候选用户聚类分组信息第p组中的数量最多,则记该数量为p,p即为该第1组用户中分类准确的用户数;依此类推,直至得到原始用户聚类分组信息中所有组中分类准确的用户数。本发明聚类到候选用户聚类分组信息每组中原始用户聚类分组中某组用户数最多即为聚类准确的用户数,此方法可使得聚类准确的用户数达到最大,从而可以计算得到本次聚类的最大聚类准确率。
20.候选特征子集的获取过程包括:
21.a1、构建用户用电特征集;
22.a2、采用基于最大相关最小冗余准则的增量搜索算法获得和权重因子α
i
取值对应的一组嵌套的候选特征子集1≤j≤n,其中,均为所述用户用电特征集的子集;j为特征编号;n为特征总数;1≤i≤m,m为权重因子数量;所述权重因子α
i
取值区间为[0,1]。
[0023]
候选特征子集获取过程简单快捷,并且获取的候选特征子集包含用户用电特征集中最有价值的信息,同时候选特征子集具有精简性。引入最大相关最小冗余准则来获取候选特征子集,该准则能够保证所获取的候选特征集与用电用户类别之间的相关性最大,同时候选特征子集中的每个特征间的冗余关系最低,消除了子集中冗余性和无关性的用户用电特征。
[0024]
步骤a2的具体实现过程包括:
[0025]
1)令q=x,s为空集;其中,x为用户用电特征集;
[0026]
2)令i=1;
[0027]
3)计算第i个用户用电特征x
i
与目标用户用电行为类别c之间相关性衡量的互信息i(x
i
;c),寻找满足max[i(x
i
;c)]的用电特征,并将该特征表示为令令令其中,
[0028]
4)设x
i
∈q
m
‑1,第j个用户用电特征x
j
∈s
m
‑1,m=2,

,n,从q
m
‑1中寻找使计算数值最大的特征,将该特征表示为令将获得的候选特征子集s
m
‑1、s
n
放入备选特征集s;
[0029]
5)i的值加1,返回步骤2),直至集合q为空集,则此时所得的备选特征集s为候选特征集,将候选特征集s中的所有候选特征子集按照的大小进行降序排列,获得n个候选特征子集(特征子集数量与特征总数数量一致)且候选特征子集之间的关系为:
[0030]
引入权重因子α
i
对标准最大相关最小冗余准则进行改进能够细致刻画用户用电特征相关性和冗余性权重,并利用增量搜索算法避免了对用户用电特征集的穷尽式搜索,从而得到最佳的候选特征子集,避免穷尽式搜索。
[0031]
本发明还提供了一种用户用电行为聚类分析系统,其包括计算机设备;所述计算机设备被配置或编程为用于执行本发明方法的步骤。
[0032]
本发明还提供了一种计算机可读存储介质,其包括运行于处理器上的程序;该程序被配置或编程为用于执行本发明方法的步骤。
[0033]
与现有技术相比,本发明所具有的有益效果为:
[0034]
1、本发明将基于改进最大相关最小冗余准则的特征选择方法和改进的k

means聚类方法结合,使得到的用电特征集是精简特征集,利用得到的用电特征替代原始负荷曲线数据进行聚类分析,在保证聚类准确率的前提下实现用电数据降维,提高了计算效率;
[0035]
2、采用改进的k

means聚类方法,可精确给定聚类数目,并能够准确选取聚类中心,使聚类结果更加准确;
[0036]
3、基于改进最大相关最小冗余准则的特征选择方法,可区分特征相关性和冗余性权重,对比分析特征选择结果的优劣。
附图说明
[0037]
图1示出了本发明改进k

means算法流程图;
[0038]
图2示出了本发明基于改进最大相关最小冗余准则的特征选择方法流程图;
[0039]
图3示出了本发明聚类准确率随特征数目变化图;
[0040]
图4、图5、图6、图7分别示出了本发明聚类结果及4类用户用户用电特性曲线。
具体实施方式
[0041]
本发明实施例针对基于特征选择的用户用电行为聚类分析中用电特征集的选择以及k

means聚类方法存在的问题,结合最大相关最小冗余准则、数据簇类间相似度函数以及最大最小距离算法,提出了基于改进最大相关最小冗余准则的特征选择方法和改进k

means聚类方法,该方法能够提高用电特征集的相关性降低冗余性,增加聚类结果的准确度。
[0042]
本发明实施例原理如下:
[0043]
用户侧大数据是用户用电行为的数据体现,本发明中利用改进k

means聚类方法能够将用户用电行为特征属性相似程度较大的对象聚集为数种类别,同时保证各类型之间具有较大的差异性,从而对用户用电行为进行分析。为进行用户用电行为特征聚类分析,首先应确定用户用电行为特征的聚类个数,为此本发明首先给定一个用户用电行为特征聚类个数的区间其中n为特征样本总数,而后依据数据簇类间相似度函数计算聚类数值区间中每个聚类个数相应的数据簇内所有数据元的相似性值,从中获得一个相似性最小值对应的聚类个数作为最优值,以此来降低聚类个数确定的难度,在聚类个数确定的情况下,采用最大最小距离算法来选取用户用电典型行为类别,避免用户用电典型行为类别随机选取造成的聚类不稳定情况,使聚类结果更加准确,同时计算利用改进最大相关最小冗余准则所得用户用电行为候选特征子集的聚类准确率来得到精简特征子集。而后利用得到的精简特征子集,求出所有用电用户相对应的特征,并以之替代用户的96点负荷数据,对用户的用电行为利用改进k

means算法进行分析。
[0044]
本发明对用户用电行为聚类分析方法是基于用户的用电行为特征,因此需进行用户用电特征选择,用户用电行为特征选择是从原始用电特征集中选择出一个合适有效的特征子集,该特征子集能够包含原始用电特征集中最有价值的信息,同时强调所选出特征子集要具有精简性;即所选择的特征集与用户行为类别之间的相关性最大,同时选出子集中的每个用电特征间的冗余关系最低,基于此目标而得到最大相关最小冗余准则公式。该算法首先计算原始特征集中每个用电特征与目标用户行为类别的互信息值,将最大互信息所对应的用电特征作为首个候选特征子集,然后。标准最大相关最小冗余准则直接将特征与目标类别的相关性衡量数值与特征之间的冗余度衡量数值作差,这样的做法存在不能区分特征相关性和冗余性权重的缺点。故而本发明提出改进最大相关最小冗余准则,在分析过程考虑加入一变量用来细化特征与目标类别之间相关性与特征之间冗余性的度量,通过给变量赋于不同的数值来改变最大相关最小冗余准则中特征相关性与冗余性所占据的权重,以此可对比得到不同特征选择结果时对应的相关性与冗余性所占据权重情况。为从用户用电数据中得到候选特征子集,首先从电力用户侧96点负荷数据中随机抽取数据作为分析的样本数据,对样本利用改进的k

means聚类算法进行聚类训练,获得与样本相匹配的用户用
电行为类别,接着按照表1中负荷率、日峰谷差、峰期负载率、平期负载率等用电特征计算公式,计算得到原始特征集,最后利用增量搜索算法结合改进最大相关最小冗余准则得到候选特征子集。增量搜索算法首先计算原始特征集中每个用电特征与目标用户行为类别的互信息值,将最大互信息值所对应的用电特征作为首个候选特征子集,然后计算剩下的用电特征与上一步骤生成的候选特征集之间基于最大相关最小冗余准则所定义的数学关系的值,从中选出最大值所对应的用电特征,将该特征加入上一步骤生成的候选特征集得到新的候选特征集,由此重复上述步骤直至原始特征集为空,最后把候选特征集中的特征按照φ(d,r)降序排列得到候选特征子集。本发明实施例中改进的k

means算法如下:用数据簇类间相似度函数w来表示用电用户典型用电行为类别内所有用户的相似性,用k
max
,k
min
表示用户用电典型行为聚类个数k的最大值与最小值;用intra(k)来表示各用电用户典型用电行为类别内的所有用户的相似度;用inter(k)来表示两个用电用户典型用电行为类别之间的相似度。因此,根据定义可以得到公式(1)(见李亚玲,李涛.改进k

means算法在风电异常数据的识别研究.计算机时代,2020,2:6

8):
[0045]
w=intra(k) (1

inter(k)/inter(k))
ꢀꢀ
(1)
[0046][0047][0048]
inter(k)表示两个用电用户典型用电行为类别之间的相似度;intra(k)表示用电用户典型用电行为类别内所有用户相似度;x表示一个有n个需要聚类的用户负荷数据集合;vi表示用户典型用电行为最初聚类中心;δ(vi)表示以vi为聚类中心点的相似度;δ(x)表示x中所有用户负荷数据的相似度;v(i)表示第i个用户典型用电行为类别聚类中心与其他用户典型用电行为类别聚类中心之间的相似度。
[0049]
最终取w达到最小值的k值作为最优聚类数k
best
,则有k
min
≤k
bes
t≤k
max

[0050]
因此,改进的确定最优聚类个数k的k

means算法流程图如图1所示:
[0051]
1)确定k的最大、最小值k
max
,k
min

[0052]
2)从k
min
为k的初值用k

means的算法找到初始聚类中心,计算w的值;
[0053]
3)判断k值得是否大于k
max
,如小于k
min
=k
min
1转2);
[0054]
4)取min(w(k))得到k
best

[0055]
5)根据确定的最优聚类个数,采用最大最小距离算法保证聚类中心个数不变,最后将各用电用户样本数据按最小距离的原则分到各个用电用户典型用电行为类别中。本发明实施例改进的最大相关最小冗余准则如下:
[0056]
最大相关最小冗余准则以互信息理论为基础,以变量间互信息计算值为标准进行变量相关关系的衡量。其定义如下:
[0057]
已知给定的两个随机变量x和y,这两个变量的概率密度函数分别为p(x)与p(y),联合概率密度为p(x,y),当变量x与y为离散变量时,二者之间的互信息定义为
[0058]
[0059]
用电特征及用户类别变量均为离散变量,则有
[0060][0061]
在求取对数时,不同领域所取的底数不同,并没有统一的标准,在信息论中,常以2为底数,在本发明中就取底数为2。
[0062]
变量间最大相关性的衡量指标和最小冗余度的衡量指标分别定义为
[0063][0064][0065]
在上式(7)中,s为用户用电特征集;|s|为特征集s中所具有的特征总数;x
i
和x
j
为集合中的用户用电特征;c为目标用户类别;。i(x
i
;c)的数值大小代表了用户用电特征x
i
和目标用户用电行为类别c两者间的互信息大小,是两者间相关性的衡量;i(x
i
;x
j
)的数值大小代表用户用电特征x
i
和x
j
两间的互信息大小,是两者间相关性的衡量。d的计算数值大小是用户用电特征集与用电特征类别间相关性的衡量;r的计算数值大小是用户用电特征集所包含冗余信息的衡量。
[0066]
基于所选择的用户用电特征集与用户类别之间的相关性最大,同时要求选出子集中的每个特征间的冗余关系最低的目标得到最大相关最小冗余准则如下:
[0067]
maxφ(d,r),φ=d

r
ꢀꢀ
(8)
[0068]
根据所述技术方案对最大相关最小冗余准则的改进,通过加入变量α用来细化特征与目标类别之间相关性与特征之间冗余性的度量,给α赋于不同的数值来改变最大相关最小冗余准则中特征相关性与冗余性所占据的权重,并对比分析特征选择结果的优劣。相应地,最大相关最小冗余准则公式(9)修改为
[0069]
maxφ(d,r),φ=αd

(1

α)r
ꢀꢀ
(9)
[0070]
公式(8)是公式(9)的特殊形式,此时α=0.5。
[0071]
在本发明方法的应用中,利用增量搜索算法进行选择满足变量φ所定义的数学关系的有效特征。采用变量x来表示原始用户用电特征集,变量s
m
‑1代表已选用户用电特征集,顾名思义,该变量中包含着已经选好的m

1个特征,则基于最大相关最小冗余准则选择第m个特征,就是从剩余的特征集合{x

s
m
‑1}中选择能够令变量φ取最大值的特征,x
j
=x
m
且x
m
满足:
[0072][0073]
本发明改进的k

means聚类算法验证特征聚类效果验证如下。
[0074]
本发明通过改进k

means聚类算法分别以n个嵌套的候选特征子集中的特征为聚类维度进行聚类,通过利用聚类准确率的衡量来确定精简的特征子集。
[0075]

形成候选特征集:
[0076]
假设变量x为原始用户用电特征集,其包含n个特征,变量s表示已选用户用电特征
集,变量q表示待选用户用电特征集;则形成候选特征集的详细步骤如下:
[0077]
1)特征初始化。令q=x,s为空集。
[0078]
2)令i=1;
[0079]
3)依据公式(4)(5)计算与目标用户行为类别c之间相关性衡量的互信息i(x
i
;c),寻找满足max[i(x
i
;c)]的用电特征并将该特征表示为令令令
[0080]
4)设x
i
∈q
m
‑1,x
j
∈s
m
‑1(m=2,

,n),从q
m
‑1中寻找使公式(10)计算数值最大的特征,将其表示为令令将获得的候选特征子集s
m

1、s
n
放入备选特征集s;
[0081]
5)i的值加1,返回步骤3),直至集合q成为空集截止,则此时所得的备选特征集s为候选特征集,同时把候选特征集s中的所有候选特征子集按照公式(10)的计算大小降序排列,如此能够获得n个候选特征子集(特征子集数量与特征总数数量一致)且候选子集之间的关系为:
[0082]

形成精简特征子集
[0083]
聚类准确率a(s)是评估特征子集优劣的指标,计算公式如下:
[0084][0085]
利用改进k

means聚类算法进行特征子集验证并得到具有最大聚类准确率的最优特征子集的具体步骤如下:
[0086]
设用f来表示具有最大聚类准确率的特征集合。
[0087]
1)对于权重因子α,其取值区间为[0,1];初始值取为0,以0.25为步长进行赋值,即α
i
=0,0.25,

,1,1≤i≤5,权重因子的变化体现了对最大相关最小冗余准则的改进,体现了对于相关性与冗余性的不同侧重。
[0088]
2)采用基于改进最大相关最小冗余准则的增量搜索算法分别获得和权重因子α
i
取值相对应的一组嵌套的候选特征子集1≤j≤n。其中i对应于权重因子α
i

i
=0,0.25,

,1,1≤i≤5);j为特征编号;n为特征总数。
[0089]
3)对每个权重因子α
i
所对应的嵌套候选特征集,采用改进的k

means聚类算法以每次递增1个特征的方式计算得到各特征子集的聚类准确率并记录其中的最大聚类准确率及其所对应的特征子集。
[0090]
4)比较所有权重因子下的特征子集聚类准确率测试结果,得到具有最大聚类准确率的特征子集即为所求的精简特征子集f。
[0091]
本发明实施例基于改进最大相关最小冗余准则((maximal relevance and minimal redundancy,mrmr))的特征选择方法如下。
[0092]
因为本发明主要思想是从用户用电特征集中选出能够适用于用户用电类别聚类分析的精简特征集,所以将后文中出现的变量x称为用电特征,变量c称为用户类别。用电特征选择的总体流程如图2所示。
[0093]
由图2可知,该方法主要分为3步:
[0094]
1)构建原始特征集。
[0095]
2)利用改进的最大相关最小冗余准则得到候选特征子集。
[0096]
3)使用改进的k

means算法对得到的n个嵌套的候选特征子集进行聚类,通过聚类准确率(即分类准确的用户数/用户总数)的衡量比较来确定最优的特征子集。图2中的变量n表示原始特征集所具有的特征总量,n=11。
[0097]
上述实施例的实验验证如下。
[0098]
采用某地区500名电力用户的日用电数据,日用电数据每15分钟采样一次,为96点负荷数据。对日用电数据归一化处理后,按照表1中所给的用电特征,构建原始特征集。然后提取用电特征得到最优特征集f,并进行改进k

means聚类,依据原始负荷曲线聚类并参照公式(10)计算聚类准确率;原始负荷曲线聚类结果即将500个用户原始的96点负荷采样数据组成500*96维的负荷数据矩阵,而后采用改进的k

means聚类算法进行聚类,得到聚类分组以及各个分组中的用户数。
[0099]
发明提出初步的用户用电特征集,如表1所示。
[0100]
表1用户用电特征集
[0101][0102]
在表1中,p代表负荷,q代表用电量;下标sum、av、max、min分别代表总量、均值、最大值、最小值;peak、val、sh分别代表峰期、谷期、平期;av.peak、av.val、av.sh分别代表峰期均值、谷期均值、平期均值;表中峰谷时段的划分引用的上海地区用电负荷峰谷时段划分。
[0103]
仿真是在cpu主频(central processing unit)为2.0ghz,运行内部存储为4gb的计算机上借助数学工具matlab进行的,在实验前,将所有数据都进行了规范化处理。
[0104]
1)特征数目对聚类结果的影响
[0105]
由图3可知,聚类准确率随着特征数目不断添加也呈现不断增大的趋势,但当聚类
准确率增大到一个最大值之后,继续增大特征数目,聚类准确率将基本不变或甚至减小。这表明一味增加特征并不能增加聚类的准确率,甚至会对聚类结果造成不利的影响。所以这一结果也证实进行特征选择的必要性;同时也表明在用电特征选择问题中也存在特征选择过拟合的现象。
[0106]
2)权重因子对聚类准确性的影响
[0107]
对比各个权重因子下候选特征子集组的聚类准确率,选择聚类准确率最大的特征子集作为最优特征子集,如表2所示。
[0108]
表2不同权重因子对应的最大聚类准确率特征子集
[0109][0110]
由表2可知,当权重因子α=0.75时聚类准确率最大,所以最优特征子集a={a11,a4,a7}。对比α取值为0.5与0.75的聚类准确率可知:标准的最大相关最小冗余在引入权重因子进行改进操作之后,不仅聚类准确率由原来的0.931提高到0.943,而且得到的最优特征集的特征维数也由原来的5维降至3维。这表明本发明所提出的改进方法可以更加细化地描述特征相关性与冗余性,能够有效地缩减特征之间的冗余特征,在实现降维的同时增大聚类准确率。
[0111]
而后利用选择得到的最优特征子集,求出所有用户的相对应的特征,并以之替代用户的96点负荷数据,对500个用户的用电行为利用改进k

means算法进行分析,确定最优聚类数为4,结果如表3所示;即用户被分为4类,如图4、图5、图6、图7所示,图4、图5、图6、图7中电力用户的用电数据进行了归一化处理,图中的白线表示各类电力用户的典型用电行为。
[0112]
表3改进k

means聚类算法最优聚类数确定
[0113]
聚类数目k数据簇内所有数据元相似性w(k)20.0983630.1278540.0745350.2478760.4402670.5678280.49867
[0114]
3)特征提取与否对用户用电行为分类的影响
[0115]
利用选择得到的最优特征子集替代用户的96点负荷数据,对500名电力用户进行
用电行为分析;将基于云计算的用户用电分析方法作为对比方法1,与本发明技术方案的区别为其直接引用日负荷率、谷电系数、平段用电百分比以及峰时耗电率为特征进行用户用电分析;将不进行特征提取即直接将原始特征集的11个特征作为聚类分析维度进行聚类作为对比分析方法2;得到的分析结果如表4所示。
[0116]
表4不同实验方法的性能对比
[0117]
方法聚类准确率/%聚类迭代次数聚类时间/s对比方法182.38180.909对比方法288.10100.405本发明方法95.2380.315
[0118]
由表4可得,对比方法1与本发明方法的聚类准确率差异较大,因为电力用户的多样性,所以负荷曲线也具有多样性,所以面对不同用户从分析准确性方面考虑,进行特征选择以得到合适的分析特征集是非常必要的;而采用本发明所提出的特征选择方法能够针对不同的数据集的特点进行特征选择得到适合的分析特征集,故而能够很好地适应用户数据集的分析。
[0119]
4)特征值提取与否对计算性能的影响
[0120]
由表4得出,本发明方法的聚类迭代次数与聚类时间均小于两种对比方法,虽然由于用户数据量不大导致运算时间的差别不够明显,但仍然可得到本发明方法的确能够有效地选择适用于用电数据分析的精准简洁的特征,以减少聚类分析的聚类迭代次数与聚类时间。
[0121]
同时因为本发明的聚类算法还是以k

means为基础,因此以k

means聚类方法为例,该聚类分析方法的时间复杂度可以表示为o(mnkt),其中,m代表进行聚类分析操作的数据对象数量,n表示数据对象的维数,k表示聚类数目,t表示聚类算法运算过程的迭代次数;所以当进行聚类分析的电力用户量数以及聚类中心个数相同时,本发明所提方法是以优选特征替代96点负荷数据,所以采用本发明方法时,相对应的t*n的数值会减小,故而此时采用本发明方法的时间复杂度会低于仅利用k

means方法进行用电数据分析的方法;同时本发明方法的聚类准确率也保留了原始负荷曲线直接聚类结果的95.23%准确率,所以本发明方法能够有效选择精简特征,在保证聚类准确性的同时实现负荷曲线降维,以减少运算分析的时间复杂度。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献