一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于流处理大数据框架的电力用户数据仿生聚类分析模型的制作方法

2021-11-03 21:16:00 来源:中国专利 TAG:


1.本发明涉及电力行业的用户用电数据聚类分析领域,具体涉及到大数据 flink流处理技术、pso仿生算法和k

means聚类算法的方法。


背景技术:

2.随着电力物联网领域的高质量发展,其工作内容主要包括了数据共享,数据中台,国网云,营销试点,源网荷储协同互动,智能电表非计量功能,同期线损,网上电网,网上国网,能源互联网产业链等综合应用,并产生了海量的电力行业用户数据。
3.对于海量电力用户数据的处理成为了数据挖掘和机器学习的一个极具挑战性的任务。k

means聚类算法可以将相似的数据对象聚到一起,从而发现内在联系,获取数据背后的隐藏价值。k

means聚类算法是一种无监督的学习算法,已经成为了应用范围最广与程度最深的聚类算法。但在海量数据的背景下,如何解决k

means聚类算法的执行效率下降,精准度缺失的问题,成为了当前研究的热点。因此开发一种基于flink计算框架的仿生并行聚类算法pso

fk

means 模型,用以分析海量用户的用电行为十分重要。


技术实现要素:

4.为了实现上述发明目的,本发明设计了一种基于流处理大数据框架的电力用户数据仿生聚类分析模型,系统模型如下:
5.本分析模型由三个实体组成,分别是数据集数据库、后端分析模块以及前端交互展示模块。
6.(1)数据库:从95598客服、营销等系统中对接获取历史沉淀原始数据,对原始数据进行数据去空、去重等数据预处理后,存储在数据库中。
7.(2)后端分析模块:后端分析模块主要架设了基于flink大数据流处理框架的仿生k

means聚类算法分析系统。
8.(3)前端交互展示模块:通过系统的分析和呈现,直观的展示电力企业用户特点,助力电力企业开展市场购售电侧改革、制定高效售电营销策略。
9.为探索精准有效的数据挖掘算法和特征模型,将用户根据不同用电行为进行分类,提取其用户消费习惯、行为趋势和心理变化等有价值的信息进行用户分类分析。电网部门可以使用基于flink大数据流处理框架的仿生k

means聚类算法分析系统来解决这一问题。而针对普通k

means聚类算法在并行化计算中主要存在初始质心的选择问题和并行化计算框架的选择问题。本系统提出以 pso粒子群仿生算法对数据集进行计算得到的最优位置为依据,对传统k

means 算法的初始质心选取进行优化,并提出将改进后的k

means算法应用至当下新一代的流式计算框架flink中。
10.方案设计过程如下:
11.(1)以电力营销信息系统中电费收缴及营销账务业务和95598客户系统积累的大量电力用户基本信息,包括缴费欠费、95598工单处理、催办督办、客户通话、应缴电费、收费
记录、费控用户、投诉等信息为基础,进行用户用电数据挖掘,数据库对接获取形成初步的用户用电数据集。
12.(2)以pso粒子群仿生算法对用电数据集进行计算得到的最优位置为依据,对传统k

means算法的初始质心选取进行优化。
13.对预设用电数据集进行初始化,随机选取一个用户用电数据作为粒子,依据以下公式的最大距离原则选取剩下的粒子。重复n次,产生一个含有n个粒子的粒子群。
[0014][0015]
(3)每一个粒子按照最小距离原则划分初始聚类数据集,初始化位置编码,按照以下公式计算粒子的适应度值,并初始化速度。
[0016][0017]
其中,z
j
表示第j个聚类的中心;||x
i
,z
j
||表示样本到对应聚类中心的欧式空间距离;ρ为随机的一个整数。粒子个体的适应度值与总的类间离散度呈负相关,即离散度越小,个体适应度越大。
[0018]
(4)寻找每个粒子的个体极值与全局最值。在根据以下公式更新粒子的速度与位置。
[0019][0020][0021]
公式中,i=1,2,

,n,n为当前群中的粒子数;为第t次迭代计算时第i颗粒子的速度属性值;为第t次迭代计算时第i颗粒子的位置属性值; c1、c2为约束权重因子,一般取随机常数;r1、r2为[0,1]之间的随机数。 (pbest
i
,gbest
i
)为两个极值,分别表示第i颗粒子所经过的最好位置和种群最优位置。
[0022]
(5)以更新后的粒子为聚类中心,对数据集进行重新聚类,并计算每个粒子的适应度值。判断当前种群适应度fit
i
是否低于某个阈值时或者达到最大迭代次数。使用粒子群算法得到的最佳位置作为k

means算法的初始中心。
[0023]
(6)在flink流处理大数据框架上将用电数据集进行有效划分。数据集读取利用flink流计算大数据框架上的getpointdataset算子读取原生用户用电数据集得到sourcepoints数据流,利用getsourceclusterdataset算子读取pso算法计算生成的初始质心数据集得到sourceclusterpoint数据流。将数据集分割成分区子集,为后续的聚类并行化提供数据源。本算法模型采用hash

partition分区方式,根据指定key的哈希值对数据集进行分区,将数据集d分为p个部分,得到sourcepartitionpoints数据流。
[0024]
(7)针对分区好的数据集,进行归一化处理。利用map算子、reduce算子对所有数据点进行归一化处理,得到最后的points数据流和clusters初始质心数据流。
[0025]
(8)进行聚类并行化。flink平台的jobmanager作为主节点,负责数据的划分与分配;taskmanager作为从节点,负责完成本地数据的并行化计算并将结果返回给主节点。首先由jobmanager完成对数据集的划分与任务分配,并利用广播变量至各taskmanager;然后
taskmanager完成质心至数据子集的欧式距离计算,并标出每一个数据点的分类;最后将计算得到的sse与数据点所属类别返回至jobmanager,开始迭代计算,直至收敛或者迭代次数执行完毕。最后进行聚类结果合并。聚类并行化迭代计算完之后,得到各分区子集的部分质心。
[0026]
(9)将电力用户数据仿生聚类分析的结果输出至前端交互模块。
附图说明
[0027]
附图1是本发明的系统模型图,附图2是本发明的核心算法计算流程图。
具体实施方式
[0028]
如图所示,本发明是一种基于流处理大数据框架的电力用户数据仿生聚类分析模型,本系统模型由三个实体组成,分别是数据集数据库、后端分析模块以及前端交互展示模块。
[0029]
(1)数据库:从95598客服、营销等系统中对接获取历史沉淀原始数据,对原始数据进行数据去空、去重等数据预处理后,存储在数据库中。
[0030]
(2)后端分析模块:后端分析模块主要架设了基于flink大数据流处理框架的仿生k

means聚类算法分析系统。
[0031]
(3)前端交互展示模块:通过系统的分析和呈现,直观的展示电力企业用户特点,助力电力企业开展市场购售电侧改革、制定高效售电营销策略。
[0032]
为探索精准有效的数据挖掘算法和特征模型,将用户根据不同用电行为进行分类,提取其用户消费习惯、行为趋势和心理变化等有价值的信息进行用户分类分析。电网部门可以使用基于flink大数据流处理框架的仿生k

means聚类算法分析系统来解决这一问题。而针对普通k

means聚类算法在并行化计算中主要存在初始质心的选择问题和并行化计算框架的选择问题。本系统提出以 pso粒子群仿生算法对数据集进行计算得到的最优位置为依据,对传统k

means 算法的初始质心选取进行优化,并提出将改进后的k

means算法应用至当下新一代的流式计算框架flink中。
[0033]
方案设计过程如下:
[0034]
(1)以电力营销信息系统中电费收缴及营销账务业务和95598客户系统积累的大量电力用户基本信息,包括缴费欠费、95598工单处理、催办督办、客户通话、应缴电费、收费记录、费控用户、投诉等信息为基础,进行用户用电数据挖掘,数据库对接获取形成初步的用户用电数据集。
[0035]
(2)以pso粒子群仿生算法对用电数据集进行计算得到的最优位置为依据,对传统k

means算法的初始质心选取进行优化。
[0036]
对预设用电数据集进行初始化,随机选取一个用户用电数据作为粒子,依据以下公式的最大距离原则选取剩下的粒子。重复n次,产生一个含有n个粒子的粒子群。
[0037][0038]
(3)每一个粒子按照最小距离原则划分初始聚类数据集,初始化位置编码,按照以
下公式计算粒子的适应度值,并初始化速度。
[0039][0040]
其中,z
j
表示第j个聚类的中心;||x
i
,z
j
||表示样本到对应聚类中心的欧式空间距离;ρ为随机的一个整数。粒子个体的适应度值与总的类间离散度呈负相关,即离散度越小,个体适应度越大。
[0041]
(4)寻找每个粒子的个体极值与全局最值。在根据以下公式更新粒子的速度与位置。
[0042][0043][0044]
公式中,i=1,2,

,n,n为当前群中的粒子数;为第t次迭代计算时第i颗粒子的速度属性值;为第t次迭代计算时第i颗粒子的位置属性值; c1、c2为约束权重因子,一般取随机常数;r1、r2为[0,1]之间的随机数。 (pbest
i
,gbest
i
)为两个极值,分别表示第i颗粒子所经过的最好位置和种群最优位置。
[0045]
(5)以更新后的粒子为聚类中心,对数据集进行重新聚类,并计算每个粒子的适应度值。判断当前种群适应度fit
i
是否低于某个阈值时或者达到最大迭代次数。使用粒子群算法得到的最佳位置作为k

means算法的初始中心。
[0046]
(6)在flink流处理大数据框架上将用电数据集进行有效划分。数据集读取利用flink流处理大数据框架上的getpointdataset算子读取原生用户用电数据集得到sourcepoints数据流,利用getsourceclusterdataset算子读取pso算法计算生成的初始质心数据集得到sourceclusterpoint数据流。将数据集分割成分区子集,为后续的聚类并行化提供数据源。本算法模型采用hash

partition分区方式,根据指定key的哈希值对数据集进行分区,将数据集d分为p个部分,得到sourcepartitionpoints数据流。
[0047]
(7)针对分区好的数据集,进行归一化处理。利用map算子、reduce算子对所有数据点进行归一化处理,得到最后的points数据流和clusters初始质心数据流。
[0048]
(8)进行聚类并行化。flink平台的jobmanager作为主节点,负责数据的划分与分配;taskmanager作为从节点,负责完成本地数据的并行化计算并将结果返回给主节点。首先由jobmanager完成对数据集的划分与任务分配,并利用广播变量至各taskmanager;然后taskmanager完成质心至数据子集的欧式距离计算,并标出每一个数据点的分类;最后将计算得到的sse与数据点所属类别返回至jobmanager,开始迭代计算,直至收敛或者迭代次数执行完毕。最后进行聚类结果合并。聚类并行化迭代计算完之后,得到各分区子集的部分质心。
[0049]
(9)将电力用户数据仿生聚类分析的结果输出至前端交互模块。
[0050]
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书 所做的等效结构或等流程变换,或直接或间接运用在相关技术领域,均同理包括在本发明的专利保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献