基于流处理大数据框架的电力用户数据仿生聚类分析模型的制作方法

2021-11-03 21:16:00 来源：中国专利 TAG：

技术特征：
1.一种基于流处理大数据框架的电力用户数据仿生聚类分析模型。其特征在于电力部门利用普通k
‑
means算法结合pso粒子群仿生算法和flink流计算框架对电力用户用电数据集进行聚类分析。本框架模型由k
‑
means质心优化选择和flink框架下pso
‑
fk
‑
means算法并行化两部分组成。所述方案包含以下步骤：步骤一：以电力营销信息系统中电费收缴及营销账务业务和95598客户系统积累的大量电力用户基本信息，包括缴费欠费、95598工单处理、催办督办、客户通话、应缴电费、收费记录、费控用户、投诉等信息为基础，进行用户用电数据挖掘，形成初步的用户用电数据集。步骤二：以pso粒子群仿生算法对用电数据集进行计算得到的最优位置为依据，对传统k
‑
means算法的初始质心选取进行优化。步骤三：在flink流计算大数据框架上将用电数据集进行有效的划分。步骤四：在flink流计算大数据框架上基于划分好的用电数据集实现k
‑
means算子的并行化，有效提高海量用户用电数据下k
‑
means算法的计算效率。2.根据权利要求1所述的一种基于流处理大数据框架的电力用户数据仿生聚类分析模型，其特征在于，步骤二所述的初始质心选取优化过程包含以下步骤：步骤一：对预设用电数据集进行初始化，随机选取一个用户用电数据作为粒子，依据以下公式的最大距离原则选取剩下的粒子。重复n次，产生一个含有n个粒子的粒子群。其中c表示分类中心集合，x
j
表示数据集中第j个数据，k表示类簇数。步骤二：每一个粒子按照最小距离原则划分初始聚类数据集，初始化位置编码，按照以下公式计算粒子的适应度值，并初始化速度。其中，z
j
表示第j个聚类的中心；||x
i
，z
j
||表示样本到对应聚类中心的欧式空间距离；ρ为随机的一个整数。粒子个体的适应度值与总的类间离散度呈负相关，即离散度越小，个体适应度越大。步骤三：寻找每个粒子的个体极值与全局最值。在根据以下公式更新粒子的速度与位置。。公式中，i＝1，2，
…
，n，n为当前群中的粒子数；为第t次迭代计算时第i颗粒子的速度属性值；为第t次迭代计算时第i颗粒子的位置属性值；c1、c2为约束权重因子，一般取随机常数；r1、r2为[0，1]之间的随机数。(pbest
i
，gbest
i
)为两个极值，分别表示第i颗粒子所经过的最好位置和种群最优位置。步骤四：以更新后的粒子为聚类中心，对数据集进行重新聚类，并计算每个粒子的适应度值。判断当前种群适应度fit
i
是否低于某个阈值时或者达到最大迭代次数。使用粒子群
算法得到的最佳位置作为k
‑
means算法的初始中心。3.根据权利要求1所述的一种基于流处理大数据框架的电力用户数据仿生聚类分析模型，其特征在于，步骤三所述的在f1ink流计算大数据框架上将用电数据集进行有效划分包含以下步骤：步骤一：数据集读取阶段采用文件读取方式，利用flink流计算大数据框架上的getpointdataset算子读取原生用户用电数据集得到sourcepoints数据流，利用getsourceclusterdataset算子读取pso算法计算生成的初始质心数据集得到sourceclusterpoint数据流。步骤二：将数据集分割成分区子集，为后续的聚类并行化提供数据源。本算法模型采用hash
‑
partition分区方式，根据指定key的哈希值对数据集进行分区，将数据集d分为p个部分，得到sourcepartitionpoints数据流。4.根据权利要求1所述的一种基于流处理大数据框架的电力用户数据仿生聚类分析模型，其特征在于，步骤四在flink流计算大数据框架上基于划分好的数据集实现k
‑
means算子的并行化包含以下步骤：步骤一：该步骤针对分区好的数据集，进行归一化处理。步骤二：该步骤进行聚类并行化。flink平台jobmanager作为主节点，负责数据的划分与分配；taskmanager作为从节点，负责完成本地数据的并行化计算并将结果返回给主节点。首先由jobmanager完成对数据集的划分与任务分配，并利用广播变量至各taskmanager；然后taskmanager完成质心至数据子集的欧式距离计算，并标出每一个数据点的分类；最后将计算得到的sse与数据点所属类别返回至jobmanager，开始迭代计算，直至收敛或者迭代次数执行完毕。步骤三：该步骤进行聚类结果合并。聚类并行化迭代计算完之后，得到各分区子集的部分质心。本文采取最小化asse的方法将各分区质心进行聚合操作，从而保证聚类结果的有效性和准确性。5.根据权利要求4所述的基于流处理大数据框架的电力用户数据仿生聚类分析模型，其特征在于，步骤一所述的数据集归一化处理包含以下步骤：步骤一：在flink流计算框架上对分区好的sourcepartitionpoints数据流，利用map算子进行字符型特征转换得到featurepoints数据流。步骤二：在flink流计算框架上对数据格式转换完成的featurepoints数据流，利用reduce算子计算每一个特征值点的最大值与最小值，得到maxminpoint数据流。步骤三：在flink流计算框架上对maxminpoint数据流，利用map算子对所有数据点进行归一化处理，得到最后的points数据流。步骤三：在flink流计算框架上对读取使用pso算法计算生成的初始质心数据集得到sourceclusterpoint数据流，利用map算子对所有初始质心进行字符型特征转换和归一化处理，得到最后的clusters初始质心数据流。

技术总结
在新兴技术飞速发展的时代，诸如云计算、大数据和人工智能等技术使得各类信息产业产生了近8060EB的海量数据。对于海量数据的处理成为了数据挖掘和机器学习的一个极具挑战性的任务。针对传统聚类算法K

技术研发人员：汪文豪史雪荣
受保护的技术使用者：南京工业大学
技术研发日：2021.06.25
技术公布日：2021/11/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种LCD邦定PIN电路原理图的审核系统及审核方法与流程

基于流处理大数据框架的电力用户数据仿生聚类分析模型的制作方法

相关文献

最热文献