一种电力用户画像自适应聚类方法与流程

2022-02-19 09:24:35 来源：中国专利 TAG：

1.本发明涉及一种电力用户画像自适应聚类方法，属数据挖掘技术领域。

背景技术：

2.根据电力用户的基本属性、用电行为、缴费行为和诉求行为的差异，开展特征分类和分级，从每种类型中抽取出典型特征,赋予标签的阈值，根据最终标签，结合业务需求场景，开展电力用户个体和群体画像，预测客户行为，准确预估用电量，减少电力供给损失，提高服务满意度，节省电能，是今天电力企业的一项至关重要的工作。进行电力用户个体和群体画像，首先要在大量未标记数据中将数据划分为相似数据点的集群，但实践中通常都不知道有多少集群，构建聚类模式很棘手，现有的基于k表示框架、基于特征提取框架，以及基于密度的框架来构建聚类模式，都是用一个比较容易理解的集群数量参数去交换更复杂的参数，检测到的集群数量在很大程度上受这个较容易理解的集群参数的控制；这类将一个集群参数替换为其他参数的方法对于由大型高维数据：图像、视频和文本组成的现代数据集群而言，构建的聚类模式差强人意，聚类性能难以令人满意。

技术实现要素：

3.本发明的目的在于，针对上述现有技术的不足，提供一种电力用户画像自适应聚类方法，采用自动编码机原理实现特征提取，使用恰当的损失函数将高维数据降维，获得到更高信息密度的低维信息；采用k均值算法操作进行聚类分析，低维度信息得到在低维度内的初始聚类类别；采用单峰统计测试作为融合的基础算法进行类别融合；集特征提取、聚类分析和类别融合优化于一体，构建集群聚类模式，得到初始聚类类别后，计算类别间的单峰统计测试值，根据该值进行类间的融合；实现在预先不知道类数的情况下得到合适的类簇数量，有效提升聚类的性能。
4.本发明是通过如下的技术方案来实现上述目的的：一种电力用户画像自适应聚类方法，其特征在于：它是通过包括如下的步骤实现的：a、特征提取；b、聚类分析；c、类别融合；特征提取提取实现数据多元化，包括时序数据、类别数据，且无需对数据进行标准化；输入数据首先通过一个编码网络进行特征提取，然后通过k均值算法进行初始聚类，后通过单峰统计测试值矩阵进行类别融合，通过统一的损失函数统一优化，重复特征提取、聚类分析和类别融合上述步骤过程直至稳定，最后输出标签和类簇数量k。
5.所述特征提取通过如下子步骤实现：a.1）自动编码机准备：自动编码机分为编码部分enc(
·
)和解码部分dec(
·
)，输入为x；
a.2）自动编码机训练：网络的输入和输出是相同的，即x = dec(enc(x))，训练使loss函数值最小；a.3）特征提取，使用训练好的自动编码机的编码部分得到特征数据：enc(x)。
6.所述聚类分析通过如下子步骤实现：b.1）将原始输入特征(x)输入编码部分,得到低维的特征向量enc(x)；b.2）将步骤2.1得到的enc(x)使用k均值算法进行聚类，得到原始的类别记为，其中i表示聚类标签；b.3）更新类别中心为最靠近k均值算法所得出的类别中心的实际的向量，得到聚类类别数据标签。
7.所述类别融合通过如下子步骤实现：c.1）每两个类别的聚类类别数据标签均投影到两类类别中心的连线上；c.2）每两个类别中心的数据计算单峰统计测试值为dip值和dip
‑
p
‑
value值，使用dip
‑
p
‑
value值得到一个大小为：类簇数量*类簇数量的单峰统计测试值的对称矩阵matrix；c.3）对于单峰统计测试矩阵中最大的值，若最大的值大于阈值则融合两个类，同时更新矩阵，直到没有融合合并为止。
8.一种电力用户画像自适应聚类方法，其特征在于：所述的自动编码机网络训练过程使用梯度下降法对公式（1）求最小值：最小值：表示自动编码机的损失，其中b表示一个小的输入批次，x表示输入数据，也即自动编码机想要的输出数据，enc(
·
)表示数据经过编码网络编码后的数据，dec(
·
)表示数据经过解码网络后的数据，表示欧式距离的平方。
9.一种电力用户画像自适应聚类方法，其特征在于：自动编码机编码后的结果首先通过普通的k均值算法进行一个非常高估的类簇数量的聚类，求取类簇中心，随后对当前类簇构造单峰统计测试值的矩阵，再根据该单峰统计测试值的矩阵进行类簇融合，最后输出类簇数量k和具体的标签。
10.一种电力用户画像自适应聚类方法，其特征在于：所述类簇中心按照公式（2）得到：其中表示类簇标签为的类簇中心。表示使用k均值算法得到的类簇中心。
11.计算单峰统计测试值的点值由公式（3）得到：
其中是一个一维数据。
12.一种电力用户画像自适应聚类方法，其特征在于：聚类的损失评估使用公式（4）得到，并且通过最小化公式（6）对整个过程进行优化：到，并且通过最小化公式（6）对整个过程进行优化：表示聚类的损失，其中是分配给的类簇标签，std(
·
)表示标准差，mean(
·
)表示平均值。表示类簇中心的欧式距离，由公式（5）得到：其中表示自动编码机的损失，表示聚类的损失。
13.一种电力用户画像自适应聚类方法，其特征在于：类簇融合后类簇中心通过公式（7）得到：并且通过不断更新单峰统计测试值的矩阵进行合并。
14.本发明与现有技术相比的有益效果在于：该电力用户画像自适应聚类方法，特征提取通过使用平方损失函数，将高维的数据降维，聚类分析则使用应用范围较广泛的k均值算法进行操作，类别融合阶段则使用单峰统计测试作为融合的基础算法，获得到更高信息密度的低维度信息，从低维度信息得到在低维度内的初始聚类类别；采用单峰统计测试进行类别融合，依据单峰函数的特质，集特征提取、聚类分析和类别融合优选于一体，构建集群聚类模式，得到初始聚类类别后，计算类别间的单峰统计测试值，再根据该值进行类间的融合；实现在预先不知道类数的情况下得到合适的类簇数量，有效提升聚类的性能。解决了现有技术将一个集群参数替换为其他参数的方法，对由大型高维数据构建聚类模式效果差强人意，聚类性能无法令人满意的问题。
附图说明
15.图1为本发明的特征提取的工作流程示意图；图2为本发明的聚类分析的工作流程示意图；图3为本发明的整体工作流程示意图。
具体实施方式
16.下面结合附图对该电力用户画像自适应聚类方法的实施方式作进一步详细说明（参见图1
‑
3）：应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。
17.一种电力用户画像自适应聚类方法，其特点是：它是通过包括如下的步骤实现的：步骤a、特征提取；步骤b、聚类分析；步骤c、类别融合；特征提取实现数据多元化，包括时序数据、类别数据，且无需对数据进行标准化；输入数据首先通过一个编码网络进行特征提取，然后通过k均值算法进行初始聚类，后通过单峰统计测试值矩阵进行类别融合，通过统一的损失函数统一优化，重复特征提取、聚类分析和类别融合上述步骤过程直至稳定，最后输出标签和类簇数量k。
18.步骤a、特征提取，具体实现包含以下子步骤：a.1）：自动编码机准备：自动编码机分为编码部分enc(
·
)和解码部分dec(
·
)，输入为x；数据多元化，包含时序数据、类别数据，无需对数据进行标准化；网络准备：将自动编码机网络分成编码部分（encoder）和解码部分（decoder）；a.2：自动编码机训练：网络的输入和输出是相同的，即x = dec(enc(x))，训练使loss函数值最小；网络训练：网络的输入即为网络的输出（参见图1、图2和表一），样本经过八层全连接层，六层leakyrelu层，从网络的编码部分输出提取后的特征enc(x)，训练过程使用梯度下降法对公式（1）求最小值：使用梯度下降法对公式（1）求最小值：表示自动编码机的损失，其中b表示一个小的输入批次，x表示输入数据，也即自动编码机想要的输出数据，enc(
·
)表示数据经过编码网络编码后的数据，dec(
·
)表示数据经过解码网络后的数据，并且表示欧式距离的平方。
19.表一：分解网络参数
a.3）：特征提取，使用训练好的自动编码机的编码部分得到特征数据：enc(x)，最终得到特征数据。
20.步骤b、聚类分析，（参见图2和图3），具体实现包含以下子步骤：b.1）：将原始数据输入编码部分得到特征向量enc(x)；即将原始数据(x)输入编码部分,得到低维的特征向量enc(x)；b.2）：将步骤2.1得到的enc(x)使用k均值算法进行聚类，得到原始的类别记为，其中i表示聚类标签；子步骤b.2）对于编码后的结果，首先通过普通的k均值算法估算一个非常高类簇数量的聚类，求取类簇中心，然后对当前的类簇构造单峰统计测试值的矩阵matrix，最后根据该单峰统计测试值的矩阵matrix进行类簇融合，最终输出类簇数量k和具体的标签。
21.所述类簇中心按照公式（2）得到：其中表示聚类标签为的类簇中心。的类簇中心。表示使用k均值算法得到的类簇中心。
22.b.3）：更新类簇中心为最靠近k均值算法所得出的类簇中心的实际的向量，得到聚类类别数据标签。
23.计算单峰统计测试值的点值由公式（3）得到
其中是一个一维数据。
24.表示聚类的损失，公式（4）中，是分配给x的类簇标签，std(
·
)表示标准差mean(
·
)表示平均值。表示类簇中心的欧式距离。
25.聚类的损失评估使用公式（4）得到，并且通过最小化公式（6）对整个过程进行优化。
26.类簇中心的欧式距离由公式（5）得到：其中表示自编码机的损失，表示聚类的损失。
27.步骤c、类别融合，（参见图1和图3），具体实现包含以下子步骤：c.1）：每两个类别的数据均投影到两类类别中心的连线上；即每两个类别的聚类类别数据标签均投影到两类类别中心的连线上；c.2）：每两个类别中的数据计算单峰统计测试的值为dip值和dip
‑
p
‑
value值，使用dip
‑
p
‑
value值，得到一个大小为类簇数量*类簇数量的单峰统计测试值对称矩阵matrix；作为优选，步骤c.2）进行类簇融合后类簇中心通过公式（7）得到：并且通过不断更新单峰统计测试值的矩阵matrix进行合并。
28.c.3）：对于单峰统计测试值矩阵中最大的值，若该最大的值大于阈值，则融合两个类，同时更新矩阵，直到没有融合合并为止。
29.给电力用户画像，根据电力用户的基本属性、用电行为、缴费行为和诉求行为的差异，开展特征分类和分级，从每种类型中抽取出典型特征,赋予标签的阈值，根据最终标签，结合业务需求场景，开展电力用户个体和群体画像，预测客户行为，准确预估用电量，减少电力供给损失，提高服务满意度，节省电能，是今天电力企业的一项至关重要的工作。进行电力用户个体和群体画像，首先要在大量未标记数据中将数据划分为相似数据点的集群，但实践中通常都不知道有多少集群，存在构建聚类模式很棘手的问题。本发明提供一种电力用户画像自适应聚类方法，集特征提取、聚类分析和类别融合优化于一体，实现在预先不知道类数的情况下得到合适的类簇数量，有效的提升了聚类的性能。
30.以上所述只是本发明的较佳实施例而已，上述举例说明不对本发明的实质内容作任何形式上的限制，所属技术领域的普通技术人员在阅读了本说明书后依据本发明的技术实质对以上具体实施方式所作的任何简单修改或变形，以及可能利用上述揭示的技术内容
加以变更或修饰为等同变化的等效实施例，均仍属于本发明技术方案的范围内，而不背离本发明的实质和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：对象分类模型的训练方法、对象分类预测方法及装置与流程

一种电力用户画像自适应聚类方法与流程

相关文献

最热文献