一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于DBSCAN聚类的负荷异常检测方法及系统与流程

2022-08-10 18:46:35 来源:中国专利 TAG:

一种基于dbscan聚类的负荷异常检测方法及系统
技术领域
1.本发明属于电力系统负荷的检测技术领域,具体涉及一种基于dbscan聚类的负荷异常检测方法及系统。


背景技术:

2.配电网在整个电力系统中发挥着至关重要的作用,配电网中精准可靠的负荷数据有助于负荷预测、调度生产等工作需求。因此,如何准确地辨识配电网中的异常负荷数据成为最需要解决的问题之一。
3.电力负荷量测数据在采集、传递、交换等过程中,常因设备、网络或者天气等原因导致有些数据出现错误,从而影响电力负荷的预测、调度等工作,数据质量会直接影响数据关联以及整合结果。因此,对负荷异常数据进行检测就显得尤为重要。
4.机器学习的发展使得对负荷异常辨识的方法变得更多且准确,借助机器学习中的无监督学习可以为负荷异常数据进行分簇,再人为地定义每个簇的异常类型,即可做到负荷异常辨识。现有技术1(cn109492048a)“一种电力用户用电特性的提取方法、系统及终端设备”,对样本数据进行处理获得目标用电数据集;通过dbscan聚类算法(density-based spatial clustering of applications with noise,具有噪声的基于密度的聚类算法)和聚类有效性指标,计算目标用电数据集的负荷模式聚类数;通过dbscan聚类算法,将目标用电数据集按照负荷模式聚类数聚类,得到电力用户用电特性曲线。现有技术1通过将dbscan聚类算法和聚类有效性指标相结合,先确定负荷模式聚类数,再提取电力用户用电特性。现有技术2(cn109583763a)“分行业用户电力负荷增长特征挖掘算法”,包括:汇集电力用户基础信息,搭建营配大数据汇集仓库;计算电力用户增长特性参数,应用logsitic模型拟合用户负荷数据,识别用户的负荷成长模式,将多维度的历史负荷数据转换为三个维度;采用参数自适应的dbscan聚类分析算法,对用户增长特性参数进行聚类,分不同行业、不同用电规模搜索典型组团;统计所有行业类别的负荷增长参数典型值,根据典型参数值形成行业典型负荷成长曲线,并应用参数标准差值来判断规律强弱程度。现有技术2能够用于分析海量电力用户负荷数据,识别电力用户的负荷成长模式,提炼各级行业的用户电力负荷增长特征。现有技术3(cn113326296a)“一种适用于工商业用户的负荷分解的方法及系统”,按照固定时间周期提取波形数据的特征,形成特征时序序列;基于dbscan聚类,对预处理后的特征时序序列进行聚类操作,获得聚类结果,根据聚类结果提取预处理后的特征时序序列的序列点,重新组建特征差值时序序列,确定优化特征差值时序序列;对优化特征差值时序序列进行差值匹配,确定差值匹配结果;对归属于同一种设备的启停状态事件进行映射,优化特征维度,辨识设备的电气类型,确定负荷辨识结果,建立工商业用户的专属模型特征库;对于待分析的一段时间的总线侧波形数据,根据负荷辨识结果,得到一段时间的各类设备负荷功耗占比,实现工商业用户总线负荷的分解。
5.现有技术1至3均使用dbscan聚类算法对具有凸样本特性的负荷集合进行聚类,然而负荷异常集合具有非凸样本特性,以现有技术1至3为代表的相关研究均未涉及使用
dbscan聚类算法对负荷异常数据的聚类分析。此外,现有技术1的缺点在于尽管采用dbscan对负荷模式进行聚类,但是未对数据进行预处理,而dbscan的聚类精度容易受到噪声数据的影响。
6.本发明相对于技术1不同的创新点有采用拉格朗日插值法去除负荷数据中的间断点,同时采用改进小波阈值去噪算法去除负荷数据中的噪声点。本发明相对于现有技术1具有排除由于数据采集过程中由于噪声点及间断点造成的影响,将聚类过程聚焦于发现电网异常时的负荷情况的有益效果。


技术实现要素:

7.为解决现有技术中存在的不足,本发明的目的在于,提供一种基于dbscan聚类的负荷异常检测方法及系统,直接采集负荷异常数据进行dbscan聚类,通过聚类异常类型的个数并定义每个异常类型,从而提升负荷异常检测的准确性和可靠性。
8.本发明采用如下的技术方案。
9.本发明一方面提出一种基于dbscan聚类的负荷异常检测方法,包括:
10.步骤1,采集负荷异常数据;
11.步骤2,对负荷异常数据进行预处理后得到可靠数据集;将可靠数据集划分为训练集和测试集;
12.步骤3,搭建dbscan聚类模型,以训练集为输入,以异常类型聚类簇为输出,对聚类模型进行训练;
13.步骤4,使用训练好的聚类模型对测试集进行聚类,以轮廓系数作为聚类结果评价指标,以获得负荷异常的多个辨识类型簇。
14.步骤1中,负荷数据包括:有功功率和无功功率。异常数据主要包括两种类型:一种是由于数据缺损导致负荷数据波形中产生尖峰,另一种就是由于冲击负荷和信道噪声使得负荷数据波形中出现大量的毛刺。
15.步骤2包括:
16.步骤2.1,采用拉格朗日插值法去除负荷异常数据中的间断点;
17.步骤2.2,采用改进小波阈值去噪算法去除负荷异常数据中的噪声点;
18.步骤2.3,经过步骤2.1和2.2处理后得到可靠数据集,对可靠数据集按2:1的比例划分为训练集和测试集。
19.步骤3包括:
20.步骤3.1,建立输入集合d={x1,x2,

,xm}和邻域∈,j=1,2,

,m;
21.步骤3.2,初始化核心对象集合,即令ω=φ;初始化聚类簇数,即令k=0;初始化未访问样本集合,即令γ=d;初始化异常类型聚类簇,即令c=φ;
22.步骤3.3,每次迭代寻找时令k=k 1;利用距离度量方法,迭代寻找全部的核心对象;
23.步骤3.4,若核心对象集合ω=φ,则迭代结束,进入步骤3.8;若核心对象集合ω≠φ,则进入步骤3.5;
24.步骤3.5,在核心对象集合ω中,随机选择第一个核心对象o,初始化当前簇核心对象队列,即令ω
cur
={o},初始化当前簇样本集合,即令ck={o},更新未访问样本集合,即令
γ=γ-{o};
25.步骤3.6,如果当前簇核心对象队列则当前聚类簇ck生成完毕,更新簇划分集合c={c1,c2,...,ck},更新核心对象集合,即令ω=ω-ck,并转入步骤3.3;否则更新核心对象集合,即令ω=ω-ck;
26.步骤3.7,在当前簇核心对象队列ω
cur
中取出第二个核心对象o

,通过邻域距离阈值找出第二个核心对象在邻域∈中中对应的子样本集n

(o

),令δ=n

(o

)∩γ,更新当前簇样本集合,即令ck=ck∪δ,更新未访问样本集合,即令γ=γ-δ,更新当前簇核心对象队列,即令ω
cur
=ω
cur
∪(δ∩ω)-o

,并转入步骤3.3;
27.步骤3.8,输出异常类型聚类簇c={c1,c2,...,ck}。
28.步骤3.1中,对于第j个样本xj在邻域∈中对应的子样本集n

(xj)至少包含minpts个样本,minpts=5。
29.步骤3.3中,距离度量方法包括kd树实现法;
30.从训练集中提取w维特征以获得kd树模型;其中,计算w维特征的取值的方差,用方差最大的第w维特征作为根节点,并选取第w维特征的取值的中位数对应的样本作为划分点;对特征的取值小于第w维特征的取值的中位数的样本均划入左子树,对特征的取值大于第w维特征的取值的中位数的样本均划入右子树;对于左子树和右子树,再采用用方差最大的第v维特征作为父节点,递归生成kd树模型;
31.利用kd树模型在测试集中预测样本目标点的最近邻;其中,对于一个样本目标点,首先在kd树模型里面找到包含样本目标点的叶子节点,以样本目标点为圆心,以样本目标点到叶子节点的距离为半径,得到一个超球体;返回叶子节点的父节点,检查父节点对应的另一个子节点包含的超矩形体是否和超球体相交,如果相交,则进入叶子节点寻找是否有更加接近的近邻;如果不相交;返回父节点的父节点,在另一个子树搜索最近邻;当回溯到根节点时,算法结束,此时保存的最近邻节点就是预测得到的样本目标点的最近邻。
32.步骤3.4中,如果子样本集n

(xj)中样本个数满足|n

(xj)|≥minpts,将第j个样本xj加入核心对象集合,即令ω=ω∪{xj}。
33.步骤4中,根据轮廓系数公式计算出轮廓系数值。
34.本发明另一方面提出一种基于dbscan聚类的负荷异常检测系统,用于实现一种基于dbscan聚类的负荷异常检测方法。
35.负荷异常检测系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用计算机程序执行一种基于dbscan聚类的负荷异常检测方法的各个步骤,以负荷异常数据为负荷异常检测系统的输入数据,以负荷异常的多个辨识类型簇为负荷异常检测系统的输出数据。
36.本发明的有益效果在于,与现有技术相比,本发明在经过数据预处理后,充分利用dbscan聚类算法的聚类优势,聚类结果的精确度得到进一步提升,聚类过程中,无需预设聚类簇数,通过寻找数据内在规律、及时发现数据异常点,从而实现对负荷异常数据的聚类,根据聚类结果准确辨识负荷异常类型。
37.dbscan聚类算法既可以适用于凸样本集,也可以适用于非凸样本集,因此能够对直接采集的负荷异常数据进行dbscan聚类,通过聚类异常类型的个数并定义每个异常类型,从而提升负荷异常检测的准确性和可靠性。
附图说明
38.图1是本发明提出的一种基于dbscan聚类的负荷异常检测方法的流程框图。
具体实施方式
39.下面结合附图对本技术作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本技术的保护范围。
40.如图1,本发明一方面提出一种基于dbscan聚类的负荷异常检测方法,包括:
41.步骤1,采集负荷异常数据。
42.步骤1中,负荷数据包括:有功功率和无功功率。异常数据主要包括两种类型:一种是由于数据缺损导致负荷数据波形中产生尖峰,另一种就是由于冲击负荷和信道噪声使得负荷数据波形中出现大量的毛刺。
43.步骤2,对负荷异常数据进行预处理后得到可靠数据集;将可靠数据集划分为训练集和测试集。
44.步骤2包括:
45.步骤2.1,采用拉格朗日插值法去除负荷异常数据中的间断点;
46.步骤2.2,采用改进小波阈值去噪算法去除负荷异常数据中的噪声点;
47.步骤2.3,经过步骤2.1和2.2处理后得到可靠数据集,对可靠数据集按2:1的比例划分为训练集和测试集。
48.本优选实施例中,将所有异常的负荷数据进行预处理,通过插值法去除间断点,获得可靠数据,通过改进小波阈值去噪算法去除噪声点。
49.去除间断点时,考虑到数据在采集过程中可能存在连续多个间断点,为了简化计算,采用牛顿插值法。
50.小波阈值去噪时,首先确定阈值,阈值设置越大,则有用信息保留越多,同时噪声保留也越多。采用固定阈值门限规则计算阈值t:
[0051][0052]
式中,n是信号的尺寸,σ表示噪声标准。
[0053]
确定好阈值t后再确定阈值函数。
[0054]
最后对负荷数据进行小波分解得到原始信号,设置合理的阈值进行m层分解求得小波系数组,利用小波系数组进行小波信号重构。
[0055]
步骤3,搭建dbscan聚类模型,以训练集为输入,以异常类型聚类簇为输出,对聚类模型进行训练。
[0056]
步骤3包括:
[0057]
步骤3.1,建立输入集合d={x1,x2,

,xm}和邻域∈,j=1,2,

,m;
[0058]
优选地,步骤3.1中,对于第j个样本xj在邻域∈中对应的子样本集n

(xj)至少包含minpts个样本,minpts=5。
[0059]
值得注意的是,本优选实施例中子样本集至少包含样本的个数minpts取值为5,是一种非限制性的较优选择。
[0060]
步骤3.2,初始化核心对象集合,即令ω=φ;初始化聚类簇数,即令k=0;初始化
未访问样本集合,即令γ=d;初始化异常类型聚类簇,即令c=φ;
[0061]
步骤3.3,每次迭代寻找时令k=k 1;利用距离度量方法,迭代寻找全部的核心对象;
[0062]
优选地,步骤3.3中,距离度量方法包括kd树实现法;
[0063]
从训练集中提取w维特征以获得kd树模型;其中,计算w维特征的取值的方差,用方差最大的第w维特征作为根节点,并选取第w维特征的取值的中位数对应的样本作为划分点;对特征的取值小于第w维特征的取值的中位数的样本均划入左子树,对特征的取值大于第w维特征的取值的中位数的样本均划入右子树;对于左子树和右子树,再采用用方差最大的第v维特征作为父节点,递归生成kd树模型;
[0064]
利用kd树模型在测试集中预测样本目标点的最近邻;其中,对于一个样本目标点,首先在kd树模型里面找到包含样本目标点的叶子节点,以样本目标点为圆心,以样本目标点到叶子节点的距离为半径,得到一个超球体;返回叶子节点的父节点,检查父节点对应的另一个子节点包含的超矩形体是否和超球体相交,如果相交,则进入叶子节点寻找是否有更加接近的近邻;如果不相交;返回父节点的父节点,在另一个子树搜索最近邻;当回溯到根节点时,算法结束,此时保存的最近邻节点就是预测得到的样本目标点的最近邻。
[0065]
值得注意的是,本优选实施例中距离度量方法包括但不限于kd树实现法,本领域技术人员可以根据需要选择不同的距离度量方法。
[0066]
优选地,步骤3.3中,距离度量方法包括欧氏距离法;即采用欧氏距离确定每个数据点与其它数据点之间的距离。
[0067]
步骤3.4,若核心对象集合ω=φ,则迭代结束,进入步骤3.8;若核心对象集合ω≠φ,则进入步骤3.5;
[0068]
优选地,步骤3.4中,如果子样本集n

(xj)中样本个数满足|n

(xj)|≥minpts,将第j个样本xj加入核心对象集合,即令ω=ω∪{xj}。
[0069]
步骤3.5,在核心对象集合ω中,随机选择第一个核心对象o,初始化当前簇核心对象队列,即令ω
cur
={o},初始化当前簇样本集合,即令ck={o},更新未访问样本集合,即令γ=γ-{o};
[0070]
步骤3.6,如果当前簇核心对象队列则当前聚类簇ck生成完毕,更新簇划分集合c={c1,c2,...,ck},更新核心对象集合,即令ω=ω-ck,并转入步骤3.3;否则更新核心对象集合,即令ω=ω-ck;
[0071]
步骤3.7,在当前簇核心对象队列ω
cur
中取出第二个核心对象o

,通过邻域距离阈值找出第二个核心对象在邻域∈中中对应的子样本集n

(o

),令δ=n

(o

)∩γ,更新当前簇样本集合,即令ck=ck∪δ,更新未访问样本集合,即令γ=γ-δ,更新当前簇核心对象队列,即令ω
cur
=ω
cur
∪(δ∩ω)-o

,并转入步骤3.3;
[0072]
步骤3.8,输出异常类型聚类簇c={c1,c2,...,ck}。
[0073]
步骤4,使用训练好的聚类模型对测试集进行聚类,以轮廓系数作为聚类结果评价指标,以获得负荷异常的多个辨识类型簇。
[0074]
步骤4中,根据轮廓系数公式计算出轮廓系数值。
[0075]
以如下关系式计算轮廓系数s(i):
[0076][0077]
式中,
[0078]
a(i)为第i个样本到同簇其他样本的平均距离,a(i)越小说明第i个样本越应该被聚类到该簇;
[0079]
b(i)为第i个样本到其它异常类型聚类簇cj的平均距离,称为第i个样本与簇cj的不相似度;
[0080]
s(i)接近1,则说明第i个样本的聚类合理;s(i)接近-1,则说明第i个样本更应该分类到另外的簇,通过修改参数重新进行聚类。
[0081]
本发明另一方面提出一种基于dbscan聚类的负荷异常检测系统,用于实现一种基于dbscan聚类的负荷异常检测方法。
[0082]
负荷异常检测系统包括存储器、处理器、无线通讯模块;所述存储器存储有计算机程序,处理器调用计算机程序执行一种基于dbscan聚类的负荷异常检测方法的各个步骤,以负荷异常数据为负荷异常检测系统的输入数据,以负荷异常的多个辨识类型簇为负荷异常检测系统的输出数据。
[0083]
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献