一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种线损异常数据识别方法、装置、电子设备及存储介质与流程

2022-03-26 14:08:48 来源:中国专利 TAG:


1.本发明涉及数据识别技术领域,尤其涉及一种线损异常数据识别方法、装置、电子设备及存储介质。


背景技术:

2.电能损耗是电网企业经济效益的重要指标之一。线损异常的准确识别,一方面可以有效指导电网企业有针对性地开展节能损耗规划,另一方面可以为电网企业开展用电稽查、打击违约窃用电行为、挽回公司合法权益提供参考方向。然而,电网企业的服务对象群体庞大复杂,其有限的客户服务人力资源给全面铺开现场用电稽查带来了约束和限制。如何科学、客观、及时、准确地识别出线损异常情景,是目前各电网企业一直在探索推进的重大技术攻关。
3.传统稽查由于不掌握客户详细的用电数据,电网企业主要通过两种方式指导开展稽查工作的计划安排,一是结合客户月用电量,对于客户用电量飙升,或者最高负荷超过报装容量等情况,根据客服工作开展经验,安排客户走访和现场稽查计划;二是结合台区月度线损和接入客户的负荷特性,对于高于设定阈值的高损台区,根据客服工作开展经验,选择窃电可能性较高的行业客户,安排客户走访和现场稽查计划。选择月度用电异常客户和月度高损台区开展现场用电稽查,可将有限的资源集中到确定的客户、台区上,是一种经实践检验的传统实用线损异常识别方法,但其局限性也来自于其传统实践经验主义的主观臆断。
4.随着电力智能化建设的深入推进,数字化的电网企业逐步构建了自身的电能量大数据库,并探索电能量大数据变现之路。其中,线损作为电网企业数据中重要的业务数据,对线损数据的连续采集和智能分析恰恰正是电能量大数据价值变现的重要方向。目前,基于数据的线损异常检测主要有基于人工神经网络的异常检测、基于聚类的异常检测、基于无监督学习的异常检测。常见的现有技术包括:基于bp神经网络的异常值检测,即通过比较bp神经网络的预测值与线损数据,将偏差超出阈值的认定异常;基于dbscan聚类的异常检测,即通过聚类得到聚类簇,将离群点认定异常;基于孤立森林的异常值检测,即构建孤立森林的数据结构,通过二叉树结构快速判断样本点与周围样本点的差异程度,结合异常值评分认定异常。
5.传统做法过于依赖历史经验和稽查团队个人能力,现有技术大多根据日负荷曲线、用电量突降以及历史稽查信息设计选择特征指标项,再配合算法的适应性改进来识别用电异常。虽然电网企业服务客户数量巨大、行业类型繁杂,客户用电行为模式变化多样,但是随着人民日益增长的追求美好生活的电力需求,供电服务势必日趋精细化、定制化。如今负荷曲线时间间隔固定,普适化的数据识别未能很好地针对客户用电行为特征,并不一定严格满足所选择特征指标项假设的正常客户用电行为特性。而且,客户的实际用电情况必然不严格遵从各时间维度客户标准负荷曲线,容易引起误报。同时,电能量也存在识别不彻底,识别过程繁琐等问题。


技术实现要素:

6.本发明提供了一种线损异常数据识别方法、装置、电子设备及存储介质,用于解决现有的线损异常数据识别方法容易误报、定位精准度不高的技术问题。
7.本发明提供了一种线损异常数据识别方法,包括:
8.获取用户的用电量数据;
9.按照预设时间间隔对所述用电量数据进行分段,得到多个分段序列;
10.计算所述分段序列中各个用电量数据的熵值,得到所述分段序列的熵集曲线;
11.从所述熵集曲线中确定正常熵值区间;
12.将不处于所述正常熵值区间的熵值对应的用电量数据确定为异常数据。
13.可选地,所述按照预设时间间隔对所述用电量数据进行分段,得到多个分段序列的步骤之前,还包括:
14.对所述用电量数据进行预处理,得到预处理数据;
15.所述按照预设时间间隔对所述用电量数据进行分段,得到多个分段序列的步骤,包括:
16.按照预设时间间隔对所述预处理数据进行分段,得到多个分段序列。
17.可选地,所述计算所述分段序列中各个用电量数据的熵值,得到所述分段序列的熵集曲线的步骤,包括:
18.对所述分段序列中的用电量数据进行排序,得到用电量降序;
19.按照所述电量降序依次计算所述分段序列中每个用电量数据的熵值;
20.采用各用电量数据的熵值生成所述分段序列的熵集曲线。
21.可选地,所述按照所述电量降序依次计算所述分段序列中每个用电量数据的熵值的步骤,包括:
22.按照所述电量降序,依次将除第一个用电量数据以外的用电量数据作为节点数据,并将所述节点数据及所述节点数据之前的用电量数据作为样本数据;
23.计算所述样本数据中所有用电量数据对应的用电时间点的样本均值;
24.根据所述样本均值和所述用电时间点计算二阶中心距和四阶中心距;
25.采用所述二阶中心距和所述四阶中心距计算所述节点数据的熵值。
26.可选地,所述从所述熵集曲线中确定正常熵值区间的步骤,包括:
27.获取所述熵集曲线中斜率变化最大的点对应的熵值和斜率变化第二大的点对应的熵值作为超限值;
28.将两个所述超限值之间的区间确定为正常熵值区间。
29.可选地,所述超限值包括上限值和下限值;所述将不处于所述正常熵值区间的熵值对应的用电量数据确定为异常数据的步骤,包括:
30.将小于所述下限值的熵值对应的用电量数据确定为下部异常数据;
31.将大于所述上限值的熵值对应的用电量数据确定为上部异常数据。
32.本发明还提供了一种线损异常数据识别装置,包括:
33.获取模块,用于获取用户的用电量数据;
34.分段模块,用于按照预设时间间隔对所述用电量数据进行分段,得到多个分段序列;
35.计算模块,用于计算所述分段序列中各个用电量数据的熵值,得到所述分段序列的熵集曲线;
36.正常熵值区间确定模块,用于从所述熵集曲线中确定正常熵值区间;
37.异常数据确定模块,用于将不处于所述正常熵值区间的熵值对应的用电量数据确定为异常数据。
38.可选地,还包括:
39.预处理模块,用于对所述用电量数据进行预处理,得到预处理数据;
40.所述分段模块,包括:
41.分段子模块,用于按照预设时间间隔对所述预处理数据进行分段,得到多个分段序列。
42.本发明还提供了一种电子设备,所述设备包括处理器以及存储器:
43.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
44.所述处理器用于根据所述程序代码中的指令执行如上任一项所述的线损异常数据识别方法。
45.本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的线损异常数据识别方法。
46.从以上技术方案可以看出,本发明具有以下优点:本发明公开了一种线损异常数据识别方法,并具体公开了:获取用户的用电量数据;按照预设时间间隔对用电量数据进行分段,得到多个分段序列;计算分段序列中各个用电量数据的熵值,得到分段序列的熵集曲线;从熵集曲线中确定正常熵值区间;将不处于正常熵值区间的熵值对应的用电量数据确定为异常数据。由于用户在不同时间段的用电习惯并不一样,因此,本发明将用户的用电量数据按照时间间隔划分为多个分段序列,以避免不同时间段用电行为差异较大对识别结果的影响。接着分别计算每个分段序列中各个用电量数据的熵值,从而通过熵值的变化情况来识别异常数据,熵值可以在一定程度上反映用电量的突变,因此通过熵值的变化情况,可以有效识别异常数据。
附图说明
47.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
48.图1为本发明实施例提供的一种线损异常数据识别方法的步骤流程图;
49.图2为本发明另一实施例提供的一种线损异常数据识别方法的步骤流程图;
50.图3为本发明实施例提供的一种线损异常数据识别装置的结构框图。
具体实施方式
51.本发明实施例提供了一种线损异常数据识别方法、装置、电子设备及存储介质,用于解决现有的线损异常数据识别方法容易误报、定位精准度不高的技术问题。
52.为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明
实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
53.请参阅图1,图1为本发明实施例提供的一种线损异常数据识别方法的步骤流程图。
54.本发明提供了一种线损异常数据识别方法,具体可以包括以下步骤:
55.步骤101,获取用户的用电量数据;
56.在实际应用中,受线损影响,用户的用电量数据会有三种情况,包括用电量过低、用电量正常、用电量过高,其中,用电量过低和用电量过高是指用量低于或高于标准负荷曲线下上限阈值的用电量数据。标准负荷曲线,是指在未发生线损的情况下,一个标准时间单位内的用电量负荷曲线,一个标准时间单位可以为一个自然日、一个自然月等。具体可以根据实际分析需求来确定,本发明对此不作具体限定。
57.在本发明实施例中,可以获取一定时间段用户的用电量数据进行线损分析,如一周内、一月内的用电量数据,本发明对实际的选用的时间段不作具体限制。
58.步骤102,按照预设时间间隔对用电量数据进行分段,得到多个分段序列;
59.在获取到用户的用电量数据后,可以按照设定的时间间隔对所选取的时间段进行分段,得到多个分段序列,其中,每个分段序列中各有多个时间采样点对应的用电量数据。
60.在一个示例中,假设用电量数据的集合为e,将其划分为m段,则有e={e(1),e(2),...,e(m-1),e(m)}。
61.步骤103,计算分段序列中各个用电量数据的熵值,得到分段序列的熵集曲线;
62.在完成对用电量数据的时间划分得到多个分段序列后,可以计算各分段序列中各个用电量数据的熵值,从而得到分段序列的熵集曲线。
63.在一个示例中,可以通过云模型计算分段序列中各个用电量数据的熵值。
64.云模型是云的具体实现方法,也是基于云的运算、推理和控制等的基础。它可以表示由定性概念到定量表示的过程(正向云发生器),也可表示由定量表示到定性概念的过程(逆向云发生器)。云模型通过期望e
x
、熵en和超熵he3个数字特征描述概念的随机性与模糊性。其中,e
x
表示云滴分布的期望;en度量定性概念的不确定性,在论域空间中不仅反映云滴的离散程度又反映云滴的取值范围,可评价分段序列数据的稳定性;he度量熵的不确定性。
65.步骤104,从熵集曲线中确定正常熵值区间;
66.步骤105,将不处于正常熵值区间的熵值对应的用电量数据确定为异常数据。
67.熵集上的各个点代表不同用电量数据的熵值,根据曲线上熵值的变化情况,可以确定突变的点,一般而言,在用户行为正常的情况下,突变反映了线损的发生,因此,突变点对应的熵值可以作为正常熵值区间的临界点。处于正常熵值区间之外的熵值,对应于用电量过低或者用电量过高的情况,都属于异常数据。
68.在本发明实施例中,由于用户在不同时间段的用电习惯并不一样,因此,本发明将用户的用电量数据按照时间间隔划分为多个分段序列,以避免不同时间段用电行为差异较大对识别结果的影响。接着分别计算每个分段序列中各个用电量数据的熵值,从而通过熵值的变化情况来识别异常数据,熵值可以在一定程度上反映用电量的突变,因此通过熵值
的变化情况,可以有效识别异常数据。
69.请参阅图2,图2为本发明另一实施例提供的一种线损异常数据识别方法的步骤流程图。具体可以包括以下步骤:
70.步骤201,获取用户的用电量数据;
71.步骤201与步骤101相同,具体可以参见步骤101的描述,此处不再赘述。
72.步骤202,对用电量数据进行预处理,得到预处理数据;
73.在获取到用电量数据后,可以对用电量数据进行预处理,剔除测量、采集或传输等环节故障引起的异常数据,得到预处理数据。
74.步骤203,按照预设时间间隔对预处理数据进行分段,得到多个分段序列;
75.在获取到用户的用电量数据后,可以按照设定的时间间隔对所选取的时间段进行分段,得到多个分段序列,其中,每个分段序列中各有多个时间采样点对应的用电量数据。
76.步骤204,计算分段序列中各个用电量数据的熵值,得到分段序列的熵集曲线;
77.在完成对用电量数据的时间划分得到多个分段序列后,可以计算各分段序列中各个用电量数据的熵值,从而得到分段序列的熵集曲线。
78.在一个示例中,计算分段序列中各个用电量数据的熵值,得到分段序列的熵集曲线,可以包括以下子步骤:
79.s41,对分段序列中的用电量数据进行排序,得到用电量降序;
80.s42,按照电量降序依次计算分段序列中每个用电量数据的熵值;
81.s43,采用各用电量数据的熵值生成分段序列的熵集曲线。
82.在本发明实施例中,假设e(i)={(x1,y1),(x2,y2),...,(xn,yn)}中有n个用电时间、用电量数据对,i∈[1,m];则可以将e(i)按用电量数据从大到小进行排序,得到电量降序;接着按照用电量数据的电量降序,依次计算分段序列中每个用电量数据的熵值,从而得到与用电量数据的电量降序一一对应的各用电量数据的熵值。
[0083]
在一个示例中,按照电量降序依次计算分段序列中每个用电量数据的熵值的步骤,可以包括:
[0084]
s421,按照电量降序,依次将除第一个用电量数据以外的用电量数据作为节点数据,并将节点数据及节点数据之前的用电量数据作为样本数据;
[0085]
s422,计算样本数据中所有用电量数据对应的用电时间点的样本均值;
[0086]
s423,根据样本均值和用电时间点计算二阶中心距和四阶中心距;
[0087]
s424,采用二阶中心距和四阶中心距计算节点数据的熵值。
[0088]
在本发明实施例中,可以将第j(j∈(2,n))个用电量数据作为节点数据,依次将e(i)中前j个用电量数据输入到逆向云发生器中,来计算第j个用电量数据的熵值,从而得到n-1个熵值。值得注意的是,为保持熵值与用电量数据的数量一致,可以定义第一个坐标点的用电量数据对应的熵值为0。
[0089]
逆向云发生器主要是求取一定数量数据样本的分布特征,并将这种特性转化为用数字特征表示的一种定性概念。其主要步骤如下:
[0090]
1)计算样本数据中所有用电量数据对应的用电时间点的样本均值e
x

[0091][0092]
2)计算样本数据的二阶中心距c2:
[0093][0094]
3)计算样本数据的四阶中心距c4:
[0095][0096]
4)采用样本数据的二阶中心距和四阶中心距计算样本数据的熵en:
[0097][0098]
其中,xi(i=1,2,...,n)为样本点。
[0099]
步骤205,获取熵集曲线中斜率变化最大的点对应的熵值和斜率变化第二大的点对应的熵值作为超限值;
[0100]
步骤206,将两个超限值之间的区间确定为正常熵值区间。
[0101]
在本发明实施例中,可以将熵基曲线上两个斜率显著变化的点,如斜率变化第一大和第二大的点对应的熵值作为超限值,并将这两个超限值作为正常熵值区间的临界点,来得到正常熵值区间。熵值处于正常熵值区间内的用电量数据即为正常用电量数据。
[0102]
步骤207,将不处于正常熵值区间的熵值对应的用电量数据确定为异常数据。
[0103]
在本发明实施例中,超限值可以包括上限值和下限值,将不处于正常熵值区间的熵值对应的用电量数据确定为异常数据的步骤,可以包括:
[0104]
将小于下限值的熵值对应的用电量数据确定为下部异常数据;将大于上限值的熵值对应的用电量数据确定为上部异常数据。
[0105]
具体地,可以将熵集曲线中各个点的熵值与上限值和下限值进行对比,将小于下限值的熵值对应的用电时间点和用电量数据确定为下部异常数据,将大于上限值的熵值对应的用电时间点和用电量数据确定为上部异常数据,从而区分用电量过低和用电量过高的数据。
[0106]
在本发明实施例中,由于用户在不同时间段的用电习惯并不一样,因此,本发明将用户的用电量数据按照时间间隔划分为多个分段序列,以避免不同时间段用电行为差异较大对识别结果的影响。接着分别计算每个分段序列中各个用电量数据的熵值,从而通过熵值的变化情况来识别异常数据,熵值可以在一定程度上反映用电量的突变,因此通过熵值的变化情况,可以有效识别异常数据。
[0107]
请参阅图3,图3为本发明实施例提供的一种线损异常数据识别装置的结构框图。
[0108]
本发明实施例提供了一种线损异常数据识别装置,包括:
[0109]
获取模块301,用于获取用户的用电量数据;
[0110]
分段模块302,用于按照预设时间间隔对用电量数据进行分段,得到多个分段序列;
[0111]
计算模块303,用于计算分段序列中各个用电量数据的熵值,得到分段序列的熵集曲线;
[0112]
正常熵值区间确定模块304,用于从熵集曲线中确定正常熵值区间;
[0113]
异常数据确定模块305,用于将不处于正常熵值区间的熵值对应的用电量数据确定为异常数据。
[0114]
在本发明实施例中,还包括:
[0115]
预处理模块,用于对用电量数据进行预处理,得到预处理数据;
[0116]
分段模块302,包括:
[0117]
分段子模块,用于按照预设时间间隔对预处理数据进行分段,得到多个分段序列。
[0118]
在本发明实施例中,计算模块303,包括:
[0119]
排序子模块,用于对分段序列中的用电量数据进行排序,得到用电量降序;
[0120]
熵值计算子模块,用于按照电量降序依次计算分段序列中每个用电量数据的熵值;
[0121]
熵集曲线生成子模块,用于采用各用电量数据的熵值生成分段序列的熵集曲线。
[0122]
在本发明实施例中,熵值计算子模块,包括:
[0123]
样本数据生成单元,用于按照电量降序,依次将除第一个用电量数据以外的用电量数据作为节点数据,并将节点数据及节点数据之前的用电量数据作为样本数据;
[0124]
样本均值计算单元,用于计算样本数据中所有用电量数据对应的用电时间点的样本均值;
[0125]
中心距计算单元,用于根据样本均值和用电时间点计算二阶中心距和四阶中心距;
[0126]
熵值计算单元,用于采用二阶中心距和四阶中心距计算节点数据的熵值。
[0127]
在本发明实施例中,正常熵值区间确定模块304,包括:
[0128]
超限值获取子模块,用于获取熵集曲线中斜率变化最大的点对应的熵值和斜率变化第二大的点对应的熵值作为超限值;
[0129]
正常熵值区间确定子模块,用于将两个超限值之间的区间确定为正常熵值区间。
[0130]
在本发明实施例中,超限值包括上限值和下限值;异常数据确定模块305,包括:
[0131]
下部异常数据确定子模块,用于将小于下限值的熵值对应的用电量数据确定为下部异常数据;
[0132]
上部异常数据确定子模块,用于将大于上限值的熵值对应的用电量数据确定为上部异常数据。
[0133]
本发明实施例还提供了一种电子设备,设备包括处理器以及存储器:
[0134]
存储器用于存储程序代码,并将程序代码传输给处理器;
[0135]
处理器用于根据程序代码中的指令执行本发明实施例的线损异常数据识别方法。
[0136]
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行本发明实施例的线损异常数据识别方法。
[0137]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,
装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0138]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0139]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0140]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0141]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0142]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0143]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0144]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0145]
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献