一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种热力站历史能耗数据异常值处理方法及装置与流程

2022-03-26 06:24:03 来源:中国专利 TAG:


1.本发明涉及热力站数据处理领域,特别涉及一种热力站历史能耗数据异常值处理方法、装置、电子设备、计算机可读存储介质。


背景技术:

2.数据异常值处理是在开展数据分析、挖掘、建模之前必须要经历的步骤,这些异常数据往往会影响整体数据的分布,在对热力站进行数据挖掘、建模时,其中包含的异常值往往对最终结果有较强的影响。
3.针对这类问题,传统方法是基于经验值或基于统计学去筛选,但是筛选后的结果依然会存在少量的异常值无法被筛除,使得最终的模型效果较差。


技术实现要素:

4.鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的热力站历史能耗数据异常值处理方法、装置、电子设备、计算机可读存储介质。
5.本发明的一个实施例提供一种热力站历史能耗数据异常值处理方法,该方法包括:
6.获取热力站历史能耗数据,所述历史能耗数据包括一定时间段内历史能耗与平均温度的对应关系;
7.基于经验值去除所述历史能耗数据中热力站未开启和热力站异常开启的异常数据;
8.基于数据统计确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据;
9.基于聚类算法对上述处理之后的历史能耗数据进行聚类分析,去除经聚类分析获得的异常数据。
10.可选地,所述基于经验值去除所述历史能耗数据中热力站未开启和热力站异常开启的异常数据,包括:
11.去除历史能耗数据中日能耗小于第一预设阈值的异常数据;
12.去除历史能耗数据中日能耗大于第一预设阈值且平均温度大于第二预设阈值的异常数据。
13.可选地,所述第一预设阈值为300千瓦时,所述第二预设阈值为12摄氏度。
14.可选地,所述基于数据统计确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据,包括:
15.对基于经验值去除数据异常值的历史能耗数据计算均值和标准差;
16.根据所述历史能耗数据的均值和标准差确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
17.可选地,所述根据所述历史能耗数据的均值和标准差确定历史能耗数据的正常数
据分布范围,去除所述正常数据分布范围之外的异常数据,包括:
18.针对所述历史能耗数据的各个平均温度对应的历史能耗,确定各个平均温度对应的历史能耗的均值 预设个数的历史能耗的标准差以及历史能耗的均值-预设个数的历史能耗的标准差为历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
19.可选地,所述聚类算法为optics聚类算法。
20.可选地,所述基于聚类算法对上述处理之后的历史能耗数据进行聚类分析,去除经聚类分析获得的异常数据,包括:
21.以上述处理之后的历史能耗数据为样本集,确定邻域半径和给定点在邻域半径内成为核心对象的最小邻域点数;
22.通过optics聚类算法处理后输出具有可达距离信息的样本点排序数据集;
23.对上述样本点排序数据集进行聚类分析,去除经聚类分析获得的异常数据。
24.本发明的另一个实施例提供一种热力站历史能耗数据异常值处理装置,包括:
25.历史能耗数据获取单元,用于获取热力站历史能耗数据,所述历史能耗数据包括一定时间段内历史能耗与平均温度的对应关系;
26.基于经验值的异常数据去除单元,用于基于经验值去除所述历史能耗数据中热力站未开启和热力站异常开启的异常数据;
27.基于数据统计的异常数据去除单元,用于基于数据统计确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据;
28.基于聚类算法的异常数据去除单元,用于基于聚类算法对上述处理之后的历史能耗数据进行聚类分析,去除经聚类分析获得的异常数据。
29.可选地,所述基于经验值的异常数据去除单元进一步用于:
30.去除历史能耗数据中日能耗小于第一预设阈值的异常数据;
31.去除历史能耗数据中日能耗大于第一预设阈值且平均温度大于第二预设阈值的异常数据。
32.可选地,所述第一预设阈值为300千瓦时,所述第二预设阈值为12摄氏度。
33.可选地,所述基于数据统计的异常数据去除单元包括:
34.计算模块,用于对基于经验值去除数据异常值的历史能耗数据计算均值和标准差;
35.异常数据去除模块,用于根据所述历史能耗数据的均值和标准差确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
36.可选地,所述异常数据去除模块进一步用于:
37.针对所述历史能耗数据的各个平均温度对应的历史能耗,确定各个平均温度对应的历史能耗的均值 预设个数的历史能耗的标准差以及历史能耗的均值-预设个数的历史能耗的标准差为历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
38.可选地,所述聚类算法为optics聚类算法。
39.可选地,所述基于聚类算法的异常数据去除单元进一步用于:
40.以上述处理之后的历史能耗数据为样本集,确定邻域半径和给定点在邻域半径内
成为核心对象的最小邻域点数;
41.通过optics聚类算法处理后输出具有可达距离信息的样本点排序数据集;
42.对上述样本点排序数据集进行聚类分析,去除经聚类分析获得的异常数据。
43.本发明的另一个实施例提供一种电子设备,其中,该电子设备包括:
44.处理器;以及,
45.被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述的热力站历史能耗数据异常值处理方法。
46.本发明的另一个实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述的热力站历史能耗数据异常值处理方法。
47.本发明的有益效果是,基于经验值、基于数据统计和聚类算法,一步步地去除热力站历史能耗中的数据异常值,克服了现有技术中仅基于经验值或基于数据统计无法完全去除数据异常值的缺陷,为后续建模提供干净的数据。
附图说明
48.图1为本发明一个实施例的热力站历史能耗数据异常值处理方法的流程示意图;
49.图2a为本发明一个实施例的热力站历史能耗数据的示意图;
50.图2b为本发明一个实施例的在热力站历史能耗数据中去除日能耗小于300千瓦时的数据的示意图;
51.图2c为本发明一个实施例的在热力站历史能耗数据中去除日能耗大于300千瓦时且平均温度高于12摄氏度的数据的示意图;
52.图2d为本发明一个实施例的在热力站历史能耗数据中通过均值
±
3个标准差去除异常数据的示意图;
53.图2e为本发明一个实施例的在热力站历史能耗数据中通过聚类算法去除异常数据的示意图;
54.图3为本发明一个实施例的热力站历史能耗数据异常值处理方法的原理图;
55.图4为本发明一个实施例的热力站历史能耗数据异常值处理装置的结构示意图;
56.图5示出了根据本发明一个实施例的电子设备的结构示意图;
57.图6示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
58.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
59.图1为本发明一个实施例的热力站历史能耗数据异常值处理方法的流程示意图。如图1所示,该方法包括:
60.s11:如图2a所示,获取热力站历史能耗数据,所述历史能耗数据包括一定时间段内历史能耗与平均温度的对应关系;
61.s12:基于经验值去除所述历史能耗数据中热力站未开启和热力站异常开启的异常数据;
62.s13:基于数据统计确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据;
63.s14:基于聚类算法对上述处理之后的历史能耗数据进行聚类分析,去除经聚类分析获得的异常数据。
64.本发明实施例的热力站历史能耗数据异常值处理方法,基于经验值、基于数据统计和聚类算法,一步步地去除热力站历史能耗中的数据异常值,克服了现有技术中仅基于经验值或基于数据统计无法完全去除数据异常值的缺陷,为后续建模提供干净的数据。
65.在本发明实施例的一种可选的实施方式中,所述基于经验值去除所述历史能耗数据中热力站未开启和热力站异常开启的异常数据,包括:
66.去除历史能耗数据中日能耗小于第一预设阈值的异常数据;
67.去除历史能耗数据中日能耗大于第一预设阈值且平均温度大于第二预设阈值的异常数据。
68.需要说明的是,热力站是一种只在天气寒冷时使用的供暖设备,运行模式会有明显的季节区分,在室外温度较高时不会使用,因此数据分析时只分析热力站启用时间的能耗数据。基于经验,当日能耗小于300千瓦时认为热力站未开启;当日能耗大于300千瓦时且室外平均温度高于12摄氏度认为热力站异常开启。
69.优选地,所述第一预设阈值为300千瓦时,所述第二预设阈值为12摄氏度。
70.图2b和图2c示出了在热力站历史能耗数据中去除日能耗小于300千瓦时的数据和去除日能耗大于300千瓦时且平均温度高于12摄氏度的数据。
71.具体地,所述基于数据统计确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据,包括:
72.对基于经验值去除数据异常值的历史能耗数据计算均值和标准差;
73.根据所述历史能耗数据的均值和标准差确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
74.进一步地,所述根据所述历史能耗数据的均值和标准差确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据,包括:
75.针对所述历史能耗数据的各个平均温度对应的历史能耗,确定各个平均温度对应的历史能耗的均值 预设个数的历史能耗的标准差以及历史能耗的均值-预设个数的历史能耗的标准差为历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
76.在实际应用中,预设个数可以为3个。图2d示出了在热力站历史能耗数据中通过均值
±
3个标准差去除异常数据。
77.优选地,所述聚类算法为optics聚类算法。
78.聚类数据清洗方法经常使用dbscan(density-based spatial clustering of applications with noise,基于密度的聚类算法)算法进行噪声点识别,但是dbscan的输入参数最小邻域点数和邻域半径对结果较敏感,不同的取值将产生不同的聚类结果。
79.而optics(ordering points to identify the clustering structure,基于对象排序的聚类算法)算法是对bdscan的扩展算法,optics算法对邻域半径不再敏感,只要确定最小邻域点数,邻域半径的略微轻微变化并不会影响聚类的结果。
80.具体地,所述基于聚类算法对上述处理之后的历史能耗数据进行聚类分析,去除经聚类分析获得的异常数据,包括:
81.以上述处理之后的历史能耗数据为样本集,确定邻域半径和给定点在邻域半径内成为核心对象的最小邻域点数;
82.通过optics聚类算法处理后输出具有可达距离信息的样本点排序数据集;
83.对上述样本点排序数据集进行聚类分析,去除经聚类分析获得的异常数据。
84.图2e示出了在热力站历史能耗数据中通过optics聚类算法去除异常数据。
85.图3为本发明一个实施例的热力站历史能耗数据异常值处理方法的原理图。如图3所示,本发明实施例的热力站历史能耗数据异常值处理方法先获取一定时间段内历史能耗与平均温度的对应关系,去除日能耗小于300千瓦时的数据,去除日能耗大于300千瓦时且平均温度高于12摄氏度的数据,再计算能耗的均值
±
3个标准差作为上、下限,去除能耗在上、下限以外的数据,最后使用optics聚类算法进行聚类,去除聚类结果为噪声点的数据。
86.图4为本发明一个实施例的热力站历史能耗数据异常值处理装置的结构示意图。如图4所示,该装置包括:
87.历史能耗数据获取单元41,用于获取热力站历史能耗数据,所述历史能耗数据包括一定时间段内历史能耗与平均温度的对应关系;
88.基于经验值的异常数据去除单元42,用于基于经验值去除所述历史能耗数据中热力站未开启和热力站异常开启的异常数据;
89.基于数据统计的异常数据去除单元43,用于基于数据统计确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据;
90.基于聚类算法的异常数据去除单元44,用于基于聚类算法对上述处理之后的历史能耗数据进行聚类分析,去除经聚类分析获得的异常数据。
91.本发明实施例的热力站历史能耗数据异常值处理装置,基于经验值、基于数据统计和聚类算法,一步步地去除热力站历史能耗中的数据异常值,克服了现有技术中仅基于经验值或基于数据统计无法完全去除数据异常值的缺陷,为后续建模提供干净的数据。
92.可选地,基于经验值的异常数据去除单元42进一步用于:
93.去除历史能耗数据中日能耗小于第一预设阈值的异常数据;
94.去除历史能耗数据中日能耗大于第一预设阈值且平均温度大于第二预设阈值的异常数据。
95.可选地,所述第一预设阈值为300千瓦时,所述第二预设阈值为12摄氏度。
96.可选地,基于数据统计的异常数据去除单元43包括:
97.计算模块,用于对基于经验值去除数据异常值的历史能耗数据计算均值和标准差;
98.异常数据去除模块,用于根据所述历史能耗数据的均值和标准差确定历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异常数据。
99.可选地,异常数据去除模块进一步用于:
100.针对所述历史能耗数据的各个平均温度对应的历史能耗,确定各个平均温度对应的历史能耗的均值 预设个数的历史能耗的标准差以及历史能耗的均值-预设个数的历史能耗的标准差为历史能耗数据的正常数据分布范围,去除所述正常数据分布范围之外的异
常数据。
101.可选地,所述聚类算法为optics聚类算法。
102.可选地,基于聚类算法的异常数据去除单元44进一步用于:
103.以上述处理之后的历史能耗数据为样本集,确定邻域半径和给定点在邻域半径内成为核心对象的最小邻域点数;
104.通过optics聚类算法处理后输出具有可达距离信息的样本点排序数据集;
105.对上述样本点排序数据集进行聚类分析,去除经聚类分析获得的异常数据。
106.需要说明的是,上述实施例中的热力站历史能耗数据异常值处理装置可分别用于执行前述实施例中的方法,因此不再一一进行具体的说明。
107.综上所述,本发明基于经验值、基于数据统计和聚类算法,一步步地去除热力站历史能耗中的数据异常值,克服了现有技术中仅基于经验值或基于数据统计无法完全去除数据异常值的缺陷,为后续建模提供干净的数据。
108.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
109.需要说明的是:
110.在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
111.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
112.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
113.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权
利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
114.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
115.本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的检测电子设备的佩戴状态的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
116.例如,图5示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备传统上包括处理器51和被安排成存储计算机可执行指令(程序代码)的存储器52。存储器52可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。存储器52具有存储用于执行图1所示的以及各实施例中的任何方法步骤的程序代码54的存储空间53。例如,用于存储程序代码的存储空间53可以包括分别用于实现上面的方法中的各种步骤的各个程序代码54。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(cd)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。该计算机可读存储介质可以具有与图5的电子设备中的存储器52类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储空间存储有用于执行根据本发明的方法步骤的程序代码61,即可以有诸如处理器51读取的程序代码,当这些程序代码由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
117.以上所述,仅为本发明的具体实施方式,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行其他的改进或变形。本领域技术人员应该明白,上述的具体描述只是更好的解释本发明的目的,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献