一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

火电机组环保系统的数据预处理方法及系统与流程

2021-09-22 20:44:00 来源:中国专利 TAG:火电 机组 预处理 系统 环保


1.本发明涉及火电机组技术领域,具体地涉及一种火电机组环保系统的数据预处理方法及一种火电机组环保系统的数据预处理系统。


背景技术:

2.环保系统是火电机组中不可或缺的集成系统,包括脱硫系统、脱硝系统、脱白系统和除尘系统等多个子系统,主要用于将锅炉系统中燃烧后的排烟烟气进行清洁和能源回收,保证清洁排放的同时减少能源浪费。为了准确模拟环保系统的运行工况,以保证环保系统的精准控制,需要详细获取各子系统的运行参数。因为各子系统存在协同工作情况,所以还需要将采集到的运行参数进行协同整合,才能获得环保系统的准确运行工况。
3.环保系统运行参数在采集过程中由于采集环境的变化,测量方式和传感器网络不稳定等因素的影响,常出现数据缺失,数据失真等现象,这些包含噪声与失真的数据会对数据分析与建模过程产生较大影响,进而劣化最终的模型结果。此外,环保岛中各个测点都具备各自独特的物理意义,因此所采集的数据往往具备各自不同的数量级,如通常原烟气so2浓度在1000

5000mg/nm3区间,而净烟气so2浓度一般不超过30mg/nm3,如果将两者直接使用会造成高数量级的数据在模型中占有绝对权重,这会给后续的数据分析以及数据建模带来了不必要的麻烦。针对现有环保系统运行参数在采集和处理中的诸多弊端,需要创造一种新的火电机组环保系统的数据预处理方法。


技术实现要素:

4.本发明实施方式的目的是提供一种火电机组环保系统的数据预处理方法及一种火电机组环保系统的数据预处理系统,以至少解决现有环保系统运行采集造成的数据缺失和处理过程中影响权重无法模拟的问题。
5.为了实现上述目的,本发明第一方面提供一种火电机组环保系统的数据预处理方法,所述环保系统包括多个子系统,所述方法包括:获取各个子系统的运行参数;分别对各个子系统的运行参数进行解析,对解析后的各个子系统的运行参数进行整合,获得子系统原始数据集;对所述子系统原始数据集中的数据进行过滤,筛选获得各个子系统正常运行状态下的正常运行参数数据;对各个子系统的正常运行参数数据进行统一标准处理,统一标准处理后的数据具有标准一致的影响权重;对统一标准处理后的数据进行特征提取,并整合获得所述环保系统的预处理后的数据。
6.可选的,所述分别对各个子系统的运行参数进行解析,包括:根据各个子系统的运行参数的数据格式,选择对应的预设解析方法;分别对各个子系统采用对应的解析方法进行运行参数解析。
7.可选的,采用以下过滤方法对子系统原始数据集中的数据进行过滤:时域滤波方法或频域滤波方法。
8.可选的,采用以下处理方法对各个子系统的正常运行参数数据进行统一标准处
理:缺失值处理和数据标准化处理。
9.可选的,所述缺失值处理包括:通过单维估计法对各个子系统的正常运行参数数据中各项数据进行缺失值调补或舍弃,获得各个子系统的缺失值处理预数据;根据各个子系统的正常运行参数的耦合情况,采用多维估计法对各个子系统的缺失值处理预数据进行缺失值调补或舍弃,获得各个子系统的缺失值处理数据。
10.可选的,所述数据标准化处理包括:根据预设标准化处理规则,对各个子系统的缺失值处理数据中每一项数据进行标准化处理,获得无量纲数据数列;所述预设标准化处理规则为min

max标准化规则或z

score标准化规则;其中,所述预设min

max标准化规则为:
[0011][0012]
其中,x=[x1,x2,

,x
n
]为缺失值处理数据序列;x
i
为第i个数据原始值,其中1≤i≤n;为所述缺失值处理数据序列中的最小值;为所述缺失值处理数据序列中的最大值;y
i
为min

max标准化后的无量纲数据数列;
[0013]
所述预设z

score标准化规则为:
[0014][0015]
其中,y
i
为均值为0,方差为1的无量纲序列;为序列均值;s为方差。
[0016]
可选的,所述序列均值和方差满足以下规则:
[0017][0018][0019]
可选的,所述对统一标准处理后的数据进行特征提取,并整合获得所述环保系统的预处理后的数据,包括:过滤掉统一标准处理后的数据中与建模无关联的维度,获得重要性维度序列;通过所述重要性维度序列推算获得延伸维度数列,并整合所述重要性维度序列和延伸维度序列,获得建模序列;根据预设特征提取方法进行所述建模序列的特征提取,获得最终维度方案数据作为所述环保系统的预处理后的数据。
[0020]
本发明第二方面提供一种火电机组环保系统的数据预处理系统,所述系统包括:采集单元,用于获取各个子系统的运行参数;处理单元,用于:分别对各个子系统的运行参数进行解析,对解析后的各个子系统的运行参数进行整合,获得子系统原始数据集;对所述子系统原始数据集中的数据进行过滤,筛选获得各个子系统正常运行状态下的正常运行参数数据;对各个子系统的正常运行参数数据进行统一标准处理,统一标准处理后的数据具有标准一致的影响权重;训练单元,用于对统一标准处理后的数据进行特征提取,并整合获得所述环保系统的预处理后的数据;输出单元,用于根据预设通讯路径将所述预处理后的数据发送到对应位置。
[0021]
另一方面,本发明提供一种计算机可读储存介质,该计算机可读存储介质上储存有指令,其在计算机上运行时使得计算机执行上述的火电机组环保系统的数据预处理方法。
[0022]
通过上述技术方案,分别通过数据解析、数据过滤和数据统一标准处理,将采集到的环保系统的运行参数映射到同一数域空间,保证了所有运行参数具有与实际权重的统一标准。其中,数据解析和数据过滤缩小了数据体量,仅保留影响环保系统的主要运行参数。然后通过数据统一标准处理,进行了缺失值修补和权重模拟,即解决了运行参数采集过程中的噪声干扰导致数据错误和缺失的问题,还模拟了环保系统实际的影响权重,使得后续环保系统运行工况模拟更为准确。
[0023]
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0024]
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
[0025]
图1是本发明一种实施方式提供的火电机组环保系统的数据预处理方法的步骤流程图;
[0026]
图2是本发明一种实施方式提供的对火电机组环保系统的各个子系统的正常运行参数数据进行统一标准处理的步骤流程图;
[0027]
图3是本发明一种实施方式提供的火电机组环保系统的数据预处理系统的系统结构图。
[0028]
附图标记说明
[0029]
10

采集单元;20

处理单元;30

训练单元;40

输出单元。
具体实施方式
[0030]
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
[0031]
图3是本发明一种实施方式提供的火电机组环保系统的数据预处理系统的系统结构图。如图3所示,本发明实施方式提供一种火电机组环保系统的数据预处理系统,所述系统包括:采集单元10,用于获取各个子系统的运行参数;处理单元20,用于:分别对各个子系统的运行参数进行解析,对解析后的各个子系统的运行参数进行整合,获得子系统原始数据集;对所述子系统原始数据集中的数据进行过滤,筛选获得各个子系统正常运行状态下的正常运行参数数据;对各个子系统的正常运行参数数据进行统一标准处理,统一标准处理后的数据具有标准一致的影响权重;训练单元30,用于对统一标准处理后的数据进行特征提取,并整合获得所述环保系统的预处理后的数据;输出单元40,用于根据预设通讯路径将所述预处理后的数据发送到对应位置。
[0032]
图1是本发明一种实施方式提供的火电机组环保系统的数据预处理方法的方法流程图。如图1所示,本发明实施方式提供一种火电机组环保系统的数据预处理的方法,所述方法包括:
[0033]
步骤s10:获取各个子系统的运行参数。
[0034]
具体的,火电机组环保系统具有统筹所有子系统运行的控制中心,该控制中心需要采集环保系统中各设备系统(即子系统)的运行参数,然后根据实时的运行参数进行整个系统运行状态模拟,用以判断环保系统是否处于正常的运行状态。但是环保系统的子系统很多,例如脱硫系统、脱硝系统、脱白系统和除尘系统等,这些子系统的工作内容和工作负荷都不相同。所以在进行这些子系统运行参数采集时,所采集到的运行参数内容和格式都不相同,若直接通过这些数据进行环保系统运行工况模拟,一方面因为数据体量太大,导致模拟效率很低,使得无法及时监测到环保系统的实际运行状态。另一方面,各设备系统对火电系统的影响权重不同,若将所有数据放在同一标准进行模拟,会放大一些次要的影响因素和缩小一些重要的影响因素,导致最终的模拟结果与环保系统的实际运行状态存在很大的偏差。
[0035]
所以,针对上述情况,一方面需要缩小运行参数体量,另一方面需要根据各子系统的系统权重进行各项参数统一标准处理。在此条件下,首先需要获取环保系统的各个子系统的运行参数。优选的,采集单元10在环保系统的原控制中心进行扩建,因为各子系统本身具有对应的参数采集传感器,为了减少系统扩建成本,各设备单元的参数采集传感器可直接沿用原设备本身的传感器。通过控制中心进行采集单元10扩建,直接通过控制中心的汇总模块获取环保系统的各子系统的运行参数,然后将获得的运行参数信息发送到处理单元20。
[0036]
步骤s20:分别对各个子系统的运行参数进行解析,对解析后的各个子系统的运行参数进行整合,获得子系统原始数据集。
[0037]
具体的,受各子环保系统的运行特性影响,各子系统的运行参数格式存在很大的区别,且数据内容存在区别。例如,在进行温度和流量参数获取时,获得的参数内容包括具体的参数数值,而进行某些设备单元的运行状态获取时,例如开关的开启情况,则只有关闭和开启两种状态,不存在具体的表达数值。所以在进行各类数据整理时,必须将不同格式的数据换算为计算机可读取的数据格式。数据解析正是指在获得完备的数据之前,进行数据格式的解码以便获得可读取的数值数据。例如,脱硫系统中,大量的开关量测点可以用0

1二元数值来表示,而对于数值型测点则在json数据解析或xml数据解析之后使用“as

is”数值数据表示。此外,在数据的解析过程中,需要考虑不同传感器所采集的原始数据的格式可能有所不同或驱动版本存在差异,在解析时需要记录各型号传感器的数据格式特点并需要针对原始数据的来源选择恰当的解析方法。
[0038]
步骤s30:对所述子系统原始数据集中的数据进行过滤,筛选获得各个子系统正常运行状态下的正常运行参数数据。
[0039]
具体的,在进行参数采集时,无论是采集过程中的不可控因素还是系统本身的运行状态存在的合理跳跃,均可能在采集到的数据中包括一定的异常点。这些异常点不能表示系统的真实运行状态,若将这些异常点作为采集到的运行参数进行系统运行状态模拟,会使得模拟结果与实际情况存在偏差。所以需要将这些无用的异常点进行过滤删除,仅保留正常体现系统运行状态的运行参数。进行本步骤需要使用到滤波方法,优选的,通过时域滤波或频域滤波方法进行解析后数据过滤。其中,时域滤波方法是使用一种平滑滤波器,如中值滤波器、均值滤波器、滑动平均滤波器等,将时序序列中的某个值用该邻域内的某种统
计值代替。所以该方法可以用于处理非平稳时序数列。而对于频域滤波方法,其基本思想是将时域数据通过一系列变换得到频域数据,基于设定的临界点,将低频信号识别为有效数据,将高频信号识别为无效。常用的频域滤波方法有小波滤波、卡尔曼滤波、维纳滤波等。频域滤波方法算法较复杂,且难以在保留时序序列局部细节变化的同时充分去掉无效值。部分滤波方法如维纳滤波只适用于平稳时间序列,无法应用于非平稳时间序列,具有较大的局限性。
[0040]
优选的,由于环保岛优化生产系统中同时具备平稳(稳定生产)与非平稳(实施调控)时序两种状态,因此在数据的去值过程中需要针对原数据的特点选择合适的方法进行处理。所以优选的,处理单元20根据实际情况在时域滤波方法和频域滤波方法两种滤波方法中进行切换,以应对系统实时的运行状态。在数据的点表中,数据的异常点是一种特殊的存在,因为很多生产或设备异常都是通过异常点反应出来,因此在数据清洗过程中,对于异常点的处理不能粗暴的清除,否则会造成信息的丢失从而影响模型的准确性,通常对于异常点可以使用贝叶斯网络选择服从gaussian分布的数值点进行筛选与清洗。
[0041]
步骤s40:对各个子系统的正常运行参数数据进行统一标准处理,统一标准处理后的数据具有标准一致的影响权重。
[0042]
具体的,上述已知,为了体现各运行参数的影响权重,保证最终的模拟结果更符合实际情况,需要将各子系统的运行参数放到一个标准体系中,通过权重占比进行各项数据标准化处理,使得最终的训练数据符合实际的权重占比情况。进行统一标准处理包括:缺失值处理和数据标准化处理。具体的,如图2,包括以下步骤:
[0043]
步骤s401:缺失值处理。
[0044]
具体的,缺失值处理是对数据集中含有缺失数据的条目进行有效的填补或直接舍弃的方法,优选的,对于各个子系统,可以分别使用单维估计法与多维估计法对生产数据的缺失值进行处理,单维估计法不考虑多维度之间的耦合关系影响,具体包括简单的统计法,插值法等等,而多维估计法则是在环保岛流程工艺充分认识的前提下考虑不同维度变量耦合关系以及不同生产环节之间的影响。单维估计法包括简单统计估计法、插值法、多重填补法和时间序列预测法四种。其中,简单统计估计法,如均值填补法、中值填补法等,是最简单的缺失值估计方法,通过这种方法,可以使用数据统计值来填补缺失值。插值法利用数据中的完整点建立插值函数,再根据缺失点的横坐标求出其对应的目标值。传统的插值方法有拉格朗日插值法、牛顿插值法、埃尔米特插值法、样条插值法等。在处理时序数据时,可以通过构造“属性

时间函数”,较好地保留缺失数据的时间趋势。多重填补法是对数据集进行m次随机插补,生成m个完整的数据集,并通过综合计算这m个数据集得到插补结果。建立时间序列预测模型也可对数据缺失问题进行求解。时间序列预测法主要采用自回归模型(ar)、移动平均模型(ma)、自回归移动平均模型(arma)和自回归差分移动平均模型(arima)等模型对缺失值进行预测。这类模型通常需要时间序列保持稳定,或是差分后达到稳定。
[0045]
环保系统的各子系统存在互相影响,且环保系统的整体运行状态是各子系统的综合表现状态。即各子系统不是独立存在的,各子系统的运行参数是存在相互关联的情况的。为了体现这种互相影响的耦合关系,需要通过多维估计法进行缺失值处理。即某些参数无法直接采集到,且单个系统的运行参数也无法推断出目标参数的具体值,需要影响目标参数的多个子系统的运行参数进行耦合推算。常用的多维估计法有回归算法、随机森林算法、
贝叶斯网络算法和k最近邻算法,其原理为通过特定算法建立环保岛生产过程中各个维度变量之间的联系,预测缺失值的最近替代值。多维估计法的主要思想是将待估计属性作为输出变量,其他属性作为输入变量,使用完全无缺失数据集进行建模,再对有缺失数据进行估计。相比于单维估计法,多维估计方法会更多的考虑环保岛生产中不同属性、不同环节之间的影响。
[0046]
本发明提出的数据预处理方法,优选综合了单维估计法和多维估计法。处理单元20首先定位缺失值的位置和类型,然后根据缺失值的情况判断影响目标值的运行参数类型,若对于目标参数只有一种影响类型,则对应根据该影响类型的运行参数通过单维估计法进行缺失值填充。若判定目标参数存在多个影响类型,则分别获得多个影响类型的运行参数,利用多维估计法进行缺失值填充,提高系统的整体智能性。
[0047]
步骤s402:数据标准化处理。
[0048]
具体的,在环保岛生产系统中,对数据进行标准化旨在消除各个运行状态数据之间的数值与量纲的差异,经过标准化处理之后的数据会被映射到同一个数域区间(如0

1区间),因此各个测点的数据均处于同一数据量级,具有一致的影响权重。常见的数据标准化处理有min

max标准化和z

score标准化。其中,对于min

max标准化规则,环保岛系统中对任意一个维度变量的时序数据x=[x1,x2,

,x
n
]进行min

max标准化:
[0049][0050]
其中,x=[x1,x2,

,x
n
]为缺失值处理数据序列;x
i
为第i个数据原始值,其中1≤i≤n;为所述缺失值处理数据序列中的最小值;为所述缺失值处理数据序列中的最大值;y
i
为min

max标准化后的无量纲数据数列。
[0051]
而对于z

score标准化规则,其表达式为:
[0052][0053]
其中,y
i
为均值为0,方差为1的无量纲序列;为序列均值;s为方差。
[0054]
其中,序列均值和方差满足以下规则:
[0055][0056][0057]
此时,新序列y=[y1,y2,

,y
n
]是一个均值为0,方差为1的无量纲序列。
[0058]
步骤s50:对统一标准处理后的数据进行特征提取,并整合获得所述环保系统的预处理后的数据。
[0059]
具体的,环保岛生产数据具有的高维度、强耦合、非线性等特点会给后续的分析与建模工作带来挑战,一方面环保岛各个子系统内部维度变量众多,许多维度变量之间存在
很强的相关性,如脱硫系统中,烟气进口so2浓度与烟气出口so2浓度呈现正相关。另一方面,环保岛生产过程中,各个子系统(脱硫、脱硝、除尘、输灰等)之间并非相互独立而是存在一定的耦合关系。因此若对这类数据直接建模不但耗时会很长,且模型容易出现过拟合而影响最终的模型效果。对环保岛生产数据进行特征提取就是在考虑上述困难的基础之上,通过筛选或生成合适的维度变量以尽可能的提高建模效率与准确率,具体包括以下方面内容:
[0060]
(1)筛除对建模无意义的维度,同时要最大化的保留对建模目标重要的维度,即应通过合理方法衡量数据中的各维度对建模目标的重要性,保留重要性强的维度。
[0061]
(2)除了已有数据中的重要维度之外,还存在一类数据,它们未经测点记录,或是根本无法经测点记录,但可以由几个相关维度对其进行间接表达,这类数据被称为衍生维度或衍生数据。例如,单位时间内nh3析出量对于氮氧化物脱出率虽然很有价值,但无法直接测量得到,需通过分别测量氨水使用量与原烟气以及净烟气氮氧化物浓度后通过计算得到。衍生数据对模型的建立非常重要,若能在建模之前对其进行表达,并将之应用到建模过程中,则可提高建模效率,改善建模效果。
[0062]
目前常用的特征提取方法主要包括特点变换法与特征选择法,考虑到特征变换法在特征选择后会丢失原维度变量的物理意义,因此无法将其直接应用到环保岛生产过程中,而特征选择法中包括dnn算法、xgboost算法等等,其中应用最广泛的特征提取算法是以决策树为基学习器构建的bagging集成学习方法
‑‑
随机森林算法,使用随机森林的启发式特征选择法对高维数据进行特征提取性能远优于单一学习器。过滤掉所述统一标准处理后数据中与建模无关联的维度,获得重要性维度序列;通过所述重要性维度序列推算获得延伸维度数列,并整合所述重要性维度序列和延伸维度序列,获得建模序列;根据预设特征提取方法进行所述建模序列特征提取,获得最终维度方案数据作为所述环保系统的预处理后的数据。
[0063]
在一种可能的实施方式中,通过随机森林算法进行特征提取,整个数据预处理系统的运行流程包括:
[0064]
步骤1:首先确定建模目标,即希望预测的结果变量;
[0065]
步骤2:对数据进行稀释;
[0066]
步骤3:对稀释数据集d{n
×
m}进行t次bootstrap有放回抽样,每次只选出m个维度,得到t个训练样本子集d
i
{n
×
m}(i=1,2,

,t),以及t个相应的oob数据集(out

of

bag data)d
oobi
{(n

n)
×
m}(i=1,2,

,t)。由bootstrap相关经验可知,n≈73.2%
×
n,一般情况下m=log2m。
[0067]
步骤4:对每个训练子集d
i
训练回归决策树,共可获得t棵回归决策树t
i
(i=1,2,

,t)。
[0068]
步骤5:通过回归决策树对应的oob数据d
oobi
回归决策树t
i
的预测准确度(accuracy)a
i

[0069]
步骤6:从第一个特征开始,在每个包含了该特征的d
oobi
数据集中,加入随机噪声,得到数据集d'
oobi
,并用决策树t
i
对d'
oobi
进行预测,计算此时的准确度a'
i
,由此可得到决策树t
i
对数据集d
oobi
与数据集d'
oobi
预测的准确率之差为:
[0070]
δ
fi
=a
i

a'
i
[0071]
步骤7:对特征进行迭代计算,直至获得所有特征的重要性,进而确定出各特征对模型准确性的影响程度:
[0072][0073]
δ
f
的标准差为:
[0074][0075]
由此计算特征的重要性公式为:
[0076][0077]
步骤8:根据随机森林算法得到的重要性对维度进行排序,然后使用序列后向搜索的启发式算法逐次迭代删除精度最低的特征,并记录每次迭代中随机森林的预测精度,直至特征数量足够少;预测精度主要通过模型泛化能力指标oob_score反映,oob_score是在已生成的随机森林中,利用袋外数据(oob data)测试该随机森林的回归性能得分。具体方法为:以袋外数据作为随机森林的输入,得到目标属性的预测结果y
pre
(i),目标属性的真实值为y(i),真实值的平均值为y,则oob_score的计算公式为:
[0078][0079]
其中,
[0080]
u=∑
oob
(y(i)

y
pre
(i))2[0081][0082]
步骤9:选择随机森林预测精度较高,特征数量最少的情况作为最终维度方案。
[0083]
本发明实施方式还提供一种计算机可读储存介质,该计算机可读存储介质上储存有指令,其在计算机上运行时使得计算机执行上述的火电机组环保系统的数据预处理方法。
[0084]
本领域技术人员可以理解实现上述实施方式的方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0085]
以上结合附图详细描述了本发明的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
[0086]
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本
发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜