一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于流形学习的废水处理故障监测方法与流程

2022-11-09 22:29:54 来源:中国专利 TAG:


1.本发明属于废水处理过程中的故障监测技术领域,具体涉及一种基于流形学习的废水处理故障监测方法。


背景技术:

2.随着现代工业的不断发展,生产过程开始逐步趋向于连续化及大型化,因此对工业过程中质量指标的监测有了较高的要求。为了避免废水处理过程发生故障造成损失,对废水处理过程中的故障进行及时准确的监测很有必要。过程监测模型可以对生产系统进行实时监测,在发现生产系统异常或传感器发生故障之前及时监测出异常,并判断引起异常的关键变量,为后续的故障诊断和故障恢复提供指导。目前,对废水处理过程中的故障监测方法是:使用正常操作状态下的历史过程数据建立故障监测模型,计算出故障监测模型的统计控制限,然后采用故障监测模型对实时监测到的废水处理过程中的新的样本点的实时数据进行验证,若新的样本点的统计控制指标超出统计控制限,即判定新的样本点为故障点。
3.为了实现废水处理过程中的故障监测,通常要对废水处理过程中的样本点的相关信息进行多元统计。基于多元统计的废水处理过程故障监测方法有几个缺点,首先,很难提供附加标签的直接效果,只能通过投影结果进行推断,因此,选择权重通常需要重复的调整过程。其次,由于线性方法的局限性,需要实现最大限度地解释给定数据集的方差进行低维映射,所以具有更宽分布的一些数据样本可能会主导投影。这通常会导致“维度灾难”的问题(例如,正常样本和早期出现的故障样本在特征空间中重叠),特别是当需要考虑多个故障时,“维度灾难”的问题会变得更加突出。这种问题不仅妨碍了故障监测模型在监控过程中对故障点的辨别,而且降低了基于提取的特征进行故障分类的分类器的辨别性能。当数据特征维度增加时,有用信息未增加而噪声却持续累积,模型复杂度增加,从而影响到分类器的性能。


技术实现要素:

4.流形学习,全称流形学习方法(manifold learning),假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。
5.为了解决上述技术问题,本发明提出一种基于流形学习的废水处理故障监测方法,基于均匀流形近似及投影(uniform manifold approximation andprojection,简称umap)算法并结合支持向量数据描述(support vector data description,简称svdd)方法对废水处理过程中的故障进行监测。首先,使用均匀流形近似及投影算法提取高维数据中的度量和非度量属性,并将它们转换为一个共同的度量,也就是相似性,从而同时利用标记和未标记数据。数据集的非线性结构是通过保持拓扑结构的投影进行特征提取的,不需要进行复杂的非线性核映射。除了能够识别数据集中的自然聚类之外,均匀流形近似及投影
算法还提供了潜在空间中的全局结构信息,也就是说,可以根据聚类在潜在空间中的接近程度来推断它们之间的相似性和差异,均匀流形近似及投影算法有效地考虑了在低维空间中映射图的边权重。然后使用支持向量数据描述方法对低维特征数据建立故障监测模型。经过验证,改进的故障监测模型对比于传统的线性方法有较好的故障监测效果。
6.本发明针对工业过程数据的非线性、非高斯性问题,提供一种基于流形学习的废水处理故障监测方法,基于均匀流形近似及投影算法同时利用标记和未标记数据,基于支持向量数据描述方法对低维特征数据建立故障监测模型,对废水处理过程中的故障进行监测,具体包括以下步骤:
7.s1.采集废水处理过程中正常操作条件下的历史过程数据作为训练集x
train
,采集包含有故障特征的实时监测数据作为测试集x
test
,并且对训练集x
train
和测试集x
test
的数据进行标准化预处理,消除数据变量之间因为量纲不同产生的影响。将数据标准化为均值为0和方差为1的标准数据。
8.因为是使用仿真数据验证模型的可靠性,实时监测数据使用的是故障状态下的采样数据,故障信息是已知的,通过使用含有故障信息的样本数据进行验证,如果不知道哪些是故障的话,无法判断故障监测模型的效果。
9.s2.通过极大似然估计法,确定训练集x
train
的内在维度,确定低维空间的特征变量个数,并使用梯度下降法最小化高维空间和低维空间中的交叉熵。
10.s3.对训练集x
train
的数据进行降维,得到低维特征数据y
train
,使用最小二乘回归方法对原始训练集x
train
和低维特征数据y
train
进行回归拟合,得到映射矩阵a;将测试集x
test
投射到低维空间得到测试集样本y
test

11.s4.在低维空间中,使用支持向量数据描述方法对降维后的低维特征数据y
train
进行训练,得到超球体的相关参数,克服过程数据中的非高斯性。支持向量数据描述方法的边界函数可通过一个超球面进行刻画,通过将目标样本点映射到能够更容易进行球形描述的高维空间特征空间中,对数据进行分类。
12.5.对测试集x
test
的数据,采用训练好的故障监测模型验证故障监测方法的监测效果,判断新样本点是否为故障点。
13.步骤s1中的数据来源于废水仿真基准平台的故障仿真数据,训练集中包括废水仿真基准模型在正常操作状态下运行14天,平均每隔15分钟采样一次,累计获得1345个样本,测试集中包含废水仿真基准模型在不同故障模式下的运行数据,在第4天时在仿真模型中引入扰动,构建不同类型的故障,对故障检测模型进行验证。也就是故障从第289个样本点开始引入,在仿真模型中引入扰动,改变模型的运行状态,也就得到了故障状态下的过程数据。
14.所述步骤s2的具体步骤如下:
15.s21:假设n个高维空间样本点x
train
={x1,x2,...,xn}(x∈rm),其中m≥n。
16.对每个数据点xi定义局部伪度量空间其中xi是包含xi的k个邻居的集合,计算公式为:
17.18.其中,σi和ρi满足式(2)和式(3)
[0019][0020][0021]
其中,表示点xi和xj之间的欧几里得距离,ρi是点xi到首个最近邻居的距离,确保xi局部连接到其至少一个最近的邻居(即距离为0),使得所有的样本点都是不孤立的。σi是xi最近邻数据点的直径。
[0022]
s22:给定一个超参数k,可以得到xi在d下的近邻集合{x
i1
,...,x
ik
},则高维空间模糊拓扑结构可以使用指数概率分布表示:
[0023][0024]
s23:将指数概率函数对称化:
[0025]
p
ij
=p
i|j
p
j|i-p
i|j
p
j|i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0026]
s24:假设n个低维空间中的映射点y
train
={y1,y2,...,yn}y∈rn),低维空间中样本点之间相似度的概率分布如式(6)所示:
[0027]qij
=(1 a(y
i-yj)
2b
)-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0028]
其中,超参数a和b由故障监测模型根据过程数据优拟合后确定。建模阶段使用的都是训练集数据,测试集数据是为了验证故障监测模型的监测效果,也就是是否可以监测到故障。
[0029]
s25:为了使原始高维空间数据中相似的样本点在投影空间中尽可能的保持相似,引入交叉熵作为代价函数,交叉熵表示为:
[0030][0031]
通过最小化代价函数,获得和高维空间数据拟合度最高的低维空间数据。使用梯度下降法优化代价函数,获得代价函数的最小值,得到均匀流形近似及投影降维后的结果。为了提高降维效果,可以对原始高维空间数据进行多次迭代,提高低维空间数据映射的正确性。使用梯度下降法,多次迭代后,得到代价函数最小时的参数,得到低维特征矩阵。
[0032]
所述步骤s3的具体步骤如下:
[0033]
s31:通过训练一个线性最小二乘回归模型,将测试集的样本点嵌入到低维空间中得到投影矩阵a。在废水处理过程中,考虑到正常情况下的n个变量,每个变量有m个测量变量,也就是说每个观测值xi是一个m维向量。设x
train
=[x1,x2,...,xn]∈rm×n是具有n个样本的原始训练数据,其中xi∈rm(i=1,2,...,n)表示在第i个采样时间,从传感器测量的m个变量。y=[y1,y2,...,yn]∈r
l
×n是嵌入在l维空间中的数据,其中yi∈r
l
(i=1,2,...,n)是xi在l维空间中的映射点。
[0034]
xi→
yi=a
t
xiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0035]
s32:基于对原始高维空间过程数据中存在潜在的局部流形假设,使用线性最小二乘回归计算投影矩阵:
[0036]
a=(x
train
x
traint
)-1
x
trainytraint
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0037]
其中,是高维空间数据和低维空间数据之间映射关系的线性投影矩阵。
[0038]
所述s4的具体步骤如下:
[0039]
s41:给定一个训练样本x
test
={x1,x2,...,xn}(xi∈rm),构成单值分类器的n个学习样本,支持向量数据描述的目标是找出一个尽可能包含所有样本或绝大多数样本的体积最小的超球体。定义一个非线性映射ψ(
·
):xi→
ψ(xi),将整个数据集映射到高维特征空间,则优化问题表示为:
[0040][0041]
s.t.||ψ(xi)-a||2≤r2 ξiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0042]
其中,a为超球体的中心,r为超球体的半径,||ψ(xi)-a||为样本点xi到球体中心a的距离。ξi为松弛因子,且ξi≥0,c为惩罚系数。引入这两个参数是为了平衡超球体体积和误分类样本,使得分类结果更为准确。
[0043]
s42:引入拉格朗日乘子α=[α1,α2,...,αn]
t
,上述目标优化问题可以转为求拉格朗日极值问题:
[0044][0045]
s.t.0≤αi≤c
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
[0046][0047]
其中,k(xi,xj)=《ψ(xi),ψ(xj)》是核函数,使用高斯核函数将原始数据空间映射至高维特征空间,将原始数据中的非线性问题转换为高维空间的线性问题,且可以在不知道非线性函数具体的形式的情况下进行求解。
[0048]
通过s42求得最优解满足式中sv是支持向量。通过式(15)和式(16)计算超球体的中心和半径。
[0049][0050][0051]
其中,xs代表支持向量。
[0052]
所述步骤s5的具体步骤如下:
[0053]
s51:对于测试集样本y
test
,计算y
test
到超球体中心的距离为:
[0054]
[0055]
s52:构建故障监测模型,将样本点和超球体中心之间的距离定义为相应的监控统计量dis。
[0056]
s53:将超球体的半径r定义为统计监测指标的控制限dis,故障监测的逻辑为:
[0057][0058]
本发明的有益效果:
[0059]
本发明通过结合降维预处理方法和分类器模型,在分类器上设计判别目标来标记数据,从而实现故障监测。采用训练好的故障监测模型验证故障监测方法的监测效果,判断新样本点是否为故障点。该方法的优势在于,在支持向量数据描述模型的基础上,结合均匀流形近似及投影算法和数据预处理方法,降低故障监测模型的复杂度,避免过程数据维度过高造成“维度灾难”的问题。并且由于均匀流形近似及投影算法在降维时可以最大化不同类别间的样本距离,最小化同类别间的样本距离,能够提取过程数据中的非线性信息。而支持向量数据描述方法能够通过构建超球体,最大程度的包含同类样本数据,使用支持向量数据描述方法对低维子空间的过程数据进行训练,建立故障监测模型。
附图说明
[0060]
图1是基于均匀流形近似及投影算法的故障监测模型流程图。
[0061]
图2是经过均匀流形近似及投影算法预处理后的低维数据在三维空间中的投影图。
[0062]
图3是改进的故障监测模型的故障监测图。
具体实施方式
[0063]
下面将对本发明进行更清楚、完整的进一步描述,显然,所描述的实例仅仅是本发明的一部分实例,而不是全部的实施例。
[0064]
如图1-图3所示,一种基于流形学习的废水处理故障监测方法,包括以下步骤:
[0065]
s1.数据预处理:采集废水处理过程中正常操作条件下的历史过程数据作为训练集x
train
,采集包含有故障特征的实时监测数据作为测试集x
test
,并且对训练集x
train
和测试集x
test
的数据进行标准化,消除过程数据变量之间因为量纲不同产生的影响。
[0066]
标准化公式如下:
[0067][0068]
式中,x
*
为原始数据,x为标准化以后的数据,μ及σ分别为所有样本数据的均值和方差。
[0069]
s2.构建均匀流形近似及投影模型,提取过程数据的特征信息。通过极大似然估计法,确定过程数据的内在维度,确定低维特征变量个数,并使用梯度下降法最小化高维空间和低维空间中的交叉熵。
[0070]
s3.对训练集x
train
的数据进行降维,得到低维特征数据y
train
,使用最小二乘回归方法对原始训练集x
train
和低维特征数据y
train
进行回归拟合,得到映射矩阵a;将测试集x
test
投射到低维空间得到测试集样本y
test

[0071]
s4.构建支持向量数据描述模型,在低维子空间中,使用支持向量数据描述方法对降维后的过程数据进行训练,得到超球体的相关参数,克服过程数据中的非高斯性,建立故障监测模型。
[0072]
s5.对测试集数据,采用训练好的故障监测模型验证故障监测方法的监测效果,判断新样本点是否为故障点。
[0073]
以bsm1仿真基准平台实验数据为例,在bsm1仿真软件的基础上,通过改变过程变量参数,可以产生8种故障数据:(1)自养菌最大比增长速率变化故障;(2)异养菌最大比增长速率变化故障;(3)二沉池沉降速率变化故障;(4)硝酸盐执行器输出故障;(5)溶解氧控制器设定值改变;(6-8)溶解氧传感器的漂移故障、偏移故障和完全失效故障。通过改变相应的信号输入设计了8种不同的故障模式。结合图1对本发明做进一步详述:
[0074]
离线阶段模型建立过程:
[0075]
第一步:采集废水处理过程中正常操作条件下的历史过程数据作为训练集,并且对过程数据进行标准化,消除过程数据变量之间因为量纲不同产生的影响。
[0076]
第二步:通过极大似然估计法,确定过程数据的内在维度,确定低维特征变量个数,并使用梯度下降法最小化高维空间和低维空间中的交叉熵。
[0077]
第三步:使用最小二乘回归方法计算均匀流形近似及投影算法降维后的映射系数矩阵a。
[0078]
第四步:在低维子空间中,使用支持向量数据描述对降维后的过程数据y
train
进行训练,得到超球体的相关参数,克服过程数据中的非高斯性。
[0079]
在线阶段故障监测模型运行过程:
[0080]
第五步:对于测试数据x
new
,计算其在低维空间的映射矩阵yi=a
t
x
new
,得到降维后的测试集数据。
[0081]
第六步:计算新数据与训练好的支持向量数据描述模型的超球体球心的距离,即监控统计量dis。
[0082]
第七步:判断新样本的监控统计量dis是否大于监测指标的控制限dis,若dis》dis,则将新的样本点视为故障样本;否则,新的样本点是正常操作状态下的过程数据。表1为三种故障监测模型对废水仿真基准模型的8种故障的故障监测率,表2为三种故障监测模型对废水仿真基准模型的8种故障的故障误检率。通过对比监测结果,可以看出对于故障1、2、3和6,改进的故障监测模型有更好的监测结果,对于其他监测效果不好的故障类型,监测效果也有明显的提升。故障5和故障8是变化比较大的偏置类型,所以比较容易被监测方法监测到。在基于改进模型的故障监测中,故障1的误检率明显较低,但是存在一定的漏检。故障2和故障3的监测率提升明显,针对这种缓慢变化的故障,与对比算法相比监测延迟最小,能在故障发生的早期及时的发现异常,做出预警,防止故障进一步扩大导致情况恶化。故障4为硝酸盐输入量增加,属于模型的内部干扰故障,在实际的废水处理过程中,由于控制回路中的反馈控制,偏移故障信号逐渐被矫正,故障信息不明显。使用主成分分析法对过程数据进行降维时,传统的线性方法无法捕获到过程数据中的非线性特征,导致故障监测精度不高,而采用均匀流形近似及投影算法对过程数据进行降维时,能够更好的解决废水处理过程数据的非线性问题。
[0083]
表1故障监测率(%)
[0084][0085]
表2故障误检率(%)
[0086][0087]
考虑到废水处理过程中数据存在的非线性、非高斯性以及工业过程存在的不确定性,使得故障监测过程中的模型难以达到较好的监测效果。本发明方法通过均匀流形近似及投影算法来更好的解释数据的非线性,结合支持向量数据描述方法进行故障数据与正常数据分类,使得改进的故障监测模型能够更好的适应实际工业过程。
[0088]
对故障监测模型的模型效果评估过程具体为:将测试集数据带入训练好的故障监测模型,使用故障监测率和故障误检率综合评估故障监测模型的监测效果。
[0089]
以上描述了本发明的基本原理、主要特征及本发明的优势所在。以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不局限于此,本行业的技术人员在本发明展示的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该由所附的权利要求书及其等效物界定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献