基于流数据聚类的化工过程多工况报警阈值自适应设置方法与流程

2022-02-22 04:00:18 来源：中国专利 TAG：

1.本发明涉及一种基于流数据聚类多工况建模的报警阈值自适应设置方法，属于工业控制报警管理领域，并以煤气化汽包为例进行了报警阈值设置和方法验证。

背景技术：

2.在多工况多状态的化工过程的报警阈值设置问题中，由于原料、产品等相关生产调度策略的改变，化工过程会出现多工况运行状态，工业中经常使用的方法有3σ方法、基于专家知识的阈值设置方法和fap-map(false alarm probability and missingalarm probability)方法等。上述方法一旦阈值设定，不会轻易改变，仍需要现场操作人员根据经验对相关的过程参数报警阈值进行调整，原有的阈值设置将不能满足报警需求，进而使最终的报警效果达不到控制要求，出现滋扰报警、误报率漏报率增大等现象。因此，在充分考虑被控对象的安全性和经济性前提下，本专利建立一种多工况建模的报警阈值自适应设置方法。
3.本专利选用流数据聚类的方法进行建模。工业过程监控数据作为一种具有实时性、快速性、多变量的时序数据，采用流数据聚类的方法，能够进行实时、快速的聚类，其过程中产生的微簇过程量等数据信息，能保证建模时模型的准确性。流数据聚类是在传统的数据聚类基础上演化而来的一类聚类算法，随着新的数据的连续流入，它能够动态调整和更新聚类结果，从而真实反映数据流的聚类形式。流数据聚类算法能实时计算聚类结果，有效解决大量流数据的聚类问题。

技术实现要素：

4.为解决上述背景技术中的难题，本发明提出了一种基于流数据聚类多工况建模的报警阈值自适应设置方法。本发明采用的技术方案为基于流数据聚类的化工过程多工况报警阈值自适应设置方法，该方法的实施流程如下：
5.本发明主要分为三大步骤：首先采用流数据聚类，得到流数据聚类结果；然后利用聚类结果进行边缘提取获得分类信息，进而设定多工况参数报警阈值组并构建流数据聚类多工况报警模型；最后，根据多工况报警模型设定合适的模型匹配方法，进而给出完整的多工况报警阈值自适应设置方法。
6.1流数据聚类
7.该步骤主要目的是将历史数据进行聚类分析，获得多工况状态的区分，为建模操作提供聚类结果的支持。
8.考虑到化工过程运行滋扰报警的存在，流数据聚类会产生离群点及离群微簇，为了保持面向过程报警的数据完整性，不能对其进行删除处理。为此，这里提出了一个面向过程报警的a-denstream(alarm-denstream)算法。
9.a-denstream在衰减窗口模型下考虑数据流聚类问题，在该模型中随时间t变化不断以衰减函数f(t)＝2-λt
进行指数衰减，λ＞0。λ的取值越大，历史数据对于当前数据的影响
就越小。在处理工业数据时，为了确保不遗漏关键点信息，通常λ取值较小。数据流的整体权值为一个常数w：
[0010][0011]
其中，tc(tc→
∞)为当前时间，v代表数据流的流速，λ为时间衰减常数。
[0012]
a-denstream算法的在线微簇维护主要包括新数据点融合与微簇周期性检查两部分，新数据点融合的主要内容包括：
[0013]
1)通过核心微簇(core-micro-cluster)的中心(c)、半径(r)和权值(w)来概略地表示微簇中的数据，对一组时标为t
i1
,...,t
ij
,...,t
in
相互临近的数据点p
i1
,...,p
ij
,...,p
in
在t时刻进行定义，i表示数据组的维度，j表示当前数据，n表示数据组中包含的数据个数，当数据点到达时，通过计算数据点与潜在核心微簇中心的距离获得距离最近的潜在核心微簇，并尝试融入其中，r
p
为点p
ij
的半径，若融入后半径r
p
小于等于半径阈值ε，则确定该数据点融入其中，否则执行之后的操作。
[0014][0015][0016][0017]
其中，正整数μ为设定的阈值参数，dist(p
ij
,c)表示时标为t
ij
的数据点p
ij
到中心点c的欧氏距离。
[0018]
2)寻找距离最近的离群微簇，并尝试融入其中，若融入后半径r
p
小于等于半径阈值ε，则确定该数据点融入其中，否则继续执行之后的操作。当确定数据点融入离群微簇之后，检查该微簇的权值w，若权值为w≥βμ(β，0≤β≤1，为用于决定离群点相对于核心微簇的阈值参数)，则该微簇进化为潜在核心微簇。
[0019]
3)当数据点无法融入现有的潜在核心微簇与离群微簇时，以此数据点创建一个离群微簇。
[0020]
a-denstream算法的微簇周期性检查为定期对所有潜在核心微簇与离群微簇进行状态检测，从而完成潜在核心微簇与离群微簇之间的相互转化。为了保证原始数据的完整性，将离群微簇设置为冷却微簇，具体操作过程如下:
[0021]
1)周期检查时间间隔t
p
为：
[0022][0023]
2)对所有潜在核心微簇进行检查，将权值w小于βμ的微簇删除，并将其加入离群微簇，离群微簇冷却操作的阈值为ξ(tc,t0)：
[0024]
[0025]
其中，tc，t0分别为当前时间和生成时间对所有离群微簇进行检查，对于工业数据可以将t0设为数据采样周期，权值小于ξ的离群微簇将变为冷却状态，保留数据点和微簇群但不再对该离群微簇进行周期性检查。当用户访问该集群时，冷却集群将被激活。此时，被激活的冷却集群将被作为新的数据输入，并再次进行聚类操作。这种操作将有效地保证数据集的完整性，这也是工业报警中比较关注的一个方面。
[0026]
a-denstream算法的离线阶段在收到获得聚类簇的指令后，使用拓展的bscan算法对当前状态的潜在核心微簇进行聚合，从而获得用户指定任意时刻的聚类结果。
[0027]
2基于流数据聚类的多工况报警模型搭建
[0028]
该步骤主要分为两部分。第一部分流数据聚类边缘提取主要目的是将聚类结果进行分析，获得多工况分类信息；第二部分是将多工况下每一个工况的报警阈值进行设定，进而得到多工况报警阈值组。通过这两部来搭建分段报警阈值模型，即多工况报警阈值模型。
[0029]
2.1流数据聚类簇边缘提取
[0030]
化工过程流数据聚类具有工艺相关性的过程变量组，这里首先通过灰色关联分析法选择报警相关变量，进而对相关变量历史数据进行a-denstream流数据聚类分析，得到潜在核心微簇聚类结果(cpi＝pmc:{cf1,cf2,w})和完整簇结果(ci:{c1,c2,c3,...,cn})。
[0031]
为了设定下一步模型建立所需要的各项参数，进而构建合理的报警模型，我们需要对聚类后的簇进行边界提取。利用在boder[22]基础上进行改进后的c-boder算法求取各个簇ci的边界：对于给定数据集ci，对于则数据对象p的eps邻域定义为：n
eps
(p)＝{q∈ci|dist(p,q)≤eps}，对象p的点密度记作den(p)，即：den(p)＝|n
eps
(p)|，其中|n
eps
(p)|表示n
eps
(p)内对象的个数。设aveden为数据集内平均密度，如果对象p满足|n
eps
(p)|≥aveden且属于核心微簇cpi，则称对象p为候选边界点；如果对象p满足|n
eps
(p)|≥aveden或不属于核心微簇cpi，则p为噪声点。
[0032]
在p的eps领域内，找一密度最大点o，p的正半邻域pn
eps
(p)定义为：
[0033]
pn
eps
(p)＝{q∈c|q∈n
eps
(p),and∠opq∈[0,90
°
]}
[0034]
p的负半邻域nn
eps
(p)定义为：
[0035]
nn
eps
(p)＝{q∈c|q∈n
eps
(p),and∠opq∈[90
°
，180
°
]}
[0036]
图1给出了点p的eps邻域示意。
[0037]
用|pn
eps
(p)|、|nn
eps
(p)|分别表示pn
eps
(p)、nn
eps
(p)邻域内包含的对象个数，如果点p是噪声点，则令其边界度为0；若p为候选边界点，则其边界度为
[0038][0039]
如果该对象的边界度bp(p)大于阈值δ，则标记该对象为边界点。
[0040]
δ的选取遵循roc曲线的优化策略，p(x)为异常数据概率密度，q(x)为正常数据概率密度：
[0041][0042][0043]
δ＝min{p
far
p
mar
}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0044]
改进后的c-boder算法能够在不同形状簇的数据集上提取出数据集的整体边界p(ei):{ei∈c|bp(ei)＞δ}，i＝1,...,n。
[0045]
2.2设置多工况报警阈值组
[0046]
通常情况下，正常操作设定点和导致重大危害的约束条件较为清晰，报警阈值在这两者之间，容许有足够的范围正常操作抵消扰动带来的影响，保证在一个合理的安全区域内。
[0047]
大多数过程控制约束可表示为：
[0048]yk,min
≤yk≤y
k,max
,k＝1,...,m
ꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0049]
其中，y
k,max
和y
k,min
分别为报警变量的上下界。
[0050]
受到外界干扰的影响，实际工作点会偏离最优设定点，因此，将后退策略引入到优化求解过程中保证工作点在复杂环境下的可行性。各个变量的约束允许以一定的概率被违反，需要满足的不等式为：
[0051]
pr{y
k,min
≤yk≤y
k,max
,k＝1,...,m}≥1-α
ꢀꢀꢀꢀꢀꢀꢀ
(12)
[0052]
其中，α为允许约束违反的概率。每个变量对过程操作和安全操作具有不同的重要性，当变量状态对安全运行具有重要作用时，置信度水平1-α可以选0.5～1的值；对于影响系统安全较低的变量，置信度应取较小的值，即0～0.49区段中的值。因此，约束变量的置信度水平1-α可以作为系统性能和安全运行的协调因子。
[0053]
假设过程变量服从高斯分布，将输出变量的概率约束转换为：
[0054][0055]
其中，为第k个变量的均值；为对应的方差。
[0056]
设
[0057][0058]
且φi服从正态分布n(0,1)，则上式可以写成
[0059][0060]
根据高斯分布数字特征，可得到
[0061][0062]
其中，为正态分布的α/2分位点。
[0063]
定义
[0064]
[0065]
由上式可将报警阈值设定为
[0066][0067]
由于在不同状态下的观测变量的正常状态的范围不同，所以根据训练聚类结果，分区段设置多工况报警阈值组，当存在多个报警变量时，在状态i的报警阈值为：
[0068][0069]
聚类边界p(ei)在报警外阈值内，与p(ei)之间定义为模糊域pqi，p(ei)内定义为安全域q
ini
，外定义为危险域q
outi
。
[0070]
将聚类划分的i个簇定义为为i个状态，将簇ci进行边缘提取，按照包含不确定因素的自适应阈值组设置方法，对报警变量yi将其分化为i个分段报警阈值组，并对模型的各个区块进行整合即xi:{p(ei),qi,pqi,q
ini
,q
outi
}，建立分段报警阈值模型。
[0071][0072]
3多工况报警阈值自适应设置方法
[0073]
该步骤是针对已经建立好的模型，设定合适的模型匹配方法，进行报警状态的判断，从而构建完整的多工况报警阈值自适应设置方法。
[0074]
将历史数据进行a-denstream流数据聚类分析，在保留原有结果ci的情况下进行新数据到来的聚类，得到潜在核心微簇聚类结果，和完整簇结果
[0075]
接着对历史数据的样本聚类结果进行匹配：初始化核心对象集合为(cpi＝pmc:{cf1,cf2,w})，初始化聚类簇数k＝i，初始化未访问样本集合为测试集d，簇划分c＝ci。对于未访问的数据集d，进行聚类更新后，若c'i与ci密度可达且c'i为ci原簇更新后的结果，则认为c'i与ci匹配成功，两者为同一状态下的阈值区间。若c'i与ci密度不可达且c'i为生成的新簇，则认为c'i与ci匹配失败，c'i不属于模型中任意状态，c'i属于报警簇。
[0076]
当t1时刻潜在核心微簇的中心在安全域q
ini
演化时，报警变量为0；当潜在核心微簇的中心在危险域q
outi
演化时，报警变量为1；当潜在核心微簇在模糊域pqi演化时，定义此时报警状态为警戒状态：
[0077]
若t0时刻，潜在核心微簇的中心处于警戒状态时，对其进行观测，将t0时刻的
微簇簇心与所在完整簇簇心计算欧氏距离并于t1时刻的进行比较：若大于给定阈值ρ，则判定潜在核心微簇在模糊域pqi有向危险域q
outi
演化的趋势，此时报警变量为1；若小于给定阈值ρ，则判定潜在核心微簇在模糊域pqi有向安全域q
ini
演化的趋势，此时报警变量为0。当该微簇的报警状态为1时，则判定该微簇内数据点为异常数据点，反之则为正常数据点。图2给出了基于流数据聚类的多工况报警阈值自适应设置方法的流程图。
[0078]
与现有技术相比较，本发明提出的基于流数据聚类多工况建模的报警阈值自适应设置方法，针对传统的过程报警阈值优化未考虑化工过程多工况的局限性进行了改进，细化了报警阈值的多工况分状态的设置方法。与一些传统方法相比，本发明提出的方法可以根据流数据聚类结果进行自适应阈值匹配，通过识别数据波动，调整阈值范围进而精确报警，极大的降低了漏报率与误报率。
附图说明
[0079]
图1点p的eps邻域示意图。
[0080]
图2基于流数据聚类的多工况报警阈值自适应设置方法流程图。
[0081]
图3煤气化过程汽包流程图。
[0082]
图4原始过程数据。
[0083]
图5灰关联分析结果。
具体实施方式
[0084]
煤气化是典型的化工生产过程，新的煤气化技术是现代煤化工的重要组成部分。图3为粉煤加压气化装置，是一种以干煤粉为原料，采用激冷流程生产粗合成气的工艺。粉煤气化工艺采用了盘管式水冷壁气化炉，顶喷式单烧嘴，干法进料及湿法除渣，在较高温度及压力下，以纯氧及少量蒸汽为气化剂的气化炉中对煤粉进行部分气化，产生以co、h2为主的湿合成气，经激冷和洗涤后，饱和了水蒸气并除去细灰的合成气，送入变换系统。
[0085]
选取该装置中煤气化汽包循环水过程作为研究对象，使用基于流数据聚类的化工过程多工况报警阈值自适应设置方法设置报警阈值。煤气化过程主要对汽包的7个相关变量进行数据采集，相关变量见表1。
[0086]
表1相关变量表
[0087]
[0088]
根据煤气化工业煤气化汽包循环水过程7个变量的100组数据，见图4，对7个变量进行灰色关联分析，如图5所示。取17lya2040b.daca.pv汽包液位作为关键过程报警变量，找最相关的变量17fiza2041b.daca.pv去气化炉循环水流量和17fi2043.daca.pv汽包排污流量作为相关报警变量，数据每6分钟进行一次采样，采集6000组数据，4000组作为训练集，2000组作为测试集，其中测试集包括1000组正常数据和1000组异常数据。
[0089]
首先对训练样本归一化处理并进行a-denstream流数据聚类分析，根据数据样本和历史经验对参数进行选取，λ取0.1，ξ取0.8，β取1.2，μ取2，得到潜在核心微簇聚类结果(cpi＝pmc:{cf1,cf2,w})和完整簇结果(ci:{c1,c2,c3})。
[0090]
利用c-boder算法求取各个簇ci的边界，簇间密度取δ为1.26：p(ei):{ei∈ci|bp(ei)＞1.26}。
[0091]
利用包含不确定因素的多工况报警阈值设置方法进行报警阈值的设定：
[0092][0093]
对于本文所提出的方法，该报警阈值划分为三个区段，则需要对测试集进行匹配划分后根据上述模型进行报警检测。
[0094]
该方法获得的误报警及漏报警数的统计结果分别如表2所示。
[0095]
表2误报警及漏报警数统计
[0096]

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：小流域下垫面条件提取分析方法与流程

基于流数据聚类的化工过程多工况报警阈值自适应设置方法与流程

相关文献

最热文献