基于金字塔变分自编码器的多采样率数据软测量建模方法

2022-06-01 12:28:53 来源：中国专利 TAG：

1.本发明属于工业过程控制领域，特别涉及一种基于金字塔变分自编码器的多采样率数据软测量建模方法。

背景技术：

2.在工业生产过程中，一些易于采集和观测、与生产过程强相关的变量被称为过程变量，而另一些与过程监测、产量预测、质量预报等强关联的变量则被称为质量变量。一般的，质量变量通常因为测量的设备异常昂贵、采集的环境非常严苛、实验室检验分析延迟较大等原因，不便于直接观测，因此需要采用一些间接观测的方法来获得关键质量变量数据。软测量建模作为解决关键质量变量观测的有效方法，受到了专家学者的广泛关注。它通过构建易于测量的过程变量与难于观测的质量变量之间的数学关系，进而对质量变量进行推断和估计，从而近似的获得关键质量变量数据，指导工业生产。
3.与此同时，由于生产过程中传感器差异，采集点位、采集变量性质不同等诸多因素，导致了生产数据的采样频率也不尽相同。如前所述，过程数据易于观测而质量数据难于观测，因而产生了双率数据，质量变量相对于过程变量数据非常稀少。针对此类问题常常采用半监督学习的方法进行处理，通过半监督模型充分挖掘无标签样本的数据信息来辅助有标签样本优化有监督模型。但当生产数据包含了多个采样频率时，半监督模型就不再适用了。而贸然采用降采样或升采样的方法来平衡数据量，可能会导致数据信息丢失或者给模型带来了更多不确定性。

技术实现要素：

4.针对工业过程中的多采样率数据软测量建模问题，本发明提出了一种基于金字塔变分自编码器的多采样率数据软测量建模方法(mr-pvaer)，克服了降采样或升采样的缺点，无需针对特定工业过程定制模型，而是建立通用的多采样率软测量模型，预测精度高，建模效果好。
5.本发明是通过以下具体的技术方案来实现的：
6.一种基于金字塔变分自编码器的多采样率数据软测量建模方法，具体包括以下步骤：
7.(1)收集多采样率数据建模所需的有标签数据集样本x
train
,y
train
作为训练集，其中x
train
代表过程数据样本，y
train
代表质量数据样本，x
train
、y
train
均包含多个采样率的数据；
8.(2)利用多采样率数据预处理器，将训练集的m个采样率的数据重组为m组不同分辨率的训练集，每个分辨率的训练集具有各自的变量维数和数据总量；
9.(3)利用m组变分自编码器网络，按分辨率由低到高，分别对m组不同分辨率的数据集进行非线性特征提取，得到各组对应的隐层空间非线性特征分量其中1≤i≤m，i∈z，1≤j≤pi，j∈z，pi表示每个采样率在单位时间内采集的样本个数，第m组数据分辨率最低，第1组数据分辨率最高；
10.(4)对每组内的隐层空间非线性特征分量串联，形成融合特征，再按照数据分辨率从高到低，依次串联该组的融合特征和低一级分辨率数据的融合特征，得到每组数据对应的隐层空间融合特征向量zi；
11.(5)分别使用m个多层感知机对m组不同分辨率数据的隐层空间融合特征zi进行质量变量回归网络构建，得到m个基于变分自编码器的多采样率数据软测量模型；
12.(6)将步骤(1)所述训练样本x
train
,y
train
输入到m个基于变分自编码器的多采样率数据软测量模型进行训练，并从中选出一组训练效果最优的模型作为基于金字塔变分自编码器的多采样率数据软测量模型，进行预测；
13.(7)将在线获取的待预测样本x
test
输入到基于金字塔变分自编码器的多采样率数据软测量模型中，获得输出预测值
14.进一步地，所述步骤(2)具体为：
15.定义单位时间内包含m个不同的均匀采样频率数据，每个采样率在单位时间内采集的样本个数pi满足p1≥p2≥p3≥
…
≥pm，记p1，p2，p3，...，pm的最小公倍数为n，将单位时间等分为n个时刻，分别记作t1，t2，...，tn时刻，第i组训练集的采样间隔记作qi＝n/pi；
16.多采样率数据预处理器按照如下方式将训练集中m个采样率的数据重组为m组不同分辨率及其子分辨率的训练集：
17.(2-1)令i＝m，开始执行第i组分辨率的数据重组；
18.(2-2)令j＝1，开始执行子分辨率i，j的数据重组；
19.(2-3)令k＝i,s＝j
×
qi；
20.(2-4)若mod(s，qk)＝0，则采样率k在ts时刻有数据，将采样率k在ts时刻的所有数据依次串联至子分辨率i，j在ts时刻的数据集x
i，j
中；
21.(2-5)令k＝k-1，若k≥1则转至步骤(2-4)；
22.(2-6)令j＝j 1，若j≤pi则转至步骤(2-3)；
23.(2-7)令i＝i-1，若i≥1则转至步骤(2-2)。
24.进一步地，所述步骤(3)具体为：将步骤(2)中重组得到的各个子分辨率i，j的数据x
i，j
，经过变分自编码器的编码器部分映射到隐层空间，得到隐变量的均值和方差z
mean，i，j
和z
sigma，i，j
，z
mean，i，j
和z
sigma，i，j
经过重参数化得到隐变量z
i，j
＝z
mean，i，j
e
×zsigma，i，j
，其中e～n(0，i)；隐变量z
i，j
经由解码器得到子分辨率i，j数据的重构值变分自编码器网络的损失函数为其中d
kl
表示kl散度。
25.进一步地，所述步骤(4)具体为：将步骤(3)中第i组分辨率数据的特征分量以及低一级分辨率第i 1组数据对应的隐层空间特征向量z
i 1
全部串联起来，即为第i组分辨率数据对应的隐层空间融合特征向量
26.进一步地，所述步骤(5)具体为：在质量变量回归网络中，将m组分辨率数据对应的隐层空间融合特征向量，经过多层感知机拟合得到预测的质量变量；
27.质量变量回归网络的损失函数为
28.29.其中，表示第i个基于变分自编码器的多采样率数据软测量模型的预测值。
30.进一步地，所述步骤(6)中，所述基于金字塔变分自编码器的多采样率数据软测量模型由多个子网络根据输入输出关系组合而成，每个重组后的分辨率数据运用其对应网络进行建模，第i组分辨率数据对应网络的损失函数定义为：
[0031][0032]
本发明的有益效果是：
[0033]
本发明提出了一种多分辨率金字塔变分自编码器回归(mr-pvaer)模型，用于处理非线性过程的多采样率数据问题。mr-pvaer模型首先设计了一个多采样率数据预处理器，将不规则多采样率数据重组为不同大小，不同数据量的规则数据，即多分辨率数据。之后该模型借助变分自编码器(vae)对多分辨率数据进行非线性特征提取，利用所提取的多分辨率特征融合为特征金字塔并建立回归模型。不同于降采样和升采样的数据处理方式，mr-pvaer模型能够选取最优的数据集进行建模从而获得最佳的估计效果。相比其他软测量模型，本发明能够通用且有效地处理工业过程中多采样率数据问题，保持数据的完整性，提升工业过程的软测量模型预测精度。
附图说明
[0034]
图1是多采样率数据特征提取示意图；
[0035]
图2是特征金字塔融合回归建模示意图；
[0036]
图3是二氧化碳(co2)吸收塔工艺流程图；
[0037]
图4是二氧化碳(co2)吸收塔多采样率数据示意图；
[0038]
图5是二氧化碳(co2)吸收塔多采样率数据预处理结构图；
[0039]
图6是二氧化碳(co2)吸收塔分辨率4数据集模型训练示意图；
[0040]
图7是二氧化碳(co2)吸收塔分辨率3数据集模型训练示意图；
[0041]
图8是二氧化碳(co2)吸收塔分辨率2数据集模型训练示意图；
[0042]
图9是二氧化碳(co2)吸收塔分辨率1数据集模型训练示意图；
[0043]
图10是二氧化碳(co2)吸收塔分辨率4数据集测试结果；
[0044]
图11是二氧化碳(co2)吸收塔分辨率3数据集测试结果；
[0045]
图12是二氧化碳(co2)吸收塔分辨率2数据集测试结果；
[0046]
图13是二氧化碳(co2)吸收塔分辨率1数据集测试结果。
具体实施方式
[0047]
下面结合附图和具体实施例对本发明的一种基于金字塔变分自编码器的多采样率数据软测量建模方法(mr-pvaer)作进一步的阐述。
[0048]
本发明针对工业过程多采样率数据的软测量建模问题，提出了一种基于金字塔变分自编码器的多采样率数据软测量建模方法(mr-pvaer)。该方法首先提出一个通用的多采样率数据预处理器，将多采样率数据集重组为多组多分辨率数据集。再利用变分自编码器
(vae)和多层感知机(mlp)对多分辨率数据集进行过程变量特征提取和质量变量回归预测。最后从中选择一组训练效果最优的子网络用于质量变量的预测。本方法对比其他现有的方法，大幅度提升了工业过程中多采样率数据的预测精度。
[0049]
本发明的一种基于金字塔变分自编码器的多采样率数据软测量建模方法(mr-pvaer)，包括如下步骤：
[0050]
(1)收集多采样率数据建模所需的有标签数据集样本x
train
,y
train
作为训练集，其中x
train
代表过程数据样本，y
train
代表质量数据样本，x
train
、y
train
均包含多个采样率的数据；
[0051]
(2)利用多采样率数据预处理器，将训练集的m个采样率的数据重组为m组不同分辨率的训练集，每个分辨率的训练集具有各自的变量维数和数据总量。
[0052]
定义单位时间内包含m个不同的均匀采样频率数据，每个采样率在单位时间内采集的样本个数pi满足p1≥p2≥p3≥
…
≥pm，记p1，p2，p3，...，pm的最小公倍数为n，将单位时间等分为n个时刻，分别记作t1，t2，...，tn时刻，第i组训练集的采样间隔记作qi＝n/pi；
[0053]
多采样率数据预处理器按照如下方式将训练集中m个采样率的数据重组为m组不同分辨率及其子分辨率的训练集：
[0054]
(2-1)令i＝m，开始执行第i组分辨率的数据重组；
[0055]
(2-2)令j＝1，开始执行子分辨率i，j的数据重组；
[0056]
(2-3)令k＝i,s＝j
×
qi；
[0057]
(2-4)若mod(s，qk)＝0，则采样率k在ts时刻有数据，将采样率k在ts时刻的所有数据依次串联至子分辨率i，j在ts时刻的数据集x
i，j
中；
[0058]
(2-5)令k＝k-1，若k≥1则转至步骤(2-4)；
[0059]
(2-6)令j＝j 1，若j≤pi则转至步骤(2-3)；
[0060]
(2-7)令i＝i-1，若i≥1则转至步骤(2-2)；
[0061]
(3)基于开源深度学习平台tensorflow搭建多采样率数据非线性特征提取网络，提取流程如图1所示。利用m组变分自编码器网络，按分辨率由低到高，分别对m组不同分辨率的数据集进行非线性特征提取，得到各组对应的隐层空间非线性特征分量其中1≤i≤m，i∈z，1≤j≤pi，j∈z，pi表示每个采样率在单位时间内采集的样本个数，第m组数据分辨率最低，第1组数据分辨率最高。每个隐层空间非线性特征分量z
i，j
提取自步骤(2)中所述子分辨率i，j的数据x
i，j
，经过变分自编码器的编码器部分映射到隐层空间，得到隐变量的均值和方差z
mean，i，j
和z
sigma，i，j
，z
mean，i，j
和z
sigma，i，j
经过重参数化得到隐变量z
i，j
＝z
mean，i，j
e
×zsigma，i，j
，其中e～n(0，i)。隐变量z
i，j
经由解码器得到子分辨率i，j数据的重构值变分自编码器网络的损失函数为变分自编码器网络的损失函数为其中d
kl
表示kl散度；
[0062]
(4)将步骤(3)中第i组分辨率数据的特征分量以及低一级分辨率第i 1组数据对应的隐层空间特征向量z
i 1
全部串联起来，即为第i组分辨率数据对应的隐层空间融合特征向量
[0063]
(5)基于开源深度学习平台tensorflow搭建质量变量回归网络，回归流程如图2所示，分别使用m个多层感知机对m组不同分辨率数据的隐层空间融合特征zi进行质量变量回归网络构建，得到m个基于变分自编码器的多采样率数据软测量模型，经过多层感知机拟合
得到预测的质量变量；
[0064]
质量变量回归网络的损失函数为
[0065][0066]
其中，表示第i个基于变分自编码器的多采样率数据软测量模型的预测值；
[0067]
(6)将步骤(1)所述训练样本x
train
,y
train
输入到m个基于变分自编码器的多采样率数据软测量模型进行训练，并从中选出一组训练效果最优的模型作为基于金字塔变分自编码器的多采样率数据软测量模型，进行预测。每个重组后的分辨率数据运用其对应网络进行建模，第i组分辨率数据对应网络的损失函数定义为：
[0068][0069]
(7)将在线获取的待预测样本x
test
输入到基于金字塔变分自编码器的多采样率数据软测量模型中，获得输出预测值
[0070]
为了评价基于金字塔变分自编码器的多采样率数据软测量模型(mr-pvaer)，采用模型评价指标均方根误差(rmse)和确定性系数(r2)对测试集的预测结果进行评价，计算公式为：
[0071][0072][0073]
以下结合二氧化碳(co2)吸收塔过程进一步说明和验证一种基于金字塔变分自编码器的多采样率数据软测量建模方法的有效性。co2吸收塔是合成氨(asp)过程中关键的工艺设备之一。其主要用于吸收甲烷(ch4)生成氢气(h2)过程中的副产物二氧化碳(co2),进而利用h2和n2在高温高压及催化剂条件下生成氨气。因此，co2含量的测定显得尤为重要，这关乎到最终产品的质量和纯度。co2吸收塔的工艺流程具体流程如图3所示。
[0074]
为了实时预估co2含量，选择了11个过程变量作为软测量模型的输入，1个质量变量作为软测量模型的输出，具体描述见表1。其中包含流量、温度、压力等变量，用于建立co2吸收塔数据驱动的软测量模型。
[0075]
表1：co2吸收塔变量描述
[0076]
[0077][0078]
由于这些变量的性质不同，采样的传感器不同，其数据集的采样率也不同。u1,u2,
…
,u5每一分钟采样一次，u6,u7,u8每两分钟采样一次，u9,u10,u11每三分钟采样一次，质量变量每六分钟采样一次。本实施例共收集了30000分钟的数据用于模型训练和测试。采集24000分钟的数据进行训练，即u1,u2,
…
,u5共有24000个数据，u6,u7,u8共有12000个数据，u9,u10,u11共有8000个数据，质量变量共有4000个数据用于训练。剩余的6000分钟的数据用于测试，即u1,u2,
…
,u5共有6000个数据，u6,u7,u8共有3000个数据，u9,u10,u11共有2000个数据，质量变量共有1000个数据用于测试。
[0079]
进一步的，co2吸收塔过程共包含4个采样率的数据，每个采样率在单位时间内采集的样本个数分别为6个、3个、2个、1个。一个采样周期包含6个采样时刻。
[0080]
图4描述了前述co2吸收塔多采样率数据的分布情况，给出一个采样周期，即6个采样时刻(t1，t2，...，t6)的数据分布情况。利用前述步骤(2)多采样率数据预处理器对多采样率数据进行重组，转换为多个多分辨率数据集。该过程共有12个过程变量(u1,u2,
…
,u11)以及1个质量变量(y)。图4中的白色格子表示该变量在该采样时刻没有采集数据。多采样率数据预处理器的重组策略是从低采样率的变量出发，寻找高采样率数据在低采样率时刻的数据并进行合并重组。如图4所示，在第一个周期内，分辨率4数据集就是从y出发，即第6分钟，先在采样率3中找到u9,u10,u11在第6分钟有值，再在采样率2中找到u6,u7,u8在第6分钟有值，最后在采样率1中找到u1,u2,
…
,u5在第6分钟有值，将这些变量在第6分钟的值合并。则分辨率4数据集就是u1(6)-u12(6),其中括号内的数字表示t＝t6。而分辨率3数据集是从采样率3出发，此时，有两个时刻可以作为出发时刻，则分辨率3数据集由两个时刻的分辨率构成，即分辨率3,1数据集和分辨率3,2数据集。分辨率3-1数据集是u9,u10,u11从第3分钟出发，首先在采样率中2找到u6,u7,u8在第3分钟没有值，再在采样率1中找到u1,u2,
…
,u5在第3分钟有值，则分辨率3,1数据集为{u1(3)-u5(3),u9(3)-u11(3)}。依此类推，6个采样时刻的多采样率数据，经过多采样数据预处理器后重组得到的多分辨率数据。图5也给出了一个采样周期经过多采样数据预处理器数据重组的整个过程。
[0081]
在非线性特征提取阶段，所采用的vae的编码器，解码器以及隐变量的神经元节点数均设置为10。按照步骤(4)所述方法得到分辨率4至分辨率1的隐层空间特征，并进行回归训练。训练过程示意图参见图6至图9，其测试结果参见图10至图13，其中实线表示真实值，
带星号虚线表示预测结果。表2给出了分辨率4至分辨率1的模型训练结果。由表2可知，分辨率1对应的子网络效果最佳，故采用该网络进行预测。
[0082]
表2：co2吸收塔过程mr-pvaer模型训练结果
[0083]
数据分辨率分辨率4分辨率3分辨率2分辨率1rmse0.003970.003110.002530.00239r20.698040.814220.877250.89024
[0084]
为了进一步证明本发明mr-pvaer方法的有效性，本实施例还与多采样率偏最小二乘方法(mrpls)，多层感知机方法(mlp)，多采样率k近邻回归(mr-knnr)方法进行了比较，各方法预测结果如表3所示。
[0085]
表3：co2吸收塔过程mrpls，mlp，mr-knnr和mr-pvaer模型测试结果
[0086]
方法mrplsmlpmr-knnrmr-pvaerrmse0.006400.005180.004150.00310r20.169970.455260.650890.80531
[0087]
从表3可以看出，本发明提出的一种基于金字塔变分自编码器的多采样率数据软测量建模方法(mr-pvaer)，针对工业过程中多采样率数据软测量建模问题，有较好的预测精度。以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于精细化交通管理下的施工区卸货点利用等级评估方法

基于金字塔变分自编码器的多采样率数据软测量建模方法

相关文献

最热文献