一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图卷积STG-LSTM的河流水质预测方法与流程

2022-06-29 21:44:36 来源:中国专利 TAG:

一种基于图卷积stg-lstm的河流水质预测方法
技术领域
1.本发明涉及图卷积预测技术领域,尤其涉及一种基于图卷积stg-lstm的河流水质预测方法。


背景技术:

2.为了更好管理流域水质状况,我国部分河流已建立较为完善的监测体系。溶解氧含量对调节河流生态系统中的各种化学过程和生物群落中起着关键的作用,氮磷是自然河流及湖泊中影响水体营养状态及浮游植物生产力的最主要营养因素。但河流水质具有时序性、不稳定性和非线性等特点且受多种因素影响,会产生时间和空间上的分布差异。因此,提高河流水质因子时空预测的准确度,有利于对河流不同位置的水质状态进行快速预警和精准调控。
3.河流水质的时空预测是以河流水质状态信息作为研究对象,根据其时空分布特征,利用历史数据对未来一段时间的水质时空状态做出预测。在早期的预测方法中,学者们提出马尔科夫模型、自回归移动平均模型(arma)以及其变种的自回归差分移动平均模型(arima)等统计学预测模型。这些统计学预测模型共同的特点是需要数据平稳性假设,由于提取河流水质因子的非线性特征能力不足,其预测的精度不高。支持向量机(svr)、高斯过程回归(gpr)和极限学习机(elm)等机器学习方法能够对河流水质数据进行特征工程建模并能很好的提取非线性特征,从而能够提高预测精度。近年来,深度学习方法在提升预测精度方面取得了优异的性能,被广泛应用于各行各业。但上述对于水质因子的预测方法都是针对单监测站点的时间序列预测,而河流水质因子数据不仅在时间上具有依赖性,在空间上河流不同位置上的水质状态也具有一定的空间关联性,所以仅从时间维度上考虑,无法获取河流不同位置上水质状态变化,因此,同时考虑水质时间和空间上的关系,能够进一步提高预测精度。


技术实现要素:

4.本发明所要解决的技术问题是:快速精准预测河流水质状况是城市水管理战略的重要任务,针对现有水质因子预测方法大多是单监测站点的时间序列预测,无法描述河流水质的空间分布。
5.本发明所采用的技术方案是:一种基于图卷积stg-lstm的河流水质预测方法包括以下步骤:
6.s1、对京杭运河各监测站点地理位置以及水质数据进行预处理:包括提取各站点经纬度和距离信息、不同水质数据,并对缺失值补全、归一化处理;
7.进一步地,所述的步骤s1具体包括:
8.s1-1、用91位图软件将运河各监测站点经纬度信息以及距离信息提取到excel表格进行保存;
9.s1-2、用随机森林算法对各监测站点水质数据缺失值进行补全;
10.s1-3、将补全后的水质数据进行归一化处理,使不同水质类型数据归一化到同一数量级上;
11.s2、采用最大互信息系数(mic)衡量运河各监测站点上水质因子之间的相关性,综合选取出与其它站点相关性最大的作为时空预测站点;
12.进一步地,所述的步骤s2具体包括:
13.s2-1、采用最大互信息系数衡量运河上各监测站点水质因子之间相关性;
14.s2-2、利用运河上两两站点不同水质因子的最大互信息系数,综合选取出与其它站点相关性最大作为时空预测站点;
15.s3、以各监测站点地理位置和水质因子历史观测值为依据,构建出时空图来表征各监测站点间水质时空相关性;
16.进一步地,所述的步骤s3具体包括:
17.s3-1、在某一时刻,将运河河段上各监测站点空间分布抽样成一个空间拓扑图,记作w=(v,e,a);
18.s3-2、以各监测站点地理位置和水质因子历史观测值为依据,构建出时空图:在某一时刻,构造出一个向量,该向量包含站点vi过去th时间片上待预测水质因子数据的平均值、标准差、偏度和峰度;根据站点vi与站点vj所构造的和将得到的两向量之间皮尔逊相关系数作为站点vi和vj之间的时空权重关系;
19.s4、构建图卷积长短记忆神经网络水质时空预测模型(stg-lstm),将时空图作为模型的输入,提取运河河段不同位置水质因子动态时空相关性;
20.进一步地,所述的步骤s4具体包括:
21.s4-1、stg-lstm模型由时空模块和输出层组成,时空模块包含图时空卷积模块和lstm的时间模块;基于tensorflow框架构建出上述所需要的两个模块;
22.s4-2、图时空卷积模块从所构造的时空图中捕获运河上不同位置水质因子的空间相关性;基于lstm的时间模块经数据特征融合后提取相邻站点之间时间序列信息;最后,基于参数矩阵对两个输出变量进行时空特征融合,经过输出层得到最终的预测结果;
23.s5、对stg-lstm水质时空预测模型进行验证:包括对时空预测站点水质预测结果的误差分析、运河不同位置水质预测结果验证分析和对模型预测结果的可靠性以及普适性检验。
24.进一步地,所述的步骤s5具体包括:
25.s5-1、对所构建的stg-lstm模型预测进行误差分析,分析该模型对水质因子的预测效果;
26.s5-2、依据所构造出的水质时空图,得到运河不同站点水质预测情况,进一步对不同位置水质预测情况进行分析;
27.s5-3、对所构建的stg-lstm模型预测结果进行可靠性检验,并运用不同水质因子数据对该模型进行普适性检验,从而使得到的模型更加可靠。
28.本发明的有益效果是:本发明提出了一种基于时空图卷积融合长短记忆神经网络的河流水质时空预测方法;首先,采用mic衡量各监测站点水质因子序列之间的相关性,综合选取时空预测站点;其次以各监测站点地理位置和水质因子历史观测值为依据,构建时
空图来表征各监测站点间的时空相关性;将时空图输入所构建出的stg-lstm模型中,采用图卷积获取河流水质因子空间依赖关系,并融合长短时记忆神经网络获取水质因子的时空关联性;最后,依据所构建的时空图,实现对未来一段时间运河河段不同位置水质状态的时空预测。
附图说明
29.图1是本发明基于图卷积stg-lstm的河流水质预测方法逻辑图;
30.图2是本发明所用到的京杭运河监测站点水质数据示意图;
31.图3是本发明中基于图卷积stg-lstm的京杭运河水质时空预测方法的流程图;
32.图4是本发明中京杭运河各监测站点水质数据时空关系图;
33.图5是本发明中对构建的stg-lstm模型进行收敛性验证结果图;
34.图6是本发明中stg-lstm模型对于时空预测站点水质预测结果图;
35.图7是本发明中stg-lstm模型对于京杭运河各监测站点水质预测结果图;
36.图8是本发明中对于stg-lstm模型可靠性检验示意图。
具体实施方式
37.下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
38.如图1所示,一种基于图卷积stg-lstm的河流水质预测方法,具有如下步骤:
39.s1、对京杭运河各监测站点地理位置以及水质数据进行预处理:包括提取各站点经纬度和距离信息、不同水质数据,并对缺失值补全、归一化处理;
40.s2、采用最大互信息系数衡量运河各监测站点上水质因子之间的相关性,综合选取出与其它站点相关性最大的作为时空预测站点;
41.s3、以各监测站点地理位置和水质因子历史观测值为依据,构建出时空图来表征各监测站点间水质时空相关性;
42.s4、构建图卷积长短记忆神经网络水质时空预测模型,将时空图作为模型的输入,提取运河河段不同位置水质因子动态时空相关性;
43.s5、对stg-lstm水质时空预测模型进行验证:包括对时空预测站点水质预测结果的误差分析、运河不同位置水质预测结果验证分析和对模型预测结果的可靠性以及普适性检验。
44.具体实验方法如下:
45.步骤s1和s2、如图2所示的是京杭运河监测站点水质数据示意图,京杭运河各监测站点均为国控和省控的水质断面监测站点。收集了2020年4月1日—2021年4月1日八个监测站点的4种水质因子数据,每组数据监测时间间隔为4h。这4种水质因子分别为溶解氧、高锰酸盐指数、氨氮和ph值,这八个监测站点能够很好的掌握京杭运河河段不同位置水质因子的变化情况;每个监测站点有2146组数据,将前1546组数据划分为训练集,后600组数据作为验证集。
46.京杭运河水质时空预测站点的选取方法分为三个步骤,步骤一:假设运河河段站点数量为n,其中第i监测站点溶解氧序列、高锰酸盐指数序列、氨氮序列和ph值序列分别为
步骤二:以溶解氧序列为例,从各监测站点种任意选取两个站点,将两个监测站点的溶解氧序列和的值域分别划分为x段和y段,以获得xy个网格划分结果,则可以得到运河监测站点i和j溶解氧序列的最大互信息系数;步骤三:最后计算第i监测站点与河流上其余监测站点溶解氧序列的最大互信息系数的和,选取互信息系数最大的监测站点作为时空预测站点。
47.选用京杭运河某段上八个国控和省控监测站点,站点名称定义为a、b、c、d、e、f、g、h;为了找出与其余站点相关性最大的一个站点,作为时空预测站点;分别计算出每一个监测站点与其余监测站点溶解氧、高锰酸盐、氨氮、ph序列的最大互信息系数之和,见表1。
48.表1八个监测站点四种水质因子mic计算结果
49.tab.1 calculation results of four water quality factors mic at eight monitoring sites
[0050][0051]
从表1中可以看出d站点和值分别为4.607、1.869、2.063和2.590,d站点的四种水质因子最大互信息系数是这八个站点中最大的,说明该站点与其它站点的关联度最大,可以从其它站点得到更多的水质指标序列信息;因此选择d站点作为时空预测站点,与其余模型进行比较,用来验证stg-lstm模型的优越性。
[0052]
步骤s3、运河各监测站点时空图的构建;
[0053]
构建出的各监测站点水质时空图如图4所示,圆圈表示运河河段上不同监测站点,两点之间的线段表示它们相互影响的强度,线段的颜色越深,代表影响程度越大。在空间维度上,如子图(a)、(b),可以发现运河上不同位置水质状态对c点有不同的影响,甚至在同一位置随着时间的推移对c点的影响也不同;在时空维度上,如子图(c),站点b的水质历史观测值不仅对本身未来t 1时刻水质状态有不同影响,而且对站点a未来不同时刻的水质状态也会有不同的影响。
[0054]
运河各监测站点时空图的构建主要分为以下两个步骤,步骤一:在某一时刻,运河河段上的各个监测站点空间分布可以被抽样成一个空间拓扑图,记为w=(v,e,a);以各监测站点的地理位置和过去th时间片上水质因子历史观测值为依据,构建时空图来表征各监测站点之间的时空相关性;步骤二:在某一时刻,构造出一个向量,该向量包含站点vi过去th时间片上待预测水质因子数据的平均值、标准差、偏度、峰度,根据站点vi与站点vj所
构造的和将得到的两向量之间皮尔逊相关系数作为站点vi和vj之间的时空权重关系。
[0055]
步骤s4、水质时空预测模型stg-lstm的构建;
[0056]
stg-lstm模型用来实现运河河段不同位置水质因子的动态时空相关性,其总体架构如图3所示;stg-lstm模型由时空模块和输出层组成,时空模块中包括图时空卷积模块和lstm的时间模块;图时空卷积模块由时空维度的图形卷积组成,从所构造的时空图中捕获运河上不同位置水质因子的空间相关性;基于lstm的时间模块经数据特征融合后提取相邻站点之间时间序列信息;最后,基于参数矩阵对两个输出变量进行时空特征融合,经过输出层得到最终的预测结果。
[0057]
整个模型构建过程在python开发环境下结合tensorflow库编写完成。
[0058]
步骤s5、1)验证时空预测stg-lstm模型收敛性;
[0059]
为了保证所提出的stg-lstm模型的预测精度,在比较之前首先验证其收敛性。用深度学习中常用的四种优化算法来验证模型的收敛性:自适应梯度算法(adagrad)、均方根算法(rmsprop)、自适应增量算法(adadelta)和adam;将mse作为模型的损失函数,训练集作用于验证模型收敛性,站点d溶解氧序列中的stg-lstm收敛曲线,如图5所示;从溶解氧序列数据中我们可以看出,adam算法训练的mse虽然最后和rmsprop算法相当,但是adam前期收敛速度更快,这表明adam算法在这四种优化算法中使stg-lstm收敛地更好;
[0060]
2)京杭运河水质预测研究;
[0061]
2.1、时空预测站点预测结果展示;
[0062]
本发明做了三组对比实验,实验中各模型通过python3.7基于tensorflow和scikit-learn框架上进行搭建的;首先,svr和gpr作为解决时间序列数据的传统的机器模型,它们依靠本身核函数的特性,适合处理高维、非线性等复杂的回归问题且运行速度是它们的一大优势;因此,用svr、gpr与本文提出的stg-lstm模型相比较,从预测精度和运行时间两方面的综合表现来进行比较分析;其次,在深度学习中,lstm和gru通过添加门控机制来控制信息流以及状态和单元的更新,在时间序列预测的问题上能够获得很好的效果,但是它们只是提取了数据的时间依赖性,所以,本研究通过stg-lstm与lstm、gru进行比较,旨在去验证在加入了空间维度后模型所表现出的优越性;最后,stdn使用cnn和rnn分别建模提取数据时间和空间上的依赖性,并没有考虑时空维度上河流各个站点之间影响存在时间的滞后性;同样的stgcn则通过图卷积和2d卷积分别捕获空间依赖性和时间依赖性,因此,将本发明提出来的模型与stdn和stgcn进行比较,用来验证各站点数据时空特征融合后所构成的时空图,是否能够更好的表达时空维度上的依赖关系。
[0063]
不同模型对京杭运河时空预测站点预测示意图如图6所示,在实验一从预测精度和运行时间两方面来比较svr、gpr和stg-lstm;预测站点d测试集溶解氧数据中这三个模型的预测结果;预测值的r2越大、rmse越小,越接近于实际观测值,预测效果越好。从图中可以看出,在预测一些突变点,stg-lstm模型的预测值比svr和gpr更加的稳定。stg-lstm的r2相较于svr、gpr分别提高0.053、0.052;rmse相较于svr、gpr分别下降0.315、0.313。说明发明模型相较于传统的机器学习模型对于河流水质因子预测更加具有优势,有着更好的预测效果;由于机器学习本身核函数的特性,svr和gpr训练时间相较于stg-lstm大幅减少。
[0064]
实验二中用于验证在时间序列预测模型中增加空间关联信息能否有助于提高预
测精度,并且去证明增加了空间关联信息后是否会显著增加模型的运行时间。lstm、gru、stg-lstm这三个模型在溶解氧测试集上的预测效果,见图6。本发明的模型对于溶解氧预测的效果均显著优于lstm和gru,其r2和rmse分别为0.987和0.144,r2相较于lstm和gru分别提高6.82%和7.17%;rmse相较于lstm和gru分别下降69.30%和70.06%;这说明同时考虑时间关联和空间关联的方法优于仅考虑时间关联的方法,这是因为图卷积时空模块提取河流上预测站点与其余监测站点在每个时间片的空间关联特征,而融合时间序列模块进一步提取空间关联的时间关联特征,时空关联模块考虑了河流水质因子的时空分布特征。同时可以看出,本文提出的模型增加空间关联信息后并没有增加运行时间,三个模型迭代的次数均为1000次,相反其运行的时间相较于lstm和gru分别降低了9.2s和19.6s;这是因为,mgcn-lstm能够快速从构建的时空图中得到各站点之间的时空关系。
[0065]
实验三中用于验证水质因子时空图是否能够更好地表达时空维度上的依赖关系。stdn、stgcn和stg-lstm三个模型的预测效果,见图6;stg-lstm对于溶解氧预测精度相较于stdn和stgcn略高,其r2相较于stdn和stgcn分别提高4.45%和2.07%;rmse则相较于stdn和stgcn下降67.86%和28.71%。stdn运行时间相较stg-lstm大幅下降,这是因为虽然stdn也是分别提取了数据之间的空间和时间的依赖性,但是cnn只能捕获网格结构数据上各位置局部的空间相关性,这里并没有考虑其余站点的空间信息。stgcn没有使用时空图,而是根据站点之间的数据信息构建空间图进行计算的。综上所述,本文提出的stg-lstm通过时空特征融合所构的时空图,能够更好地表达时空维度上的依赖关系,从而提高了模型预测精度。
[0066]
2.2、运河不同位置水质预测结果
[0067]
在上述三组实验中对所选择的时空预测站点溶解氧序列做了预测,并将本发明的模型从预测精度和训练时间综合和六种模型进行了比较,可以看出本发明提出的模型在时空预测上面具有良好的预测效果。因此,选用stg-lstm模型,依据构造的时空图,表征出各监测站点的时空相关性,对运河河段其它监测站点的水质因子序列进行预测,从而得到未来一段时间运河河段不同位置的水质状态。关键的是,由于构造出各监测站点的时空图,stg-lstm只需要运行一次,就能同时得到运河河段八个监测站点的预测结果,相比与其它模型单次运行只能得到单个站点预测结果,大大缩短了训练的时间。以溶解氧序列为例,stg-lstm对运河河段不同站点预测结果的r2、rmse。
[0068]
从图7可知,选择的时空预测站点d预测效果最好,因为该站点更容易获取其它站点的水质状态信息;不同站点从其它站点所获得的水质状态信息是不相同的,导致运河河段不同位置的水质状态信息预测效果也不相同的;综上所述,本研究提出的stg-lstm模型根据不同监测站点所构造的时空图,能够快速对未来运河河段不同位置的水质状态做出预测,并得到较好的预测效果。
[0069]
2.3、stg-lstm模型可靠性验证;
[0070]
从预测精度和模型的训练时间两方面对stg-lstm的预测结果进行评价后,并继续对其进行可靠性检验,以确保预测结果是具有说服力的;首先,将站点d溶解氧序列的测试集分成四组,每组150条数据;其次,计算出每组数据每次观察的pit值,如果这些值是服从均匀分布的,则说明提出的模型预测结果是可靠的;因此,绘制了这四组测试集pit值的均匀概率图,可以清楚地看到这些值是否服从均匀分布,如图8,第一组和第三组数据集的pit
值是沿着对角线均匀分布,其范围均匀覆盖[0,1],所有的点都在kolmogorov 5%显著性带内,这表明所预测的pdf不是过高或过低,也不是过宽或过窄;第二组和第四组数据集的pit值振荡的幅度要稍微大一些,有部分点在kolmogorov 5%显著性带外,是由于这两组数据集中某些点对应的观测值存在异常,或者是该预测的站点对应的部分观测值与其余站点的观测值关联度不是很高;但是,这两组数据集的pit值大部分还是沿着对角线均匀分布的;因此,stg-lstm的预测结果是可靠的令人信服的。
[0071]
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献