一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种PM

2022-06-05 16:02:17 来源:中国专利 TAG:

一种pm
2.5
浓度预测方法
技术领域
1.本发明涉及一种pm
2.5
浓度预测方法,属于环境数据智能处理技术领域。


背景技术:

2.当前,我国环境污染问题形式严峻,其中以pm
2.5
为主的区域性复合型大气污染最为突出。pm
2.5
是空气动力学粒径不超过2.5μm的气溶胶颗粒物,也被称为细颗粒物(fine particulate matter),其散射消光贡献约占大气总消光度的80%,能直接影响大气能见度。此外,环境中的pm2.5浓度与人体不良健康效应之间存在显著的一致性,易对人体呼吸系统和心血管系统造成伤害,为公众健康带来严重威胁。因此,关于pm
2.5
浓度的预测问题一直以来都是环境治理与公共卫生等领域的研究热点之一。
3.pm
2.5
浓度预测模型主要分为基于物理化学机理的数值模型和基于统计学方法的统计模型。数值模型是在污染物形成与扩散的物理化学过程研究基础上,通过数值方法对污染物浓度进行预测的近似理论模型。总体来讲,数值模型能较为全面的考虑大气物理化学过程,但由于实际的大气污染物演变过程十分复杂,目前实际中使用的多是简化模型,并且模型中需要提供的诸如污染物排放清单等数据具有不确定性,极大的限制了该方法的使用。统计模型以统计学方法为基础,利用历史观测数据,建立大气污染物与影响因素之间的统计关系从而实现污染物浓度预测。由于pm
2.5
浓度的时空分布受到气象场、排放源、复杂下垫面、理化生过程等多种因素的影响,它与各影响因素在时间和空间上具有显著的时空异质性和复杂的非线性特点。传统的pm
2.5
统计模型,如时空地理加权回归(gtwr)模型、两阶段模型(lme gam),通常只能刻画较为简单的非线性关系,但pm
2.5
的估算则被认为是一种更为复杂的多变量非线性问题。
4.以深度学习为代表的机器学习算法能对数据内部的深层次隐含特征进行提取,凭借其在处理非线性问题上的优势,近年来也越来越多地被应用到pm
2.5
浓度的预测中,并取得了丰富的研究成果。相较于传统的统计模型,应用深度学习方法进行pm
2.5
浓度的预测虽然能有效提高模型预测精度,但也仍存在以下问题。

影响因素考虑不周全:多为地面其他大气污染物监测数据(如co、no2等)及相关的气象因素(如风速、压强等),而aod作为pm
2.5
的重要影响因素,在大多数研究中没有予以考虑。

模型可解释性差:深度学习模型对非线性问题具有较强的拟合能力,但是它的网络结构复杂、参数众多,缺乏对模型本身的解释。

深度学习算法需要大量训练数据,当训练数据较少时往往会陷入过拟合,模型泛化能力较差。

影响因素选择方法适用性差:输入变量是根据经验知识从pm
2.5
的多个影响因素中进行选择,难以筛选出最优的影响因素组合作为预测模型的输入变量。因此,导致目前的pm
2.5
浓度预测模型结构复杂、精度低。


技术实现要素:

5.本发明的目的是提供一种pm
2.5
浓度预测方法,以解决目前pm
2.5
浓度预测存在精度低的问题。
6.本发明为解决上述技术问题提供了一种pm
2.5
浓度预测方法,该预测方法包括以下步骤:
7.1)获取影响pm
2.5
浓度的因素数据,所述的因素数据包括遥感因素、气象因素和植被覆盖因素;
8.2)构建预测模型,该预测模型采用深度学习模型加随机森林模型的架构,该预测模型采用历史pm
2.5
浓度及相应的因素数据构成的训练集进行训练;
9.其中深度学习模型用于提取训练集的深层隐含特征,随机森林模型用于根据提取到的深层隐含特征和训练集原始特征进行预测;所述的深度学习模型为 lstm模型或者cnn_lstm模型;
10.3)将获取的影响pm
2.5
浓度的因素数据输入到已训练的预测模型中,由预测模型进行预测。
11.本发明结合深度学习和随机森林,既能通过随机森林模型解决在时间粒度较大、数据密度和数据量小情况下深度学习模型训练效果差的问题,又能通过深度学习模型挖掘原始训练数据中隐藏的深层隐含特征弥补随机森林的缺乏深层次挖掘的能力;同时采用lstm相关的深度学习模型进行深度特征提取,保证了深度学习模型能够从时间依赖角度提取深度特征,进一步提高预测精度。
12.进一步地,当深度学习模型为lstm模型时,lstm模型采用双层lstm结构,输入数据的时间步长为3。
13.进一步地,当深度学习模型为cnn_lstm模型时,其中的cnn结构包括一个卷积层和一个池化层,lstm结构采用双层lstm结构,cnn结构中池化层的输出为lstm结构的输入。
14.进一步地,考虑到pm
2.5
浓度的时间异质性,所述的训练集中的数据是按时间顺序构建的,且采用二维矩阵的形式进行表示。
15.进一步地,考虑到季节性的影响,使得预测精度更高,所述的训练集按照季节进行划分,每个季节的训练集中只包含属于本季节的历史数据,利用各季节的训练集分别对所述预测模型进行训练,得到不同季节的预测模型,根据待预测 pm
2.5
浓度所处季节,利用对应季节的预测模型进行pm
2.5
浓度预测。
16.所述的遥感因素包括气溶胶光学厚度;气象因素包括边界层高度、地表压强、 2m温度、总降水、10米经向风速、10米纬向风速;植被覆盖因素包括高植被覆盖指数和矮植被覆盖指数。
附图说明
17.图1是lstm结构示意图;
18.图2是随机森林中的bagging算法示意图;
19.图3是本发明pm
2.5
浓度预测方法的流程图;
20.图4是本发明实施例中选用的研究区地理位置示意图;
21.图5-a是采用cnn模型进行pm
2.5
浓度预测的验证结果图;
22.图5-b是采用lstm模型进行pm
2.5
浓度预测的验证结果图;
23.图5-c是采用cnn_lstm模型进行pm
2.5
浓度预测的验证结果图;
24.图6-a是采用rf模型进行pm
2.5
浓度预测的验证结果图;
25.图6-b是采用rf cnn模型进行pm
2.5
浓度预测的验证结果图;
26.图6-c是采用rf lstm模型进行pm
2.5
浓度预测的验证结果图;
27.图6-d是采用rf cnn_lstm模型进行pm
2.5
浓度预测的验证结果图;
28.图7-a是采用rf模型进行春季pm
2.5
浓度预测的验证结果图;
29.图7-b是采用rf模型进行夏季pm
2.5
浓度预测的验证结果图;
30.图7-c是采用rf模型进行秋季pm
2.5
浓度预测的验证结果图;
31.图7-d是采用rf模型进行冬季pm
2.5
浓度预测的验证结果图;
32.图8-a是采用rf cnn模型进行春季pm
2.5
浓度预测的验证结果图;
33.图8-b是采用rf cnn模型进行夏季pm
2.5
浓度预测的验证结果图;
34.图8-c是采用rf cnn模型进行秋季pm
2.5
浓度预测的验证结果图;
35.图8-d是采用rf cnn模型进行冬季pm
2.5
浓度预测的验证结果图;
36.图9-a是采用rf lstm模型进行春季pm
2.5
浓度预测的验证结果图;
37.图9-b是采用rf lstm模型进行夏季pm
2.5
浓度预测的验证结果图;
38.图9-c是采用rf lstm模型进行秋季pm
2.5
浓度预测的验证结果图;
39.图9-d是采用rf lstm模型进行冬季pm
2.5
浓度预测的验证结果图;
40.图10-a是采用rf cnn_lstm模型进行春季pm
2.5
浓度预测的验证结果图;
41.图10-b是采用rf cnn_lstm模型进行夏季pm
2.5
浓度预测的验证结果图;
42.图10-c是采用rf cnn_lstm模型进行秋季pm
2.5
浓度预测的验证结果图;
43.图10-d是采用rf cnn_lstm模型进行冬季pm
2.5
浓度预测的验证结果图。
具体实施方式
44.下面结合附图对本发明的具体实施方式作进一步地说明。
45.本发明综合考虑深度学习方法与随机森林模型的特点,提出一种基于深度学习与随机森林的pm
2.5
浓度预测组合模型(pm
2.5 combined model,pmcom) 的pm
2.5
浓度预测方法,该方法首先以气溶胶光学厚度(aod)遥感数据、气象再分析数据和pm
2.5
地面观测数据构建训练数据集,然后通过深度学习方法对训练数据内部深层次隐含特征进行提取,最后将提取得到的隐含特征和原始特征一起进行随机森林模型训练,并使用随机森林回归算法得到pm
2.5
浓度的预测值。该方法的实现流程如图3所示,具体步骤如下。
46.1.获取历史pm
2.5
浓度数据和影响pm
2.5
浓度的各因素数据,构建训练集。
47.pm
2.5
浓度的变化受多种因素影响,包括有遥感因素、气象因素和植被覆盖因素。其中遥感因素主要指的是气溶胶光学厚度(aod);气象因素包括有边界层高度(blh)、地表压强(sp)、2m温度(t2m)、总降水(tp)、10米经向风速(u10)、10米纬向风速(v10)等;植被覆盖因素包括高植被覆盖指数(cvh)、矮植被覆盖指数(cvl)等植被覆盖参数。气象因素和植被因素中的指标可以根据实际需求进行相应的增减。获取历史pm
2.5
浓度数据和对应的各因素数据,并记录其采集时间,将采集到上述数据按照时序形成二维矩阵,构成训练集。
48.2.建立基于深度学习和随机森林结合的预测模型。
49.常用的深度学习模型有cnn、lstm等,考虑到pm
2.5
浓度对时间具有一定的依赖性,本发明采用的深度学习模型包括lstm和cnn_lstm两种,建立的预测模型为lstm rsm或cnn_lstm rsm,下面对各模型进行说明。
50.卷积神经网络(cnn)是一种多层前馈神经网络,其网络结构主要包括输入层、卷积层、池化层、全连接层以及输出层。卷积神经网络的关键在于构建多个能提取数据特征的滤波器,核心是卷积层。卷积层依靠卷积核能从输入数据中提取局部特征,并通过卷积核的滑动,获得输入数据完整的特征图。在经过多个卷积、池化操作后卷积神经网络能挖掘数据中隐含的深层特征。
51.常见的二维卷积神经网络(2d cnn)的卷积核在两个方向上滑动完成卷积运算的卷积神经网络。相较于2d cnn,一维卷积神经网络(1d cnn)的卷积核只沿一个方向滑动,常用于时间序列数据的特征提取任务。pm
2.5
的预测问题本质上属于时间序列预测问题,因此发明所使用的卷积神经网络为1dcnn。
52.传统的前馈神经网络各层之间全连接,但是单层内部的节点无连接,因此无法学习时间序列历史数据对未来变化的影响。循环神经网络(rnn)隐层间的节点是相互连接的,能保证若干时间步内的参数共享,并且rnn会对历史信息进行记忆并应用于当前输出的计算中,可以很好的关联上下文信息。长短时记忆神经网络(lstm)是rnn的一种优化模型,相较于传统的rnn模型, lstm通过引入特殊的循环结构,解决了rnn在实际应用中梯度消失或梯度爆炸问题,在lstm的循环体中,某时刻的lstm单元内部结构如图1所示。在lstm中有两个状态信息,分别是细胞状态信息c
t
和隐藏状态信息h
t
。其中,c
t
只作为历史信息向t 1时刻的隐层传输,而h
t
除了向下一时刻的隐层传输外,也作为lstm单元的输出值进行输出。它们的计算公式如下:
53.c'
t
=tanh(wc·
[h
t-1
,x
t
] bc)
ꢀꢀ
(1)
[0054]ct
=f
t
⊙ct-1
i
t

c'
t
ꢀꢀ
(2)
[0055]ht
=o
t

tanh(c
t
)
ꢀꢀ
(3)
[0056]
(1)式中,h
t-1
为上一时刻节点的输出,x
t
为当前t时刻输入的时间序列数据,c
t
'是输入单元对输入数据[h
t-1
,x
t
]的处理结果。(2)(3)式中,f
t
、i
t
和 o
t
分别是lstm中遗忘门、输入门和输出门的门控制信号。f
t
代表t时刻允许多少历史信息c
t-1
进入来决定当前细胞状态c
t
;i
t
代表t时刻允许多少当前输入信息c
t
'进入来决定c
t
;o
t
决定了当前细胞状态c
t
对外有多少是可见的,并通过(3)式得到当前t时刻节点输出h
t
。三个门控信号其计算公式如下:
[0057]ft
=σ(wf·
[h
t-1
,x
t
] bf)
ꢀꢀ
(4)
[0058]it
=σ(wi·
[h
t-1
,x
t
] bi)
ꢀꢀ
(5)
[0059]ot
=σ(wo·
[h
t-1
,x
t
] bo)
ꢀꢀ
(6)
[0060]
式(4)(5)(6)中,σ表示sigmoid激活函数,w为网络的权重矩阵,b 为偏置矩阵。
[0061]
本实施例中的lstm模型则是通过双层lstm结构以多对一的方式完成网络构建,输入数据的时间步长设为3,即认为下一时刻的pm
2.5
浓度值受前两个时刻的影响,最后选取第二层lstm挖掘得到的时间依赖特征作为输出。
[0062]
本实施例中cnn_lstm模型的网络层次不设置太多,其中cnn结构只设置一个卷积和池化操作,池化后的结果作为双层lstm结构的输入进行时间依赖特征提取,并以最后一层lstm的提取结果作为输出。
[0063]
随机森林是一种以决策树为基学习器的并行式集成学习算法,相比单独的基学习器,它通过bagging(bootstrap aggregating)思想和随机子空间(random subspace method,rsm)思想实现样本选取随机性和特征选取随机性,增强了模型的泛化能力。根据
bagging思想,如图2所示,随机森林模型通过m次有放回的独立随机抽样从原始训练集中获得m组和原始训练集容量一致的采样训练集,并利用这些采样训练集进行训练,得到对应的m个基学习器。
[0064]
由于抽样的独立性,每次抽样得到的采样训练集与原始训练集、其它采样训练集都不同,这能从训练样本选取的角度上有效避免出现局部最优解,也保证了每棵决策子树之间较低的相关性,增强模型的泛化能力。训练随机森林的过程就是训练各个基学习器的过程。不同于普通决策树从所有特征中选择最优特征进行节点切分,随机森林通过引入rsm方法从总特征空间中随机选取k 个特征组成特征子空间,并在切分节点时从特征子空间中对最佳分裂特征进行选择。这里的参数k控制了随机性的引入程度,一般取值为k=log2d,其中d 为总特征空间中可供待分裂节点选择的特征数量。rsm方法保证了子树与子树节点以及每棵子树自身节点之间特征子集的差异性,从而保证了单棵子树的独立性以及多样性,提高了节点分裂的随机性。
[0065]
3.利用步骤1构建的训练集与预测模型进行训练。
[0066]
将训练集中的数据输入到lstm或者cnn_lstm模型中,提取得到深层隐含特征,将提取的深层隐含特征与原始特征结合,共同参与随机森林模型的训练,步骤如下所示:
[0067]
1)假设已有原始数据集s={(xi,yi),i=1,2,

,n},(x,y)∈rj×
r,待测样本为x
t
∈rj。采用bagging策略对原始数据集s进行独立随机抽样,获得采样训练集di。假设随机森林模型中有m棵决策树t={t1,t2,

,tm}(m≥1),则对应进行m次采样共获得m组采样训练集d={d1,d2,

,dm}(m≥1)。每组训练集均由j个特征构成,训练数据的特征集可以表示为f={f1,f2,f3,

,f
j-1
,fj},其中f1~f
j-1
是原始特征,fj是深度学习模型提取的隐含特征。
[0068]
2)使用采样训练集di对随机森林中的决策树ti进行训练,对于待测样本 x
t
∈rj,决策树ti的输出为ti(x
t
)。在某一节点处,决策树ti首先从全部j个特征中随机选取k个特征组成特征子空间,在该节点处从特征子空间中依据一定的规则选取最优分裂特征以及最优分裂特征值对决策树进行左右分支。区别于分类树的gain_gini指标,回归树选取gain_σ为评价分裂特征的指标。gain_σ值越小,说明二分之后的子样本的“差异性”越小,也说明选择该特征(值) 作为分裂特征(值)的效果越好。因此选择具有最小gain_σ的特征及其特征值,作为最优分裂特征及最优分裂特征值。特征f在以s为分裂点时的评价指标如式(7)所示:
[0069][0070]
根据式(7),对于特征子空间中的待选特征f,其对应的任意特征值s将数据集d按左右划分为d
l
和dr,c1为数据集d
l
的均值,c2为数据集dr的均值。同时使d
l
和dr各自集合的残差平方和最小的特征值s即为特征f的最佳分裂点。对于待分裂节点,计算所有待选特征的gain_σ
f,s
指标,并选取最小gain_σ
f,s
所对应的特征和特征值作为该节点处的最优二分方案:
[0071][0072]
按照此方法对森林中的m棵树进行特征分裂,直到每棵树都达到叶子节点或规定的分裂深度为止。
[0073]
3)回归树根据叶子节点取均值作为整体预测结果,因此对于待测样本x
t
∈r j
,随
机森林的结果g(x
t
)是所有子树预测结果ti(x
t
)的平均值:
[0074][0075]
通过上述过程,可实现对发明所构建的预测模型进行训练。
[0076]
4.获取待预测pm
2.5
浓度对应的影响因素,将影响因素输入到训练好的预测模型中,实现对pm
2.5
浓度的预测。
[0077]
对本实施例而言,现将获取的影响因素输入到训练好的深度学习模型中,如lstm模型中,经lstm模型实现对对各影响因素深层特征的提取,提取出的深层特征与各影响因素的原始特征一起输入到训练好的随机森林模型中,从而实现对pm
2.5
浓度的预测。
[0078]
作为其他实施方式,考虑到pm
2.5
浓度与各因素之间的关系可能会随着季节的变化而变化,因此,为进一步提高对pm
2.5
浓度预测精度,本发明在构建训练集时,根据历史数据对应的时间,将训练集按季节分成四个,分别为春季、夏季、秋季和冬季,每个季节的训练集中只包含属于本季节的历史数据。利用各季节的训练集分别对本发明的预测模型进行训练,得到已训练的不同季节对应的预测模型,根据待预测pm
2.5
浓度所处的季节,将该待预测pm
2.5
浓度对应的因素数据输入到相应季节对应的预测模型中进行预测。
[0079]
本发明使用随机森林回归器代替长短时记忆神经网络全连接层,增强了模型泛化能力,降低过拟合风险,同时也提高了模型整体的可解释性,能够通过特征重要性指标对诸多影响因素进行筛选,得到最优的影响因素组合作为模型的最佳输入。本发明专注于已有的原始数据,不需要复杂的特征工程对原始数据进行特征扩展便能充分提取隐含特征;本发明模型训练所需的数据均以多站点多要素按时序构成的二维矩阵为输入,以时间为序构建的数据集充分考虑 pm
2.5
浓度的时间异质性,有利于深度学习模型从时间依赖角度提取特征;同时,深度学习模型通过双层lstm结构以多对一的方式完成网络构建,并通过时间步长的设置,限定下一时刻pm
2.5
浓度值受历史数据影响的时间范围,最后选取第二层lstm挖掘得到的时间依赖特征作为输出。
[0080]
为进一步验证本发明预测方法的有效性,下面将本发明的预测方法应用到某一具体的地区进行验证,本发明选择河南省地区作为研究区域,地理范围为 31
°
23'~36
°
22'n,110
°
21'~116
°
39'e,整体区域如图4所示。该验证过程如下:
[0081]
1.获取实验数据
[0082]
pm
2.5
浓度的变化受多种因素影响,本发明获取因素包括有aod、边界层高度(blh)、地表压强(sp)、2m温度(t2m)、总降水(tp)、10米经向风速(u10)、10米纬向风速(v10)、高植被覆盖指数(cvh)、和矮植被覆盖指数(cvl)等参数,共同参与模型的训练和预测。实验数据的具体信息如表1 所示。
[0083]
表1
[0084][0085]
(1)pm
2.5
数据
[0086]
所使用的每日分时pm
2.5
浓度地面观测值来自中国环境监测总站,共收集了2018年1月1日至2019年12月31日河南省区域范围内83个环境质量检测站点的监测数据。
[0087]
(2)aod数据
[0088]
气溶胶光学厚度数据来自laads网站,本发明选取了2018年1月1日至 2019年12月31日的mcd19a2数据,并提取波长为0.55μm的aod值参与模型构建。
[0089]
(3)其他辅助数据
[0090]
气象要素数据和植被覆盖数据均来自ecmwf全球气候再分析模式的 era5数据产品,本发明选取2018年1月1日至2019年12月31日的每小时数据用于本研究的建模分析。
[0091]
通过河南省区域83个站点的坐标信息,对pm
2.5
、aod、气象要素以及植被覆盖指数进行提取和匹配,最终得到15154组2018、2019年的有效数据。
[0092]
2.设计评价指标
[0093]
本发明采用决定系数(r2)、均方根误差(rmse)、平均绝对误差(mae) 作为模型的精度评价指标,其计算公式如下:
[0094][0095][0096][0097]
式(10)、(11)、(12)中,yi表示实际观测值,表示预测值,表示实际观测值的平均值。
[0098]
3.精度评价
[0099]
将本发明的预测方法与现有的方法进行比较,其中现有的预测方法选用单纯的深度学习算法和随机森林算法,深度学习算法有cnn、lstm和 cnn_lstm,为了证明本发明中预测模型所采用的深度学习算法的优越性,将 cnn rf预测模型与lstm rf预测模型、cnn_lstm rf预测模型一起进行比较。
[0100]
其中单纯采用cnn、lstm以及cnn_lstm模型在测试集上的验证结果分别如图5-a、5-b和5-c所示,图中横轴表示pm
2.5
实测值,纵轴表示模型预测值,不同颜色表示点的密度,图中的虚线和实线分别表示1:1的参照线和实际线性回归线。从各模型对测试集的整体预测效果来看,cnn模型的表现最差,r2仅为0.37,远低于lstm和cnn_lstm模型,并且rmse和map值也均为最大。这说明pm
2.5
回归关系具有时间非平稳性,而lstm模型能够对历史数据中隐含的时间依赖信息进行深层次的挖掘,对模型的预测精度有较好的提升。但是,就三种深度学习模型的整体预测结果来看,效果并不是十分理想,整体的r2小于0.5。
[0101]
单纯采用随机森林算法在测试集上进行验证,结果如图6-a所示,采用 cnn rf预测模型、lstm rf预测模型、cnn_lstm rf预测模型在测试集上进行验证,结果如图6-b、6-c和6-d所示。
[0102]
整体来看,传统的随机森林模型以及本发明的预测模型都具有较好的预测能力,r2均超过0.8。在所有组合模型中,rf lstm模型的预测效果最优,其次是rf cnn_lstm模型,而rf cnn模型的预测效果依然最差,这一点与模型组合之前对应的三组深度学习模型的预测效果保持一致。各模型的预测京都如表2所示。
[0103]
表2
[0104][0105]
相较于传统的rf模型,虽然rf lstm和rf cnn_lstm模型在整体预测方面r2并没有提升,但其rmse以及mae均有所下降,其中rf lstm 模型的rmse和mae分别从13.52μg m-3
和8.68μg m-3
下降至13.31g m-3
和 8.07μg m-3
。但值得注意的是,rf cnn模型并没有对rf模型的预测结果有提升,模型精度反而有所下降。这进一步说明lstm模型在历史数据中提取的时间依赖信息对pm
2.5
模型的预测精度具有重要的提升作用。
[0106]
为了证明本发明在分季节上的预测性能,将实验数据按季节分类,按照季节分别对rf、rf cnn、rf lstm、rf cnn_lstm构成预测模型进行训练,在测试集上进行测试,各预测模型不同季节的预测精度如表3所示。
[0107]
表3
[0108][0109]
其中rf模型在春季、夏季、秋季和冬季的验证结果分别如图7-a、图7-b、图7-c和图7-d所示,rf cnn模型在春季、夏季、秋季和冬季的验证结果分别如图8-a、图8-b、图8-c和图8-d所示,rf lstm模型在春季、夏季、秋季和冬季的验证结果分别如图9-a、图9-b、图9-c和图9-d所示,rf cnn_lstm 模型在春季、夏季、秋季和冬季的验证结果分别如图10-a、图10-b、图10-c 和图10-d所示。各图中横轴均表示pm
2.5
实测值,纵轴表示模型预测值,不同颜色表示点的密度。图中的虚线和实线分别表示1:1的参照线和实际线性回归线。
[0110]
从整体上看,随机森林及其组合模型在不同季节均具有较好的预测能力,并且在冬季预测效果最好,在夏季预测能力最差。这可能与不同季节的云覆盖情况有关,夏季空中云覆盖情况较为严重,这导致夏季能够参与建模的有效数据相对较少,lstm模型所提取的时间依赖特征连续性较差,从而对模型的预测能力产生影响。其次,夏季的模型预测值与真实值之间的符合情况最差,r2范围为0.65~0.76,但rmse、mae在四个季节中最小,这说明相较于其他季节,夏季pm
2.5
浓度值整体偏低,空气质量更好,这也与相关研究的结果保持一致。此外,本发明所提出的预测模型的分季节预测能力之间的强弱关系与整体预测能力保持一致,并且rf lstm、rf cnn_lstm和rf cnn的预测精度依次降低。在三组预测模型中,rf lstm模型在夏、秋、冬三个季节的 r2、rmse、mae三项指标均为最优。与rf模型相比,rf lstm模型在夏季的r2从0.65提升到0.76,rmse和mae分别从6.90μg m-3
和5.09μg m-3
下降至5.61μg m-3
和3.80μg m-3

[0111]
本发明通过结合深度学习和随机森林,既能通过随机森林模型解决在时间粒度较大、数据密度和数据量小情况下深度学习模型训练效果差的问题,又能通过深度学习模型挖掘原始训练数据中隐藏的深层次隐含特征弥补随机森林的缺乏深层次挖掘的能力。两者互为补充,创新融合了隐含的深层特征和原始的浅层次特征,无论是在整体预测还是在分季节预测场景下,都能对每日pm
2.5
浓度预测取得较好的精度。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献