一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器学习的降雨量预测方法及预测系统与流程

2022-08-13 18:20:31 来源:中国专利 TAG:


1.本发明涉及一种基于机器学习的降雨量预测方法及预测系统,属于降水预测技术领域。


背景技术:

2.降雨是气象现象,表现为大气中凝结的水蒸气以各种方式落在地球表面。它是水循环的一个组成部分。预测未来降水变化将有助于我们更好地理解人与自然相互作用的机制,深化对降水影响的研究。另一方面,对了解降水灾害的时空演变,降低洪涝灾害风险,保护社会对可持续发展也非常重要。
3.概率统计和机器学习为目前降水预报的主要方式。现有的概率统计法中主要有马尔可夫模型、权马尔可夫模型、隐马尔可夫模型、灰色系统理论等。现有的机器学习法,如人工神经网络、最大熵模型、支持向量机模型,已经出现并得到应用。其中,支持向量机模型被广泛应用于水文时间序列的分析中且被不断地改进。与传统概率统计方法相比,支持向量机模型及其相关方法在水文预报方面具有独特的优势。然而现有的基于支持向量机的降水预测模型输入参数比较单一,从而导致输出的预测结果精准度不高。


技术实现要素:

4.本发明提供了一种基于机器学习的降雨量预测方法及预测系统,能够解决现有基于支持向量机的降水预测模型输入参数比较单一,从而导致输出的预测结果精准度不高的问题。
5.一方面,本发明提供了一种基于机器学习的降雨量预测方法,所述方法包括:
6.s1、获取训练月份的大气环流因子和实测降雨量;
7.s2、根据所述训练月份的大气环流因子和实测降雨量训练基于机器学习的预测模型,得到降雨量预测模型;
8.s3、获取待测月份的大气环流因子;
9.s4、将所述待测月份及其对应的大气环流因子输入所述降雨量预测模型中,得到所述待测月份的预测降雨量。
10.可选的,在所述s4后,所述方法还包括:
11.s5、利用评价指标对预测降雨量与待测月份的实测降雨量之间的差异进行量化评价,得到评价结果。
12.可选的,所述基于机器学习的预测模型为ga-svm模型或ga-lssvm模型。
13.可选的,所述评价指标包括均方根误差、平均绝对误差和决定系数。
14.可选的,所述s5具体包括:
15.获取所述待测月份的实测降雨量;
16.分别计算所述待测月份的实测降雨量与预测降雨量之间的均方根误差、平均绝对误差和决定系数,将得到的均方根误差、平均绝对误差和决定系数作为评价结果。
17.另一方面,本发明提供了一种基于机器学习的降雨量预测系统,所述系统包括:
18.第一获取单元,用于获取训练月份的大气环流因子和实测降雨量;
19.训练单元,用于根据所述训练月份的大气环流因子和实测降雨量训练基于机器学习的预测模型,得到降雨量预测模型;
20.第二获取单元,用于获取待测月份的大气环流因子;
21.测试单元,用于将所述待测月份及其对应的大气环流因子输入所述降雨量预测模型中,得到所述待测月份的预测降雨量。
22.可选的,所述系统还包括:
23.评价单元,用于利用评价指标对预测降雨量与待测月份的实测降雨量之间的差异进行量化评价,得到评价结果。
24.可选的,所述基于机器学习的预测模型为ga-svm模型或ga-lssvm模型。
25.可选的,所述评价指标包括均方根误差、平均绝对误差和决定系数。
26.可选的,所述评价单元具体用于:
27.获取所述待测月份的实测降雨量;
28.分别计算所述待测月份的实测降雨量与预测降雨量之间的均方根误差、平均绝对误差和决定系数,将得到的均方根误差、平均绝对误差和决定系数作为评价结果。
29.本发明能产生的有益效果包括:
30.本发明提供的基于机器学习的降雨量预测方法,通过在预测模型的训练和测试阶段均增添大气环流因子作为输入参数,相比现有预测模型仅有月份序列这一个输入参数,本发明通过月份及其对应的大气环流因子这两个输入参数训练出来的预测模型具有更加精准的预测能力,提高了降水预测结果的精准度。
附图说明
31.图1为本发明实施例提供的基于机器学习的降雨量预测方法流程图;
32.图2为本发明实施例提供的基于机器学习的降雨量预测系统结构框图。
具体实施方式
33.下面结合实施例详述本发明,但本发明并不局限于这些实施例。
34.本发明实施例提供了一种基于机器学习的降雨量预测方法,如图1所示,所述方法包括:
35.s1、获取训练月份的大气环流因子和实测降雨量。
36.其中,大气环流因子可以在美国国家海洋和大气管理局网站上获取。大气环流因子包含指数,指数为极端东部热带太平洋区域(0
°
s-10
°
n,90
°‑
80
°
w)的平均海温。在本发明一具体实施例中获取和应用的就是大气环流因子中的指数。
37.s2、根据训练月份的大气环流因子和实测降雨量训练基于机器学习的预测模型,得到降雨量预测模型。
38.在实际应用中,可以将训练用年限中的月份组成月份序列,将月份对应的实测降雨量组成月降水序列,将月份对应的大气环流因子组成因子序列,利用月份序列、月降水序
列和因子序列组成的训练集训练基于机器学习的预测模型,得到降雨量预测模型。示例的,可以将渭河流域1973-2000年中的各月份及其对应的因子序列、月降水序列作为训练集。
39.在本发明实施例中,基于机器学习的预测模型可以为ga-svm模型或ga-lssvm模型。根据训练月份的大气环流因子和实测降雨量训练ga-svm模型,得到的降雨量预测模型可称为n-gasvm模型;根据训练月份的大气环流因子和实测降雨量训练ga-lssvm模型,得到的降雨量预测模型可称为n-galssvm模型。
40.支持向量机(svm)是vapnik提出的机器学习方法,细分为支持向量分类(svc)和支持向量回归(svr),支持向量机基于统计学习理论,通过非线性映射和结构风险最小化原理,低层次空间将过线性不可分割空间的数据投射到高层次空间,以线性区分,然后在高层次空间中对数据进行分类和预测,矢量功能有效地避免局部极值问题,最大限度地提高预测程度,使数据的适应性可以防止,从有限的样本信息中寻找模型复杂度和学习能力之间的最优值,提高一般化能力,选择核函数和设置相关参数是支持向量机的关键。
41.svm的学习策略是使间隔最大化,可以将其形式化为解决凸二次规划的问题。这也对应于使正则化的铰链损失函数最小化的问题。svm算法是求解凸二次规划的最佳算法。
42.该算法的原理包括在给定数据集中,其中xi∈rm是输入向量,yi∈r是输出向量。建模的基本思想是将输入向量x非线性投射到高层次特征空间φ(x)。非线性回归方程如下:
43.f(x)=ωφ(x) b;
44.式中:ω是权重向量;b是回归函数的偏差。优化问题可以转化为凸优化问题,通过不敏感损失函数ε得到上述方程的解。优化表达式解析过程如下:
[0045][0046]
根据以下约束最小化上述方程:
[0047][0048]
式中:c是一个正权衡参数,它决定了优化问题中经验误差的程度;ξ和ξ
*
表示正松弛变量,它们通过误差容限ε范围内的不敏感性损失函数惩罚训练误差。上述问题用拉格朗日式主目标函数求解,并且加入kkt条件,得到如下形式的回归函数:
[0049][0050]
式中:α,α
*
是拉格朗日乘数;k(xixj)是由基于mercer定理的特征空间中的内积定义的核函数。所有操作都在输入空间中执行,而不是由潜在的更高维特征空间核函数中执行。所以,特征空间的内积在输入空间中有等价的核。本技术中支持向量机核函数是径向基函数(rbf):
[0051][0052]
式中:σ是高斯噪声分布的离散程度。||x
i-xj||是两个特征向量之间的欧式距离。
[0053]
最小二乘支持向量机(lssvm)是支持向量机(svm)更进一步的版本。通过将常规支持向量机的不等式约束更改为等式约束,并使用误差平方和损失函数作为训练集的经验损失,可以将求解二次规划的问题转换为求解线性方程组的问题,并提高了问题解决的速度和收敛的准确性。
[0054]
遗传算法(ga)最早是由美国的john holland在1970年代提出的。该算法是根据自然界中生物进化的规律设计和提出的。这是生物进化过程的计算模型,可模拟达尔文生物进化理论的自然选择和遗传机制。这是通过模拟自然进化过程来找到最佳解决方案的方法。
[0055]
该算法通过数学和计算机模拟操作将问题解决过程转换为类似于染色体基因交叉和生物学进化中的突变过程。与某些传统的优化算法相比,当解决更复杂的组合优化问题时,ga算法通常可以更快的获得更好的优化结果。
[0056]
本技术通过模型训练,建立了融入大气环流因子的遗传算法优化的支持向量机(n-gasvm)模型和融入大气环流因子的遗传算法优化的最小二乘支持向量机(n-galssvm),这两个模型可以更精准的预测降雨量。
[0057]
s3、获取待测月份的大气环流因子。
[0058]
s4、将待测月份及其对应的大气环流因子输入降雨量预测模型中,得到待测月份的预测降雨量。
[0059]
在实际应用中,可以将测试用年限中的月份组成月份序列,将月份对应的大气环流因子组成因子序列,将月份序列和因子序列作为输入参数输入降雨量预测模型,得到待测月份的预测降雨量。示例的,可以将渭河流域2001-2012年的月降水序列作为测试集。
[0060]
为了在降水模拟中比较不同模型的性能,需要建立度量系统。
[0061]
因此在s4后,所述方法还包括:
[0062]
s5、利用评价指标对预测降雨量与待测月份的实测降雨量之间的差异进行量化评价,得到评价结果。
[0063]
其中,评价指标可以包括均方根误差、平均绝对误差和决定系数。
[0064]
进一步的,s5具体包括:
[0065]
获取待测月份的实测降雨量;
[0066]
分别计算待测月份的实测降雨量与预测降雨量之间的均方根误差、平均绝对误差和决定系数,将得到的均方根误差、平均绝对误差和决定系数作为评价结果。
[0067]
本发明实施例中的评价指标:均方根误差(rmse)、平均绝对误差(mae)及决定系数(r2)的定义如下:
[0068][0069]
[0070][0071]
式中:n为月份序列数据点数;为实测降雨量的平均值;和ri分别为模型模拟的预测降雨量和实测降雨量。rmse是理想误差指数,可用于评估较高降雨量的适用性;mae用于测量整体误差的绝对值;r2则用于评估回归模型系数的拟合优度。
[0072]
在本发明一具体实施例中,将渭河流域作为研究区域。甘肃鸟鼠山是渭河流域的起源地,流经武功、临潼等地,在陕西省潼关县汇入黄河,总长度818km,流域面积为135700km2。渭河流域属大陆季风性气候,年平均降雨量600~800mm,65%的降水集中在7、8、9月,水资源时空分配不均,下游径流量贫瘠。
[0073]
本实施例中选择的控制站是五个水文站:林家村,咸阳,华县,张家山和状头。其中,林家村,咸阳和华县站分别是渭河流域的上游,中游和下游的水文控制站。张家山和状头站分别是泾河和北洛河的水文控制站。为了更好地模拟流域的空间水文循环过程,本实施例将基于不同的水文控制站,覆盖整个渭河流域,分了5个区域:天水-林家村区域、魏家堡-咸阳区域、临潼-镇安区域、西峰镇-张家山区域和吴旗-状头区域。
[0074]
本发明构建的融入因子的n-gasvm模型及n-galssvm模型,模拟上述5个区域2001-2012年月降水过程,模拟精度的评价结果如表1-5所示。
[0075]
表1天水-林家村区域模型预测评价结果表
[0076]
指标n-gasvmn-galssvmrmse(mm)17.4217.11mae(mm)11.1211.79r20.780.79
[0077]
表2魏家堡-咸阳区域模型预测评价结果表
[0078]
指标n-gasvmn-galssvmrmse(mm)46.0544.70mae(mm)27.2427.59r20.610.60
[0079]
表3临潼-镇安区域模型预测评价结果表
[0080]
指标n-gasvmn-galssvmrmse(mm)38.0537.34mae(mm)20.3622.44r20.590.57
[0081]
表4西峰镇-林家村区域模型预测评价结果表
[0082]
指标n-gasvmn-galssvmrmse(mm)24.5524.69mae(mm)15.1415.97r20.690.66
[0083]
表5吴旗-状头区域模型预测评价结果表
[0084]
指标n-gasvmn-galssvmrmse(mm)26.3925.73mae(mm)17.1817.33r20.680.68
[0085]
根据模拟的预测降雨量和上述表格中的评价结果,可以得到以下结论:
[0086]
(1)相较于n-gasvm模型,改进的n-galssvm模型在天水-林家村区域模拟精度有所提高,mae和r2较n-gasvm增加了0.67mm、0.01。这表明n-galssvm模型提高了总体拟合效果。在长期降雨量预测中两种模型的精度等级为:n-galssvm>n-gasvm。
[0087]
(2)与融入大气环流异常因子的n-gasvm模型相比,n-galssvm模型rmse和r2评价指标精度有所下降。rmse值降低了1.35mm,r2值降低了0.01。这表明n-galssvm模型在魏家堡-咸阳区域拟合精度不及n-gasvm模型。在长期降雨量预测中两种模型的精度等级为:n-gasvm》n-galssvm。
[0088]
(3)与n-gasvm模型相比,n-galssvm模型rmse和r2评价指标精度有所下降。rmse值降低了0.71mm,r2值降低了0.02。这表明n-galssvm模型在临潼-镇安区域拟合精度不及n-gasvm模型。在长期降雨量预测中两种模型的精度等级为:n-gasvm》n-galssvm。
[0089]
(4)n-gasvm模型在西峰镇-林家村区域在rmse和mae评价指标精度上比n-galssvm有所提高。rmse值降低了0.14mm,mae值降低了0.83mm。这表明两种模型在长期降雨量预测中的精度等级为:n-gasvm》n-galssvm。
[0090]
(5)与n-gasvm模型相比,n-galssvm模型rmse评价指标值降低。rmse值降低了0.66mm。这表明n-galssvm模型在吴旗-状头区域拟合精度不及n-gasvm模型。在长期降雨量预测中两种模型的精度等级为:n-gasvm》n-galssvm。
[0091]
(6)从总体上看,对渭河流域的降水预测模型中,n-gasvm比n-galssvm模型表现好。
[0092]
本发明另一实施例提供了一种基于机器学习的降雨量预测系统,如图2所示,所述系统包括:
[0093]
第一获取单元21,用于获取训练月份的大气环流因子和实测降雨量;
[0094]
训练单元22,用于根据训练月份的大气环流因子和实测降雨量训练基于机器学习的预测模型,得到降雨量预测模型;
[0095]
第二获取单元23,用于获取待测月份的大气环流因子;
[0096]
测试单元24,用于将待测月份及其对应的大气环流因子输入降雨量预测模型中,得到待测月份的预测降雨量。
[0097]
进一步的,所述系统还包括:
[0098]
评价单元25,用于利用评价指标对预测降雨量与待测月份的实测降雨量之间的差异进行量化评价,得到评价结果。
[0099]
可选的,基于机器学习的预测模型为ga-svm模型或ga-lssvm模型。
[0100]
可选的,评价指标包括均方根误差、平均绝对误差和决定系数。
[0101]
进一步的,评价单元25具体用于:
[0102]
获取待测月份的实测降雨量;
[0103]
分别计算待测月份的实测降雨量与预测降雨量之间的均方根误差、平均绝对误差
和决定系数,将得到的均方根误差、平均绝对误差和决定系数作为评价结果。
[0104]
上述预测系统中各个单元的具体描述可以参考预测方法中对每个步骤的描述,在此不再赘述,上述预测系统可以实现与预测方法侧同样的功能。
[0105]
本发明通过在预测模型的训练和测试阶段均增添大气环流因子作为输入参数,相比现有预测模型仅有月份序列这一个输入参数,本发明通过月份及其对应的大气环流因子这两个输入参数训练出来的预测模型具有更加精准的预测能力,提高了降水预测结果的精准度。
[0106]
以上所述,仅是本技术的几个实施例,并非对本技术做任何形式的限制,虽然本技术以较佳实施例揭示如上,然而并非用以限制本技术,任何熟悉本专业的技术人员,在不脱离本技术技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献