基于XGBoost的短临雷雨大风的预测方法与流程

2021-10-24 05:06:00 来源：中国专利 TAG：雷雨大风预测方法临近

技术特征：
1.基于xgboost的短临雷雨大风的预测方法，其特征在于：该方法的实现过程分为三步骤：第一步骤：基于多类原始数据的处理并建立样本集；第二步骤：将样本集输入到模型当中进行训练并分析结果；第三步骤：模型布置在实际的气象预报系统中，并且实时得到预测结果。2.根据权利要求1所述的基于xgboost的短临雷雨大风的预测方法，其特征在于：所述第一步骤，找寻两处精准的原始数据，处理并建立样本集；利用地面雷达观测站和环境预报中心每隔几小时采集的数据进行预处理为对应的数据集，形成两类数据集，构建模型训练样本集的步骤如下；1)对利用地面雷达观测和环境预报中心采集的数据进行数据预处理，即对采集到的原始数据进行解析处理，形成数据文件；2)处理数据文件，进行去除缺失值及异常值、重复值等一些处理，形成完整的数据文件；3)通过筛选与雷雨大风相关的属性，删除其中不相关或不重要的属性，由于雷雨大风气象数据特征属性有多个，遍历特征需要花费很长的时间，而采用xgboost是一个树集成模型，它使用总数为k棵树，将每棵树对样本预测值的和作为该样本在xgboost系统中的预测结果，定义的函数表达式如式(1)所示；首先xgboost采用预排序，在迭代之前，对结点的特征做预排序，遍历选择最优分割点，数据量大时，贪心法耗时少，因此能够快速得到所有雷雨大风气象特征的分裂点；式(1)中树的总数为k，表示训练的迭代次数，即xgboost采用迭代算法时需要建立子树的个数，f
k
表示第k次迭代得到的决策树，表示所有所有决策树的样本预测值的和，是求和公式，为第一次到第k次训练的总数；4)将处理好的两类数据文件进行经纬度匹配；5)将处理好的两类数据文件通过时间经纬度进行匹配，形成模型训练样本集。3.根据权利要求1所述的基于xgboost的短临雷雨大风的预测方法，其特征在于：所述第二步骤，建立基于xgboost的雷雨大风预测模型，将第一步骤中的训练样本集导入所述模型进行训练并分析结果；1)根据雷雨大风的特征属性，将雷雨大风预测模型的输入确定为ncep中的数据集，即为降雨数据集；输出为地面雷达数据集，即为降雨和大风的数据集；2)对雷雨大风预测模型进行训练，将上述样本在xgboost系统中的预测结果，其训练策略采用贪心策略确定分裂特征及特征值，从而减少在寻找分裂特征时算法的复杂度；并采用交叉验证、分布式训练等特点使模型有较好的训练与预测性能；基于以上，根据降雨和大风数值，预测是否会发生雷雨大风；xgboost迭代训练过程中采用的目标函数是关于导数的泰勒二阶展开式，其中未进行泰勒展开的表达式见式(2)；其中式(3)ω(f)为式(2)中ω(f
k
)的展开式
式(2)中为采用的目标函数，为因变量，y
i
表示第i个样本的降雨或大风值，表示上一次训练时即上一个时刻决策树的第i个样本所预测的降雨和大风值，t
‑
1为训练的轮数，ω(f)为正则化项，表示关于真实值y
i
和预测值的损失函数，只有当损失函数越低时，即真实的降雨和大风数值与预测的数值越接近，效果才会越好；式(3)中λ表示正则项平衡系数，其目的是为平衡损失函数和每一个构成xgboost的决策树复杂度，t表示第k轮训练得到的构成xgboost的决策树的叶子结点的个数，w表示第k轮构成xgboost的决策树的叶子节点的分数,ξ表示控制叶子节点个数的影响因子；其中式(3)第二项为l2正则项，用于控制叶子节点的权重分数；训练时，新的一轮加入一个新的f函数，来最大化地降低目标函数，在第t轮，我们的目标函数为见式(4)；将目标函数进行泰勒展开，其中为求和公式，为第一棵树的预测值累加到第n棵树的总和；取前三项，移除高阶小无穷小项，最后目标函数转化为泰勒展开式如式(5)所示，每棵树的得分score只与损失函数的一阶导数和二阶导数相关，式(5)中(i∈i)为集合关系，i
j
表示第j个节点里样本的集合，g
i
为关于上一时刻即第(t
‑
1)次迭代时第i个样本值的一阶导数，h
i
为关于上一时刻即第(t
‑
1)次迭代时第i个样本值的二阶导数，表示第x
i
个叶子节点的权重，详见式(6)和式(7)；个叶子节点的权重，详见式(6)和式(7)；其中为式(2)中函数，i
j
表示第j个节点里样本的集合即为每颗决策树中的预测值的集合；
3)将经过处理后的地面观测数据和再分析数据集中的所有样本数据集以8:2的比例随机进行分离，形成训练集和验证集；其中，数量较多的80％训练数据集被用于输入到xgboost模型之中对模型训练，在每一轮迭代中通过上一轮对降雨和大风的实际值的残差再进行调整，在迭代中不断改变进行修正使得残差值不断变小最终得到对降雨和大风分析效果最优的算法模型；之后用20％的测试值来对模型进行测试，判别效果通过决定系数来判定，即拟合优度；决定系数反应了y的波动有多少百分比能被x的波动所描述，即表征变数y的变异中有多少百分比，由控制的自变数x来解释，决定系数越接近1为模型效果越好；表达式：r2＝ssr/sst＝1
‑
sse/sst；其中：sst＝ssr sse,sst(total sum of squares)为总平方和，ssr(regression sum of squares)为回归平方和，sse(error sum of squares)为残差平方和；squares)为残差平方和；squares)为残差平方和；squares)为残差平方和；squares)为残差平方和；拟合优度越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比高；观察点在回归直线附近越密集；其中式(8
‑
11)中y
i
为每颗节点树的预测值；y为降雨大风的实际值；利用以上表达式能够得出：大风模型的测试决定系数r2和降雨模型的决定系数r2；决定系数值越接近1为模型效果越好；4)采用气象领域常用的ts评分检验预测效果其值；将所有样本数据集作为模型样本，根据气象领域，常用的检验预测效果的统计量ts评分，ts评分越接近1效果越好。4.根据权利要求1所述的基于xgboost的短临雷雨大风的预测方法，其特征在于：所述第三步骤，将所述第二步骤中训练得到的模型布置在气象局气象预测系统上，来实时预测雷雨大风情况：1)通过气象局与cimiss系统的对接，生成预测雷雨大风所需要的气象实时数据文件，即为ncep当中的与雷雨大风相关属性的数据，作为输入；2)通过所述训练好的模型，得到输出为降雨和大风的数据值；3)将输出得到的数据值即预测结果，进行可视化处理；
检验预测结果的统计量有：ts评分、命中率、漏报率、空报率、准确率；其中tp为实际有雷雨大风且预测有雷雨大风，fp为实际有雷雨大风而预测无雷雨大风，fn为实际无雷雨大风而预测有雷雨大风，tn为实际无雷雨大风且预测也无雷雨大风，各评价指标公式如下：ts评分公式：tp/(tp fp fn)
ꢀꢀꢀꢀ
(13)命中率公式：tp/(tp fp)
ꢀꢀꢀꢀ
(14)漏报率公式：fn/(tp fn fp tn)
ꢀꢀꢀꢀ
(15)空报率公式：fp/(tp fn fp tn)
ꢀꢀꢀꢀ
(16)准确率公式：(tp tn)/(tp fn fp tn)
ꢀꢀꢀꢀ
(17)。

技术总结
基于XGBoost的短临雷雨大风的预测方法：第一步骤：基于多类原始数据的处理并建立样本集；第二步骤：将样本集输入到模型当中进行训练并分析结果；1)根据雷雨大风的特征属性，将雷雨大风预测模型的输入确定为NCEP中的数据集；输出为地面雷达数据集；2)对雷雨大风预测模型进行训练，将预测结果，训练策略采用贪心策略确定分裂特征及特征值，减少在寻找分裂特征时算法的复杂度；预测是否会发生雷雨大风；3)训练模型拥有降雨和大风两个属性，将其定义为机器学习当中的回归问题，训练两个模型，4)采用气象领域常用的TS评分检验预测效果。第三步骤：模型布置在实际的气象预报系统中，并且实时得到预测结果。实时得到预测结果。实时得到预测结果。

技术研发人员：于霞王清霖段勇艾德润李召鹏
受保护的技术使用者：沈阳工业大学
技术研发日：2021.07.13
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于图像排序的3D信息合成图像匹配的方法与流程

基于XGBoost的短临雷雨大风的预测方法与流程

相关文献

最热文献