一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种监督学习与非监督学习结合的因子提取气候特征方法与流程

2022-02-22 02:55:25 来源:中国专利 TAG:


1.本发明主要应用于气象预报预测领域,尤其涉及到在气候预测统计建模过程中的因子提取的机器学习特征工程方法,对中短期数值模式产品的解释应用也有一定的参考应用价值。


背景技术:

2.对气象的预测,往往采用机器学习相关方法进行。但就机器学习统计建模而言,特征工程和特征选择对于分析结果的影响,往往比机器学习模型的选择更为重要。
3.在月、季短期气候预测中,传统方法往往是基于线性方法来提取寻找特征,对于异常复杂的全球气候系统的非线性信息利用有限,需要发展新的非线性的因子查找方式。
4.同时对与月、季气候趋势而言,观测样本数又较为稀少,而涉及的物理量数量巨大,如何改进现有的因子提取方式,获取更有参考价值的预测信息,显得尤为关键。
5.现有技术存在的问题如下:
6.1、气候系统十分复杂,传统的因子提取方法往往采用了线性方法,而对于高影响的区域可能是非线性的影响统计没有一个好的提取方案。
7.2、全球场要素因子提取时,往往总体高相关和高影响的区域会掩盖掉较低影响区域的信息,低影响区域的信息未提取并参与建模会影响最终建模的稳定性和预测效果。
8.3、大量高影响的因子序列提取后解决非线性问题往往只有主成份提取等方式来避免共线性化,过多抛弃了与整体场要素模态不一致的低信号信息。


技术实现要素:

9.有鉴于此,本发明实际要解决的技术问题是:对于月、季短期气候,如何获取更有参考价值的预测信息。由此本技术采用的相应技术手段为:综合采用线性和非线性两大类多种(7种)方案提取因子场的低均方误差(mse)和高相关等的信息。分区建模避免全球提取信息而忽略掉了局地的高相关信息。利用非监督学习的聚类分析以及主成分分析降维萃取因子信息,缩减因子的数量。
10.本发明提供一种监督学习与非监督学习结合的因子提取气候特征方法,包括以下步骤:
11.s101:获取因子的历史数据;所述因子的历史数据包括物理量场因子的历史数据和预报对象的历史数据;
12.s102:对因子的历史数据进行标准化,得到标准化后的数据;
13.s103:对标准化后的数据采用监督学习回归类作分析,提取其均方误差场;对标准化后的数据采用相关系数类作分析,提取其相关系数场;
14.s104:获取均方误差场的预报因子集;获取相关系数场的预报因子集;
15.s105:将均方误差场的预报因子集和相关系数场的预报因子集合并,得到多因子序列。
16.进一步地,步骤s104中,获取均方误差场的预报因子集的具体过程为:
17.将均方误差场变换至(0,1)区间的取信度值场指导范围,并在取信度值场指导范围内中筛选出位于区间(0.1,0.5)对应的均方误差场区域;在均方误差场区域中进一步筛选出区域面积大于指定的经纬度网格面积的封闭性区域;在封闭性区域中挑选前3个区域的平均值作为均方误差场的预报因子集。
18.进一步地,步骤s104中,获取相关系数场的预报因子集的具体过程为:
19.对相关系数场,在取信度值场指导范围内搜索信度达到0.01~0.1的显著性水平区域;在显著性水平区域中进一步筛选出区域面积大于指定经纬度网格面积的封闭性区域;在封闭性区域中挑选前3个区域的平均值作为相关系数场的预报因子集。
20.进一步地,步骤s103中所述的监督学习回归类,包括:最大互信息系数逻辑回归、二元决策树回归和普通线性回归。
21.进一步地,步骤s103中所述的相关系数类,包括:皮尔逊相关系数、肯德尔秩相关系数和斯皮尔曼秩相关系数。
22.步骤s105中得到多因子序列后,还采用非监督学习与监督学习相结合的方法提取新的因子序列,具体包括如下步骤:
23.s201:利用ward层次聚类方法对所述多因子序列聚类,得到聚类结果;
24.s202:提取聚类结果中的各类的主成分;
25.s203:对各类的主成分进行叠加,形成新的多因子序列。
26.本发明提供的技术方案带来的有益效果是:
27.(1)既利用了传统方法提取高线性相关的因子,也易用逻辑回归、决策树、最大互信息系数等方式提取了机器学习建模所需要的信息;
28.(2)采用了分区域提取因子的方式,避免了大范围提取因子时,总体高相关和高影响的区域会掩盖掉较低影响区域的信息,对较低影响区域的信息也提取参与了建模;
29.(3)避免传统方法只采用主成分提取高度共线性的方式来提取因子,同时采用聚类非监督学习 主成分提取相结合的方式提取因子,避免过多丢弃了与整体场要素模态不一致的低信号信息。
附图说明
30.图1是本发明一种监督学习与非监督学习结合的因子提取气候特征方法的流程示意图;
31.图2是本发明一种监督学习与非监督学习结合的因子提取气候特征方法的实施过程示意图;
32.图3是解决多因子序列共线性的流程图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
34.请参考图1,本发明提供一种监督学习与非监督学习结合的因子提取气候特征方法,具体包括以下步骤:
35.s101:获取因子的历史数据;所述因子的历史数据包括物理量场因子的历史数据和预报对象的历史数据;
36.物理量场因子包括海温场、海平面气压场等。对于某一空间区域内,时间长度为n的物理量场因子,可记为(x1,x2…
xn),每个物理量场为3维矩阵,样本数n,经纬分别为指定的宽度。预报对象场包括降水、气温等。对于某一空间区域内,时间长度为n的预报对象场,可记为(y1,y2…yn
),预报对象一般为1维,长度为n。
37.s102:对因子的历史数据进行标准化,得到标准化后的数据;
38.标准化过程具体为:
39.对序列x1,x2,

,xn进行变换:
40.这里
41.则新序列y1,y2,

,yn的均值为0,而方差为1,且无量纲。
42.s103:对标准化后的数据采用监督学习回归类作分析,提取其均方误差场;对标准化后的数据采用相关系数类作分析,提取其相关系数场;
43.所述的监督学习回归类,包括:最大互信息系数逻辑回归、二元决策树回归和普通线性回归;
44.所述的相关系数类,包括:皮尔逊相关系数、肯德尔秩相关系数和斯皮尔曼秩相关系数。
45.将物理量场和预报对象的历史数据分别标准化,分别利用监督学习回归类和相关系数类对对物理量场和预测对象作分析,用最大互信息系数,逻辑回归(logistic regression)、二元决策树回归(decision tree regression)、普通线性回归(linear regression)提取历史回报的均方误差场。对于皮尔逊相关系数(pearson correlation coefficient)、肯德尔秩相关(kendall tau rank correlation coefficient)、斯皮尔曼秩相关(spearman's rank correlation coefficient))提取历史序列的相关系数场。
46.各参数计算具体如下:
47.(一)最大互信息系数(maximal information coefficient,mic)
48.具有两个属性的数据点的集合分布在两维的空间中,使用m乘以n的网格划分数据空间,使落在第(x,y)格子中的数据点的频率作为p(x,y)的估计即:将mic的计算过程概括为公式:
[0049][0050]
其中,网格的分辨率限制为m
×
n《b,b=f(data_size)=n
0.6

[0051]
(二)逻辑回归(logistic regression)
[0052]
概率属于[0,1]区间,但是线性模型f(x)=ω
t
x的值域为(-∞, ∞)。故不能直接基于线性模型建模。需要找到一个模型的值域刚好在[0,1]区间,同时要足够好用。于是,选择sigmoid函数,它的表达式为:
[0053]
把线性回归模型的输出作为sigmoid函数的输入,得到逻辑回归模型:
[0054][0055]
(三)决策树回归(decision tree regression)
[0056]
设输入训练数据集为d,输出为回归树f(x)。在训练数据集所在的输入空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉决策树:
[0057]
(1)选择最优切分变量j与切分点s,求解
[0058][0059]
遍历变量j,对固定的切分变量j扫描切分点s,选择使上式达到最小值的对(j,s)。
[0060]
(2)用选定的对(j,s)划分区域并决定相应的输出值:
[0061][0062]
其中,r1(j,s)={x|x
(j)
≤s},r2(j,s)=(x|x
(j)
》s)。
[0063]
(3)继续对两个子区域调用步骤(1),(2),直至满足停止条件。
[0064]
(4)将输入空间划分为m个区域r1,r2,

,rm,生成决策树:
[0065]
其中i为指示函数,
[0066]
(四)线性回归(linear regression)
[0067]
给定数据集d={(x1,y1),(x2,y2),

},线性模型可表示为:
[0068]
f(x)=ω1x1 ω2x2

ωdxd b;
[0069]
向量表示为:f(x)=ω
t
x b,其中ω=(ω1;ω2;

;ωd)表示列向量,ω为权重,表示对应的属性在预测结果的权重。
[0070]
(五)皮尔逊相关系数(pearson correlation coefficient)
[0071]
对于两个变量x和y,其皮尔逊相关系数r为:
[0072][0073]
(六)肯德尔秩相关(kendall tau rank correlation coefficient)
[0074]
设有n个统计对象,每个对象有两个属性的系数。将所有统计对象按属性1取值排列,不失一般性,设此时属性2取值的排列是乱序的。设p为两个属性值排列大小关系一致的统计对象对数。则kendall秩相关系数为:
[0075][0076]
(七)斯皮尔曼秩相关(spearman's rank correlation coefficient))
[0077]
斯皮尔曼秩相关习俗反映的是两组变量之间联系的密切程度,它和相关系数一样,取值在-1到 1之间,所不同的是建立在等级(秩)的基础上计算的,其公式为:
[0078]
[0079]
其中n为等级个数,d为二列成对变量的等级差数。
[0080]
s104:获取均方误差场的预报因子集;获取相关系数场的预报因子集;
[0081]
对于均方误差场,将场变换至0-1之间,对于变换后的均方误差场,取信度值场指导范围内搜索信度达到0.1~0.5变换后的均方误差场值,并保证连通区域面积大于指定的经纬度网格点面积,经纬面积可取(100-500)经纬晚网格不等,以海温为例一般取值100-200。将所有满足以上条件的封闭区域代表性格点挑选出来,每个区域挑选前3个区域的平均值作为预报因子集,如果未达到上述标准,则只选取通过上述条件的因子。
[0082]
对于相关系数场,取信度值场指导范围内搜索信度达到0.01~0.1显著性水平的区域,并保证连通区域面积大于指定的经纬度网格点面积,经纬面积可取100-500经纬网格面积不等,因子挑选方式与变换后的均方误差场提取方式类似。
[0083]
s105:将均方误差场的预报因子集和相关系数场的预报因子集合并,得到多因子序列。
[0084]
这样既保证了预报因子与预报量之间的强相关性,又保证了预报因子在一定程度上的物理解释,具体计算步骤见图2。图2是整个方法实施过程的示意图。
[0085]
在形成多因子序列后,为了消除上述方法提前的多个因子序列的共线性(一致性)问题,本方法采用了非监督学习与监督学习相结合的方法,步骤如下,先利用ward层次聚类对多个序列聚类,再对聚类后的各个因子序列提取其中的主成分,对提取的主成分再叠加形成新的多个因子序列(见图3),形成的因子序列用于xgboost,gbdt,随机森林等机器学习建模使用。
[0086]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0087]
(1)既利用了传统方法提取高线性相关的因子,也易用逻辑回归、决策树、最大互信息系数等方式提取了机器学习建模所需要的信息。
[0088]
(2)采用了分区域提取因子的方式,避免了大范围提取因子时,总体高相关和高影响的区域会掩盖掉较低影响区域的信息,对较低影响区域的信息也提取参与了建模。
[0089]
(3)避免传统方法只采用主成分提取高度共线性的方式来提取因子,同时采用聚类非监督学习 主成分提取相结合的方式提取因子,避免过多丢弃了与整体场要素模态不一致的低信号信息。
[0090]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献