一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于时空聚类的气象观测数据质量控制方法与流程

2021-12-03 23:30:00 来源:中国专利 TAG:


1.本发明属于气象服务技术领域,具体涉及一种基于时空聚类的气象观测数据质量控制方法。


背景技术:

2.随着气象自动观测站在全国范围内的广泛建立,气象观测数据的数据量呈指数级增长。由于气象观测数据都要经历仪器观测、采集器采集、测报软件记录、编码、传输、解码等重要环节,受仪器设备稳定性和观测环境影响,这些环节都有可能引入误差,进而导致数据错误。而气象观测数据质量的好坏直接影响到天气预报以及气候预测的准确性,因此对于气象观测数据的质量控制势在必行。
3.现有的质量控制技术大多综合了传统质量控制方法和人工监测判别,根据历史资料得出气候界限值以及各气象要素的允许值对观测值进行质控,灵敏度不高,并且没有考虑气象要素的时空关联性。也有部分研究运用关联规则、贝叶斯网络、支持向量机、k

means聚类、时间序列分析等数据挖掘方法用于气象要素之间的相关性分析、天气现象分类和气象预报业务等方面,但在气象观测数据质量控制方面却少有研究。


技术实现要素:

4.针对现有的气象观测数据质控技术存在的不足,本发明提供的一种基于时空聚类的气象观测数据质量控制方法,采用基于密度的时空聚类算法st

dbscan将气象观测数据按照时间和空间维度进行聚类分组,然后计算各组观测数据的一致性因子f
c
,并基于贝叶斯原理和假设检验方法判断是否存在异常数据组,在异常数据组中采用离群点检测算法检测出离群点,最后对离群点进行校正处理。本发明综合考虑了气象要素在一定时间和空间范围内的气象聚集趋势和变化规律,同时对气象离群值进行检测和修正,提高了气象观测数据的准确度,为气象预报工作带来方便。
5.为实现上述目的,本发明采用如下技术方案:
6.一种基于时空聚类的气象观测数据质量控制方法,如图1所示,包括以下步骤:
7.s1、获取原始气象观测数据;
8.s2、采用三维的时空聚类st

dbscan算法对气象观测数据各要素进行时空聚类分组,具体为:
9.s21、建立一个三维的气象要素时空数据集d,数据集d中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点p
i
={x
i
,y
i
,z
i
},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
10.s22、从数据集d中依次选取对象点p
i
,判断其是否属于现有簇中,是则重新选择下一个对象点p
i 1
,否则进入步骤s23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
11.s23、判断p
i
是否为时空核心对象:设定最小相邻点阈值minpts,若在时空对象点p
的时空邻域内,p的时空相邻点数量δn满足δn≥minpts,则称p为时空核心对象;所述时空邻域的定义为,给定一个时空对象点p,p的所有时空相邻点构成的时空范围即为对象点p的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象p
t
,若p
w
到p
t
的时间距离δt满足:
12.δt=|z
w

z
t
|≤tt
13.空间距离δs满足公式:
14.δs=|distance((x
w
,y
w
)

(x
t
,y
t
))|≤st
15.则p
w
为p
t
的时空相邻点;
16.s24、搜寻时空核心对象点p
i
的所有时空相邻点q
i
,若q
i
不属于任何现有簇,则将q
i
放入新建的簇c中,否则不进行操作,其中,簇c中的c为簇的标签;
17.s25、判断新簇c中的各对象是否为时空核心对象,若不是时空核心对象,则将其标为边缘时空对象,否则将该时空核心对象作为目标进行步骤s24的操作;
18.s26、重复步骤s22到步骤s25,直至数据集d中所有对象都属于某个簇,或者为时空孤立点;
19.s3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
20.s4、簇内一致性检验,计算各簇数据的一致性因子f
c

[0021][0022]
其中g
s
(t)={g1,

,g
n
}为n个在时隙t内且在空间范围s内采集到的某气象要素的观测数据,i,j=1,

,n,时隙t=1,

,t,t为将观测时间划分为等长时隙的个数;
[0023]
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
[0024]
建立假设检验模型:
[0025]
{h0:f
c
(1)=

=f
c
(t0‑
1)=f
c
(t0)=

=f
c
(t)}
[0026]
{h1:f
c
(1)=

=f
c
(t0‑
1)≠f
c
(t0)=

=f
c
(t)}
[0027]
其中,θ
t
={f
c
(1),

,f
c
(t)}为当前簇在时间1,

,t上的一致性因子向量,h0表示一致性因子未发生显著变化,h1表示一致性因子在时间t0发生显著变化;
[0028]
根据贝叶斯原理,采用后验概率计算一致性因子f
c
在时间t上发生显著变化的概率:
[0029][0030]
其中q∈{0,1},p(h
q

t
)为似然函数,p(h
q
)为先验概率;当似然函数满足logp(h1|θ
t
)/logp(h0|θ
t
)>1时,该簇数据在时间维度上发生显著改变,g
s
(t)为异常数据组;
[0031]
s5、在异常数据组中进行时空离群点检测并校正:
[0032]
检测离群点:
[0033]
计算异常数据组中全部数据的平均值标准差
检查每个数据项是否在区间内,其中k0>1为预定义常数参数,将落在区间外的数据项视为离群点;
[0034]
校正离群值:
[0035]
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
[0036]
本发明的有益效果为,与现有技术相比,本发明着眼于气象数据在时间和空间上的关联性,采用st

dbscan时空聚类方法,综合考虑了气象要素在一定时间和空间范围内的气象聚集趋势和变化规律,借助气象要素在时空上的变化特性,对缺失值和离群值进行针对性的校正,提高了气象观测数据的数据质量,为后期的气象预报业务带来了便利。
附图说明
[0037]
图1为本发明的逻辑顺序示意图;
具体实施方式
[0038]
下面对本发明的方案进行详细描述:
[0039]
本发明的方法主要包括以下步骤:
[0040]
s1、获取原始气象观测数据;
[0041]
s2、采用三维的时空聚类st

dbscan算法对气象观测数据各要素进行时空聚类分组,具体为:
[0042]
s21、建立一个三维的气象要素时空数据集d,数据集d中气象要素对象的经度为x,纬度为y,观测时间为z,一条气象观测数据对应一个对象点p
i
={x
i
,y
i
,z
i
},i为观测数据序号,1≤i≤n,n为观测数据样本总量;
[0043]
s22、从数据集d中依次选取对象点p
i
,判断其是否属于现有簇中,是则重新选择下一个对象点p
i 1
,否则进入步骤s23,其中,簇为聚类分组后对象点的集合,不属于任何簇的点为时空孤立点,每个簇具有不同的标签;
[0044]
s23、判断p
i
是否为时空核心对象:设定最小相邻点阈值minpts,若在时空对象点p的时空邻域内,p的时空相邻点数量δn满足δn≥minpts,则称p为时空核心对象;所述时空邻域的定义为,给定一个时空对象点p,p的所有时空相邻点构成的时空范围即为对象点p的时空邻域;所述时空相邻点的定义为,设定时间阈值tt和空间阈值st,对于时空对象p
t
,若p
w
到p
t
的时间距离δt满足:
[0045]
δt=|z
w

z
t
|≤tt
[0046]
空间距离δs满足公式:
[0047]
δs=|distance((x
w
,y
w
)

(x
t
,y
t
))|≤st
[0048]
则p
w
为p
t
的时空相邻点;
[0049]
s24、搜寻时空核心对象点p
i
的所有时空相邻点q
i
,若q
i
不属于任何现有簇,则将q
i
放入新建的簇c中,否则不进行操作,其中,簇c中的c为簇的标签;
[0050]
s25、判断新簇c中的各对象是否为时空核心对象,若不是时空核心对象,则将其标
为边缘时空对象,否则将该时空核心对象作为目标进行步骤s24的操作;
[0051]
s26、重复步骤s22到步骤s25,直至数据集d中所有对象都属于某个簇,或者为时空孤立点;
[0052]
s3、对各个气象要素时空聚类后的各个簇进行缺失值处理,统计各簇内缺失值个数,当缺失值个数小于设定值时,通过两个最近邻时空相邻点数据的平均值填补,当缺失值个数大于或等于设定值时,删除该簇;
[0053]
s4、簇内一致性检验,计算各簇数据的一致性因子f
c

[0054][0055]
其中g
s
(t)={g1,

,g
n
}为n个在时隙t内且在空间范围s内采集到的某气象要素的观测数据,i,j=1,

,n,时隙t=1,

,t,t为将观测时间划分为等长时隙的个数;
[0056]
基于贝叶斯决策和假设检验方法判断该簇数据在时间维度上是否发生显著改变,若发生显著改变,则将该簇数据标为异常数据组,具体为:
[0057]
建立假设检验模型:
[0058]
{h0:fc(l)=

=f
c
(t0‑
1)=f
c
(t0)=

=f
c
(t)}
[0059]
{h1:f
c
(1)=

=f
c
(t0‑
1)≠f
c
(t0)=

=f
c
(t)}
[0060]
其中,θ
t
={f
c
(1),

,f
c
(t)}为当前簇在时间1,

,t上的一致性因子向量,h0表示一致性因子未发生显著变化,h1表示一致性因子在时间t0发生显著变化;
[0061]
根据贝叶斯原理,采用后验概率计算一致性因子f
c
在时间t上发生显著变化的概率:
[0062][0063]
其中q∈{0,1},p(h
q

t
)为似然函数,p(h
q
)为先验概率;当似然函数满足logp(h1|θ
t
)/logp(h0|θ
t
)>1时,该簇数据在时间维度上发生显著改变,g
s
(t)为异常数据组;
[0064]
s5、在异常数据组中进行时空离群点检测并校正:
[0065]
检测离群点:
[0066]
计算异常数据组中全部数据的平均值标准差标准差检查每个数据项是否在区间内,其中k0>1为预定义常数参数,将落在区间外的数据项视为离群点;
[0067]
校正离群值:
[0068]
若离群点最近邻的两个数据点为正常值,则通过异常值前后临近的气象观测数据的平均值替换该离群点;若最近邻的两个数据点也为离群点,则采用该组内数据的平均值替换离群点。
[0069]
现有气象观测数据的质量控制技术大多是传统质量控制方法和人工判别相结合,传统质量控制方法主要通过界限值检测、极值检测等方法,没有考虑到气象数据的时空关联性。本发明采用st

dbscan时空聚类算法,将一定时间距离和空间距离的气象数据分组,在组内进行缺失值填补、异常值检测和离群点校正,综合考虑了气象数据在时空范围内聚
集趋势和变化特性,针对性的校正缺失值和离群值,使校正结果更加准确,提高了气象观测数据的数据质量。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献