对流天气影响终端区的模式识别方法及高斯混合聚类模型与流程

2021-12-01 02:04:00 来源：中国专利 TAG：

1.本发明属于机场终端区对流天气技术领域，具体涉及一种对流天气影响终端区的模式识别方法及高斯混合聚类模型。

背景技术：

2.2019年全年民航行业的主要生产指标继续维持稳定迅速的增长，在所有航班中，属于放行正常范畴的航空器架次总计377万，占比为82％。造成航班起飞和降落时间不正常的原因有许多类别，其中天气原因是造成航班起飞和降落不正常的主要原因，占不正常航班总数的47.46％，这说明天气已然成为致使航班产生延误的最为主要的因素，而天气类别中的对流天气是占比最高的因素。对流天气发生以后，因其持续时间不同、范围影响不同、发生时刻不同，所造成的容量下降的情况严重程度不一样。由此可见，如何快速识别终端区的对流天气会造成的影响，对是否能够实现相应的起降容量的预测至关重要。在不同的天气条件下，对空域容量进行迅速而精准的预测，有利于提前形成较为合理的空域与交通管理方法，有利于提高空域资源利用率，尽量减少因容量发生突变而带来的航班延误情况。
3.目前，在研究对流天气对终端区产生的影响场景分类时，前人采用的方式多是以整张雷达图作为样本，提取整张图片的主要特征进而直接聚类，但这种聚类方式可能使得在距离度量上相同的天气被聚到同一类当中，而忽略其对终端区各组成要素的影响。
4.因此，基于上述技术问题需要设计一种新的对流天气影响终端区的模式识别方法及高斯混合聚类模型。

技术实现要素：

5.本发明的目的是提供一种对流天气影响终端区的模式识别方法及高斯混合聚类模型。
6.为了解决上述技术问题，本发明提供了一种对流天气影响终端区的模式识别方法，包括：
7.获取对流天气数据；
8.根据对流天气数据构建对流天气影响终端区特征；
9.根据特征构建对流天气对终端区影响的聚类模型；以及
10.根据聚类模型的聚类结果进行对比分析。
11.进一步，所述获取对流天气数据的方法包括：
12.根据原始的雷达反射率图获取waf数据，并将waf数据中中心位于终端区中心预设范围之外的天气数据删除。
13.进一步，所述根据对流天气数据构建对流天气影响终端区特征的方法包括：
14.构建对流天气对主要离场点的影响特征；
15.获取对流天气对终端区的主要离场点yin，流控随天气覆盖比重的变化为：
[0016][0017]
其中，q
yin
为从yin离场的两架航空器之间的放行时间间隔；β为waf覆盖终端区边界的比重，正值为waf覆盖在yin点离场方向左侧，负值为waf覆盖在yin点离场方向右侧；
[0018]
waf凸包集合为waf＝{waf1,waf2,...,waf
n
}，
[0019][0020]
其中，决策变量x为0
‑
1变量，判断waf是否覆盖集合d当中的任一离场点；
[0021]
当x＝1,d
i
∈d时，d
i
的边界覆盖比重为：
[0022][0023]
β
i
为d
i
的边界覆盖比重；d
wxl
为以d
i
为起点waf凸包左边覆盖的线段长度；d
wxr
为以d
i
为起点waf凸包右边覆盖的线段长度；d
il
为与d
i
相邻的左边终端区边界长度；d
ir
为与d
i
相邻的右边终端区边界长度。
[0024]
进一步，所述根据对流天气数据构建对流天气影响终端区特征的方法还包括：
[0025]
对流天气对主要进场走廊的影响特征，天气危险指数和可用流容比；
[0026]
所述天气危险指数为wsi，空域被危险天气覆盖的比例；
[0027][0028]
其中，s
wx
为被对流天气覆盖的空域面积；s为空域的总面积；
[0029]
当wsi超过预设阈值时，该空域失去通行能力；
[0030]
所述可用流容比为未被天气覆盖的区域允许航空器通行的能力；
[0031]
基于最大流最小割的第j个waf凸包的可用流容比为：
[0032][0033]
其中，afcr
kj
为在第j个waf凸包的影响下的第k个进场走廊多边形的可用流容比；mincut
j
为在第j个waf凸包的影响下的第k个进场走廊多边形的最小割；mincut
k0
为良好天气下第k个进场走廊多边形的最小割；e
t
和e
b
分别代表进场走廊多边形的顶边和底边；d
min
为最短距离。
[0034]
进一步，所述根据特征构建对流天气对终端区影响的聚类模型的方法包括：
[0035]
对流天气的k
‑
means聚类分析，即
[0036]
在所提取的对流天气凸包样本数据中随机选择k个对流天气样本数据点作为初始
聚类中心；
[0037]
计算其余的对流天气样本与聚类中心的欧式距离，并把各对流天气样本标记为离k个聚类中心最为接近的类别；
[0038]
重新计算各类别中对流天气样本的平均值，并将对流天气样本的平均值作为新的k个聚类中心，直至聚类中心的变化趋势变得平稳，构成了最后的k个类别。
[0039]
进一步，所述根据特征构建对流天气对终端区影响的聚类模型的方法还包括：
[0040]
对流天气的谱聚类聚类分析，即
[0041]
根据高斯核距离的方式生成样本的高斯相似度矩阵r；
[0042]
基于高斯相似矩阵r建立邻接矩阵w，构建度矩阵g；
[0043]
获取尚未标准化的拉普拉斯矩阵l，l＝g
‑
r；
[0044]
构建归一化后的拉普拉斯矩阵g
‑
1/2lg
‑
1/2；
[0045]
获取g
‑
1/2lg
‑
1/2最小的k1个特征值所各自对应的特征向量f；
[0046]
各类对应的特征向量f组成的矩阵进行按行标准化，获取n
×
k1维的特征矩阵f；
[0047]
对f中的每一行作为一个k1维的样本，共n个样本，用输入的聚类方法k
‑
means进行聚类，聚类的维度为k2，获取类别划分n(n1,n2,...,n
k2
)。
[0048]
进一步，所述根据特征构建对流天气对终端区影响的聚类模型的方法还包括：
[0049]
对流天气的高斯混合聚类分析，即
[0050]
样本集d＝{x1,x2,...,x
m
}服从高斯分布；
[0051]
初始化高斯混合分布的模型参数π
i
，μ
i
，σ
i
；
[0052]
计算x
j
由各混合成分生成的后验概率，并记为γ
ji
；
[0053]
计算新的模型参数并进行迭代，直到满足停止条件；
[0054]
将每个样本按照λ
j
＝argmaxγ
ji
(i∈{1,2,...,k})划入相应的类别当中，获取k个聚类类别。
[0055]
进一步，所述根据聚类模型的聚类结果进行对比分析的方法包括：
[0056]
根据聚类模型的聚类结果，判断高斯混合聚类的聚类结果符合终端区的实际管制情况。
[0057]
另一方面，本发明还提供一种对流天气的高斯混合聚类模型，包括：
[0058]
样本集d＝{x1,x2,...,x
m
}服从高斯分布；
[0059]
初始化高斯混合分布的模型参数π
i
，μ
i
，σ
i
；
[0060]
计算x
j
由各混合成分生成的后验概率，并记为γ
ji
；
[0061]
计算新的模型参数并进行迭代，直到满足停止条件；
[0062]
将每个样本按照λ
j
＝argmaxγ
ji
(i∈{1,2,...,k})划入相应的类别当中，获取k个聚类类别。
[0063]
本发明的有益效果是，本发明通过获取对流天气数据；根据对流天气数据构建对流天气影响终端区特征；根据特征构建对流天气对终端区影响的聚类模型；以及根据聚类模型的聚类结果进行对比分析，实现了对三种不同聚类模型所得的聚类结果进行对比分析，从而得出最为符合实际管制场景的要求的聚类模型和结果，形成对流天气影响终端区的主要场景，每种场景即为一种对流天气影响终端区模式。
[0064]
本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变
得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
[0065]
为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
[0066]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0067]
图1为本发明所涉及的对流天气影响终端区的模式识别方法的流程图；
[0068]
图2为广州终端区主要离场点分布情况示意图；
[0069]
图3为waf凸包影响yin时偏航情况示意图；
[0070]
图4为waf沿离场点相邻边界覆盖比重示意图；
[0071]
图5为广州终端区主要进场走廊分布情况示意图；
[0072]
图6为轮廓系数法选择合理的k值示意图；
[0073]
图7为k
‑
means聚类各类类别分布散点图；
[0074]
图8为三类对流天气样本个数示意图；
[0075]
图9为三类天气整体分布及类别0、类别1、类别2天气在广州终端区内分布示意图；
[0076]
图10为高斯混合模型的aic、bic准则调参过程示意图；
[0077]
图11为高斯混合聚类结果示意图。
具体实施方式
[0078]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0079]
实施例1
[0080]
图1为本发明所涉及的对流天气影响终端区的模式识别方法的流程图。
[0081]
如图1所示，本实施例1提供了一种对流天气影响终端区的模式识别方法，包括：获取对流天气数据；根据对流天气数据构建对流天气影响终端区特征；根据特征构建对流天气对终端区影响的聚类模型；以及根据聚类模型的聚类结果进行对比分析，实现了对三种不同聚类模型所得的聚类结果进行对比分析，从而得出最为符合实际管制场景的要求的聚类模型和结果，形成对流天气影响终端区的主要场景，每种场景即为一种对流天气影响终端区模式。
[0082]
在本实施例中，所述获取对流天气数据的方法包括：根据原始的雷达反射率图获取waf数据，并将waf数据中中心位于终端区中心预设范围之外的天气数据删除；原始的雷达反射率图经过处理后转化为waf数据，分为数字产品和图片产品，该产品共有4个色阶，包括白色、绿色和黄色、红色区域，分别代表极弱(无天气区域)、较弱(可以通过区域)、较强雷
达回波区域(航空器避让区域)。在本实施例中，所提取的waf数据范围是从2017年2月至2018年3月底，用于研究对流天气红色避让区对广州终端区容量的影响。提取的waf不一定全部都与终端区相关，需要对数据进行进一步的筛选。由于整个广州终端区半径为100km，考虑到某些类似飑线的雷暴云团体较长，因此考虑保留部分裕度，将中心位于距终端区中心125km之外的天气数据删除，防止无效数据量过于庞大。而且waf的图片产品要与终端区进行融合，并转化为对流天气对终端区的影响。
[0083]
图2为广州终端区主要离场点分布情况示意图；
[0084]
图3为waf凸包影响yin时偏航情况示意图；
[0085]
图4为waf沿离场点相邻边界覆盖比重示意图。
[0086]
在本实施例中，所述根据对流天气数据构建对流天气影响终端区特征的方法包括：构建对流天气对主要离场点的影响特征；对流天气影响下的各主要离场点的流控措施，在研究对流天气对广州终端区离场点的具体影响之前，首先明确广州终端区五个主要离场点的位置，如图2所示，然后需要根据管制经验确定各离场点在waf的影响下的流控情况。以对流天气对广州终端区的主要离场点yin的影响为例，如图3所示。当对流天气覆盖yin时，航空器只能向西p268、广宁点或向东ataga、nolon点偏航，在已确定天气覆盖yin点时，天气覆盖yin
‑
广宁段或yin
‑
ataga段线段长度占比越大，则偏航程度越大，流控越严重；
[0087]
获取对流天气对终端区的主要离场点yin，流控随天气覆盖比重的变化为：
[0088][0089]
其中，q
yin
为从yin离场的两架航空器之间的放行时间间隔；β为waf覆盖终端区边界的比重，正值为waf覆盖在yin点离场方向左侧，负值为waf覆盖在yin点离场方向右侧；β的临界值由管制专家确定；
[0090]
waf沿离场点相邻边界覆盖比重，waf凸包集合为：
[0091]
waf＝{waf1,waf2,...,waf
n
}，只有确定waf覆盖离场点时，探究waf沿离场点相邻终端区边界的分布才有价值；
[0092][0093]
其中，决策变量x为0
‑
1变量，判断waf是否覆盖集合d当中的任一离场点；
[0094]
如图4所示，当x＝1,d
i
∈d时，d
i
的边界覆盖比重为：
[0095][0096]
β
i
为d
i
的边界覆盖比重；d
wxl
为以d
i
为起点waf凸包左边覆盖的线段长度；d
wxr
为以
d
i
为起点waf凸包右边覆盖的线段长度；d
il
为与d
i
相邻的左边终端区边界长度；d
ir
为与d
i
相邻的右边终端区边界长度。
[0097]
图5为广州终端区主要进场走廊分布情况示意图。
[0098]
在本实施例中，所述根据对流天气数据构建对流天气影响终端区特征的方法还包括：对流天气对主要进场走廊的影响特征，天气危险指数和可用流容比；如图5所示，广州终端区有三大主要的进场走廊，分别是ataga和igono、gya、p270北侧20km及南侧20km四个主要走廊，图5中编号为1、4、7、8的多边形，当天气影响主走廊时，航空器只能从侧边走廊进行绕飞，每个进场走廊周边都有1
‑
2个这样的侧边走廊，这些走廊一般由主要进场航线左右两侧各10km
‑
20km的多边形构成，图5中编号为2、3、9、10、5、6的多边形。
[0099]
由于waf会影响进场走廊的通行能力，因此研究waf凸包对各进场走廊的通行能力影响程度，主要包括进场走廊被危险天气覆盖面积比例(天气危险指数)和危险天气周边可供航空器通行的能力(可用流容比)；
[0100]
所述天气危险指数为(weather severity index,wsi)，指的是空域被危险天气覆盖的比例。wsi可以在很大程度上反映天气对空域交通的影响程度；
[0101][0102]
其中，s
wx
为被对流天气覆盖的空域面积；s为空域的总面积；
[0103]
当wsi超过预设阈值时(如wsi＝0.7)，该空域失去通行能力；
[0104]
所述可用流容比(available flow capacity ratio，afcr)为未被天气覆盖的区域允许航空器通行的能力；它是空域可用的通行力与总通行力的比值，研究的是瓶颈通行能力。如图5所示的10个主要进场走廊多边形，每个进场走廊多边形都由源、汇、顶、底组成，当天气凸包覆盖进场走廊多边形时，其通行能力取决于天气源和汇与天气凸包边缘之间的最短距离；
[0105]
基于最大流最小割的第j个waf凸包的可用流容比为：
[0106][0107]
其中，afcr
kj
为在第j个waf凸包的影响下的第k个进场走廊多边形的可用流容比；mincut
j
为在第j个waf凸包的影响下的第k个进场走廊多边形的最小割；mincut
k0
为良好天气下第k个进场走廊多边形的最小割；e
t
和e
b
分别代表进场走廊多边形的顶边和底边；d
min
为最短距离。
[0108]
图6为轮廓系数法选择合理的k值示意图；
[0109]
图7为k
‑
means聚类各类类别分布散点图。
[0110]
在本实施例中，所述根据特征构建对流天气对终端区影响的聚类模型的方法包括：对流天气的k
‑
means聚类分析，即k
‑
means聚类的过程就是不断地计算各样本点与聚类中心之间的距离直到收敛为止；在所提取的对流天气凸包样本数据中随机选择k个对流天气样本数据点作为初始聚类中心；计算其余的对流天气样本与聚类中心的欧式距离，并把各对流天气样本标记为离k个聚类中心最为接近的类别；重新计算各类别中对流天气样本的平均值，并将对流天气样本的平均值作为新的k个聚类中心，直至聚类中心的变化趋势变
得平稳，构成了最后的k个类别。
[0111]
k
‑
means算法的类别数k需要人为指定，本实施例根据轮廓系数法进行斜率变化的观察，当斜率由大突然变小时且之后的斜率变化缓慢，则认为斜率发生突变的点所对应的类别的个数就是所寻找的最优k值。
[0112]
轮廓系数法的原理是同时考虑了类内的集聚性以及类间的隔离性，要想令特征数据集形成一个较为理想的聚类时，类内的样本分布越密集越好，而类间的样本分布越分散越好。轮廓系数的计算公式为：其中，a(i)代表的含义是聚类后的类内样本的集聚性，代表样本i与处于相同类别内的剩余的样本点欧式距离均值；b(i)反映了类间的隔离性，它代表的含义是求样本i与其他非同类样本点欧式距离均值，由公式可知，当s(i)的值趋近
‑
1时，说明样本i的分配不符合理想条件；当s(i)的值趋近为0时，说明样本i位于中间位置，即类与类之间的边界处；当s(i)近似为1时，说明样本的分配是合理的。
[0113]
基于广州终端区天气凸包样本数据集进行k
‑
means聚类的轮廓系数测试，得到的测试结果如图6所示。折线整体呈现波动下降的趋势，其中，类别数为2时，轮廓系数最大，但将数据分为两类并不符合理想的天气影响终端区的状况，因此从剩余的点中寻找目标点，从图中可以看出，类别数取值为4或者6时轮廓系数值较高，进而后续可将天气凸包样本数据聚类为4类或6类并进行聚类评价，评价聚类结果是否符合实际情况。
[0114]
如图7所示，根据终端区内离场点、进场走廊分布以及天气散点与各区域契合的实际情况，认为聚成6类相对较为符合实际情况，即各类别的覆盖情况如下：类别0主要覆盖yin离场点、p268离场点、ataga进场走廊的西半部分；类别1主要覆盖ataga进场走廊的东半部分；类别2主要覆盖gya进场走廊的南边、p50离场点；类别3主要覆盖gya进场走廊及其北边；类别4主要覆盖跑道附近30km左右的位置；类别5主要覆盖iduma和p270进场走廊的东半部分。
[0115]
图8为三类对流天气样本个数示意图；
[0116]
图9为三类天气整体分布及类别0、类别1、类别2天气在广州终端区内分布示意图。
[0117]
在本实施例中，所述根据特征构建对流天气对终端区影响的聚类模型的方法还包括：对流天气的谱聚类聚类分析，即本实施例进行聚类的数据集合为广州终端区2017年2月至2018年3月共13个月的waf(天气规避区)天气数据，给定天气凸包集合x1，x2，
…
，x
n
的集合p，设定谱聚类相似矩阵的生成方式是基于高斯核距离的全连接方式，切图方式为ncut(在最小化损失函数之外，还考虑了子图之间的权重大小)，最后用到的聚类方法为k
‑
means；
[0118]
根据高斯核距离的方式生成样本的高斯相似度矩阵r，
[0119]
其中，σ表示样本的标准差。
[0120]
基于高斯相似矩阵r建立邻接矩阵w，构建度矩阵g；
[0121]
获取尚未标准化的拉普拉斯矩阵l，l＝g
‑
r；并对任意向量v都有：
l是对称和半正定的；l最小的特征值为0，且特征值0所对应的特征向量为全1向量；l有n个非负的实数特征值：0＝λ1≤λ2≤...≤λ
n
；
[0122]
构建归一化后的拉普拉斯矩阵g
‑
1/2lg
‑
1/2；
[0123]
获取g
‑
1/2lg
‑
1/2最小的k1个特征值所各自对应的特征向量f；
[0124]
各类对应的特征向量f组成的矩阵进行按行标准化，获取n
×
k1维的特征矩阵f；
[0125]
对f中的每一行作为一个k1维的样本，共n个样本，用输入的聚类方法k
‑
means进行聚类，聚类的维度为k2，获取类别划分n(n1,n2,...,n
k2
)；在谱聚类的方法当中，新的空间的维数被设置成为了类别的个数。
[0126]
根据天气数据的44维特征数据集，首先对谱聚类算法所采用的参数进行选择，然后对52779条天气样本进行聚类分析，明确每个waf凸包所属类别，有利于精确把握新的天气场景下所包含类别的情况，进而评估不同天气影响场景下的容量。
[0127]
谱聚类算法中包含了两个重要参数：核函数γ以及聚类类别数n，评价谱聚类结果好坏的一个重要指标是calinski
‑
harabaz score，公式表示为：其中，k代表聚类类别数，n代表全部样本数目，ss
b
是类间方差，ss
w
是类内方差。
[0128]
ss
b
＝tr(b
k
)
[0129][0130]
ss
w
＝tr(w
k
)
[0131][0132]
trace只考虑了矩阵对角上的元素，即类q中所有样本点到类的欧几里得距离；c
q
是类q的质点，c
e
是所有样本数据的中心点，n
q
是类q样本数据点的总数，x是类q中包含的所有样本，trb(k)表示类间离差矩阵的迹，trw(k)表示类内离差矩阵的迹。
[0133]
calinski
‑
harbasz score衡量分类情况和理想分类情况(类间方差最大，类内方差最小)之间的区别，归一化因子(n
‑
k)/(k
‑
1)随着类别数k的增加而减少，使得该方法更加趋向于得到类别较少的结果。此时，需要根据需求找另一个局部最优的k。
[0134]
通过对类的值n以及高斯核函数的参数γ进行遍历，比较calinski
‑
harbasz score的大小关系，找到当calinski
‑
harbasz score最大或显著大时所对应的类别的值，并认为此时的γ为最优高斯核参数、n为最优的聚类个数。本发明使用谱聚类算法，对高斯核函数的参数γ∈{0.01,0.1,1}、聚类的类别n∈{2,3,4,5,6}，依次两两组合对waf凸包数据集进行谱聚类操作，观察最后的聚类效果，并分别计算不同(γ,n)的组合之下，所对应的calinski
‑
harbasz score大小。并将对流天气凸包样本集按特征列进行标准化处理，使得各列特征数据映射到[0,1]区间之上，标准化处理方式为：其中p
istd
为标准化后的天气凸包样本的特征；x
i
为第i个原始天气凸包样本；p为天气凸包样本
集。
[0135]
接下来，使用天气类别聚类模型对广州终端区标准化后的52761条对流天气凸包样本数据进行谱聚类分析。实验环境为python3.6，设定谱聚类高斯核函数参数γ＝0.01、聚类的类别数n＝3，经过计算分析，可得聚类结果。最终，对流天气样本集的对流天气被分为3类，每个类别的样本个数如图8所示，分别为4096，22646，26019，类别1和类别2数据量接近，分别占据数据总量的42.92％和49.31％，而类别0仅占7.76％。
[0136]
根据各类别的对流天气中心的空间位置分布，将其在终端区内的具体位置分布可视化，三类天气的整体分布及类别0、类别1、类别2分别在终端区内的位置分布情况如图9所示。可以看出类别0的天气主要覆盖跑道附近空域及ataga进场走廊。
[0137]
类别0如图9中(b)，主要覆盖跑道附近空域以及部分进场走廊，也就是终端区进离场空域的瓶颈区域；类别1如图9中(c)，主要覆盖离场点p50、vibos以及gya、iduma进场走廊，同时还覆盖了跑道附近空域的西半部分；类别2如图9中(d)，主要覆盖离场点p268、yin、lmn以及ataga、p270进场走廊，同时还覆盖了跑道附近空域的东半部分。
[0138]
特征的样本分布基本符合谱聚类结果，当天气所属类别为类别0时，其危险天气指数最大，可用流容比最小，对终端区交通流的阻塞程度较为明显；当天气所属类别为类别1或类别2时，其危险天气指数较小，可用流容比较大，几乎对交通无影响。因此，当新天气的特征符合三种类别的其中一类时，可以认为该天气具有这一类的特性。对于管制工作繁忙的终端区，实时掌控扇区内的天气状况将大大提高管制员的决策效率，从而提升终端区容量。
[0139]
图10为高斯混合模型的aic、bic准则调参过程示意图；
[0140]
图11为高斯混合聚类结果示意图。
[0141]
在本实施例中，所述根据特征构建对流天气对终端区影响的聚类模型的方法还包括：对流天气的高斯混合聚类分析，即样本集d＝{x1,x2,...,x
m
}服从高斯分布；初始化高斯混合分布的模型参数第i个子分布的贡献度π
i
，第i个子分布的均值μ
i
，第i个子分布的标准差σ
i
；计算x
j
由各混合成分生成的后验概率，即观测数据x
j
由第i个组成成分生成的概率p(z
j
＝i|x
j
)，并记为γ
ji
：
[0142]
其中，l表示第l类高斯子分布，k表示所有子分布的总数。
[0143]
计算新的模型参数为：
[0144]
[0145][0146][0147]
其中，m表示新生成的高斯子分布的总数；
[0148]
进行迭代，直到满足停止条件；
[0149]
将每个样本按照λ
j
＝argmaxγ
ji
(i∈{1,2,...,k})划入相应的类别当中，即分析各样本来自哪个分模型的概率最大，就将其划分到某个分模型的类别中，最终就得到了k个聚类类别。
[0150]
由于高斯混合聚类模型所涉及到的特征共有，为防止过拟合现象的发生，本发明加入关于模型复杂度的惩罚项——aic和bic准则来解决过拟合问题。
[0151]
aic准则通常用于衡量模型的拟合优度，防止模型的过拟合，它提供了一种定量评估模型的复杂程度以及拟合数据是否优良的标准。通常情况下，aic定义为：aic＝2k
‑
2ln(l)，其中，k代表的含义是高斯混合模型具备的参数数量，l代表的含义是似然函数。通常选择aic取值最小的参数为高斯混合模型的参数赋值，可以有效防止模型发生过拟合问题。
[0152]
bic贝叶斯信息准则是根据贝叶斯理论提出的判别准则，称为sbc准则(也称bic)，其定义为：bic＝kln(n)
‑
2ln(l)，其中，k为模型参数个数，n为样本的数量，l为似然函数。kln(n)惩罚项在位数过大且训练样本数据相对较少的情况下，可以有效避免出现维度灾难的现象。
[0153]
利用aic和bic准则选取高斯混合模型的最佳聚类类别数量，aic和bic值的变化趋势如图10所示，aic和bic值的走向基本是一致的，但由于bic准则比aic准则的惩罚项大，因此bic准则下的曲线提前进入稳定状态，但就整体而言，两条曲线下降到类别数为20类以后数值逐渐进入平稳状态，即使再增加聚类类别，也不会对结果产生显著影响，因此认为类别数为20是聚类的最佳选择，也较为符合实际天气场景的分布。各类别天气分布情况如下表以及图11所示。
[0154]
表1：各类别天气分布情况表
[0155][0156][0157]
在本实施例中，所述根据聚类模型的聚类结果进行对比分析的方法包括：根据聚类模型的聚类结果，判断高斯混合聚类的聚类结果符合终端区的实际管制情况；k
‑
means聚类算法对于二维的地理坐标特征较为重视，因此聚类结果几乎只考虑了对流天气分布的地理因素的影响，而忽视了对流天气对空域通行能力的影响；谱聚类算法可综合考虑对流天气分布的地理位置、对流天气对空域进场走廊、主要离场点、跑道等的影响，但是聚类结果较少，考虑到跑道运行模式的不同、交通流方向的多样性，上述结果无法全面反映天气影响终端区的主要场景。因此聚类结果无法与管制经验进行精确匹配，无法利用仿真平台进行容量评估；在aic/bic准则所确定的类别数下，高斯混合聚类算法的聚类结果更加细致且符合终端区的实际管制情况。根据聚类所使用的特征以及聚类标签，计算聚类效果指标轮廓系数，如下表所示：
[0158]
表2：聚类效果指标轮廓系数表
[0159][0160]
由上表所示不同聚类方法对应的轮廓系数得分可知，高斯混合聚类的得分为正值，且最接近1，由轮廓系数的定义可知，高斯混合聚类相对于其他两类聚类对数据的划分更加清晰。综上所述，利用高斯混合模型进行聚类可将对流天气对终端区的影响精确划分
为合理的场景，并方便后续转化为计算机仿真平台容量评估的输入，结合广州终端区实际情况，应当选择高斯混合聚类模型进行聚类。
[0161]
实施例2
[0162]
在实施例1的基础上，本实施例2还提供一种对流天气的高斯混合聚类模型，包括：样本集d＝{x1,x2,...,x
m
}服从高斯分布；初始化高斯混合分布的模型参数π
i
，μ
i
，σ
i
；计算x
j
由各混合成分生成的后验概率，并记为γ
ji
；计算新的模型参数并进行迭代，直到满足停止条件；将每个样本按照λ
j
＝argmaxγ
ji
(i∈{1,2,...,k})划入相应的类别当中，获取k个聚类类别。
[0163]
综上所述，本发明通过获取对流天气数据；根据对流天气数据构建对流天气影响终端区特征；根据特征构建对流天气对终端区影响的聚类模型；以及根据聚类模型的聚类结果进行对比分析，实现了对三种不同聚类模型所得的聚类结果进行对比分析，从而得出最为符合实际管制场景的要求的聚类模型和结果，形成对流天气影响终端区的主要场景，每种场景即为一种对流天气影响终端区模式。
[0164]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0165]
另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0166]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0167]
以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：硬件性能获取方法、设备、系统及存储介质与流程

对流天气影响终端区的模式识别方法及高斯混合聚类模型与流程

相关文献

最热文献