一种脱敏气象数据的生成方法与流程

2021-10-24 06:00:00 来源：中国专利 TAG：气象生成方法数据

1.本发明涉及气象技术领域，尤其涉及一种脱敏气象数据的生成方法。

背景技术：

2.人工智能技术近年来已经开始在气象领域得到了探索性的应用并展现出了明显的优势，基于深度学习的人工智能技术使得气象预报的准确性大幅度提升。在大数据分析或深度学习这些数据驱动的任务中，经常会面临数据量不足的问题，寻找研究数据往往占据很大一部分时间，这是困扰很多研究者的问题。尤其是在基于深度学习的任务中，在训练中需要大量的数据。数据不足经常导致实际研究中更多地使用小样本数据，而基于小样本数据的研究中往往会存在各种各样的问题。一种解决方法是采用专门针对小样本学习规律的机器学习方法，比如统计学习(statistic learning theory)等，但这种方法的泛化性能较差且计算困难。另一种解决方法是数据增强(data augmentation)。
3.数据增强是指通过预处理对训练数据进行扩增的过程。在深度学习任务中，模型的往往是由数据驱动的，训练数据质量的好坏直接影响到模型的性能。而即使有海量的数据集，在输入模型前的图像预处理中，数据增强依然是无法避免的，所以数据增强是目前几乎所有深度学习训练的前置任务。在传统的数据增强或数据集扩充方法中，对训练数据的增强是指通过简单的一些变换操作使得网络的训练数据得到增加而标注依然可用的过程，其中也包括多种变换操作的组合，这些操作包括旋转/反射(rotation/reflection)、翻转(flip)、缩放(zoom)、平移(shift)、尺度变换(contrast)、噪声扰动(noise disturbance)、颜色变换(color transformation)等。传统数据增强方法都是有监督的方式，生成的都是有限的可信替代数据。具体到不同的任务、不同的数据对数据增强方法的敏感性是不同的，传统数据增强方法容易出现人为引入的混淆，导致模型性能变差的现象。而基于生成对抗网络(generative adversarial network，gan)的数据增强方法，是基于对源数据集样本分布特征的学习，可以有效地模拟源数据的分布，生成与源数据分布相似的数据。生成的数据具有源数据的统计特征，因此具有更好的数据效用和分析价值，可以从中分析出有意义的结论。基于生成对抗网络的数据增强的另一个优点体现在它是无监督的，无需标记数据，减少了大量枯燥的数据标记工作。基于生成对抗网络的数据增强方法优于传统的数据增强或数据集扩充方法，目前是深度学习的一个研究热点。
4.基于生成对抗网络的原理，还可将其应用在数据脱敏方面。数据共享可以加快科学的进步，但是在一些行业中敏感数据的共享应该受到某些限制。涉密数据的共享有数据泄露的风险，需要对数据进行脱敏处理。传统方式的脱敏通常采用数据掩盖和数据混淆的方式，或是采用数据噪声化、随机化、匿名化的方式。虽然传统方法多种多样，但都存在一定问题，比如数据遮盖会对数据造成破坏，影响下游的数据分析工作；同态加密、数据匿名化需要很高计算成本。基于生成对抗网络的数据脱敏方法生成的是与源数据集概率分布相同的数据，共享模拟源数据的生成数据不会有信息泄露的风险。
5.基于深度学习的人工智能技术使得气象预报的准确性大幅度提升。深度学习模型
data documentation定义的参数之内，否则将此数值置为空，然后和缺失值一同进行填充；缺失值和置为空的数值的填充方法为：使用最近的有效观测值进行填充；所述的最近的有效观测值指最近记录的在noaa local climatological data documentation定义的参数之内的同类观测值；最终得到预处理后的真实气象数据集。
29.与现有技术相比，本发明的有益效果为：
30.本发明所述的一种脱敏气象数据的生成方法，在基于生成对抗网络生成气象数据的过程中引入了差分隐私保护的设计，通过训练一个差分私有生成器来解决生成数据的安全性问题；本发明从差分隐私的角度为训练数据提供了可靠的隐私控制，可以在不侵犯训练数据隐私的情况下生成无限多个安全的生成数据，使得生成的气象数据可以同时满足数据增强和数据脱敏的要求。
附图说明
31.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
32.图1为新的深度卷积生成对抗网络的生成器结构示意图；
33.图2为脱敏气象数据生成模型mdcgan结构示意图；
34.图3为训练过程中生成器和判别器的损失函数的变化曲线示意图；
35.图4为4个气象变量概率分布图示意图；
36.图5为真实数据与生成数据的heatmap示意图；
37.图6为drybulbtempf变化对比示意图；
38.图7为生成数据时间序列模型预测结果示意图。
具体实施方式
39.下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
40.本发明所述的一种脱敏气象数据的生成方法，包括以下步骤：
41.步骤1：获取真实气象数据集，具体的：
42.为了验证本发明的可行性和有效性，本发明所述的一种脱敏气象数据的生成方法使用了来自美国国家海洋和大气管理局(noaa)公开的肯尼迪机场自2010年1月1日至2021年1月1日的真实气象数据集，真实气象数据集由位于纽约皇后区约翰
·
肯尼迪国际机场的noaa气象站收集；其中包含各种局部气候变量(包括能见度，温度，风速和方向，湿度，露点和压力)的每天24次观测。
43.步骤2：对真实气象数据集进行预处理，使其可以满足深度学习模型训练的要求；具体的,真实气象数据集的预处理包括以下步骤：
44.步骤2.1：删除真实气象数据集中列值为空以及列值完全相同的列或保留关键列作为研究对象，所述的关键列为能见度列、温度列以及风速列；
45.步骤2.2：将保留的真实气象数据集中的数值类型转换为float数值类型，便于进行后续的分析；
46.步骤2.3：使用fm
‑
15读数对保留的真实气象数据集进行过滤，获取测量间隔为一小时的数据集；
47.步骤2.4：将保留的真实气象数据集中的数值规范在noaa local climatological data documentation定义的参数之内；具体的，比如visibility的定义在[1,10]，那么将保留的真实气象数据集中大于10或小于1的数值置为空，然后和缺失值一同进行填充；缺失值和置为空的数值的填充方法为：使用最近的有效观测值进行填充；最近的有效观测值指最近记录的在noaa local climatological data documentation定义的参数之内的同类观测值；最终得到预处理后的真实气象数据集，如表1所示：
[0048][0049]
表1 预处理后的数据
[0050]
步骤3：对深度卷积生成对抗网络(dcgan)进行改进，构建新的深度卷积生成对抗网络，具体的：
[0051]
为了能够处理预处理后的真实气象数据集，本发明构建新的深度卷积生成对抗网络的方法为对传统的深度卷积生成对抗网络(dcgan)进行了改进，步骤如下：
[0052]
步骤3.1：去掉深度卷积生成对抗网络(dcgan)的池化层，生成器中使用反卷积进行上采样，判别器中使用跨距卷积代替池化层；
[0053]
步骤3.2：生成器和判别器中增加批量归一化操作；
[0054]
步骤3.3：去掉深度卷积生成对抗网络(dcgan)的全连接层，使用全局池化代替；
[0055]
步骤3.4：生成器中输出层使用tanh激活函数，隐藏层使用relu激活函数；
[0056]
步骤3.5：判别器中输出层使用sigmoid激活函数，隐藏层使用leakyrelu激活函数；
[0057]
在生成器和判别器中使用批量归一化，解决了网络初始化差的问题，使梯度传播到每一层，避免了生成器将样本收敛到同一点；另外使用全局池化代替全连接层，虽然降低了模型收敛速度，但增加了稳定性；新的深度卷积生成对抗网络的生成器结构如图1所示：新的深度卷积生成对抗网络生成器接收一个100维的高斯噪声，经过不断的反卷积直到生成64
×
64
×
3大小的矩阵；新的深度卷积生成对抗网络的判别器和生成器是对称的，接收生成器生成的样本和真实样本经过一系列卷积输出判别结果；
[0058]
步骤4：构建脱敏气象数据生成模型mdcgan(meteorology deep convolutional generative adversarial network)，具体的：训练步骤3中所述的新的深度卷积生成对抗
网络的判别器，并在训练新的深度卷积生成对抗网络的判别器过程中添加噪声扰动来实现差分隐私保护；具体的：
[0059]
脱敏气象数据生成模型mdcgan的结构如图2所示：
[0060]
假设存在一个随机函数m，使得m在任意两个相邻的数据集d和d'上得到任意相同输出集合s的概率满足，
[0061]
pr[m(d)∈s]≤e
ε
×
pr[m(d)∈s] δ
ꢀꢀꢀꢀꢀꢀ
(1)
[0062]
则称该随机函数m满足(ε,δ)
‑
差分隐私，简写为(ε,δ)
‑
dp；其中pr()表示概率密度函数；参数ε是隐私预算，ε值与隐私保护程度呈负相关；δ是隐私偏差，表示违背严格差分隐私的概率；
[0063]
对于任意函数f＝d
→
r
d
，输入为一数据集，输出为d维实数向量，对于两个相邻的数据集d和d'，函数f的全局敏感度为，
[0064][0065]
其中||
·
||
p
表示lp范数；敏感度衡量了单条记录对于函数f的最大影响，它决
[0066]
定了需要向函数f的输出结果添加多少噪声来实现差分隐私；
[0067]
对于任意函数f＝d
→
r
d
，若用l2范数来定义敏感度，对于两个相邻的数据集d和d'，函数f的全局敏感度为，
[0068][0069]
函数扰动算法m可以依据高斯分布向函数f添加噪声来实现差分隐私，
[0070]
m(d)＝f(d) n(0,(δfσ)2i)
ꢀꢀꢀꢀ
(4)
[0071]
其中n(0,(δfσ)2i)是均值为0，方差为(δfσ)2的高斯噪声，i为单位矩阵；若且ε∈(0,1)，则m算法满足(ε,δ)
‑
差分隐私；
[0072]
本发明中，将步骤2所述的预处理后的真实气象数据集x送入带有差分隐私保护的新的深度卷积生成对抗网络的判别器中，判别器会与生成器进行对抗训练；生成器接收一组分布函数为pz噪声z，经过生成器网络，生成分布函数为pg的假样本数据；生成器需学习将噪声分布pz映射到真实数据集分布pdata，使判别器将生成数据误判定为真实数据的概率越大越好；判别器实际上是一个二分类器，判别器接收两部分内容，真数据以及生成器生成的假样本数据，经过判别器网络，将真样本判别为真，将假样本判别为假，其输出值是一个概率，即[0,1]之间的值，表示其输入数据的分布是真是假；判别器将自己判断的结果返回给生成器，指导生成器训练，使pg尽可能接近pdata，这使得二者可以在对抗的同时也在共同进步；在训练数据的过程中，通过不断地计算判别器的梯度，加入高斯噪声并根据梯度大小进行梯度惩罚，距离l2范数越近惩罚越小，越远则越大；差分隐私输出之后的任何映射都满足差分隐私，且不会累计多余的隐私损失，所以生成器可以保证数据的差分隐私；
[0073]
由于步骤3中所述的新的深度卷积生成对抗网络生成的数据集不能满足数据脱敏性的要求，应用于敏感数据时存在极大的安全隐患，攻击者可以从生成样本的分布中重构出训练样本；由于新的深度卷积生成对抗网络复杂度高和其对抗性训练过程，使生成数据分布的密度集中在训练样本的周围，新的深度卷积生成对抗网络可以很容易记住训练样
本；攻击者通过从分布中重复抽样，很有可能恢复训练样本；另外，传统数据脱敏方法往往需要对原始数据进行过度清洗，导致数据可用性低而难以再适用于下游的深度学习任务；
[0074]
本发明在训练新的深度卷积生成对抗网络的判别器的过程中添加噪声扰动来实现差分隐私保护，而不是直接在最终参数上添加噪声，不会降低数据的实用性；另一方面，在训练过程中，只有判别器会直接接触到真实数据，且相较于生成器，判别器拥有的通常参数较少，特征结构较简单，易于估计隐私损失；
[0075]
步骤5：训练脱敏气象数据生成模型mdcgan，具体的，包括以下步骤：
[0076]
步骤5.1：使用结合差分隐私的adam优化算法训练脱敏气象数据生成模型mdcgan，具体的，采用差分隐私梯度下降方法通过梯度裁剪方式限制每个样本的敏感度，然后对样本添加高斯噪声，以满足差分隐私条件的数学约束；
[0077]
本发明使用结合差分隐私的adam优化算法训练mdcgan模型；adam是一种性能优秀的梯度下降算法，本发明将其与差分隐私结合，使用一个差异私有变量(dp
‑
adam)代替典型训练过程，从而限制特定训练实例在最终训练模型中的贡献；在神经网络反向传播的adam梯度下降更新参数过程中加入高斯噪声实现差分隐私，从而达到在神将网络优化算法的优化过程中进行隐私保护的目的；
[0078]
梯度裁剪是对每个样本对模型参数的影响进行限制，以提供差分隐私保证；对每个梯度向量的l2范数进行裁剪，即设定裁剪阈值c0，梯度向量g被g/max(1,||g||2/c0)替代；梯度裁剪阈值过大，将导致数据敏感度过大，噪声添加过多；而梯度裁剪阈值过小将无法保留有效的梯度学习特征，影响模型的收敛；
[0079]
噪声添加是将随机噪声添加到裁剪的梯度中，保证了攻击者不能判断出特定数据点是否包含在训练数据集中；本发明中添加的是高斯噪声；梯度裁剪与加噪声的过程即为通过扰动梯度下降过程不断消耗整体隐私预算，隐私预算一旦消耗完毕，训练即终止；
[0080]
生成器和判别器使用adam优化算法，学习率设为0.002，batch_size为128；网络结构设置如表2所示：
[0081][0082]
表2 mdcgan参数设置
[0083]
步骤5.2：更新判别器；
[0084]
步骤5.3：更新生成器；
[0085]
在判别器的每次更新中，先从原始数据集中抽样并计算梯度，然后裁剪梯度并添加噪声，确保敏感度以阈值c0为界并实现差分隐私；更新判别器参数后，从噪声分布pz中抽样并更新生成器参数；同时，统计计算训练过程中的隐私损失；算法以对抗学习的形式循环迭代，直到累积隐私损失超过总隐私预算或迭代结束时算法终止；
[0086]
隐私损失与迭代次数正相关，定义如下，
[0087]
假设存在一个随机函数m，d和d'是任意两个相邻的数据集。则m的隐私损失定义为如下随机变量，
[0088][0089]
其中概率pr由随机函数m确定；
[0090]
训练开始时，判别器的判别结果d(x)≈1、d(g(z))≈0；生成器为了和判别器进行对抗，所以训练方向是增大d(g(z))、减小d(x)，生成器目标函数是最小化log(1
‑
d(g(z)))，它的目标函数和真实样本是无关的；判别器则需要朝着最大化d(x)、最小化d(g(z))方向训练去和生成器对抗，即判别器目标函数是最大化log(d(x)) log(1
‑
d(g(z)))；随着gan训练的进行，最终d(x)和d(g(z))的值在0.5左右浮动，判别器无法判断输入数据的真假，生成器和判别器二者达到一个纳什均衡(nash equilibrium)状态，此时模型达到最优；训练的目标函数如下，
[0091][0092]
其中x表示真实数据样本，z表示随机噪声样本，g(z)表示生成器生成的假样本，d(x)和d(g(z))表示判别器判别结果，e表示求期望。
[0093]
mdcgan模型在训练过程中生成器和判别器的损失函数的变化过程如图3所示；
[0094]
在mdcgan的训练过程中，唯一需要直接访问真实数据的部分是判别器的训练。为了实现差别隐私，本发明私有化判别器的训练，在判别器每次训练中先从原始数据中抽样并计算梯度，然后将噪声添加到随机梯度下降过程中并裁剪梯度，判别器参数更新后，训练生成器，从噪声pz中抽样更新生成器参数，一直迭代此过程，直至训练完成；
[0095]
步骤6：利用步骤5所述的脱敏气象数据生成模型mdcgan生成脱敏的气象数据。
[0096]
基于本发明所述的脱敏气象数据生成模型mdcgan生成的脱敏气象数据和真实数据在变量概率密度分布上具有相同特征，如图4所示：图4比较了二者的wetbulbtempf、drybulbtempf、winddirection、dewpointtempf、windspeed、winddirection等气象变量的概率密度分布，其中虚线为生成数据，实线为真实数据；从图中可以看出二者概率密度分布大致相似，但部分概率密度值有偏差，这是由于生成数据的概率密度大都会偏向正态分布，实验中使用的数据集概率密度却不呈规则正态分布。
[0097]
衡量变量相关性一般都是计算变量之间的皮尔逊相关系数(pearson correlation coefficient),heatmap可以显示数据中不同变量之间的相关性；在此气象数据集中drybulbtempf、relativehumidity、windspeed、wetbulbtempf、dewpointtempf、visibility、stationpressure等气象变量，生成数据的变量相关性与真实数据的变量相关性是十分相似的，说明本发明所述的脱敏气象数据生成模型mdcgan具有模拟源数据中变量间相关性的能力；生成数据与真实数据的heatmap如图5所示，左图为真实数据，右图为生成数据。
[0098]
真实数据与生成数据的统计特征有稍微差别，毕竟不是相同的数据，即使把同一个数据集拆分成两个部分进行比较也会存在差别；比如将真实数据中drybulbtempf分为两部分，前一部分的均值为54.66，后一部分均值为56.82；真实数据与生成数据气候变量的平均值和标准差对比如表3所示，二者各个变量平均值，标准差十分相近，说明生成数据可以
替代真实数据进行数据特征分析。
[0099][0100][0101]
表3 真实数据与生成数据统计特征对比
[0102]
为了评估mdcgan模型在差分隐私保护下生成气象数据的质量，本发明采用inception scores(is)和js散度(jensen
‑
shannon divergence)两个参数进行了验证。
[0103]
本发明使用inception scores来评估气象数据的生成质量，以真实数据评分为标准，对比本发明所述的脱敏气象数据生成模型mdcgan生成数据的能力；评价一个生成模型，需要考验两个方面性能：生成数据的质量和生成数据的多样性；假设x表示从生成器生成的数据，y表示类别标签，p(y|x)表示生成数据x属标签y的条件概率，p(y)表示y的边缘分布；对于一个高质量的数据，它属于某一类的概率应该非常大，而属于其它类的概率应该很小，也就是说，p(y|x)的熵应该很小；如果一个模型能生成足够多样的数据，那么它生成的数据在各个类别中的分布应该是平均的，也就是说，生成的数据在所有类别概率边缘分布p(y)的熵应该很大；综合上面两方面，inception scores的计算公式为：
[0104]
is(g)＝exp[ε
x～g(z)
d
kl
(p(y|x)||p(y))]
ꢀꢀꢀꢀ
(7)
[0105]
其中d
kl
表示对p(y|x)和p(y)求kl散度(kullback
‑
leibler divergence)；kl散度又称相对熵(relative entropy)，是描述两个概率分布p和q差异的一种方法；kl散度的离散形式公式为，
[0106][0107]
inception scores越大，说明p(y|x)和p(y)这两项分布的kl散度越大，生成数据的质量和多样性越好。
[0108]
jensen
‑
shannon散度度量了两个概率分布的相似度；它是基于kl散度的变体，解决了kl散度非对称的问题；js散度是对称的，其取值是0到1之间；js散度的定义如下，
[0109][0110]
真实数据与生成数据的可靠性比较如表4所示，在隐私预算ε为10的前提下，分别计算了两类数据的inception scores和js散度，差分隐私保护下gan的生成数据由于噪声
的干扰，一般情况下inception scores会较低，js散度会稍高，但本发明所述的脱敏气象数据生成模型mdcgan得分仍在可接受的范围内。
[0111][0112]
表4 真实数据与生成数据的可靠性比较
[0113]
为了说明本发明所述的脱敏气象数据生成模型mdcgan生成气象数据的有效性，本发明使用生成数据和真实数据进行了一系列对比分析；分别使用两种数据训练时间序列预测模型，比较两个模型的预测结果。
[0114]
真实数据中每一天的温度都是随时间变化上升后下降，中午气温高，凌晨和晚上气温低，气温变化折线图呈凸状；在所有气象变量中，气温的变化趋势是最明显的，所以挑选气温比较真实数据与生成数据最为直观；在生成数据中随机选出几天气温变化的折线图和真实数据进行对比，如图6所示，虚线为生成数据中drybulbtempf一天中的变化，实线为真实数据的变化；生成数据与真实数据的变化趋势相符合，气温最高点都在中午12点左右。
[0115]
本发明使用生成数据和真实数据各训练一个时间序列预测模型，并使用同样测试集对两个模型进行测试，比较二者训练出模型的效果；本发明利用长短期记忆神经网络(long short
‑
term memory,lstm)进行预测对比实验；lstm是一种特殊的循环神经网络(recurrent neural network,rnn),适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，能够学习信息之间长期的依赖关系；lstm在自然语言处理、视频理解与目标检测、深度学习、强化学习等领域有着十分广泛的应用。
[0116]
本发明从生成数据中取2000个小时数据作为训练集，并在真实数据中取200个小时数据作为测试集，训练结果如图7所示，其中虚线为生成数据训练出的模型对于200个小时真实数据的预测值，实线为真实数据，预测值与真实值均方误差(mse)均是0.002，使用生成数据训练的时间序列预测模型是可靠的，完全可以达到和使用真实数据训练出预测模型相当的准确度。
[0117]
综上所述，本发明在基于生成对抗网络生成气象数据的过程中引入了差分隐私保护(differential privacy protection)的设计，通过训练一个差分私有生成器来解决生成数据的安全性问题。本发明从差分隐私的角度为训练数据提供了可靠的隐私控制，可以在不侵犯训练数据隐私的情况下生成无限多个安全的生成数据，使得生成的气象数据可以同时满足数据增强和数据脱敏的要求。
[0118]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于多尺度混合维度网络的目标检测方法及系统与流程

一种脱敏气象数据的生成方法与流程

相关文献

最热文献