一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种卫星气体数据补全方法和系统与流程

2022-04-14 03:02:02 来源:中国专利 TAG:


1.本公开涉及气体测量领域,具体而言涉及一种卫星气体数据补全方法和系统。


背景技术:

2.当前常见卫星例如温室气体观测卫星gosat、轨道碳观测卫星oco-2以及oco-3等监测co2浓度幅宽只有十几公里,不能够很好地覆盖较大空间范围。当前主流方法主要采用空间插值方法直接对原始co2浓度数据进行插值,如克里金插值、反距离加权插值等传统方法。但是这些传统方法最终得到的结果空间分辨率较低,不适用于小区域的业务需求。此外,所述传统方法并没有考虑卫星过境时的气象场条件以及与co2相关的污染气体情况,使得得到的数据精度较低。


技术实现要素:

3.本公开正是基于现有技术的上述需求而提出的,本公开要解决的技术问题是提供一种卫星气体数据补全方法和系统能够补全监测缺失区域的气体浓度的同时保证其准确度。
4.为了解决上述问题,本公开提供的技术方案包括:提供了一种卫星气体数据补全方法,包括:预设区域,包括数据采集区和数据缺乏区;所述方法用于通过数据采集区的数据来补全数据缺乏区的数据;通过第一卫星获取所述数据采集区的第一气体信息;所述第一气体信息包括第一浓度数据和第一坐标信息;通过第二卫星获取所述数据采集区的第二气体信息;所述第二气体信息包括第二浓度数据和第二坐标信息;获取所述数据采集区的气象数据;通过第三卫星获取所述数据采集区的数字高程模型数据;根据所述第一坐标信息和所述第二坐标信息进行时空匹配,获取所述数据采集区的数据集;根据所述数据集构建数据模型,所述数据模型至少基于所述第二浓度数据、所述气象数据和所述数字高程模型数据获得所述第一浓度数据。
5.将相同地理坐标的第一气体信息和第二气体信息建立相关联系以通过数据集训练机器学习模型以补全部分缺失的第一气体信息。同时将过境时的气象场条件纳入考虑以获得精确度更高第一气体信息。
6.优选的,所述第一气体包括co2,所述第二气体包括no2和co;所述预设区域划分为多个栅格,所述数据集包括子数据集,每个栅格对应一个子数据集,所述子数据集包括:co2浓度、no2浓度、co浓度、经度、纬度、数字高程模型数据、气象数据、儒略日中的至少一项;所述气象数据包括大气相对湿度、大气温度、水平方向风速、垂直方向风速、总风速和大气压强中的至少一项。
7.通过上述设置将多种影响co2浓度的因素纳入考虑以提高预测的精度和准度。
8.优选的,所述方法还包括对所述数据集进行处理,其中所述处理包括:剔除在vcq∈(μ
q-3δq,μq 3δq)范围之外的数据,其中q∈[1,2,3],vc1为co2浓度,vc2为no2浓度,vc3为co浓度,μ1为第一卫星获取的co2浓度均值,μ2为第二卫星获取的no2浓度均值,μ3为第二卫星获
取的co浓度均值,δ1为第一卫星获取的co2浓度标准差,δ2为第二卫星获取的no2浓度标准差,δ3为第二卫星获取的co浓度标准差。
[0009]
剔除异常数据对机器学习模型的干扰使得最终的结果更加精确。
[0010]
优选的,所述根据所述第一坐标信息和所述第二坐标信息进行时空匹配,包括:根据第一卫星的地理坐标和第二卫星的地理坐标之间的距离d的数值是否在阈值范围之内确定所述第一卫星的地理坐标和第二卫星的地理坐标是否匹配;其中lon1表示第一卫星的经度,lon2表示第二卫星的经度,lat1表示第一卫星的纬度,lat2表示第二卫星的纬度。
[0011]
通过地理位置建立起所述第一气体信息和所述第二气体信息之间的联系。以在一定程度上提高预测的精度和准度。
[0012]
优选的,所述数据集进行特征变换,基于特征变换后的数据集训练数据模型;其中,所述特征变换包括,对地理坐标进行特征变换得到lon=ln(lon)和lat=ln(lat),其中lon为经度数据,lat为纬度数据;以及对气象数据中的垂直方向和水平方向上的风速数据进行特征变换得到,其中wind为总风速,u为水平方向的风速,v为垂直方向的风速。
[0013]
通过特征变换以提取特征中的隐含信息,在一定程度上能够简化计算过程降低计算量并提高结果的准确度。
[0014]
优选的,所述数据模型包括:vc1≌f(rh,temp,u,v,wind,pres,dem,vc2,vc3,lon,lat,doy)其中co2浓度vc1的影响因数包括,大气相对湿度rh、大气温度temp、水平方向风速u和垂直方向风速v、总风速wind、大气压强pres、数字高程模型数据dem、no2浓度vc2、co浓度vc3、特征变换后的经度lon、特征变换后的纬度lat以及儒略日doy,f()为所述数据模型的表示函数,所述数字高程模型数据中包括地形地貌以及植被。
[0015]
优选的,所述基于特征变换后的数据集训练数据模型,包括:将所述特征变换后的数据集分成训练集和测试集;对所述训练集抽样,得到多个样本;用得到的样本作为训练样本构造相互独立的多个决策树;由多个决策树共同决定输出的二氧化碳浓度。
[0016]
通过上述算法以提高结果的准确率,同时适应于多维度特征的输入样本,能够有效运行在大数据集上。
[0017]
优选的,通过网格搜索方法对所述决策树的个数和深度的参数进行调整。
[0018]
通过网格搜索方法以确定决策树的个数和深度以提高精度。
[0019]
优选的,由训练集训练得到的数据模型通过测试集对精确度进行验证。
[0020]
还提供了一种卫星气体数据补全系统,包括:预设模块,所述预设模块用于预设区域,所述预设区域包括数据采集区和数据缺乏区;所述模块用于通过数据采集区的数据来补全数据缺乏区的数据;第一获取模块,所述第一获取模块通过第一卫星获取所述数据采集区的第一气体信息;所述第一气体信息包括第一浓度数据和第一坐标信息;第二获取模块,所述第二获取模块通过第二卫星获取所述数据采集区的第二气体信息;所述第二气体信息包括第二浓度数据和第二坐标信息;气象获取模块,所述气象获取模块以获取所述数据采集区的气象数据;第三获取模块,所述第三获取模块通过第三卫星获取所述数据采集区的数字高程模型数据;时空匹配模块,所述时空匹配模块根据所述第一坐标信息和所述
第二坐标信息进行时空匹配以获取所述数据采集区的数据集;数据模型,所述数据模块根据所述数据集构建得到,且至少基于所述第二浓度数据、所述气象数据和所述数字高程模型数据获得所述第一浓度数据。
[0021]
将相同地理坐标的第一气体信息和第二气体信息建立相关联系以通过数据集训练机器学习模型以补全部分缺失的第一气体信息。同时将过境时的气象场条件纳入考虑以获得精确度更高第一气体信息。
[0022]
优选的,所述第一气体包括co2,所述第二气体包括no2和co;所述预设区域划分为多个栅格,所述数据集包括子数据集,每个栅格对应一个子数据集,子数据集包括:co2浓度、no2浓度、co浓度、经度、纬度、数字高程模型数据、气象数据、儒略日中的至少一项;所述气象数据包括大气相对湿度、大气温度、水平方向风速、垂直方向风速、总风速和大气压强中的至少一项。
[0023]
通过上述设置将多种影响co2浓度的因素纳入考虑以提高预测的精度和准度。
[0024]
优选的,所述系统还包括数据处理模块:剔除vcq∈(μ
q-3δq,μq 3δq)范围之外的数据,其中q∈[1,2,3],vc1为co2浓度,vc2为no2浓度,vc3为co浓度,μ1为第一卫星获取的co2浓度均值,μ2为第二卫星获取的no2浓度均值,μ3为第二卫星获取的co浓度均值,δ1为第一卫星获取的co2浓度标准差,δ2为第二卫星获取的no2浓度标准差,δ3为第二卫星获取的co浓度标准差。
[0025]
剔除异常数据对机器学习模型的干扰使得最终的结果更加精确。
[0026]
优选的,根据所述第一坐标信息和所述第二坐标信息进行时空匹配包括:根据第一卫星的地理坐标和第二卫星的地理坐标之间的距离d的数值是否在阈值范围之内确定所述第一卫星的地理坐标和第二卫星的地理坐标是否匹配;其中lon1表示第一卫星的经度,lon2表示第二卫星的经度,lat1表示第一卫星的纬度,lat2表示第二卫星的纬度。
[0027]
通过地理位置建立起所述第一气体信息和所述第二气体信息之间的联系。以在一定程度上提高预测的精度和准度。
[0028]
优选的,所述系统还包括特征变换模块:基于特征变换后的数据集训练数据模型;其中,所述特征变换包括,对地理坐标进行特征变换得到lon=ln(lon)和lat=ln(lat),其中lon为经度数据,lat为纬度数据;以及对气象数据中的垂直方向和水平方向上的风速数据进行特征变换得到,其中wind为总风速,u为水平方向的风速,v为垂直方向的风速。
[0029]
通过特征变换以提取特征中的隐含信息,在一定程度上能够简化计算过程降低计算量并提高结果的准确度。
[0030]
优选的,所述数据模型包括:vc1≌f(rh,temp,u,v,wind,pres,dem,vc2,vc3,lon,lat,doy)其中co2浓度vc1的影响因数包括,大气相对湿度rh、大气温度temp、水平方向风速u和垂直方向风速v、总风速wind、大气压强pres、数字高程模型数据dem、no2浓度vc2、co浓度vc3、特征变换后的经度lon、特征变换后的纬度lat以及儒略日doy,f()为所述数据模型的表示函数,所述数字高程模型数据中包括地形地貌以及植被。
[0031]
优选的,所述基于特征变换后的数据集训练数据模型包括:将所述特征变换后的
数据集分成训练集和测试集;对所述训练集抽样,得到多个样本;用得到的样本作为训练样本构造相互独立的多个决策树;由多个决策树共同决定输出的二氧化碳浓度。
[0032]
通过上述算法以提高结果的准确率,同时适应于多维度特征的输入样本,能够有效运行在大数据集上。
[0033]
优选的,通过网格搜索模块对所述决策树的个数和深度的参数进行调整。
[0034]
通过网格搜索方法以确定决策树的个数和深度以提高精度。
[0035]
优选的,所述系统还包括验证模块,所述验证模块由训练集训练得到的数据模型通过测试集对精确度进行验证。
[0036]
与现有技术相比,本公开将考虑卫星过境时的气象场条件以及与co2相关的污染气体情况,由于常见卫星监测co2浓度幅宽只有十几公里,不能够很好地覆盖较大空间范围,通过本公开以补全整个中国甚至全球区域co2的空间覆盖度,这将有助于人们通过卫星co2浓度计算目标区域内每天的co2通量,从而计算目标区域内指定时间段的co2排放量。同时,可将补全后的co2数据作为模式的输入参数,可以用来定量研究全球气候变化问题。最后,可以将补全后的卫星co2与其他污染物如no2、co、hcho等进行协同观测,给污碳同治带来极大可能。
附图说明
[0037]
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0038]
图1为本公开实施例中的一种卫星气体数据补全方法的步骤流程图;图2为本公开实施例中的一种卫星气体数据补全方法中s3的步骤流程图;图3为本公开实施例中的oco-2卫星原始观测co2浓度数据分布图;图4为本公开实施例中的通过卫星数据模型得到的补全后的co2浓度数据分布图;图5为本公开实施例中使用方法得到的模型预测co2浓度和实际观测的co2浓度的散点验证图。
具体实施方式
[0039]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0040]
在本公开实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接可以是机械连接,也可以是电连接可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
[0041]
全文中描述使用的术语“顶部”、“底部”、“在
……
上方”、“下”和“在
……
上”是相对于装置的部件的相对位置,例如装置内部的顶部和底部衬底的相对位置。可以理解的是装
置是多功能的,与它们在空间中的方位无关。
[0042]
为便于对本技术实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本技术实施例的限定。
[0043]
实施例1由于当前常见卫星例如温室气体观测卫星gosat、轨道碳观测卫星oco-2以及oco-3等监测co2浓度幅宽只有十几公里,不能够很好地覆盖较大空间范围。通过传统方法得到的结果空间分辨率较低以不能适用于小区域的预测,并且传统方法并没有将气象场条件以及与co2相关的污染气体情况纳入考虑导致最终的结果不精确。
[0044]
鉴于上述情况,本实施例提供了一种卫星气体补全方法,参照图1~图3。所述气体包括co2。
[0045]
所述补全方法包括:s1获取影响co2的浓度相关联的数据。
[0046]
预设区域,包括数据采集区和数据缺乏区,所述方法通过数据采集区获取的参数数据补全所述数据缺乏区的缺乏数据。在一定区域内co2的浓度与多种因素相关联:温度、湿度、气压以及风速等因素会对co2的分布造成影响,进而改变区域内的co2浓度;植物自身的光合作用和呼吸作用同样会影响co2的浓度,由此可见植被的分布情况与区域内的co2的浓度具有密切的关系。
[0047]
物质燃烧后会产生co2,在燃烧不完全时,会产生部分的no2、no和co。换言之,no2、no和co的浓度和co2的浓度也具有一定的相关性。
[0048]
则本公开的补全方法获取的数据包括:由于受现有技术的限制仅有十几公里幅宽的co2浓度数据;同时将与co2相关的主要因素纳入考虑,即需要获取no2的浓度、co的浓度、温度、湿度、气压以及风速的数据。此外由于本公开需依赖地理因素展开,所以还需要获取数字高程模型数据,所述数字高程模型数据中包括地形以及植被分布情况。
[0049]
进一步的,通过轨道碳观测卫星oco-2获取co2浓度数据;通过哨兵5p卫星(sentinel-5p)获取no2的浓度数据和co的浓度数据;通过欧洲中期天气预报中心(ecmwf)获取大气相对湿度rh、大气温度temp、水平方向上的风速u、垂直方向上的风速v和大气压强pres的数据;通过对地观测卫星alos获取数字高程模型数据,上述数据为最初始的数据集。在所述数据集中包括大气相对湿度rh、大气温度temp、水平方向上的风速u、垂直方向上的风速v、大气压强pres、数字高程模型数据dem、经度lon和纬度lat,no2浓度vc2,co浓度vc3,co2浓度vc1。上述所述的浓度可以卫星的柱浓度。
[0050]
s2对获取的数据进行处理,所述处理包括剔除获取数据中的异常值,提取时空匹配的数据以及对部分数据进行特征变换。
[0051]
对于剔除获取数据中的异常值,由于在数据获取过程中由于一些情况可能会出现得到的数据不合理的情况,需要对异常的数据进行剔除。
[0052]
所述异常值包括由卫星获取的气体浓度数据中的异常值。
[0053]
vcq∈(μ
q-3δq,μq 3δq)q∈[1,2,3]当卫星获取到的气体浓度数据在上述范围之外时,认为该数据为异常值,其中,vc1为co2浓度,vc2为no2浓度,vc3为co浓度,μ1为第一卫星获取的co2浓度均值,μ2为第二卫星
获取的no2浓度均值,μ3为第二卫星获取的co浓度均值,δ1为第一卫星获取的co2浓度标准差,δ2为第二卫星获取的no2浓度标准差,δ3为第二卫星获取的co浓度标准差。
[0054]
对于提取时空匹配的数据,在数据集中包括有多个来源的多个维度的数据,为了使获取的数据具有一定的关联性,需要建立起多个维度的数据之间的联系。进一步的,当对某一个地点进行信息采集时,获取到的数据必然会存在一定的联系,所以本公开将地理位置作为桥梁,建立起多维度数据间的联系。
[0055]
所述预设区域划分为多个栅格,所述数据集包括子数据集,每个栅格对应一个子数据集,子数据集包括:co2浓度、no2浓度、co浓度、经度、纬度、数字高程模型数据、气象数据、儒略日中的至少一项。
[0056]
示例性的将北京,被划分为n个方格,每个方格为7x7km,每个方格对应符合匹配要求的多个参数(co2浓度、no2浓度、co浓度、经纬度、dem、气象数据(rh、temp、u、v、pres))。数据集只是匹配结果中的部分内容。
[0057]
进一步的,所述轨道碳观测卫星oco-2对某一地点的co2浓度进行采集,所述sentinel-5p卫星对某一地点的no2浓度和co浓度进行采集,通过下列表达时判断两个地点的地理位置是否相匹配:,其中lon1表示轨道碳观测卫星oco-2的经度,lon1表示sentinel-5p卫星的经度,lat1表示轨道碳观测卫星oco-2的纬度,lat2表示sentinel-5p卫星的纬度,当d小于或等于0.01
°
时,表示为第一卫星的数据和第二卫星的数据为同一地点的数据。
[0058]
对于其他维度数据的地点判断与上述判断过程相同,通过两两相互判断,建立起多维数据间的关系,得到具有一定区域性的数据集。
[0059]
对于部分数据进行特征变换,所述特征变换就是将特征经过某种变换,提取隐含信息等。
[0060]
进行特征变换的数据包括经纬度数据以及水平方向上的风速数据和垂直方向上的风速数据。
[0061]
对于经纬的特征变换,表示为:lon=ln(lon)lat=ln(lat)对于水平方向上的风速数据和垂直方向上的风速数据的特征变换,表示为:其中,wind为总风速。
[0062]
s3根据所述数据集训练机器模型,从而获得由no2的浓度和co的浓度得到补全的co2浓度的卫星数据模型;所述根据预定位置的no2的浓度和co的浓度,使用所述数据模型补全该位置的co2浓度所述数据集包括训练集和测试集,将所述数据集按照7:3的比例随机分为训练集和测试集。
[0063]
s301对训练集进行有放回的抽样,以得到多个样本集。
[0064]
具体而言,所述样本集中具有n个数据,每次从原来的训练集中又放回地随机抽取n个数据作为样本。
[0065]
s302通过样本和多维特征构建决策树。
[0066]
所述样本为多维度数据,每一个维度为一个特征,从多个特征中随机抽取m个特征作为前节点下决策的备选特征,从这些特征中选择最好地划分训练样本地特征。用每个样本集作为训练样本构造决策树,单个决策树在产生样本集和确定特征后,使用cart算法计算,不剪枝。
[0067]
s303多个决策树进行决策后共同作用以输出结果。
[0068]
得到所需数目的决策树后,对所述决策树的输出进行投票,以得票最多的类作为输出,即补全的二氧化碳的浓度,表示为:vc1≌f(rh,temp,u,v,wind,pres,dem,vc2,vc3,lon,lat,doy)其中co2浓度vc1的影响因数包括,大气相对湿度rh、大气温度temp、水平方向风速u和垂直方向风速v、总风速wind、大气压强pres、数字高程模型数据dem、no2浓度vc2、co浓度vc3、特征变换后的经度lon、特征变换后的纬度lat以及儒略日doy,f()为所述数据模型的表示函数。
[0069]
通过上述方法对训练样本进行了采样,又对特征进行了采样,充分保证了所构建的每个树之间的独立性,使得投票结果更准确。每棵决策树的训练样本是随机的,树中每个节点的分裂属性也是随机选择的。有了这两个随机因素,即使每棵决策树没有进行剪枝不会产生过拟合的现象。
[0070]
所述cart算法,cart决策树的生成就是递归地构建二叉决策树的过程。cart决策树既可以用于分类也可以用于回归。对于进行分类的决策树而言,cart用gini系数最小化准则来进行特征选择,生成二叉树。
[0071]
cart生成算法如下:根据训练数据集,从根结点开始,递归地对每个结点进行以下操作,构建二叉决策树:设结点的训练数据集为d,计算现有特征对该数据集的gini系数。此时,对每一个特征a,对其可能取的每个值a,根据样本点对a=a的测试为“是”或
ꢀ“
否”将d分割成d1和d2两部分,计算a=a时的gini系数。
[0072]
在所有可能的特征a以及它们所有可能的切分点a中,选择gini系数最小的特征及其对应的切分点作为最优特征与最优切分点。依最优特征与最优切分点,从现结点生成两个子结点,将训练数据集依特征分配到两个子结点中去。
[0073]
直至满足停止条件,生成cart决策树。
[0074]
对于决策树的个数和深度这两个参数通过网格搜索方法进行调整。所述网格搜索法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。
[0075]
在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。列出一个较小的超参数值域,这些超参数至于的笛卡尔积(排列组合)为一组组超参数。网格搜索算法使用每组超参数训练模型并挑选验证集误差最小的超参数组合。
[0076]
s4对由训练集训练得到的卫星气体补全数据模型通过测试集对精确度进行验证。
[0077]
示例性的,参照图3,图3为2020年2月2日卫星oco-2 co2原始观测数据分布,其中
在图中呈不连续的条状分布的由多个点所堆叠的图示为co2原始观测数据。经由本实施例所提供的方法得到的卫星数据模型能够将co2浓度补全至整个中国,参照图4。这对全球co2温室气体影响全球变暖效带来更为科学定量的评估。
[0078]
参照图5,图5为测试集(样本集中随机选取的30%数据)中卫星oco-2的co2实际观测浓度(x轴)与随机森林模型预测的co2浓度(y轴)之间的散点验证。其中,测试集数据量为152637,r2为0.93,均方根误差rmse为0.85ppm,平均绝对误差mae为0.77ppm,以上数据表明本发明运用的随机森林模型对卫星co2补全具有较高的精度,结果十分可靠。
[0079]
本发明对卫星co2补全可以使得整个中国甚至全球区域co2的空间覆盖度得到极大地提高,这将有助于人们通过卫星co2浓度计算目标区域内每天的co2通量,从而计算目标区域内指定时间段的co2排放量。同时,可将补全后的co2数据作为模式的输入参数,可以用来定量研究全球气候变化问题。最后,可以将补全后的卫星co2与其他污染物如no2、co、hcho等进行协同观测,给污碳同治带来极大可能。
[0080]
实施例2由于当前常见卫星例如温室气体观测卫星gosat、轨道碳观测卫星oco-2以及oco-3等监测co2浓度幅宽只有十几公里,不能够很好地覆盖较大空间范围。通过传统方法得到的结果空间分辨率较低以不能适用于小区域的预测,并且传统方法并没有将气象场条件以及与co2相关的污染气体情况纳入考虑导致最终的结果不精确。
[0081]
鉴于上述情况,本实施例提供了一种卫星气体数据补全系统,所述气体包括co2。
[0082]
所述系统包括获取模块、数据处理模块、匹配模块和数据模块。
[0083]
预设区域,包括数据采集区和数据缺乏区,所述系统通过数据采集区获取的参数数据补全所述数据缺乏区的缺乏数据。在一定区域内co2的浓度与多种因素相关联:温度、湿度、气压以及风速等因素会对co2的分布造成影响,进而改变区域内的co2浓度;植物自身的光合作用和呼吸作用同样会影响co2的浓度,由此可见植被的分布情况与区域内的co2的浓度具有密切的关系。
[0084]
物质燃烧后会产生co2,在燃烧不完全时,会产生部分的no2、no和co。换言之,no2、no和co的浓度和co2的浓度也具有一定的相关性。
[0085]
获取模块,所述获取模块包括第一获取模块、第二获取模块、第三获取模块以及气象获取模块。
[0086]
由于受现有技术的限制仅有十几公里幅宽的co2浓度数据;同时将与co2相关的主要因素纳入考虑,即需要获取no2的浓度、co的浓度、温度、湿度、气压以及风速的数据。此外由于本公开需依赖地理因素展开,所以还需要获取数字高程模型数据,所述数字高程模型数据中包括地形以及植被分布情况。
[0087]
所述第一获取模块通过轨道碳观测卫星oco-2获取co2浓度数据;所述第二获取模块通过哨兵5p卫星(sentinel-5p)获取no2的浓度数据和co的浓度数据;所述气象获取模块通过欧洲中期天气预报中心(ecmwf)获取大气相对湿度rh、大气温度temp、水平方向上的风速u、垂直方向上的风速v和大气压强pres的数据;所述第三获取模块通过对地观测卫星alos获取数字高程模型数据,上述数据为最初始的数据集。在所述数据集中包括大气相对湿度rh、大气温度temp、水平方向上的风速u、垂直方向上的风速v、大气压强pres、数字高程模型数据dem、经度lon和纬度lat,no2浓度vc2,co浓度vc3,co2浓度vc1。
[0088]
数据处理模块,所述数据处理模块用于对所述数据集进行数据处理。在数据获取过程中由于一些情况可能会出现得到的数据不合理的情况,需要对异常的数据进行剔除。
[0089]
所述异常值包括由卫星获取的气体浓度数据中的异常值。
[0090]
vcq∈(μ
q-3δq,μq 3δq)q∈[1,2,3]当卫星获取到的气体浓度数据在上述范围之外时,认为该数据为异常值,其中,vc1为co2浓度,vc2为no2浓度,vc3为co浓度,μ1为第一卫星获取的co2浓度均值,μ2为第二卫星获取的no2浓度均值,μ3为第二卫星获取的co浓度均值,δ1为第一卫星获取的co2浓度标准差,δ2为第二卫星获取的no2浓度标准差,δ3为第二卫星获取的co浓度标准差。
[0091]
在数据集中包括有多个来源的多个维度的数据,为了使获取的数据具有一定的关联性,需要建立起多个维度的数据之间的联系。所述联系将由所述匹配模块实现,当对某一个地点进行信息采集时,获取到的数据必然会存在一定的联系,所以本公开将地理位置作为桥梁,建立起多维度数据间的联系。上述功能由时空匹配模块实现。
[0092]
所述预设区域划分为多个栅格,所述数据集包括子数据集,每个栅格对应一个子数据集,子数据集包括:co2浓度、no2浓度、co浓度、经度、纬度、数字高程模型数据、气象数据、儒略日中的至少一项。
[0093]
示例性的将北京,被划分为n个方格,每个方格为7x7km,每个方格对应符合匹配要求的多个参数(co2浓度、no2浓度、co浓度、经纬度、dem、气象数据(rh、temp、u、v、pres))。数据集只是匹配结果中的部分内容。
[0094]
进一步的,所述轨道碳观测卫星oco-2对某一地点的co2浓度进行采集,所述sentinel-5p卫星对某一地点的no2浓度和co浓度进行采集,通过下列表达时判断两个地点的地理位置是否相匹配:,其中lon1表示轨道碳观测卫星oco-2的经度,lon2表示sentinel-5p卫星的经度,lat1表示轨道碳观测卫星oco-2的纬度,lat2表示sentinel-5p卫星的纬度,当d小于或等于0.01
°
时,表示为第一卫星的数据和第二卫星的数据为同一地点的数据。
[0095]
对于其他维度数据的地点判断与上述判断过程相同,通过两两相互判断,建立起多维数据间的关系,得到具有一定区域性的数据集。
[0096]
特征变换模块,所述特征变换模块将特征经过某种变换,提取隐含信息等。所述特征为所述数据集中数据的维度,包括大气相对湿度rh、大气温度temp、水平方向上的风速u、垂直方向上的风速v、大气压强pres、数字高程模型数据dem、经度lon和纬度lat,no2浓度vc2,co浓度vc3,co2浓度vc1。
[0097]
进行特征变换的数据包括经纬度数据以及水平方向上的风速数据和垂直方向上的风速数据。
[0098]
对于经纬的特征变换,表示为:lon=ln(lon)lat=ln(lat)对于水平方向上的风速数据和垂直方向上的风速数据的特征变换,表示为:
其中,wind为总风速。
[0099]
数据模块,所述数据模块包括抽样模块,决策树模块和输出模块。
[0100]
抽样模块,所述抽样模块对训练集进行有放回的抽样,以得到多个样本集。具体而言,所述样本集中具有n个数据,每次从原来的训练集中又放回地随机抽取n个数据作为样本。
[0101]
决策树模块,所述样本为多维度数据,每一个维度为一个特征,从多个特征中随机抽取m个特征作为前节点下决策的备选特征,从这些特征中选择最好地划分训练样本地特征。用每个样本集作为训练样本构造决策树,单个决策树在产生样本集和确定特征后,使用cart算法计算,不剪枝。
[0102]
输出模块,所述输出模块将多个所述决策树模块的输出进行投票,以得票最多的类作为输出,即补全的二氧化碳的浓度,表示为:vc1≌f(rh,temp,u,v,wind,pres,dem,vc2,vc3,lon,lat,doy)其中co2浓度vc1的影响因数包括,大气相对湿度rh、大气温度temp、水平方向风速u和垂直方向风速v、总风速wind、大气压强pres、数字高程模型数据dem、no2浓度vc2、co浓度vc3、特征变换后的经度lon、特征变换后的纬度lat以及儒略日doy,f()为所述数据模型的表示函数。
[0103]
网格搜索模块,对于决策树的个数和深度这两个参数通过所述网格搜索模块进行调整。所述网格搜索法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。
[0104]
验证模块,所述验证模块用于对由训练集训练得到的数据模块通过测试集对精确度进行验证。
[0105]
以上所述的具体实施方式,对本技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术的具体实施方式而已,并不用于限定本技术的保护范围,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献