PM2.5预测方法、系统、装置及存储介质与流程

2021-10-24 09:53:00 来源：中国专利 TAG：装置预测计算机方法存储介质

pm2.5预测方法、系统、装置及存储介质
技术领域
1.本发明涉及计算机技术领域，特别涉及一种pm2.5预测方法、系统、装置及计算机可读存储介质。

背景技术：

2.近年来，随着我国可持续发展理念认知的不断深入，在大力开展经济建设的同时，生态文明建设也日益加强，环境污染的防治成为国家发展建设中的一项重要工作，其中的大气污染防治更是成为重中之重，成为了国家发展战略中的一个重大课题。因此为了更好地反映环境污染变化趋势，为环境管理决策提供及时、全面的环境质量信息，预防严重污染事件发生，开展城市空气污染预报研究是十分必要的。
3.pm2.5作为我国首要空气污染物之一，组成成分复杂多变，其形成，转化及沉降过程都十分复杂，这给pm2.5的预测带来了很大困难。此外，大气环境是一个典型的复杂巨系统，难以对系统的各个细节进行全局的掌握和分析，且大气中的化学成分会随着大气状态的改变不断发生变化。尽管空气污染预报方法在近几十年取得了长远的发展，对我国的空气污染物的预测以及防治有着重大贡献，但传统的预测方法仍存在一定的不足。
4.现有技术中的，数值预报方法存在以下不足：(1)数值预报方法往往适合区域性的空气污染预测，而对于城市范围的空气污染预测，由于复杂的地面流场和湍流结构，难以准确估计城市边界层大气的物化过程，使得预测效果并不尽如人意；(2)数值预报需要十分翔实的污染源资料，由于实际中难以获得，通常采用简单假设或者忽略的方式，导致数值预报准确性受限；(3)数值预报方法计算复杂度高，预测计算耗时较长(通常需要6
‑
12h)，致使预报时效性不强。由于理论上的不足以及应用条件的高要求，数值预报方法有待进一步的完善。
5.统计预报方法存在以下不足：(1)时间序列分析法和多元线性回归模型法由于对空气污染变化做了较多的假设，并简化了较多的影响因子，使得方法的预报准确性不高；(2)无法对多来源的数据(结构化、非结构化)进行有效融合与分析，无法实现对海量数据的有效全量分析；(3)传统的统计方法由于无法捕获到复杂的非线性关系，其使用场景往往也受限于简单的线性关系。
6.为此需要一种预测准确度更高的pm2.5预测方法。

技术实现要素：

7.有鉴于此，本发明的目的在于提供一种pm2.5预测方法、系统、装置及计算机可读存储介质，提高pm2.5预测准确度。其具体方案如下：
8.一种pm2.5预测方法，包括：
9.获取污染物数据及环境特征因子；
10.利用预先建立的污染预测模型对所述污染物数据及所述环境特征因子进行检测，得到污染预测报告；
11.其中，所述污染预测模型的训练过程包括：
12.预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型；
13.对多个原始预测模型进行评估筛选，得到最优预测模型；
14.对所述最优预测模型进行迭代优化，得到所述污染预测模型。
15.可选的，所述获取污染物数据及环境特征因子的过程，包括：
16.获取原始污染物数据及原始环境特征因子；
17.对所述原始污染物数据及所述原始环境特征因子中缺测数据进行插值处理，得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
18.可选的，所述对所述原始污染物数据及所述原始环境特征因子中缺测数据进行插值处理，得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子的过程，包括：
19.对所述原始污染物数据及所述原始环境特征因子中缺测的连续数据进行插值处理，得到第一插值污染物数据及第一插值环境特征因子；
20.对所述原始环境特征因子中非连续值的类别数据利用onehot方法处理，得到第二插值环境特征因子；
21.综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子，得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
22.可选的，所述综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子，得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子的过程，包括：
23.综合所述第一插值污染物数据、所述第一插值环境特征因子及所述第二插值环境特征因子，得到数据清洗后的清洗污染物数据及清洗环境特征因子；
24.对所述清洗污染物数据及所述清洗环境特征因子进行数据缩放，得到所述污染预测模型能够评估的所述污染物数据及所述环境特征因子。
25.可选的，所述污染物数据，包括no
x
、no2、so2和o3；
26.所述环境特征因子，包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射和/或能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度。
27.可选的，所述对多个原始预测模型进行评估筛选，得到最优预测模型的过程，包括：
28.利用rmse与r2评价指标，对多个原始预测模型进行评估筛选，得到最优预测模型。
29.可选的，所述对所述最优预测模型进行迭代优化，得到所述污染预测模型的过程，包括：
30.利用gridsearchcv方法对所述最优预测模型进行迭代优化，得到所述污染预测模型。
31.本发明还公开了一种pm2.5预测系统，包括：
32.污染数据获取模块，用于获取污染物数据及环境特征因子；
33.污染检测模块，用于利用预先建立的污染预测模型对所述污染物数据及所述环境
特征因子进行检测，得到污染预测报告；
34.其中，所述污染预测模型为预先利用样本污染物数据及样本环境特征因子进行训练得到的。
35.本发明还公开了一种pm2.5预测装置，包括：
36.存储器，用于存储计算机程序；
37.处理器，用于执行所述计算机程序以实现如前述的pm2.5预测方法。
38.本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述的pm2.5预测方法。
39.本发明中，pm2.5预测方法，包括：获取污染物数据及环境特征因子；利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测，得到污染预测报告；其中，污染预测模型的训练过程包括：预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型；对多个原始预测模型进行评估筛选，得到最优预测模型；对最优预测模型进行迭代优化，得到污染预测模型。
40.本发明利用机器学习算法和大数据构建污染预测模型，使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系，建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型，提高了污染预测的准确度。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
42.图1为本发明实施例公开的一种pm2.5预测方法流程示意图；
43.图2为本发明实施例公开的另一种pm2.5预测方法流程示意图；
44.图3为本发明实施例公开的一种pm2.5预测系统结构示意图。
具体实施方式
45.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.本发明实施例公开了一种pm2.5预测方法，参见图1所示，该方法包括：
47.s11：获取污染物数据及环境特征因子；
48.s12：利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测，得到污染预测报告；
49.其中，污染预测模型的训练过程包括：
50.预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型；
51.对多个原始预测模型进行评估筛选，得到最优预测模型；
52.对最优预测模型进行迭代优化，得到污染预测模型。
53.具体的，为了提高预测精准度，利用机器学习技术，构建针对pm2.5的污染预测模型，预先利用样本污染物数据及样本环境特征因子对原始的数学模型上进行训练，得到污染预测模型。
54.具体的，在得到最终的污染预测模型前，可以利用多种机器学习算法分别构建不同的原始预测模型，并分别进行训练，然后再利用相应的评估方法，针对多个原始预测模型的污染预测报告进行评价，从中挑选出评价最高，即准确度最高的原始预测模型作为最优预测模型，此时得到的最优预测模型仅是相对多个原始预测模型最优，在该模型下此时的预测准确度并不一定是最高，因此，继续利用样本污染物数据及样本环境特征因子对最优预测模型进行多次迭代优化，优化最优预测模型中的参数设置，直到达到最优状态，得到污染预测模型。
55.其中，可以利用randomforest(随机森林)、lstm(long short
‑
term memory，长短期记忆网络)和xgboost等机器学习算法分别训练处相应的原始预测模型，以便后续筛选。
56.具体的，在训练过程中利用大量连续的不同时间的样本污染物数据及样本环境特征因子，对原始的数学模型进行训练，使得训练后的污染预测模型，能够根据当前空气中的污染物数据及环境特征因子，结合历史污染物数据、历史环境特征因子、样本污染物数据及样本环境特征因子对接下来空气中pm2.5的变化情况进行预测，从而得到相应的污染预测报告。
57.具体的，在实际应用中通过采集当前空气中的污染物数据及环境特征因子，并将采集到的污染物数据及环境特征因子输入至污染预测模型进行预测，污染预测模型便可以根据当前的空气中的污染物数据及环境特征因子，预测出接下来空气中pm2.5的污染变化趋势，例如，是污染加重还是污染减轻。
58.可见，本发明实施例利用机器学习算法和大数据构建污染预测模型，使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系，建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型，提高了污染预测的准确度。
59.进一步的，上述污染物数据，可以具体包括no
x
(氮氧化物)、no2(二氧化氮)、so2(二氧化硫)和o3(臭氧)等；上述环境特征因子，则可以包括气象因子和其它因子，其中，气象因子可以包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射等；其它因子可以包括能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度等。
60.具体的，环境特征因子可以影响到污染物在检测时的数值以及随着时间变化的趋势，例如，交通密度大，则污染物大概率会增加，风速高，则污染物容易扩散，pm2.5预测会变低，气溶胶光学密度，可以预测污染物浓度是否会增加等。
61.可以理解的是，对原始预测模型的初始训练与评估筛选和后续的对最优预测模型进行迭代优化，所采用的数据可以均为样本污染物数据及样本环境特征因子，通过对样本污染物数据及样本环境特征因子划分为训练集和测试集可以有效地完成对模型的训练任务。
62.本发明实施例公开了一种具体的pm2.5预测方法，相对于上一实施例，本实施例对
技术方案作了进一步的说明和优化。参见图2所示，具体的：
63.s21：获取原始污染物数据及原始环境特征因子；
64.s22：对原始污染物数据及原始环境特征因子中缺测的连续数据进行插值处理，得到第一插值污染物数据及第一插值环境特征因子。
65.具体的，不同时间采集到的空气中污染物数据以及环境特征因子不同，有时个别数据或因子甚至采集不到，或成分较低，难以满足污染预测模型能够进行评估的要求，致使污染物数据以及环境特征因子形成的输入数据达不到污染预测模型能够进行有效评估的状态，为了使原始污染物数据及原始环境特征因子能够有效地输入至污染预测模型进行评估，对原始污染物数据及原始环境特征因子中缺测的连续数据进行插值处理，例如，当一列数据大多数数值都为缺测值，则删除缺测列或对缺侧位进行插补，选用临近值插值，如选取前一个值、选取后一个值或选取前后值的均值，使整个输入数据完整与污染预测模型所需的格式切合。
66.s23：对原始环境特征因子中非连续值的类别数据利用onehot方法处理，得到第二插值环境特征因子。
67.具体的，在对连续数据的插值处理的基础上，还可以进一步采用onehot方法处理非连续值的类别数据，进一步提高模型的稳定性和运行速度，由于利用污染预测模型对原始数据提取出的特征并不总是连续值，而有可能是类型变量。考虑到计算机的运作方式，通过利用onehot方法处理非连续值的类别数据将上述特征用数字表示，以便提高效率。
68.s24：综合第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子，得到数据清洗后的清洗污染物数据及清洗环境特征因子。
69.具体的，通过将处理后的第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子合并，得到整体的污染预测模型能够评估的污染物数据及环境特征因子，经过处理后的污染物数据及环境特征因子将更加符合计算机运行方式，提高系统运行效率。
70.s25：对清洗污染物数据及清洗环境特征因子进行数据缩放，得到污染预测模型能够评估的污染物数据及环境特征因子。
71.具体的，在面对多维特征问题的时，有时特征数据的数据值相差过大，例如在运用多变量线性回归预测臭氧浓度模型中，温度和湿度这俩个特征之间数值相差大，此时就要保证这些特征都具有相近的尺度，为此在完成插值与类别数据的处理后，相当于对原始数据进行预先的数据清洗，数据清洗之后就要进行特征缩放。特征缩放思想是确保这些特征都处在一个相近的范围。
72.具体的，可以采用归一化特征缩放(0
‑
1缩放)，x＝(x
–
x
min
)/(x
max
‑
x
min
)；或标准化特征缩放x＝(x
–
μ)/σ，其中，μ是平均值，σ是标准差，等缩放方法，本发明实施例可以优先采用归一化特征缩放(0
‑
1缩放)。
73.s26：利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测，得到污染预测报告；
74.其中，污染预测模型的训练过程包括s261至s263；其中，
75.s261：预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型；
76.s262：对多个原始预测模型进行评估筛选，得到最优预测模型；
77.s263：对最优预测模型进行迭代优化，得到污染预测模型。
78.具体的，上述s262对多个原始预测模型进行评估筛选，得到最优预测模型的过程，可以具体为利用rmse与r2评价指标，对多个原始预测模型进行评估筛选，得到最优预测模型。
79.具体的，在训练过程中，利用rmse(root mean squared error，均方根误差)与r2(r2，coefficient of determination，决定系数)评价指标分别对每个原始预测模型的样本污染预测报告进行评价，在得到每个原始预测模型的样本污染预测报告额评价结果后，从多个原始预测模型中筛选出评价指标最高的原始预测模型作为最优预测模型，以提高模型精准度。
80.具体的，在使用机器学习算法过程中，针对不同的问题需要不用的模型评估标准。在机器学习中，主要以两大类分类与回归评价指标为主。本发明实施例的污染预测模型属于回归模型，为此，可以采用平均绝对误差mae(mean absolute error)、平均平方误差mse(mean squared error)、解释变异(explained variance)、rmse和/或r2等评价指标，其中，本发明实施例优先选用rmse和r2评价指标。
81.具体的，上述对最优预测模型进行迭代优化，得到污染预测模型的过程，可以具体为利用gridsearchcv方法对最优预测模型进行迭代优化，得到污染预测模型。
82.具体的，通过gridsearchcv(网格搜索)，实现自动调参，只要把参数输进去，就能给出最优化的结果和参数。相当于一种贪心算法：通过对当前模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。
83.相应的，本发明实施例还公开了一种pm2.5预测系统，参见图2所示，该系统包括：
84.污染数据获取模块11，用于获取污染物数据及环境特征因子；
85.污染检测模块12，用于利用预先建立的污染预测模型对污染物数据及环境特征因子进行检测，得到污染预测报告；
86.其中，污染预测模型的训练过程包括：
87.预先利用样本污染物数据及样本环境特征因子对多个模型进行训练得到多个原始预测模型；
88.对多个原始预测模型进行评估筛选，得到最优预测模型；
89.对最优预测模型进行迭代优化，得到污染预测模型。
90.可见，本发明实施例利用机器学习算法和大数据构建污染预测模型，使得污染预测模型能够结合大数据深度挖掘影响污染物浓度的各因子之间内在的数据关系，建立起能够更为准确的反应空气污染物浓度与影响因子之间复杂机制的预测模型，提高了污染预测的准确度。
91.具体的，上述污染数据获取模块11，可以包括原始污染数据获取子模块和数据插值子模块；其中，
92.原始污染数据获取子模块，用于获取原始污染物数据及原始环境特征因子；
93.数据插值子模块，用于对原始污染物数据及原始环境特征因子中缺测数据进行插值处理，得到污染预测模型能够评估的污染物数据及环境特征因子。
94.具体的，上述数据插值子模块，可以包括数据插值单元和类别数据处理单元；其
中，
95.连续数据插值单元，用于对原始污染物数据及原始环境特征因子中缺测的连续数据进行插值处理，得到第一插值污染物数据及第一插值环境特征因子；
96.非连续数据插值单元，用于对原始环境特征因子中非连续值的类别数据利用onehot方法处理，得到第二插值环境特征因子；
97.类别数据处理单元，用于综合第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子，得到污染预测模型能够评估的污染物数据及环境特征因子。
98.具体的，上述类别数据处理单元，可以包括类别数据处理子单元和数据缩放子单元；其中，
99.类别数据处理子单元，用于综合第一插值污染物数据、第一插值环境特征因子及第二插值环境特征因子，得到数据清洗后的清洗污染物数据及清洗环境特征因子；
100.数据缩放子单元，用于对清洗污染物数据及清洗环境特征因子进行数据缩放，得到污染预测模型能够评估的污染物数据及环境特征因子。
101.其中，污染物数据，包括no
x
、no2、so2和o3；环境特征因子，包括蒸发量和/或气温和/或相对湿度和/或风速和/或风向和/或气压和/或降雨量和/或太阳辐射和/或能见度和/或大气边界层高度和/或气溶胶光学厚度和/或季节和/或月份和/或交通密度。
102.具体的，上述对多个原始预测模型进行评估筛选，得到最优预测模型的过程，包括：
103.利用rmse与r2评价指标，对多个原始预测模型进行评估筛选，得到最优预测模型。
104.具体的，上述对最优预测模型进行迭代优化，得到污染预测模型的过程，包括：
105.利用gridsearchcv方法对最优预测模型进行迭代优化，得到污染预测模型。
106.此外，本发明实施例还公开了一种pm2.5预测装置，包括：
107.存储器，用于存储计算机程序；
108.处理器，用于执行计算机程序以实现如前述的pm2.5预测方法。
109.另外，本发明实施例还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述的pm2.5预测方法。
110.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
111.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
112.以上对本发明所提供的技术内容进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

PM2.5预测方法、系统、装置及存储介质与流程

相关文献

最热文献