一种场地大数据风险筛查方法与装置与流程

2022-09-03 02:26:32 来源：中国专利 TAG：

1.本发明实施例涉及环境大数据技术领域，尤其涉及一种场地大数据风险筛查方法和装置。

背景技术：

2.然而，现有的场地风险筛查技术无法识别全国所有地块，且现有的场地风险筛查技术的筛查结果是静态的，后续无动态结果。此外，现有场地风险筛查技术主要依赖人工主观赋分，场地风险评估效率较低。
3.

技术实现要素：

4.为了解决现有技术中的问题，本发明提供一种场地大数据风险筛查方法和装置，以实现利用大数据挖掘技术对场地进行风险评估，并通过场地风险筛查模型的构建实现场地风险自动赋分，最终输出高风险场地动态名录。
5.第一方面，本发明实施例提供了一种场地大数据风险筛查方法，包括：
6.s110、对获取的原始场地大数据进行预处理，得到预处理后的场地大数据；
7.s120、通过特征提取算法对所述预处理后的场地大数据进行特征提取，以得到场地关键特征集；
8.s130、基于所述场地关键特征集，采用机器学习算法构建场地的风险筛查模型，根据所述风险筛查模型确定场地风险筛查得分；
9.s140、根据所述场地风险筛查得分确定场地风险等级，并输出高风险场地动态名录。
10.可选的，所述s110中的预处理包括：
11.哑变量、二值化、特征抽取、稀疏表示、字典学习或者高维映射。
12.可选的，所述特征提取算法包括：方差分析法、随机森林算法、xgboost或者lightgbm。
13.可选的，所述机器学习算法包括：随机森林算法、xgboost、lightgbm或者stacking。
14.可选的，步骤s140包括：
15.根据所述场地风险筛查得分，以及设定的风险得分与风险等级之间的对应关系，确定所述场地风险筛查得分对应的场地风险等级。
16.第二方面，本发明实施例还提供了一种场地大数据风险筛查装置，包括：
17.预处理模块，用于对获取的原始场地大数据进行预处理，得到预处理后的场地大数据；
18.特征提取模块，用于通过特征提取算法对所述预处理后的场地大数据进行特征提取，以得到场地关键特征集；
19.风险筛查模型构建模块，用于基于所述场地关键特征集，采用模型构建算法构建场地的风险筛查模型，根据所述风险筛查模型确定场地风险筛查得分；
20.风险等级确定模块，用于根据所述场地风险筛查得分确定场地风险等级，并输出高风险场地动态名录。
21.本发明的有益效果：
22.本发明通过在场地大数据基础上构建基于关键指标的风险筛查模型，采用多种特征提取、特征选择方法提取能够反映场地数据的关联特征信息，识别关键因子，简化了场地数据的获取。基于场地关键特征集，通过机器学习方法训练得到一种场地大数据风险筛查模型，能够快速的进行风险筛查分值计算、风险分级，形成适用于场地环境管理的高风险场地动态名录。
附图说明
23.图1为本发明实施例提供的一种场地大数据风险筛查方法的流程图。
具体实施方式
24.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
25.实施例
26.图1为本发明实施例提供的一种场地大数据风险筛查方法的流程图，本实施例可适用于对场地数据进行筛查和分级的情况，具体包括如下步骤：
27.s110、对获取的原始场地大数据进行预处理，得到预处理后的场地大数据。
28.其中，原始场地大数据包括与场地相关的所有数据信息，如污染源种类、污染源途径等信息。由于原始的场地数据为文本信息，所以需要对其进行数值化的相关预处理操作，本实施了中的预处理操作可以包括哑变量、二值化、特征抽取、稀疏表示、字典学习，以及高维映射等。
29.s120、通过特征提取算法对所述预处理后的场地大数据进行特征提取，以得到场地关键特征集。
30.对预处理后的场地大数据采用多种特征提取、特征选择方法，提取能够反映场地数据的关联特征信息，识别关键因子，得到场地关键特征集。
31.上述特征提取及特征选择是指对场地指标运用方差分析、随机森林(random forest， rf)、xgboost及lightgbm等方法，从而提取出关键特征信息。
32.s130、基于所述场地关键特征集，采用机器学习算法构建场地的风险筛查模型，根据所述风险筛查模型确定场地风险筛查得分。
33.本实施例中的机器深度学习算法包括rf、xgboost、lightgbm或者stacking等。通过上述机器学习算法对上述场地关键特征集继续模型训练，以得到风险筛查模型，该风险筛查模型可以输出被筛查场地的风险得分数据。
34.其中，rf是通过集成学习的思想将多棵树集成的一种算法。基本单元是决策树。随机森林中每颗决策树都是一个分类器，对于一个输入样本，n棵树会有n个分类结果。随机森
林集成了所有的分类投票结果，将投票次数最多的类别指定为最终输出。
35.xgboost是基于决策树的集成机器学习算法，以梯度提升为框架。xgboost对缺失值进行了处理。让缺失值分别被切分到左节点以及右节点，通过计算得分值比较两种切分方法哪一个更优，则会对每个特征的缺失值都会学习到一个最优的默认切分方向。xgboost 除了增加了正则项来防止过拟合，还支持列采样的方式来防止过拟合。
36.lightgbm是一个实现gbdt算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。为了解决one-hot编码处理类别特征的不足，lightgbm优化了对类别特征的支持，可以直接输入类别特征，不需要额外的0/1展开。lightgbm采用many-vs-many的切分方式将类别特征分为两个子集，实现类别特征的最优切分。
37.stacking方法是一种分层模型集成框架。以两层为例，首先将数据集分成训练集和测试集，利用训练集训练得到多个初级学习器，然后用初级学习器对测试集进行预测，并将输出值作为下一阶段训练的输入值，最终的标签作为输出值，用于训练次级学习器(通常最后一级使用logistic回归)。由于两次所使用的训练数据不同，因此可以在一定程度上防止过拟合。
38.示例性的，本实施例对初始模型的88个特征指标进行特征选择，风险筛查分值模型准确度示例如下：
39.表1风险筛查分值模型精度示例
[0040][0041]
由上表可得，基于lightgbm进行特征提取筛选得到的44个指标，通过xgboost算法构建的风险筛查分值模型，准确度最高为91.17％。
[0042]
s140、根据所述场地风险筛查得分确定场地风险等级，并输出高风险场地动态名录。
[0043]
不同的风险得分对应不同的风险等级，根据模型输出的场地风险筛查得分可以确定当前场地的风险等级，并输出高风险场地动态名录。
[0044]
本实施例的技术方案，在场地大数据基础上构建基于关键指标的风险筛查模型，采用多种特征提取、特征选择方法提取能够反映场地数据的关联特征信息，识别关键因子，简化场地数据的获取。将场地关键特征集，通过机器学习方法训练得到一种场地大数据风险筛查模型，能够快速进行风险筛查分值计算、风险分级，形成适用于场地环境管理的高风险场地动态名录。
[0045]
本发明还提供一种场地大数据风险筛查装置，包括：
[0046]
预处理模块，用于对获取的原始场地大数据进行预处理，得到预处理后的场地大数据；
[0047]
特征提取模块，用于通过特征提取算法对所述预处理后的场地大数据进行特征提取，以得到场地关键特征集；
[0048]
风险筛查模型构建模块，用于基于所述场地关键特征集，采用模型构建算法构建场地的风险筛查模型，根据所述风险筛查模型确定场地风险筛查得分；
[0049]
风险等级确定模块，用于根据所述场地风险筛查得分确定场地风险等级，并输出高风险场地动态名录。
[0050]
其中，所述特征提取模块的预处理包括：哑变量、二值化、特征抽取、稀疏表示、字典学习或者高维映射。
[0051]
其中，所述风险筛查模型构建模块中的机器学习算法包括：随机森林算法、xgboost、 lightgbm或者stacking。
[0052]
进一步的，所述风险等级确定模块具体用于：根据所述场地风险筛查得分，以及设定的风险得分与风险等级之间的对应关系，确定所述场地风险筛查得分对应的场地风险等级。
[0053]
本发明实施例所提供的一种场地大数据风险筛查装置可执行本发明任意实施例所提供的一种场地大数据风险筛查方法，具备执行方法相应的功能模块和有益效果。
[0054]
注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种场地大数据风险筛查方法与装置与流程

相关文献

最热文献