一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据挖掘控制方法和系统与流程

2022-09-04 04:33:06 来源:中国专利 TAG:

技术特征:
1.一种数据挖掘控制方法,其特征在于,所述方法包括:根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,以使用户根据所述统计结果从所述部分数据中筛选出目标数据;当检测到用户对所述目标数据的加载指令时,调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估;当检测到用户对所述全量数据的加载指令时,调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型;其中,所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的。2.如权利要求1所述的方法,其特征在于,根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,具体为:根据用户发送的抽样指令和预设sql语句框架生成sql查询分析语句;在用户指定的数据源执行所述sql查询分析语句,并根据执行结果获取所述部分数据和所述统计结果。3.如权利要求2所述的方法,其特征在于,所述数据源包括数据库和hdfs,在用户指定的数据源执行所述sql查询分析语句,具体为:若所述数据源为数据库,将所述sql查询分析语句传到数据库执行;若所述数据源为hdfs,通过hadoop连接器将所述sql查询分析语句下推至hdfs中执行。4.如权利要求2所述的方法,其特征在于,在根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果之前,所述方法还包括:根据用户发出的连接指令连接到所述数据源,并从所述数据源获取元数据;根据用户在所述元数据中选择的表、对表的抽样方式和抽样比例触发生成所述抽样指令;其中,所述元数据包括所述全量数据中数据表的名称、字段名称、字段类型和数据的总行数。5.如权利要求1所述的方法,其特征在于,所述统计结果包括数据的统计变量和异常值变量,所述统计变量表征了数据的范围、大小和波动趋势,所述异常值变量表征了数据的异常值和空值情况。6.一种数据挖掘控制系统,其特征在于,所述系统包括:抽样模块,用于根据用户发送的抽样指令从全量数据中抽取部分数据并生成对所述部分数据的统计结果,以使用户根据所述统计结果从所述部分数据中筛选出目标数据;第一清洗分析模块,用于当检测到用户对所述目标数据的加载指令时,调用预设数据清洗分析工具对所述目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对所述初步数据挖掘模型进行评估;第二清洗分析模块,用于当检测到用户对所述全量数据的加载指令时,调用所述预设数据清洗分析工具对所述全量数据按照用户指定的最佳数据清洗和分析流程进行最终数
据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型;其中,所述最佳数据清洗和分析流程是用户在所述初步数据挖掘模型满足预设评估标准时确定的。7.如权利要求6所述的系统,其特征在于,所述抽样模块,具体用于:根据用户发送的抽样指令和预设sql语句框架生成sql查询分析语句;在用户指定的数据源执行所述sql查询分析语句,并根据执行结果获取所述部分数据和所述统计结果。8.如权利要求7所述的系统,其特征在于,所述数据源包括数据库和hdfs,所述抽样模块,还具体用于:若所述数据源为数据库,将所述sql查询分析语句传到数据库执行;若所述数据源为hdfs,通过hadoop连接器将所述sql查询分析语句下推至hdfs中执行。9.如权利要求7所述的系统,其特征在于,所述系统还包括获取模块,用于:根据用户发出的连接指令连接到所述数据源,并从所述数据源获取元数据;根据用户在所述元数据中选择的表、对表的抽样方式和抽样比例触发生成所述抽样指令;其中,所述元数据包括所述全量数据中数据表的名称、字段名称、字段类型和数据的总行数。10.如权利要求7所述的系统,其特征在于,所述统计结果包括数据的统计变量和异常值变量,所述统计变量表征了数据的范围、大小和波动趋势,所述异常值变量表征了数据的异常值和空值情况。

技术总结
本发明公开了一种数据挖掘控制方法和系统,该方法包括:根据用户发送的抽样指令从全量数据中抽取部分数据并生成对部分数据的统计结果,以使用户根据统计结果从部分数据中筛选出目标数据;当检测到用户对目标数据的加载指令时,调用预设数据清洗分析工具对目标数据按照用户指定的数据清洗和分析流程进行数据清洗和数据分析,以使用户根据数据分析的结果建立初步数据挖掘模型并对初步数据挖掘模型进行评估;当检测到用户对全量数据的加载指令时,调用预设数据清洗分析工具对全量数据按照用户指定的最佳数据清洗和分析流程进行最终数据清洗和最终数据分析,以使用户根据最终数据分析的结果建立最终数据挖掘模型,从而提高了数据挖掘的效率。了数据挖掘的效率。了数据挖掘的效率。


技术研发人员:刘睿民 易水寒 陶杨
受保护的技术使用者:北京柏睿数据技术股份有限公司
技术研发日:2022.06.10
技术公布日:2022/9/2
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献