一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种大数据挖掘处理方法及装置与流程

2022-03-02 03:42:02 来源:中国专利 TAG:


1.本发明属于大数据挖掘技术领域,具体涉及一种大数据挖掘处理方法及装置。


背景技术:

2.数据挖掘就是在数量大、信息不完全、信息不清晰的数据中,提炼出对人类有用的信息和知识的过程,数据挖掘主要操作是在大量数据中利用分析工具发现数据与模型间关系,在这个过程中它可以帮助使用者寻找数据与数据之间的联系,使模糊的因素变得明显,所以数据挖掘被认为是在这个信息时代解决信息贫乏的一种有效途径;
3.大数据和数据挖掘都是朝着对数据进行挖掘解析,提取有实用价值的信息为目的,虽然从表面上看,两者区别在于大上,但深入就会发现,数据挖掘的对象并不只是用于少量数据,在对海量数据的处理上也同样适用,传统的数据处理方法是人工数据处理,虽然这种方法很容易实现,但是数据处理时不够全面而且效率较低。
4.为此,我们提出一种大数据挖掘处理方法及装置来解决现有技术中存在的问题,使得数据处理得更加全面,并且提高数据处理效率。


技术实现要素:

5.本发明的目的在于提供一种大数据挖掘处理方法及装置,以解决上述背景技术中提出现有技术中数据处理时不够全面而且效率较低的问题。
6.为实现上述目的,本发明采用了如下技术方案:一种大数据挖掘处理方法,包括以下步骤:
7.s1、数据采集,使用数据采集模块通过手动采集和借助接口自动采集的方法将采集到的数据存放在数据挖掘库内,通过预先设定的种子链接集,利用htrp协议访问并下载页面,再利用各种技术对页面与主题之间的联系进行分析并提取出待访问的链接以对数据进行采集,然后建立数据挖掘库,将采集到的数据存放在数据挖掘库内,最后在挖掘数据库中对数据对象的特征进行抽取,对数据内容进行分解,以组成数据的特征集合对数据进行显示;
8.s2、数据预处理,使用数据处理模块从数据挖掘库中提取一定范围的数据进行预处理,然后提取将预处理后的数据的行为特征向量,并根据行为特征向量对数据进行索引分析得到目标数据集,根据数据的功能类型和数据特点对目标数据集进行挖掘,然后对挖掘的结果进行解释和评价,最后将生成的报告通过中央处理器和数据分析模块发送至用户端;
9.s3、数据分类,数据处理模块对预处理后的数据进行分类,首先按照预处理数据对象的共同特点按照一定的分类模式将其划分为不同的类别,然后通过分类将数据项映射到某个给定的类别中,再针对每个类别中的数据相似性和差异性将该类别中的数据分为几个类型;
10.s4、数据分析,数据分类完成后,数据处理模块将数据进行去噪和归一化处理,然
后结合sql查询、交互查询和搜索查询的方式并利用数据挖掘软件将数据返回至数据挖掘库内部进行数据挖掘,并得到挖掘结果;
11.s5、最终生成,数据分析模块将挖掘结果进行建模,数据分析模块先用一部分数据结果建立模型,然后用剩下的数据来测试和验证该模型,并生结果报告发送至用户端。
12.优选的,所述s1中在使用组成数据的特征集合对数据进行显示后,需要对数据的相似度进行计算,根据数据特征重合的比例来确定是否出现重复数据。
13.优选的,所述s2中预处理步骤包括:
14.s21、检查一定范围的数据中各个数据的完整性和一致性;
15.s22、将复杂的数据转化为单一的或者便于处理的数据构型;
16.s23、对数据过滤去噪以得到有用的数据。
17.优选的,所述s3中数据分类模式包括关联规则法、神经网络方法和序列模式发现方法。
18.优选的,所述s4中数据挖掘的方法包括机器学习方法、统计方法、神经网络方法和数据库方法。
19.优选的,所述s5中需要将剩下来的数据再分出一部分独立的数据集来验证模型的准确性,并且数据分析模块会根据数据挖掘的结果以及图像化的模型对数据进行预测性分析,然后同步发送至用户端。
20.根据一种大数据挖掘处理方法,提出一种大数据挖掘处理装置。
21.一种大数据挖掘处理装置,包括处理单元、中央处理器和数据分析模块,所述处理单元包括数据采集模块、信息监控模块、数据挖掘库和数据处理模块;
22.所述信息监控模块与数据采集模块通讯连接,所述数据采集模块与数据挖掘库通讯连接,所述数据挖掘库与数据处理模块通讯连接,所述中央模块分别与数据采集模块、信息监控模块、数据挖掘库和数据处理模块通讯连接,所述数据分析模块与中央处理器通讯连接。
23.优选的,所述数据采集模块用于从海量的网页中提取一定范围内的数据,并且通过预先设定的种子链接集,利用htrp协议访问并下载页面,再利用各种技术对页面与主题之间的联系进行分析并提取出待访问的链接以对数据进行采集;
24.所述信息监控模块用于在数据采集的过程中明确数据采集的时间频率、采集的关键信息点、控制图分析类型、控制指标和异常处理信息;
25.所述数据挖掘库是对数据进行存放、分类、合并、整合和数据挖掘的地点;
26.所述数据处理模块用于从数据挖掘库中把数据提取出来,然后经过etl 组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘;
27.所述数据分析模块用于根据挖掘所得的数据进行建模,并且在模型建立完成后对模型的价值进行评价、结束,然后将模型提供给分析人员作参考。
28.本发明的技术效果和优点:本发明提出的一种大数据挖掘处理方法及装置,与现有技术相比,具有以下优点:
29.通过对数据挖掘库内部的数据进行预处理,在数据挖掘处理时能够按照分类顺序在数据挖掘库内部依次对数据进行挖掘处理,而且在对预处理后的数据再次进行分类,使得数据能够按照一定的分类模式划分为不同的类别,不仅全面覆盖了所有信息,使得在数
据挖掘处理时能够照顾到全部数据,而且提高了数据挖掘处理的效率。
附图说明
30.图1为本发明的系统框图;
31.图2为本发明的方法步骤图;
32.图3为本发明的各模块结构示意图;
33.图4为本发明s2中预处理的方法步骤图。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.本发明提供了如图1和图4所示的一种大数据挖掘处理方法,包括以下步骤:
36.s1、数据采集,使用数据采集模块通过手动采集和借助接口自动采集的方法将采集到的数据存放在数据挖掘库内,通过预先设定的种子链接集,利用htrp协议访问并下载页面,再利用各种技术对页面与主题之间的联系进行分析并提取出待访问的链接以对数据进行采集,然后建立数据挖掘库,将采集到的数据存放在数据挖掘库内,最后在挖掘数据库中对数据对象的特征进行抽取,对数据内容进行分解,以组成数据的特征集合对数据进行显示,在使用组成数据的特征集合对数据进行显示后,需要对数据的相似度进行计算,根据数据特征重合的比例来确定是否出现重复数据;
37.s2、数据预处理,使用数据处理模块从数据挖掘库中提取一定范围的数据进行预处理,然后提取将预处理后的数据的行为特征向量,并根据行为特征向量对数据进行索引分析得到目标数据集,根据数据的功能类型和数据特点对目标数据集进行挖掘,然后对挖掘的结果进行解释和评价,最后将生成的报告通过中央处理器和数据分析模块发送至用户端,预处理步骤包括:
38.s21、检查一定范围的数据中各个数据的完整性和一致性;
39.s22、将复杂的数据转化为单一的或者便于处理的数据构型;
40.s23、对数据过滤去噪以得到有用的数据;
41.s3、数据分类,数据处理模块对预处理后的数据进行分类,首先按照预处理数据对象的共同特点按照一定的分类模式将其划分为不同的类别,然后通过分类将数据项映射到某个给定的类别中,再针对每个类别中的数据相似性和差异性将该类别中的数据分为几个类型,数据分类模式包括关联规则法、神经网络方法和序列模式发现方法;
42.s4、数据分析,数据分类完成后,数据处理模块将数据进行去噪和归一化处理,然后结合sql查询、交互查询和搜索查询的方式并利用数据挖掘软件将数据返回至数据挖掘库内部进行数据挖掘,并得到挖掘结果,数据挖掘的方法包括机器学习方法、统计方法、神经网络方法和数据库方法;
43.s5、最终生成,数据分析模块将挖掘结果进行建模,数据分析模块先用一部分数据
结果建立模型,然后用剩下的数据来测试和验证该模型,并生结果报告发送至用户端,并且需要将剩下来的数据再分出一部分独立的数据集来验证模型的准确性,并且数据分析模块会根据数据挖掘的结果以及图像化的模型对数据进行预测性分析,然后同步发送至用户端。
44.本发明提供了如图2和图3所示的一种大数据挖掘处理装置,包括处理单元、中央处理器和数据分析模块,处理单元包括数据采集模块、信息监控模块、数据挖掘库和数据处理模块;
45.信息监控模块与数据采集模块通讯连接,数据采集模块与数据挖掘库通讯连接,数据挖掘库与数据处理模块通讯连接,中央模块分别与数据采集模块、信息监控模块、数据挖掘库和数据处理模块通讯连接,数据分析模块与中央处理器通讯连接。
46.数据采集模块用于从海量的网页中提取一定范围内的数据,并且通过预先设定的种子链接集,利用htrp协议访问并下载页面,再利用各种技术对页面与主题之间的联系进行分析并提取出待访问的链接以对数据进行采集;
47.信息监控模块用于在数据采集的过程中明确数据采集的时间频率、采集的关键信息点、控制图分析类型、控制指标和异常处理信息;
48.数据挖掘库是对数据进行存放、分类、合并、整合和数据挖掘的地点;
49.数据处理模块用于从数据挖掘库中把数据提取出来,然后经过etl组织成适合分析挖掘算法使用宽表,然后利用数据挖掘软件进行挖掘;
50.数据分析模块用于根据挖掘所得的数据进行建模,并且在模型建立完成后对模型的价值进行评价、结束,然后将模型提供给分析人员作参考。
51.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献