一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种大数据管理方法及系统与流程

2021-11-03 12:43:00 来源:中国专利 TAG:
1.本发明涉及大数据领域,具体涉及一种大数据管理方法及系统。
背景技术
::2.由于计算机、物联网等信息化技术以及传感技术的发展,大数据已经成为当今时代学术界与工业界的热门话题。由于计算机、物联网等信息化技术以及传感技术的发展,数据的产生方式向着融合社会资源、信息系统以及物理资源的三元世界转变,数据规模呈膨胀式发展。综合各个领域,目前积累的数据量已经从tb级上升至pb、eb甚至已经达到zb级别,其数据规模已经远远超出了现有计算机所能够处理的量级。3.由于大数据在数据规模、数据类型、数据价值和数据处理速度方面与传统数据有巨大区别,大数据获取、存储、分析、挖掘以及可视化等技术的变革对现有数据管理技术提出了新的挑战。其中首当其冲的是大数据存储技术的挑战,即大数据管理如何满足持续增长的超大规模数据的高效能存储要求但由于计算机系统架构的限制,大数据存储与管理在性能、能耗等方面均面临着巨大的挑战。在获得了大数据资源以后,如何对获取的大数据资源进行管理是当前面临一个重要问题,也是当前急需解决的课题。技术实现要素:4.针对现有技术存在的问题,本发明提供一种大数据管理方法及系统。5.第一方面,本发明提供了一种大数据管理方法,包括:s101:将不同类型的数据源的大数据进行预处理,获得第一大数据集合;s102:将所述第一大数据集合根据预设数据类型进行数据转换,并将转换后的数据按照预设通信协议上传到存储平台进行汇总得到第二大数据集合;s103:所述存储平台接收所述第二大数据集合,对所述第二大数据集合中的数据进行数据清洗和数据聚类后获得基础大数据集合,对所述基础大数据集合进行存储和管理;s104:通过基础大数据调度模块,使用数据接口对所述存储平台中的基础大数据集合进行数据提取,对外提供数据服务。6.进一步地,所述多种不同类型的数据源的大数据包括结构化数据、非结构化数据以及半结构化数据,所述预处理为抽取处理;进一步地,所述对所述基础大数据集合进行存储和管理还包括:将所述基础大数据集合上传至所述存储平台的安全加密模块;所述安全加密模块接收所述基础大数据集合,对所述基础大数据集合中的数据进行加密,得到加密后的基础大数据集合;将所述加密后的基础大数据集合发送至所述存储平台的存储模块和管理功能模块。7.进一步地,所述对所述基础大数据集合进行存储按照基础大数据集合的数据量选择对应的数据库进行存储;所述对应的数据库包括轻型数据库和大数据存储平台。8.进一步地,大数据存储的轻型数据库包括关系型数据库sql、非关系型数据库nosql以及新型数据库newsql;大数据存储平台包括exadata、infobrignt、yuntable、hana以及云存储平台。9.进一步地,所述对所述第二大数据集合中的数据进行数据清洗和数据聚类,其中聚类方法具体为:s501:对数据清洗后的有效数据进行向量化处理,得到有效数据向量;s502:基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量;s503:根据上述至少一个群组,提取出目标有效数据,获得基础大数据集合。10.第二方面,本技术提供一种大数据管理系统,包括:大数据预处理模块、大数据转换模块、大数据存储管理模块和基础大数据调度模块;所述大数据预处理模块将不同类型的数据源的大数据进行预处理,获得第一大数据集合;所述大数据转换模块:将所述第一大数据集合根据预设数据类型进行数据转换,并将转换后的数据按照预设通信协议上传到存储平台进行汇总得到第二大数据集合;所述大数据存储管理模块包括存储平台,所述存储平台接收所述第二大数据集合,对所述第二大数据集合中的数据进行数据清洗和数据聚类后获得基础大数据集合,对所述基础大数据集合进行存储和管理;通过基础大数据调度模块,使用数据接口对所述存储平台中的基础大数据集合进行数据提取,对外提供数据服务。11.进一步地,所述多种不同类型的数据源的大数据包括结构化数据、非结构化数据以及半结构化数据,所述预处理为抽取处理。12.进一步地,所述对所述基础大数据集合进行存储和管理还包括:将所述基础大数据集合上传至所述存储平台的安全加密模块;所述安全加密模块接收所述基础大数据集合,对所述基础大数据集合中的数据进行加密,得到加密后的基础大数据集合;将所述加密后的基础大数据集合发送至所述存储平台的存储模块和管理功能模块。13.进一步地,所述对所述基础大数据集合进行存储按照基础大数据集合的数据量选择对应的数据库进行存储;所述对应的数据库包括轻型数据库和大数据存储平台。14.进一步地,大数据存储的轻型数据库包括关系型数据库sql、非关系型数据库nosql以及新型数据库newsql;大数据存储平台包括exadata、infobrignt、yuntable、hana以及云存储平台。15.进一步地,所述对所述第二大数据集合中的数据进行数据清洗和数据聚类,包括:对数据清洗后的有效数据进行向量化处理,得到有效数据向量;基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量;根据上述至少一个群组,提取出目标有效数据,获得基础大数据集合。16.本发明的有益效果是:本发明提供了大数据运行基础技术环境,实现不同类型的数据源的大数据的提取,数据管理和对外提供数据服务;基于通信协议和加密算法实现了大数据的安全存储保障,通过对数据的清洗和聚类,能够更好的支持数据量的增长存储需求,从而实现了有效管理大数据。附图说明17.图1为一种大数据管理方法流程图。18.图2为一种大数据管理方法流中数据聚类流程图。19.图3为一种大数据管理系统结构示意图。具体实施方式20.下面将结合本发明的附图,对实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。21.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。22.实施例1本实施例提供一种大数据管理方法,参见图1所示,包括:s101:将不同类型的数据源的大数据进行预处理,获得第一大数据集合。23.不同领域对应的数据采集方法以及工具也不同,如互联网领域中,用于日志采集的大数据获取工具,hadoop的chukwa、cloudera的flume、facebook的scribe、linkedin的kafka等,用于网络数据采集的网络爬虫或网站公开api等方式;物联网领域中,用于数据感知的mems传感器、光纤传感器、无线传感器等。24.在本具体实施例中,数据的预处理为抽取处理。25.需要从不同数据源(如taxonomy,genbank,gene,uniprot,pdb,kegg,pfam,go等)抽取相关的实体和关系,或者从现存知识库(如neuroco‑mmons,bio2pdf)中直接转化数据,这一过程中,随着数据体量、种类、来源等动态变化,需要实时对抽取后的数据集合进行更新。26.s102:将第一大数据集合根据预设数据类型进行数据转换,并将转换后的数据按照预设通信协议上传到存储平台进行汇总得到第二大数据集合。27.获取的大数据按照结构的不同,可分为结构化数据、非结构化数据以及半结构化数据。28.其中结构化数据可用二维表结构来逻辑表达实现,一般采用数据记录存储,而非结构化数据一般采用文件系统存储。29.s103:存储平台接收第二大数据集合,对第二大数据集合中的数据进行数据清洗和数据聚类后获得基础大数据集合,对基础大数据集合进行存储和管理;考虑到原始数据录入至大数据集合中的方式不同,无法保证百分百的录入准确率,这将导致原始数据中可能存在无效数据。30.而由于同一数据类别下的原始数据的数据格式及所要遵循的数据规律往往相同,因而,可以对分类后的上述原始数据进行清洗,所得到的清洗后的数据即为有效数据。31.清洗操作主要为针对属于数字类的数据类别下的原始数据所进行的操作,包括空白数据填充操作、噪声数据去除操作和/或非法数据去除操作。32.针对每个待清洗数据类别,检测上述待清洗数据类别下是否存在空白数据;若存在空白数据,则计算上述待清洗数据类别下的原始数据均值,并将上述原始数据均值填充至上述空白数据处。33.针对每个待清洗数据类别,数据分析系统中已预先设定有所对应的噪声数据区间;随后在需要进行清洗操作时,检测上述待清洗数据类别下是否存在属于对应的噪声数据区间内的数据;若存在噪声数据,则将所噪声数据剔除。34.针对每个待清洗数据类别,数据分析系统中已预先设定有所对应的非法数据区间;随后在需要进行清洗操作时,检测上述待清洗数据类别下是否存在属于对应的非法数据区间内的数据;若存在非法数据,则将上述非法数据剔除。35.s104:通过基础大数据调度模块,使用数据接口对存储平台中的基础大数据集合进行数据提取,对外提供数据服务。36.通过预设的聚类分析模型获得各个有效数据之间的关联关系,并提取出对应的目标有效数据,以减少数据分析时的数据冗余,通常的步骤包括:对上述有效数据进行向量化处理,得到有效数据向量。37.基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量。38.根据上述至少一个群组,提取出目标有效数据。39.在本实施例中,对基础大数据集合进行存储和管理还包括:将基础大数据集合上传至存储平台的安全加密模块。40.安全加密模块接收基础大数据集合,对基础大数据集合中的数据进行加密,得到加密后的基础大数据集合。41.将加密后的基础大数据集合发送至存储平台的存储模块和管理功能模块。42.在本具体实施例中,对基础大数据集合进行存储按照基础大数据集合的数据量选择对应的数据库进行存储;对应的数据库包括轻型数据库和大数据存储平台。43.大量数据的查询、简单查询需要快速返回结果、非结构化数据的应用等,所以用于大数据存储的关系型数据库需要做出不同的改进才能满足大数据的存储以及查询要求。44.存储系统采用dram,ssd,pcm和磁盘共同构成。45.大数据存储的轻型数据库包括关系型数据库sql、非关系型数据库nosql以及新型数据库newsql;大数据存储平台包括exadata、infobrignt、yuntable、hana以及云存储平台。46.对第二大数据集合中的数据进行数据清洗和数据聚类,其中聚类方法参见图2所示,具体为:s501:对数据清洗后的有效数据进行向量化处理,得到有效数据向量;s502:基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量;s503:根据上述至少一个群组,提取出目标有效数据,获得基础大数据集合。47.实施例2本实施例提供一种大数据管理系统,包括:大数据预处理模块、大数据转换模块、大数据存储管理模块和基础大数据调度模块。48.各个模块之间通过网络通信连接,具体连接关系参见图3所示。49.大数据预处理模块将不同类型的数据源的大数据进行预处理,获得第一大数据集合。50.不同领域对应的数据采集方法以及工具也不同,如互联网领域中,用于日志采集的大数据获取工具,hadoop的chukwa、cloudera的flume、facebook的scribe、linkedin的kafka等,用于网络数据采集的网络爬虫或网站公开api等方式;物联网领域中,用于数据感知的mems传感器、光纤传感器、无线传感器等。51.在本具体实施例中,数据的预处理为抽取处理。52.需要从不同数据源(如taxonomy,genbank,gene,uniprot,pdb,kegg,pfam,go等)抽取相关的实体和关系,或者从现存知识库(如neuroco‑mmons,bio2pdf)中直接转化数据,这一过程中,随着数据体量、种类、来源等动态变化,需要实时对抽取后的数据集合进行更新。53.大数据转换模块:将第一大数据集合根据预设数据类型进行数据转换,并将转换后的数据按照预设通信协议上传到存储平台进行汇总得到第二大数据集合。54.获取的大数据按照结构的不同,可分为结构化数据、非结构化数据以及半结构化数据。55.其中结构化数据可用二维表结构来逻辑表达实现,一般采用数据记录存储,而非结构化数据一般采用文件系统存储。56.大数据存储管理模块包括存储平台,存储平台接收第二大数据集合,对第二大数据集合中的数据进行数据清洗和数据聚类后获得基础大数据集合,对基础大数据集合进行存储和管理。57.考虑到原始数据录入至大数据集合中的方式不同,无法保证百分百的录入准确率,这将导致原始数据中可能存在无效数据。58.而由于同一数据类别下的原始数据的数据格式及所要遵循的数据规律往往相同,因而,可以对分类后的上述原始数据进行清洗,所得到的清洗后的数据即为有效数据。59.清洗操作主要为针对属于数字类的数据类别下的原始数据所进行的操作,包括空白数据填充操作、噪声数据去除操作和/或非法数据去除操作。60.针对每个待清洗数据类别,检测上述待清洗数据类别下是否存在空白数据;若存在空白数据,则计算上述待清洗数据类别下的原始数据均值,并将上述原始数据均值填充至上述空白数据处。61.针对每个待清洗数据类别,数据分析系统中已预先设定有所对应的噪声数据区间。62.随后在需要进行清洗操作时,检测上述待清洗数据类别下是否存在属于对应的噪声数据区间内的数据;若存在噪声数据,则将所噪声数据剔除。63.针对每个待清洗数据类别,数据分析系统中已预先设定有所对应的非法数据区间;随后在需要进行清洗操作时,检测上述待清洗数据类别下是否存在属于对应的非法数据区间内的数据;若存在非法数据,则将上述非法数据剔除。64.通过基础大数据调度模块,使用数据接口对存储平台中的基础大数据集合进行数据提取,对外提供数据服务。65.通过预设的聚类分析模型获得各个有效数据之间的关联关系,并提取出对应的目标有效数据,以减少数据分析时的数据冗余,通常的步骤包括:对上述有效数据进行向量化处理,得到有效数据向量。66.基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量。67.根据上述至少一个群组,提取出目标有效数据。68.在本实施例中,对基础大数据集合进行存储和管理还包括:将基础大数据集合上传至存储平台的安全加密模块。69.安全加密模块接收基础大数据集合,对基础大数据集合中的数据进行加密,得到加密后的基础大数据集合。70.将加密后的基础大数据集合发送至存储平台的存储模块和管理功能模块。71.在本具体实施例中,对基础大数据集合进行存储按照基础大数据集合的数据量选择对应的数据库进行存储;对应的数据库包括轻型数据库和大数据存储平台。72.大量数据的查询、简单查询需要快速返回结果、非结构化数据的应用等,所以用于大数据存储的关系型数据库需要做出不同的改进才能满足大数据的存储以及查询要求。73.存储系统采用dram,ssd,pcm和磁盘共同构成。74.大数据存储的轻型数据库包括关系型数据库sql、非关系型数据库nosql以及新型数据库newsql;大数据存储平台包括exadata、infobrignt、yuntable、hana以及云存储平台。75.对第二大数据集合中的数据进行数据清洗和数据聚类,其中聚类包括:对数据清洗后的有效数据进行向量化处理,得到有效数据向量;基于预设的聚类算法构建聚类分析模型,并将上述有效数据向量输入至上述聚类分析模型中,得到至少一个群组,每个群组包括至少一个有效数据向量;根据上述至少一个群组,提取出目标有效数据,获得基础大数据集合。76.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。77.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。78.此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献