一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于数据生命周期的智能识别优化系统的制作方法

2022-12-06 19:43:55 来源:中国专利 TAG:


1.本发明涉及计算机存储领域,更具体的说,它涉及一种用于数据生命周期的智能识别优化系统。


背景技术:

2.在企业大数据应用过程中,hdfs等数据的存储占用空间越来越大,导致运行效率变低,同时企业无法全面掌控所有数据的使用情况,并且对于数据优化同样会遇到很多困难,无从下手。
3.因此在随着企业大数据集群使用时间越来越久,数据越来越多。不仅使内存占用越来越大,读写的耗时增加,还影响集群的扩展,降低运行效率。那么,如何了解数据文件的整体情况,如何精确找到需要优化的目录数据文件,如何治理这些数据等等就显得尤为重要。


技术实现要素:

4.本发明克服了现有技术的不足,提供了能了解各个目录乃至文件的健康情况,并进行优化存储的一种用于数据生命周期的智能识别优化系统。
5.本发明的技术方案如下:
6.一种用于数据生命周期的智能识别优化系统,包括存储管理模块和策略管理模块;
7.存储管理包括分析模块和治理模块,分析模块通过分析文件系统的小文件数量和冷数据容量,以及存储节点的健康程度来评估系统的存储健康分;治理模块则根据健康分指定相应的存储策略,通过迁移工具实现优化存储,再通过统计图表全面掌握存储和治理情况;
8.策略管理模块支持对分层存储策略、分析策略和压缩策略进行管理,用户为目录设置分层存储策略和压缩策略来优化文件存储;为小文件、冷数据设置分析策略帮助进行数据分析;
9.其中,整体技术框架的底层包括mysql、hive和hdfs,通过hive client连接hive、webhdfs和dfsadmin来访问hdfs,以获取hive和hdfs的数据,并使用mybatis与mysql交互,用于存储数据;
10.具体步骤如下:
11.101)元数据获取步骤:采用分析fsimage的方式来获取hdfs元数据;
12.102)元数据索引步骤:将步骤101)获取到的元数据文件进行解析,构建成多叉树的结构;
13.103)数据分析步骤:进行统计目录下所有文件个数及规模和不同数据类型的个数及规模,进行总量统计、排行分析、占比分析,从而得到存储健康分;
14.104)数据策略配置步骤:包括分层存储策略、分析策略和压缩策略;分层存储策略
即异构存储策略,根据数据访问的热度将数据存储在不同的存储介质上,从而使得hdfs的存储能够灵活高效地应对各种应用场景;分析策略通过设置用户对小文件的定义、小文件个数阈值的设置,设置冷数据的定义和冷数据总量的阈值,设置磁盘容量的阈值,设置系统执行分析的调度时间阈值;压缩策略设置纠删码,实现查看当前可选的所有纠删码,以保障数据迁移,并查看和记录迁移日志。
15.进一步的,整体技术框架的中间层采用schedule实现周期调度,构建多叉树方便数据分析;整体技术框架的上层提供对外api调用接口和可视化ui操作界面。
16.进一步的,元数据包括:path-目录路径、replication-备份数、modificationtime-最后修改时间、accesstime-最后访问时间、preferredblocksize-首选块大小、blockscount-块数、filesize-文件大小、nsquota-名称配额、dsquota-空间配额、permission-权限、username-用户和groupname-用户组;
17.具体通过获取fsimage,再解析fsimage为指定格式的元数据,最后输出oiv文件即可。
18.进一步的,数据分析包括小文件分析、冷数据分析、热数据分析、表分析、损坏块分析和磁盘内存分析:
19.小文件分析用于根据策略设置,统计小文件个数及规模。
20.冷数据分析用于根据策略设置,统计冷数据个数及规模。
21.热数据分析用于根据策略设置,统计热数据个数及规模。
22.表分析用于根据策略设置,统计数据库下所有表小文件个数及规模。
23.损坏块分析用于统计损坏的文件块数量。
24.磁盘内存分析用于统计磁盘的总量及使用情况。
25.进一步的,存储健康分的评分规则包括磁盘得分、小文件得分、冷数据得分和文件块得分;
26.磁盘得分中磁盘总分为30,假设节点个数为n,则每个节点分数为分,当有w1个节点磁盘使用量超过阈值的时候,则扣除分;假设节点有m块磁盘,则每块磁盘的分值为分,当磁盘总存储未超过阈值,单个磁盘超过阈值时扣除该分值。w2块磁盘超过阈值,则扣除分;
27.小文件得分中小文件总分为30,为小文件阈值个数设置为t,当小文件个数x超出阈值1-10%时,扣除1分,超出11-20%时,再扣除1分,扣完为止;
28.冷数据得分中冷数据总分为30,设定有yg的冷数据未处理,即没有设置分层存储策略、纠删码策略的数据,每100g,扣1分,总分扣完为止;
29.文件块得分中文件块总分为10,其设定损坏了z个文件块,则每损坏10个,即损坏1-10,扣一分,损坏11-20,则再扣一分,总分扣完为止;
30.因此,由上述所得存储健康分s的计算公式如下:
[0031][0032]
其中,每一项扣分数均不能超过各项总分数。
[0033]
进一步的,hdfs支持多种常用存储类型,包括:
[0034]
archive:高存储密度但耗电较少的存储介质,用来存储冷数据;
[0035]
disk:磁盘介质,这是hdfs默认的存储介质;
[0036]
ssd:固态硬盘存储介质;
[0037]
ram_disk:数据被写入内存中,同时会往该存储介质中再异步写一份。
[0038]
进一步的,分层策略包括provided、cold、warm、hot、one_ssd、all_ssd和lazy_persist;
[0039]
provided为外部hdfs存储,存储介质为disk;
[0040]
cold为所有副本都保存在归档存储上,存储介质为archive;
[0041]
warm采用一个副本保存在磁盘上,其余副本保存在归档存储上,存储介质为disk和archive;
[0042]
hot采用所有副本保存在磁盘中,且其为默认的存储策略,存储介质为disk;
[0043]
one_ssd采用一个副本保存在ssd中,其余副本保存在磁盘中,存储介质为ssd和disk;
[0044]
all_ssd采用所有副本都保存在ssd中,存储介质为ssd;
[0045]
lazy_persist采用一个副本保存在内存ram_disk中,其余副本保存在磁盘中ram_disk,存储介质为disk。
[0046]
本发明的优点在于:
[0047]
本发明不仅能获取到系统整体的健康情况,或具体某个目录的情况还可以了解各个目录乃至文件的健康情况。本发明可以准确知道具体小文件的分布位置,统计小文件所在最多的文件目录。本发明针对数据可进行治理,通过迁移工具实现优化存储。本发明根据配置的数据分析策略,可智能分析出冷热数据,并进行统计展示。本发明支持hive库表的统计分析与治理。
附图说明
[0048]
图1为本发明的产品架构图;
[0049]
图2为本发明的操作流程图;
[0050]
图3为本发明的技术框架图;
[0051]
图4为本发明的技术流程图;
[0052]
图5为本发明的元数据获取流程图;
[0053]
图6为本发明的元数据索引设计图;
[0054]
图7为本发明的存储健康评分结构图。
具体实施方式
[0055]
下面结合附图和具体实施方式对本发明进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,本方案中未明确具体描述的部分均可采用常规技术手段实现。
[0056]
对可能涉及到的名词进行解释说明,具体如下:
[0057]
hdfs为hadoop分布式文件系统。hive为基于hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。小文件指文件大小明显小于hdfs上块(block)大小(默认64mb,在hadoop2.x中默认为128mb)的文件。冷数据指活动不频繁、不会被经常访问甚至永远不会被访问,但仍然需要长期保留的数据。热数据指很热门、频繁被访问的数据。fsimage为hdfs中存储着包含了整个hdfs文件系统的所有目录和文件的信息的文件,在hdfs启动时加载。oiv为一种文件格式,全称是offline image viewer。纠删码即erasurecoding纠删码技术简称ec,是一种数据保护技术。可以代替多副本的方式,使用更少的存储保证相同级别的容错。
[0058]
如图1至图7所述,一种用于数据生命周期的智能识别优化系统,包括存储管理模块和策略管理模块,主要支持对文件(hdfs)和表(hive)进行存储、治理、分析和优化。
[0059]
存储管理包括分析模块和治理模块,分析模块通过分析文件系统的小文件数量和冷数据容量,以及存储节点的健康程度来评估系统的存储健康分。治理模块则根据健康分指定相应的存储策略,通过迁移工具实现优化存储,再通过统计图表全面掌握存储和治理情况。
[0060]
策略管理模块支持对分层存储策略、分析策略和压缩策略进行管理,用户为目录设置分层存储策略和压缩策略来优化文件存储。为小文件、冷数据设置分析策略帮助进行数据分析。
[0061]
即整体上通过获取fsimage方式构建本地缓存,客户端下发分析请求,根据分析结果下发策略配置,最后通过数据迁移使下发的策略生效。
[0062]
其中,整体技术框架的底层包括mysql、hive和hdfs,通过hive client连接hive、webhdfs和dfsadmin来访问hdfs,以获取hive和hdfs的数据,并使用mybatis与mysql交互,用于存储数据。整体技术框架的中间层采用schedule实现周期调度,构建多叉树方便数据分析。整体技术框架的上层提供对外api调用接口和可视化ui操作界面。
[0063]
具体步骤如下:
[0064]
101)元数据获取步骤:采用分析fsimage的方式来获取hdfs元数据。元数据包括:path-目录路径、replication-备份数、modificationtime-最后修改时间、accesstime-最后访问时间、preferredblocksize-首选块大小(byte)、blockscount-块数、filesize-文件大小(byte)、nsquota-名称配额(限制指定目录下允许的文件和目录的数量)、dsquota-空间配额(限制该目录下允许的字节数)、permission-权限、username-用户和groupname-用户组。
[0065]
具体通过获取fsimage,再解析fsimage为指定格式的元数据,最后输出oiv文件即可。
[0066]
102)元数据索引步骤:将步骤101)获取到的元数据文件进行解析,构建成多叉树的结构。
[0067]
103)数据分析步骤:进行统计目录下所有文件个数及规模和不同数据类型的个数
及规模,进行总量统计、排行分析、占比分析,从而得到存储健康分。具体数据分析包括小文件分析、冷数据分析、热数据分析、表分析、损坏块分析和磁盘内存分析:
[0068]
小文件分析用于根据策略设置,统计小文件个数及规模。
[0069]
冷数据分析用于根据策略设置,统计冷数据个数及规模。
[0070]
热数据分析用于根据策略设置,统计热数据个数及规模。
[0071]
表分析用于根据策略设置,统计数据库下所有表小文件个数及规模。
[0072]
损坏块分析用于统计损坏的文件块数量。
[0073]
磁盘内存分析用于统计磁盘的总量及使用情况。
[0074]
存储健康分的评分规则包括磁盘得分、小文件得分、冷数据得分和文件块得分。
[0075]
磁盘得分中磁盘总分为30,假设节点个数为n,则每个节点分数为分,当有w1个节点磁盘使用量超过阈值的时候,则扣除分。假设节点有m块磁盘,则每块磁盘的分值为分,当磁盘总存储未超过阈值,单个磁盘超过阈值时扣除该分值。w2块磁盘超过阈值,则扣除分。
[0076]
小文件得分中小文件总分为30,为小文件阈值个数设置为t,当小文件个数x超出阈值1-10%时,扣除1分,超出11-20%时,再扣除1分,扣完为止。
[0077]
冷数据得分中冷数据总分为30,设定有yg的冷数据未处理,即没有设置分层存储策略、纠删码策略的数据,每100g,扣1分,总分扣完为止。
[0078]
文件块得分中文件块总分为10,其设定损坏了z个文件块,则每损坏10个,即损坏1-10,扣一分,损坏11-20,则再扣一分,总分扣完为止。
[0079]
因此,由上述所得存储健康分s的计算公式如下:
[0080][0081]
其中,每一项扣分数均不能超过各项总分数。
[0082]
104)数据策略配置步骤:包括分层存储策略、分析策略和压缩策略。
[0083]
分层存储策略即异构存储策略,根据数据访问的热度将数据存储在不同的存储介质上,从而使得hdfs的存储能够灵活高效地应对各种应用场景。实现数据分层的基础是建立在hdfs支持异构存储及配置异构存储策略的基础之上的。
[0084]
hdfs支持多种常用存储类型,包括:
[0085]
archive:高存储密度但耗电较少的存储介质,用来存储冷数据。
[0086]
disk:磁盘介质,这是hdfs默认的存储介质。
[0087]
ssd:固态硬盘存储介质。
[0088]
ram_disk:数据被写入内存中,同时会往该存储介质中再异步写一份。
[0089]
进一步的,分层策略包括provided、cold、warm、hot、one_ssd、all_ssd和lazy_
persist。
[0090]
provided为外部hdfs存储,存储介质为disk。
[0091]
cold为所有副本都保存在归档存储上,存储介质为archive。
[0092]
warm采用一个副本保存在磁盘上,其余副本保存在归档存储上,存储介质为disk和archive。
[0093]
hot采用所有副本保存在磁盘中,且其为默认的存储策略,存储介质为disk。
[0094]
one_ssd采用一个副本保存在ssd中,其余副本保存在磁盘中,存储介质为ssd和disk。
[0095]
all_ssd采用所有副本都保存在ssd中,存储介质为ssd。
[0096]
lazy_persist采用一个副本保存在内存ram_disk中,其余副本保存在磁盘中ram_disk,存储介质为disk。
[0097]
分析策略通过设置用户对小文件的定义、小文件个数阈值的设置,设置冷数据的定义和冷数据总量的阈值,设置磁盘容量的阈值,设置系统执行分析的调度时间阈值。
[0098]
压缩策略设置纠删码,实现查看当前可选的所有纠删码,以保障数据迁移,并查看和记录迁移日志。具体纠删码包括:rs-10-4-1024k、rs-3-2-1024k、rs-6-3-1024k、rs-legacy-6-3-1024k、xor-2-1-1024k。
[0099]
综上所述,本发明的智能识别中包含小文件、冷数据的数据全生命周期。根据对数据的统计与分析评定存储健康分数,智能对数据进行治理、压缩及迁移。可视化操作界面,帮助用户清晰直观地管理并治理数据,提供集群统计信息、数据分析、数据治理、数据迁移、文件管理等api调用接口。
[0100]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献