一种用于数据生命周期的智能识别优化系统的制作方法

2022-12-06 19:43:55 来源：中国专利 TAG：

1.本发明涉及计算机存储领域，更具体的说，它涉及一种用于数据生命周期的智能识别优化系统。

背景技术：

2.在企业大数据应用过程中，hdfs等数据的存储占用空间越来越大，导致运行效率变低，同时企业无法全面掌控所有数据的使用情况，并且对于数据优化同样会遇到很多困难，无从下手。
3.因此在随着企业大数据集群使用时间越来越久，数据越来越多。不仅使内存占用越来越大，读写的耗时增加，还影响集群的扩展，降低运行效率。那么，如何了解数据文件的整体情况，如何精确找到需要优化的目录数据文件，如何治理这些数据等等就显得尤为重要。

技术实现要素：

4.本发明克服了现有技术的不足，提供了能了解各个目录乃至文件的健康情况，并进行优化存储的一种用于数据生命周期的智能识别优化系统。
5.本发明的技术方案如下：
6.一种用于数据生命周期的智能识别优化系统，包括存储管理模块和策略管理模块；
7.存储管理包括分析模块和治理模块，分析模块通过分析文件系统的小文件数量和冷数据容量，以及存储节点的健康程度来评估系统的存储健康分；治理模块则根据健康分指定相应的存储策略，通过迁移工具实现优化存储，再通过统计图表全面掌握存储和治理情况；
8.策略管理模块支持对分层存储策略、分析策略和压缩策略进行管理，用户为目录设置分层存储策略和压缩策略来优化文件存储；为小文件、冷数据设置分析策略帮助进行数据分析；
9.其中，整体技术框架的底层包括mysql、hive和hdfs，通过hive client连接hive、webhdfs和dfsadmin来访问hdfs，以获取hive和hdfs的数据，并使用mybatis与mysql交互，用于存储数据；
10.具体步骤如下：
11.101)元数据获取步骤：采用分析fsimage的方式来获取hdfs元数据；
12.102)元数据索引步骤：将步骤101)获取到的元数据文件进行解析，构建成多叉树的结构；
13.103)数据分析步骤：进行统计目录下所有文件个数及规模和不同数据类型的个数及规模，进行总量统计、排行分析、占比分析，从而得到存储健康分；
14.104)数据策略配置步骤：包括分层存储策略、分析策略和压缩策略；分层存储策略
即异构存储策略，根据数据访问的热度将数据存储在不同的存储介质上，从而使得hdfs的存储能够灵活高效地应对各种应用场景；分析策略通过设置用户对小文件的定义、小文件个数阈值的设置，设置冷数据的定义和冷数据总量的阈值，设置磁盘容量的阈值，设置系统执行分析的调度时间阈值；压缩策略设置纠删码，实现查看当前可选的所有纠删码，以保障数据迁移，并查看和记录迁移日志。
15.进一步的，整体技术框架的中间层采用schedule实现周期调度，构建多叉树方便数据分析；整体技术框架的上层提供对外api调用接口和可视化ui操作界面。
16.进一步的，元数据包括：path-目录路径、replication-备份数、modificationtime-最后修改时间、accesstime-最后访问时间、preferredblocksize-首选块大小、blockscount-块数、filesize-文件大小、nsquota-名称配额、dsquota-空间配额、permission-权限、username-用户和groupname-用户组；
17.具体通过获取fsimage，再解析fsimage为指定格式的元数据，最后输出oiv文件即可。
18.进一步的，数据分析包括小文件分析、冷数据分析、热数据分析、表分析、损坏块分析和磁盘内存分析：
19.小文件分析用于根据策略设置，统计小文件个数及规模。
20.冷数据分析用于根据策略设置，统计冷数据个数及规模。
21.热数据分析用于根据策略设置，统计热数据个数及规模。
22.表分析用于根据策略设置，统计数据库下所有表小文件个数及规模。
23.损坏块分析用于统计损坏的文件块数量。
24.磁盘内存分析用于统计磁盘的总量及使用情况。
25.进一步的，存储健康分的评分规则包括磁盘得分、小文件得分、冷数据得分和文件块得分；
26.磁盘得分中磁盘总分为30，假设节点个数为n，则每个节点分数为分，当有w1个节点磁盘使用量超过阈值的时候，则扣除分；假设节点有m块磁盘，则每块磁盘的分值为分，当磁盘总存储未超过阈值，单个磁盘超过阈值时扣除该分值。w2块磁盘超过阈值，则扣除分；
27.小文件得分中小文件总分为30，为小文件阈值个数设置为t，当小文件个数x超出阈值1-10％时，扣除1分，超出11-20％时，再扣除1分，扣完为止；
28.冷数据得分中冷数据总分为30，设定有yg的冷数据未处理，即没有设置分层存储策略、纠删码策略的数据，每100g，扣1分，总分扣完为止；
29.文件块得分中文件块总分为10，其设定损坏了z个文件块，则每损坏10个，即损坏1-10，扣一分，损坏11-20，则再扣一分，总分扣完为止；
30.因此，由上述所得存储健康分s的计算公式如下：
[0031][0032]
其中，每一项扣分数均不能超过各项总分数。
[0033]
进一步的，hdfs支持多种常用存储类型，包括:
[0034]
archive：高存储密度但耗电较少的存储介质，用来存储冷数据；
[0035]
disk：磁盘介质，这是hdfs默认的存储介质；
[0036]
ssd：固态硬盘存储介质；
[0037]
ram_disk：数据被写入内存中，同时会往该存储介质中再异步写一份。
[0038]
进一步的，分层策略包括provided、cold、warm、hot、one_ssd、all_ssd和lazy_persist；
[0039]
provided为外部hdfs存储，存储介质为disk；
[0040]
cold为所有副本都保存在归档存储上，存储介质为archive；
[0041]
warm采用一个副本保存在磁盘上，其余副本保存在归档存储上，存储介质为disk和archive；
[0042]
hot采用所有副本保存在磁盘中，且其为默认的存储策略，存储介质为disk；
[0043]
one_ssd采用一个副本保存在ssd中，其余副本保存在磁盘中，存储介质为ssd和disk；
[0044]
all_ssd采用所有副本都保存在ssd中，存储介质为ssd；
[0045]
lazy_persist采用一个副本保存在内存ram_disk中，其余副本保存在磁盘中ram_disk，存储介质为disk。
[0046]
本发明的优点在于：
[0047]
本发明不仅能获取到系统整体的健康情况，或具体某个目录的情况还可以了解各个目录乃至文件的健康情况。本发明可以准确知道具体小文件的分布位置，统计小文件所在最多的文件目录。本发明针对数据可进行治理，通过迁移工具实现优化存储。本发明根据配置的数据分析策略，可智能分析出冷热数据，并进行统计展示。本发明支持hive库表的统计分析与治理。
附图说明
[0048]
图1为本发明的产品架构图；
[0049]
图2为本发明的操作流程图；
[0050]
图3为本发明的技术框架图；
[0051]
图4为本发明的技术流程图；
[0052]
图5为本发明的元数据获取流程图；
[0053]
图6为本发明的元数据索引设计图；
[0054]
图7为本发明的存储健康评分结构图。
具体实施方式
[0055]
下面结合附图和具体实施方式对本发明进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，本方案中未明确具体描述的部分均可采用常规技术手段实现。
[0056]
对可能涉及到的名词进行解释说明，具体如下：
[0057]
hdfs为hadoop分布式文件系统。hive为基于hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。小文件指文件大小明显小于hdfs上块(block)大小(默认64mb,在hadoop2.x中默认为128mb)的文件。冷数据指活动不频繁、不会被经常访问甚至永远不会被访问,但仍然需要长期保留的数据。热数据指很热门、频繁被访问的数据。fsimage为hdfs中存储着包含了整个hdfs文件系统的所有目录和文件的信息的文件，在hdfs启动时加载。oiv为一种文件格式，全称是offline image viewer。纠删码即erasurecoding纠删码技术简称ec，是一种数据保护技术。可以代替多副本的方式，使用更少的存储保证相同级别的容错。
[0058]
如图1至图7所述，一种用于数据生命周期的智能识别优化系统，包括存储管理模块和策略管理模块，主要支持对文件(hdfs)和表(hive)进行存储、治理、分析和优化。
[0059]
存储管理包括分析模块和治理模块，分析模块通过分析文件系统的小文件数量和冷数据容量，以及存储节点的健康程度来评估系统的存储健康分。治理模块则根据健康分指定相应的存储策略，通过迁移工具实现优化存储，再通过统计图表全面掌握存储和治理情况。
[0060]
策略管理模块支持对分层存储策略、分析策略和压缩策略进行管理，用户为目录设置分层存储策略和压缩策略来优化文件存储。为小文件、冷数据设置分析策略帮助进行数据分析。
[0061]
即整体上通过获取fsimage方式构建本地缓存，客户端下发分析请求，根据分析结果下发策略配置，最后通过数据迁移使下发的策略生效。
[0062]
其中，整体技术框架的底层包括mysql、hive和hdfs，通过hive client连接hive、webhdfs和dfsadmin来访问hdfs，以获取hive和hdfs的数据，并使用mybatis与mysql交互，用于存储数据。整体技术框架的中间层采用schedule实现周期调度，构建多叉树方便数据分析。整体技术框架的上层提供对外api调用接口和可视化ui操作界面。
[0063]
具体步骤如下：
[0064]
101)元数据获取步骤：采用分析fsimage的方式来获取hdfs元数据。元数据包括：path-目录路径、replication-备份数、modificationtime-最后修改时间、accesstime-最后访问时间、preferredblocksize-首选块大小(byte)、blockscount-块数、filesize-文件大小(byte)、nsquota-名称配额(限制指定目录下允许的文件和目录的数量)、dsquota-空间配额(限制该目录下允许的字节数)、permission-权限、username-用户和groupname-用户组。
[0065]
具体通过获取fsimage，再解析fsimage为指定格式的元数据，最后输出oiv文件即可。
[0066]
102)元数据索引步骤：将步骤101)获取到的元数据文件进行解析，构建成多叉树的结构。
[0067]
103)数据分析步骤：进行统计目录下所有文件个数及规模和不同数据类型的个数
及规模，进行总量统计、排行分析、占比分析，从而得到存储健康分。具体数据分析包括小文件分析、冷数据分析、热数据分析、表分析、损坏块分析和磁盘内存分析：
[0068]
小文件分析用于根据策略设置，统计小文件个数及规模。
[0069]
冷数据分析用于根据策略设置，统计冷数据个数及规模。
[0070]
热数据分析用于根据策略设置，统计热数据个数及规模。
[0071]
表分析用于根据策略设置，统计数据库下所有表小文件个数及规模。
[0072]
损坏块分析用于统计损坏的文件块数量。
[0073]
磁盘内存分析用于统计磁盘的总量及使用情况。
[0074]
存储健康分的评分规则包括磁盘得分、小文件得分、冷数据得分和文件块得分。
[0075]
磁盘得分中磁盘总分为30，假设节点个数为n，则每个节点分数为分，当有w1个节点磁盘使用量超过阈值的时候，则扣除分。假设节点有m块磁盘，则每块磁盘的分值为分，当磁盘总存储未超过阈值，单个磁盘超过阈值时扣除该分值。w2块磁盘超过阈值，则扣除分。
[0076]
小文件得分中小文件总分为30，为小文件阈值个数设置为t，当小文件个数x超出阈值1-10％时，扣除1分，超出11-20％时，再扣除1分，扣完为止。
[0077]
冷数据得分中冷数据总分为30，设定有yg的冷数据未处理，即没有设置分层存储策略、纠删码策略的数据，每100g，扣1分，总分扣完为止。
[0078]
文件块得分中文件块总分为10，其设定损坏了z个文件块，则每损坏10个，即损坏1-10，扣一分，损坏11-20，则再扣一分，总分扣完为止。
[0079]
因此，由上述所得存储健康分s的计算公式如下：
[0080][0081]
其中，每一项扣分数均不能超过各项总分数。
[0082]
104)数据策略配置步骤：包括分层存储策略、分析策略和压缩策略。
[0083]
分层存储策略即异构存储策略，根据数据访问的热度将数据存储在不同的存储介质上，从而使得hdfs的存储能够灵活高效地应对各种应用场景。实现数据分层的基础是建立在hdfs支持异构存储及配置异构存储策略的基础之上的。
[0084]
hdfs支持多种常用存储类型，包括:
[0085]
archive：高存储密度但耗电较少的存储介质，用来存储冷数据。
[0086]
disk：磁盘介质，这是hdfs默认的存储介质。
[0087]
ssd：固态硬盘存储介质。
[0088]
ram_disk：数据被写入内存中，同时会往该存储介质中再异步写一份。
[0089]
进一步的，分层策略包括provided、cold、warm、hot、one_ssd、all_ssd和lazy_
persist。
[0090]
provided为外部hdfs存储，存储介质为disk。
[0091]
cold为所有副本都保存在归档存储上，存储介质为archive。
[0092]
warm采用一个副本保存在磁盘上，其余副本保存在归档存储上，存储介质为disk和archive。
[0093]
hot采用所有副本保存在磁盘中，且其为默认的存储策略，存储介质为disk。
[0094]
one_ssd采用一个副本保存在ssd中，其余副本保存在磁盘中，存储介质为ssd和disk。
[0095]
all_ssd采用所有副本都保存在ssd中，存储介质为ssd。
[0096]
lazy_persist采用一个副本保存在内存ram_disk中，其余副本保存在磁盘中ram_disk，存储介质为disk。
[0097]
分析策略通过设置用户对小文件的定义、小文件个数阈值的设置，设置冷数据的定义和冷数据总量的阈值，设置磁盘容量的阈值，设置系统执行分析的调度时间阈值。
[0098]
压缩策略设置纠删码，实现查看当前可选的所有纠删码，以保障数据迁移，并查看和记录迁移日志。具体纠删码包括：rs-10-4-1024k、rs-3-2-1024k、rs-6-3-1024k、rs-legacy-6-3-1024k、xor-2-1-1024k。
[0099]
综上所述，本发明的智能识别中包含小文件、冷数据的数据全生命周期。根据对数据的统计与分析评定存储健康分数，智能对数据进行治理、压缩及迁移。可视化操作界面，帮助用户清晰直观地管理并治理数据，提供集群统计信息、数据分析、数据治理、数据迁移、文件管理等api调用接口。
[0100]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种针对位置环境的室内隐蔽点寻找方法

一种用于数据生命周期的智能识别优化系统的制作方法

相关文献

最热文献