一种Hbase数据库中数据压缩的方法、装置、设备及介质与流程

2022-06-01 09:57:57 来源：中国专利 TAG：

一种hbase数据库中数据压缩的方法、装置、设备及介质
技术领域
1.本发明涉及计算机领域，并且更具体地涉及一种hbase数据库中数据压缩的方法、装置、设备及可读介质。

背景技术：

2.hbase数据库(是一个分布式的、面向列的开源数据库，可存储海量数据，底层数据文件存储在hdfs中)作为大数据领域常用的分布式数据库，其支持千亿行、百万列的数据存储，每当memstore(写缓存)的数据flush(把缓冲区的内容强制的写出)到磁盘后，就形成一个storefile，当storefile的数量越来越大时，会严重影响hbase数据库的读性能，所以必须将过多的storefile文件进行合并操作。

技术实现要素：

3.有鉴于此，本发明实施例的目的在于提出一种hbase数据库中数据压缩的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够可以增加i/o的使用率，不需要对大量数据文件执行压缩操作，对于有备份要求的数据有天然的优势。
4.基于上述目的，本发明的实施例的一个方面提供了一种hbase数据库中数据压缩的方法，包括以下步骤：
5.响应于hbase数据库的写缓存中的数据flush，将数据存储到存储器中的第一区域中；
6.响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据；
7.响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中；
8.每经过第二区域的阈值时间后，将第二区域中各个key值区间中的数据各自合并后存储到第三区域中对应的key值区间对应的存储空间中，每经过第三区域的阈值时间后，将第三区域中各个key值区间中的数据各自合并后存储到第四区域中对应的key值区间对应的存储空间中，依次类推，直到将数据存储到第六区域中。
9.根据本发明的一个实施例，还包括：
10.将存储器划分成六个区域，六个区域分别为第一区域、第二区域、第三区域、第四区域、第五区域和第六区域；
11.将第二区域、第三区域、第四区域、第五区域和第六区域的存储空间按照key值的区间划分成若干个小的存储空间。
12.根据本发明的一个实施例，响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据包括：
13.使用第一区域中数据的总大小除于文件数得到计算值；
14.判断计算值是否超过设定的第一阈值；
15.响应于计算值超过第一阈值，将第一区域中的数据合并成一个大数据。
16.根据本发明的一个实施例，响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中包括：
17.响应于第一区域中的数据总量达到第一区域的存储空间的80％，将第一区域中的数据进行合并；
18.通过计算合并后的数据的hash值以得到合并后的数据的key值；
19.将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中。
20.本发明的实施例的另一个方面，还提供了一种hbase数据库中数据压缩的装置，装置包括：
21.存储模块，存储模块配置为响应于hbase数据库的写缓存中的数据flush，将数据存储到存储器中的第一区域中；
22.合并模块，合并模块配置为响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据；
23.计算模块，计算模块配置为响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中；
24.处理模块，处理模块配置为每经过第二区域的阈值时间后，将第二区域中各个key值区间中的数据各自合并后存储到第三区域中对应的key值区间对应的存储空间中，每经过第三区域的阈值时间后，将第三区域中各个key值区间中的数据各自合并后存储到第四区域中对应的key值区间对应的存储空间中，依次类推，直到将数据存储到第六区域中。
25.根据本发明的一个实施例，还包括划分模块，划分模块配置为：
26.将存储器划分成六个区域，六个区域分别为第一区域、第二区域、第三区域、第四区域、第五区域和第六区域；
27.将第二区域、第三区域、第四区域、第五区域和第六区域的存储空间按照key值的区间划分成若干个小的存储空间。
28.根据本发明的一个实施例，合并模块还配置为：
29.使用第一区域中数据的总大小除于文件数得到计算值；
30.判断计算值是否超过设定的第一阈值；
31.响应于计算值超过第一阈值，将第一区域中的数据合并成一个大数据。
32.根据本发明的一个实施例，计算模块还配置为：
33.响应于第一区域中的数据总量达到第一区域的存储空间的80％，将第一区域中的数据进行合并；
34.通过计算合并后的数据的hash值以得到合并后的数据的key值；
35.将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中。
36.本发明的实施例的另一个方面，还提供了一种计算机设备，该计算机设备包括：
37.至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述任意一项方法的步骤。
38.本发明的实施例的另一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意一项方法的步骤。
39.本发明具有以下有益技术效果：本发明实施例提供的hbase数据库中数据压缩的方法，通过响应于hbase数据库的写缓存中的数据flush，将数据存储到存储器中的第一区域中；响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据；响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中；每经过第二区域的阈值时间后，将第二区域中各个key值区间中的数据各自合并后存储到第三区域中对应的key值区间对应的存储空间中，每经过第三区域的阈值时间后，将第三区域中各个key值区间中的数据各自合并后存储到第四区域中对应的key值区间对应的存储空间中，依次类推，直到将数据存储到第六区域中的技术方案，能够可以增加i/o的使用率，不需要对大量数据文件执行压缩操作，对于有备份要求的数据有天然的优势。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。
41.图1为根据本发明一个实施例的hbase数据库中数据压缩的方法的示意性流程图；
42.图2为根据本发明一个实施例的hbase数据库中数据压缩的装置的示意图；
43.图3为根据本发明一个实施例的计算机设备的示意图；
44.图4为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。
46.基于上述目的，本发明的实施例的第一个方面，提出了一种hbase数据库中数据压缩的方法的一个实施例。图1示出的是该方法的示意性流程图。
47.如图1中所示，该方法可以包括以下步骤：
48.s1响应于hbase数据库的写缓存中的数据flush，将数据存储到存储器中的第一区域中。
49.在该步骤前，还需要将存储器划分成六个区域，六个区域分别为第一区域、第二区域、第三区域、第四区域、第五区域和第六区域，并将第二区域、第三区域、第四区域、第五区域和第六区域的存储空间按照key值的区间划分成若干个小的存储空间。其中第二区域到第六区域中划分的小的存储空间是一一对应的，划分的规则也是一样的，第二区域到第六区域的存储空间相同，每个区间的key的范围也是相同的，例如key1-key10划分为第一区
间，key11-key30为第二区间，key31-key50为第三区间等等，那么在每个区域中每个小的存储空间都对应上述key值的区间，其中key1、key10等为key的取值，第二区域中的第一区间的数据只会存储到其他区域中的第一区间中，依次类推。key值的计算方法有很多种，可以使用计算hash值求余的方法计算key值。
50.s2响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据。
51.在判断是否超过第一阈值时，需要使用第一区域中数据的总大小除于文件数得到计算值，判断计算值是否超过设定的第一阈值，其中第一阈值也是数据的总大小与文件数的比值，如果计算值超过第一阈值，则将第一区域中的数据合并成一个大数据。数据是不断的存储到第一区中的，因此需要不断的查看数据是否超过第一阈值，只要超过第一阈值，就需要将所有的数据合并成一个数据。
52.s3响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中。
53.第二阈值的设定可以根据第一区域的容量来设定，优选的第二阈值为第一区域存储空间的80％，如果第一区域中的数据总量达到第一区域的存储空间的80％，则再次将第一区域中的数据进行合并，合并后变成一个大数据，该大数据需要存储到下一个区域中，即第二区域，存储时需要计算合并后的数据的hash值以得到合并后的数据的key值，然后将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中，例如合并后的数据的key值落在key11-key30的第二区间上，则将这个数据存储到第二区域的第二区间上。
54.s4每经过第二区域的阈值时间后，将第二区域中各个key值区间中的数据各自合并后存储到第三区域中对应的key值区间对应的存储空间中，每经过第三区域的阈值时间后，将第三区域中各个key值区间中的数据各自合并后存储到第四区域中对应的key值区间对应的存储空间中，依次类推，直到将数据存储到第六区域中。
55.第二区域到第六区域都有各自不同的阈值时间，可以根据需求设定，数据在存储到第二区域时就已经确定了存储到哪个区间上，因此，每次经过区域各自的阈值时间后，每个区域中的每个区间中的数据都进行合并一次，合并完后将数据存储到下一个区域的对应的区间上，直到将数据存储到第六区域中不再进行数据的合并，因此所有的数据都会保存在第六区域中。
56.通过本发明的技术方案，能够可以增加i/o的使用率，不需要对大量数据文件执行压缩操作，对于有备份要求的数据有天然的优势。
57.在本发明的一个优选实施例中，还包括：
58.将存储器划分成六个区域，六个区域分别为第一区域、第二区域、第三区域、第四区域、第五区域和第六区域；
59.将第二区域、第三区域、第四区域、第五区域和第六区域的存储空间按照key值的区间划分成若干个小的存储空间。其中第二区域到第六区域中划分的小的存储空间是一一对应的，划分的规则也是一样的，第二区域到第六区域的存储空间相同，每个区间的key的范围也是相同的，例如key1-key10划分为第一区间，key11-key30为第二区间，key31-key50
为第三区间等等，那么在每个区域中每个小的存储空间都对应上述key值的区间，其中key1、key10等为key的取值，第二区域中的第一区间的数据只会存储到其他区域中的第一区间中，依次类推。key值的计算方法有很多种，可以使用计算hash值求余的方法计算key值。
60.在本发明的一个优选实施例中，响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据包括：
61.使用第一区域中数据的总大小除于文件数得到计算值；
62.判断计算值是否超过设定的第一阈值；
63.响应于计算值超过第一阈值，将第一区域中的数据合并成一个大数据。在判断是否超过第一阈值时，需要使用第一区域中数据的总大小除于文件数得到计算值，判断计算值是否超过设定的第一阈值，其中第一阈值也是数据的总大小与文件数的比值，如果计算值超过第一阈值，则将第一区域中的数据合并成一个大数据。数据是不断的存储到第一区中的，因此需要不断的查看数据是否超过第一阈值，只要超过第一阈值，就需要将所有的数据合并成一个数据。
64.在本发明的一个优选实施例中，响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中包括：
65.响应于第一区域中的数据总量达到第一区域的存储空间的80％，将第一区域中的数据进行合并；
66.通过计算合并后的数据的hash值以得到合并后的数据的key值；
67.将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中。第二阈值的设定可以根据第一区域的容量来设定，优选的第二阈值为第一区域存储空间的80％，如果第一区域中的数据总量达到第一区域的存储空间的80％，则再次将第一区域中的数据进行合并，合并后变成一个大数据，该大数据需要存储到下一个区域中，即第二区域，存储时需要计算合并后的数据的hash值以得到合并后的数据的key值，然后将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中，例如合并后的数据的key值落在key11-key30的第二区间上，则将这个数据存储到第二区域的第二区间上。
68.通过本发明的技术方案，可以增加i/o的使用率，对于“只对最近写入”写入的数据来说，大量数据会落在第一区域上，不需要对大量数据文件执行压缩操作，对于有备份要求的数据有天然的优势。例如国家政策要求股票交易记录保存五年时间，用户定期只要复制第六区域的文件即可。
69.需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory，rom)或随机存取存储器(random access memory，ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
70.此外，根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序，该
计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时，执行本发明实施例公开的方法中限定的上述功能。
71.基于上述目的，本发明的实施例的第二个方面，提出了一种hbase数据库中数据压缩的装置，如图2所示，装置200包括：
72.存储模块，存储模块配置为响应于hbase数据库的写缓存中的数据flush，将数据存储到存储器中的第一区域中；
73.合并模块，合并模块配置为响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据；
74.计算模块，计算模块配置为响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中；
75.处理模块，处理模块配置为每经过第二区域的阈值时间后，将第二区域中各个key值区间中的数据各自合并后存储到第三区域中对应的key值区间对应的存储空间中，每经过第三区域的阈值时间后，将第三区域中各个key值区间中的数据各自合并后存储到第四区域中对应的key值区间对应的存储空间中，依次类推，直到将数据存储到第六区域中。
76.在本发明的一个优选实施例中，还包括划分模块，划分模块配置为：
77.将存储器划分成六个区域，六个区域分别为第一区域、第二区域、第三区域、第四区域、第五区域和第六区域；
78.将第二区域、第三区域、第四区域、第五区域和第六区域的存储空间按照key值的区间划分成若干个小的存储空间。
79.在本发明的一个优选实施例中，合并模块还配置为：
80.使用第一区域中数据的总大小除于文件数得到计算值；
81.判断计算值是否超过设定的第一阈值；
82.响应于计算值超过第一阈值，将第一区域中的数据合并成一个大数据。
83.在本发明的一个优选实施例中，计算模块还配置为：
84.响应于第一区域中的数据总量达到第一区域的存储空间的80％，将第一区域中的数据进行合并；
85.通过计算合并后的数据的hash值以得到合并后的数据的key值；
86.将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中。
87.基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示，本发明实施例包括如下装置：至少一个处理器21；以及存储器22，存储器22存储有可在处理器上运行的计算机指令23，指令由处理器执行时实现以下方法：
88.响应于hbase数据库的写缓存中的数据flush，将数据存储到存储器中的第一区域中；
89.响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据；
90.响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算
合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中；
91.每经过第二区域的阈值时间后，将第二区域中各个key值区间中的数据各自合并后存储到第三区域中对应的key值区间对应的存储空间中，每经过第三区域的阈值时间后，将第三区域中各个key值区间中的数据各自合并后存储到第四区域中对应的key值区间对应的存储空间中，依次类推，直到将数据存储到第六区域中。
92.在本发明的一个优选实施例中，还包括：
93.将存储器划分成六个区域，六个区域分别为第一区域、第二区域、第三区域、第四区域、第五区域和第六区域；
94.将第二区域、第三区域、第四区域、第五区域和第六区域的存储空间按照key值的区间划分成若干个小的存储空间。
95.在本发明的一个优选实施例中，响应于第一区域中的数据超过第一阈值，将第一区域中的数据合并成一个大数据包括：
96.使用第一区域中数据的总大小除于文件数得到计算值；
97.判断计算值是否超过设定的第一阈值；
98.响应于计算值超过第一阈值，将第一区域中的数据合并成一个大数据。
99.在本发明的一个优选实施例中，响应于第一区域中的数据超过第二阈值，将第一区域中的数据进行合并，并计算合并后的数据的key值，并将第一区域中合并后的数据存储到第二区域中key值对应的key值区间对应的存储空间中包括：
100.响应于第一区域中的数据总量达到第一区域的存储空间的80％，将第一区域中的数据进行合并；
101.通过计算合并后的数据的hash值以得到合并后的数据的key值；
102.将第一区域中合并后的数据存储到第二区域中计算的key值对应的key值区间对应的存储空间中。
103.基于上述目的，本发明实施例的第四个方面，提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示，计算机可读存储介质31存储有被处理器执行时执行如上方法的计算机程序32。
104.此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。
105.此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
106.本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
107.在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。
如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
108.以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。
109.应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
110.上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。
111.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
112.所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于隐私保护的图像处理方法、装置、设备及存储介质与流程

一种Hbase数据库中数据压缩的方法、装置、设备及介质与流程

相关文献

最热文献