一种有效数据索引方法、系统、装置及存储介质与流程

2022-06-12 02:46:38 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其是一种有效数据索引方法、系统、装置及存储介质。

背景技术：

2.数据库数据、操作系统备份数据以及虚拟机数据通常稀疏(sparse)存储于文件或块设备，如数据库的数据文件、操作系统分区(partition)的块设备和虚拟机镜像文件。为了节约存储空间，在备份以上数据时通常仅备份已使用或曾使用的数据块，即有效数据块。因此，在备份以上数据时，需要在原始数据中找到有效数据块的位置，即需要进行有效数据的索引。传统的有效数据索引方法通过位图或者位置向量记录有效数据在原始数据中的位置。其中，位图中的每个bit表示一块固定长度的数据，当bit置1时表示对应的数据块为有效数据块。通过若干的bit构成的位图即可表示一组有效数据块；位置向量为二元组构成的数组，将连续的若干有效数据块表示为二元组，该二元组包括起始块地址和连续有效数据块的长度。
3.然而，一方面，当原始数据非常多，并且有效数据非常少时，位图将由大量0位填充，位图的有效利用率不高。而且位图本身的大小只与原始数据的大小相关，不会因有效数据分布和大小而改变；另一方面，当原始数据非常多，并且有效数据块非常离散，即连续的有效数据块较少或碎片化严重时，位置向量中的二元组个数将非常多。极端情况下，每个有效数据块对应一个二元组。因此，传统的有效数据索引方法索引每个有效数据块所需的bit数较多，资源占用大。

技术实现要素：

4.本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
5.为此，本发明实施例的一个目的在于提供一种有效数据索引方法、系统、装置及存储介质，以减少索引每个有效数据块所需的bit数。
6.为了达到上述技术目的，本发明实施例所采取的技术方案包括：
7.第一方面，本发明实施例提供了一种有效数据索引方法，包括以下步骤：
8.将第一块号的值设置为零；
9.解压第一二元组，获取第二块号和第一块数，所述第二块号为各个所述第一二元组的起始块地址，所述第一块数为各个所述第一二元组中连续的有效数据块的块数；
10.计算所述第二块号和所述第一块号的差值；
11.将所述第二块号的值设置为所述第一块号的值；
12.根据所述差值和所述第一块数生成第二二元组；
13.确认所述第一二元组未完全解压，返回解压第一二元组，获取第二块号和第一块数这一步骤；
14.确认所述第一二元组已完全解压，根据所述第二二元组完成有效数据的索引。
15.本发明实施例的一种有效数据索引方法，通过在原有的第一二元组的基础上，将第一二元组的块号与其前一个第一二元组块号的差值作为新的块号，减小了块号的数值，使得表示块号所需的bit数减少；通过获取各个第一二元组中连续的有效数据块的块数，并与对应的块号生成第二二元组，进一步减少了通过各个第二二元组索引其中的有效数据块所需的bit数。
16.另外，根据本发明上述实施例的一种有效数据索引方法，还可以具有以下附加的技术特征：
17.进一步地，本发明实施例的一种有效数据索引方法中，所述根据所述差值和所述第一块数生成第二二元组，包括：
18.将所述差值传入pack函数，生成第三块号；
19.将所述第一块数传入pack函数，生成第二块数；
20.根据所述第三块号和所述第二块数生成所述第二二元组。
21.进一步地，在本发明的一个实施例中，所述将所述差值传入pack函数，生成第三块号，包括：
22.将所述差值传入pack函数，返回第一编码缓冲区；
23.将所述第一编码缓冲区写入目标缓冲区，生成所述第三块号。
24.进一步地，在本发明的一个实施例中，所述将所述第一块数传入pack函数，生成第二块数，包括：
25.将所述第一块数传入pack函数，返回第二编码缓冲区；
26.将所述第二编码缓冲区写入目标缓冲区，生成所述第二块数。
27.第二方面，本发明实施例提出了一种有效数据索引系统，包括：
28.第一块号赋值模块，用于将第一块号的值设置为零，并用于将所述第二块号的值设置为所述第一块号的值；
29.第一二元组解压模块，用于解压第一二元组，获取第二块号和第一块数；
30.差值计算模块，用于计算所述第二块号和所述第一块号的差值；
31.第二二元组生成模块，用于根据所述差值和所述第一块数生成第二二元组；
32.判断模块，用于确认所述第一二元组未完全解压，返回解压第一二元组，获取第二块号和第一块数这一步骤，并用于确认所述第一二元组已完全解压，根据所述第二二元组完成有效数据的索引。
33.进一步地，在本发明的一个实施例中，所述第二二元组生成模块包括：
34.第三块号生成模块，用于将所述差值传入pack函数，生成第三块号；
35.第二块数生成模块，用于将所述第一块数传入pack函数，生成第二块数。
36.进一步地，在本发明的一个实施例中所述第三块号生成模块包括：
37.第一编码缓冲区返回模块，用于将所述差值传入pack函数，返回第一编码缓冲区；
38.第一写入模块，用于将所述第一编码缓冲区写入目标缓冲区，生成所述第三块号。
39.进一步地，在本发明的一个实施例中，所述第二块数生成模块包括：
40.第二编码缓冲区返回模块，用于将所述第一块数传入pack函数，返回第二编码缓冲区；
41.第二写入模块，用于将所述第二编码缓冲区写入目标缓冲区，生成所述第二块数。
42.第三方面，本发明实施例提供了一种有效数据索引装置，包括：
43.至少一个处理器；
44.至少一个存储器，用于存储至少一个程序；
45.当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现所述的一种有效数据索引方法。
46.第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于实现所述的一种有效数据索引方法。
47.本发明的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到：
48.本发明实施例通过在原有的第一二元组的基础上，将第一二元组的块号与其前一个第一二元组块号的差值作为新的块号，减小了块号的数值，使得表示块号所需的bit数减少；通过获取各个第一二元组中连续的有效数据块的块数，并与对应的块号生成第二二元组，进一步减少了通过各个第二二元组索引其中的有效数据块所需的bit数。
附图说明
49.为了更清楚地说明本技术实施例或者现有技术中的技术方案，下面对本技术实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本技术的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。
50.图1为本发明一种有效数据索引方法具体实施例的流程示意图；
51.图2为本发明一种有效数据索引方法具体实施例的unpack流程示意图；
52.图3为本发明一种有效数据索引方法具体实施例的pack流程示意图；
53.图4为本发明一种有效数据索引系统具体实施例的结构示意图；
54.图5为本发明一种有效数据索引装置具体实施例的结构示意图。
具体实施方式
55.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本技术，而不能理解为对本技术的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
56.本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
57.在本发明中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地
和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
58.数据库数据、操作系统备份数据以及虚拟机数据通常稀疏(sparse)存储于文件或块设备，如数据库的数据文件、操作系统分区(partition)的块设备和虚拟机镜像文件。为了节约存储空间，在备份以上数据时通常仅备份已使用或曾使用的数据块，即有效数据块。因此，在备份以上数据时，需要在原始数据中找到有效数据块的位置，即需要进行有效数据的索引。传统的有效数据索引方法通过位图或者位置向量记录有效数据在原始数据中的位置。其中，位图中的每个bit表示一块固定长度的数据，当bit置1时表示对应的数据块为有效数据块。通过若干的bit构成的位图即可表示一组有效数据块；位置向量为二元组构成的数组，将连续的若干有效数据块表示为二元组，该二元组包括起始块地址和连续有效数据块的长度。
59.然而，一方面，当原始数据非常多，并且有效数据非常少时，位图将由大量0位填充，位图的有效利用率不高。而且位图本身的大小只与原始数据的大小相关，不会因有效数据分布和大小而改变；另一方面，当原始数据非常多，并且有效数据块非常离散，即连续的有效数据块较少或碎片化严重时，位置向量中的二元组个数将非常多。极端情况下，每个有效数据块对应一个二元组。因此，传统的有效数据索引方法索引每个有效数据块所需的bit数较多，资源占用大。
60.为此，本发明提出了一种有效数据索引方法和系统，不同于传统的有效数据索引方法存在索引每个有效数据块所需的bit数较多、资源占用大的问题，本发明通过在原有的第一二元组的基础上，将第一二元组的块号与其前一个第一二元组块号的差值作为新的块号，减小了块号的数值，使得表示块号所需的bit数减少；通过获取各个第一二元组中连续的有效数据块的块数，并与对应的块号生成第二二元组，进一步减少了通过各个第二二元组索引其中的有效数据块所需的bit数。
61.下面参照附图详细描述根据本发明实施例提出的一种有效数据索引方法和系统，首先将参照附图描述根据本发明实施例提出的一种有效数据索引方法。
62.参照图1，本发明实施例中提供一种有效数据索引方法，本发明实施例中的一种有效数据索引方法，可应用于终端中，也可应用于服务器中，还可以是运行于终端或服务器中的软件等。终端可以是平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例中的一种有效数据索引方法主要包括以下步骤：
63.s101、将第一块号的值设置为零；
64.具体地，置上一个块号(prev_block_num)，即第一块号，为0。
65.s102、解压第一二元组，获取第二块号和第一块数；
66.其中，所述第二块号为各个所述第一二元组的起始块地址，所述第一块数为各个所述第一二元组中连续的有效数据块的块数。
67.具体地，参照图2，在传统的有效数据索引方法中，位置向量为二元组(第一二元组)构成的数组，将连续的若干有效数据块表示为二元组，该二元组包括起始块地址和连续的有效数据块的长度。在本发明的实施例中，通过unpack函数返回第一二元组的块号
bit为标志。如：
86.当第三块号范围为[0,2
7-1]时，需1b，对应二进制数从00000000至01111111；
[0087]
当第三块号范围为[128,2
14-1]时，需2b，对应二进制数从00000001 10000000至01111111 11111111。
[0088]
s106、确认所述第一二元组未完全解压，返回解压第一二元组，获取第二块号和第一块数这一步骤；
[0089]
具体地，若第一二元组未完全解压，则继续解压剩余第一二元组，获取第一二元组中的初始块地址，即第二块号，和有效数据块的块数，即第一块数。
[0090]
s107、确认所述第一二元组已完全解压，根据所述第二二元组完成有效数据的索引。
[0091]
具体地，若第一二元组已完全解压，则根据所述第二二元组完成有效数据的索引。
[0092]
在本发明的一个实施例中，有效数据块的块大小为512b，在原始数据非常多，并且有效数据块非常离散或碎片化严重的情况下通过所述第二二元组完成有效数据的索引：
[0093]
索引每个有效数据块最坏需要的bit数：
[0094][0095]
其中，64-log2512＝55为第三块号最大占用的bit数，计算占用8b；表示仅有一个有效数据块，计算占用1b。
[0096]
若采用传统的有效数据索引方法：
[0097]
(1)采用位图，若原始数据大小为1tb(本发明实施例的有效数据索引方法索引有效数据所需的最大bit数与原始数据大小无关)，索引位图大小：
[0098][0099]
若原始数据中仅1％为有效数据，则索引位图占用率：
[0100][0101]
因此，索引每个有效数据块平均需要100个bit。
[0102]
(2)采用第一二元组构成的位置向量：
[0103]
在最坏的情况下，每个有效数据块对应一个第一二元组。若第一二元组的起始地址为8b，长度为8b(本发明实施例的有效数据索引方法索引有效数据所需的最大bit数与二元组的长度无关，并且第二二元组对应的有效数据块越少，即第二块数越小，所需的bit数也越少)，缩影每个有效数据块最坏需要的bit数：
[0104]
(8 8)
×
8＝128bit
[0105]
因此，本发明实施例的有效数据索引方法相较于位图节约了28％的bit数，相较于第一二元组构成的位置向量节约了43％的bit数。
[0106]
在本发明的实施例中，在连续邻接的有效数据块较多时，第二二元组的个数将比较少。以每个块大小为512b,平均连续邻接块大小为1mb，原始数据不大于1tb为例，应用本
方法，索引每个有效数据块所需的平均bit数：
[0107][0108]
其中，原始数据不大于1tb，最大块号不超过最大占用bit数：
[0109][0110]
计算
[0111]
平均连续块大小为1mb，占用bit数计算
[0112]
其次，参照附图描述根据本技术实施例提出的一种有效数据索引系统。
[0113]
图4是本技术一个实施例的一种有效数据索引系统结构示意图。
[0114]
所述系统具体包括：
[0115]
第一块号赋值模块401，用于将第一块号的值设置为零，并用于将所述第二块号的值设置为所述第一块号的值；
[0116]
第一二元组解压模块402，用于解压第一二元组，获取第二块号和第一块数；
[0117]
差值计算模块403，用于计算所述第二块号和所述第一块号的差值；
[0118]
第二二元组生成模块404，用于根据所述差值和所述第一块数生成第二二元组；
[0119]
判断模块405，用于确认所述第一二元组未完全解压，返回解压第一二元组，获取第二块号和第一块数这一步骤，并用于确认所述第一二元组已完全解压，根据所述二元组完成有效数据的索引。
[0120]
在本发明的实施例中，所述第二二元组生成模块包括：
[0121]
第三块号生成模块，用于将所述差值传入pack函数，生成第三块号；
[0122]
第二块数生成模块，用于将所述第一块数传入pack函数，生成第二块数。
[0123]
在本发明的实施例中，所述第三块号生成模块包括：
[0124]
第一编码缓冲区返回模块，用于将所述差值传入pack函数，返回第一编码缓冲区；
[0125]
第一写入模块，用于将所述第一编码缓冲区写入目标缓冲区，生成所述第三块号。
[0126]
在本发明的实施例中，所述第二块数生成模块包括：
[0127]
第二编码缓冲区返回模块，用于将所述第一块数传入pack函数，返回第二编码缓冲区；
[0128]
第二写入模块，用于将所述第二编码缓冲区写入目标缓冲区，生成所述第二块数。
[0129]
可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0130]
参照图5，本技术实施例提供了一种有效数据索引装置，包括：
[0131]
至少一个处理器501；
[0132]
至少一个存储器502，用于存储至少一个程序；
[0133]
当所述至少一个程序被所述至少一个处理器501执行时，使得所述至少一个处理器501实现所述的一种有效数据索引方法。
[0134]
同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0135]
在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本技术的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0136]
此外，虽然在功能性模块的背景下描述了本技术，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本技术的范围，本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
[0137]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0138]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行程序的定序列表，可以具体实现在任何计算机可读介质中，以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用，或结合这些程序执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。
[0139]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器
(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0140]
应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0141]
在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0142]
尽管已经示出和描述了本技术的实施方式，本领域的普通技术人员可以理解：在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本技术的范围由权利要求及其等同物限定。
[0143]
以上是对本技术的较佳实施进行了具体说明，但本技术并不限于所述实施例，熟悉本领域的技术人员在不违背本技术精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据查询方法、装置及计算机可读存储介质与流程

一种有效数据索引方法、系统、装置及存储介质与流程

相关文献

最热文献