一种文件有序分布的方法、装置、设备及介质与流程

2022-07-31 06:51:30 来源：中国专利 TAG：

1.本发明涉及计算机领域，并且更具体地涉及一种分布式存储文件系统下文件有序分布的方法、装置、设备及可读介质。

背景技术：

2.在目前的分布式系统中，根据应用场景的不同，分布式系统可细分为分布式对象系统及分布式文件系统等，不同场景中元数据在内存中的分布情况存在差异。
3.在某些场景下要求分布式对象系统的s3等协议可以与分布式文件系统内的nas协议可以融合互通，而对象系统等的s3等协议的有序list请求要求读取的目录内文件要按照字典序排序，但当前分布式文件系统目录内文件在内存中的分布是无序的。

技术实现要素：

4.有鉴于此，本发明实施例的目的在于提出一种分布式存储文件系统下文件有序分布的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够实现文件在目录内的有序分布，从而达到s3及nas协议的融合互通访问的目的，能够节省上层应用重新排序的时间，提高了不分片目录的访问效率。
5.基于上述目的，本发明的实施例的一个方面提供了一种分布式存储文件系统下文件有序分布的方法，包括以下步骤：
6.使用系统中的文件的文件名根据字典序将文件在内存中进行排列；
7.获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中；
8.将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中；
9.以key-value的形式构建索引表，并基于索引表查找文件对应的分片。
10.根据本发明的一个实施例，将各个子目录分片进行有序裂变成阈值数量的次级子目录分片包括：
11.设定将子目录分片裂变成次级子目录分片的阈值数量；
12.在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字。
13.根据本发明的一个实施例，将各个子目录中的文件分别移至裂变后的次级子目录分片中包括：
14.根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数；
15.将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中。
16.根据本发明的一个实施例，以key-value的形式构建索引表包括：
17.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号。
18.本发明的实施例的另一个方面，还提供了一种分布式存储文件系统下文件有序分布的装置，装置包括：
19.排序模块，排序模块配置为使用系统中的文件的文件名根据字典序将文件在内存中进行排列；
20.获取模块，获取模块配置为获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中；
21.裂变模块，裂变模块配置为将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中；
22.构建模块，构建模块配置为以key-value的形式构建索引表，并基于索引表查找文件对应的分片。
23.根据本发明的一个实施例，裂变模块还配置为：
24.设定将子目录分片裂变成次级子目录分片的阈值数量；
25.在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字。
26.根据本发明的一个实施例，裂变模块还配置为：
27.根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数；
28.将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中。
29.根据本发明的一个实施例，构建模块还配置为：
30.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号。
31.本发明的实施例的另一个方面，还提供了一种计算机设备，该计算机设备包括：
32.至少一个处理器；以及
33.存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述任意一项方法的步骤。
34.本发明的实施例的另一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意一项方法的步骤。
35.本发明具有以下有益技术效果：本发明实施例提供的分布式存储文件系统下文件有序分布的方法，通过使用系统中的文件的文件名根据字典序将文件在内存中进行排列；获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中；将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中；以key-value的形式构建索引表，并基于索引表查找文件对应的分片的技术方案，能够实现文件在目录内的有序分布，从而达到s3及nas协议的融合互通访问的目的，能够节省上层应用重新排序的时间，提高了不分片目录的访问
效率。
附图说明
36.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。
37.图1为根据本发明一个实施例的分布式存储文件系统下文件有序分布的方法的示意性流程图；
38.图2为根据本发明一个实施例的分片裂变的示意图；
39.图3为根据本发明一个实施例的分片索引树中的索引map的示意图；
40.图4为根据本发明一个实施例的分布式存储文件系统下文件有序分布的装置的示意图；
41.图5为根据本发明一个实施例的计算机设备的示意图；
42.图6为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
43.为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。
44.基于上述目的，本发明的实施例的第一个方面，提出了一种分布式存储文件系统下文件有序分布的方法的一个实施例。图1示出的是该方法的示意性流程图。
45.如图1中所示，该方法可以包括以下步骤：
46.s1使用系统中的文件的文件名根据字典序将文件在内存中进行排列。
47.将系统中的文件的文件名转为字典序值，根据容器内文件名转化的字典序值来进行排序。可以在系统中增加配置项用以开启基于字典序进行文件的排列。
48.s2获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中。
49.分片索引树使用原有的分片掩码树分片号的hash计算方法来获取一个目录分片后的新的子目录分片号，例如一个目录a可以抽象表示为一个分片索引树，为了方便管理和性能实现，这个目录a中会有很多对客户透明的“子目录”(a-1,a-2
…
a-n)，这些子目录(a-1,a-2
…
a-n)中的每一个都是目录a的一部分，被称为一个分片，所有的子目录(a-1,a-2
…
a-n)加起来就是目录a，因此目录a有序的基础就是他的分片a-1,a-2
…
a-n)都是有序的，文件进行有序排列后，在目录a中也是有序的。
50.s3将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中。
51.首先设定将子目录分片裂变成次级子目录分片的阈值数量，在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字，如图2所示，设定将目录a中的各个子目录分
片裂变为n个次级子目录分片，则子目录分片a-1裂变为a-1-1、a-1-2
…
a-1-n。然后根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数，将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中，子目录分片a-1的文件集合中已按文件名字典序实现了分片内有序，计算每个分片可分得的文件数m＝(a-1中的文件数/n) 1，将子目录分片a-1中的文件分别移至对应的分片a-1-1、a-1-2
…
a-1-n中(a-1-n中d文件集合可能不足m)，其他子目录分片裂变同上所述。
52.s4以key-value的形式构建索引表，并基于索引表查找文件对应的分片。
53.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号，当需要查找文件所在的分片时，可以在索引表中查找文件对应的分片。
54.通过本发明的技术方案，能够实现文件在目录内的有序分布，从而达到s3及nas协议的融合互通访问的目的，能够节省上层应用重新排序的时间，提高了不分片目录的访问效率。
55.在本发明的一个优选实施例中，将各个子目录分片进行有序裂变成阈值数量的次级子目录分片包括：
56.设定将子目录分片裂变成次级子目录分片的阈值数量；
57.在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字。
58.在本发明的一个优选实施例中，将各个子目录中的文件分别移至裂变后的次级子目录分片中包括：
59.根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数；
60.将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中。
61.在本发明的一个优选实施例中，以key-value的形式构建索引表包括：
62.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号。假设对于某目录的分片索引树中的索引map中存在如图3所示的记录，则查找文件file4所在分片时，依次比较索引map中的key值，直到找到第一个大于file4字典序的记录后，则该记录的前一个记录所标记的分片号“分片1”，即为文件file4在该目录中对应的分片。
63.本发明能够实现文件在目录内的有序分布，从而达到s3及nas协议的融合互通访问的目的，同时对于只有一个分片的目录，由于文件名在内存中就实现了有序分布，节省了上层应用重新排序的时间，从而达到提高不分片目录访问效率的目的。
64.需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory，rom)或随机存取存储器(random access memory，ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同
或者相类似的效果。
65.此外，根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时，执行本发明实施例公开的方法中限定的上述功能。
66.基于上述目的，本发明的实施例的第二个方面，提出了一种分布式存储文件系统下文件有序分布的装置，如图4所示，装置200包括：
67.排序模块，排序模块配置为使用系统中的文件的文件名根据字典序将文件在内存中进行排列；
68.获取模块，获取模块配置为获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中；
69.裂变模块，裂变模块配置为将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中；
70.构建模块，构建模块配置为以key-value的形式构建索引表，并基于索引表查找文件对应的分片。
71.在本发明的一个优选实施例中，裂变模块还配置为：
72.设定将子目录分片裂变成次级子目录分片的阈值数量；
73.在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字。
74.在本发明的一个优选实施例中，裂变模块还配置为：
75.根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数；
76.将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中。
77.在本发明的一个优选实施例中，构建模块还配置为：
78.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号。
79.基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图5示出的是本发明提供的计算机设备的实施例的示意图。如图5所示，本发明实施例包括如下装置：至少一个处理器21；以及存储器22，存储器22存储有可在处理器上运行的计算机指令23，指令由处理器执行时实现以下方法：
80.使用系统中的文件的文件名根据字典序将文件在内存中进行排列；
81.获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中；
82.将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中；
83.以key-value的形式构建索引表，并基于索引表查找文件对应的分片。
84.在本发明的一个优选实施例中，将各个子目录分片进行有序裂变成阈值数量的次级子目录分片包括：
85.设定将子目录分片裂变成次级子目录分片的阈值数量；
86.在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字。
87.在本发明的一个优选实施例中，将各个子目录中的文件分别移至裂变后的次级子目录分片中包括：
88.根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数；
89.将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中。
90.在本发明的一个优选实施例中，以key-value的形式构建索引表包括：
91.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号。
92.基于上述目的，本发明实施例的第四个方面，提出了一种计算机可读存储介质。图6示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图6所示，计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32：
93.使用系统中的文件的文件名根据字典序将文件在内存中进行排列；
94.获取系统目录分片后的新的子目录分片号，并将排序后的文件按顺序存储到各个子目录中；
95.将各个子目录分片进行有序裂变成阈值数量的次级子目录分片，并将各个子目录中的文件分别移至裂变后的次级子目录分片中；
96.以key-value的形式构建索引表，并基于索引表查找文件对应的分片。
97.在本发明的一个优选实施例中，将各个子目录分片进行有序裂变成阈值数量的次级子目录分片包括：
98.设定将子目录分片裂变成次级子目录分片的阈值数量；
99.在子目录分片下根据子目录分片的分片号的后缀按顺序依次添加数字标识以形成次级子目录分片，其中，第一个次级子目录分片的分片号为子目录分片的分片号-1，最后一个次级子目录分片的分片号为子目录分片的分片号-阈值数量对应的数字。
100.在本发明的一个优选实施例中，将各个子目录中的文件分别移至裂变后的次级子目录分片中包括：
101.根据公式文件数＝(子目录中的文件数/阈值数量) 1计算每个次级子目录分片可得文件数；
102.将子目录中的文件按照顺序和计算得到的可得文件数依次移至每个次级子目录中。
103.在本发明的一个优选实施例中，以key-value的形式构建索引表包括：
104.以key-value的形式构建索引表来实现分片索引树的文件索引管理，其中key为目录分片中字典序值最小的文件名，value为目录分片的分片号。
105.此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执
行本发明实施例公开的方法中限定的上述功能。
106.此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
107.本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
108.在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
109.以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。
110.应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
111.上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。
112.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
113.所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实
施例的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：触觉反馈装置及其使用的数据格式的制作方法

一种文件有序分布的方法、装置、设备及介质与流程

相关文献

最热文献