针对分布式文件系统的元数据预取系统及方法与流程

2021-11-25 00:06:00 来源：中国专利 TAG：

1.本发明涉及元数据预取的技术领域，具体地，涉及一种针对分布式文件系统的元数据预取系统及方法。

背景技术：

2.分布式文件系统是一种具备高可靠性和高扩展性的共享式文件存储系统，并且能够提供完善的并发访问机制，所以分布式文件系统得到了越来越广泛的关注。对于当下流行的大多数分布式文件系统来说，文件系统的元数据操作通常会占据文件系统大半的工作负载，因此高效的元数据管理和快速的元数据访问操作显得至关重要。
3.在分布式文件系统中，元数据的访问量可以占到总访问量的一半以上，同时元数据规模日益庞大，元数据本身的访问性能逐渐成为制约元数据i/o性能提升的瓶颈。通过提高元数据访问操作性能从而带来系统性能的提升，可以有效缓解性能问题。为了提高元数据访问操作的性能，可以通过元数据预取、元数据缓存的优化来提高元数据的命中率，减少元数据访问的延迟。这些预取方法虽然在很大的程度上缓解了分布式文件系统对元数据操作频繁的问题，但也存在着元数据的命中率较低，从而导致预取范围过大、预取准确度较低等问题。
4.由于分布式文件系统具有的这种频繁操作文件元数据的特性，因此也出现了不少围绕文件元数据预取展开的研究。在现今流行的元数据预取方法中，很大一部分方法主要基于文件的存取关联性，采用离线的方式在文件系统历史访问记录中寻找关联性信息，并将经常同时访问的文件集合用于后续预取。而这种基于文件存取关联性的预取方法具有很强的局限性，难以根据系统负载的实时特征变化去动态调整文件关联关系，因此如何挖掘文件数据间潜在的关联关系以及如何准确地预测用户访问的后继文件成为了至关重要的问题。
5.近年来，有不少针对元数据预取和缓存的研究。diskseen通过对磁盘访问的时间和空间关系进行分析，将文件的读取与预取当作两个窗口，利用读取窗口指导预取窗口进行数据预取。quickmine借助这种思想，引入事务查询应用程序级的上下文信息来预测未来的访问序列。nexus是一种基于加权图的分组方法，构造了一种元数据关系图，用图的顶点表示文件和目录，使用图的加权边来表示顶点之间的局部性强度，通过元数据服务器对图形进行维护，动态地插入或删除边并调整相关的权值，实现对元数据的预取。smartstore根据元数据的语义将文件组织成相关组，为复杂查询提供低延迟。cffs将文件与其元数据之间一对一映射关系改变为多对一映射，整合文件目录、文件内在关联以及文件存取频率来发掘相关性，进行元数据预取。seer记录每个文件在几个最近的相关文件之间的语义距离，并使用共享邻居的数量计算文件间的相关性。基于组的文件缓存管理方法，将文件与其具有子孙关系的文件进行分组，使用加权概率图描述文件之间的关系。c
‑
miner是一种有效的文件系统块相关查找算法，利用数据挖掘技术来挖掘频繁的块访问序列，在存储服务器上查找块的相关性，并利用发现的序列生成关联规则来指导块预取与布局优化。除了上述描
述文件关系的方法外，还有一些针对使用树型结构记录文件关系和访问模式的方法的研究，这些方法通过访问树型结构来捕获用户进程文件间的依赖关系。整个树形结构从根节点到叶子节点间的路径构成了一组连续文件序列的访问路径，可以为访问模式不同的程序维护多个访问树，使用程序的当前访问活动匹配访问树，并用它来指导文件预取。这些方法中的大多数在一般文件系统中工作得很好，但在具有大量文件的分布式文件系统中效果不佳。
6.公开号为cn108920600a的中国发明专利文献公开了一种基于数据关联性的分布式文件系统元数据预取方法，特征是采取设计数据关联性的提取方式和存储结构、预取关联文件的元数据、数据关联性的动态反馈和数据关联性的动态更新步骤。
7.针对上述中的相关技术，发明人认为上述方法存在着元数据的命中率较低，从而导致预取范围过大、预取准确度较低，具有很强的局限性，难以根据系统负载的实时特征变化去动态调整文件关联关系，在具有大量文件的分布式文件系统中效果不佳。

技术实现要素：

8.针对现有技术中的缺陷，本发明的目的是提供一种针对分布式文件系统的元数据预取系统及方法。
9.根据本发明提供的一种针对分布式文件系统的元数据预取系统，包括功能层级框架，所述功能层级框架还包括客户端层面和元数据服务器层面；
10.所述客户端层面包括客户端缓存层，所述客户端缓存层负责提取、更新和同步文件相关特征，提供对文件相关特征操作的支持；
11.所述元数据服务器层面包括元数据服务器缓存层，所述元数据服务器缓存层负责存储和同步文件相关特征，执行文件元数据操作。
12.优选的，该系统还包括系统总体模块，所述系统总体模块包括客户端和元数据服务器；由应用程序发起的元数据的读请求操作通过分布式文件系统到达客户端，客户端在本地元数据缓存空间中搜索目标文件的元数据检查所需的元数据是否存在于客户端的本地缓存中；若命中本地缓存，则根据找到的文件元数据进行相应的处理操作并响应应用程序的请求；否则客户端将会通过网络把元数据的读请求操作发送到其管理的元数据服务器查找所需的元数据；元数据服务器包括预取模块，元数据服务器中的预取模块开始在元数据缓存中搜索并收集目标文件和与目标文件关联的文件的元数据信息，然后元数据服务器将目标文件和与目标文件关联的文件的元数据信息整合在响应消息中并发送给客户端，客户端在其本地缓存中处理这些带有响应消息的目标文件和关联文件的后续元数据请求。
13.优选的，所述系统总体模块还包括：当应用程序发起元数据的写操作时，所述客户端包括库，所述库包括语法分析模块，会触发客户端的库中的语法分析模块提取文件所存在的文件相关特征；提取出的文件相关特征先缓存在分布式文件系统客户端中的元数据缓存中，并伴随分布式文件系统原有的元数据同步i/o，将新增的文件相关特征同步到元数据服务器，得到新的元数据版本；当元数据服务器收到元数据同步请求后，会在元数据缓存中用新的元数据版本替换旧的元数据版本。
14.优选的，所述客户端缓存层包括实时提取文件特征模块，所述实时提取文件特征模块：首先获取包括文件访问序列、目录和文件路径名的文件元数据信息，通过客户端语法
分析模块中语法分析机制的模式匹配算法在文件元数据部分寻找目标格式的数据内容从而确定与目标格式的数据内容关联的文件信息；基于用户给定的目标关键字从文件访问序列、目录和文件路径名的信息中提取文件相关特征。
15.优选的，所述客户端缓存层还包括文件特征更新模块，所述文件特征更新模块：通过在客户端检查文件元数据扩展属性中文件相关特征的偏移量与新增数据是否存在重叠现象，来判断文件相关特征是否存在被覆盖的情况；如果存在被覆盖现象，则将该部分文件相关特征视为无效，直接删除这些无效的文件相关特征完成更新操作。
16.优选的，所述文件特征更新模块还包括：当出现文件删除操作时，分布式文件系统会采用延迟更新的方式，并不会立即删除文件相关特征信息，而是在文件相关特征的相关文件再一次被访问时，删除被访问文件元数据扩展属性中关于已被清除文件的文件相关特征信息。
17.优选的，所述客户端缓存层还包括强一致性同步控制模块，所述强一致性同步控制模块：采用基于分布式存储的强一致性策略，通过同时和同文件分配权限的方式提供强一致性，客户端也会定期的清理自身的元数据缓存。
18.优选的，所述元数据服务器缓存层包括存储和同步文件特征模块，所述存储和同步文件特征模块：将元数据服务器中预取回的元数据返回客户端时，以规定的组织形式序列化在预取队列中；文件的元数据结构维护和记录文件的元数据信息，通过对文件访问序列进行特征分析，对目录和文件路径名进行语法分析后，针对文件访问顺序、同级目录关系、应用访问顺序和用户读取顺序提取文件相关特征并编码，将提取的文件相关特征编码存储在文件元数据的扩展属性中；同时在真实集群运行中抽取数据集并搭建文件预取分析模型，将文件预取分析模型计算后得到的文件及文件相关特征信息、预取分值组织成键值对的形式，存储在与其关联文件的元数据扩展属性中；当客户端需要访问目标文件时，可直接从文件元数据中读取。
19.优选的，所述元数据服务器缓存层还包括预取关联元数据模块，所述预取关联元数据模块：当客户端向元数据服务器发起元数据请求时，元数据服务器处理目标文件的元数据请求，根据目标文件元数据扩展属性中的文件相关特征，在元数据服务器的缓存中遍历其关联文件的元数据信息，将其关联文件的元数据信息一起打包到响应消息中以单个元数据i/o的方式返回给客户端。
20.根据本发明提供的一种针对分布式文件系统的元数据预取方法，包括如下步骤：
21.客户端缓存步骤：负责提取、更新和同步文件相关特征，提供对文件相关特征操作的支持；
22.元数据服务器缓存步骤：负责存储和同步文件相关特征，执行文件元数据操作。
23.与现有技术相比，本发明具有如下的有益效果：
24.1、本发明通过从文件访问顺序中学习已取出文件与待分析文件之间的隐藏关系，以提取文件相关特征，并借助提取的特征进行元数据预取，从而缩小预取范围、提高预取准确率；
25.2、本发明在元数据服务器响应目标文件的元数据请求时，通过预取方法提前将其关联文件的元数据预取到客户端，从而缩短关联文件的元数据存取流程，同时减少系统中元数据请求的数目，大幅提升分布式文件系统中元数据的存取性能，实现分布式文件系统
整体的性能提升；
26.3、本发明的文件相关特征提取高效，通过对文件访问序列进行特征分析、对目录及文件路径名进行语法分析以实时探索文件的相关特征，引入轻量级的模式匹配方法以加速探索流程，降低特征提取操作所带来的额外开销；
27.4、本发明透明支撑，通过一定的组织形式规范化文件特性信息，将提取的文件相关特征同时也将模型计算后得到的文件及其特性信息编码存储在文件元数据的扩展属性中，同时复用现有的文件系统接口，避免引入额外的元数据i/o请求及同步操作；
28.5、本发明具有双层元数据缓存管理机制，通过设置客户端缓存层和服务器端缓存层双层结构，其中，客户端提供对文件相关特征操作的支持，元数据服务器负责存储并同步文件相关特征、预取关联文件的元数据，双层结构提高元数据的查询效率，以提供两阶段加速。
附图说明
29.通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
30.图1为预取系统架构图；
31.图2为预取方法数据流程图。
具体实施方式
32.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。
33.本发明实施例公开了一种针对分布式文件系统的元数据预取系统，如图1和图2所示，包括功能层级框架和系统总体模块，功能层级框架还包括客户端层面和元数据服务器层面。
34.客户端层面包括客户端缓存层，客户端缓存层负责提取、更新和同步文件相关特征，提供对文件相关特征操作的支持。
35.元数据服务器层面包括元数据服务器缓存层，元数据服务器缓存层负责存储和同步文件相关特征，执行文件元数据操作。
36.系统总体模块包括客户端和元数据服务器；由应用程序发起的元数据的读请求操作通过分布式文件系统到达客户端，客户端在本地元数据缓存空间中搜索目标文件的元数据检查所需的元数据是否存在于客户端的本地缓存中；若命中本地缓存，则根据找到的文件元数据进行相应的处理操作并响应应用程序的请求；否则客户端将会通过网络把元数据的读请求操作发送到其管理的元数据服务器查找所需的元数据；元数据服务器包括预取模块，元数据服务器中的预取模块开始在元数据缓存中搜索并收集目标文件和与目标文件关联的文件的元数据信息，然后元数据服务器将目标文件和与目标文件关联的文件的元数据信息整合在响应消息中并发送给客户端，客户端在其本地缓存中处理带有响应消息的目标文件和关联文件的后续元数据请求。
37.当应用程序发起元数据的写操作时，客户端包括库，库包括语法分析模块，会触发客户端的库中的语法分析模块提取文件所存在的文件相关特征。提取出的文件相关特征先缓存在分布式文件系统客户端中的元数据缓存中，并伴随分布式文件系统原有的元数据同步i/o，将新增的文件相关特征同步到元数据服务器，得到新的元数据版本；当元数据服务器收到元数据同步请求后，会在元数据缓存中用新的元数据版本替换旧的元数据版本。i/o表示接口的输入/输出。
38.客户端缓存层包括实时提取文件特征模块、文件特征更新模块和强一致性同步控制模块。实时提取文件特征模块：首先获取包括文件访问序列、目录和文件路径名的文件元数据信息，通过客户端语法分析模块中语法分析机制的模式匹配算法在文件元数据部分寻找目标格式的数据内容从而确定与目标格式的数据内容关联的文件信息；基于用户给定的目标关键字从文件访问序列、目录和文件路径名等信息中提取文件相关特征。
39.实时提取文件相关特征技术，通过实时的文件相关特征的提取方式以更好的适应系统负载特征的动态改变。首先获取文件访问序列、目录及文件路径名等文件元数据信息，通过语法分析机制中的模式匹配算法在文件元数据部分寻找目标格式的数据内容从而确定与之关联的文件信息。基于用户给定的目标关键字即可完成文件相关特征的快速提取。
40.文件特征更新模块：通过在客户端检查文件元数据扩展属性中文件相关特征的偏移量与新增数据是否存在重叠现象，来判断文件相关特征是否存在被覆盖的情况。如果存在被覆盖现象，则将该部分视为无效，直接删除这些无效的文件相关特征完成更新操作。当出现文件删除操作时，分布式文件系统会采用延迟更新的方式，并不会立即删除文件相关特征信息，而是在文件相关特征的相关文件再一次被访问时，删除被访问文件元数据扩展属性中关于已被清除文件的文件相关特征信息。
41.文件特征更新技术，通过在客户端检查文件元数据扩展属性中文件相关特征的偏移量与新增数据是否存在重叠现象，来判断文件相关特征是否存在被覆盖的情况；如果存在被覆盖现象，则将该部分文件相关特征视为无效，直接删除这些无效的文件相关特征即可完成更新操作。当出现文件删除操作时，系统会采用延迟更新的方式，并不会立即删除文件相关特征信息，而是在其相关文件再一次被访问时，删除被访问文件元数据扩展属性中关于已被清除文件的特征信息即可。
42.强一致性同步控制模块：采用基于分布式存储的强一致性策略，通过同时和同文件分配权限的方式提供强一致性，客户端也会定期的清理自身的元数据缓存。
43.强一致性同步控制技术，采用基于分布式存储的强一致性策略，以保证客户端所访问到的都是最新的一致的元数据。通过同时、同文件只分配一条权限的方式提供强一致性，客户端也会定期的清理自身的元数据缓存。
44.元数据服务器缓存层包括存储和同步文件特征模块、预取关联元数据模块。存储和同步文件特征模块：将元数据服务器中预取回的元数据返回客户端时，以规定的组织形式序列化在预取队列中。文件的元数据结构维护和记录文件的元数据信息，通过对文件访问序列进行特征分析，对目录和文件路径名进行语法分析后，针对文件访问顺序、同级目录关系、应用访问顺序和用户读取顺序四大相关特征提取文件相关特征并编码，将提取的文件相关特征编码存储在文件元数据的扩展属性中。根据一个有固定顺序的字典，将所抽取数据特征中的文字转化为对应的数字id，这样就可以依据设定好的顺序进行拼接，最终得
到一个可用于计算的文件特征向量。同时在真实集群运行中抽取数据集并搭建文件预取分析模型并训练，将文件预取分析模型计算后得到的文件及文件相关特征信息、预取分值组织成键值对的形式，存储在与其关联文件的元数据扩展属。当客户端需要访问目标文件时，可直接从文件元数据中读取。
45.存储和同步文件特征技术，将元数据服务器中预取回的元数据返回客户端时，需要以规定的组织形式序列化在预取队列中。文件的元数据结构维护和记录了文件的元数据信息，通过对文件访问序列进行特征分析、对目录及文件路径名进行语法分析后，将提取的文件相关特征编码存储在文件元数据的扩展属性中。同时也将模型计算后得到的文件及其特性信息、预取分值组织成<k,v>键值对的形式，存储在与其关联文件的元数据扩展属性中。当客户端需要访问目标文件时，可直接从文件元数据中读取，无需再向元数据服务器发送请求，从而缩短关联文件的元数据存取流程，同时减少系统中元数据访问请求的数目。
46.预取关联元数据模块：当客户端向元数据服务器发起元数据请求时，元数据服务器处理目标文件的元数据请求，根据目标文件元数据扩展属性中的文件相关特征，在元数据服务器的缓存中遍历其关联文件的元数据信息，将其关联文件的元数据信息一起打包到响应消息中以单个元数据i/o的方式返回给客户端。
47.预取关联元数据技术，当客户端向元数据服务器发起元数据请求时元数据服务器首先处理目标文件的元数据请求，然后根据目标文件元数据扩展属性中的文件相关特征，依次在缓存中遍历其关联文件的元数据信息，最后将其关联文件的元数据信息一起打包到响应消息中以单个元数据i/o的方式返回给客户端。
48.针对分布式文件系统的元数据预取方法从系统总体结构设计与功能层级框架设计两方面展开。
49.系统总体结构设计：元数据的读请求操作首先通过文件系统到达客户端，客户端首先在本地元数据缓存空间中搜索目标文件的元数据以检查所需的元数据是否存在于客户端的本地缓存中。若命中本地缓存，则根据找到的文件元数据进行相应的处理操作并响应应用请求；否则客户端将会通过网络把请求发送到其管理的元数据服务器查找所需的元数据。元数据服务器中的预取模块开始在元数据缓存中搜索并收集目标文件和及其关联文件的元数据信息，然后元数据服务器将所有的元数据整合在一条响应消息中并发送给客户端，以便客户端可以在其本地缓存中处理这些文件的后续元数据请求。而当发起写操作时，会触发库中的语法分析模块以提取文件所存在的文件相关特征；提取出的特征先缓存在分布式文件系统客户端中的元数据缓存中，并伴随系统原有的元数据同步i/o，将新增的文件相关特征同步到元数据服务器。当元数据服务器收到元数据同步请求后，会在元数据缓存中用新的元数据版本替换旧的元数据版本。
50.功能层级框架设计：客户端层面：客户端缓存层主要提供对文件相关特征操作的支持，负责提取、更新和同步文件相关特征。
51.元数据服务器层面：元数据服务器缓存层负责存储和同步文件相关特征、执行文件元数据操作。
52.本发明通过从文件访问顺序中学习已取出文件与待分析文件之间的隐藏关系，以提取文件相关特征，并借助提取的特征进行元数据预取，从而缩小预取范围、提高预取准确率，在元数据服务器响应目标文件的元数据请求时，通过预取方法提前将其关联文件的元
数据预取到客户端，从而缩短关联文件的元数据存取流程，同时减少系统中元数据请求的数目，大幅提升分布式文件系统中元数据的存取性能，实现分布式文件系统整体的性能提升。
53.本发明用于提升分布式文件系统中元数据的存取性能，当元数据服务器响应目标文件的元数据请求时，系统可以提前将其关联文件的元数据发送到客户端，从而缩短了关联文件元数据的存取流程，同时减少了系统中元数据的请求数目。
54.本发明采用从文件访问顺序中学习已取出文件与待分析文件之间隐藏关系的方法提取文件相关特征，并借助提取的特征进行元数据预取缓存的方法，其具有以下技术特点和能力优势：1、高效的文件相关特征提取：通过对文件访问序列进行特征分析、对目录及文件路径名进行语法分析以实时探索文件的相关特征，引入轻量级的模式匹配方法以加速探索流程，降低特征提取操作所带来的额外开销。2、透明支撑：通过一定的组织形式规范化文件特性信息，将提取的文件相关特征同时也将模型计算后得到的文件及其特性信息编码存储在文件元数据的扩展属性中；同时复用现有的文件系统接口，避免引入额外的元数据i/o请求及同步操作。3、双层元数据缓存管理机制：通过设置客户端缓存层和服务器端缓存层双层结构。其中，客户端提供对文件相关特征操作的支持，元数据服务器负责存储并同步文件相关特征、预取关联文件的元数据；双层结构提高元数据的查询效率，以提供两阶段加速。
55.本发明实施例还公开了一种针对分布式文件系统的元数据预取方法，包括如下步骤：客户端缓存步骤：负责提取、更新和同步文件相关特征，提供对文件相关特征操作的支持。元数据服务器缓存步骤：负责存储和同步文件相关特征，执行文件元数据操作。
56.本发明元数据预取缓存，使用从文件访问顺序中学习已取出文件与待分析文件之间隐藏关系的方法提取文件相关特征，并借助提取的特征进行元数据预取，可减轻由于客户端元数据高度并发访问所导致的元数据服务器集群的负载压力过大问题，大幅提升分布式文件系统中元数据的存取性能，实现分布式文件系统整体的性能提升。
57.本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
58.以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本技术的实施例和实施例中的特征可以任意相互组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种大尺度水果计数方法及系统与流程

针对分布式文件系统的元数据预取系统及方法与流程

相关文献

最热文献