一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种远程堆管理方法及远程堆管理系统

2022-07-13 17:39:41 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,具体涉及一种远程堆管理方法及远程堆管理系统。


背景技术:

2.在云计算环境中,内存资源是竞争最激烈的资源。在google和阿里巴巴的服务器集群中,平均内存利用率是60%,并且不同的节点内存利用率存在巨大的差异,相比之下,cpu的平均利用率则只有40%。除此之外,内存资源还是云计算环境中最难以扩展的资源。因为应用程序只能使用本机的内存,一旦本机内存耗尽,就必须强行关闭一些应用程序来释放内存资源。据统计,在google的数据中心中,一个月内就有79万个应用程序因为内存不足而被强行关闭。由于集群内各个节点内存利用率的差异,此时还有许多节点有空闲内存,却无法被内存紧缺节点上的应用程序使用。
3.应用程序只能使用本地内存还造成了另外一个问题,即计算资源和内存资源无法各自独立地扩展。一些计算密集型的程序,消耗的计算资源多,消耗的内存资源少,导致空闲的本地内存被浪费。另一些程序需要消耗大量内存资源,但本机内存资源的上限受主板的dimm插槽数和内存条容量等硬件限制,无法进行扩展,限制了程序能处理的数据规模。
4.近年来高速发展的nvm(node.js version management)存储技术具有高密度、大容量、可按字节寻址、访存延迟和传统dram内存相近等特性。因此用nvm替代dram(remote direct memory access)作为计算机系统的主存,可以提供更大的内存空间以及降低单位容量内存的成本。但nvm技术的引入,并不能解决计算资源和内存资源无法独立扩展的问题,反而让解决这个问题的需求变得更加紧迫。因为每台新增的服务器都可以搭载数十tb的nvm内存,远超出单台服务器承载的应用程序的需要。所以需要让这些空闲的nvm内存能被其它内存资源紧张的服务器有效利用。除此之外,使用nvm替代dram作为主存还需要考虑其寿命问题。nvm的使用寿命显著低于dram,其允许的最大擦写次数大概为10
8-109次,而dram的最大擦写次数则大于10
15
次。因此,针对nvm的内存管理方案必须要考虑nvm易磨损的问题。
5.为了解决内存资源紧张,扩展性差,节点间内存利用率不平衡等问题,必须能让应用程序有效利用集群内其它节点上的空闲内存,远程堆技术因此产生。远程堆的思想早在二十几年前就产生了。但因为受到当时的网络技术限制,网络传输延迟大概比内存访问延迟高三个数量级,所以在性能上不可接受。直到近几年,高带宽、低延迟的rdma和infiniband等网络技术兴起,让远程堆变成了一个真正具备可行性的解决方案。
6.rdma和infiniband技术能够让网络数据传输的带宽达到100gb/s,已经和内存的带宽相仿,节点间往返延迟小于2us,和内存的访问延迟(几百纳秒)差距从三个数量级缩小到一个数量级。但也正是因为rdma和infiniband技术的性能特点和编程模型与传统的基于套接字接口的tcp/ip协议栈有了非常大的区别,给远程堆的设计带来了一些新的问题和挑战。要想充分发挥它们的性能潜力,新的远程堆方案不能简单地用rdma技术替换原有的基于tcp/ip方案的网络模块,而是需要围绕rdma的特点来重新设计整个远程堆方案。
7.总的来说,设计基于rdma技术和nvm技术的远程堆方案,面临如下所述的三个挑战。
8.第一,虽然rdma的带宽和内存带宽相仿,但是访问延迟依然比内存访问延迟高出一个数量级。这就要求在向远程堆传输数据的时候,应该尽量使用大量、顺序传输的方式,避免使用随机的、小规模的传输,以最大化利用rdma的高带宽,同时分摊单次传输的延迟。问题在于,在经典面向对象程序设计思想的指导下,由于对象的职责应该精简且单一,每个内存对象的大小不会太大。并且因为很多内存数据结构,例如哈希表等,其访问模式具有随机性,所以在使用过程中会产生很多随机的更新操作。由此可知,传统的内存管理方式和内存访问模式,与发挥rdma性能优势的要求背道而驰。所以,新的远程堆方案,需要让内存管理方式和访问模式适应rdma的性能特点。
9.第二,网络传输延迟的降低使得通信双方的软件处理开销成为了一个性能瓶颈点。传统的远程堆方案中,客户机要存取远程堆中的对象时,需要与远程堆服务主机采用“请求——响应”的方式进行通信。这种方式下,通信双方都需要进行软件处理。客户机发送读写请求,远程堆服务主机解析请求,查询远程对象元数据,从接收缓冲区把数据拷贝到对象中,或是把对象拷贝到发送缓冲区,然后发送响应,客户机接收并解析响应,把对象数据从接收缓冲区拷贝到本地对象缓存中。这之中涉及许多步骤,甚至还需要进行对象数据的拷贝,产生了不小的软件开销。由此可见,远程堆的访存延迟不仅包括在网络中传输数据的延迟,还包括客户端与服务器处理数据的延迟。在传统的远程堆方案中,由于网络传输延迟是毫秒级,相比之下,微秒级的主机软件处理开销可以忽略。但现在rdma技术使得网络传输延迟也下降到微秒级,软件开销就不能再被忽略了。恰好,rdma read/write单边操作允许客户机直接存取远程堆服务主机的内存,整个过程无需远程堆服务主机上的服务程序进行感知和任何软件处理。因此,使用rdma单边操作,理论上可以完全避免服务端的软件处理开销。但是这样的交互方式也打破了传统的“请求——响应”模型,导致基于此模型的传统远程堆方案难以有效利用rdma单边操作。
10.第三,nvm的最大擦写次数远小于dram,这就要求针对nvm的远程堆管理方案需要主动进行磨损均衡来延长nvm的寿命。磨损均衡指的是让写操作尽量在整个nvm空间中均匀分布而不是集中在少数热点区域。但是在许多传统的dram远程堆方案中,对象在堆中的位置是固定的,因此对同一个对象的每次更新都会在相同的地址进行写操作,这就导致了写操作的集中,不利于进行磨损均衡。
11.目前的远程堆方案中,第一类是以fastswap为代表的,基于页面交换机制的方案。当前操作系统的虚拟内存子系统会把较少被访问的内存页面中的数据保存到磁盘中,然后回收对应的内存空间。等到这些数据下次被访问时,再分配新的内存空间,并从磁盘中读入之前保存的数据。而基于页面交换机制的远程堆,原理与之非常相似,只不过是用远端内存替换了磁盘。此类方案的一个问题是软件开销过大。访问一个不在本地内存中的页面时,会触发缺页异常,然后进入操作系统虚拟内存子系统的复杂处理流程中。缺页异常的触发,虚拟内存子系统的处理,以及异常处理返回时可能发生的进程调度,都是十分耗时的,总开销高达十几微秒。第二个问题是此方案存在较为严重的读写放大效应。因为页面大小固定,且至少为4kb。所以每当访问一个不在本地内存中的页面时,即使只需要访问1个字节的数据,也必须将整个4kb的页面读入。同样地,每当一个页面需要被换出到远端内存时,即使该页
面的数据只有1个字节被更新,也需要向远端传输整个页面。写放大效应不仅会导致传输带宽的浪费,增加传输延迟,还会对nvm的使用寿命造成不利影响。
12.第二类方案以aifm为代表,不再使用页面交换机制,而是以对象为粒度来管理数据在本地内存和远端内存中的移动。此类方案不再依靠虚拟内存子系统和cpu产生的缺页异常来判断对象是否位于本地内存,而是使用软件定义的“远程对象指针”来判断对象在本地内存还是远程堆,并为本地和远程对象提供统一的访问接口。此类方案避免了客户端的缺页异常和虚拟内存子系统的处理开销,并且改善了第一类方案中的读写放大问题。但此类方案同样存在两个较为明显的问题。第一,在将本地对象迁移到远程堆时,会产生大量随机的小规模数据传输,不利于充分发挥rdma的性能优势。第二,此类方案依然使用“请求——响应”的方式与远程堆交互,没能减轻服务端的软件处理开销。
13.第三类方案以asymnvm为代表,通过批量传输对象来避免随机的小规模数据传输。此类方案在需要将一个对象传输到远程堆时,不是直接传输,而是在本地日志区中创建一条日志。日志记录了对象的id和对象的数据。等到日志数据量积累到一定的阈值后,再通过一次数据传输操作将日志顺序传输到远程堆服务主机。远程堆服务主机收到日志后,根据日志更新远程堆中的对象数据,然后返回响应。此类方案通过累积日志,批量传输的方式,改善了rdma网络传输效率,但同样使用了“请求——响应”模型,未能消除服务端的软件处理开销。并且此类方案将对象保存在远程堆中的固定位置,导致写操作集中于部分热点区域,不利于进行磨损均衡延迟nvm寿命。
14.由此可见,目前尚没有一种远程堆方案,既能避免更新对象时产生大量随机小规模数据传输,又能消除远程堆服务主机的软件处理开销,同时还考虑了磨损均衡问题,使写操作在nvm上尽量均匀分布。
15.目前的远程堆方案,普遍存在向远程堆写回对象时rdma性能利用不充分,以及远程堆服务程序软件处理开销和数据拷贝开销较大的问题。


技术实现要素:

16.本发明的目的在于提供一种远程堆管理方法及远程堆管理系统,以解决现有的远程堆管理普遍存在向远程堆写回对象时rdma性能利用不充分,以及远程堆服务程序软件处理开销和数据拷贝开销较大的问题。
17.本发明解决上述技术问题的技术方案如下:
18.本发明提供一种远程堆管理方法,应用于客户端,所述远程堆管理方法包括:
19.s1:从本地存储空间划分出日志区;
20.s2:接收对象数据的写入请求;
21.s3:将所述对象数据写入所述日志区;
22.s4:判断所述对象数据是否为更新数据,若是,进入步骤s5;否则,进入步骤s6;
23.s5:将原对象数据在远程堆空间的存储段中对应的空间标记为空闲区域并将所述对象数据置于新的存储位置;其中,所述远程堆空间包括多个段,多个所述段包括存储段和空闲段,所述存储段包括存储区域和空闲区域;
24.s6:判断所述日志区的存储空间是否等于额定空间,若是,进入步骤s7;否则,返回步骤s2;
25.s7:将所述日志区中所有对象数据传输至所述日志区当前对应的空闲段中、清空所述日志区、标记所述当前对应的空闲段为存储段并选择下一个空闲段作为所述日志区的当前对应段,之后返回步骤s2。
26.可选择地,多个所述段的存储空间大小和所述日志区的存储空间大小相等。
27.可选择地,所述步骤s5包括:
28.s51:根据所述对象数据的智能指针找到对象描述符,其中,所述智能指针为对象元数据的存储位置,所述对象数据包括所述对象元数据;
29.s52:根据所述对象描述符,获取对象锁;
30.s53:判断所述对象数据的本地地址是否为空指针,若是进入步骤s54,否则,进入步骤s510;
31.s54:判断所述对象数据的远程地址是否为空指针,若是,进入步骤s56;否则,进入步骤s55;
32.s55:将所述对象描述符从段描述符的对象元数据链表中移除,即将所述段描述符的有效数据量减去该对象描述符的数据量的大小,得到空闲区域的数据量大小;
33.s56:将所述对象数据追加到日志区;
34.s57:将对象描述符加入日志缓冲区对应段的段描述符对象元数据链表,并更新有效数据量;
35.s58:更新所述对象数据的本地地址指针,指向本次在日志区写入数据的位置;
36.s59:释放对象锁,以将所述对象数据写入所述日志区中;
37.s510:判断所述对象数据是否处于缓存淘汰算法的链表中,若是,进入步骤s511;否则,进入步骤s513;
38.s511:释放所述对象数据的本地地址指向的缓存空间;
39.s512:将所述对象数据从所述缓存淘汰算法链表中移除,即将缓存使用量计数器减去该对象数据的大小并返回步骤s54;
40.s513:将所述对象数据写入所述对象数据本地地址指向的位置,即新的存储位置。
41.可选择地,所述步骤s7中,所述将所述日志区中所有对象数据传输至所述日志区当前对应的空闲段之前,所述远程堆管理方法还包括:
42.获取所述空闲段的空闲段链表的第一个节点;
43.获取所述第一个节点对应段的地址;
44.将所述第一个节点对应段的地址填入所述段描述符;
45.初始化所述段描述符的有效数据量和对象元数据链表头,得到新的段描述符,其中所述有效数据量初始化为零,所述对象元数据链表头初始化为空指针;
46.将所述新的段描述符加入所述客户端本地的空闲段链表,得到空闲段;
47.将所述空闲段作为与所述日志区当前对应的空闲段。
48.可选择地,所述远程堆管理方法还包括:读取所述对象数据;以及整理多个所述段,包括:迁移位于所述存储区域的对象数据,回收所述存储段中的空闲区域。
49.可选择地,所述读取所述对象数据包括:
50.a1:根据智能指针(对象元数据的存储位置)找到对象描述符;
51.a2:根据所述对象描述符获取对象锁(防止一个对象同事发生多个操作);
52.a3:判断所述对象数据的远程地址是否为空指针,若是,进入步骤a4;否则,进入步骤a6;
53.a4:将所述对象数据全部视为零,完成所述对象数据的接收后释放对象锁;
54.a5:判断所述对象数据的本地地址是否为空指针,若是,进入步骤a6,否则,进入步骤a7;
55.a6:将所述对象数据读入本地缓存,将所述对象描述符加入缓存淘汰算法的链表中,将所述对象数据的本地地址指向缓存并返回步骤a5(将本地地址的值设置为对象在本地缓存中的存储位置);
56.a7:从所述对象数据的本地地址读取对象数据;;
57.a8:判断所述对象是否处于缓存淘汰算法链表中,若是,进入步骤a9;否则,进入步骤a4;
58.a9:将所述对象数据移动到所述缓存淘汰算法链表的表头部后进入步骤a4。
59.可选择地,迁移位于所述存储区域的对象数据,所述回收所述存储段中的空闲区域包括:
60.b1:获取多个所述段的当前情况;
61.b2:根据所述当前情况,生成对各所述段中的对象数据的迁移指令;
62.b3:接收远程堆的迁移完成响应,并根据所述迁移完成响应回收所述存储段中的空闲区域。
63.可选择地,所述步骤b2包括:
64.b21:扫描与所述日志区对应的当前段的段描述符的对象元数据链表,并将所述当前段中对象数据的对象描述符的智能指针添加到临时列表a;
65.b22:判断所述当前段是否具有空闲区域,若是,进入步骤b23,否则,进入步骤b29,
66.b23:确定所述当前段中的待迁移对象数据并在所述日志区中为所述待迁移对象数据分配空间;
67.b24:判断变量大小是否小于分配成功的空间大小且所述临时列表a不为空,若是,进入步骤b25,否则,进入步骤b28;
68.b25:获取所述临时列表a中的智能指针,以及其所对应的对象描述符;
69.b26:判断是否满足所述对象描述符中记录的引用计数不为1且所述对象数据仍在所述当前段内,若满足,进入步骤b27,否则,返回步骤b24;
70.b27:为所述对象数据生成迁移指令,将所述智能指针添加到临时列表b,并累加计算变量,以更新所述变量后返回步骤b24;
71.b28:将所有迁移指令发往所述远程节点;
72.b29:将下一个存储段作为当前段并返回步骤b22。
73.可选择地,所述接收远程堆的迁移完成响应,并根据所述迁移完成响应回收所述存储段中的空闲区域包括:
74.b31:判断所述临时列表b是否不为空,若是,进入步骤b32,否则,进入步骤b39;
75.b32:获取所述临时列表b中的智能指针;
76.b33:获取所述智能指针所对应的对象描述符;
77.b34:根据所述对象描述符,获取对象锁;
78.b35:判断是否满足所述对象描述符中记录的引用计数不为1且所述对象数据仍在所述当前段内,若满足,进入步骤b36;否则,进入步骤b38;
79.b36:将所述对象描述符从所在的对象元数据链表中移除,加入迁移目的地址所在段的对象元数据链表;
80.b37:减小迁移源地址所在段的有效数据量,完成对空闲区域的回收,同时增大迁移目的地址所在段的有效数据量后进入步骤b38;
81.b38:释放所述对象锁;
82.b39:清空临时列表a;
83.b310:判断当前被整理的段的有效数据量是否为零,若是,进入步骤b311,否则,返回步骤b32;
84.b311:将对应的段描述符加入本地空闲段链表。
85.本发明还提供一种远程堆管理方法,应用于远程堆,所述远程堆管理方法包括:将所述远程堆的远程堆空间划分为多个段,其中,多个所述段包括存储段和空闲段;提供空闲段与所述日志区相对应,即接收来自日志区的所有对象数据,以及配合所述日志区对所述对象数据的更新。
86.可选择地,所述远程堆管理方法还包括:当客户端掉线或发生故障时,回收与所述日志区当前所对应的段;接收所述客户端发送的迁移指令,根据所述迁移指令拷贝所述对象数据以进行迁移操作,并在迁移完成之后向所述客户端发送响应。
87.可选择地,所述接收所述客户端发送的迁移指令,根据所述迁移指令对拷贝对象进行迁移操作,并在迁移完成之后向所述客户端发送响应包括:
88.c1:接收所述客户端发送的迁移指令,并将所述迁移指令保存在指令列表中;
89.c2:判断所述指令列表是否不为空,若是,进入步骤c3,否则,进入步骤c7;
90.c3:从所述指令列表中取出一条指令并进入步骤c4;
91.c4:判断迁移目的地址是否在本节点中,若在,进入步骤c5,否则,进入步骤c6;
92.c5:将所述对象数据拷贝到迁移目的地址后返回步骤c2;
93.c6:将所述对象数据写入迁移目的地址后返回步骤c2;
94.c7:迁移完成,向所述客户端发送响应。
95.本发明还提供一种基于上述的远程堆管理方法的远程堆管理系统,所述远程堆管理系统包括:
96.客户端,所述客户端包括第一段管理模块、对象元数据管理模块、日志区管理模块、缓存管理模块和第一内存整理模块;
97.所述第一段管理模块用于:为所述日志区分配空闲段;
98.所述对象元数据管理模块用于分配对象描述符,所述对象描述符用于存储所述对象数据的对象元数据,其中,所述对象描述符包括所述对象数据的大小、所述对象数据在远程堆和/或本地缓存和/或日志区中的地址、所述对象数据的引用计数和对象锁;
99.所述日志区管理模块用于:读取所述对象数据;将所述对象数据和/或更新数据写入所述日志区;在所述日志区的存储空间等于额定空间时,将所述日志区中所有对象数据传输至所述日志区当前对应的空闲段中并清空所述日志区;
100.所述缓存管理模块用于:对所述对象数据进行缓存管理,其中,所述缓存管理包括
统计当前缓存量以及释放所述对象数据占据的缓存空间;
101.所述第一内存整理模块用于:整理多个所述段,包括:迁移位于所述存储区域的对象数据,回收所述存储段中的空闲区域;以及
102.远程堆,所述远程堆包括第二段管理模块和第二内存整理模块;
103.所述第二段管理模块用于:初始化所述远程堆的远程堆空间;当客户端掉线或发生故障时,回收与所述日志区当前所对应的段;
104.所述第二内存整理模块用于:接收所述客户端发送的迁移指令,根据所述迁移指令完成对待迁移对象的实际迁移工作,并在迁移完成之后向所述客户端发送响应。
105.本发明具有以下有益效果:
106.1、本发明在向远程堆写回对象时,不存在随机小规模数据传输,能够充分发挥rdma传输大量连续数据的性能优势;
107.2、对象的分配、释放、读入和写回操作全部由客户端独自完成,不需要远程节点参与任何处理,没有任何服务端软件处理开销;
108.3、日志结构的远程堆管理方式有很好的磨损均衡效果;
109.4、对象写回操作不产生任何数据拷贝开销;
110.5、日志中除了对象数据之外,不包含任何额外信息,避免了对内存和网络资源的浪费。
附图说明
111.图1为本发明所提供的远程堆管理方法应用于客户端的流程图;
112.图2为本发明所提供的远程堆管理方法的写对象的结构示意图;
113.图3为本发明所提供的远程堆管理方法的日志区的存储空间等于额定空间的结构示意图;
114.图4为本发明所提供的远程堆管理方法的更新对象数据的结构示意图;
115.图5为图1中步骤s5的分步骤流程图;
116.图6为第一段管理模块的结构示意图;
117.图7为读取对象数据的流程图;
118.图8为更新对象数据的流程图;
119.图9为图8中步骤b2的分步骤流程图;
120.图10为图8中步骤b3的分步骤流程图;
121.图11为应用于远程堆的更新对象数据的流程图;
122.图12为对象元数据管理模块的结构示意图;
123.图13为日志区管理模块的结构示意图;
124.图14为第二段管理模块的结构示意图;
125.图15为整理包括空闲区域的存储段的结构示意图。
具体实施方式
126.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
127.实施例1
128.本发明提供一种远程堆管理方法,应用于客户端,参考图1所示,所述远程堆管理方法包括:
129.s1:从本地存储空间划分出日志区;
130.由于在本发明中,首先将远程堆的远程堆空间划分为若干固定大小的段,每个段的长度为1gb,因此,为了让远程堆与客户端相对应,客户端本地内存空间中,也会划分出1gb的空间作为日志区,并且从自己所管理的远程堆空间的段中,选择一个空闲段,作为日志区对应的段。当然,本领域技术人员可以选择为其他容量的存储空间,本发明不做具体限制,以实现多个所述段的存储空间大小和所述日志区的存储空间大小相等即可。
131.s2:接收对象数据的写入请求;
132.s3:将所述对象数据写入所述日志区;
133.s4:判断所述对象数据是否为更新数据,若是,进入步骤s5;否则,进入步骤s6;
134.s5:将原对象数据在远程堆空间的存储段中对应的空间标记为空闲区域并将所述对象数据置于新的存储位置;其中,所述远程堆空间包括多个段,多个所述段包括存储段和空闲段,所述存储段包括存储区域和空闲区域;
135.这里,所有的对象数据的更新操作,都是把新的对象数据顺序写入日志区,然后修改客户端本地内存中的对象元数据和段管理元数据,标记旧对象数据所占据的空间为空闲区域。
136.s6:判断所述日志区的存储空间是否等于额定空间,若是,进入步骤s7;否则,返回步骤s2;
137.等到本地日志区写满后,通过一次rdma write操作把整个日志区的数据写入日志区对应的段中。然后再为日志区选择一个新的空闲段与之对应。
138.s7:将所述日志区中所有对象数据传输至所述日志区当前对应的空闲段中、清空所述日志区、标记所述当前对应的空闲段为存储段并选择下一个空闲段作为所述日志区的当前对应段,之后返回步骤s2。具体参考图2至图4。
139.可选择地,参考图5所示,所述步骤s5包括:
140.s51:根据所述对象数据的智能指针找到对象描述符,其中,所述智能指针为对象元数据的存储位置,所述对象数据包括所述对象元数据;
141.s52:根据所述对象描述符,获取对象锁;
142.s53:判断所述对象数据的本地地址是否为空指针,若是进入步骤s54,否则,进入步骤s510;
143.s54:判断所述对象数据的远程地址是否为空指针,若是,进入步骤s56;否则,进入步骤s55;
144.s55:将所述对象描述符从段描述符的对象元数据链表中移除,即将所述段描述符的有效数据量减去该对象描述符的数据量的大小,得到空闲区域的数据量大小;
145.s56:将所述对象数据追加到日志区;
146.s57:将对象描述符加入日志缓冲区对应段的段描述符对象元数据链表,并更新有效数据量;
147.s58:更新所述对象数据的本地地址指针,指向本次在日志区写入数据的位置;
148.s59:释放对象锁,以将所述对象数据写入所述日志区中;
149.s510:判断所述对象数据是否处于缓存淘汰算法的链表中,若是,进入步骤s511;否则,进入步骤s5;
150.s511:释放所述对象数据的本地地址指向的缓存空间;
151.s512:将所述对象数据从所述缓存淘汰算法链表中移除,即将缓存使用量计数器减去该对象数据的大小并返回步骤s54;
152.s513:将所述对象数据写入所述对象数据本地地址指向的位置,即新的存储位置。
153.可选择地,所述步骤s7中,所述将所述日志区中所有对象数据传输至所述日志区当前对应的空闲段之前,所述远程堆管理方法还包括:
154.获取所述空闲段的空闲段链表的第一个节点;
155.获取所述第一个节点对应段的地址;
156.将所述第一个节点对应段的地址填入所述段描述符;
157.初始化所述段描述符的有效数据量和对象元数据链表头,得到新的段描述符,其中所述有效数据量初始化为零,所述对象元数据链表头初始化为空指针;
158.将所述新的段描述符加入所述客户端本地的空闲段链表,得到空闲段;
159.将所述空闲段作为与所述日志区当前对应的空闲段。
160.这里,参考图6所示,在客户端侧,第一段管理模块为每个从远程堆分配的段分配一个段描述符,还维护了两条链表,一条是空闲段链表,一条是使用中的段链表。段描述符被插入这两条链表其中之一。段描述符中记录了该段对应的远程节点,以及远程节点内存地址,还记录了该段内存储的有效对象数据数量,以及一个对象元数据链表头,链接该段内存放的所有对象对应的对象描述符。
161.客户端的段管理模块,需要负责为日志区分配空闲段。当空闲段不足,且使用的远程堆资源未超过限制时,段管理模块会通过rdma cas操作摘取远程节点内的空闲段链表的第一个节点(记为节点a),分配一个新的空闲段。同时在本地构造一个新的段描述符,根据节点a在数组中的下标得到其对应的段地址,填入新分配空闲段的地址信息,并将段内有效数据数量初始化为0,把段内对象元数据链表头初始化为空指针,然后加入本地的空闲段链表中。然后客户端的段管理模块需要通过一次rdma write操作将自己的客户端id写入节点a。
162.为了防止客户端在摘下远程节点空闲段链表上的节点a后,向节点a写入客户端id前,发生故障,或是网络长时间中断,造成对应的段得不到回收,发生远程堆资源泄漏,远程节点会定期扫描节点a所在的整个数组,以及空闲段链表,找出那些既不在链表中,又没有填写有效客户id的数组项。若找到这样的数组项,在等待一定的时间后,若数组项还未被填入客户id或是重新加入链表,则远程节点上的段管理模块会将它们重新加入空闲段链表。
163.可选择地,所述远程堆管理方法还包括:
164.读取所述对象数据;
165.以及整理多个所述段,包括:迁移位于所述存储区域的对象数据,回收所述存储段中的空闲区域。
166.可选择地,参考图7所示,所述读取所述对象数据包括:
167.a1:根据智能指针找到对象描述符;其中,智能指针即为对象元数据的存储位置。
168.a2:根据所述对象描述符获取对象锁;这里,对象锁存在的目的即为防止一个对象同时发生多个操作。
169.a3:判断所述对象数据的远程地址是否为空指针,若是,进入步骤a4;否则,进入步骤a6;
170.a4:将所述对象数据全部视为零,完成所述对象数据的接收后释放对象锁;
171.a5:判断所述对象数据的本地地址是否为空指针,若是,进入步骤a6,否则,进入步骤a7;
172.a6:将所述对象数据读入本地缓存,将所述对象描述符加入缓存淘汰算法的链表中,将所述对象数据的本地地址指向缓存并返回步骤a5;这里,指向缓存即为将本地地址的值设置为对象在本地缓存中的存储位置。
173.a7:从所述对象数据的本地地址读取对象数据;
174.a8:判断所述对象数据是否处于缓存淘汰算法链表中,若是,进入步骤a9;否则,进入步骤a4;
175.a9:将所述对象数据移动到所述缓存淘汰算法链表的表头部后进入步骤a4。
176.可选择地,参考图8所示,迁移位于所述存储区域的对象数据,所述回收所述存储段中的空闲区域包括:
177.b1:获取多个所述段的当前情况;
178.b2:根据所述当前情况,生成对各所述段中的对象数据的迁移指令;
179.b3:接收远程堆的迁移完成响应,并根据所述迁移完成响应回收所述存储段中的空闲区域。
180.可选择地,参考图9所示,所述步骤b2包括:
181.b21:扫描与所述日志区对应的当前段的段描述符的对象元数据链表,并将所述当前段中对象数据的对象描述符的智能指针添加到临时列表a;
182.b22:判断所述当前段是否具有空闲区域,若是,进入步骤b23,否则,进入步骤b29,
183.b23:确定所述当前段中的待迁移对象数据并在所述日志区中为所述待迁移对象数据分配空间;
184.b24:判断变量大小是否小于分配成功的空间大小且所述临时列表a不为空,若是,进入步骤b25,否则,进入步骤b28;
185.b25:获取所述临时列表a中的智能指针,以及其所对应的对象描述符;
186.b26:判断是否满足所述对象描述符中记录的引用计数不为1且所述对象数据仍在所述当前段内,若满足,进入步骤b27,否则,返回步骤b24;
187.b27:为所述对象数据生成迁移指令,将所述智能指针添加到临时列表b,并累加计算变量,以更新所述变量后返回步骤b24;
188.b28:将所有迁移指令发往所述远程节点;
189.b29:将下一个存储段作为当前段并返回步骤b22。
190.可选择地,参考图10所示,所述接收远程堆的迁移完成响应,并根据所述迁移完成响应回收所述存储段中的空闲区域包括:
191.b31:判断所述临时列表b是否不为空,若是,进入步骤b32,否则,进入步骤b39;
192.b32:获取所述临时列表b中的智能指针;
193.b33:获取所述智能指针所对应的对象描述符;
194.b34:根据所述对象描述符,获取对象锁;
195.b35:判断是否满足所述对象描述符中记录的引用计数不为1且所述对象数据仍在所述当前段内,若满足,进入步骤b36;否则,进入步骤b38;
196.b36:将所述对象描述符从所在的对象元数据链表中移除,加入迁移目的地址所在段的对象元数据链表;
197.b37:减小迁移源地址所在段的有效数据量,完成对空闲区域的回收,同时增大迁移目的地址所在段的有效数据量后进入步骤b38;
198.b38:释放所述对象锁;
199.b39:清空临时列表a;
200.b310:判断当前被整理的段的有效数据量是否为零,若是,进入步骤b311,否则,返回步骤b32;
201.b311:将对应的段描述符加入本地空闲段链表。
202.本发明还提供一种远程堆管理方法,应用于远程堆,所述远程堆管理方法包括:将所述远程堆的远程堆空间划分为多个段,其中,多个所述段包括存储段和空闲段;
203.远程堆空间被以段为单位分配给各个客户端进行管理。一个客户端可能管理多个远程节点中的多个段,而每个段只会属于一个客户端。
204.提供空闲段与所述日志区相对应,即接收来自日志区的所有对象数据,以及配合所述日志区对所述对象数据的更新。
205.可选择地,所述远程堆管理方法还包括:当客户端掉线或发生故障时,回收与所述日志区当前所对应的段;接收所述客户端发送的迁移指令,根据所述迁移指令拷贝所述对象数据以进行迁移操作,并在迁移完成之后向所述客户端发送响应。
206.可选择地,参考图11所示,所述接收所述客户端发送的迁移指令,根据所述迁移指令对拷贝对象进行迁移操作,并在迁移完成之后向所述客户端发送响应包括:
207.c1:接收所述客户端发送的迁移指令,并将所述迁移指令保存在指令列表中;
208.c2:判断所述指令列表是否不为空,若是,进入步骤c3,否则,进入步骤c7;
209.c3:从所述指令列表中取出一条指令并进入步骤c4;
210.c4:判断迁移目的地址是否在本节点中,若在,进入步骤c5,否则,进入步骤c6;
211.c5:将所述对象数据拷贝到迁移目的地址后返回步骤c2;
212.c6:将所述对象数据写入迁移目的地址后返回步骤c2;
213.c7:迁移完成,向所述客户端发送响应。
214.本发明还提供一种基于上述的远程堆管理方法的远程堆管理系统,所述远程堆管理系统包括:
215.客户端,所述客户端包括第一段管理模块、对象元数据管理模块、日志区管理模块、缓存管理模块和第一内存整理模块;
216.所述第一段管理模块用于:为所述日志区分配空闲段;
217.具体地,第一段管理模块为每个从远程堆分配的段分配一个段描述符,还维护了两条链表,一条是空闲段链表,一条是使用中的段链表。段描述符被插入这两条链表其中之一。段描述符中记录了该段对应的远程节点,以及远程节点内存地址,还记录了该段内存储
的有效对象数据数量,以及一个对象元数据链表头,链接该段内存放的所有对象对应的对象描述符。
218.所述对象元数据管理模块用于分配对象描述符,所述对象描述符用于存储所述对象数据的对象元数据,其中,所述对象描述符包括所述对象数据的大小、所述对象数据在远程堆和/或本地缓存和/或日志区中的地址、所述对象数据的引用计数和对象锁;
219.具体地,如图12所示,其内部维护了若干内存池,用于分配对象描述符。这些内存池被一条可用内存池链表组织起来。内存池的第一个元素用于存储内存池的元数据信息,包括空闲元素数目,分配位图,以及指向下一个可用内存池的指针。每个内存池大小为4kb,并且起始地址是4kb的整数倍。当释放一个对象描述符时,直接将其地址向下对齐到4kb的整数倍,即可找到对应的内存池元数据。对象描述符负责存储一个对象的元数据信息,包括该对象的大小,该对象在远程堆中的地址,该对象在本地缓存或是日志区中的地址,该对象的引用计数,对象锁,以及两组next和prev指针。对象锁用于保证多线程访问同一个对象的安全性。两组next和prev指针用于把该对象描述符挂入段描述符的对象元数据链表和缓存管理模块的lru链表中。
220.当需要分配一个对象时,仅仅是由对象元数据管理模块从内存池中分配一个对象描述符,并填入对象的大小,把引用计数设置为1,把对象的本地地址和远程堆地址都设置为nullptr,然后返回给用户一个指向该对象描述符的智能指针。用户对该对象的所有操作,都需要通过智能指针进行。
221.当对象的引用计数变为0时,该对象按照如下步骤被释放。第一步,根据智能指针找到对象描述符。第二步,从对象描述符中获取对象大小,如果对象在本地缓存中的话(根据对象描述符中用于加入缓存管理模块lru链表的next和prev指针判断),将对象描述符从缓存管理模块的lru链表中移除,并将本地缓存数据量减去对象的大小。第三步,如果对象在段描述符的对象元数据链表中(根据对象描述符中的远程地址是否为nullptr确定),将对象描述符从链表中移除,并将段描述符中的有效对象数据量减去该对象的大小。第四步,将该对象描述符重新放入内存池中。
222.可以发现,对象的分配和释放操作都不涉及任何和远程节点的交互或者网络通信操作,完全在本地内存中进行。
223.所述日志区管理模块用于:读取所述对象数据;将所述对象数据和/或更新数据写入所述日志区;在所述日志区的存储空间等于额定空间时,将所述日志区中所有对象数据传输至所述日志区当前对应的空闲段中并清空所述日志区;
224.具体地,如图13所示,它在本地内存中开辟了一块大小为1gb的日志缓冲区,并维护了三个指针:log_start,log_tail,remote_log_segment。分别指向日志缓冲区的起始位置,当前日志尾部,以及日志缓冲区目前对应的远程堆中的段。当更新对象时,需要把新的对象数据写入日志区。此时,日志区管理模块直接把新的对象数据写入log_tail指向的位置,然后把log_tail指针加上该对象的大小,作为新的log_tail。如果日志缓冲区剩余的空间不足,则日志区管理模块会使用rdma write操作将整个1gb大小的日志缓冲区一次性地写回remote_log_segment指针指向的段中,然后使用段管理模块分配一个新的空闲段,将段地址记录在remote_log_segment中,并将log_tail重新指向log_start。
225.所述缓存管理模块用于:对所述对象数据进行缓存管理,其中,所述缓存管理包括
统计当前缓存量以及释放所述对象数据占据的缓存空间;
226.具体地,使用lru(最近最少用)策略来管理本地缓存。其内部维护了一根lru链表,链表中是所有位于本地缓存中的对象对应的对象描述符。当某个对象被访问时,其对应的对象描述符被移动到lru链表头部。缓存管理模块内部还维护了一个计数器,统计当前缓存的使用量。每当一个对象被加入缓存,该计数器的值就会加上该对象的大小。当缓存使用量占最大允许的缓存总量的比例达到一定阈值之后,缓存管理模块就开始选择lru链表尾部的对象进行淘汰。淘汰对象时,缓存管理模块会将对象对应的对象描述符从lru链表中移除,将对象描述符中的本地内存指针设置为nullptr,将当前缓存使用量计数器减去对象的大小,并释放对象占据的缓存空间。缓存管理模块使用定制化的传统本地堆管理工具,如jemalloc,tcmalloc等,管理本地缓存空间。定制化主要体现为,在这些堆管理工具调用mmap函数向操作系统申请内存时,加入了锁定内存和进行rdma内存注册的代码,以确保本地缓存所使用的内存可以用于rdma操作。
227.所述第一内存整理模块用于:整理多个所述段,包括:迁移位于所述存储区域的对象数据,回收所述存储段中的空闲区域;以及
228.远程堆,所述远程堆包括第二段管理模块和第二内存整理模块;
229.所述第二段管理模块用于:参考图14所示,初始化所述远程堆的远程堆空间;当客户端掉线或发生故障时,回收与所述日志区当前所对应的段;
230.所述第二内存整理模块用于:参考图15所示,接收所述客户端发送的迁移指令,根据所述迁移指令完成对待迁移对象的实际迁移工作,并在迁移完成之后向所述客户端发送响应。
231.如前所述,目前的远程堆方案,普遍存在向远程堆写回对象时rdma性能利用不充分,以及远程堆服务程序软件处理开销和数据拷贝开销较大的问题。本发明能够有效解决这些问题,下面结合本发明技术方案对此进行详细说明。
232.第一,本发明在向远程堆写回对象时,不存在随机小规模数据传输,能够充分发挥rdma传输大量连续数据的性能优势。
233.本发明将所有被更新的对象在日志缓冲区中连续存放,当日志缓冲区被填满后,才会使用rdma write将整个1gb的日志缓冲区一次性连续传输到远程堆中的对应段。由此避免了对象写回时的随机小规模数据传输。
234.第二,对象的分配、释放、读入和写回操作全部由客户端独自完成,不需要远程节点参与任何处理,没有任何服务端软件处理开销。
235.由前文描述的详细技术方案可知,对象的分配和释放只涉及本地内存中的数据结构修改,不涉及网络操作。对象的读入则由客户端用rdma read操作直接从远程堆中读取,不需要远程节点参与任何处理。对象的写回由客户端直接用rdma write操作直接把日志缓冲区传输到远程堆对应段中,也不需要远程节点对日志进行任何处理。除此之外,客户端使用rdma cas和rdma write操作直接操作远程节点的空闲段链表,完成段的分配和归还操作,也无需远程节点参与处理。
236.第三,日志结构的远程堆管理方式有很好的磨损均衡效果。
237.在日志结构的远程堆管理方式下,对象位置不固定,对同一个对象的每次更新不会都写入相同的位置,所有更新操作都按顺序不断向当前日志段的尾部追加,写操作均匀
分布在整个日志段,并随着日志段的轮换覆盖整个nvm空间。
238.第四,对象写回操作不产生任何数据拷贝开销。
239.本发明结合批量日志传输的特点使用日志结构的方式来管理远程堆空间。因此,日志传输的目的地址就是对象在远程堆中的实际存储地址,和现有的基于批量日志传输的方案不同,不再需要把对象数据从日志拷贝到对象在远程堆中的存储位置,避免了额外的数据拷贝开销。
240.第五,日志中除了对象数据之外,不包含任何额外信息,避免了对内存和网络资源的浪费。
241.在本发明的采用的日志结构堆管理方案中,写回对象时,日志被直接传输到对象在远程堆中的实际存储位置,无需远程节点进行任何额外的处理。因此,日志中自然也无需记录任何额外的描述信息,只需记录对象数据即可。
242.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献