集群服务器的制作方法

2021-10-24 06:11:00 来源：中国专利 TAG：集群服务器

1.本技术涉及服务器集群领域，特别是涉及一种集群服务器。

背景技术：

2.服务器集群就是指将很多服务器集中起来一起进行同一种服务，在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，从而使得任何一个机器坏了整个系统还是能正常运行。
3.现有的集群服务器通常只能做到软件系统层面的集群，也就是当某一台服务器出现故障，运行在这台服务器上的应用就会切换到其他的服务器上，而此故障机器上的硬盘资源就不会再被应用，传输到这个服务器上的存储链路也会被切断，从而也不能得到此服务器上的存储内容，导致存储资源的利用率得不到充分利用。

技术实现要素：

4.在本实施例中提供了一种集群服务器，以解决相关技术中集群服务器的存储资源利用率低的问题。
5.在本实施例中提供了一种集群服务器，包括：交换机和至少三个服务器，所述服务器包括基板管理控制器和存储设备；
6.所述存储设备包括硬盘控制器和磁盘阵列，所述硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列；
7.所述基板管理控制器与所述交换机连接，所述基板管理控制器用于控制所述硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权。
8.在其中的一些实施例中，各所述硬盘控制器通过磁盘连接器连接当前服务器的磁盘阵列和两个其他服务器的磁盘阵列，各所述服务器的存储设备以环状拓扑结构连接。
9.在其中的一些实施例中，所述基板管理控制器用于监测当前服务器内各硬件的运行状态，并在所述运行状态异常的情况下，控制当前服务器的硬盘控制器释放对当前服务器的磁盘阵列的控制权，向其他服务器的基板管理控制器发送当前磁盘阵列控制权移交指令；以及在接收到其他服务器的基板管理控制器发送的其他磁盘阵列控制权移交指令的情况下，控制当前服务器的硬盘控制器获取对其他服务器的磁盘阵列的控制权。
10.在其中的一些实施例中，所述服务器还包括中央处理器；
11.所述基板管理控制器用于监测当前服务器内各硬件的运行状态，并在所述运行状态异常的情况下，向当前服务器的中央处理器发送当前磁盘阵列控制权释放指令，向其他服务器的基板管理控制器发送当前磁盘阵列控制权移交指令；
12.所述基板管理控制器还用于在接收到其他服务器的基板管理控制器发送的其他磁盘阵列控制权移交指令的情况下，向当前服务器的中央处理器发送其他磁盘阵列控制权获取指令；
13.所述中央处理器用于在接收到当前磁盘阵列控制权释放指令的情况下，控制当前服务器的硬盘控制器释放对当前服务器的磁盘阵列的控制权，以及在接收到其他磁盘阵列控制权获取指令的情况下，控制当前服务器的硬盘控制器获取对其他服务器的磁盘阵列的控制权。
14.在其中的一些实施例中，所述基板管理控制器还用于在将当前服务器的磁盘阵列的控制权移交给其他服务器之后，对当前服务器的硬件进行自检修复，并在自检修复成功之后，重新获取对当前服务器的磁盘阵列的控制权。
15.在其中的一些实施例中，各所述服务器的磁盘阵列采用独立电源供电，所述基板管理控制器用于通过重启当前服务器进行自检修复。
16.在其中的一些实施例中，
17.所述交换机用于进行具有邻接关系的基板管理控制器之间的信息转发，其中，所述邻接关系由各所述服务器的存储设备的拓扑关系确定；或者
18.所述交换机用于将任一所述服务器的基板管理控制器发送的信息转发给其他服务器的基板管理控制器。
19.在其中的一些实施例中，所述集群服务器还包括控制节点，所述控制节点与所述交换机连接，用于配置各所述服务器的基板管理控制器。
20.在其中的一些实施例中，所述磁盘连接器为串行连接小型计算机系统接口(sas)连接器。
21.在其中的一些实施例中，每个所述服务器的基板管理控制器和存储设备在物理上集中设置。
22.与相关技术相比，在本实施例中提供的集群服务器，包括：交换机和至少三个服务器，服务器包括基板管理控制器和存储设备；存储设备包括硬盘控制器和磁盘阵列，硬盘控制器通过磁盘连接器连接至少一个其他服务器的磁盘阵列；基板管理控制器与交换机连接，基板管理控制器用于控制硬盘控制器获取或释放对当前服务器的磁盘阵列和/或至少一个其他服务器的磁盘阵列的控制权，解决了相关技术的集群服务器的存储资源利用率低的问题，提高了集群服务器的存储资源利用率。
23.本技术的一个或多个实施例的细节在以下附图和描述中提出，以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
24.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
25.图1是本实施例的服务器的示意图。
26.图2是本实施例提供的集群服务器的结构示意图。
27.图3是本实施例的线状拓扑结构的示意图。
28.图4是本实施例的环状拓扑结构的示意图。
具体实施方式
29.为更清楚地理解本技术的目的、技术方案和优点，下面结合附图和实施例，对本申
请进行了描述和说明。
30.除另作定义外，本技术所涉及的技术术语或者科学术语应具有本技术所属技术领域具备一般技能的人所理解的一般含义。在本技术中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本技术中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元)，而可包括未列出的步骤或模块(单元)，或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本技术中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本技术中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本技术中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。
31.本实施例提供了一种集群服务器，该集群服务器包括至少三个服务器。图1是本实施例的服务器的示意图，服务器又可以称为主机，如图1所示，每个服务器都包括计算部分10和存储部分20。其中，计算部分10通常包括中央处理器110(cpu，又称为主控制器或主控)；存储部分通常由存储设备210组成。
32.存储设备210包括硬盘控制器212和磁盘阵列211。需要说明的是，本实施例所称的磁盘阵列211可以仅包括一块磁盘驱动器，也可以是由多块磁盘驱动器组合成的磁盘组。并且，构成该磁盘阵列的磁盘驱动器不限于hdd磁盘驱动器还是sdd磁盘驱动器，在一些实施例中也可以是hdd磁盘驱动器和sdd磁盘驱动器的组合。并且，磁盘阵列211可以采用jbod(just a bunch of disks)技术由所有磁盘驱动器串联而成的大容量磁盘驱动器，也可以是采用诸如raid(独立磁盘冗余阵列)技术被服务器所使用，从而提高磁盘容错能力。
33.计算部分10与磁盘阵列211之间的接口设备称为硬盘控制器212，也被称为磁盘驱动器适配器。硬盘控制器212在软件层面用来解释计算部分10给出的命令，向磁盘驱动器发出各种控制信号；检测磁盘驱动器状态，或者按照规定的磁盘数据格式将数据写入和读出磁盘也是由硬盘控制器212控制。从硬件层面来说，硬盘控制器212提供了一个或者多个用于连接磁盘阵列211的物理接口。硬盘控制器212可以通过这些物理接口连接一个或者多个磁盘阵列211，以及获取或释放对物理接口连接的磁盘阵列211的控制权。
34.每个磁盘阵列211可以包括一个或者多个用于与硬盘控制器212连接的物理接口。例如，基于sas(串行连接小型计算机系统接口)技术的磁盘阵列211可以通过与多个服务器的硬盘控制器212连接，实现多个服务器共享同一个磁盘阵列211。
35.每个服务器的计算部分10和存储部分20可以在物理上集中设置，例如设置在同一个服务器机箱内。计算部分10和存储部分20可以设置在同一主电路板上，也可以分开设置。例如，存储部分20设置在服务器背板，计算部分10设置在主电路板上。
36.除了存储部分20和计算部分10之外，服务器通常还有具有两个核心固件，分别为bios(基础输入输出系统)(图未示)和bmc(基板管理控制器)(图未示)。其中，在计算机体系中，bios有这比服务器的操作系统更为底层和基础性的作用，主要负责检测、访问和调试底层硬件资源，并分配给操作系统，以保障整个及其顺利安全运转。而bmc则是独立于服务器
的操作系统之外的小型操作系统，通常集成在主板上，或者通过pcie等形式插在主板上。bmc对外的表现形式通常为一个标准的rj45网口，并且bmc拥有独立的ip固件系统。通常服务器可以使用bmc指令进行无人值守操作，例如服务器的远程管理、监控、安装、重启等。
37.图2是本实施例提供的集群服务器的结构示意图。在图2中以五个服务器为例进行示例性说明，在其他实施例中服务器数量可以为大于三个的任意数，通常根据对集群服务器的计算资源和存储资源的需求具体设定，在本实施例中并不限定其数量。
38.如图2所示的集群服务器包括交换机40和五个服务器。每个服务器的硬盘控制器212通过磁盘连接器(例如sas连接器)连接到当前服务器的磁盘阵列211和至少一个其他服务器的磁盘阵列211。其中，其他服务器是指集群服务器中除当前服务器之外的其他服务器。
39.bmc 30通过rj45网口与交换机40连接，bmc 30还与当前服务器的硬盘控制器212连接。bmc 30用于控制硬盘控制器212获取或释放对当前服务器的磁盘阵列211和/或至少一个其他服务器的磁盘阵列211的控制权。
40.本实施例提供的集群服务器利用各服务器的bmc 30通过交换机40通讯，并由bmc 30控制硬盘控制器212获取或者释放对当前服务器的磁盘阵列211和/或至少一个其他服务器的磁盘阵列211的控制权。第一方面，由于bmc 30是独立于服务器操作系统之外的小型操作系统，因此，即使服务器的操作系统因硬件故障或者软件故障而崩溃了，bmc 30仍能正常工作，保证集群服务器的磁盘阵列211的控制权能够正常移交；第二方面，上述集群服务器的交换机40用于bmc 30之间的信息交换且交换的信息量很小，磁盘阵列211则通过sas连接器直接与其他服务器的硬盘控制器212连接，因此上述实施例对交换机40的性能要求低，相较于相关技术中采用诸如成本昂贵的sas交换机实现磁盘阵列211的共享而言，本实施例仅普通的交换机和sas连接器就能够满足需求，大大地降低了成本。第三方面，本实施例中各个服务器的bmc 30没有主从关系，各bmc 30独立控制相应服务器的磁盘阵列的控制，相对于相关技术中采用某个服务器作为主服务器进行磁盘阵列的控制而言，本实施例避免了主服务器故障导致的磁盘阵列的控制权无法移交的问题，提高了鲁棒性。
41.为了避免采用sas交换机对集群服务器中所有的磁盘阵列211进行互联导致的成本增加，本实施例中各硬盘控制器212通过磁盘连接器(sas连接器)连接当前服务器的磁盘阵列211和至少一个其他服务器的磁盘阵列211。通过这样的连接，各服务器的存储设备可以形成诸如图3所示的线状拓扑结构。线状拓扑结构下，当处于拓扑结构两端的服务器发生了故障，则存储设备只能够被一个相邻的服务器接管，在这个相邻的服务器计算负荷较大的情形下，可能导致相邻的服务器接管存储设备后因负荷进一步增大而引发自身故障，导致集群服务器稳定性降低。或者拓扑结构两端出现连续两台相邻的服务器发生了故障，则最外侧的服务器的存储设备将不能被任何一个服务器接管，由此可见，存储设备的利用率仍有提高空间。
42.为此，在其中的一些实施例中，各硬盘控制器212通过磁盘连接器(sas连接器)连接当前服务器的磁盘阵列211和两个其他服务器的磁盘阵列，各服务器的存储设备形成诸如图4所示的环状拓扑结构。这样的连接方式，使得任意一个服务器故障的情况下，都有两个相邻的服务器可以接管该故障服务器的存储设备；即使连续相邻的两个服务器故障也可以保证分别有一个服务器接管这两个故障服务器的磁盘阵列；只有在连续相邻的三个服务
器故障的情况下，才可能导致有一个服务器的存储设备不能被任何一个服务器接管。由此可见，采用环状拓扑结构提高了集群服务器的稳定性及存储设备的利用率。
43.下面对本实施例的集群服务器的工作过程进行描述。
44.实施例1
45.bmc 30作为服务器中第三方的独立存在，能够监控整个服务器的硬件信息，例如系统的温度、电源电压、风扇转速等，还能够监控系统网络模块、用户交互模块(例如usb模块，显示模块)或者其他模块的工作状态。一旦服务器的某个模块出现了能够影响服务器正常业务能力的异常，bmc 30判断到服务器无完成存储功能，则bmc 30通过交换机40将异常信息传递出去，并自动分配相邻的服务器接管当前服务器的磁盘阵列211，从而实现集群高可用性。
46.在本实施例中，由各服务器的bmc 30直接控制硬盘控制器212获取或释放对当前服务器和/或其他服务器的磁盘阵列的控制权。
47.参照图4的拓扑结构，本实施例提供的集群服务器的工作过程包括如下步骤：
48.步骤1，服务器a的bmc 30监测服务器内各硬件的运行状态。
49.步骤2，服务器a的bmc 30在硬件的运行状态异常的情况下，控制服务器a的硬盘控制器212释放对服务器a的磁盘阵列211的控制权。
50.步骤3，服务器a的bmc 30在硬件的运行状态异常的情况下，通过交换机40向与服务器a相邻的服务器b的bmc 30发送磁盘阵列控制权移交指令。
51.其中，服务器a的bmc 30向服务器b的bmc 30发送的磁盘阵列控制权移交指令中携带有服务器a的标识信息，或者携带有服务器a的磁盘阵列的标识信息。
52.步骤4，服务器b的bmc 30在通过交换机40接收到服务器a的bmc 30发送的磁盘阵列控制权移交指令的情况下，控制服务器b的硬盘控制器212获取对服务器a的磁盘阵列211的控制权。
53.其中，磁盘阵列控制权移交指令可以携带有发送方服务器的标识信息，或者发送方服务器的磁盘阵列的标识信息。在bmc 30中可以维护一个硬盘控制器212的物理接口和磁盘阵列211的映射表，以获知各个物理接口所连接的磁盘阵列211的标识信息，或者磁盘阵列211所属的服务器的标识信息。在服务器b的bmc 30获得磁盘阵列控制权移交指令后，根据磁盘阵列控制权移交指令中携带的标识信息来确定所要接管的磁盘阵列211所连接的物理接口，从而控制硬盘控制器212获得该物理接口所连接的服务器a的磁盘阵列211的控制权。
54.需要说明的是，在采用诸如sas技术的磁盘阵列211的情形下，释放故障服务器的磁盘阵列的步骤可以是非必需的，例如，上述的步骤2可以省去。
55.实施例2
56.在本实施例中，每个服务器的中央处理器110分别与当前服务器的bmc 30和硬盘控制器212连接。中央处理器110还分别与交换机连接，用于通过交换机进行业务数据的交换。中央处理器110连接的交换机可以与bmc 30所连接的交换机为同一个，也可以是不同的交换机。中央处理器110通过交换机进行业务数据的交换，以实现集群计算。
57.由于服务器的中央处理器110也可以控制硬盘控制器212获取或者释放对磁盘阵列211的控制权，以及中央处理器110可以与bmc 30通讯，因此，在服务器出现某些故障而中
央处理器110还能够正常工作的情形下，bmc 30也可以通过中央处理器110来控制磁盘阵列211的控制权。
58.参照图4的拓扑结构，本实施例提供的集群服务器的工作过程包括如下步骤：
59.步骤1，服务器a的bmc 30监测服务器内各硬件的运行状态。
60.步骤2，服务器a的bmc 30在硬件的运行状态异常的情况下，向服务器a的中央处理器110发送磁盘阵列控制权释放指令。
61.步骤3，服务器a的中央处理器110在接收到磁盘阵列控制权释放指令的情况下，控制服务器a的硬盘控制器212释放对服务器a的磁盘阵列的控制权。
62.步骤4，服务器a的bmc 30或中央处理器110在硬件的运行状态异常的情况下，通过交换机40分别向与服务器a相邻的服务器b和服务器e的bmc 30发送磁盘阵列控制权移交指令。
63.其中，服务器a的bmc 30向服务器b和服务器e的bmc 30发送的磁盘阵列控制权移交指令中携带有服务器a的标识信息，或者携带有服务器a的磁盘阵列的标识信息。
64.步骤5，服务器b和服务器e的bmc 30在接收到服务器a的bmc 30发送的磁盘阵列控制权移交指令的情况下，分别向其服务器的中央处理器110发送磁盘阵列控制权获取指令。其中，磁盘阵列控制权获取指令中携带有服务器a的标识信息，或者携带有服务器a的磁盘阵列的标识信息。
65.步骤6，服务器b和服务器e的中央控制110在接收到磁盘阵列控制权获取指令的情况下，根据磁盘阵列控制权获取指令中携带的标识信息确定待接管的磁盘阵列为服务器a的磁盘阵列，并控制服务器b的硬盘控制器212获取对服务器a的磁盘阵列211的控制权。
66.其中，服务器b和服务器e的硬盘控制器212可以共同获取对服务器a的磁盘阵列211的控制权；服务器b和服务器e也可以通过协商机制或者竞争机制确定其中一个服务器的硬盘控制器212来获取对服务器a的磁盘阵列211的控制权。
67.需要说明的是，在采用诸如sas技术的磁盘阵列211的情形下，释放故障服务器的磁盘阵列的步骤可以是非必需的，例如，上述的步骤2和步骤3可以省去。
68.在一些实施例中，bmc 30还可以在将当前服务器的磁盘阵列211的控制权移交给其他服务器之后，对当前服务器的硬件进行自检修复，并在自检修复成功之后，重新获取对当前服务器的磁盘阵列211的控制权。重新获取对当前服务器的磁盘阵列211的控制权的过程与释放当前服务器的磁盘阵列211的控制权的过程相互对应，在本实施例中不再赘述。
69.其中，各服务器的磁盘阵列211采用相对于计算部分10独立的电源供电，bmc 30通过重启当前服务器进行自检修复，并保证当前服务器的磁盘阵列211不断电而能够被其他服务器接管和利用。在自检修复后故障问题消除，则bmc30可以告知接管当前服务器的服务器释放当前服务器的磁盘阵列211的控制权，并控制当前服务器的硬盘控制器212重新获取当前服务器的磁盘阵列211的控制权，从而完成故障自检修复操作。
70.在其中一些实施例中，交换机40上可以维护一个转发表，用于进行具有邻接关系的bmc 30之间的信息转发，其中，邻接关系由各服务器的存储设备的拓扑关系确定，例如，交换机40总是将某个服务器的磁盘阵列控制权移交指令/控制权获取指令/控制权释放指令发送给与之相邻的服务器的bmc 30。
71.在另一些实施例中，交换机40用于将任一服务器的bmc 30发送的信息转发(广播)
给其他所有的服务器的bmc 30。
72.集群服务器还可以包括控制节点，控制节点与交换机40连接，用于配置各服务器的bmc 30，例如配置各bmc 30的控制程序，或者各bmc 30的标识信息，或者各bmc 30中存储的映射表。此外，通过控制节点还可以控制bmc 30实现远程无人值守功能，例如远程重启等。
73.综上所述，传统的集群服务对待异常的节点通常为断掉此节点服务，无法对存储部分调用。本实施例实现了从硬件方面完成集群服务，有效利用了异常设备的存储部分进行复用和存储部分内容的调取。本实施例利用bmc这一第三方独立系统参与集群控制，大大提高了集群方案的稳定性和安全性，bmc监管系统上的各个硬件信息，一旦某个异常，便能做出快速决断，并且可以完成简单的硬件自检修复，使集群方案稳定性大大提高。
74.应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本技术提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本技术保护范围。
75.显然，附图只是本技术的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本技术适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本技术披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本技术公开的内容不足。
[0076]“实施例”一词在本技术中指的是结合实施例描述的具体特征、结构或特性可以包括在本技术的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本技术中描述的实施例在没有冲突的情况下，可以与其它实施例结合。
[0077]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：基于图片和句子的多模态联合事件检测方法与流程
下一篇：人脸识别一体机的制作方法

集群服务器的制作方法

相关文献

最热文献