一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据中心的电子机架以及用于确定其操作参数的方法与流程

2021-10-12 17:53:00 来源:中国专利 TAG:数据中心 实施 机架 冷却 液体


1.本发明的实施例大体涉及数据中心。更特别地,本发明的实施例涉及用于数据中心中的液体冷却的电子机架的整体最佳性能控制。


背景技术:

2.高功率密度芯片和处理器的热管理是关键问题,尤其是随着诸如cpu(中央处理单元) 和gpu(通用处理单元)的高端芯片的功率密度的增加。在冷却系统设计中使用冷却设备,用于通过排除由芯片生成的热量来维持芯片的热状况。如果温度超过热规范的限制,则芯片可能不能正常运转并且可能发生节流。另外,通过在芯片工作时为其提供适当的或更好的热状况,可以实现更好的性能或更少的功耗。
3.通过诸如数据中心gpu的高功率密度处理器使得能够实现高性能机器学习计算。常规的空气冷却解决方案正在努力处理这种gpu机架中的热管理挑战。相反,冷板液体冷却解决方案提供好得多的冷却性能并且节省冷却基础设施中的能量消耗。


技术实现要素:

4.公开了一种数据中心的电子机架、用于确定数据中心的电子机架的操作参数的方法以及一种存储介质。
5.根据本公开实施例的第一方面,提供了一种数据中心的电子机架,包括:多个刀片服务器,所述多个刀片服务器堆叠布置,每个刀片服务器包括一个或多个服务器并且每个服务器包括一个或多个处理器以提供数据处理服务;冷却剂分配单元cdu,所述cdu用于向所述处理器供应冷却液并且接收携带从所述处理器交换的热量的所述冷却液,其中所述cdu包括液体泵以泵送所述冷却液和泵控制器以控制所述液体泵的泵速;以及机架管理单元rmu,所述rmu耦接到所述刀片服务器和所述cdu,其中所述rmu包括控制逻辑,所述控制逻辑被配置为:基于所述电子机架的性能要求确定所述服务器的成本与所述服务器的处理器的时钟速率之间的第一关系,确定所述服务器执行限定任务的能量消耗、所述服务器的处理器的时钟速率和所述液体泵的泵速之间的第二关系,基于所述第一关系和所述第二关系确定时钟速率和泵速,以及基于确定的泵速经由所述泵控制器来控制所述液体泵的泵速,以及基于确定的时钟速率来控制所述一个或多个处理器的时钟速率。
6.在一些实施例中,确定时钟速率和泵速包括优化目标函数,使得所述目标函数达到最小值,同时满足预定的约束的集合。
7.在一些实施例中,所述预定的约束的集合包括:第一条件,时钟速度在预定的时钟速度范围内;以及第二条件,所述液体泵的泵速在预定的泵速范围内。
8.在一些实施例中,所述目标函数基于服务器获取成本、泵系统获取成本、服务器功耗成本或泵系统功耗成本中的至少一个指示所述电子机架训练机器学习模型的总成本。
9.在一些实施例中,所述目标函数指示在所述电子机架的估计的寿命期间所述电子机架的总成本。
10.在一些实施例中,在人工智能ai模型的训练期间使用确定的时钟速率和确定的泵速以最小化训练所述ai模型的成本。
11.在一些实施例中,确定所述第二关系还基于所述一个或多个处理器的操作温度。
12.根据本公开实施例的第二方面,提供一种用于确定用于数据中心的电子机架的操作参数的方法,所述方法包括:针对具有多个刀片服务器的电子机架,基于所述电子机架的性能要求确定所述电子机架的成本与所述电子机架的一个或多个处理器的时钟速率之间的第一关系,每个刀片服务器包括一个或多个服务器并且每个服务器包括用于提供数据处理服务的一个或多个处理器;确定所述电子机架执行限定任务的能量消耗、一个或多个处理器的时钟速率和所述电子机架的冷却剂分配单元cdu的液体泵的泵速之间的第二关系;基于所述第一关系和所述第二关系确定时钟速率和泵速;以及基于确定的泵速经由泵控制器控制所述液体泵的泵速,以及基于确定的时钟速率控制所述一个或多个处理器的时钟速率。
13.在一些实施例中,确定时钟速率和泵速包括优化目标函数,使得所述目标函数达到最小值,同时满足预定的约束的集合。
14.在一些实施例中,所述预定的约束的集合包括:第一条件,时钟速度在预定的时钟速度范围内;以及第二条件,所述液体泵的泵速在预定的泵速范围内。
15.在一些实施例中,所述目标函数基于服务器获取成本、泵系统获取成本、服务器功耗成本或泵系统功耗成本中的至少一个指示所述电子机架训练机器学习模型的总成本。
16.在一些实施例中,所述目标函数指示在所述电子机架的估计的寿命期间所述电子机架的总成本。
17.在一些实施例中,在人工智能ai模型的训练期间使用确定的时钟速率和确定的泵速以最小化训练所述ai模型的成本。
18.在一些实施例中,确定所述第二关系还基于所述一个或多个处理器的操作温度。
19.根据本公开实施例的第三方面,提供一种非暂时性机器可读介质,具有存储在其中的指令,所述指令在由处理器执行时使得所述处理器执行如本公开第一方面实施例所述的方法。
附图说明
20.本发明的实施例通过示例的方式示出并且不限于附图中的图,在附图中相同的附图标记表示相似的元件。
21.图1是示出根据一个实施例的数据中心系统的示例的框图。
22.图2是示出根据一个实施例的电子机架的示例的框图。
23.图3是示出根据另一实施例的电子机架的示例的框图。
24.图4是示出根据一个实施例的芯片时钟速度和基准训练时间之间的示例性相关性的图。
25.图5是示出服务器的能量使用、处理器的温度和时钟速度之间的示例相关性的图。
26.图6是示出根据一个实施例的确定最佳泵速和时钟速度的过程的流程图。
具体实施方式
27.将参考以下讨论的细节描述本公开的各个实施例和方面,并且附图将示出各个实施例。以下描述和附图是本公开的说明并且不应被解释为限制本公开。描述了许多具体细节以提供对本公开的各个实施例的全面理解。然而,在某些情况下,为了提供对本公开的实施例的简要讨论,没有描述公知或常规的细节。
28.说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性可包括在本公开的至少一个实施例中。在说明书中的各个地方出现的短语“在一个实施例中”不一定都指同一实施例。
29.本公开的实施例集中于优化拥有液体冷却的it机架的总成本。液体冷却的it机架可包括人工智能(ai)加速服务器(例如,图形处理单元(gpu)服务器)。机器学习模型的基准训练时间可以被包括作为计算性能的指示器。液体冷却的it机架的功耗包括(一个或多个)服务器的功耗和液体冷却解决方案(例如,液体泵)的功耗。最经济的解决方案以最低的获取成本和操作成本满足计算性能要求(例如,多快完成模型的训练)。因此,液体冷却的it设备可以被配置为通过确定ai加速服务器的最佳芯片时钟速率和最佳工作温度来最小化总拥有成本。特别地,可以鉴于1)it服务器的获取成本,2)液体冷却解决方案的获取成本,3)it服务器的功耗成本,以及4)液体冷却设备的功耗成本来确定成本优化。
30.根据一个方面,电子机架包括堆叠布置的刀片服务器的阵列。每个刀片服务器包括一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务。电子机架还包括冷却剂分配单元(cdu)和机架管理单元(rmu)。cdu被配置为向处理器供应冷却液并接收携带从处理器交换的热量的冷却液。cdu包括液体泵以泵送冷却液和泵控制器以控制液体泵的泵速。rmu被配置为管理电子机架内的组件诸如cdu等的操作。rmu包括控制逻辑,以基于性能要求确定服务器的成本和服务器的处理器的时钟速率之间的第一关系,并且确定服务器执行限定任务的能量消耗、服务器的处理器的时钟速率和液体泵的泵速之间的第二关系。rmu逻辑还可以基于第一关系和第二关系确定优化的时钟速率和优化的泵速,并且基于最佳泵速经由泵控制器控制液体泵的泵速,以及基于最佳时钟速率控制一个或多个处理器的时钟速率。
31.在一个实施例中,确定优化的时钟速率和优化的泵速包括优化目标函数,使得目标函数达到最小值,同时满足预定的约束的集合。预定的约束的集合可包括时钟速度在预定的时钟速度范围内的第一条件和液体泵的泵速在预定的泵速范围内的第二条件。在一个实施例中,目标函数基于服务器获取成本、泵系统获取成本、服务器功耗成本和泵系统功耗成本指示服务器机架训练机器学习模型的总成本。在另一实施例中,目标函数指示在服务器机架的估计的寿命期间的服务器机架的总成本。然后,在人工智能(ai)模型的训练期间可以使用优化的时钟速率和优化的泵速以最小化训练ai模型的成本。确定第二关系还可以基于一个或多个处理器的性能要求和操作温度。
32.根据另一方面,一种用于确定数据中心的电子机架的最佳操作参数的方法包括:针对具有多个刀片服务器的电子机架,基于电子机架的性能要求确定电子机架的成本与电子机架的一个或多个处理器的时钟速率之间的第一关系,每个刀片服务器包括一个或多个服务器并且每个服务器包括用于提供数据处理服务的一个或多个处理器。方法还包括确定电子机架执行限定任务的能量消耗、一个或多个处理器的时钟速率和电子机架的冷却剂分
配单元(cdu) 的液体泵的泵速之间的第二关系。方法还包括基于第一关系和第二关系确定优化的时钟速率和优化的泵速,以及基于最佳泵速经由泵控制器控制液体泵的泵速,以及基于最佳时钟速率控制一个或多个处理器的时钟速率。
33.图1是示出根据本发明的一个实施例的数据中心系统的框图。在此示例中,图1示出数据中心的至少一部分的顶视图。参考图1,根据一个实施例,数据中心系统100包括it组件、设备或仪器101

102的电子机架的行,诸如,例如向各种客户端提供数据服务的计算机服务器。在此实施例中,数据中心系统100包括电子机架,诸如,被布置为行101和行102 的电子机架110a

110n。然而,可以实现更多或更少行的电子机架。通常,行101

102平行对齐,前端彼此面对,后端彼此背离,在它们之间形成过道103,以允许管理人员在其中行走。然而,也可以应用其它配置或布置。
34.在一个实施例中,电子机架(例如,电子机架110a

110n)中的每个包括背板、多个服务器插槽、以及能够插入到服务器插槽中和从服务器插槽移除的多个刀片服务器。每个刀片服务器包括处理器(例如,cpu或gpu)、存储器和/或永久存储设备(例如,硬盘),其表示计算机服务器。背板设置在电子机架的后端。背板包括排热液体歧管装配,以从外部排热系统120提供排热液体,以从刀片服务器排除热量。每个刀片服务器可从电子机架的前端插入对应的服务器插槽及从对应的服务器插槽移除。排热系统120可以是具有主动制冷循环的冷却器系统。可替换地,排热系统120可包括但不限于蒸发冷却、释放空气、对大的热质量的排斥和废热回收设计。
35.在一个实施例中,行101

102中的电子机架中的每个包括排热液体歧管、分别包括在多个刀片服务器插槽中的多个刀片服务器、以及冷却剂分配单元(cdu)。排热液体歧管用于向刀片服务器中的每个提供排热液体。刀片服务器中的每个从排热液体歧管接收排热液体以使用排热液体歧管排除由刀片服务器的it组件生成的热量的至少一部分,并且将携带从it 组件交换的热量的较热液体发送回排热液体歧管。cdu被配置为接收表示刀片服务器的it 组件的工作负荷的数据,并且基于刀片服务器的it组件的工作负荷控制供应到排热液体歧管的排热液体的液体流率。
36.设置在每个电子机架的后端上的排热液体歧管耦接到液体供应管线132以从排热系统 120接收排热液体。排热液体用于从it组件排除热量。得到的携带从it组件交换的热量的较暖或较热液体经由返回管线131被发送回排热系统120。液体供应/返回管线131

132被称为数据中心液体供应/返回管线(例如,全局液体供应管线),其向行101

102的所有电子机架供应排热液体。
37.图2是示出根据本发明的一个实施例的电子机架的侧视图的框图。电子机架200可以表示图1的行101

102的电子机架中的任一个,诸如电子机架110a

110n。参考图2,在一个实施例中,电子机架200包括cdu 201、rmu 202和一个或多个刀片服务器203a

203d,统称为刀片服务器203。刀片服务器203可以分别从电子机架200的前端204插入服务器插槽的阵列中。注意,尽管图2中仅示出四个刀片服务器203a

203d,但是可以在电子机架 200内维持更多或更少的刀片服务器。还应注意,cdu 201、cmu 202和刀片服务器203的特定位置仅出于说明的目的而示出;也可以实现cdu 201、cmu 202和刀片服务器203的其他布置或配置。另外,设置在前端204上的前门和设置在后端205上的后门是可选的。在一些情况下,在前端204和/或后端205上可以没有门。
38.在一个实施例中,cdu 201包括热交换器211、液体泵212和泵控制器210。热交换器 211可以是液

液热交换器。热交换器211包括第一管,第一管具有第一对液体连接器,第一对液体连接器耦接到外部液体供应/返回管线131

132以形成主回路,其中耦接到外部液体供应/返回管线131

132的连接器可以设置或安装在电子机架200的后端205上。另外,热交换器211还包括具有耦接到液体歧管225的第二对液体连接器的第二管,第二管可包括将冷却液供应到刀片服务器203的供应歧管和将较暖液体返回到cdu 201的返回歧管。处理器可以安装在冷板(或安装在处理器上的冷板)上,其中冷板包括嵌入其中的液体分配通道,以接收来自液体歧管225的冷却液,并将携带从处理器交换的热量的冷却液返回到液体歧管 225。
39.刀片服务器203中的每个可包括一个或多个it组件(例如,cpu、gpu、存储器和/或存储设备)。每个it组件可以执行数据处理任务,其中it组件可包括安装在存储设备中、加载到存储器中并且由一个或多个处理器执行以执行数据处理任务的软件。刀片服务器203 可包括耦接到一个或多个计算服务器(也称为计算节点)的主机服务器(称为主机节点)。主机服务器(具有一个或多个cpu)通常通过网络(例如,因特网)与客户端接口,以接收对特定服务的请求,特定服务诸如存储服务(例如,诸如备份和/或恢复的基于云的存储服务)、执行应用以执行特定操作(例如,作为软件即服务或saas平台的一部分的图像处理、深度数据学习算法或建模等)。响应于请求,主机服务器将任务分配给由主机服务器管理的计算服务器中的一个或多个(具有一个或多个gpu)。计算服务器执行实际任务,其可能在操作期间产生热量。
40.电子机架200还包括rmu 202,rmu 202被配置为提供和管理供应给刀片服务器203 和cdu 201的电力。rmu 202可以耦接到电源单元(未示出)以管理电源单元的功耗,以及电源单元的其它热管理(例如冷却风扇)。电源单元可包括必要的电路(例如,交流(ac) 到直流(dc)或dc到dc功率转换器、电池、变压器或调节器等)以向电子机架200的其余组件提供电力。
41.在一个实施例中,rmu 202包括最佳控制逻辑221和机架管理控制器(rmc)222。最佳控制逻辑221耦接到刀片服务器203中的至少一些以接收刀片服务器203中的每个的操作状态,诸如处理器的处理器温度、处理器的时钟速率、液体泵212的当前泵速、冷却液的液体温度等。基于接收到的信息,最佳控制逻辑221通过优化预定的目标函数来确定1)液体泵212的最佳泵速和2)处理器的最佳时钟速率,使得目标函数的输出达到最小值,同时满足预定的约束的集合。例如,目标函数可以是服务器系统的总体成本函数。rmc 222可被配置为向泵控制器210发送信号以基于最佳泵速来控制液体泵212的泵速。另外,rmc 222 可被配置为向服务器发送信号以基于最佳时钟速率控制处理器的时钟速率。
42.图3是示出根据一个实施例的简化的电子机架的示例的框图。电子机架300可以实现为电子机架的部分,诸如关于图2描述的电子机架200。参照图3,rmu 202电耦接到服务器 203。具体地,rmu 202可以耦接到服务器203(例如,bmc 302a

302c,统称为bmc 302) 中的每个的基板管理控制器(bmc)。bmc被配置为监视并收集对应的服务器的组件中的每个的操作状态,诸如测量处理器的温度和时钟速率以及cdu 201的泵速。处理器的处理器温度可以成比例地表示处理器的功耗。另外,时钟速率和泵速可以与处理器温度相关。因此,处理器的功耗可以是时钟速率和泵速的函数。在一个实施例中,rmu 202还包括最佳控制逻辑221,
最佳控制逻辑221被配置为基于从服务器203接收的数据执行目标函数301 的优化以确定最佳泵速。基于最佳泵速,rmc 222向泵控制器210发送控制信号以控制液体泵212的泵速。基于最佳处理器时钟速率,rmc 222还向服务器203发送信号以控制处理器时钟速率。
43.在一个实施例中,电子机架300包括堆叠布置的刀片服务器203的阵列。每个刀片服务器包括一个或多个服务器,并且每个服务器包括一个或多个处理器,诸如gpu,以提供数据处理服务。电子机架300还包括cdu 201和rmu 202。cdu 201被配置为向处理器供应冷却液并接收携带从处理器交换的热量的冷却液。cdu 201包括液体泵212以泵送冷却液和泵控制器210以控制液体泵的泵速。rmu 202被配置为管理电子机架内的组件诸如cdu 201 等的操作。rmu 202包括控制逻辑,以通过基于服务器203和cdu 201的获取成本、服务器203的处理器的处理器功耗、cdu 201的冷却功耗以及数据处理服务的性能要求来优化目标函数301,从而确定液体泵212的最佳泵速和最佳时钟速率。最佳泵速可以用于控制液体泵的泵速,并且最佳时钟速率可以用于控制服务器203的处理器时钟速率。在一个实施例中,最佳泵速和时钟速率最小化服务器和冷却系统执行特定限定任务的总体成本。
44.在一个实施例中,目标函数301用于确定最佳泵速和处理器时钟速率,使得目标函数 301在满足预定的约束的集合的同时达到最小值。预定的约束包括泵速在限定范围内(例如,在最小和最大泵速之间)的第一条件和服务器203的处理器时钟速率在时钟速率的限定范围内(例如,在最小和最大时钟速率之间)的第二条件。
45.在一个实施例中,服务器的获取成本基于服务器的性能要求(例如,最小性能)和执行基准任务诸如训练ai模型所花费的时间(称为训练时间)。训练时间可以直接取决于处理器时钟速率。因此,鉴于基准性能要求的获取成本可以是处理器时钟速率的函数。因此,可以基于处理器时钟速率使用第一函数来确定服务器系统的获取成本。
46.在一个实施例中,液体冷却解决方案(例如cdu 201)的获取成本可以是常数(例如,获得冷却系统的一次性成本)。在一个实施例中,处理器功耗是电子机架内的所有处理器的功耗的总和。可以基于时钟速率和液体泵的泵速使用第二函数来确定处理器功耗。在一个实施例中,可以基于液体泵的当前泵速使用第三函数来确定冷却功耗。因此,可以基于时钟速率和液体泵的泵速使用第四函数来确定服务器和冷却系统的总的总体成本。
47.基准性能测量是基于数据样本的数量和使用预定基准系统处理样本的时间来确定的,预定基准系统与服务器被配置执行的数据处理服务的类型对应。
48.在一个实施例中,最佳控制逻辑221可以软件、硬件或其组合来实现。例如,最佳控制逻辑221可以被实现为现场可编程门阵列(fpga)或专用集成电路(asic)。目标函数301 可以实现为可以存储在诸如存储器的机器可读存储介质中,并且由最佳控制逻辑221执行的可执行指令。
49.在一个实施例中,目标函数表示服务器机架系统的总成本。目标是在满足基准性能要求和预定的约束的集合的同时最小化总体成本。在一个实施例中,目标函数(成本模型)的相关考虑是:1)it服务器的获取成本;2)液体冷却解决方案的获取成本;3)运行深度学习应用时it服务器的功耗的成本;4)液体冷却设备的功耗的成本。
50.cost=c
server
c
cooling
c
server power
c
cooling power
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
51.下面将分别更详细地描述成本模型表达式中的这四个分量。首先,最佳控制逻辑221可确定it服务器的资本成本c
server
。为了确定需要多少服务器以满足用于深度学习应用
的计算性能要求,使用基准下的单个服务器的性能。用于不同的应用场景的特定基准可以用于评估计算系统的性能。每个基准被认为是在特定应用场景中的真实生活任务的代表。下表中示出了一个示例基准。训练时间通过运行基准来限定。在此示例中,服务器需要处理数据集中的所有图像以完成模型训练,其中imagenet包括总共n=1,281,167个图像。
[0052][0053]
计算性能可以被量化为处理速度。对于单个服务器,处理速度可以表示为
[0054][0055]
n
benchmark
可以是基准数据集中的样本总数,以及t
training
可以是完成训练模型所需的时间。限定单个服务器的处理速度为s
sever
,以及整个服务器系统的性能需求为s
demand
,需要满足性能需求的it服务器的数量可表示为,
[0056][0057]
服务器系统的获取成本c
server

[0058]
c
server
=c
s
×
n
server
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0059]
其中c
s
是ai加速服务器的单价。服务器的总体配置c
server
可以是包括主机服务器(例如,cpu服务器)以及若干gpu服务器的服务器的集合。将方程式(2)和(3)代入方程式(4),我们得到下面的方程式(5):
[0060][0061]
注意,服务器系统的获取成本c
server
与训练时间t
training
成比例,而其它项可以在优化期间被认为是恒定的。参考图4,t
training
可以表示为处理器时钟f
clock
的函数,这导致:
[0062][0063]
接着,最佳控制逻辑222可以进一步确定it服务器的能量消耗和能量成本。it服务器功耗的成本可以由训练时间来表示。在给定的芯片温度和芯片时钟下,为了完成模型训练,可以基于给定的芯片温度和芯片时钟来量化和确定用于训练模型的能量消耗量。图5中示出一个示例。注意,此能量值是训练时间上的功耗的积分(例如,能量值是训练时间上消耗的总功率)。芯片时钟可以是用于功耗和温度的直接控制参数,也可以是间接控制参数。当基准工作负载在具有液体冷却的it设备上运行时,芯片温度可以由液体回路中的泵速v
pump
来确定。因此,用于芯片温度的直接控制参数是液体泵的速度v
pump
。结合芯片时钟和温度对功耗以及泵速对温度的两种关系,得到:
[0064]
e
server
=f2(f
clock
,v
pump
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0065]
其中,e
server
是服务器在基准性能要求下完成训练模型所消耗的总能量。
[0066]
液体冷却解决方案的能量消耗直接取决于液体冷却泵的泵速。在运行基准任务期间,泵消耗冷却功率来驱动流体。
[0067][0068]
其中b是来自泵功耗曲线的常数。最后,为了计算和优化总成本的目的,液体冷却解决方案的获取成本c
cooling
可以被认为是常数。
[0069]
总体目标函数是
[0070][0071]
其中是c
r
是电费率。为了使操作中的获取成本和电能成本的总和有意义,对于电能成本,引入t
life
作为整个it设备的寿命。使用芯片时钟f
clock
的函数替换t
training
,参照图4,连同插入方程式(6)、(7)、(8),并且具有下面描述的最终成本模型:
[0072][0073][0074]
直接控制参数是芯片时钟f
clock
和液体冷却回路中的泵的速度v
pump
。芯片时钟f
clock
可以被限制在时钟速率的范围内(例如,上限和下限)。泵速也可以被限制在泵速的范围内(例如,泵速上限和下限)。因此,使用时钟速率和泵速的最佳选择的参数集合可以达到最低成本。
[0075]
图6是示出根据一个实施例的用于确定液体泵的最佳泵速和处理时钟速率的过程的示例的流程图。过程600可以由处理逻辑执行,处理逻辑可包括软件、硬件或其组合。例如,过程600可以由图2的rmu 202的最佳控制逻辑221执行。参考图6,在框602处,处理逻辑基于性能要求确定刀片服务器的成本与刀片服务器的处理器的时钟速率之间的第一关系。第一关系可关于性能要求指示刀片服务器的获取成本,并作为处理器的时钟速率的函数。因此,在具有限定的性能要求的特定基准场景中,刀片服务器的获取成本与处理器的时钟速率直接相关。
[0076]
在框604处,处理逻辑确定执行基准任务的刀片服务器的能量消耗的成本、处理器的时钟速率和液体泵的泵速之间的第二关系。第二关系可限定执行基准任务的刀片服务器的能量消耗并且因此限定能量成本。特别地,刀片服务器的能量成本与训练模型所需的时间和模型的功耗直接相关,训练模型所需的时间和模型的功耗直接取决于处理器的时钟速率(即,时钟速率越高,每单位时间的功耗越高,但训练时间越低,反之亦然)。另外,如图5所示,在特别的时钟速度下处理器的电力消耗取决于处理器的温度。处理器的温度由泵的速度决定 (即,从处理器吸取热量的速率取决于泵速)。因此,执行任务的刀片服务器的能量消耗的成本直接取决于液体泵的时钟速率和泵速。
[0077]
在框606处,处理逻辑基于第一关系和第二关系确定优化的时钟速率和优化的泵速。为了确定优化的时钟速率和优化的泵速,处理逻辑可以最小化目标函数,其中目标函数是服务器机架系统和冷却系统的总体成本。第一关系和第二关系可以表示目标函数的一个
或多个项。目标函数可以基于服务器获取成本、泵系统获取成本、服务器功耗成本和泵系统功耗成本指示服务器机架训练机器学习模型的总成本。目标函数还可以指示在服务器机架的估计的寿命期间服务器机架的总成本。
[0078]
在框608处,处理逻辑基于最佳泵速经由泵控制器控制液体泵的泵速,并且基于最佳时钟速率控制一个或多个处理器的时钟速率。最佳泵速和时钟速率可以用于执行与基准任务相关的另一任务。另一任务可以是真实生活ai模型的训练,而基准任务可以是测试服务器机架系统的性能的任务。
[0079]
已经关于对计算机存储器内的数据位的操作的算法和符号表示呈现了前述详细描述的一些部分。这些算法描述和表示是数据处理领域的技术人员用来最有效地将他们的工作实质传达给本领域的其他技术人员的方式。算法在这里并且通常被认为是导致期望结果的自洽操作序列。这些操作是需要对物理量进行物理操作的那些操作。
[0080]
然而,应当记住的是,所有这些和类似的术语都与适当的物理量相关联,并且仅仅是应用于这些量的方便的标记。除非特别声明,否则从以上讨论中显而易见的是,应当理解的是,在整个说明书中,使用诸如所附权利要求书中所阐述的术语的讨论指的是计算机系统或类似电子计算设备的动作和过程,所述计算机系统或类似电子计算设备将计算机系统的寄存器和存储器内的表示为物理(电子)量的数据操纵和变换成计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的类似表示为物理量的其它数据。
[0081]
本公开的实施例还涉及用于执行本文的操作的装置。这种计算机程序存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如,计算机)可读的形式存储信息的任何机制。例如,机器可读(例如,计算机可读)介质包括机器(例如,计算机)可读存储介质(例如,只读存储器(“rom”)、随机存取存储器(“ram”)、磁盘存储介质、光存储介质、闪存设备)。
[0082]
在前述附图中描述的过程或方法可以由包括硬件(例如,电路、专用逻辑等)、软件(例如,体现在非暂时性计算机可读介质上)或两者的组合的处理逻辑来执行。尽管以上关于一些顺序操作描述了过程或方法,但是应当理解的是,可以以不同的顺序执行所述的一些操作。此外,一些操作可以并行地而不是顺序地执行。
[0083]
本公开的实施例不是参考任何特定编程语言描述的。将了解的是,可使用各种编程语言实施如本文所述的本公开的实施例的教示。
[0084]
在前述说明书中,已经参考本公开的具体示例性实施例描述了本公开的实施例。显然,在不背离如所附权利要求书中所阐述的本公开的更宽的精神和范围的情况下,可以对其进行各种修改。因此,说明书和附图应被认为是说明性的而不是限制性的。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜