一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度强化学习的数据中心能耗优化控制方法与流程

2022-05-18 14:12:29 来源:中国专利 TAG:


1.本发明属于数据中心能耗控制应用技术领域,尤其涉及一种基于深度强化学习的数据中心能耗优化控制方法。


背景技术:

2.随着机器学习、云计算等技术的不断发展,数据中心的规模不断扩大以顺应“数字新基建”的时代要求,随之数据中心的能耗成本也不断增加。其中,it设备和制冷设备是数据中心的主要能耗来源,两者的能耗通常占用数据中心总额能耗的85%。要降低数据中心能耗,重点在于提升数据中心的技术,关键要从it设备计算效率以及冷却系统制冷效率两方面入手。
3.it设备的计算能耗约占数据中心总能耗的45%,对物理资源进行集中管理、合理分配和有效调度,可以使数据中心保持理想的资源有效利用状态,使节约能源的途径之一。资源管理是典型的决策问题,因此可以使用强化学习算法代替传统的启发式算法,通过资源管理器与环境的自主交互,主动学习资源调度的策略,并根据环境反馈优化资源分布,提高资源利用率,从而降低计算能耗。
4.对于制冷设备,目前数据中心普遍使用的是havc(heat,ventilation,and air conditioning)系统控制冷却系统,空调的制冷能耗约占数据中心总能耗的40%。由于数据中心运行条件缺乏透明性,空调系统不得不设置过低的温度来降低热点的风险,从而导致过度的能量消耗。对空调温度的自动调控和优化同样可以使用强化学习的方法,空调自主地与环境互动,观测温度等信息选择调控策略,根据奖励反馈机制不断优化策略,最终达到降低制冷能耗的目的。
5.但是,单独控制it设备或制冷设备并不能达到降低数据中心整体能耗的目的。如果一味降低计算能耗,资源倾向于集中到某些服务器,则有造成局部热点的风险,需要制冷设备设置足够低的温度,造成制冷能耗的浪费。而一味降低制冷能耗,温度设定在适宜范围内越高越好,则无法保证it设备的安全。
6.在数据中心中,空调与it设备等存在相互影响,具有很强的不稳定性,因此可以看作一个非常复杂的多智能体系统。在多智能体环境中,每个智能体都和环境进行交互,但对于每个智能体而言,外界环境是不断变化且没有规律的,每个智能体只能得到的环境的一部分观察信息。为此,如何在保证完成业务任务的前提下,每个数据中心区域能够被合理分配负载任务,同时,对数据中心的冷却系统进行调控,减少数据中心计算资源的冗余,提高每一度电可以完成的任务量是现有数据中心能耗控制的重点研究方向。


技术实现要素:

7.本发明针对上述的数据中心能耗控制所存在的技术问题,提出一种设计合理、结构简单、加工方便且能够有效实现数据中心能耗最佳控制的基于深度强化学习的数据中心能耗优化控制方法。
8.为了达到上述目的,本发明采用的技术方案为,本发明提供一种基于深度强化学习的数据中心能耗优化控制方法,包括以下有效步骤:
9.a、建立深度强化学习网络:所述深度强化学习网络包括策略网络actor,评估网络critic1,评估网络critic2以及对应的3个目标网络actor-target、critic1-target和critic2-target,其中,所述actor网络和actor-target网络之间,critic1网络、critic2网络、critic1-target网络和critic2-target网络之间有相同的网络结构相同、参数不同;
10.b、确定深度强化学习网络的状态、动作和奖励函数计算方法;
11.c、深度强化学习网络初始化:通过随机参数初始化策略网络actor网络,评估网络critic1网络,评估网络critic2网络的参数θ1,θ2;以及目标网络actor-target网络,critic1-target网络,critic2-target网络的参数θ
1-,θ
2-;初始化经验回放内容大小m;
12.d、深度强化学习网络训练:对于每次训练,根据当前策略和噪音选择负载分配和冷却点温度选择动作,然后执行该动作获得下一状态和奖励,并将该存储状态转移值放到经验回放内存m中,当m满时,从经验回放中随机采样,获得n个状态转移值,并得到critic1-target网络和critic2-target网络中的和并得到最小target值:然后计算td_error,最后使用td_error更新critic1网络和critic2网络,其中,td_error的计算方法如下:
[0013][0014]
其中,λ为奖励函数值;γ为折扣因子;θ1为评估网络1的目标网络critic1_target的网络参数,θ2为评估网络2的目标网络critic2_target的网络参数,2个目标网络初始值不同,计算目标q值不同;
[0015]
e、重复执行d步骤完成深度强化模型的训练,得到关于负载分配和冷却系统控制的最优策略网络模型。
[0016]
作为优选,所述b步骤中,状态函数的计算方法为:状态向量为天气温度t
outdoor
(t)和数据中心总的负载量j(t)组成的元组:[天气温度t
outdoor
(t),数据中心总的负载量j(t)]。
[0017]
作为优选,所述b步骤中,动作函数的计算方法为:动作向量为数据中心每个区域的负载量ji(t)和每个区域的冷却点温度组成的元组,动作的个数由数据中心的区域个数决定,动作向量包括以下2*n个动作:[数据中心第i个区域的冷却系统冷却点温度数据中心第i个区域的负载情况ji(t)]。
[0018]
作为优选,所述b步骤中,奖励函数的计算方法为:奖励函数计算如下:其中m为动作考虑延迟的时间步步数,kj是当前l
t
值在r
t
中所占的权重,r
t
指的是当前函数值,l
t
是未来时间步的函数值,然后利用未来时间步占比当前函数值的权重以及所延迟的时间步步数计算。
[0019]
与现有技术相比,本发明的优点和积极效果在于,
[0020]
1、本发明提供一种基于深度强化学习的数据中心能耗优化控制方法,首先建立基
于td3的深度强化学习网络结构,其次确定深度强化学习网络的状态,动作和奖励函数计算方法,然后是对深度强化学习网络初始化,最后根据系统状态训练深度强化学习网络并得到关于负载分配和冷却系统控制的最优策略。
附图说明
[0021]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]
图1为本发明适用的多区域数据中心物理结构示意图;
[0023]
图2为本发明适用的数据中心冷却系统结构示意图;
[0024]
图3为本发明中提出的td3强化学习网络结构示意图;
[0025]
图4为本发明中使用的actor网络结构示意图。
具体实施方式
[0026]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例对本发明做进一步说明。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0027]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开说明书的具体实施例的限制。
[0028]
实施例1,本实施例针对多区域数据中心。假设一个数据中心包括了n个区域,每个区域有主机架区,气室和天花板等,如图1所示。数据中心中气室和天花板的使用有利于防止热空气和冷空气的混合,能够有效的提高了冷却效率,为数据中心节省大量的能耗。在数据中心的每个区域中,热量主要由ite设备和其他照明设备等基础设施产生,其中ite设置是主要的热源。数据中心运行过程中需要将每个时刻待处理的业务负载分配到数据中心的各个区域进行执行,每个区域处理业务负载过程中ite设备产生了大量的热,数据中心每个区域的冷却系统对数据中心进行冷却降温,因此ite设备和冷却系统设备运行过程产生的巨大能耗是数据中心总能耗的主要部分。
[0029]
本实施例中针对上述物理结构的数据中心,提出了基于强化学习的能耗控制方法。具体的实施例内容以下:
[0030]
系统运行模型及参数计算方法
[0031]
本实施例中提出的方法需要对系统运行过程中参数进行建模和计算,主要包括数据中心it负载模型、冷却系统模型以及能耗模型。下面详细介绍这些模型的具体定义和计算方法。
[0032]
1、数据中心it负载模型及计算方法
[0033]
本实施例中我们假设将数据中心的运行时间划分为多个连续的时间步,使用t表示,即t={1,2..i,...t},数据中心t个时间步内的总负载j,数据中心当前t时刻的总的ite的负载定义为j(t),在时间步t内,数据中心将需要处理的ite负载分配给数据中心的n个区
域,每个数据中心区域zi在t时刻的ite负载为ji(t),其中为数据中心每个区域的负载在数据中心总负载中的占比,那么在任意时间步t内,数据中心应当存在如下式(1),式(2),式(3)和式(4)成立:
[0034][0035][0036][0037][0038]
2、数据中心冷却系统模型及计算方法
[0039]
数据中心通过冷却系统对数据中心进行降温,使得数据中心的温度保持在一定范围内,数据中心由hvac(heat,ventilation,andairconditioning)系统控制冷却系统,hvac系统依赖于流体动力学和热力学,系统复杂度很高。hvac系统通过供气管道和回风管道对数据中心的ite设备进行冷却操作,包括了与外部进行空气交换的oasystem,调节空气流量的fan,利用水蒸发降温的dec,间接蒸发冷却器iec,通过冷却盘管降温的dxcoil和冷水机降温的chillercoil等组件,逐一通过控制每个组件的出口点温度或风速来控制数据中心的冷却系统,来达到良好的节能效果,数据中心的冷却系统结构如图2所示。
[0040]
数据中心的冷却系统在对数据中心的降温过程中产生大量的能耗和热量,通过对数据中心每个区域zi在t时刻的冷却系统的出口点温度的控制,使得数据中心的温度保持在20℃~25℃之间,数据中心保持在安全温度范围可以保证数据中心内设备可以正常运行,最终达到为数据中心降温的效果,那么在任意时间步t内,数据中心应当存在如下式(5),成立:
[0041][0042]
3、数据中心能耗模型及计算方法
[0043]
一个数据中心在运行过程中产生了巨大的耗电量,数据中心t个时间步内的总负载e,在当前t时刻总的电量消耗e(t)主要来自t时刻数据中心的ite设备的耗电量e
cool
(t)和数据中心的冷却系统设备的耗电量e
it
(t),假定其他的耗电量不计。
[0044]
数据中心的ite设备在处理业务过程中消耗大量的能源并产生大量的热,ite设置消耗的总电量是数据中心每个区域ite设备电量消耗之和,同时电量的消耗和热量产生的多少与数据中心ite设备处理的负载量大小相关。ite设备运行中产生了大量的热,为了使得数据中心的温度在一定范围内以保持数据中心内设备的正常运转,数据中心的冷却系统对数据中心进行降温,数据中心每个区域的冷却系统电量消耗相加为数据中心冷却系统总的电量消耗,冷却系统的电量消耗大小与数据中心所在地的室外温度t
outdoor
(t)和冷却系统的冷却点的设置相关。那么数据中心的能耗应当满足以下(6)(7)(8)(9)式:
[0045][0046]
e(t)=eit(t) e
cool
(t)(7)
[0047]
[0048][0049]
其中f
it
(x)函数为ite设备的耗电量与负载的关系函数,f
cool
(x)函数为冷却系统设备的耗电量与冷却系统出口点温度的关系函数。
[0050]
面向数据中心能耗优化的控制问题定义
[0051]
本实施例的目标是根据数据中心当前的总负载和天气状况,在保证完成业务任务的前提下,每个数据中心区域能够被合理分配负载任务,同时对数据中心的冷却系统进行调控,减少数据中心计算资源的冗余,提高每一度电可以完成的任务量,从而达到降低数据中心的总体功耗的目的。为了评估数据中心能耗效率,本实施例定义了量化的能耗指标dcep,具体计算方法如下:
[0052][0053]
具体的控制问题是根据外部环境温度和负载的变化,分配负载到不同的数据中心区域,控制每个区域的hvac的冷却出口温度,并最大化目标函数dcep。因此,该方法求解的优化问题可描述如下:
[0054][0055][0056][0057][0058][0059][0060][0061]
e(t)=eit(t) e
cool
(t)
[0062][0063][0064]
问题求解及控制方法实施
[0065]
本实施例中对上述问题的求解基于td3深度强化学习框架,因为数据中心机房数量大,动作空间维度大,负载分配和冷却系统的控制的动作为连续动作空间,而td3深度强化学习不需大量采样求解策略梯度且适用于连续动作控制,可是达到更好的负载分配和冷却系统控制。其思路是首先建立基于td3的深度强化学习网络结构,其次确定深度强化学习网络的状态,动作和奖励函数计算方法,然后是对深度强化学习网络初始化,最后根据系统状态训练深度强化学习网络并得到关于负载分配和冷却系统控制的最优策略。具体的过程如下:
[0066]
首先,建立深度强化学习网络。本实施例中提出的td3深度强化学习由6个网络组
成分别为策略网络actor,评估网络critic1,评估网络critic2,以及对应的3个目标网络actor-target、critic1-target和critic2-target,其中actor网络和actor-target网络,critic1网络、critic2网络、critic1-target网络和critic2-target网络,它们有相同的网络结构和不同的参数。如图3所示,其中actor网络包括4个隐藏层,输入为当前时间步的状态元组[t
outdoor
(t),j(t)],用ia表示,经过2层relu层之后,tanh层输出为冷却系统控制动作,归一化数据在[-1,1]之间,数据中心每个区域的it负载和为总负载。在actor网络结构中使用softmax层输出作为每个数据中心区域的it负载分配动作,数据在[0,1]之间,输出层将tanh层输出和softmax层输出连接,输出动作元组ji(t)用oa表示,结构如图4所示。对于2个critic网络,输入为由状态和动作组成的元组用ic表示,经过2个隐藏层,输出状态的价值,选择最小的状态价值计算得到td_error,使用td_error更新critic网络。actor网络的更新频率低于critic网络。
[0067]
再确定深度强化学习网络的状态,动作和奖励函数计算方法。本实施例中用于td3深度强化学习的状态,动作和奖励函数的计算方法如下:
[0068]
状态函数的计算方法为:状态向量为天气温度t
outdoor
(t)和数据中心总的负载量j(t)组成的元组:[天气温度t
outdoor
(t),数据中心总的负载量j(t)]。
[0069]
动作函数的计算方法为:动作向量为数据中心每个区域的负载量ji(t)和每个区域的冷却点温度组成的元组,动作的个数由数据中心的区域个数决定,动作向量包括以下2*n个动作:[数据中心第i个区域的冷却系统冷却点温度数据中心第i个区域的负载情况ji(t)]。
[0070]
奖励函数以目标函数dcep为基础,考虑到负载分配动作和冷却温度动作被数据中心执行之后,反馈具有一定的延迟性,奖励函数由当前的目标函数值和未来几个时间步的目标函数值组成,不同时间步的目标函数值权重不同,奖励函数的计算方法为:奖励函数计算如下:
[0071][0072]
其中m为动作考虑延迟的时间步步数,kj是当前l
t
值在r
t
中所占的权重,r
t
指的是当前函数值,l
t
是未来时间步的函数值,然后利用未来时间步占比当前函数值的权重以及所延迟的时间步步数计算。
[0073]
e、深度强化学习网络初始化:通过随机参数初始化策略网络actor网络,评估网络critic1网络,评估网络critic2网络的参数θ1,θ2;以及目标网络actor-target网络,critic1-target网络,critic2-target网络的参数θ
1-,θ
2-;初始化经验回放内容大小m;
[0074]
f、深度强化学习网络训练:对于每次训练,根据当前策略和噪音选择负载分配和冷却点温度选择动作,然后执行该动作获得下一状态和奖励,并将该存储状态转移值放到经验回放内存m中,当m满时,从经验回放中随机采样,获得n个状态转移值,并得到critic1-target网络和critic2-target网络中的和并得到最小target值:然后计算td_error,最后使用td_error更新critic1网络和
critic2网络,其中,td_error的计算方法如下:
[0075][0076]
其中,λ为奖励函数值;γ为折扣因子;θ1为评估网络1的目标网络critic1_target的网络参数,θ2为评估网络2的目标网络critic2_target的网络参数,2个目标网络初始值不同,计算目标q值不同,而q(s`,a`)是描述了一种在相关参数范围下得到所有工作的概率。
[0077]
最后,重复执行训练步骤,完成深度强化模型的训练,得到关于负载分配和冷却系统控制的最优策略网络模型。
[0078]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献