一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种芯片功率监控方法、系统、设备以及介质与流程

2022-07-16 18:19:24 来源:中国专利 TAG:


1.本发明涉及服务器领域,具体涉及一种芯片功率监控方法、系统、设备以及存储介质。


背景技术:

2.随着服务器的功耗越来越高、密度越来越大,服务器对其运行的安全性要求也越来越高,尤其是如果出现板卡烧板问题,轻则会导致服务器宕机,对业务运行带来极大影响,重则会引起火灾,那带来的影响则是灾难性的。基于以上问题,服务器在设计过程中都会添加相应的保护线路来预防烧板,从而在板卡发生过温或过流时能够及时断电,防止出现烧板问题。
3.目前,常用的方案是通过两级措施来实现防烧板:第一级是通过温度sensor检测板卡温度,进而通过相应的算法来调控风扇转速,实现温度的动态调节;第二级是在供电线路中添加efuse,当efuse检测到线路中出现过流时,会及时切断线路,从而避免由于线路过流引起的过温烧板。
4.当前采用的两级措施中,通过温度sensor检测温度进而调控风扇转速的方式,更多的是用于问题的早期规避,且对于瞬间短路等问题无法实现有效预防。
5.通过efuse在线路过流时及时切断线路的方案,由于其设置的过流值为固定值,当线路中某一元器件损坏失效而导致电流长时间略小于efuse设置的限流阈值时,也存在板卡局部位置温度不断累积升高而最终导致烧板的风险。


技术实现要素:

6.有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种芯片功率监控方法,包括以下步骤:
7.基于每一个芯片的历史功耗计算阈值;
8.每隔预设时间段获取每一个芯片的实时功耗;
9.将获取到每一个芯片的实时功耗分别与对应的阈值进行比较;
10.响应于连续n个实时功耗的比较结果为异常,生成报警信号。
11.在一些实施例中,基于每一个芯片的历史功耗计算阈值,进一步包括:
12.获取每一个芯片最近的m个历史功耗;
13.计算所述最近的m个历史功耗的平均值以将所述平均值作为每一个芯片对应的阈值。
14.在一些实施例中,还包括:
15.利用获取到的实时功耗将所述最近的m个历史功耗中最早获取的历史功耗替换以对所述最近的m个历史功耗进行更新。
16.在一些实施例中,将获取到每一个芯片的实时功耗分别与对应的阈值进行比较,进一步包括:
17.判断所述实时功耗与对应的阈值之间的误差是否小于预设值;
18.响应于大于所述预设值,确定比较结果为异常。
19.基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种芯片功率监控系统,包括:
20.计算模块,配置为基于每一个芯片的历史功耗计算阈值;
21.获取模块,配置为每隔预设时间段获取每一个芯片的实时功耗;
22.比较模块,配置为将获取到每一个芯片的实时功耗分别与对应的阈值进行比较;
23.报警模块,配置为响应于连续n个实时功耗的比较结果为异常,生成报警信号。
24.在一些实施例中,基于每一个芯片的历史功耗计算阈值,进一步包括:
25.获取每一个芯片最近的m个历史功耗;
26.计算所述最近的m个历史功耗的平均值以将所述平均值作为每一个芯片对应的阈值。
27.在一些实施例中,还包括更新模块,配置为:
28.利用获取到的实时功耗将所述最近的m个历史功耗中最早获取的历史功耗替换以对所述最近的m个历史功耗进行更新。
29.在一些实施例中,将获取到每一个芯片的实时功耗分别与对应的阈值进行比较,进一步包括:
30.判断所述实时功耗与对应的阈值之间的误差是否小于预设值;
31.响应于大于所述预设值,确定比较结果为异常。
32.基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
33.至少一个处理器;以及
34.存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种芯片功率监控方法的步骤。
35.基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种芯片功率监控方法的步骤。
36.本发明具有以下有益技术效果之一:本发明提出的方案在保留原来两级预防措施的基础上,通过主板上的bmc芯片来对板卡上不同供电的功耗进行实时监控,当某个供电的功耗长时间异常偏高时则进行报警,由机房维护人员确认是否存在烧板风险。进而可以预防线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
38.图1为本发明的实施例提供的芯片功率监控方法的流程示意图;
39.图2为本发明的实施例提供的芯片功率监控方法的流程框图;
40.图3为本发明的实施例提供的芯片功率监控系统的结构示意图;
41.图4为本发明的实施例提供的计算机设备的结构示意图;
42.图5为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
43.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
44.需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
45.根据本发明的一个方面,本发明的实施例提出一种芯片功率监控方法,如图1所示,其可以包括步骤:
46.s1,基于每一个芯片的历史功耗计算阈值;
47.s2,每隔预设时间段获取每一个芯片的实时功耗;
48.s3,将获取到每一个芯片的实时功耗分别与对应的阈值进行比较;
49.s4,响应于连续n个实时功耗的比较结果为异常,生成报警信号。
50.本发明提出的方案在保留原来两级预防措施的基础上,通过主板上的bmc芯片来对板卡上不同供电的功耗进行实时监控,当某个供电的功耗长时间异常偏高时则进行报警,由机房维护人员确认是否存在烧板风险。进而可以预防线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。
51.在一些实施例中,基于每一个芯片的历史功耗计算阈值,进一步包括:
52.获取每一个芯片最近的m个历史功耗;
53.计算所述最近的m个历史功耗的平均值以将所述平均值作为每一个芯片对应的阈值。
54.在一些实施例中,还包括:
55.利用获取到的实时功耗将所述最近的m个历史功耗中最早获取的历史功耗替换以对所述最近的m个历史功耗进行更新。
56.在一些实施例中,将获取到每一个芯片的实时功耗分别与对应的阈值进行比较,进一步包括:
57.判断所述实时功耗与对应的阈值之间的误差是否小于预设值;
58.响应于大于所述预设值,确定比较结果为异常。
59.具体的,如图2所示,bmc芯片通过i2c信号与vr芯片互联,并通过i2c信号实时抓取vr芯片的功耗数据。
60.bmc芯片根据抓取的vr芯片功耗,每间隔6分钟取一次值生成功耗监控曲线折线图,并在12小时即获取72个监测数据(xn,x
n 1
,
……
,x
n 71
)之后开始对功耗监控曲线折线图进行监控。
61.bmc每获取一个监测数据(x
n 72
),就会以“先进先出”的方式将第n个数据挤出,即折线图中始终保持有最新的72个监测数据。
62.bmc对折线图中的72个监测数据进行计算取其平均值,即ave=(xn x
n 1

……

x
n 71
)/72,当x
n 72
与ave的误差大于10%时,则判断功耗出现异常,当连续10个监测数据都判定为功耗异常时,则发出报警,通知运维人员进行处理。
63.这样通过bmc对vr芯片的功耗进行实时监控,进而通过功耗数据生成的折线图来判断每个vr芯片是否出现功耗异常,当连续10次功耗数据均判断为异常时,bmc发出报警信号,通知运维人员进行处理,从而防止出现线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。
64.而且硬件设计上均基于常规设计,无需修改或新增元器件,仅通过bmc处理逻辑修改即可实现,方案实施便捷灵活,当服务器运行业务发生变化导致功耗变化较大时,可以由运维人员手动调整开始新的一个监控周期,从而确保该监控策略对业务运行的灵活适配。
65.bmc获取72个监测数据之后生成功耗监控曲线折线图,并通过“先进先出”的方式保证曲线图中的数据始终为最新,从而可以确保报警信号的准确性。该策略是作为系统风扇散热调控及efuse过流保护的补充策略,主要是预防线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。本文提出的基于bmc抓取vr芯片实时功耗并判断是否出现功耗异常升高以作为是否会出现烧板风险的方法得以实现。
66.本发明提出的方案主要是通过bmc对vr芯片的功耗进行实时监控,进而通过功耗数据生成的折线图来判断每个vr芯片是否出现功耗异常,当连续10次功耗数据均判断为异常时,bmc发出报警信号,通知运维人员进行处理,从而防止出现线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。
67.首先,该方法无需对现有设计进行任何硬件改动,仅需通过修改bmc处理逻辑即可实现,方案实施便捷,便于客户机房的快速导入;
68.其次,该方法可根据机房现场实际情况对算法的参数如功耗采样间隔时间、采样频次等进行动态调整,从而有效适配不同业务场景;
69.再次,该方法通过功耗数据的波动来进行判断,可以有效预判出线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。
70.基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种芯片功率监控系统400,如图3所示,包括:
71.计算模块401,配置为基于每一个芯片的历史功耗计算阈值;
72.获取模块402,配置为每隔预设时间段获取每一个芯片的实时功耗;
73.比较模块403,配置为将获取到每一个芯片的实时功耗分别与对应的阈值进行比较;
74.报警模块404,配置为响应于连续n个实时功耗的比较结果为异常,生成报警信号。
75.在一些实施例中,基于每一个芯片的历史功耗计算阈值,进一步包括:
76.获取每一个芯片最近的m个历史功耗;
77.计算所述最近的m个历史功耗的平均值以将所述平均值作为每一个芯片对应的阈值。
78.在一些实施例中,还包括更新模块,配置为:
79.利用获取到的实时功耗将所述最近的m个历史功耗中最早获取的历史功耗替换以对所述最近的m个历史功耗进行更新。
80.在一些实施例中,将获取到每一个芯片的实时功耗分别与对应的阈值进行比较,
进一步包括:
81.判断所述实时功耗与对应的阈值之间的误差是否小于预设值;
82.响应于大于所述预设值,确定比较结果为异常。
83.本发明提出的方案在保留原来两级预防措施的基础上,通过主板上的bmc芯片来对板卡上不同供电的功耗进行实时监控,当某个供电的功耗长时间异常偏高时则进行报警,由机房维护人员确认是否存在烧板风险。进而可以预防线路中某一元器件失效导致线路中温度持续缓慢升高最终导致烧板的问题。
84.基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机设备501,包括:
85.至少一个处理器520;以及
86.存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种芯片功率监控方法的步骤。
87.基于同一发明构思,根据本发明的另一个方面,如图5所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种芯片功率监控方法的步骤。
88.最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
89.此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。
90.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
91.以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
92.应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
93.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
94.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
95.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思
路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献