一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

服务器监控装置、方法及计算机可读存储介质与流程

2021-11-26 22:56:00 来源:中国专利 TAG:


1.本发明涉及通信设备技术领域,尤其涉及一种服务器监控装置、方法及计算机可读存储介质。


背景技术:

2.近几年来,随着科技和网络的快速发展,服务器的功能愈益强大。为了保证服务器工作的稳定性,一般采用基板管理控制器(baseboard management control,bmc)来监控和管理服务器系统的运作。bmc可以把系统发生的事件记录在非易失的系统事件日志(sel)中,比如记录的事件类型包括温度异常、电压异常、风扇异常等。在监控过程中,bmc还可以管理非易失的传感器数据记录存储库(sdrr),可以从此库中检索出系统运行时的信息。因此,bmc自动生成的日志信息成为查看服务器运行状态的重要指标和参考依据。然而,基于bmc自动生成的日志信息无法得到用于监测服务器运行状态的传感器的异常事件。


技术实现要素:

3.有鉴于此,有必要提供一种服务器监控装置、方法及计算机可读存储介质,可实现监测服务器及其内部传感器的运行状态。
4.本发明一实施方式提供一种服务器监控方法,所述方法包括:
5.收集待监控服务器集群的传感器数据记录(sensor data record,sdr)数据,其中所述待监控服务器集群包括至少一服务器;
6.将所述收集的sdr数据以预设文件格式存储至指定存储区;
7.采用预设分析规则对所述指定存储区中的sdr数据进行分析,以判断是否存在异常sdr数据;及
8.若存在异常sdr数据,则输出与所述异常sdr数据对应的异常元件的警示信息。
9.优选地,所述方法还包括:
10.获取所述待监控服务器集群的基板管理控制器生成的日志文件;及
11.检测所述基板管理控制器生成的日志文件是否存在异常日志文件,并输出检测到的异常日志文件。
12.优选地,所述异常sdr数据包括第一类型的异常sdr数据及第二类型的异常sdr数据,其中,所述第一类型的异常sdr数据能触发所述基板管理控制器生成对应的异常日志文件,所述第二类型的异常sdr数据不能触发所述基板管理控制器生成对应的异常日志文件。
13.优选地,所述方法还包括:
14.判断所述异常日志文件中是否存在与所述第一类型的异常sdr数据相对应的日志文件;及
15.若所述异常日志文件中不存在与所述第一类型的异常sdr数据相对应的日志文件,则输出预设提示信息。
16.优选地,所述若存在异常sdr数据,则输出与所述异常sdr数据对应的异常元件的
警示信息的步骤包括:
17.若存在所述异常sdr数据,则基于所述异常sdr数据生成sdr异常日志文件;及
18.输出所述sdr异常日志文件及与所述异常sdr数据对应的异常元件的警示信息。
19.优选地,所述方法还包括:
20.将所述收集的sdr数据转换成sdr曲线图,并输出所述sdr曲线图;及
21.监控所述收集的sdr数据,以更新所述sdr曲线图。
22.优选地,所述异常元件包括用于监测所述服务器的部件的传感器和/或所述服务器的部件,所述警示信息包括异常资讯及异常发生的时间区间。
23.优选地,所述方法还包括:
24.通过网页方式接入与所述待监控服务器集群关联的被测系统,以收集所述待监控服务器集群的sdr数据。
25.本发明一实施方式提供一种服务器监控装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述服务器监控方法的步骤。
26.本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的服务器监控方法的步骤。
27.与现有技术相比,上述服务器监控装置、方法及计算机可读存储介质,通过对sdr数据进行分析,可实现将bmc无法发现的异常信息进行回报,提前找出部件衰退/损坏的迹象,且可定位出有问题的传感器及服务器元件,同时也可实现对bmc日志文件进行筛选与异常日志回报。
附图说明
28.图1是本发明一实施方式的服务器监控装置的功能模块图。
29.图2是本发明一实施方式的服务器监控程序的功能模块图。
30.图3是本发明一实施方式的服务器监控方法的流程图。
31.主要元件符号说明
32.[0033][0034]
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
[0035]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0036]
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0037]
请参阅图1,为本发明服务器监控装置较佳实施例的示意图。
[0038]
服务器监控装置100可以实现对数据中心200中的多个服务器进行监控,比如数据中心200包括至少一待监控服务器集群,该待监控服务器集群可以包括多个服务器。可以理解,服务器监控装置100也可以根据实际需求来监控用户所指定的服务器或服务器集群,在此不作限定。
[0039]
服务器监控装置100可以包括存储器10、处理器20以及存储在存储器10中并可在处理器20上运行的服务器监控程序30。处理器20执行服务器监控程序30时实现服务器监控方法实施例中的步骤,例如图3所示的步骤s300~s306。或者,所述处理器20执行服务器监控程序30时实现图2中各模块的功能,例如模块101~105。
[0040]
服务器监控程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在存储器10中,并由处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述服务器监控程序30在服务器监控装置100中的执行过程。例如,服务器监控程序30可以被分割成图2中的收集模块101、存储模块102、分析模块103、输出模块104及转换模块105。各模块具体功能参见下图2中各模块的功能。
[0041]
本领域技术人员可以理解,所述示意图仅是服务器监控装置100的示例,并不构成对服务器监控装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如服务器监控装置100还可以包括输入显示设备、通信模块、总线等。
[0042]
处理器20可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者处理器20也可以是任何常规的处理器等,处理器20可以利用各种接口和总线连接服务器监控装置100的各个部分。
[0043]
存储器10可用于存储服务器监控程序30和/或模块,处理器20通过运行或执行存储在存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现服务器监控装置100的各种功能。存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0044]
图2为本发明服务器监控程序较佳实施例的功能模块图。
[0045]
参阅图2所示,服务器监控程序30可以包括收集模块101、存储模块102、分析模块103、输出模块104及转换模块105。在一实施方式中,上述模块可以为存储于存储器10中且可被处理器20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于处理器20中的程序指令或固件(firmware)。
[0046]
收集模块101用于收集待监控服务器集群的sdr数据。
[0047]
在一实施方式中,所述待监控服务器集群包括至少一服务器,所述待监控服务器集群可以是用户指定需进行监控的服务器集群,如数据中心200的服务器集群。
[0048]
在一实施方式中,收集模块101可以通过网页方式接入该待监控服务器集群关联的sut(system under test,被测系统),该sut可以包括sdr监测器,服务器监控装置100可以发送控制指令给sdr监测器,进而收集模块101可以收集到所述待监控服务器集群的每一服务器的sdr数据。在本发明的其他实施方式中,收集模块101也可以通过与所述待监控服务器集群的ipmi(intelligent platform management interface,智能平台管理接口)监测器通信,实现收集所述待监控服务器集群的每一服务器的sdr数据。
[0049]
可以理解,对于每一服务器而言,可以利用ipmi监视服务器的物理特征,比如通过散布在服务器基板、系统板、机箱、风扇等位置的传感器实现监视服务器的物理特征,基于该些传感器监测到的数据即可生成sdr数据,该些sdr数据可以被存储在传感器数据记录存储库(sdrr)中,该物理特征可以是温度、电压、风扇工作状态、电源状态等。设置在服务器中的主板管理控制器(bmc)可以实现自动监视服务器系统的管理事件,并可把发生的事件记录在非易失的系统事件日志(sel)中。在对服务器进行监视过程中,bmc还可以管理非易失的sdrr,并可从此库中检索出系统运行时的信息。
[0050]
存储模块102用于将所述收集的sdr数据以预设文件格式存储至指定存储区。
[0051]
在一实施方式中,所述预设格式可以根据实际需求进行确定,比如为csv文件格式,所述指定存储区同样可以根据实际需求进行确定,比如是指定的文件服务器、指定的数据库等。存储至所述指定存储区的文件可以以服务器的名称、编号或者服务器对应的sut的名称为文件名,以进行区分,避免文件杂乱,方便后续管理者进行查看等操作。比如,存储模块102将所述收集到的sdr数据以sdr_sut_1.csv、sdr_sut_2.csv、sdr_sut_3.csv、

、sdr_
sut_n.csv等文件的形式存储至指定的文件服务器。
[0052]
分析模块103用于采用预设分析规则对所述指定存储区中的sdr数据进行分析,以判断是否存在异常sdr数据。
[0053]
在一实施方式中,所述预设分析规则可以是预先定义的对不同类型的sdr数据的分析规则,且可以根据实际需求进行调整,所述不同类型可以是指电压、温度、转速等不同类型参数,若为同一类型的参数,因不同的元件亦存在不同的分析规则,比如cpu温度、硬盘温度可以具有不同的分析规则。
[0054]
在一实施方式中,若sdr数据包括cpu温度数据及电源功率消耗数据,在开启压力测试与结束压力测试时分别检测10个cpu温度数据及10个电源功率消耗数据,所述预设分析规则包括:当开启压力测试(高负载)时,cpu的温度数据应该是要高于先前未开启压力测试的温度数据,电源功率消耗应该大于未开启压力测试的功率消耗数据,当压力测试结束时,cpu的温度数据应该是要低于先前进行压力测试时的温度数据,电源功率消耗应该小于未开启压力测试的功率消耗数据,否则,分析模块103可以判断存在异常,并定位异常点。
[0055]
可以理解,在服务器运行过程中,芯片电压数据可能需要保持稳定状态,温度或者风速转速则应该是动态的,无法完全保持不变状态。所述预设分析规则可以是:分析n笔(比如50笔)连续sdr数据,若是电压数据,则n笔连续sdr数据应该是相同的,若是温度数据或者风速转速数据等,则n笔连续sdr数据应该是动态的,即n笔连续sdr数据不完全相同。否则,分析模块103可以判断存在异常,并定位异常点。
[0056]
在一实施方式中,属于一个群组的部件的sdr数据应该是基本相同的。所述预设分析规则可以是:任意一时刻的群组中的每一部件的sdr数据差值应该是在预设差值区间内。比如,一群组包括多个正常工作的cpu,则在任意一时刻,每一cpu的温度数据的差值应该在15%以内,一群组包括多个正常工作的固态硬盘(ssd),则在任意一时刻,每一ssd的温度数据的差值应该在10%以内,一群组包括多个正常工作的风扇,则在任意一时刻,每一风扇的转速差值应该在10%以内。否则,分析模块103可以判断存在异常,并定位异常点。
[0057]
所述预设分析规则还可以是:在服务器自检过程中,风扇转速应该是自检开始时升高,在自检结束时下降,比如在自检开始时,风扇转速应该至少升高20%,在自检结束时,风扇转速应该至少降低20%。否则,分析模块103可以判断存在异常,并定位异常点。
[0058]
在一实施方式中,分析模块103还可以将异常sdr数据结合sel日志文件进行分析,以实现判断异常sdr数据是由于传感器自身异常产生,还是服务器本身的部件异常产生。
[0059]
在一实施方式中,所述异常sdr数据可以包括第一类型的异常sdr数据及第二类型的异常sdr数据。所述第一类型的异常sdr数据可以是指能触发bmc生成对应的异常日志文件的数据,所述第二类型的异常sdr数据可以是指不能触发bmc生成对应的异常日志文件的数据,进而分析模块103可以实现针对bmc没有回报的错误资讯,提前找出部件的异常/衰退的迹象,让使用者或者某个部件可能即将损坏。
[0060]
输出模块104用于输出与所述异常sdr数据对应的异常元件的警示信息。
[0061]
在一实施方式中,所述异常元件可以是指用于监测所述服务器的部件的传感器和/或所述服务器的部件,即可能是用于监测服务器部件的传感器出现异常,也可能是服务器本身的部件出现异常。所述警示信息包括但不限于异常资讯(记载了异常基本信息,如部件名称、编号、异常基本情况等)及异常发生的时间区间。
[0062]
在一实施方式中,服务器监控装置100还可以实现bmc异常日志文件的筛选与回报功能。具体地,收集模块101还可以从所述待监控服务器集群获取每一服务器的bmc生成的日志文件,分析模块103可以检测bmc生成的日志文件是否存在异常日志文件,比如分析模块103可以检测日志文件中是否发现了预设关键匹配信息、日志文件中部件的参数是否超过对应的阈值等,以实现检测异常日志文件。输出模块104可以将分析模块103检测到的异常日志文件进行输出显示。
[0063]
在一实施方式中,分析模块103还可用于判断所述异常日志文件中是否存在与所述第一类型的异常sdr数据相对应的日志文件,双重比对检查bmc系统日志机制更严谨。若所述异常日志文件中不存在与所述第一类型的异常sdr数据相对应的日志文件,表明bmc可能存在漏记载系统日志事件或者sdr数据存在异常记录,则输出模块104可以输出预设提示信息,以提醒所述待监控服务器集群的管理者进行核查。
[0064]
在一实施方式中,当分析模块103经过分析确定存在异常sdr数据时,可以基于所述异常sdr数据生成对应的sdr异常日志文件,进而输出模块104可以输出所述sdr异常日志文件,方便管理者实时查看。在本发明的其他实施方式中,该sdr异常日志文件也可以存储至指定的数据库进行备份,以便管理者后续进行查阅或进行大数据分析等。
[0065]
在一实施方式中,为了方便管理者快速查看sdr资讯,了解每一服务器的每一被监测部件的工作状态,转换模块105用于将所述收集的sdr数据进行分类并转换成sdr曲线图,进而输出模块104可以输出所述sdr曲线图在显示界面上。
[0066]
可以理解,每一sdr曲线图可以对应每一个传感器所监测到的数据,转换模块105可以实时监控所述收集的sdr数据,进而可以实现实时更新所述sdr曲线图。
[0067]
图3为本发明一实施方式中服务器监控方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
[0068]
步骤s300,收集待监控服务器集群的sdr数据,其中所述待监控服务器集群包括至少一服务器。
[0069]
步骤s302,将所述收集的sdr数据以预设文件格式存储至指定存储区。
[0070]
步骤s304,采用预设分析规则对所述指定存储区中的sdr数据进行分析,以判断是否存在异常sdr数据。
[0071]
步骤s306,若存在异常sdr数据,则输出与所述异常sdr数据对应的异常元件的警示信息。
[0072]
上述服务器监控装置、方法及计算机可读存储介质,通过对sdr数据进行分析,可实现将bmc无法发现的异常信息进行回报,提前找出部件衰退/损坏的迹象,且可定位出有问题的传感器及服务器元件,同时也可实现对bmc日志文件进行筛选与异常日志回报。
[0073]
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献