一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种设备故障监控方法、装置、设备及可读存储介质与流程

2022-04-16 15:23:02 来源:中国专利 TAG:
1.本技术涉及服务器监控
技术领域
:,特别是涉及一种设备故障监控方法、装置、设备及可读存储介质。
背景技术
::2.基板管理控制器(baseboardmanagercontroller,bmc)可以提供服务器或交换机的平台管理功能。平台管理表示的是一系列的监控和控制功能,操作的对象是硬件系统。比如通过监控系统的温度、电压、风扇、电源等,并做相应的调节工作,以保证系统处于健康的状态;如果系统出现无法调节的故障,也可以通过基板管理控制器对系统进行复位动作来重新启动系统。3.与此同时,基板管理控制器还有一个非常重要的功能,就是在平台管理的同时,负责记录各种硬件的信息和日志记录,以向用户汇报硬件运行状态、提示异常、故障的存在,并为后续进行故障问题定位提供依据。该功能对于系统故障定位起到非常重要的作用。4.但是,现有大部分基于x86平台的基板管理控制器的故障诊断方案,通常是监控特定的故障引脚(errorpin)、中央处理器(centralprocessingunit,cpu)的故障寄存器以及电源状态字来记录故障日志,通过系统(sel)日志进行汇总,并按照intel协议生成加密日志。由此导致生成的故障日志能够覆盖的故障场景有限,且得到的故障结果完全依赖于各故障寄存器的可靠性,有时会因为故障寄存器的误判而记录错误的故障日志,进而影响到运维工作。技术实现要素:5.本技术的目的是提供一种设备故障监控方法、装置、设备及可读存储介质,用于提高基板管理控制器的故障日志的可用性,避免因故障寄存器的误判生成的错误的故障日志影响到运维工作,有效提高设备故障监控的准确性。6.为解决上述技术问题,本技术提供一种设备故障监控方法,基于基板管理控制器,包括:7.当接收到故障触发信号时,收集与所述故障触发信号关联的状态寄存器的状态值;8.根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志。9.可选的,所述收集与所述故障触发信号关联的状态寄存器的状态值,具体为:10.向中央处理器请求获取所述状态寄存器的状态值。11.可选的,所述故障触发信号具体为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、所述基板管理控制器的软件看门狗触发的故障信号、所述基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。12.可选的,还包括:13.若接收到管理引擎发送的主机复位事件,则在收集所述状态寄存器的状态值完毕后通知所述管理引擎,以使所述管理引擎触发集成南桥执行主机复位动作。14.可选的,所述来自基本输入输出系统管理的故障信号,具体为:基本输入输出系统中断处理器发送的系统故障信号、所述基本输入输出系统在自检过程中发现的异常信号中的至少一种。15.可选的,所述来自基本输入输出系统管理的故障信号,具体为:基本输入输出系统中断处理器发送的系统故障信号、用户手动触发的预设智能平台管理接口命令、所述基本输入输出系统在自检过程中发现的异常信号中的至少一种;16.其中,所述预设智能平台管理接口命令为预先设置的供所述用户在所述基本输入输出系统启动过程中出现系统宕机时手动触发的信号。17.可选的,所述根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志,具体包括:18.调用预设的故障分析诊断脚本,根据所述故障触发信号和所述状态寄存器的状态值分析得到故障诊断结果,并根据所述故障诊断结果确定对应的故障处理策略;19.将所述故障触发信号、所述状态寄存器的状态值、所述故障诊断结果和所述故障处理策略生成所述故障分析日志。20.为解决上述技术问题,本技术还提供一种设备故障监控装置,基于基板管理控制器,包括:21.获取单元,用于当接收到故障触发信号时,收集与所述故障触发信号关联的状态寄存器的状态值;22.生成单元,用于根据所述故障触发信号和所述状态寄存器的状态值,生成故障分析日志。23.为解决上述技术问题,本技术还提供一种设备故障监控设备,包括:24.存储器,用于存储计算机程序;25.处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述设备故障监控方法的步骤。26.为解决上述技术问题,本技术还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述设备故障监控方法的步骤。27.本技术所提供的设备故障监控方法,基板管理控制器在接收到故障触发信号时,不直接生成故障日志,而是收集与故障触发信号关联的状态寄存器的状态值,并根据故障触发信号和状态寄存器的状态值,生成故障分析日志。通过根据故障触发信号与状态寄存器的关联关系,获取与故障触发信号关联的状态寄存器的状态值,能够对生成故障触发信号时对应的故障场景进行充分描述。即使是同样的故障触发信号,其触发时对应的状态寄存器的状态值也可能会有区别,通过故障分析日志同时记录故障触发信号和与其关联的状态寄存器的状态值,可以方便用户以及运维人员更加清楚全面的了解故障情况,减少误判几率,有效提高设备故障监控的准确性。28.本技术还提供一种设备故障监控装置、设备及可读存储介质,具有上述有益效果,在此不再赘述。附图说明29.为了更清楚的说明本技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。30.图1为本技术实施例提供的一种设备故障监控方法的流程图;31.图2为本技术实施例提供的一种设备故障监控装置的结构示意图;32.图3为本技术实施例提供的一种设备故障监控设备的结构示意图。具体实施方式33.本技术的核心是提供一种设备故障监控方法、装置、设备及可读存储介质,用于提高基板管理控制器的故障日志的可用性,避免因故障寄存器的误判生成的错误的故障日志影响到运维工作,有效提高设备故障监控的准确性。34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。35.图1为本技术实施例提供的一种设备故障监控方法的流程图。36.如图1所示,基于基板管理控制器(baseboardmanagercontroller,bmc),本技术实施例提供的设备故障监控方法包括:37.s101:当接收到故障触发信号时,收集与故障触发信号关联的状态寄存器的状态值。38.s102:根据故障触发信号和状态寄存器的状态值,生成故障分析日志。39.本技术实施例提供的设备故障监控方法的应用场景为具有基板管理控制器的设备,如服务器、交换机等。预先基于基板管理控制器编写故障诊断脚本,以相较于现有技术收集更多的寄存器的信息,增加在故障触发信号的触发下自动收集关联的状态寄存器的状态值的机制,并输出记录故障信息更为全面的故障分析日志。以基于x86平台的基板管理控制器为例,所在设备基于intel系统,寄存器主要为与中央处理器核心(cpucore)连接的mca寄存器和aer寄存器,两种寄存器对应两种监测机制,可以覆盖到设备的大多硬件监控。通过收集更多的mca寄存器的信息和aer寄存器的信息,以实现对故障状况更为全面的描述,提高故障诊断结果的准确性。40.设备中的寄存器按功能区分,可以分为故障寄存器和状态寄存器。状态寄存器用于反馈监测对象的状态信息,而故障寄存器为基于预设的故障诊断机制、根据获取到的状态信息生成故障判断结果。例如电源故障状态字信号(电源79h状态字)即为电源故障寄存器对电源状态的故障判断,在现有技术中,该故障寄存器判断电源故障后,告知基板管理控制器生成故障日志记录电源故障。然而,同样的故障寄存器的故障表征可以对应着不同的故障产生原因或不同的故障现象,有些甚至是由人工误操作所造成的故障信号,这部分故障信号往往并不严重,却同样会生成相应的故障日志,给后续故障排查造成干扰。因此,本技术实施例提供的设备故障监控方法在扩大监测的寄存器的数量的同时,在接收到故障触发信号(可以包括现有技术中已监测的故障寄存器,也可以包括新增的监测信号来源)后,收集与其关联的状态寄存器的状态值,以便对故障情况进行更为全面的描述和对故障原因进行更为准确的判断。41.基于此,在具体实施中,对于步骤s101来说,预先确立要监控的故障触发信号,即由哪些信号触发设备故障诊断。同时确立与这些故障触发信号关联的状态寄存器的信息。根据设备具体情况和用户需求,故障触发信号的数量可以增加或减少,关联的状态寄存器的信息也可以进行调整。则本技术实施例提供的设备故障监控方法还可以包括:接收输入的监控对象配置命令;根据监控对象配置命令,配置待监测故障触发信号的信息以及待监测故障触发信号的关联状态寄存器的信息。42.根据故障触发信号路径的不同,故障触发信号可以为故障寄存器的引脚电平变化,例如该引脚在正常状态下输出高电平,在检出故障的情况下输出低电平。故障触发信号还可以为设备中的其他部件,如基本输入输出系统发送的报错信号,则只有在出现故障的情况下才会接收到该信号。43.步骤s101中收集与故障触发信号关联的状态寄存器的状态值,具体可以为:向中央处理器请求获取状态寄存器的状态值。由于设备中大部分状态寄存器都是与中央处理器连接的,则基板管理控制器在接收到故障触发信号后,可以向中央处理器发送一个访问请求,其中包含与故障触发信号关联的状态寄存器的信息(状态寄存器的唯一标识),以向中央处理器索取这些状态寄存器的状态值。44.对于步骤s102来说,在收集完与故障触发信号关联的状态寄存器的状态值后,可以直接将故障触发信号、状态寄存器的状态值与接收到故障触发信号的时刻记录入故障分析日志。由于现有大多情况下基板管理控制器按照intel的协议生成加密的故障日志,用户在查看故障日志时还需要解密,非常不便。故在本技术实施例提供的设备故障监控方法中,可以按照预设的日志模板,将故障触发信号、状态寄存器的状态值与接收到故障触发信号的时刻生成友好可读、故障信息完整的故障分析日志。45.在生成故障分析日志后,可以根据故障分析日志中记录的故障内容的严重程度,执行将故障分析日志仅做保存、将故障分析日志保存并发送至指定地址、将故障分析日志保存并发送至指定地址同时弹出报警信息等不同的操作。46.本技术实施例提供的设备故障监控方法,基板管理控制器在接收到故障触发信号时,不直接生成故障日志,而是收集与故障触发信号关联的状态寄存器的状态值,并根据故障触发信号和状态寄存器的状态值,生成故障分析日志。通过根据故障触发信号与状态寄存器的关联关系,获取与故障触发信号关联的状态寄存器的状态值,能够对生成故障触发信号时对应的故障场景进行充分描述。即使是同样的故障触发信号,其触发时对应的状态寄存器的状态值也可能会有区别,通过故障分析日志同时记录故障触发信号和与其关联的状态寄存器的状态值,可以方便用户以及运维人员更加清楚全面的了解故障情况,减少误判几率。47.实施例二48.在上述实施例的基础上,在本技术实施例提供的设备故障监控方法中,故障触发信号具体可以为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、基板管理控制器的软件看门狗触发的故障信号、基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。49.在基于x86平台的基板管理控制器中,增加对err0#pin,err1#pin,msmi#pin的故障诊断场景。50.在具体实施中,当设备出现系统故障时,会触发系统故障引脚(errorpin),向基板管理控制器发送系统故障引脚触发信号。基板管理控制器在接收到系统故障引脚触发信号时,调用故障分析诊断脚本,自动获取与该系统故障引脚触发信号关联的状态寄存器的状态值,生成故障分析日志。具体可以分为以下两种情况:51.err0#pin(correctable),prochot#pin,errorpin等系统故障引脚触发,一般不会造成系统宕机、关机或重启,基板管理控制器对上述信号进行监控,一旦触发,首先记录系统(sel)日志,并收集mca、aer相关所有寄存器信息;根据故障分析诊断脚本中定义的故障规则,输出友好的、故障描述信息完整的idl日志;52.caterr#pin,msmi#pin,err1#pin(non-fatal),err2#pin(fatal),thermtrip#errorpin等系统故障引脚触发,一般会造成系统宕机、关机或重启;ierr(internalerror,内部错误)触发caterr#pin和msmi#pin。53.当出现系统宕机情况时,需要进行恢复,则本技术实施例提供的设备故障监控方法还包括:若接收到管理引擎(me)发送的主机复位事件(hostresetevent),则在收集状态寄存器的状态值完毕后通知管理引擎,以使管理引擎触发集成南桥(pch)执行主机复位动作。54.当设备出现系统故障,但未触发系统故障引脚时,此时主要分为以下两种场景:55.系统故障后,系统正常或热重启,基本输入输出系统中断处理器(biossystemmanagementinterrupthandler,biossmihandler)记录故障,触发基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志;56.系统故障后,系统宕机,biossmihandler无法记录故障。57.此外,在基本输入输出系统进行自检的过程中,通过检测内存,读取内存spd信息,自检,初始化等,当发现异常时,也会触发基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。58.则在本技术实施例中,来自基本输入输出系统管理的故障信号,具体可以为:基本输入输出系统中断处理器发送的系统故障信号、基本输入输出系统在自检过程中发现的异常信号中的至少一种。59.优选的,为了应对系统故障后系统宕机,biossmihandler无法记录故障的情况,可以预先设置一个供用户在基本输入输出系统启动过程中出现系统宕机时手动触发的接口;则在本技术实施例中,来自基本输入输出系统管理的故障信号,具体还可以为:基本输入输出系统中断处理器发送的系统故障信号、用户手动触发的预设智能平台管理接口(ipmi)命令、基本输入输出系统在自检过程中发现的异常信号中的至少一种;其中,预设智能平台管理接口命令为预先设置的供用户在基本输入输出系统启动过程中出现系统宕机时手动触发的信号。60.当设备中软件运行故障,触发基板管理控制器的软件看门狗(通常为bmcipmiwatchdog2)触发的故障信号。此时基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。61.bmcwathdog2是基板管理控制器软件定义的一组定时器逻辑,对外提供了3个ipmi命令接口:setwdt,getwdt,resetwdt。基本输入输出系统,操作系统(os)和其他oem应用程序都可以使用板管理控制器的ipmi命令接口设置看门狗的定时器时间、时间到期后的动作、看门狗开启和关闭。主要用于监控基本输入输出系统,操作系统和其他oem应用程序的自检(post)过程,如操作系统启动过程中可以使用setwdt接口设置定时器时间和到期后的动作,并启用看门狗,操作系统启动完成后再使用setwdt关闭看门狗,目的是监控操作系统启动过程是否会出现宕机情况,宕机后操作系统没有机会使用setwdt关闭看门狗,一段时间后,看门狗定时器时间到,会触发bmc看门狗执行相应动作对服务器timeexpired/powercycle/reset/down等。62.当(windows)系统蓝屏时,会通过基板管理控制器的加法系统接口(bmcaddsel)记录故障,触发基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。63.当基板管理控制器检测到电源故障状态字信号(电源79h状态字)时,基板管理控制器收集中央处理器的状态寄存器信息,调用故障分析诊断脚本,输出故障分析日志。64.需要说明的是,上述故障触发信号和对应的监控机制仅为举例,在实际应用中,可以包括但不限于这种故障诊断场景,可以接收输入的故障诊断路径,包括故障触发信号的信息,以及与故障触发信号对应的状态寄存器的信息。65.实施例三66.在上述实施例的基础上,为进一步方便用户和运维人员的使用,在本技术实施例提供的设备故障监控方法中,步骤s102中根据故障触发信号和状态寄存器的状态值,生成故障分析日志,具体包括:67.调用预设的故障分析诊断脚本,根据故障触发信号和状态寄存器的状态值分析得到故障诊断结果,并根据故障诊断结果确定对应的故障处理策略;68.将故障触发信号、状态寄存器的状态值、故障诊断结果和故障处理策略生成故障分析日志。69.在具体实施中,在故障分析诊断脚本中预先配置故障分析规则,具体为在不同的故障触发信号下,对应的不同状态寄存器的状态值的组合,与故障诊断结果以及故障处理策略的对应关系。若故障场景(故障触发信号下对应的一种状态寄存器的状态值的组合为一个故障场景)无法穷举,可以查看与检出的故障场景与有记载的最接近的一个或多个故障场景,并获取对应的故障诊断结果和故障处理策略,供用户和运维人员参考。70.上文详述了设备故障监控方法对应的各个实施例,在此基础上,本技术还公开了与上述方法对应的设备故障监控装置、设备及可读存储介质。71.实施例四72.图2为本技术实施例提供的一种设备故障监控装置的结构示意图。73.如图2所示,基于基板管理控制器,本技术实施例提供的设备故障监控装置包括:74.获取单元201,用于当接收到故障触发信号时,收集与故障触发信号关联的状态寄存器的状态值;75.生成单元202,用于根据故障触发信号和状态寄存器的状态值,生成故障分析日志。76.可选的,故障触发信号具体为:系统故障引脚触发信号、来自基本输入输出系统管理的故障信号、基板管理控制器的软件看门狗触发的故障信号、基板管理控制器的加法系统接口接收到的系统蓝屏故障信号、电源故障状态字信号中的至少一种。77.进一步的,本技术实施例提供的设备故障监控装置还可以包括:78.发送单元,用于若接收到管理引擎发送的主机复位事件,则在收集状态寄存器的状态值完毕后通知管理引擎,以使管理引擎触发集成南桥执行主机复位动作。79.由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。80.实施例五81.图3为本技术实施例提供的一种设备故障监控设备的结构示意图。82.如图3所示,本技术实施例提供的设备故障监控设备包括:83.存储器310,用于存储计算机程序311;84.处理器320,用于执行计算机程序311,该计算机程序311被处理器320执行时实现如上述任意一项实施例所述设备故障监控方法的步骤。85.其中,处理器320可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器320可以采用数字信号处理dsp(digitalsignalprocessing)、现场可编程门阵列fpga(field-programmablegatearray)、可编程逻辑阵列pla(programmablelogicarray)中的至少一种硬件形式来实现。处理器320也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器cpu(centralprocessingunit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器320可以集成有图像处理器gpu(graphicsprocessingunit),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器320还可以包括人工智能ai(artificialintelligence)处理器,该ai处理器用于处理有关机器学习的计算操作。86.存储器310可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器310还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器310至少用于存储以下计算机程序311,其中,该计算机程序311被处理器320加载并执行之后,能够实现前述任一实施例公开的设备故障监控方法中的相关步骤。另外,存储器310所存储的资源还可以包括操作系统312和数据313等,存储方式可以是短暂存储或者永久存储。其中,操作系统312可以为windows。数据313可以包括但不限于上述方法所涉及到的数据。87.在一些实施例中,设备故障监控设备还可包括有显示屏330、电源340、通信接口350、输入输出接口360、传感器370以及通信总线380。88.本领域技术人员可以理解,图3中示出的结构并不构成对设备故障监控设备的限定,可以包括比图示更多或更少的组件。89.本技术实施例提供的设备故障监控设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的设备故障监控方法,效果同上。90.实施例六91.需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。92.另外,在本技术各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。93.集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本技术各个实施例所述方法的全部或部分步骤。94.为此,本技术实施例还提供一种可读存储介质,该可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如设备故障监控方法的步骤。95.该可读存储介质可以包括:u盘、移动硬盘、只读存储器rom(read-onlymemory)、随机存取存储器ram(randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。96.本实施例中提供的可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的设备故障监控方法的步骤,效果同上。97.以上对本技术所提供的一种设备故障监控方法、装置、设备及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。98.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献