一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

提高热插拔设备运行可靠性方法、装置、设备和存储介质与流程

2022-12-20 01:23:21 来源:中国专利 TAG:


1.本技术涉及热插拔设备的技术领域,特别是涉及一种提高热插拔设备运行可靠性方法、装置、设备和存储介质。


背景技术:

2.大数据时代的今天,物联网、云计算高速发展导致数据呈爆炸式增长,其中非结构数据更是占据了全球数据的90%,所谓数据无价,在存储领域中,存储系统的高可靠性一直是关注的重点,现在的存储无特殊情况均7提高热插拔设备可靠性的24小时不间断运行,而存储涉及到部件众多,加上不可避免的外在因素温度、供电、以及用户运行业务等导致出现极小概率性的高速串行计算机扩展总线设备如网卡、光纤卡、sas卡故障,导致用户业务异常,因此如何避免或者快速的恢复高速串行计算机扩展总线设备故障是衡量存储稳定性最重要的标准之一。
3.当支持热插拔的高速串行计算机扩展总线设备出现故障如降速、降带宽情况,一般需要到客户现场通过手工重新插拔高速串行计算机扩展总线设备、若故障未恢复,则需重启所在的控制器等等,存在处理时间不及时,人工处理效率低等以及影响业务运行等问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够实现常见自动处理、最大限度的减少人工现场处理,大大提高存储的可用性、可靠性的提高热插拔设备运行可靠性方法、装置、设备和存储介质。
5.一方面,提供一种提高热插拔设备运行可靠性方法,所述方法包括:
6.步骤a:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则进行下一个步骤;
7.步骤b:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
8.步骤c:所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
9.在其中一个实施例中,还包括:当所述高速串行计算机扩展总线设备处于非正常运行状态时,包括:多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,同时也未收到所述基板管理控制器发出的高速串行计算机扩展总线设备带宽,和/或,速率异常告警,则利用所述基板管理控制器向所述高速串行计算机扩展总线设备下发下电、重新上电指示以用于重启所述高速串行计算机扩展总线设备;若重启后所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,则继续重启,当重启次数达到预设值时,所述基板管理控制器通过所述复杂可编程逻辑器件点亮设备槽位故障灯,并同时上报告警信息。
10.在其中一个实施例中,还包括:所述判断高速串行计算机扩展总线设备是否处于正常运行状态包括:当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务正常时,即处于正常运行状态;当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常时,处于非正常运行状态。
11.在其中一个实施例中,还包括:所述利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器包括:所述复杂可编程逻辑器件通过通用型输入输出判断外插高速串行计算机扩展总线设备是否在位:当所述通用型输入输出检测到的输出信号为低电平时,判断所述外插高速串行计算机扩展总线设备在位;当所述通用型输入输出检测到的输出信号为高电平时,判断所述外插高速串行计算机扩展总线设备不在位;所述基板管理控制器通过集成电路总线与所述复杂可编程逻辑器件进行通信,获取所述高速串行计算机扩展总线设备在线状态。
12.在其中一个实施例中,还包括:当所述外插高速串行计算机扩展总线设备处于在位状态时:所述基板管理控制器周期性的通过所述通用型输入输出读取所述高速串行计算机扩展总线设备的预设带宽和速率及实际的带宽与速率,当实际的带宽与速率与预设的带宽、速率不一致时,所述基板管理控制器指示所述复杂可编程逻辑器件将对应槽位的高速串行计算机扩展总线设备进行下电及重新上电处理;所述基板管理控制器等待预设缓冲时间,重新检测所述高速串行计算机扩展总线设备的实际带宽、速率:若与预设的一致,则通知所述上层操作系统运行相关业务;若与预设的不一致,则重新进行下电及重新上电处理,当循环次数达到预设值时,所述基板管理控制器停止所述高速串行计算机扩展总线设备上下电动作,并上报修复带宽、速率失败信息到所述上层操作系统;所述上层操作系统通过获取其他控制器的健康状态信息,判断多控制器系统是否处于冗余模式:当处于非冗余模式时,则所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户及时处理;当处于冗余模式时,则所述上层操作系统发出重启命令,启动完成后,所述基板管理控制器重新进入判断所述高速串行计算机扩展总线设备在位状态步骤,当重启次数达到预设值时,还未修复成功,停止重启,所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户更换所述高速串行计算机扩展总线设备。
13.在其中一个实施例中,还包括:当所述外插高速串行计算机扩展总线设备处于非在位状态时:所述基板管理控制器通过少管脚低速总线通知所述上层操作系统,所述上层操作系统根据运行状态判断相应的高速串行计算机扩展总线设备槽位是否存在高速串行计算机扩展总线设备:若不存在,则不进行任何处理;若存在,则将高速串行计算机扩展总线设备对应槽位的故障灯点亮,并发出告警信息。
14.在其中一个实施例中,还包括:当所述外插高速串行计算机扩展总线设备在预设时间内由不在位状态变为在位状态时,判断所述高速串行计算机扩展总线设备经过热插拔,当经过所述热插拔时,利用所述基板管理控制器判断所述高速串行计算机扩展总线设备实际带宽、速率是否与预设的一致:若不一致,则对所述高速串行计算机扩展总线设备进行修复;若一致,则所述基板管理控制器向上层操作系统发出所述热插拔后的高速串行计算机扩展总线设备状态正常信号,所述上层操作系统通过所述高速串行计算机扩展总线设备的固件版本,判断是否与预设标准是否一致:若一致,则所述上层操作系统在所述高速串行计算机扩展总线设备运行相关业务;若不一致,所述上层操作系统向所述基板管理控制
器上传不一致信息,所述基板管理控制器将所述高速串行计算机扩展总线设备槽位对应的升级状态指示灯点亮,提醒用户所述高速串行计算机扩展总线设备正在升级固件,不可进行热插拔,当完成升级后,所述上层操作系统将通知所述基板管理控制器熄灭升级状态灯。
15.另一方面,提供了一种提高热插拔设备可靠性的装置,所述装置包括:
16.运行状态判断模块,用于判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则执行下一个步骤;
17.在位状态判断模块,用于利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
18.故障修复预警模块,用于根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
19.再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
20.步骤a:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则进行下一个步骤;
21.步骤b:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
22.步骤c:所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
23.又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
24.步骤a:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则进行下一个步骤;
25.步骤b:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
26.步骤c:所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
27.上述提高热插拔设备运行可靠性方法、装置、设备和存储介质,所述方法包括:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警,本技术在多控制器系统存储的高速串行计算机扩展总线热插拔设备运行中出现带宽、速率或者运行业务异常等情况后,实现自动处理修复、最大限度的减少人工现场处理,同时当高速串行计算机扩展总线设备热插拔后,自动修复其带宽、速率,大大提高存储的可用性、可靠性,具有成本低、稳定性高,可靠性强等优势。
附图说明
28.图1为一个实施例中提高热插拔设备运行可靠性方法的应用环境图;
29.图2为一个实施例中提高热插拔设备运行可靠性方法的流程示意图;
30.图3为一个实施例中提高热插拔设备运行可靠性方法的另一流程示意图;
31.图4为一个实施例中提高热插拔设备可靠性的装置的结构框图;
32.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
33.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
34.本技术提供的提高热插拔设备运行可靠性方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与设置于服务器104上的数据处理平台进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
35.实施例1
36.在一个实施例中,如图2所示,提供了一种提高热插拔设备运行可靠性方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
37.s1:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则执行下一个步骤。
38.需要说明的是,所述判断高速串行计算机扩展总线设备(pcie设备,peripheral component interconnect express)是否处于正常运行状态包括:
39.当多控制器系统(mcs,multi controller system)存储的上层操作系统运行高速串行计算机扩展总线设备业务正常时,即处于正常运行状态;
40.当多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常时,处于非正常运行状态。
41.其中,当所述高速串行计算机扩展总线设备处于非正常运行状态时:
42.多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,同时也未收到所述基板管理控制器发出的高速串行计算机扩展总线设备带宽,和/或,速率异常告警,则利用所述基板管理控制器向所述高速串行计算机扩展总线设备下发下电、重新上电指示以用于重启所述高速串行计算机扩展总线设备;
43.若重启后所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,则继续重启,当重启次数达到预设值时,该预设值可以是3次,运行pcie设备业务依旧异常,则所述基板管理控制器通过所述复杂可编程逻辑器件点亮设备槽位故障灯,并同时上报告警信息,以用于提醒用户及时处理,其中,如图3所示,设备槽位故障灯与复杂可编程逻辑器件(cpld,complex programmable logic device)相连接。
44.s2:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器。
45.s3:所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
46.需要说明的是,s2~s3步骤具体为:当步骤s1判断pcie设备处于正常运行状态时,则利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器(bmc,baseboard management controller)包括:
47.所述复杂可编程逻辑器件通过通用型输入输出(gpio,general-purpose input/output)判断外插高速串行计算机扩展总线设备是否在位:
48.当所述通用型输入输出检测到的输出信号为低电平时,判断所述外插高速串行计算机扩展总线设备在位;
49.当所述通用型输入输出检测到的输出信号为高电平时,判断所述外插高速串行计算机扩展总线设备不在位;
50.所述基板管理控制器通过集成电路总线与所述复杂可编程逻辑器件进行通信,获取所述高速串行计算机扩展总线设备在线状态。
51.进一步的,当所述外插高速串行计算机扩展总线设备处于在位状态时:
52.所述基板管理控制器周期性的通过所述通用型输入输出读取所述高速串行计算机扩展总线设备的预设带宽和速率及实际的带宽与速率,当实际的带宽与速率与预设的带宽、速率不一致时,所述基板管理控制器指示所述复杂可编程逻辑器件将对应槽位的高速串行计算机扩展总线设备进行下电及重新上电处理;
53.所述基板管理控制器等待预设缓冲时间,重新检测所述高速串行计算机扩展总线设备的实际带宽、速率:
54.若与预设的一致,则通知所述上层操作系统运行相关业务;
55.若与预设的不一致,则重新进行下电及重新上电处理,当循环次数达到预设值时,所述基板管理控制器停止所述高速串行计算机扩展总线设备上下电动作,并上报修复带宽、速率失败信息到所述上层操作系统;
56.所述上层操作系统通过获取其他控制器的健康状态信息,判断多控制器系统是否处于冗余模式:
57.当处于非冗余模式时,则所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户及时处理;
58.当处于冗余模式时,则所述上层操作系统发出重启命令,启动完成后,所述基板管理控制器重新进入判断所述高速串行计算机扩展总线设备在位状态步骤,当重启次数达到预设值时,还未修复成功,停止重启,所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户更换所述高速串行计算机扩展总线设备。
59.当所述外插高速串行计算机扩展总线设备处于非在位状态时:
60.所述基板管理控制器通过少管脚低速总线(lpc,low pin count bus)通知所述上层操作系统,所述上层操作系统根据运行状态判断相应的高速串行计算机扩展总线设备槽位是否存在高速串行计算机扩展总线设备:
61.若不存在,则不进行任何处理;
62.若存在,则将高速串行计算机扩展总线设备对应槽位的故障灯点亮,并发出告警信息,以用于提醒用户及时处理。
63.更进一步的,当所述外插高速串行计算机扩展总线设备在预设时间内由不在位状态变为在位状态时,判断所述高速串行计算机扩展总线设备经过热插拔,当经过所述热插拔时,利用所述基板管理控制器判断所述高速串行计算机扩展总线设备实际带宽、速率是否与预设的一致:
64.若不一致,则对所述高速串行计算机扩展总线设备进行修复;
65.若一致,则所述基板管理控制器向上层操作系统发出所述热插拔后的高速串行计算机扩展总线设备状态正常信号,所述上层操作系统通过所述高速串行计算机扩展总线设备的固件版本,判断是否与预设标准是否一致:
66.若一致,则所述上层操作系统在所述高速串行计算机扩展总线设备运行相关业务;
67.若不一致,所述上层操作系统向所述基板管理控制器上传不一致信息,所述基板管理控制器将所述高速串行计算机扩展总线设备槽位对应的升级状态指示灯点亮,提醒用户所述高速串行计算机扩展总线设备正在升级固件,不可进行热插拔,当完成升级后,所述上层操作系统将通知所述基板管理控制器熄灭升级状态灯。
68.上述提高热插拔设备运行可靠性方法中,所述方法包括:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警,本技术在多控制器系统存储的高速串行计算机扩展总线热插拔设备运行中出现带宽、速率或者运行业务异常等情况后,实现自动处理修复、最大限度的减少人工现场处理,同时当高速串行计算机扩展总线设备热插拔后,自动修复其带宽、速率,大大提高存储的可用性、可靠性,具有成本低、稳定性高,可靠性强等优势。
69.应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
70.实施例2
71.在一个实施例中,如图4所示,提供了一种提高热插拔设备可靠性的装置,包括:运行状态判断模块、在位状态判断模块和故障修复预警模块,其中:
72.运行状态判断模块,用于判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则执行下一个步骤;
73.在位状态判断模块,用于利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
74.故障修复预警模块,用于根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
75.作为一种较优的实施方式,本发明实施例中,所述运行状态判断模块具体用于:
76.当所述高速串行计算机扩展总线设备处于非正常运行状态时,包括:
77.多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,同时也未收到所述基板管理控制器发出的高速串行计算机扩展总线设备带宽,和/或,速率异常告警,则利用所述基板管理控制器向所述高速串行计算机扩展总线设备下发下电、重新上电指示以用于重启所述高速串行计算机扩展总线设备;
78.若重启后所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,则继续重启,当重启次数达到预设值时,所述基板管理控制器通过所述复杂可编程逻辑器件点亮设备槽位故障灯,并同时上报告警信息,以用于提醒用户及时处理。
79.作为一种较优的实施方式,本发明实施例中,所述运行状态判断模块具体用于:
80.当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务正常时,即处于正常运行状态;
81.当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常时,处于非正常运行状态。
82.作为一种较优的实施方式,本发明实施例中,所述在位状态判断模块具体用于:
83.所述复杂可编程逻辑器件通过通用型输入输出判断外插高速串行计算机扩展总线设备是否在位:
84.当所述通用型输入输出检测到的输出信号为低电平时,判断所述外插高速串行计算机扩展总线设备在位;
85.当所述通用型输入输出检测到的输出信号为高电平时,判断所述外插高速串行计算机扩展总线设备不在位;
86.所述基板管理控制器通过集成电路总线与所述复杂可编程逻辑器件进行通信,获取所述高速串行计算机扩展总线设备在线状态。
87.其中,当所述外插高速串行计算机扩展总线设备处于在位状态时:
88.所述基板管理控制器周期性的通过所述通用型输入输出读取所述高速串行计算机扩展总线设备的预设带宽和速率及实际的带宽与速率,当实际的带宽与速率与预设的带宽、速率不一致时,所述基板管理控制器指示所述复杂可编程逻辑器件将对应槽位的高速串行计算机扩展总线设备进行下电及重新上电处理;
89.所述基板管理控制器等待预设缓冲时间,重新检测所述高速串行计算机扩展总线设备的实际带宽、速率:
90.若与预设的一致,则通知所述上层操作系统运行相关业务;
91.若与预设的不一致,则重新进行下电及重新上电处理,当循环次数达到预设值时,所述基板管理控制器停止所述高速串行计算机扩展总线设备上下电动作,并上报修复带宽、速率失败信息到所述上层操作系统;
92.所述上层操作系统通过获取其他控制器的健康状态信息,判断多控制器系统是否处于冗余模式:
93.当处于非冗余模式时,则所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户及时处理;
94.当处于冗余模式时,则所述上层操作系统发出重启命令,启动完成后,所述基板管理控制器重新进入判断所述高速串行计算机扩展总线设备在位状态步骤,当重启次数达到预设值时,还未修复成功,停止重启,所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户更换所述高速串行计算机扩展总线设备。
95.当所述外插高速串行计算机扩展总线设备处于非在位状态时:
96.所述基板管理控制器通过少管脚低速总线通知所述上层操作系统,所述上层操作系统根据运行状态判断相应的高速串行计算机扩展总线设备槽位是否存在高速串行计算
机扩展总线设备:
97.若不存在,则不进行任何处理;
98.若存在,则将高速串行计算机扩展总线设备对应槽位的故障灯点亮,并发出告警信息,以用于提醒用户及时处理。
99.当所述外插高速串行计算机扩展总线设备在预设时间内由不在位状态变为在位状态时,判断所述高速串行计算机扩展总线设备经过热插拔,当经过所述热插拔时,利用所述基板管理控制器判断所述高速串行计算机扩展总线设备实际带宽、速率是否与预设的一致:
100.若不一致,则对所述高速串行计算机扩展总线设备进行修复;
101.若一致,则所述基板管理控制器向上层操作系统发出所述热插拔后的高速串行计算机扩展总线设备状态正常信号,所述上层操作系统通过所述高速串行计算机扩展总线设备的固件版本,判断是否与预设标准是否一致:
102.若一致,则所述上层操作系统在所述高速串行计算机扩展总线设备运行相关业务;
103.若不一致,所述上层操作系统向所述基板管理控制器上传不一致信息,所述基板管理控制器将所述高速串行计算机扩展总线设备槽位对应的升级状态指示灯点亮,提醒用户所述高速串行计算机扩展总线设备正在升级固件,不可进行热插拔,当完成升级后,所述上层操作系统将通知所述基板管理控制器熄灭升级状态灯。
104.关于提高热插拔设备可靠性的装置的具体限定可以参见上文中对于提高热插拔设备运行可靠性方法的限定,在此不再赘述。上述提高热插拔设备可靠性的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
105.实施例3
106.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提高热插拔设备运行可靠性方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
107.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
108.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
109.s1:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状
态,则执行下一个步骤;
110.s2:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
111.s3:所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
112.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
113.当所述高速串行计算机扩展总线设备处于非正常运行状态时,包括:
114.多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,同时也未收到所述基板管理控制器发出的高速串行计算机扩展总线设备带宽,和/或,速率异常告警,则利用所述基板管理控制器向所述高速串行计算机扩展总线设备下发下电、重新上电指示以用于重启所述高速串行计算机扩展总线设备;
115.若重启后所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,则继续重启,当重启次数达到预设值时,所述基板管理控制器通过所述复杂可编程逻辑器件点亮设备槽位故障灯,并同时上报告警信息,以用于提醒用户及时处理。
116.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
117.当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务正常时,即处于正常运行状态;
118.当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常时,处于非正常运行状态。
119.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
120.所述复杂可编程逻辑器件通过通用型输入输出判断外插高速串行计算机扩展总线设备是否在位:
121.当所述通用型输入输出检测到的输出信号为低电平时,判断所述外插高速串行计算机扩展总线设备在位;
122.当所述通用型输入输出检测到的输出信号为高电平时,判断所述外插高速串行计算机扩展总线设备不在位;
123.所述基板管理控制器通过集成电路总线与所述复杂可编程逻辑器件进行通信,获取所述高速串行计算机扩展总线设备在线状态。
124.其中,当所述外插高速串行计算机扩展总线设备处于在位状态时:
125.所述基板管理控制器周期性的通过所述通用型输入输出读取所述高速串行计算机扩展总线设备的预设带宽和速率及实际的带宽与速率,当实际的带宽与速率与预设的带宽、速率不一致时,所述基板管理控制器指示所述复杂可编程逻辑器件将对应槽位的高速串行计算机扩展总线设备进行下电及重新上电处理;
126.所述基板管理控制器等待预设缓冲时间,重新检测所述高速串行计算机扩展总线设备的实际带宽、速率:
127.若与预设的一致,则通知所述上层操作系统运行相关业务;
128.若与预设的不一致,则重新进行下电及重新上电处理,当循环次数达到预设值时,所述基板管理控制器停止所述高速串行计算机扩展总线设备上下电动作,并上报修复带宽、速率失败信息到所述上层操作系统;
129.所述上层操作系统通过获取其他控制器的健康状态信息,判断多控制器系统是否处于冗余模式:
130.当处于非冗余模式时,则所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户及时处理;
131.当处于冗余模式时,则所述上层操作系统发出重启命令,启动完成后,所述基板管理控制器重新进入判断所述高速串行计算机扩展总线设备在位状态步骤,当重启次数达到预设值时,还未修复成功,停止重启,所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户更换所述高速串行计算机扩展总线设备。
132.当所述外插高速串行计算机扩展总线设备处于非在位状态时:
133.所述基板管理控制器通过少管脚低速总线通知所述上层操作系统,所述上层操作系统根据运行状态判断相应的高速串行计算机扩展总线设备槽位是否存在高速串行计算机扩展总线设备:
134.若不存在,则不进行任何处理;
135.若存在,则将高速串行计算机扩展总线设备对应槽位的故障灯点亮,并发出告警信息,以用于提醒用户及时处理。
136.当所述外插高速串行计算机扩展总线设备在预设时间内由不在位状态变为在位状态时,判断所述高速串行计算机扩展总线设备经过热插拔,当经过所述热插拔时,利用所述基板管理控制器判断所述高速串行计算机扩展总线设备实际带宽、速率是否与预设的一致:
137.若不一致,则对所述高速串行计算机扩展总线设备进行修复;
138.若一致,则所述基板管理控制器向上层操作系统发出所述热插拔后的高速串行计算机扩展总线设备状态正常信号,所述上层操作系统通过所述高速串行计算机扩展总线设备的固件版本,判断是否与预设标准是否一致:
139.若一致,则所述上层操作系统在所述高速串行计算机扩展总线设备运行相关业务;
140.若不一致,所述上层操作系统向所述基板管理控制器上传不一致信息,所述基板管理控制器将所述高速串行计算机扩展总线设备槽位对应的升级状态指示灯点亮,提醒用户所述高速串行计算机扩展总线设备正在升级固件,不可进行热插拔,当完成升级后,所述上层操作系统将通知所述基板管理控制器熄灭升级状态灯。
141.实施例4
142.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
143.s1:判断高速串行计算机扩展总线设备是否处于正常运行状态,若为正常运行状态,则执行下一个步骤;
144.s2:利用复杂可编程逻辑器件判断高速串行计算机扩展总线设备是否在位,并将在位状态上传至基板管理控制器;
145.s3:所述基板管理控制器根据所述在位状态对高速串行计算机扩展总线设备进行故障修复及预警。
146.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
147.当所述高速串行计算机扩展总线设备处于非正常运行状态时,包括:
148.多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,同时也未收到所述基板管理控制器发出的高速串行计算机扩展总线设备带宽,和/或,速率异常告警,则利用所述基板管理控制器向所述高速串行计算机扩展总线设备下发下电、重新上电指示以用于重启所述高速串行计算机扩展总线设备;
149.若重启后所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常,则继续重启,当重启次数达到预设值时,所述基板管理控制器通过所述复杂可编程逻辑器件点亮设备槽位故障灯,并同时上报告警信息,以用于提醒用户及时处理。
150.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
151.当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务正常时,即处于正常运行状态;
152.当所述多控制器系统存储的上层操作系统运行高速串行计算机扩展总线设备业务异常时,处于非正常运行状态。
153.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
154.所述复杂可编程逻辑器件通过通用型输入输出判断外插高速串行计算机扩展总线设备是否在位:
155.当所述通用型输入输出检测到的输出信号为低电平时,判断所述外插高速串行计算机扩展总线设备在位;
156.当所述通用型输入输出检测到的输出信号为高电平时,判断所述外插高速串行计算机扩展总线设备不在位;
157.所述基板管理控制器通过集成电路总线与所述复杂可编程逻辑器件进行通信,获取所述高速串行计算机扩展总线设备在线状态。
158.其中,当所述外插高速串行计算机扩展总线设备处于在位状态时:
159.所述基板管理控制器周期性的通过所述通用型输入输出读取所述高速串行计算机扩展总线设备的预设带宽和速率及实际的带宽与速率,当实际的带宽与速率与预设的带宽、速率不一致时,所述基板管理控制器指示所述复杂可编程逻辑器件将对应槽位的高速串行计算机扩展总线设备进行下电及重新上电处理;
160.所述基板管理控制器等待预设缓冲时间,重新检测所述高速串行计算机扩展总线设备的实际带宽、速率:
161.若与预设的一致,则通知所述上层操作系统运行相关业务;
162.若与预设的不一致,则重新进行下电及重新上电处理,当循环次数达到预设值时,所述基板管理控制器停止所述高速串行计算机扩展总线设备上下电动作,并上报修复带宽、速率失败信息到所述上层操作系统;
163.所述上层操作系统通过获取其他控制器的健康状态信息,判断多控制器系统是否处于冗余模式:
164.当处于非冗余模式时,则所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户及时处理;
165.当处于冗余模式时,则所述上层操作系统发出重启命令,启动完成后,所述基板管理控制器重新进入判断所述高速串行计算机扩展总线设备在位状态步骤,当重启次数达到
预设值时,还未修复成功,停止重启,所述上层操作系统上报告警信息,同时点亮设备槽位故障灯,以用于提醒用户更换所述高速串行计算机扩展总线设备。
166.当所述外插高速串行计算机扩展总线设备处于非在位状态时:
167.所述基板管理控制器通过少管脚低速总线通知所述上层操作系统,所述上层操作系统根据运行状态判断相应的高速串行计算机扩展总线设备槽位是否存在高速串行计算机扩展总线设备:
168.若不存在,则不进行任何处理;
169.若存在,则将高速串行计算机扩展总线设备对应槽位的故障灯点亮,并发出告警信息,以用于提醒用户及时处理。
170.当所述外插高速串行计算机扩展总线设备在预设时间内由不在位状态变为在位状态时,判断所述高速串行计算机扩展总线设备经过热插拔,当经过所述热插拔时,利用所述基板管理控制器判断所述高速串行计算机扩展总线设备实际带宽、速率是否与预设的一致:
171.若不一致,则对所述高速串行计算机扩展总线设备进行修复;
172.若一致,则所述基板管理控制器向上层操作系统发出所述热插拔后的高速串行计算机扩展总线设备状态正常信号,所述上层操作系统通过所述高速串行计算机扩展总线设备的固件版本,判断是否与预设标准是否一致:
173.若一致,则所述上层操作系统在所述高速串行计算机扩展总线设备运行相关业务;
174.若不一致,所述上层操作系统向所述基板管理控制器上传不一致信息,所述基板管理控制器将所述高速串行计算机扩展总线设备槽位对应的升级状态指示灯点亮,提醒用户所述高速串行计算机扩展总线设备正在升级固件,不可进行热插拔,当完成升级后,所述上层操作系统将通知所述基板管理控制器熄灭升级状态灯。
175.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
176.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
177.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护
范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献