一种GPU故障报警方法、装置、设备和介质与流程

2023-02-02 02:21:48 来源：中国专利 TAG：

一种gpu故障报警方法、装置、设备和介质
技术领域
1.本技术涉及故障预测技术领域，特别涉及一种gpu故障报警方法、装置、设备和介质。

背景技术：

2.近年来，服务器计算能力的显著提升打破了深度学习发展的壁垒，人们将深度学习广泛的应用于生产生活的各个领域，图像处理器(graphics processing unit，gpu)作为服务器中重要的一部分，在深度学习中担任重要角色，所以对gpu的健康状态进行监控至关重要。
3.现有技术中，gpu的健康告警状态通常都是独立的报警，但每个报警都是独立的并不能真实反映出gpu的故障情况。因此，如何真实准确的对gpu进行故障报警是亟待要解决的问题。

技术实现要素：

4.鉴于上述问题，本技术实施例提供了一种gpu故障报警方法、装置、设备和介质，以便克服上述问题或者至少部分地解决上述问题。
5.本技术实施例的第一方面，公开了一种gpu故障报警方法，所述方法包括：
6.获取多组gpu监控项的历史数据、以及每组gpu监控项的历史数据对应的健康告警状态数据，一组gpu监控项包括多个gpu监控项；
7.对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行分析，确定所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重；
8.根据所述多个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
9.可选地，所述对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行分析，确定所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重，包括：
10.对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行处理，得到一个特征矩阵；
11.基于多个所述特征矩阵进行深度学习，得到所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重。
12.可选地，所述对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行处理，得到一个特征矩阵，包括：
13.对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行线性回归处理，得到对应的多组线性回归结果；
14.根据所述多组线性回归结果，创建一个特征矩阵，所述特征矩阵中的元素包括：健康告警状态数据和gpu监控项的线性回归系数。
15.可选地，所述根据所述多个gpu监控项各自的影响比重和实时数据，生成所述gpu
的故障报警消息，包括：
16.按照影响比重从大到小的排序，从所述多个gpu监控项中确定前n个gpu监控项；
17.根据所述前n个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
18.可选地，所述方法还包括：
19.针对所述多个gpu监控项中的每个gpu监控项，根据该gpu监控项的实时数据，输出该gpu监控项的报警消息，所述报警消息携带该gpu监控项的影响比重。
20.可选地，所述前n个gpu监控项各自的实时数据，和/或，多组gpu监控项的历史数据，是通过bmc监控得到的。
21.本技术实施例的第二方面，公开了一种gpu故障报警装置，所述装置包括：
22.数据获取模块，用于获取多组gpu监控项的历史数据、以及每组gpu监控项的历史数据对应的健康告警状态数据，一组gpu监控项包括多个gpu监控项；
23.数据分析模块，用于对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行分析，确定所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重；
24.故障报警模块，用于根据所述多个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
25.可选地，所述故障分析模块包括：
26.数据处理模块，用于对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行处理，得到一个特征矩阵；
27.数据学习模块，用于基于多个所述特征矩阵进行深度学习，得到所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重。
28.本技术实施例的第三方面，公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本技术第一方面实施所述的gpu故障报警方法。
29.本技术实施例第四方面，公开了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本实施例第一方面所述的gpu故障报警方法。
30.本技术实施例包括以下优点：
31.在本技术实施例中，通过对多组gpu监控项的历史数据和每组历史数据对应的健康告警状态数据进行分析，得到每个gpu监控项对gpu的健康告警状态的影响比重，进而后续根据每个gpu监控项的实时数据和每个gpu监控项对gpu健康告警状态的影响比重进行故障报警。由于是基于各gpu监控项对健康告警状态的影响比重来进行故障报警，进而实现基于各监控项数据对gpu进行整体的报警，因此该方法能够真实反映gpu的故障情况。
附图说明
32.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
33.图1是本技术实施例提供的一种gpu故障报警方法步骤流程图；
34.图2是本技术实施例提供的一种gpu监控项对健康告警状态影响比重分析方法步骤流程图；
35.图3是本技术实施例提供的一种gpu故障报警方法应用示意图；
36.图4是本技术实施例提供的一种gpu故障报警装置的结构示意图。
具体实施方式
37.为使本技术的上述目的、特征和优点能够更加明显易懂，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
38.相关故障报警技术中，对gpu的健康状态报警通常有：get thermal alert state(获取热警报状态)，check external power(检查外部电源)，get board power supply status(获取板子电源状态)等，但是每个报警都是独立的并不能真实反映出gpu的故障情况。因此，为了克服现有技术的局限性，申请人提出以下技术构思：根据以往的gpu监控项数据以及对应的gpu的健康告警状态数据，分析各gpu监控项对健康告警状态的影响比重，并基于各gpu监控项对健康告警状态的影响比重大小来对gpu进行故障报警，进而实现基于各gpu监控项数据对gpu进行整体的报警，保证了报警的准确性。
39.基于上述技术构思，本技术实施例提供了一种gpu故障报警方法，如图1所示，图1为本技术实施例提供的一种gpu故障报警方法步骤流程图，所述方法包括：
40.步骤s101：获取多组gpu监控项的历史数据、以及每组gpu监控项的历史数据对应的健康告警状态数据，一组gpu监控项包括多个gpu监控项。
41.在本实施例中，多组gpu监控项的历史数据是指以往不同时刻的gpu监控项数据，在每组gpu监控项的历史数据中包括多个gpu监控项的历史数据，其中，gpu监控项是指gpu在运行过程中的各项性能数据，例如，gpu利用率、显存利用率、显存占用、gpu运行功耗、gpu温度等数据。每组gpu监控项的历史数据对应的健康告警状态数据是指与该gpu监控项数据对应同一时刻的gpu的健康告警状态数据。此外，gpu的健康告警状态数据可用百分数来表示，例如，用0到100％之间的百分数来表示gpu的健康告警状态，百分数越小表示gpu运行状态越好，此时出现故障的概率就越小，百分数越大表示gpu的运行状态越差，此时gpu出现故障的概率就比较大。
42.在本实施例中，通过bmc(baseboard management controller，基板管理控制器)监控来不断获取gpu在不同时刻的项监控历史数据和监控项历史数据对应的健康告警状态数据，通过获取足够多的gpu监控项数据，在后续步骤中基于采集的大量gpu监控项数据，并分析各监控项数据对gpu健康告警状态的影响，进而保证了gpu故障报警的准确性。
43.步骤s102：对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行分析，确定所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重。
44.在本实施例中，gpu监控项对gpu健康告警状态的影响比重是指不同监控项对gpu健康告警状态(即gpu故障)的影响程度，影响比重越大，说明该监控项对gpu健康告警状态影响程度越大，影响比重越小，说明监控项对gpu健康告警状态影响程度小，甚至无影响。
gpu的健康告警状态数据是gpu的各监控项数据的综合反映，即健康告警状态数据受多个gpu监控项的影响。例如，随着gpu的运行，gpu温度升高或者gpu运行功耗增大，都可能对gpu的健康告警状态产生影响。而现有的单独故障报警技术，每个gpu监控项数据对健康告警状态数据的影响是一样的，但实际上每个监控选对gpu健康告警状态的影响并不相同，因此，现有的单个故障报警技术的报警结果并不能真实的从整体上反映gpu的健康告警状态，进而需要通过对gpu监控项的历史数据和对应的健康告警状态数据进行分析，以确定每个gpu监控项数据对健康告警状态数据的影响比重。
45.在本实施例中，通过寻找健康告警状态数据与各gpu监控项数据之间的关系，从整体角度考虑各gpu监控项与健康告警状态(即gpu的故障)之间的关系，进而相较于以往单独告警的故障预测方法，本方案更能够真实的从整体上反映gpu的故障情况。
46.在一种可选的实施例中，如图2所示，所述对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行分析，确定所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重，包括以下步骤：
47.步骤s201：对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行处理，得到一个特征矩阵。
48.在本实施例中，将多个不同时刻的多组gpu监控项的历史数据和相对应的健康告警状态数据进行处理，得到一个特征矩阵，因此，在每个特征矩阵中包含了不同的健康告警状态数据，以及与该健康告警状态对应的各gpu监控项相关的系数。在后续步骤中，基于多个不同的特征矩阵进行学习，进而得到健康告警状态数据与各gpu监控项数据之间的关系，即各监控项对健康告警状态的影响比重。
49.具体地，所述对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行处理，得到一个特征矩阵，包括：对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行线性回归处理，得到对应的多组线性回归结果；根据所述多组线性回归结果，创建一个特征矩阵，所述特征矩阵中的元素包括：健康告警状态数据和gpu监控项的线性回归系数。
50.示例地，以两组gpu监控项的历史数据为例，gpu监控项的历史数据1可表示为：x
11
，x
12
，x
13
，x
14
，
……
，以及此时gpu的健康告警状态表示为：y1；gpu监控项的历史数据2可表示为：x
21
，x
22
，x
23
，x
24
，
……
，以及此时gpu的健康告警状态表示为：y2。
51.将每组gpu监控项的历史数据进行线性回归，其回归结果表示为：
52.y1＝k
11
*x
11
k
12
*x
12
k
13
*x
13
k
14
*x
14

……
53.y2＝k
21
*x
21
k
22
*x
22
k
23
*x
23
k
24
*x
24

……
54.其中，k
11
，k
12
，k
13
，k
14
，
……
分别为gpu监控项数据x
11
，x
12
，x
13
，x
14
，
……
的线性回归系数，k
21
，k
22
，k
23
，k
24
，
……
分别为gpu监控项数据x
21
，x
22
，x
23
，x
24
，
……
的线性回归系数。
55.基于上述的两组线性回归结果，创建特征矩阵为：
[0056][0057]
在本实施例中，通过不断的采集gpu的监控项数据和对应的健康告警状态数据，并
对每组gpu监控项的历史数据和对应的健康告警状态数据进行线性回归处理，得到多个线性回归结果，根据多组gpu监控项的历史数据和对应的健康告警状态数据的线性回归结果来创建n*m的特征矩阵，n表示有n组gpu监控项的历史数据，m表示有m-1个gpu监控项(矩阵中有一列元素为健康告警状态数据)，即在n*m特征矩阵中，同一行的元素包括表示同一个时刻的gpu各项监控数据的线性回归系数和该时刻对应的健康告警状态数据，其中一列元素表示不同时刻的健康告警状态数据，其余的每一列表示同一个监控项在不同时刻的线性回归系数。
[0058]
在本实施例中，将多组gpu监控项的历史数据以及对应的健康告警状态数据处理为一个特征矩阵，进而后续进行深度学习时，一次能够对gpu监控项多组数据进行学习，提高了学习效率。
[0059]
步骤s201：基于多个所述特征矩阵进行深度学习，得到所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重。
[0060]
在本实施例中，由于特征矩阵中包含了健康告警状态数据，以及与该健康告警状态对应的各gpu监控项的线性特征系数。因此，基于大量的特征矩阵进行深度学习，可得到更能准确反映gpu健康告警状态的各监控项的线性特征系数(即k1，k2，k3，k4，
……
)，通过各gpu监控项的线性特征系数的大小能够准确反映出哪部分gpu监控项的告警对整个gpu的健康告警状态影响比重最大。
[0061]
在一种可选的实施例中，为了保证各gpu监控项对gpu的健康告警状态的影响比重的准确性，在gpu运行过程中，通过不断的获取gpu的监控项历史数据并生成对应的特征矩阵，实时的进行学习，并根据深度学习的结果不断的更新各gpu监控项的线性特征系数(即k1，k2，k3，k4，
……
)，即更新各gpu监控项对健康告警状态的影响比重，进而得到精度足够高的且反映健康告警状态的各监控项的比重。后续在基于各监控项的比重进行故障报警时，能够实现更准确的gpu故障报警。
[0062]
步骤s103：根据所述多个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
[0063]
通过上述步骤确定了各gpu监控项对gpu的健康告警状态(即gpu故障)的影响比重，在本步骤中，通过bmc监控来获取各gpu监控项的实时数据，并根据各gpu监控项的实时数据以及该各监控项对gpu健康告警状态的影响比重，来生成能够整体反映健康告警状态的报警消息。具体地，根据各gpu监控项的实时数据和对应的影响比重，生成实时的健康告警状态数据，并根据健康告警状态数据来进行故障报警，即当实时的健康告警状态数据的数值达到预设的阈值，则生成报警消息以进行报警。例如，gpu故障报警的阈值为70％，在gpu工作过程中，当根据实时的监控项数据和对应的影响比重得到实时的健康告警状态数据大于70％时，生成报警消息以进行报警。由于各gpu监控项对健康告警状态的影响比重是基于以往的历史数据进行分析(即深度学习)得到的，因此，基于实时的gpu监控项数据和各自的影响比重得到的健康告警状态数据更准确，进而在进行故障报警时生成的故障报警消息更能反映真实的gpu故障情况。
[0064]
本实施提供的方法克服了以往单独报警存在不准确的问题，例如，对于以往单独报警，认为每个监控项对gpu的故障影响都相同，当发现gpu的多个监控项数据都出现变化或异常，基于所有的监控项数据进行报警，但可能这些监控项数据并不能对gpu的健康告警
状态产生影响，或者影响程度很小，那么就会导致报警的故障等级不对或者出现错误报警。而在本实施例中正是考虑了这种情况，将gpu监控项对健康告警状态的影响比重考虑进去，根据各gpu监控项对健康状态告警状态的影响比重来进行故障报警，进而得到的报警结果更能够从整体上反映真实gpu的故障情况。
[0065]
此外，还可以根据各gpu监控项和对健康告警状态的影响比重对gpu的故障进行预警。具体地，根据各gpu监控项的实时数据和对应影响比重，生成实时的健康告警状态数据，并根据健康告警状态数据的变化趋势来进行gpu故障预警。例如，gpu故障报警的阈值为70％，在gpu工作过程中，根据实时的监控项数据和对应的影响比重得到实时的健康告警状态数据为60％，并且检测到实时的健康告警状态数据随着gpu的工作一直增大，此时，生成相应的故障预警消息，以对gpu故障进行提前预警，进而工作人员根据故障预警消息对gpu进行检查，进而避免了gpu故障的发生。
[0066]
在本实施例中，通过gpu各个监控项数据以及对健康告警状态的影响比重来进故障报警，因而综合考虑了gpu各个监控项对健康告警状态整体的影响，进而该方案实现基于各监控项数据对gpu进行整体的报警，本方案更能够真实的从整体上反映gpu的故障情况。
[0067]
在一种可选的实施例中，所述根据所述多个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息，包括：
[0068]
按照影响比重从大到小的排序，从所述多个gpu监控项中确定前n个gpu监控项；
[0069]
根据所述前n个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
[0070]
在本实施例中，健康告警状态受多个gpu监控项数据的影响，每个gpu监控项对健康告警状态(即gpu故障)的影响比重不同，并存在部分gpu监控项数据对gpu故障影响很小或者甚至不产生影响，对于影响很小或者甚至不产生影响的这部分gpu监控项数据并不是进行故障报警需要关注的重点。因此为了减少报警资源浪费，提高故障报警效率，所以将各gpu监控项对健康告警状态的影响比重来进行从大到小的排序，进而选择影响比重较大的前n个gpu监控项的来进行重点查看，并根据影响比重大的各gpu监控项的实时的数据，来生成报警消息以实现gpu故障报警。
[0071]
例如，经过上述步骤得到了各gpu监控项对健康告警状态的影响比重，并根据影响比重的大小对各监控进行排序从大到小的排序，排序结果为：1-gpu显存占用、2-gpu运行功耗、3-gpu温度、4-gpu利用率、5-显存利用率，若只有gpu显存占用、gpu运行功耗、gpu温度这三项对健康告警状态影响比重大，此时只需实时查看gpu显存占用、gpu运行功耗、gpu温度这三项的实时运行数据，并根据这个三个监控项数据的变化情况，来生成相应的故障报警消息以进行报警。
[0072]
在一种可选实施例中，还可以通过设置各gpu监控项对健康告警状态影响的比重的阈值，选择健康告警状态的影响比重超过该阈值的n个gpu监控项作为重点的监控项数据，即通过查看对健康告警影响比重超过阈值的gpu监控项的实时数据来进行故障报警。例如，设置阈值为0.2(假设所有gpu监控项对健康告警状态影响比重的值的大小在0至1之间)，将对健康告警状态影响比重大于等于0.2的gpu监控项作为重点监控项，并根据重点监控项的实时数据的变化情况，来生成报警消息以实现gpu故障报警。
[0073]
在本实施例中，根据各gpu监控项对故障的影响比重，选择影响比重大的gpu监控
项来对gpu的故障进行报警，相较于以往需要监控所有数据进行故障报警的方法，本方法通过在减少对不必要gpu监控项的数据查看，节约了数据监控资源的浪费，同时还保证了gpu故障报警的准确性。
[0074]
在一种可选的实施例中，针对所述多个gpu监控项中的每个gpu监控项，根据该gpu监控项的实时数据，输出该gpu监控项的报警消息，所述报警消息携带该gpu监控项的影响比重。
[0075]
在本实施例中，根据各gpu的实时数据和对健康告警状态的影响比重来生成实时和健康告警状态数据，生成实时的健康告警状态数据，当发现实时的健康告警状态数据达到阈值时，生成对应的报警消息，实现故障报警。其中，在生成的故障报警消息中包含有生成该故障报警消息的各gpu监控项的影响比重，且各gpu监控项按照影响比重的大小进行排序显示。在生成报警消息后，可将报警消息输入到外部设备(如显示屏)进行显示、或者通过led灯光进行提醒，又或者通过语音播报等方式进行提醒。在输出报警消息后，操作人员可通过查看报警消息的类型以及报警消息中各监控项对应的影响比重来对该报警消息做进一步的处理。
[0076]
在对报警消息进行处理时，根据报警消息中各gpu监控项数据对健康告警状态数据的影响比重来进行处理，即根据影响比重从大到小的顺序依次对各监控项进行处理。例如，当发生接收到报警消息时，根据报警消息中各gpu监控项的影响比重排序结果(排序结果为：1-gpu显存占用、2-gpu运行功耗、3-gpu温度)进行处理，即根据排序结果优先处理gpu显存占用，再处理gpu运行功耗，最后处理gpu温度。具体地，根据对健康告警状态影响比重的大小依次对各监控项对应的硬件或软件的问题进行排查，进而确定可能出现故障原因并提前对故障问题进行处理。由于是基于各gpu监控项的影响比重对故障报警进行处理，进而能够更准确快速的找到产生故障的原因和对故障进行及时处理。
[0077]
此外，本实施例中的gpu监控项各自的实时数据，以及gpu监控项的历史数据，都是通过bmc监控得到的。由于bmc能够为远程系统管理提供系统状态监视，重启、重新供电、断电等底板控制，fru资讯，少量sel资讯用入口，并为本地系统可管理性提供ipmi v1.5消息，且保证远程连接的安全性，以及能够自发地进行系统健康监视并对严重事件产生纠正动作，并提供lan警告。因此，在本实施例中通过利用bmc来获取gpu监控项数据，保证了采集的gpu监控项数据的可靠性和安全性，进而保证了对gpu故障的准确报警。
[0078]
图3示出了本技术实施例提供的gpu故障报警方法应用系统示意图，如图3所示，应用系统包括gpu模块、bmc监控、数据处理系统、深度学习系统、故障报警系统以及故障处理系统，其中，gpu模块是服务器的一部分。在实际应用场景中，bmc监控不断获取服务器的gpu模块在不同时刻的gpu监控项的历史数据和每个时刻gpu监控项的历史数据对应的gpu健康告警状态数据，并将获取到的gpu监控项的历史数据和对应的健康告警状态数据输入到数据处理系统中进行处理。数据处理系统将n组gpu监控项的历史数据和对应的健康告警状态数据处理为一个特征矩阵，其中，n的选择可根据深度学习系统的运算能力以及学习效率最优等因素来进行选择，数据处理系统的具体处理包括：将每一组gpu监控项的历史数据和对应的健康告警状态数据进行线性回归处理，根据n个线性回归结果创建一个特征矩阵，数据处理系统不断的对输入的gpu监控项的历史数据和对应的健康告警状态数据进行处理，进而得到多个特征矩阵，其中，在每个特征矩阵中包含了n个gpu健康告警状态数据和各gpu监
控项对每个gpu健康告警状态数据的影响比重。
[0079]
深度学习系统基于上述的多个特征矩阵进行学习，进而得到各gpu监控项对健康告警状态的影响比重，深度学习过程包括：深度学习系统接收来自数据处理系统的多个特征矩阵，并根据特征矩阵进行深度学习，每次学习完成后记录当前各gpu监控项对健康告警状影响比重，并在本次学习的基础上开始下一次学习，当发现前后两次的学习结果(即前后两次学习得到的各gpu监控项对健康告警状影响比重)的差值小于预设值时，说明学习结束，将最后一次的学习结果作为最终的各gpu监控项对健康告警状态的影响比重，并将各gpu监控项对健康告警状态的影响比重发送给故障报警系统，以使故障报警系统基于各gpu监控项对健康告警状态的影响比重进行故障预测。
[0080]
故障报警系统在接收到各gpu监控项对健康告警状态的影响比重后，确定对gpu健康告警状态影响比重大的gpu监控项为重点监控项，确定重点监控项的方式包括：1)按照对gpu健康告警状态影响比重从大到小的顺序进行排序，选择影响比重较大前n个gpu监控项作为重点监控项；2)设置对gpu健康告警状态的影响阈值，将影响比重超过阈值的gpu监控项作为重点监控项。在确定重点监控项后，故障报警系统接收来自bmc采集的重点监控项的实时数据，并根据重点监控项的实时数据和各重点监控项对gpu健康告警状态的影响比重来生成实时的健康告警状态数据，并当健康告警状态数据达到阈值时生成故障报警消息，并将故障报警消息输出到故障处理系统，以使故障处理系统处理故障消息，其中，在每条报警消息中包括有生成该报警消息的监控项的实时数据和各自对健康告警状态的影响比重，并且各监控项按照影响比重的大小顺序进行排序显示。
[0081]
此外，为了保证各gpu监控项对健康告警状态的影响比重的准确性，在进行故障报警过程中，也会将采集到gpu监控项的实时数据和生成的健康告警状态数据输入到数据处理系统进行处理，即将n个不同时刻的gpu监控项的实时数据和每个时刻对应的健康告警状态数据进行处理，得到一个特征矩阵，深度学习系统不断的基于新的特征矩阵进行学习，若发现新的各gpu监控项对健康告警状态的影响比重与现在用于进行故障报警的各gpu监控项对健康告警状态的影响比重的差值大于预设值，此时将新的各gpu监控项对健康告警状态的影响比重发送给故障报警系统，进而故障报警系统根据新的影响比重确定重点监控项，并根据重点监控项的实时数据和影响比重生成报警消息，以实现gpu故障报警。
[0082]
最后，故障处理系统在接收到故障消息后，可通过显示屏来显示报警消息或语音播报等方式来进行提醒。同时故障处理系统根据报警消息中各重点监控项对健康告警状态的影响比重来大小进行处理，即根据影响比重从大到小的顺序依次对各监控项进行处理，具体地，根据对健康告警状态影响比重的大小依次对各重点监控项对应的硬件或软件的问题进行排查，进而确定可能出现故障原因并提前对故障问题进行处理。
[0083]
在本实施例中，通过对多组gpu监控项的历史数据和每组监控项历史数据对应的健康告警状态数据进行分析，得到每个gpu监控项对gpu的健康告警状态(gpu故障)的影响比重，进而后续根据每个监控项的实时数据和每个监控项对gpu健康告警状态的影响比重进行故障报警。由于是基于各监控项对gpu健康告警状态的影响比重来进行故障报警，进而实现各监控项数据对gpu进行整体的报警，因此该方法能够真实准确的反映gpu的故障情况。此外，由于通过采集大量采集gpu监控项的数据，以获取足够多的gpu监控项数据，并不断的通过深度学习获取更精确的各gpu监控项数据对健康告警状态的影响比重，进而实现
更准确的gpu故障报警；并根据各gpu监控项的影响比重来重点查看影响比重更大监控项数据进行故障报警，提高了故障报警的效率。
[0084]
本技术实施例还提供了一种gpu故障报警装置，参照图4，图4是本技术实施例提出的一种gpu故障报警装置的结构示意图，如图4所示，所述装置包括：
[0085]
数据获取模块41，用于获取多组gpu监控项的历史数据、以及每组gpu监控项的历史数据对应的健康告警状态数据，一组gpu监控项包括多个gpu监控项；
[0086]
数据分析模块42，用于对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行分析，确定所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重；
[0087]
故障报警模块43，用于根据所述多个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
[0088]
在一种可选的实施例中，所述故障分析模块包括：
[0089]
数据处理模块，用于对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行处理，得到一个特征矩阵；
[0090]
数据学习模块，用于基于多个所述特征矩阵进行深度学习，得到所述多个gpu监控项各自对所述gpu的健康告警状态的影响比重。
[0091]
在一种可选的实施例中，所述数据处理模块包括：
[0092]
第一数据处理单元，用于对所述多组所述gpu监控项的历史数据和对应的健康告警状态数据进行线性回归处理，得到对应的多组线性回归结果；
[0093]
第二数据处理单元，用于根据所述多组线性回归结果，创建一个特征矩阵，所述特征矩阵中的元素包括：健康告警状态数据和gpu监控项的线性回归系数。
[0094]
在一种可选的实施例中，所述故障报警模块包括：
[0095]
监控项确认模块，用于按照影响比重从大到小的排序，从所述多个gpu监控项中确定前n个gpu监控项；
[0096]
监控项报警模块，用于根据所述前n个gpu监控项各自的影响比重和实时数据，生成所述gpu的故障报警消息。
[0097]
在一种可选的实施例中，所述装置还包括：
[0098]
故障输出模块，用于针对所述多个gpu监控项中的每个gpu监控项，根据该gpu监控项的实时数据，输出该gpu监控项的报警消息，所述报警消息携带该gpu监控项的影响比重。
[0099]
本技术实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本技术实施例所述的gpu故障报警方法。
[0100]
本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本技术实施例所述的gpu故障报警方法。
[0101]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0102]
本技术实施例是参照根据本技术实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备
的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0103]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0104]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0105]
尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
[0106]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0107]
以上对本技术所提供的一种gpu故障报警方法、装置、设备和介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：历史数据自动归档方法、装置、计算机设备和存储介质与流程

一种GPU故障报警方法、装置、设备和介质与流程

相关文献

最热文献