一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

存储系统的故障诊断方法、装置、电子设备、介质及产品与流程

2022-03-05 04:08:01 来源:中国专利 TAG:


1.本公开实施例涉及云存储技术领域,具体涉及一种存储系统的故障诊断方法、装置、电子设备、介质及产品。


背景技术:

2.随着云计算技术的兴起和普及,分布式存储系统越来越开始受到业界的关注。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
3.当分布式存储系统发生故障时,往往会对集群的稳定性和可靠性参数很大的影响,甚至可能导致存储系统暂时不可用。当前的分布式存储系统往往采用心跳检测的方式对故障进行检测,当心跳时间检测到超时,就判断为出现故障进行故障处理。
4.发明人发现这种故障检测方式存在如下问题:上述方法只有在存储系统发生故障时才能检测到,无法提前准确判断存储系统的故障程度,因而难以发现硬件潜在故障风险,而该分布式存储系统一旦发生故障就会影响到存储系统的稳定及高效运行。


技术实现要素:

5.为了解决相关技术中的问题,本公开实施例提供一种存储系统的故障诊断方法、装置、电子设备、介质及程序产品。
6.第一方面,本公开实施例中提供了一种存储系统的故障诊断方法。
7.具体的,所述存储系统的故障诊断方法,包括:
8.获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;
9.将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;
10.在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障风险。
11.结合第一方面,本公开实施例在第一方面的第一种实现方式中,所述方法还包括:
12.获取样本存储系统的样本数据,所述样本数据包括样本时刻之前的样本诊断时长内等间隔时间点对应的服务质量指标数据序列,所述样本时刻时的存储系统的故障情况;
13.基于所述样本数据,训练得到所述预设的预测模型。
14.结合第一方面和第一方面的第一种实现方式,本公开实施例在第一方面的第二种实现方式中,所述方法还包括:
15.获取所述样本存储系统的类型;
16.所述基于所述样本数据,训练得到所述预设的预测模型,包括:
17.对同一类型的样本存储系统的样本数据进行训练,得到同一类型的存储系统的预
测模型,所述样本数据还包括所述样本存储系统的服务质量指标上下容忍值;
18.在将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率之前,所述方法还包括:
19.确定所述待诊断存储系统的类型;
20.获取所述待诊断存储系统的服务质量指标上下容忍值;
21.所述将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率,包括:
22.将所述服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值输入所述待诊断存储系统的类型对应的预测模型,执行所述待诊断存储系统的类型对应的预测模型,得到所述待诊断存储系统的故障率。
23.结合第一方面、第一方面的上述实现方式,本公开在第一方面的第三种实现方式中,其中,所述服务质量指标数据序列包括各等间隔时间点对应的服务质量指标数据形成的序列,所述服务质量指标数据包括资源消耗指标数据和性能指标数据。
24.结合第一方面、第一方面的上述实现方式,本公开在第一方面的第四种实现方式中,其中,所述获取所述待诊断存储系统的服务质量指标上下容忍值,包括:
25.获取所述待诊断存储系统在正常运行的预设时间段内的服务质量指标数据;
26.对所述预设时间段内的服务质量指标数据进行统计分析,得到所述服务质量指标上下基线;
27.基于所述待诊断存储系统的容忍度和所述服务质量指标上下基线,确定服务质量指标上下容忍线;
28.基于所述服务质量指标上下容忍线,确定所述待诊断存储系统的服务质量指标上下容忍值。
29.第二方面,本公开实施例中提供了一种存储系统的故障诊断装置。
30.具体的,所述存储系统的故障诊断装置,包括:
31.第一获取模块,被配置为获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;
32.预测模块,被配置为将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;
33.第一确定模块,被配置为在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障风险。
34.结合第二方面,本公开实施例在第二方面的第一种实现方式中,所述服务质量指标数据序列包括各等间隔时间点对应的服务质量指标数据形成的序列,所述服务质量指标数据包括资源消耗指标数据和性能指标数据。
35.结合第二方面和第二方面的第一种实现方式,本公开实施例在第二方面的第二种实现方式中,所述装置还包括:
36.第二获取模块,被配置为获取样本存储系统的样本数据,所述样本数据包括样本时刻之前的样本诊断时长内等间隔时间点对应的服务质量指标数据序列,所述样本时刻时的存储系统的故障情况;
37.训练模块,被配置为基于所述样本数据,训练得到所述预设的预测模型。
38.结合第二方面、第二方面的上述实现方式,本公开在第二方面的第三种实现方式中,其中,所述装置还包括:
39.第三获取模块,被配置为获取所述样本存储系统的类型;
40.所述训练模块被配置为:
41.对同一类型的样本存储系统的样本数据进行训练,得到同一类型的存储系统的预测模型,所述样本数据还包括所述样本存储系统的服务质量指标上下容忍值;
42.所述装置还包括:
43.第二确定模块,被配置为在将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率之前,确定所述待诊断存储系统的类型;
44.第四获取模块,被配置为获取所述待诊断存储系统的服务质量指标上下容忍值;
45.所述预测模块被配置为:
46.将所述服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值输入所述待诊断存储系统的类型对应的预测模型,执行所述待诊断存储系统的类型对应的预测模型,得到所述待诊断存储系统的故障率。
47.结合第二方面、第二方面的上述实现方式,本公开在第二方面的第四种实现方式中,其中,所述第四获取模块被配置为:
48.获取所述待诊断存储系统在正常运行的预设时间段内的服务质量指标数据;
49.对所述预设时间段内的服务质量指标数据进行统计分析,得到所述服务质量指标上下基线;
50.基于所述待诊断存储系统的容忍度和所述服务质量指标上下基线,确定服务质量指标上下容忍线;
51.基于所述服务质量指标上下容忍线,确定所述待诊断存储系统的服务质量指标上下容忍值。
52.第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持存储系统的故障诊断装置执行上述存储系统的故障诊断方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述存储系统的故障诊断装置还可以包括通信接口,用于存储系统的故障诊断装置与其他设备或通信网络通信。
53.第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储存储系统的故障诊断装置所用的计算机指令,其包含用于执行上述存储系统的故障诊断方法为存储系统的故障诊断装置所涉及的计算机指令。
54.第五方面,本公开实施例提供了一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现上述存储系统的故障诊断方法中的步骤。
55.根据本公开实施例提供的技术方案,可以获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障。这样基于待诊断存储系统当前时刻之前一段时间内的服务质量情况,通过预测模型确定当前时
刻的待诊断存储系统的故障率,进而确定当前时刻待诊断存储系统是否存在故障风险,如此,能够准确地确定待诊断存储系统存在的潜在故障程度,提前发现硬件潜在故障风险,及时进行维修,进而能够保证存储系统高效且稳定的运行。
56.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开实施例。
附图说明
57.结合附图,通过以下非限制性实施方式的详细描述,本公开实施例的其它特征、目的和优点将变得更加明显。在附图中:
58.图1示出根据本公开一实施方式的存储系统的故障诊断方法的流程图;
59.图2示出根据本公开一实施方式的存储系统的故障诊断方法的流程图;
60.图3示出根据本公开一实施方式的存储系统的故障诊断方法的流程图;
61.图4示出根据本公开一实施方式的存储系统的故障诊断方法中步骤s108的流程图;
62.图5示出根据本公开一实施方式的存储系统的故障诊断装置的结构框图;
63.图6示出根据本公开一实施方式的存储系统的故障诊断装置的结构框图;
64.图7示出根据本公开一实施方式的存储系统的故障诊断装置的结构框图;
65.图8示出根据本公开一实施方式的电子设备的结构框图;
66.图9是适于用来实现根据本公开一实施方式的存储系统的故障诊断方法的计算机系统的结构示意图。
具体实施方式
67.下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
68.在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
69.另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
70.在本公开中,对用户信息或用户数据的获取均为经用户授权、确认,或由用户主动选择的操作。
71.上文提及,随着云计算技术的兴起和普及,分布式存储系统越来越开始受到业界的关注。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,不但提高了系统的可靠性、可用性和存取效率,还易于扩展。当分布式存储系统发生故障时,往往会对集群的稳定性和可靠性参数很大的影响,甚至可能导致存储系统暂时不可用。当前的分布式存储系统往往采用心跳检测的方式对故障进行检测,当心跳时间检测到超时时,判断为出现故障进行故障处理。发明人发现这种故障检测方式存在如下问题:上述方法只有在存储系统发
生故障时才能检测到,无法提前准确判断存储系统的故障程度,因而难以发现硬件潜在故障风险,而该分布式存储系统一旦发生故障就会影响到存储系统的稳定及高效运行。
72.考虑到上述问题,在本实施例中,提出一种存储系统的故障诊断方法,该方法可以获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障。这样基于待诊断存储系统当前时刻之前一段时间内的服务质量情况,通过预测模型确定当前时刻的待诊断存储系统的故障率,进而确定当前时刻待诊断存储系统是否存在故障风险,如此,能够准确地确定待诊断存储系统存在的潜在故障程度,提前发现硬件潜在故障风险,及时进行维修,进而能够保证存储系统高效且稳定的运行。
73.图1示出根据本公开一实施方式的存储系统的故障诊断方法的流程图,如图1所示,所述存储系统的故障诊断方法包括以下步骤s101-s103:
74.在步骤s101中,获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;
75.在步骤s102中,将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;
76.在步骤s103中,在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障风险。
77.在本公开一实施方式中,所述存储系统的故障诊断方法可适用于可执行存储系统的故障诊断的计算机、计算设备、电子设备、服务器、服务器集群等。
78.在本公开一实施方式中,该待诊断存储系统是指需要进行故障诊断的分布式存储系统,可以定时地对该分布式存储系统进行诊断,也可以周期性地对该分布式存储系统进行诊断。
79.在本公开一实施方式中,在对该待诊断存储系统进行故障诊断时,可以获取当前诊断时长内等间隔时间点对应的服务质量指标数据序列,该当前诊断时长是以当前时刻为结束时刻,将该当前诊断时长按照预设时长进行等间隔分割,得到几个等间隔时间点,获取这几个等间隔时间点处的服务质量指标数据,得到服务质量指标数据序列。示例的,该当前诊断时长是当前时刻之前40分钟时长,可以获取到当前时刻之前10分钟时刻对应的服务质量指标数据1,当前时刻之前20分钟时刻对应的服务质量指标数据2,当前时刻之前30分钟时刻对应的服务质量指标数据3,当前时刻之前40分钟时刻对应的服务质量指标数据4。
80.在本公开一实施方式中,存储系统的服务质量指标通常包含两部分内容:一方面包含有系统资源使用情况,如硬件资源cpu、内存、磁盘和网络等使用情况;另一方面包含有系统获取上层应用的服务,如性能指标iops、带宽、时延等。
81.在本公开一实施方式中,该服务质量指标数据序列是按时间和数值形成的序列。该预设的预测模型对该服务质量指标数据序列进行分析,主要是为了通过该服务质量指标数据序列描述的历史情况,分析规律,预测将来。该预设的预测模型可以是使用该待诊断存储系统的历史数据进行机器学习训练得到的模型,该预测模型的输入为该服务质量指标数据序列,该预测模型的输出为故障率。示例的,该预测模型可以是hole现象趋势模型等能够
预测当前发展趋势的模型。
82.在本公开一实施方式中,该预测模型输出的故障率越大,表明在当前时刻该待诊断存储系统存在的故障风险越大,故可以在所述故障率超过预设阈值时,就确定所述待诊断存储系统存在故障风险。
83.本实施例可以基于待诊断存储系统当前时刻之前一段时间内的服务质量情况,通过预测模型确定当前时刻的待诊断存储系统的故障率,进而确定当前时刻待诊断存储系统是否存在故障风险,如此,能够准确地确定待诊断存储系统存在的潜在故障程度,提前发现硬件潜在故障风险,及时进行维修,进而能够保证存储系统高效且稳定的运行。
84.在本公开一实施方式中,所述服务质量指标数据序列包括各等间隔时间点对应的服务质量指标数据形成的序列,所述服务质量指标数据包括资源消耗指标数据和性能指标数据。
85.在该实施方式中,所述服务质量指标数据可以包括:分布式存储系统的cpu资源、磁盘io资源、内存资源和网络带宽等资源消耗指标数据,以及iops、带宽和时延等性能指标数据。可以应用操作系统自带的iostat、free和dstat等命令收集生产环境中存储系统的cpu资源、磁盘io资源、内存资源、网络带宽资源等,可以用资源总量的百分比表示;可以实用该应用分布式存储系统的自带命令查看性能指标数据(如ceph分布式存储系统,可使用ceph-s命令查看)。
86.本实施例从资源消耗指标数据和性能指标数据角度来确定在线存储系统的故障程度,从多个维度评估一个分布式存储系统的故障程度,能够从整体对该存储系统进行定量的故障诊断,提高故障诊断的准确性。
87.在本公开一实施方式中,如图2所示,上述故障诊断方法还可以包括以下步骤:
88.在步骤s104中,获取样本存储系统的样本数据,所述样本数据包括样本时刻之前的样本诊断时长内等间隔时间点对应的服务质量指标数据序列,所述样本时刻时的存储系统的故障情况;
89.在步骤s105中,基于所述样本数据,训练得到所述预设的预测模型。
90.在该实施方式中,该样本存储系统可以是该待诊断存储系统,也可以是与该待诊断存储系统相同的另一存储系统。
91.在该实施方式中,可以将该样本数据输入初始预测模型,得到初始预测模型的输出结果,该预测模型的输出结果与该样本存储系统在该样本时刻的故障情况做比较,得到该预测模型的输出结果的正确率,不断调整该预测模型中的参数,使该预测模型的输出结果的正确率达到预设阈值如99%,如此就训练得到该预设的预测模型。
92.在本公开一实施方式中,如图3所示,上述存储系统的故障诊断方法还可包括以下步骤s106、步骤s107和步骤s108,上述步骤s105可以实现为以下步骤s1051,上述步骤s102可以实现为以下步骤s1021;
93.在步骤s106中,获取所述样本存储系统的类型;
94.在步骤s1051中,对同一类型的样本存储系统的样本数据进行训练,得到同一类型的存储系统的预测模型,所述样本数据还包括所述样本存储系统的服务质量指标上下容忍值;
95.在步骤s107中,确定所述待诊断存储系统的类型;
96.在步骤s108中,获取所述待诊断存储系统的服务质量指标上下容忍值;
97.在步骤s1021中,将所述服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值输入所述待诊断存储系统的类型对应的预测模型,执行所述待诊断存储系统的类型对应的预测模型,得到所述待诊断存储系统的故障率。
98.在该实施方式中,考虑到为了让该故障诊断方法可以应用于更多各种各样的存储系统,如果为每个存储系统建立一个预测模型,需要耗费大量的资源,故本实施方式中可以针对每种类型的存储系统建立一个预测模型,该存储系统的类型可以按照其存储的数据类型进行划分,可以包括分布式文件存储系统:一般存储非结构的对象(文件,图像等);分布式键值系统:存储关系简单的半结构数据;分布式表格系统:用于存储半结构化数据;分布式关系数据库:存储关系数据等等。
99.在该实施方式中,可以先获取各个样本存储系统的类型,然后对同一类型的样本存储系统的样本数据进行训练,得到所述同一类型的存储系统的预测模型。这里,对于同一类型的存储系统,由于其使用的硬件类型或数量不同,判断其发生故障的标准也不同,为了训练出更准确地判定故障风险的预测模型,该样本数据中除了包括该服务质量指标数据序列外,还会包括样本存储系统的服务质量指标上下容忍值。该上下容忍值是针对服务质量指标的最高容忍值和最低容忍值,位于在该上下容忍值之间的数据都是样本存储系统正常运行的数据。
100.在该实施方式中,在确定待诊断存储系统的故障风险时,可以先获取该待诊断存储系统的类型,查找到该待诊断存储系统的类型对应的预测模型,然后将该服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值作为所述待诊断存储系统的类型对应的预测模型的输入,执行对应的预测模型,该预测模型输出该待诊断存储系统的故障率。
101.本实施例可以在对存储系统分类后,进行特定类别下的建模,可以更加高效且能够保证输出结果的正确,同时根据存储系统类型建立预测模型可以对较多的存储系统的故障风险进行确。
102.在本公开一实施方式中,如图4所示,上述存储系统的故障诊断方法中的步骤s108可包括以下步骤:
103.在步骤s1081中,获取所述待诊断存储系统在正常运行的预设时间段内的服务质量指标数据;
104.在步骤s1082中,对所述预设时间段内的服务质量指标数据进行统计分析,得到所述服务质量指标上下基线;
105.在步骤s1083中,基于所述待诊断存储系统的容忍度和所述服务质量指标上下基线,确定服务质量指标上下容忍线;
106.在步骤s1084中,基于所述服务质量指标上下容忍线,确定所述待诊断存储系统的服务质量指标上下容忍值。
107.在该实施方式中,可以使用操作系统自带的iostat、free和dstat等命令在该预设时间段内采集存储系统的cpu资源、磁盘io资源、内存资源、网络带宽资源等消耗情况,以资源总量的百分比表示;使用该存储系统的自带命令查看性能指标数据,如此得到预设时间段内的服务质量指标数据。在该待诊断存储系统在正常运行的预设时间段内采集的服务质
量指标数据均是该待诊断存储系统中服务质量指标的历史正常值。
108.在该实施方式中,可以对这些正常的服务质量指标数据进行统计分析,得到服务质量指标上下基线,在该服务质量指标上下基线之间的服务质量指标数据均是正常数据。示例的,可以通过拟合算法计算得到该上下基线。
109.在该实施方式中,该待诊断存储系统的容忍度可根据实际需要设置的经验值;示例的,可以设置容忍度为20%。可以将该上基线向上浮动20%得到该上容忍线,将下基线向下浮动20%得到该下容忍线。然后可以基于所述服务质量指标上下容忍线进行均值计算,得到所述待诊断存储系统的服务质量指标上下容忍值。
110.本实施例可以通过采集正常运行的预设时间段内的服务质量指标数据计算得到服务质量指标上下容忍值,可以得到准确的上下容忍值,进而可以通过该上下容忍值对该待诊断存储系统的故障风险进行准确的判断。
111.下述为本公开装置实施例,可以用于执行本公开方法实施例。
112.图5示出根据本公开一实施方式的存储系统的故障诊断装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
113.如图5所示,所述存储系统的故障诊断装置500包括:第一获取模块501、预测模块502和第一确定模块503。
114.第一获取模块501,被配置为获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;
115.预测模块502,被配置为将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;
116.第一确定模块503,被配置为在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障风险。
117.在本公开一实施方式中,所述存储系统的故障诊断装置可适用于可执行存储系统的故障诊断的计算机、计算设备、电子设备、服务器、服务器集群等。
118.在本公开一实施方式中,该待诊断存储系统是指需要进行故障诊断的分布式存储系统,可以定时地对该分布式存储系统进行诊断,也可以周期性地对该分布式存储系统进行诊断。
119.在本公开一实施方式中,在对该待诊断存储系统进行故障诊断时,可以获取当前诊断时长内等间隔时间点对应的服务质量指标数据序列,该当前诊断时长是以当前时刻为结束时刻,将该当前诊断时长按照预设时长进行等间隔分割,得到几个等间隔时间点,获取这几个等间隔时间点处的服务质量指标数据,得到服务质量指标数据序列。示例的,该当前诊断时长是当前时刻之前40分钟时长,可以获取到当前时刻之前10分钟时刻对应的服务质量指标数据1,当前时刻之前20分钟时刻对应的服务质量指标数据2,当前时刻之前30分钟时刻对应的服务质量指标数据3,当前时刻之前40分钟时刻对应的服务质量指标数据4。
120.在本公开一实施方式中,存储系统的服务质量指标通常包含两部分内容:一方面包含有系统资源使用情况,如硬件资源cpu、内存、磁盘和网络等使用情况;另一方面包含有系统获取上层应用的服务,如性能指标iops、带宽、时延等。
121.在本公开一实施方式中,该服务质量指标数据序列是按时间和数值形成的序列。该预设的预测模型对该服务质量指标数据序列进行分析,主要是为了通过该服务质量指标
数据序列描述的历史情况,分析规律,预测将来。该预设的预测模型可以是使用该待诊断存储系统的历史数据进行机器学习训练得到的模型,该预测模型的输入为该服务质量指标数据序列,该预测模型的输出为故障率。示例的,该预测模型可以是hole现象趋势模型等能够预测当前发展趋势的模型。
122.在本公开一实施方式中,该预测模型输出的故障率越大,表明在当前时刻该待诊断存储系统存在的故障风险越大,故可以在所述故障率超过预设阈值时,就确定所述待诊断存储系统存在故障风险。
123.本实施例可以基于待诊断存储系统当前时刻之前一段时间内的服务质量情况,通过预测模型确定当前时刻的待诊断存储系统的故障率,进而确定当前时刻待诊断存储系统是否存在故障风险,如此,能够准确地确定待诊断存储系统存在的潜在故障程度,提前发现硬件潜在故障风险,及时进行维修,进而能够保证存储系统高效且稳定的运行。
124.在本公开一实施方式中,所述服务质量指标数据序列包括各等间隔时间点对应的服务质量指标数据形成的序列,所述服务质量指标数据包括资源消耗指标数据和性能指标数据。
125.在该实施方式中,所述服务质量指标数据可以包括:分布式存储系统的cpu资源、磁盘io资源、内存资源和网络带宽等资源消耗指标数据,以及iops、带宽和时延等性能指标数据。可以应用操作系统自带的iostat、free和dstat等命令收集生产环境中存储系统的cpu资源、磁盘io资源、内存资源、网络带宽资源等,可以用资源总量的百分比表示;可以实用该应用分布式存储系统的自带命令查看性能指标数据(如ceph分布式存储系统,可使用ceph-s命令查看)。
126.本实施例从资源消耗指标数据和性能指标数据角度来确定在线存储系统的故障程度,从多个维度评估一个分布式存储系统的故障程度,能够从整体对该存储系统进行定量的故障诊断,提高故障诊断的准确性。
127.在本公开一实施方式中,如图6所示,所述装置还包括:
128.第二获取模块504,被配置为获取样本存储系统的样本数据,所述样本数据包括样本时刻之前的样本诊断时长内等间隔时间点对应的服务质量指标数据序列,所述样本时刻时的存储系统的故障情况;
129.训练模块505,被配置为基于所述样本数据,训练得到所述预设的预测模型。
130.在该实施方式中,该样本存储系统可以是该待诊断存储系统,也可以是与该待诊断存储系统相同的另一存储系统。
131.在该实施方式中,可以将该样本数据输入初始预测模型,得到初始预测模型的输出结果,该预测模型的输出结果与该样本存储系统在该样本时刻的故障情况做比较,得到该预测模型的输出结果的正确率,不断调整该预测模型中的参数,使该预测模型的输出结果的正确率达到预设阈值如99%,如此就训练得到该预设的预测模型。
132.在本公开一实施方式中,如图7所示,所述装置还包括:
133.第三获取模块506,被配置为获取所述样本存储系统的类型;
134.所述训练模块505被配置为:
135.对同一类型的样本存储系统的样本数据进行训练,得到同一类型的存储系统的预测模型,所述样本数据还包括所述样本存储系统的服务质量指标上下容忍值;
136.所述装置还包括:
137.第二确定模块507,被配置为在将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率之前,确定所述待诊断存储系统的类型;
138.第四获取模块508,被配置为获取所述待诊断存储系统的服务质量指标上下容忍值;
139.所述预测模块502被配置为:
140.将所述服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值输入所述待诊断存储系统的类型对应的预测模型,执行所述待诊断存储系统的类型对应的预测模型,得到所述待诊断存储系统的故障率。
141.在该实施方式中,考虑到为了让该故障诊断方法可以应用于更多各种各样的存储系统,如果为每个存储系统建立一个预测模型,需要耗费大量的资源,故本实施方式中可以针对每种类型的存储系统建立一个预测模型,该存储系统的类型可以按照其存储的数据类型进行划分,可以包括分布式文件存储系统:一般存储非结构的对象(文件,图像等);分布式键值系统:存储关系简单的半结构数据;分布式表格系统:用于存储半结构化数据;分布式关系数据库:存储关系数据等等。
142.在该实施方式中,可以先获取各个样本存储系统的类型,然后对同一类型的样本存储系统的样本数据进行训练,得到所述同一类型的存储系统的预测模型。这里,对于同一类型的存储系统,由于其使用的硬件类型或数量不同,判断其发生故障的标准也不同,为了训练出更准确地判定故障风险的预测模型,该样本数据中除了包括该服务质量指标数据序列外,还会包括样本存储系统的服务质量指标上下容忍值。该上下容忍值是针对服务质量指标的最高容忍值和最低容忍值,位于在该上下容忍值之间的数据都是样本存储系统正常运行的数据。
143.在该实施方式中,在确定待诊断存储系统的故障风险时,可以先获取该待诊断存储系统的类型,查找到该待诊断存储系统的类型对应的预测模型,然后将该服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值作为所述待诊断存储系统的类型对应的预测模型的输入,执行对应的预测模型,该预测模型输出该待诊断存储系统的故障率。
144.本实施例可以在对存储系统分类后,进行特定类别下的建模,可以更加高效且能够保证输出结果的正确,同时根据存储系统类型建立预测模型可以对较多的存储系统的故障风险进行确。
145.在本公开一实施方式中,所述第四获取模块508被配置为:
146.获取所述待诊断存储系统在正常运行的预设时间段内的服务质量指标数据;
147.对所述预设时间段内的服务质量指标数据进行统计分析,得到所述服务质量指标上下基线;
148.基于所述待诊断存储系统的容忍度和所述服务质量指标上下基线,确定服务质量指标上下容忍线;
149.基于所述服务质量指标上下容忍线,确定所述待诊断存储系统的服务质量指标上下容忍值。
150.在该实施方式中,可以使用操作系统自带的iostat、free和dstat等命令在该预设时间段内采集存储系统的cpu资源、磁盘io资源、内存资源、网络带宽资源等消耗情况,以资源总量的百分比表示;使用该存储系统的自带命令查看性能指标数据,如此得到预设时间段内的服务质量指标数据。在该待诊断存储系统在正常运行的预设时间段内采集的服务质量指标数据均是该待诊断存储系统中服务质量指标的历史正常值。
151.在该实施方式中,可以对这些正常的服务质量指标数据进行统计分析,得到服务质量指标上下基线,在该服务质量指标上下基线之间的服务质量指标数据均是正常数据。示例的,可以通过拟合算法计算得到该上下基线。
152.在该实施方式中,该待诊断存储系统的容忍度可根据实际需要设置的经验值;示例的,可以设置容忍度为20%。可以将该上基线向上浮动20%得到该上容忍线,将下基线向下浮动20%得到该下容忍线。然后可以基于所述服务质量指标上下容忍线进行均值计算,得到所述待诊断存储系统的服务质量指标上下容忍值。
153.本实施例可以通过采集正常运行的预设时间段内的服务质量指标数据计算得到服务质量指标上下容忍值,可以得到准确的上下容忍值,进而可以通过该上下容忍值对该待诊断存储系统的故障风险进行准确的判断。
154.本公开还公开了一种电子设备,图8示出根据本公开一实施方式的电子设备的结构框图。
155.如图8所示,所述电子设备800包括存储器801和处理器802;其中,所述存储器801用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器802执行以实现上述方法步骤,该方法包括:
156.获取待诊断存储系统在当前诊断时长内等间隔时间点对应的服务质量指标数据序列,所述当前诊断时长以当前时刻为结束时刻;
157.将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率;
158.在所述故障率超过预设阈值时,确定所述待诊断存储系统存在故障风险。
159.在本公开一实施方式中,所述方法还包括:
160.获取样本存储系统的样本数据,所述样本数据包括样本时刻之前的样本诊断时长内等间隔时间点对应的服务质量指标数据序列,所述样本时刻时的存储系统的故障情况;
161.基于所述样本数据,训练得到所述预设的预测模型。
162.在本公开一实施方式中,所述方法还包括:
163.获取所述样本存储系统的类型;
164.所述基于所述样本数据,训练得到所述预设的预测模型,包括:
165.对同一类型的样本存储系统的样本数据进行训练,得到同一类型的存储系统的预测模型,所述样本数据还包括所述样本存储系统的服务质量指标上下容忍值;
166.在将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得到所述预测模型输出的故障率之前,所述方法还包括:
167.确定所述待诊断存储系统的类型;
168.获取所述待诊断存储系统的服务质量指标上下容忍值;
169.所述将所述服务质量指标数据序列输入预设的预测模型,执行所述预测模型,得
到所述预测模型输出的故障率,包括:
170.将所述服务质量指标数据序列和所述待诊断存储系统的服务质量指标上下容忍值输入所述待诊断存储系统的类型对应的预测模型,执行所述待诊断存储系统的类型对应的预测模型,得到所述待诊断存储系统的故障率。
171.在本公开一实施方式中,所述服务质量指标数据序列包括各等间隔时间点对应的服务质量指标数据形成的序列,所述服务质量指标数据包括资源消耗指标数据和性能指标数据。
172.在本公开一实施方式中,所述获取所述待诊断存储系统的服务质量指标上下容忍值,包括:
173.获取所述待诊断存储系统在正常运行的预设时间段内的服务质量指标数据;
174.对所述预设时间段内的服务质量指标数据进行统计分析,得到所述服务质量指标上下基线;
175.基于所述待诊断存储系统的容忍度和所述服务质量指标上下基线,确定服务质量指标上下容忍线;
176.基于所述服务质量指标上下容忍线,确定所述待诊断存储系统的服务质量指标上下容忍值。
177.图9是适于用来实现根据本公开一实施方式的存储系统的故障诊断方法的计算机系统的结构示意图。
178.如图9所示,计算机系统900包括处理单元901,其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行上述实施方式中的各种处理。在ram903中,还存储有系统900操作所需的各种程序和数据。处理单元901、rom902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
179.以下部件连接至i/o接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。其中,所述处理单元901可实现为cpu、gpu、tpu、fpga、npu等处理单元。
180.特别地,根据本公开的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述存储系统的故障诊断方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
181.附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所
标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
182.描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
183.作为另一方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。
184.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献