磁盘状态预测方法、装置、电子设备及存储介质

2022-12-20 20:59:53 来源：中国专利 TAG：

1.本发明涉及机器学习技术领域，具体涉及一种磁盘状态预测方法、装置、电子设备及存储介质。

背景技术：

2.目前，在应用机器学习技术预测磁盘故障的过程中，往往会碰到样本不均衡的问题，所谓样本不均衡是指健康状态样本远远多于故障状态样本，如果不经处理直接对不均衡的样本进行学习，那么得到的机器学习模型给出的结果则会偏向数据量多的那一方，使得其对故障样本的预测效果十分差。
3.此外，在应用机器学习技术预测磁盘故障的过程中，往往还会碰到多模型异构磁盘的问题，所谓异构磁盘是指不同厂商、不同型号的磁盘工艺存在差异，故障率不同。现有技术中对不同型号的故障样本的预测效果也十分差。
4.现有技术中常用的做法有降采样技术和上采样技术。降采样技术减少健康样本的数量，再将样本放入机器学习模型中训练，然而，这种方法抛弃了大量的可用信息，不仅显得十分奢侈，而且也会带来过拟合的问题。上采样技术往往只是简单的重复故障状态样本，这样增强过后的样本，并未很好的挖掘出不同磁盘型号的故障状态样本潜在分布的信息，同样会引发过拟合的问题。

技术实现要素：

5.本发明提供一种磁盘状态预测方法、装置、电子设备及存储介质，用以解决样本不均衡的技术问题。
6.第一方面，本发明提供一种磁盘状态预测方法，包括：
7.基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
8.其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
9.其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
10.可选地，在一个实施例中，所述方法还包括：
11.基于原始故障样本，训练获得所述深度条件生成对抗网络中的判别器和生成器。
12.可选地，在一个实施例中，所述基于原始故障样本，训练获得所述深度条件生成对抗网络中的判别器和生成器，包括：
13.基于所述原始故障样本，执行至少一次所述判别器和生成器的训练过程；
14.其中，一次所述训练过程包括：
15.基于所述原始故障样本和前一次所述训练过程中获得的判别器，更新所述生成器；
16.基于所述原始故障样本和更新后的生成器，更新所述判别器。
17.可选地，在一个实施例中，所述基于所述原始故障样本和更新后的生成器，更新所述判别器，包括：
18.将第一随机抽样故障样本和，第一随机抽样噪声数据输入所述更新后的生成器，得到第一伪造故障样本；
19.将所述第一随机抽样故障样本，以及第一伪造故障样本，以及第二随机抽样故障样本，输入前一次所述训练过程中获得的判别器，计算判别器误差损失，基于梯度下降算法更新判别器参数；
20.其中，所述第一随机抽样故障样本是从所述原始故障样本中随机抽样获得，所述第一随机抽样故障样本的标签包括磁盘的型号标签，和，所述磁盘的特征数据；
21.其中，所述第一随机抽样噪声数据是从服从高斯分布的k维噪声数据中随机抽样获得；
22.其中，所述第二随机抽样故障样本是从所述原始故障样本中随机抽样获得，所述第二随机抽样故障样本的标签包括磁盘的特征数据。
23.可选地，在一个实施例中，所述基于所述原始故障样本和前一次所述训练过程中获得的判别器，更新所述生成器，包括：
24.将第三随机抽样故障样本和，第二随机抽样噪声数据输入前一次所述训练过程中获得的生成器，得到第二伪造故障样本；
25.将第三随机抽样故障样本，和，第二伪造故障样本输入前一次所述训练过程中获得的判别器，获得所述判别器的判别输出结果；
26.基于所述判别输出结果，计算判别器误差损失，通过梯度下降算法，更新所述生成器参数；
27.其中，所述第三随机抽样故障样本是从所述原始故障样本中随机抽样获得，所述第三随机抽样故障样本的标签包括磁盘的型号标签，和所述磁盘的特征数据；
28.其中，所述第二随机抽样噪声数据是从服从高斯分布的k维噪声数据中随机抽样获得。
29.可选地，在一个实施例中，所述方法还包括：
30.确定训练所述二分类模型所需要的不同型号磁盘的伪造故障样本的第一数量；
31.基于所述深度条件生成对抗网络，获得不同型号磁盘的第一数量的伪造故障样本。
32.可选地，在一个实施例中，所述方法还包括：
33.基于所述原始故障样本，健康状态样本，和所述第一数量的伪造故障样本，训练获得所述二分类模型。
34.第二方面，本发明提供一种磁盘状态预测装置，包括：
35.确定模块，用于基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
36.其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
37.其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
38.第三方面，本发明提供一种电子设备，包括存储器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述磁盘状态预测方法的步骤。
39.第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行所述程序时实现第一方面所述磁盘状态预测方法的步骤。
40.本发明提供的磁盘状态预测方法、装置、电子设备及存储介质，通过使用深度条件生成对抗网络，生成不同型号磁盘的高质量的伪造故障样本作为原始故障状态样本的补充，再通过这些故障状态样本与一定数量的健康状态样本作为训练集训练出二分类模型对目标磁盘的目标状态进行预测；可以挖掘出更多型号磁盘的故障状态样本的信息，也能更充分地利用健康状态样本的信息，可以解决异构磁盘场景下的样本不均衡问题，多模型异构问题，并缓解训练数据少时所遇到的过拟合的问题。
附图说明
41.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1是本发明提供的磁盘状态预测方法的流程示意图；
43.图2是本发明提供的判别器的结构示意图；
44.图3是本发明提供的生成器的结构示意图；
45.图4是本发明提供的判别器训练的示意图；
46.图5是本发明提供的生成器训练的示意图；
47.图6是本发明提供的伪造故障样本的生成示意图；
48.图7是本发明提供的磁盘状态预测装置的结构示意图；
49.图8示例了一种电子设备的实体结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
51.数据中心存储系统的快速扩展使得原本的意外组件故障成为常态。磁盘是最常见
的故障组件之一，磁盘故障占数据中心所有失效组件的76-95％。磁盘故障会导致严重的数据丢失和随后的服务停机，从而给业务带来巨大损失。
52.然而，磁盘容量的不断增长将增加扇区错误和数据损坏的概率。数据中心的磁盘应该容忍更高的错误率，应对这些错误的责任应该重新分配给更高的存储层，以实现高性能和低成本。
53.因此，磁盘故障成为确保数据高可靠性服务的主要问题中心。在目前，对提高存储系统可靠性的研究主体主要分为两个方面。一种是反应式容错技术，这种技术通过设计擦除码和数据冗余机制，在磁盘发生故障后重建数据。但是，它可能会影响磁盘的读/写操作，并降低系统的整体性能。相反，主动容错技术在实际发生故障之前执行预测，利用磁盘的过去行为。自监测、分析和报告技术(smart)是一种检测和报告驱动器可靠性指标的方法，例如重新分配扇区计数、负载周期、寻优率、读取错误。
54.下面结合图1-图6描述本发明的磁盘状态预测方法。
55.图1是本发明提供的磁盘状态预测方法的流程示意图，如图1所示，该方法包括如下流程：
56.步骤100，基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
57.其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
58.其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
59.可选地，为了解决样本不均衡问题，可以生成伪造故障样本；
60.可选地，如果不经过处理直接对多模型异构磁盘样本进行学习，那么得到的机器学习模型给出的结果则会偏向故障样本多的型号磁盘一方，导致预测结果不准确；为了解决多模型异构问题，可以为不同型号磁盘生成相应的伪造故障样本；
61.可选地，在生成伪造故障样本时，可以首先改进标签，如一块盘只会有一个故障样本，然而，故障盘的smart属性在最后7-14天基本不会改变，因此，可以将原始故障样本盘的故障发生当天及前13天的磁盘样本当作故障状态样本，这个盘的其余时间可以当作健康状态样本。
62.比如，某一块盘在2月14日发生故障，则可以将2月2日-2月14日的样本作为故障状态样本，2月1号之前的样本将当作健康状态样本。
63.可选地，在确定一定数量的故障状态样本和健康状态样本后，可以进行特征筛选；由于并不是全部采集到的smart的属性都与故障相关，利用通过每个属性与故障的相关系数来剔除不相关的属性，挑选出相关的属性。
64.可选地，由于不同的自我监测、分析及报告技术(self-monitoring analysis and reporting technology，smart)属性的取值范围存在差异，为了获取各个smart属性的公平比较，通过最小最大归一化(min-max)来对各个smart属性进行归一化。
65.可选地，在确定出一定数量的原始故障样本，并确定故障相关的特征后，可以使用原始故障样本作为输入训练出一个深度条件生成对抗网络。
66.可选地，可以利用深度条件生成对抗网络，基于所述原始故障样本为不同型号磁盘生成不同数量的伪造故障样本，解决样本不均衡问题和多模型异构问题；且基于深度条件生成对抗网络的伪造故障样本可以模仿生成输入的原始故障样本，能够更好地提取原始故障样本的特征，并按照输入的磁盘型号标签，生成不同型号磁盘，质量更好的伪造故障样本。
67.可选地，可以将原始故障样本数据输入到构建好的深度条件生成对抗网络中。然后，可以训练深度条件生成对抗网络，迭代调整深度条件生成对抗网络的参数直至网络收敛。随后，可以将服从一定分布的数据输入到训练好的深度条件生成对抗网络中，经前向传播计算，得到所需数量的伪造故障样本，作为原始故障样本的补充，构成了训练集的正样本。最后，可以根据故障状态样本的数量，按预设比例对健康状态样本随机抽样，构成了训练集的负样本，然后可以把训练集输入二分类模型中进行训练，得到一个具有故障预测能力的二分类模型，预测模块磁盘实时状态。
68.可选地，本发明通过仿造一定数量的故障状态样本，扩充了故障状态样本的数量，解决了样本不均衡问题。
69.可选地，由于增加了故障状态样本的数量，同时固定了故障状态样本和健康状态样本的比例，相比于现有技术手段，本发明可使用的样本数大大提升。这不仅能挖掘出更多的故障状态样本的信息，也能更多地利用健康状态样本的信息，解决了小样本的问题。
70.本发明提供的磁盘状态预测方法，通过使用深度条件生成对抗网络，生成不同型号磁盘的高质量的伪造故障样本作为原始故障状态样本的补充，再通过这些故障状态样本与一定数量的健康状态样本作为训练集训练出二分类模型对目标磁盘的目标状态进行预测；可以挖掘出更多型号磁盘的故障状态样本的信息，也能更充分地利用健康状态样本的信息，可以解决异构磁盘场景下的样本不均衡问题，多模型异构问题，并缓解训练数据少时所遇到的过拟合的问题。
71.可选地，在一个实施例中，所述方法还包括：
72.基于原始故障样本，训练获得所述深度条件生成对抗网络中的判别器和生成器。
73.可选地，若要通过深度条件生成对抗网络，基于原始故障样本伪造故障样本，可以首先训练获得深度条件生成对抗网络中的判别器和生成器。
74.可选地，可以首先构建网络中的判别器d以及构建网络中的生成器g；
75.可选地，深度条件生成对抗网络模型可以由一个判别器和一个生成器构成。生成器负责学习真实样本模拟产生伪造样本，判别器的作用是分辨哪些是真实样本，哪些是伪造样本。
76.可选地，图2是本发明提供的判别器的结构示意图，如图2所示，在构建网络中的判别器d时，可以首先将待判定样本输入网络，经过几轮卷积与池化后，将待判定样本特征映射到深层空间，提取其深度特征并压缩数据，去除冗余信息，随后将多层卷积后特征，展开到一层并以全连接的方式赋权求和，最后使用激活函数将输出值归一化，输出判定器d的判定结果；
77.可选地，输出判别器d的判定结果可以指激活函数的功能，即判别器构建中最后可
以采用激活函数将输出归一化，进而输出结果。
78.可选地，图3是本发明提供的生成器的结构示意图，如图3所示，可以首先选从服从高斯分布的k维空间中随机选取k维数据，送入全连接层，对特征进行组合，随后，进行多层的卷积操作得到生成的磁盘样本。
79.可选地，在构建网络中的判别器d以及生成器g后，可以基于原始故障样本，训练获得所述深度条件生成对抗网络中用于生成伪造故障样本的判别器和生成器。
80.可选地，在一个实施例中，所述基于原始故障样本，训练获得所述深度条件生成对抗网络中的判别器和生成器，包括：
81.基于所述原始故障样本，执行至少一次所述判别器和生成器的训练过程；
82.其中，一次所述训练过程包括：
83.基于所述原始故障样本和前一次所述训练过程中获得的判别器，更新所述生成器；
84.基于所述原始故障样本和更新后的生成器，更新所述判别器。
85.可选地，可以重复交替训练判别器和生成器，实现深度条件生成对抗网络中的生成器和判别器交互学习，利用对抗机制，每次训练其中一个，实现生成器会尽可能产生判别器无法分辨的样本，判别器尽可能分辨出生成器伪造的样本。
86.可选地，在一个实施例中，所述基于所述原始故障样本和更新后的生成器，更新所述判别器，包括：
87.将第一随机抽样故障样本和，第一随机抽样噪声数据输入所述更新后的生成器，得到第一伪造故障样本；
88.将所述第一随机抽样故障样本，以及第一伪造故障样本，以及第二随机抽样故障样本，输入前一次所述训练过程中获得的判别器，计算判别器误差损失，基于梯度下降算法更新判别器参数；
89.其中，所述第一随机抽样故障样本是从所述原始故障样本中随机抽样获得，所述第一随机抽样故障样本的标签包括磁盘的型号标签，和，所述磁盘的特征数据；
90.其中，所述第一随机抽样噪声数据是从服从高斯分布的k维噪声数据中随机抽样获得；
91.其中，所述第二随机抽样故障样本是从所述原始故障样本中随机抽样获得，所述第二随机抽样故障样本的标签包括磁盘的特征数据。
92.可选地，图4是本发明提供的判别器训练的示意图，如图4所示，在训练判别器时，可以对原始故障样本进行随机抽样，得到第一随机抽样故障样本((c1，x1)，(c2，x2)，(c3，x3)，...，(cn，xn))，可以对服从高斯分布的k维数据进行随机抽样，得到第一抽样数据(z1，z2，z3，...，zn)；
93.可选地，在得到第一抽样数据后，可以将(z1，z2，z3，...，zn)输入进深度条件生成对抗网络的生成器g得到第一伪造故障样本(x
′1，x
′2，x
′3，...，x
′n)；其中，当前的生成器可以是最近更新获得的生成器；
94.可选地，可以对原始故障样本进行第二次随机抽样，得到第二次随机抽样故障样本第二次随机抽样故障样本不需要包含磁盘型号标签。
95.可选地，分别将第一随机抽样故障样本((c1，x1)，(c2，x2)，(c3，x3)，...，(cn，xn))，和，第一伪造故障样本(x
′1，x
′2，x
′3，...，x
′n)，以及，第二次随机抽样故障样本输入判别器d中，判别器将(ci，xi)组合输出结果定为1，将种(ci，x
′n)组合的输出结果定为0。
96.可选地，最后可以基于梯度下降算法更新所述判别器，梯度下降更新判别器d的参数θd，其中，最小化损失函数l1：
[0097][0098]
可选的，其基于梯度下降算法更新判别器参数的方式，通过计算判别器误差损失的梯度，进行梯度更新。
[0099]
θd←
θd ηld(θd)
[0100]
其中，所述生成器g产生伪造样本的过程为，输入为第一随机抽样故障样本的型号标签，和，第一随机抽样噪声数据，输出为第一伪造故障样本。
[0101]
其中，判别器分辨原始故障样本，和，伪造故障样本的过程为，输入为第一随机抽样故障样本的型号标签，和，第一随机抽样故障样本的特征数据，或，第一伪造故障样本，或第二随机抽样故障样本的特征数据。训练好的判别器d会分别输出0，和1。
[0102]
其中，基于梯度下降算法更新判别器参数的方式如下，通过计算判别器误差损失的梯度，进行梯度更新。
[0103]
可选地，第一随机抽样噪声数据是从服从高斯分布的k维噪声数据中随机抽样获得的第一批随机抽样噪声数据，第一随机抽样噪声数据是从服从高斯分布的k维噪声数据中随机抽样获得的第二批随机抽样噪声数据，每批包含每个噪声数据。
[0104]
可选地，在一个实施例中，
[0105]
所述基于所述原始故障样本和前一次所述训练过程中获得的判别器，更新所述生成器，包括：
[0106]
将第三随机抽样故障样本和，第二随机抽样噪声数据输入前一次所述训练过程中获得的生成器，得到第二伪造故障样本；
[0107]
将第三随机抽样故障样本，和，第二伪造故障样本输入前一次所述训练过程中获得的判别器，获得所述判别器的判别输出结果；
[0108]
基于所述判别输出结果，计算判别器误差损失，通过梯度下降算法，更新所述生成器参数；
[0109]
其中，所述第三随机抽样故障样本是从所述原始故障样本中随机抽样获得，所述第三随机抽样故障样本的标签包括磁盘的型号标签，和所述磁盘的特征数据；
[0110]
其中，所述第二随机抽样噪声数据是从服从高斯分布的k维噪声数据中随机抽样获得。
[0111]
可选地，图5是本发明提供的生成器训练的示意图，如图5所示，在训练生成器时，
可以对原始故障样本进行随机抽样，得到第三随机抽样故障样本的型号标签(c1，c2，c3...cn)，可以重新对服从高斯分布的k维数据进行随机抽样，得到第二抽样数据(z1，z2，z3，...，zn)；
[0112]
可选地，可以将(z1，z2，z3，...，zn)和(c1，c2，c3...cn)输入进深度条件生成对抗网络的生成器g得到第二伪造故障样本(x
′1，x
′2，x
′3，...，x
′
n)；其中，深度条件生成对抗网络的生成器g可以是前一次所述训练过程中获得的生成器；
[0113]
可选地，可以将(x
′1，x
′2，x
′3，...，x
′n)标签定为1，输入深度条件生成对抗网络的判别器d；
[0114]
可选地，可以基于判别器的输出，通过梯度下降算法更新生成器g的参数θg，其中，最小化损失函数l2：
[0115][0116]
可选的，其基于梯度下降算法更新生成器参数的方式，通过计算判别器误差损失的梯度，进行梯度更新。
[0117]
θg←
θg ηlg(θg)
[0118]
可选地，可以重复更新判别器和生成器，直至判别器d的损失函数l1和生成器g的损失函数l2收敛，即可以认为深度条件生成对抗网络训练完成。
[0119]
可选地，在一个实施例中，所述方法还包括：
[0120]
确定训练所述二分类模型所需要的不同型号磁盘的伪造故障样本的第一数量；
[0121]
基于所述深度条件生成对抗网络，获得不同型号磁盘的第一数量的伪造故障样本。
[0122]
可选地，图6是本发明提供的伪造故障样本的生成示意图，如图6所示，在训练完成深度条件生成对抗网络后，可以对服从高斯分布的k维数据进行随机抽样，得到(z1，z2，z3，...，zn)，和，需要生成样本的磁盘型号(c1，c2，c3...cn)输入训练好的生成器g，前向传播得到生成的第一数量的伪造故障样本。
[0123]
可选地，可以提前确定所需生成的伪造故障样本的第一数量，并将生成的伪造故障样本与原始故障状态样本作为训练集的正样本。
[0124]
可选地，在一个实施例中，所述方法还包括：
[0125]
基于所述原始故障样本，健康状态样本，和所述第一数量的伪造故障样本，训练获得所述二分类模型。
[0126]
可选地，可以首先确定二分类模型的训练集的正负样本比例(即预设比例)，计算出所需健康状态样本数量，并从健康状态样本中随机抽样出该数量的样本作为训练集的负样本。
[0127]
比如，在确定所需生成伪造故障样本的第一数量时，对于原始故障样本数量少于500的，可以生成伪造故障样本使其总量达到500；对于原始故障样本数量少于1000的，可以生成伪造故障样本使其总量达到1000。在确定正负样本比例时，可以确定其为预设比例1：5。
[0128]
可选地，在生成一定数量的故障状态样本时，可以使得原始故障样本与伪造故障
样本数量之和大于一个设定值。将伪造故障样本数量与原始故障样本作为二分类模型训练集的正样本。随后可以基于预设比例，计算出所需健康状态样本数量，并从健康状态样本中随机抽样出该数量的样本作为二分类模型训练集的负样本。
[0129]
可选地，在确定满足预设比例的故障状态样本和健康状态样本后，即确定原始故障样本，健康状态样本，和所述第一数量的伪造故障样本后，可以训练获得所述二分类模型。
[0130]
可选地，可以将当前状态未定的磁盘样本作为输入，放入训练好的二分类模型，预测其故障与否。
[0131]
可选地，二分类模型可以为随机森林。
[0132]
本发明提供的磁盘状态预测方法，通过使用深度条件生成对抗网络，生成不同型号磁盘的高质量的伪造故障样本作为原始故障状态样本的补充，再通过这些故障状态样本与一定数量的健康状态样本作为训练集训练出二分类模型对目标磁盘的目标状态进行预测；可以挖掘出更多型号磁盘的故障状态样本的信息，也能更充分地利用健康状态样本的信息，可以解决异构磁盘场景下的样本不均衡问题，多模型异构问题，并缓解训练数据少时所遇到的过拟合的问题。
[0133]
下面对本发明提供的磁盘状态预测装置进行描述，下文描述的磁盘状态预测装置与上文描述的磁盘状态预测方法可相互对应参照。
[0134]
图7是本发明提供的磁盘状态预测装置的结构示意图，如图7所示，该装置包括：确定模块710；其中：
[0135]
确定模块710，用于基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
[0136]
其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
[0137]
其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
[0138]
可选地，磁盘状态预测装置可以基于二分类模型，通过确定模块710确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
[0139]
其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
[0140]
本发明提供的磁盘状态预测装置，通过使用深度条件生成对抗网络，生成不同型号磁盘的高质量的伪造故障样本作为原始故障状态样本的补充，再通过这些故障状态样本与一定数量的健康状态样本作为训练集训练出二分类模型对目标磁盘的目标状态进行预
测；可以挖掘出更多型号磁盘的故障状态样本的信息，也能更充分地利用健康状态样本的信息，可以解决异构磁盘场景下的样本不均衡问题，多模型异构问题，并缓解训练数据少时所遇到的过拟合的问题。
[0141]
图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communication interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序，以执行磁盘状态预测方法的步骤，例如包括：
[0142]
基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
[0143]
其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
[0144]
其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
[0145]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0146]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的磁盘状态预测方法的步骤，例如包括：
[0147]
基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
[0148]
其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
[0149]
其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
[0150]
另一方面，本技术实施例还提供一种处理器可读存储介质，所述处理器可读存储
介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述各实施例提供的方法的步骤，例如包括：
[0151]
基于二分类模型，确定目标磁盘的目标状态，所述目标状态包括健康状态和故障状态；
[0152]
其中，所述二分类模型是基于故障状态样本和健康状态样本训练获得的，所述故障状态样本的数量和所述健康状态样本的数量的比例是预设比例；所述故障状态样本包括原始故障样本，和，通过深度条件生成对抗网络基于所述原始故障样本生成的伪造故障样本；
[0153]
其中，所述故障状态样本包括至少一种型号磁盘的故障状态样本，所述健康状态样本包括至少一种型号磁盘的健康状态样本；所述伪造故障样本包括所述至少一种型号磁盘的伪造故障样本。
[0154]
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
[0155]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0156]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0157]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

磁盘状态预测方法、装置、电子设备及存储介质

相关文献

最热文献