一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种设备异常检测方法、装置、存储介质及设备与流程

2022-04-02 02:19:50 来源:中国专利 TAG:


1.本技术涉及通信技术领域,尤其涉及一种设备异常检测方法、装置、存储介质及设备。


背景技术:

2.随着移动互联网、物联网和人工智能(artificial intelligence,ai)技术的快速发展,每时每刻都在产生大量的数据信息,导致需要处理的数据量呈现几何级别的增长。基于此,用于存储数据的存储设备得到了越来越广泛的应用,对于存储设备来说,业务能否稳定运行、设备是否正常运转等均是人们重点关注的核心问题,一旦存储设备发生故障导致存储性能降低时,将会造成数据丢失及经济损失等问题,因此,对存储设备进行异常检测以便能够及时发现存储设备的故障,已成为避免由于存储设备故障导致存储性能降低的一种必要手段。
3.目前,对存储设备进行异常检测的方法通常有两种:一种是基于ai技术预先在云端构建对存储设备的关键性能指标(logical unit number group,kpi)进行异常检测及根因定位的ai检测模型,用以对存储设备进行异常检测,但由于这种检测方法需要用户通过接入三方网管工具来回传设备的性能数据,容易在传输过程中造成用户数据隐私的泄露,安全性不高;而另一种常用的检测方法则是基于专家经验规则库进行人工检测的方法,该方法虽然不会产生数据泄露的问题,但该方法的缺点是无法覆盖更多的检测场景,导致检测的准确率较低,且人工检测的主观性强、难以量化,不仅检测效率低,而且还需要花费大量的人力资源。


技术实现要素:

4.本技术实施例提供了一种设备异常检测方法、装置、存储介质及设备,有助于克服现有设备异常检测方法的缺点,使得检测过程能够在设备内部完成且无需人为干预,极大保障了用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性。
5.第一方面,本技术提供了一种设备异常检测方法,该方法包括:首先获取设备的历史关键性能数据;然后基于异常检测模型,从历史关键性能数据中确定出异常关键性能数据相关的设备的组件(如硬盘、控制器等)。
6.与传统技术相比,由于本技术实施例是利用异常检测模型,完成对设备产生的历史关键性能数据进行异常检测,无需人为干预,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性。
7.一种可能的实现方式中,该方法还包括:获取设备产生的样本关键性能数据;若样本关键性能数据的变化结果不在预设的变化范围内,则利用样本关键性能数据,训练初始异常检测模型,得到异常检测模型。这样,能够在保证异常检测模型检测准确度的前提下,减少模型的训练次数,降低了设备的性能消耗。
8.一种可能的实现方式中,若样本关键性能数据的变化结果不在预设的变化范围内,则利用样本关键性能数据,训练初始异常检测模型,得到异常检测模型,包括:若样本关键性能数据的变化结果不在预设的变化范围内,则从样本关键性能数据中筛选出满足预设条件的子样本关键性能数据;利用子样本关键性能数据,训练初始异常检测模型,得到异常检测模型。这样,能够在保证异常检测模型检测准确度的前提下,减少训练模型所需的训练数据量,降低了设备的性能消耗,也保障了设备的正常业务不受影响。
9.一种可能的实现方式中,异常检测模型包括异常数据检测模型和根因定位模型,则基于异常检测模型,从历史关键性能数据中确定出异常关键性能数据相关的设备的组件,包括:利用异常数据检测模型,对历史关键性能数据进行检测,确定设备中存在异常的组件;对存在异常的组件对应的关键性能数据进行检测,确定存在异常的组件对应的异常关键性能数据;利用根因定位模型,对存在异常的组件对应的异常关键性能数据进行定位,得到定位结果,其中,定位结果包含存在异常的组件对应的预设个数的异常原因。这样,不仅能够在设备内部完成对其产生的历史关键性能数据进行精准的异常检测,还能准确确定出与异常关键性能数据相关的设备的组件,实现精准定位。
10.一种可能的实现方式中,该方法还包括:对设备中存在异常的组件对应的关键性能数据进行再次检测,并根据检测结果判断定位结果中是否存在误检数据;其中,误检数据为存在异常的组件对应的异常关键性能数据中并未真正出现异常的关键性能数据。这样,通过对存在异常的组件对应的关键性能数据进行二次检测,有效防止了出现误检测的情况,进一步提高了检测结果的准确性。
11.一种可能的实现方式中,该方法还包括:当根据检测结果判断出存在误检数据时,将定位结果中的误检数据进行过滤,并将过滤后的定位结果向用户进行展示;接收用户反馈的误报数据;其中,误报数据为用户从过滤后的定位结果中确定出的非异常结果,这样,通过这种交互方式,利用用户的人工反馈,有效防止了出现误检测的情况,在提高检测结果的准确性的同时也提高了用户体验。
12.一种可能的实现方式中,该方法还包括:利用误检数据和误报数据,对异常检测模型进行更新,得到更新后的异常检测模型。这样,通过历史误检数据和误报数据对设备中的ai异常检测模型进行更新,可以使得用户能够充分感知ai特性的存在,提升用户体验。同时,也提高了内置于设备的ai模型的健壮性,从而能够实现更准确的异常检测与根因定位。
13.第二方面,本技术还提供了一种设备异常检测装置,该装置包括:第一获取单元,用于获取设备的历史关键性能数据;确定单元,用于基于异常检测模型,从历史关键性能数据中确定出异常关键性能数据相关的设备的组件。
14.一种可能的实现方式中,该装置还包括:第二获取单元,用于获取设备产生的样本关键性能数据;训练单元,用于若样本关键性能数据的变化结果不在预设的变化范围内,则利用样本关键性能数据,训练初始异常检测模型,得到异常检测模型。
15.一种可能的实现方式中,训练单元包括:筛选子单元,用于若样本关键性能数据的变化结果不在预设的变化范围内,则从样本关键性能数据中筛选出满足预设条件的子样本关键性能数据;训练子单元,用于利用子样本关键性能数据,训练初始异常检测模型,得到异常检测模型。
16.一种可能的实现方式中,异常检测模型包括异常数据检测模型和根因定位模型,
确定单元包括:第一确定子单元,用于利用异常数据检测模型,对历史关键性能数据进行检测,确定设备中存在异常的组件;第二确定子单元,用于对存在异常的组件对应的关键性能数据进行检测,确定存在异常的组件对应的异常关键性能数据;定位子单元,用于利用根因定位模型,对存在异常的组件对应的异常关键性能数据进行定位,得到定位结果,其中,定位结果包含存在异常的组件对应的预设个数的异常原因。
17.一种可能的实现方式中,该装置还包括:判断单元,用于对设备中存在异常的组件对应的关键性能数据进行再次检测,并根据检测结果判断定位结果中是否存在误检数据;其中,误检数据为存在异常的组件对应的异常关键性能数据中并未真正出现异常的关键性能数据。
18.一种可能的实现方式中,该装置还包括:展示单元,用于当根据检测结果判断出存在误检数据时,将定位结果中的误检数据进行过滤,并将过滤后的定位结果向用户进行展示;接收单元,用于接收用户反馈的误报数据;其中,误报数据为用户从过滤后的定位结果中确定出的非异常结果。
19.一种可能的实现方式中,该装置还包括:更新单元,用于利用误检数据和误报数据,对异常检测模型进行更新,得到更新后的异常检测模型。
20.第三方面,本技术还提供了一种设备异常检测设备,该设备包括:存储器、处理器;
21.存储器,用于存储指令;处理器,用于执行存储器中的指令,执行上述第一方面及其任意一种可能的实现方式中的方法。
22.第四方面,本技术还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述第一方面及其任意一种可能的实现方式中的方法。
23.从以上技术方案可以看出,本技术实施例具有以下优点:
24.本技术实施例在进行设备异常检测时,首先获取设备的历史关键性能数据,然后,基于异常检测模型,从获取到的历史关键性能数据中确定出异常关键性能数据相关的设备的组件(如硬盘、控制器等)。可见,由于本技术实施例是利用异常检测模型,完成对设备产生的历史关键性能数据进行异常检测,无需人为干预,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性。
附图说明
25.图1为本技术实施例提供的人工智能主体框架的一种结构示意图;
26.图2为本技术实施例的应用场景示意图;
27.图3为本技术实施例提供的一种存储设备异常检测方法的流程图;
28.图4为本技术实施例的提供的存储设备异常检测与根因定位的示意图;
29.图5为本技术实施例的提供的通过前端显示设备向用户展示的异常检测结果示意图之一;
30.图6为本技术实施例的提供的通过前端显示设备向用户展示的异常检测结果示意图之二;
31.图7为本技术实施例的提供的对异常检测模型进行更新的示意图;
32.图8为本技术实施例提供的一种存储设备异常检测装置的结构框图;
33.图9为本技术实施例提供的一种存储设备异常检测设备的结构示意图。
具体实施方式
34.本技术实施例提供了一种存储设备异常检测方法、装置、存储介质及设备,使得检测过程能够在存储设备内部完成且无需人为干预,极大保障了用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性。
35.下面结合附图,对本技术的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
36.首先对人工智能系统总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“it价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“it价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
37.(1)基础设施
38.基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片(cpu、npu、gpu、asic、fpga等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
39.(2)数据
40.基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
41.(3)数据处理
42.数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
43.其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
44.推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
45.决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
46.(4)通用能力
47.对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
48.本发明实施例可以应用于信息技术领域中,下面将以对存储设备进行异常检测为例进行说明,本发明实施例还可以应用于其他设备,例如服务器、网络等设备,本发明实施例对此不作限定。
49.应用于存储设备中的异常检测过程如下:
50.参见图2,图2为本技术实施例的应用场景示意图,如图2所示,存储设备201中具备性能管理组件(即数据源)、多个存储组件以及实现异常检测的ai异常检测模型。其中,性能管理组件用于获取存储设备201运行时的历史关键性能数据(如可以是存储设备201的输入/输出响应时间、每秒进行读写操作的总次数等);存储组件指的是在存储设备201运行时,产生关键性能数据的组成器件,如存储设备201中的硬盘、控制器、端口等组成器件。进一步的,在获取到存储设备201的历史关键性能数据后,可以通过异常检测模型,对这些历史关键性能数据进行处理,以根据处理结果,从历史关键性能数据中确定出异常关键性能数据相关的存储设备201中包括的存储组件。其中,异常检测模型可以在存储设备201中预先存储;异常检测模型可以是ai异常检测模型。进一步的,存储设备201还可以将异常检测结果发送至前端显示设备202,用以向用户进行展示,便于用户实时获取存储设备201的异常检测信息。这样,利用存储设备201中异常检测模型,完成对存储设备产生的历史关键性能数据进行异常检测,无需人为干预,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了存储设备201异常检测的实时性和准确性。在存储设备预先存储异常检测模型,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据。
51.其中,作为一种示例,存储设备201指的是用于储存信息的设备,通常是将信息数字化后再以利用电、磁或光学等方式的媒体加以存储,可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)等,前端显示设备202可以是手机、平板、笔记本电脑、智能穿戴设备等显示设备,用于显示存储设备201的异常检测结果。应当理解,本技术实施例还可以应用于其他需要进行存储设备异常检测的场景中,此处不再对其他应用场景进行一一列举。
52.另外,作为一种示例,存储设备201中的ai异常检测模型可预先利用聚类算法和集成树算法训练得到,并且,由于本技术实施例是将该ai异常检测模型预先存储在存储设备201中,而存储设备201通常会有一定的资源限制,因此,为了降低存储设备201的性能消耗,保障设备的正常业务不受影响,本技术实施例还对该ai异常检测模型的训练过程进行了优化,具体实现过程将在后续实施例中进行详细介绍。
53.基于以上应用场景,本技术实施例提供了一种存储设备异常检测方法,该方法可应用于存储设备201。如图3所示,该方法包括:
54.s301:获取存储设备的历史关键性能数据。
55.在本实施例中,为了实现对上述存储设备存在的异常进行准确检测,首先需要利用存储设备中的性能管理组件,获取存储设备运行时产生的历史关键性能数据,用以通过后续步骤s302对其进行异常检测。需要说明的是,本技术实施例对存储设备的历史关键性能数据的具体获取方式不做限定,可根据实际情况进行选择。比如,可以通过脚本调用或rest方式进行获取等。
56.其中,存储设备的历史关键性能数据指的是对存储设备运行时的输入/输出、流量或其他使用情况的周期性度量。例如,可以是存储设备的平均输入/输出(input/output,io)响应时间、硬盘每秒读写次数等。
57.另外,在计算机存储中,可以为每个存储设备包含的逻辑单元标记编号,作为该存储单元的唯一标识符,此处将其定义为逻辑单元号(logical unit number,lun),比如,一
个逻辑单元号可以涉及一个完整的磁盘阵列(redundant arrays of independent disks,raid)的设定、或者一个简单的硬盘或分区或是多外磁盘或分区等等,且每个lun标记的逻辑单元还包含有多个存储组件,通过这些存储组件的组合运行实现存储功能并产生相应的关键性能数据。
58.进一步的,为提高异常检测的准确性,在获取到存储设备的历史关键性能数据后,进一步可以对其进行结构化、数据清洗、特征工程等处理操作,以去除其中的异常数据,然后,通过后续步骤s302对处理后的历史关键性能数据进行异常检测,以得到检测结果。
59.其中,作为一种示例,处理后的历史关键性能数据(kpi)的形态如下表1和表2所示:
60.timestampkpi_1kpi_2kpi_3kpi_4kpi_5

2020/2/7 9:451116075776142124416 2020/2/7 9:502412410598484186880 2020/2/7 9:55551068192073119808 61.表1
62.timestampobj_01_kpi_1obj_01_kpi_2obj_02_kpi_1obj_03_kpi_1

2020/2/7 9:451116075776142 2020/2/7 9:502412410598484 2020/2/7 9:55551068192073 63.表2
64.s302:基于异常检测模型,从历史关键性能数据中确定出异常关键性能数据相关的存储设备的存储组件。
65.在本实施例中,通过步骤s301获取到存储设备的历史关键性能数据后,进一步可以通过存储设备中预先存储的异常检测模型,对其进行检测,以从中确定出异常关键性能数据,以及与产生该异常关键性能数据相关的存储设备的存储组件,该存储组件指的是存储设备中包含的多个存储组件中的至少一个组件。
66.其中,一种可选的实现方式是,异常检测模型可预先利用聚类算法和集成树算法训练得到,并且,为了降低存储设备的性能消耗,保障设备的正常业务不受影响,本技术实施例还对异常检测模型的构建和训练过程进行了优化,具体实现过程如下步骤a1-a2:
67.步骤a1:获取存储设备产生的样本关键性能数据。
68.在本实施例中,为了构建异常检测模型,需要预先进行大量的准备工作,并且,为了提高异常检测模型检测结果的准确性,本技术实施例采用的训练数据均是由存储设备中的性能管理组件获取的存储设备在运行时产生的历史关键性能数据,如存储设备在过去n天运行时产生的各种关键性能数据,并在对这些数据进行结构化、数据清洗、特征工程等处理操作后,用以通过后续步骤b进行模型训练。
69.步骤a2:若样本关键性能数据的变化结果不在预设的变化范围内,则利用样本关键性能数据,训练初始异常检测模型,得到异常检测模型。
70.在本实施例中,通过步骤a获取到存储设备产生的样本关键性能数据后,为了降低存储设备的性能消耗,保障设备运行的稳定性以及设备的正常业务不受影响,本技术在设备运行时,设定了训练周期(如每隔n天为一个训练周期),用以减少模型的训练次数,即,只
有达到一个训练周期的时间节点,才会触发模型训练,并且在达到该时间节点时,还需要判断获取到的样本关键性能数据的变化结果是否在预设的变化范围内,若是,则利用样本关键性能数据,训练初始异常检测模型,得到异常检测模型;若否,则在该时间节点不进行模型训练,仍然沿用上一周期训练得到的异常检测模型。
71.具体来讲,在本实施例的一种可能的实现方式中,本步骤a2的具体实现过程可以包括下述步骤a21-a22:
72.步骤a21:若样本关键性能数据的变化结果不在预设的变化范围内,则从样本关键性能数据中筛选出满足预设条件的子样本关键性能数据。
73.在本实现方式中,当达到一个训练周期的时间节点时,首先需要对获取到的样本关键性能数据的变化结果进行校验,如可以利用kolmogorov-smirnov分布的假设检验,对其进行校验,若检验结果表明样本关键性能数据的变化结果不在预设的变化范围内,即,变化较大,则触发模型的训练,从样本关键性能数据中筛选出满足预设条件的子样本关键性能数据,用以执行后续步骤a22。
74.具体来讲,可以通过特征筛选方法,对样本关键性能数据进行特征筛选,如可以采用梯度下降树(gradient boost decision tree,gbdt)对样本关键性能数据进行特征筛选,并将其中每个关键性能数据的重要性进行排序,以从中筛选出重要性高于预设阈值的关键性能数据,作为满足预设条件的子样本关键性能数据。例如,假设样本关键性能数据中存储设备的平均io响应时间的重要性达到52%、每秒进行读写操作的总次数(input/output operations per second,iops,iops)的重要性达到35.7%、块带宽的重要性达到9.5%、其他关键性能数据的重要性为4%,且预设条件为选择样本关键性能数据中重要性排行前3的关键性能数据作为子样本关键性能数据,则可以从样本关键性能数据中筛选出存储设备的平均io响应时间、总iops和块带宽作为子样本关键性能数据,用以执行后续步骤a22。
75.步骤a22:利用子样本关键性能数据,训练初始异常检测模型,得到异常检测模型。
76.在本实现方式中,通过步骤a21选取出子样本关键性能数据后,进一步可以利用该子样本关键性能数据,训练初始异常检测模型,通过多轮模型训练,直到满足训练结束条件为止,此时,即训练得到异常检测模型。具体来讲,首先可以采用无监督的聚类方法,对子样本关键性能数据(如存储设备的平均io响应时间、总iops和块带宽)进行异常检测,以确定出存储设备中存在异常的逻辑单元(如lun-01等);然后,再对该存在异常的逻辑单元(如lun-01)对应的所有关键性能数据进行异常检测,如可以采用gbdt对其进行特征筛选,并将其中每个关键性能数据的重要性进行排序,以确定出最有可能存在异常的关键性能数据(如lun-01的总iops异常);接着,可以将集成树模型作为初始异常检测模型,对该存在异常的逻辑单元(如lun-01)进行检测,以输出与产生上述异常的关键性能数据(如lun-01的总iops异常)的相关的存储组件及其根因,如lun-01中硬盘01的总iops、硬盘01的读iops等等;进而可以利用检测结果与实际检测结果进行对比,并根据对比结果对模型参数进行调整。依次类推,进行多轮模型训练,每次训练后还需要判断是否满足预设的停止条件,比如,需要判断检测准确率是否达到预设阈值等,当仍不满足预设停止条件时,则需要根据当前一轮模型训练的结果,重新获取样本关键性能数据,对模型进行再次的重新训练。直至达到预设停止条件,并将达到预设停止条件时的模型作为异常检测模型。
77.在此基础上,通过上述步骤a21-a22训练得到异常检测模型后,可以将其预先存储在存储设备中,如,可以以.m方式持久化至阵列。用以在存储设备内部完成对存储设备产生的历史关键性能数据进行异常检测,无需人为干预,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性
78.在本实施例的一种可能的实现方式中,异常检测模型可以包括异常数据检测模型和根因定位模型,则上述本步骤s302的具体实现过程可以包括下述步骤b1-b3:
79.步骤b1:利用异常数据检测模型,对历史关键性能数据进行检测,确定存储设备中存在异常的存储组件。
80.在本实现方式中,通过步骤s301获取到存储设备的历史关键性能数据后,进一步可以通过存储设备中预先存储的异常数据检测模型,对其进行检测,以确定出存储设备中存在异常的逻辑单元中的目标存储组件。
81.其中,参考上述模型训练过程的详细介绍,异常数据检测模型的训练过程具体为:预先设定每次训练所需历史关键性能数据为c条(如100条历史关键性能数据),训练周期为t天(如每隔5天为一个训练周期),则通过存储设备内置性能管理模块,按照前述规格参数,每隔t天,即可利用c条历史关键性能数据进行模型训练。具体训练过程在此不再赘述。例如,可以每5天,利用100条历史关键性能数据进行异常数据检测模型的重训练。
82.异常数据检测模型的检测过程具体为:预先设定单次检测所需历史关键性能数据为m条(如10条关键性能数据),且触发检测的周期为s天。则通过存储设备内置性能管理模块,按照前述规格参数,每隔s天,即可对m条历史关键性能数据进行异常检测。
83.举例说明:如图4所示,在获取到存储设备的历史关键性能数据后,首先,可以通过存储设备中预先存储的异常数据检测模型,对其开始检测,以确定出存储设备中存在异常关键性能数据的存储组件所在的逻辑单元lun02,且该异常关键性能数据为平均io反应时间异常。
84.步骤b2:对存在异常的存储组件对应的关键性能数据进行检测,确定存在异常的存储组件对应的异常关键性能数据。
85.在本实现方式中,通过步骤b1确定存储设备中存在异常的目标存储组件所在的逻辑单元后,进一步可以对该逻辑单元对应的所有关键性能数据进行检测,以确定出该逻辑单元中存在异常的存储组件所对应的异常关键性能数据。
86.举例说明:如图4所示,基于上述举例,在确定出存储设备中存在异常关键性能数据的存储组件所在的逻辑单元lun02,且该异常关键性能数据为平均io反应时间异常后,进一步可以对lun02的所有关键性能数据进行检测,以确定出lun02中存在的异常的存储组件为硬盘(disk)、控制器(contgroller)等多个存储组件中的至少一个,以及这些存在的异常的存储组件对应的异常关键性能数据。
87.步骤b3:利用根因定位模型,对存在异常的存储组件对应的异常存在的异常进行定位,得到定位结果,其中,定位结果包含存在异常的存储组件对应的预设个数的异常原因。
88.在本实现方式中,通过步骤b2确定出逻辑单元中存在异常的存储组件对应的异常关键性能数据后,进一步可以通过存储设备中预先存储的根因定位模型,对该逻辑单元中存在异常的存储组件所对应的异常关键性能数据进行定位,以确定出现该存储组件中导致
出现异常关键性能数据的根因,作为定位结果,其中,该定位结果可以包括存在异常的存储组件对应的预设个数的异常原因。
89.其中,参考上述模型训练过程的详细介绍,根因定位模型的训练过程具体为:预先设定每次训练所需历史关键性能数据为d条(如100条历史关键性能数据),训练周期为x天(如每隔5天为一个训练周期),则通过存储设备内置性能管理模块,按照前述规格参数,每隔x天,即可利用d条历史关键性能数据进行模型训练。具体训练过程在此不再赘述。例如,可以每5天,利用100条历史关键性能数据进行根因定位模型的重训练。
90.根因定位模型的定位过程具体为:预先设定异常检测模型检测出当前c条历史关键性能数据存在异常,且存储组件的集合为{a1,a2,a3...},则立即触发根因定位模型,以便根因定位模型从设备内置性能管理模块中获取存储组件的集合{a1,a2,a3...}所对应的关键性能历史数据,进行根因定位。
91.举例说明:如图4所示,在确定出lun02中存在的异常的存储组件为硬盘(disk)、控制器(contgroller)等多个存储组件中的至少一个,以及这些存储组件对应的异常关键性能数据后,可利用根因定位模型,对存在异常的存储组件对应的异常关键性能数据进行定位,得到定位结果并将定位结果中前3个异常原因发送至前端显示单元进行显示,如图4所示,这意味着造成存储设备平均io反应时间异常的根因是图4下方图片中显示的“1”、“2”、“3”,例如,“1”可以为“disk01 avg bandwidth write”,即,硬盘01的平均带宽写异常。
92.此外,在本实施例的一种可能的实现方式中,在利用异常数据检测模型对历史关键性能数据进行检测,并确定出存储设备中存在异常的逻辑单元中的存储组件对应的异常关键性能数据后,为了防止出现误检测,还可以对存在异常的存储组件所指向的历史关键性能数据进行再次检测,比如,可以利用异常数据检测模型对存在异常的存储组件所指向的历史关键性能数据进行再次检测,并根据检测结果判断定位结果中是否存在误检数据;其中,误检数据为存在异常的存储组件对应的异常关键性能数据中并未真正出现异常的关键性能数据。
93.当根据检测结果判断出定位结果中确实存在误检数据,则进一步可以将定位结果中的误检数据进行过滤,并将过滤后的定位结果通过前端显示设备的展示页面向用户进行展示,如图5所示,通过该页面可以按照概率降序向用户展示最有可能的3个异常根因及其发生位置的直观标识(即在存储设备中的位置)。
94.在此基础上,进一步可以接收用户反馈的误报数据;其中,误报数据为用户从过滤后的定位结果中确定出的非异常结果。
95.具体来讲,如图5所示,该展示页面的右上角包含有“反馈与激励”按钮,该按钮将呈现历史异常检测与根因定位结果,并向用户提供误报反馈通道。用户可通过点击“反馈与激励”按钮,查看历史异常信息。同时在弹出的显示历史异常信息的页面还可以通过文字或其他形式提示用户,可以将其发现的历史异常的根因误报数据反馈给存储设备,用以直接提升系统所拥有设备的ai能力,如图6所示,系统可在接收到用户单次反馈的误报数据后,以可视化球状注水方式向用户呈现当前设备ai智能度提升值,让用户直观感知存储设备ai能力的存在,并能够通过这种交互方式使用户参与到存储设备ai能力的提升中,提高用户体验。
96.其中,误报数据指的是用户从过滤后的定位结果中确定出的非异常结果,具体内
容示例如下表3所示:
97.时间戳逻辑单元的异常kpi根因误报2020-0602lun-01avg iopsdisk01 avg bandwidth write
………………
98.表3
99.其中,该误报数据表明造成逻辑单元lun-01的平均iops异常的根因并不是硬盘01平均带宽写的异常(即表3中的“disk01 avg bandwidth write”)。
100.需要说明的是,在一些实施方式中,在通过上述步骤确定出误检数据和误报数据后,可将二者进行存储,比如,可以将二者存储到误报数据池中,用以对异常检测模型进行更新,并得到更新后的、检测准确性更高的异常检测模型。并且,当异常检测模型包括异常数据检测模型和根因定位模型后,可以利用误检数据和误报数据对其中的任意一个模型进行更新。
101.接下来,本技术实施例将对利用误检数据和误报数据对根因定位模型的过程进行介绍:
102.具体来讲,当达到根因定位模型的训练周期x天对应的时间节点时,触发了根因定位模型的重训练,此时,即可读取误报数据池中存储的误检数据和误报数据,用以确定各种类型关键性能数据在模型训练过程中所占据的权重,具体计算公式如下:
[0103][0104]
其中,ni表示误报数据池包含的第i类误报数据的条数,n表示误报数据池包含的所有误报数据的条数。
[0105]
进一步的,利用上述权重可以更关注到误报率较高的关键性能数据,用以对根因定位模型进行针对性更新,具体更新过程与相关技术一致,在此不再赘述。
[0106]
这样,通过历史误检数据和误报数据对存储设备中的ai异常检测模型进行更新,可以使得用户能够充分感知ai特性的存在,提升用户体验。同时,也提高了内置于存储设备的ai模型的健壮性,从而能够实现更准确的异常检测与根因定位。
[0107]
综上,本实施例提供的一种存储设备异常检测方法,在进行存储设备异常检测时,首先获取存储设备的历史关键性能数据,然后,基于存储设备中预先存储的异常检测模型,从获取到的历史关键性能数据中确定出异常关键性能数据相关的存储设备的存储组件。可见,由于本技术实施例是利用存储设备中预先存储的异常检测模型,在存储设备内部完成对其产生的历史关键性能数据进行异常检测,无需人为干预,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性。
[0108]
为便于更好的实施本技术实施例的上述方案,下面还提供用于实施上述方案的相关装置。请参见图8所示,本技术实施例提供了一种存储设备异常检测装置800。该装置800可以包括:第一获取单元801和确定单元802。其中,第一获取单元801用于支持装置800执行图3所示实施例中的s301。确定单元802用于支持装置800执行图3所示实施例中的s302。具体的,
[0109]
第一获取单元801,用于获取存储设备的历史关键性能数据;
[0110]
确定单元802,用于基于异常检测模型,从历史关键性能数据中确定出异常关键性能数据相关的存储设备的存储组件。
[0111]
在本实施例的一种实现方式中,该装置还包括:第二获取单元,用于获取存储设备产生的样本关键性能数据;训练单元,用于若样本关键性能数据的变化结果不在预设的变化范围内,则利用样本关键性能数据,训练初始异常检测模型,得到异常检测模型。
[0112]
在本实施例的一种实现方式中,训练单元包括:筛选子单元,用于若样本关键性能数据的变化结果不在预设的变化范围内,则从样本关键性能数据中筛选出满足预设条件的子样本关键性能数据;训练子单元,用于利用子样本关键性能数据,训练初始异常检测模型,得到异常检测模型。
[0113]
在本实施例的一种实现方式中,异常检测模型包括异常数据检测模型和根因定位模型,确定单元802包括:第一确定子单元,用于利用异常数据检测模型,对历史关键性能数据进行检测,确定所述存储设备中存在异常的存储组件;第二确定子单元,用于对存在异常的存储组件对应的关键性能数据进行检测,确定存在异常的存储组件对应的异常关键性能数据;定位子单元,用于利用根因定位模型,对存在异常的存储组件对应的异常关键性能数据进行定位,得到定位结果,其中,定位结果包含存在异常的存储组件对应的预设个数的异常原因。
[0114]
在本实施例的一种实现方式中,该装置还包括:判断单元,用于对存储设备中存在异常的存储组件对应的关键性能数据进行再次检测,并根据检测结果判断定位结果中是否存在误检数据;其中,误检数据为存在异常的存储组件对应的异常关键性能数据中并未真正出现异常的关键性能数据。
[0115]
在本实施例的一种实现方式中,该装置还包括:展示单元,用于当根据检测结果判断出存在误检数据时,将定位结果中的误检数据进行过滤,并将过滤后的定位结果向用户进行展示;接收单元,用于接收用户反馈的误报数据;其中,误报数据为用户从过滤后的定位结果中确定出的非异常结果。
[0116]
在本实施例的一种实现方式中,该装置还包括:更新单元,用于利用误检数据和误报数据,对异常检测模型进行更新,得到更新后的异常检测模型。
[0117]
综上,本实施例提供的一种存储设备异常检测装置,在进行存储设备异常检测时,首先获取存储设备的历史关键性能数据,然后,基于存储设备中预先存储的异常检测模型,从获取到的历史关键性能数据中确定出异常关键性能数据相关的存储设备的存储组件。可见,由于本技术实施例是利用存储设备中预先存储的异常检测模型,在存储设备内部完成对其产生的历史关键性能数据进行异常检测,无需人为干预,从而可以保障用户数据的隐私性和安全性,且由于无需回传设备的性能数据,也保证了设备异常检测的实时性和准确性。
[0118]
参见图9,本技术实施例提供了一种存储设备异常检测设备900,该设备包括存储器901、处理器902和通信接口903,
[0119]
存储器901,用于存储指令;
[0120]
处理器902,用于执行存储器901中的指令,执行上述应用于图3所示实施例中的存储设备异常检测方法;
[0121]
通信接口903,用于进行通信。
[0122]
存储器901、处理器902和通信接口903通过总线904相互连接;总线904可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0123]
在具体实施例中,处理器902用于在进行存储设备异常检测时,首先存储设备的历史关键性能数据,然后,基于异常检测模型,从获取到的历史关键性能数据中确定出异常关键性能数据相关的存储设备的存储组件(如硬盘、控制器等)。该处理器902的详细处理过程请参考上述图3所示实施例中s301和s302的详细描述,这里不再赘述。
[0124]
上述存储器901可以是随机存取存储器(random-access memory,ram)、闪存(flash)、只读存储器(read only memory,rom)、可擦写可编程只读存储器(erasable programmable read only memory,eprom)、电可擦除可编程只读存储器(electrically erasable programmable read only memory,eeprom)、寄存器(register)、硬盘、移动硬盘、cd-rom或者本领域技术人员知晓的任何其他形式的存储介质。
[0125]
上述处理器902例如可以是中央处理器(central processing unit,cpu)、通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application-specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术实施例公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等等。
[0126]
上述通信接口903例如可以是接口卡等,可以为以太(ethernet)接口或异步传输模式(asynchronous transfer mode,atm)接口。
[0127]
本技术实施例还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述存储设备异常检测方法。
[0128]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本技术的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
[0129]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0130]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦
合或通信连接,可以是电性,机械或其它的形式。
[0131]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0132]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0133]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0134]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献