一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种运维故障处置方法、装置及存储介质、处理器与流程

2022-03-09 08:01:47 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,具体涉及一种运维故障处置方法、装置及存储介质、处理器。


背景技术:

2.当前运维故障处置方法要求运维人员对现有运维工具的熟练使用,能够通过架构视图准确找到自己需要的系统间、服务间、交易间等关系,运维人员需要在应用监控平台对物理子系统、部署单元、ap、数据库、中间件等海量数据中进行指标运行情况分析,同时了解不同的报警规则、阈值设置情况,对运维人员的素质有很高的要求,增加了运维人员的工作压力及冗余工作。


技术实现要素:

3.本技术实施例的目的是提供一种运维故障处置方法、装置及存储介质、处理器。所述运维故障处理方法解决了当前运维人员在处理生产故障过程中依赖个人工作经验、故障排查复杂和定位困难的技术问题,大大减轻运维人员工作量,降低了运维门槛,提高了运维效率。
4.为了实现上述目的,本技术提供一种运维故障处置方法,其特征在于,包括:根据收集的故障信息和故障解决视图的故障描述模块,获取所述故障信息对应的故障类别;根据所述故障类别和所述故障解决视图的故障排查模块,获取所述故障的故障排查路径;根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例;根据所述配置项实例及运维指标数据定位故障实例;以及根据所述故障解决视图的故障处置模块处置所述故障实例。
5.可选的,所述方法还包括:预先构建所述运维资产关系图谱和故障解决视图,其中所述运维资产关系图谱为全面描述运维资产关系的知识图谱,其中所述故障解决视图为根据至少一种固定故障构建的知识图谱,其中所述故障解决视图包括所述故障描述模块、所述故障排查模块、所述故障处置模块。
6.可选的,所述故障描述模块是由多个故障的具体描述来定位故障类别,所述故障描述模块与故障排查模块的实体部分相关联。
7.可选的,所述故障信息至少包括系统指标阈值、异常日志。
8.可选的,该方法还包括:根据所述故障的发生率确定所述故障的处置方法;如果所述故障的发生率大于故障发生阈值,则结合所述运故障解决视图、所述维资产关系图谱及所述运维指标数据,对所述故障进行自动处置;如果所述故障的发生率不大于所述故障发生阈值,则确定对所述故障进行人工处置。
9.可选的,所述故障排查路径的实体与所述运维资产关系图谱具有映射关系,根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例,包括:通过故障排查路径的实体查询所述运维资产关系图谱得到至少一个配置项实例。
10.可选的,所述运维指标数据至少包括以下一者或多者:交易量、系统成功率、平均响应时间、平均处理时间、业务成功率、cpu使用率、cpu负载、内存使用率、swap使用率、文件系统空间使用率、磁盘io时延、数据库表空间使用率、网络链接数、ipc队列深度、文件系统inode使用率。
11.本发明还提供一种运维故障处置装置,其特征在于,包括:故障发现单元,用于根据收集的故障信息和故障解决视图的故障描述模块确定所述故障信息对应的故障类别;故障定位单元,用于根据所述故障类别和所述故障解决视图的故障排查模块确定所述故障的故障排查路径,以及根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例;故障处置单元,用于根据所述故障解决视图的故障处置模块处置所述故障实例。
12.可选的,所述装置还包括:构建单元,用于预先构建所述运维资产关系图谱和故障解决视图,其中所述运维资产关系图谱为全面描述运维资产关系的知识图谱,其中所述故障解决视图为根据至少一种固定故障构建的知识图谱,其中所述故障解决视图包括所述故障描述模块、所述故障排查模块、所述故障处置模块。
13.可选的,所述故障描述模块是由多个故障的具体描述来定位故障类别,所述故障描述模块与故障排查模块的实体部分相关联。
14.可选的,所述故障信息至少包括系统指标阈值、异常日志。
15.可选的,所述故障处置单元还用于:根据所述故障的发生率确定所述故障的处置方法;如果所述故障的发生率大于故障发生阈值,则结合所述运故障解决视图、所述维资产关系图谱及所述运维指标数据,对所述故障进行自动处置;如果所述故障的发生率不大于所述故障发生阈值,则确定对所述故障进行人工处置。
16.可选的,所述故障排查路径的实体与所述运维资产关系图谱具有映射关系,根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例,包括:通过故障排查路径的实体查询所述运维资产关系图谱得到至少一个配置项实例。
17.可选的,所述运维指标数据至少包括以下一者或多者:交易量、系统成功率、平均响应时间、平均处理时间、业务成功率、cpu使用率、cpu负载、内存使用率、swap使用率、文件系统空间使用率、磁盘io时延、数据库表空间使用率、网络链接数、ipc队列深度、文件系统inode使用率。
18.本发明还提供一种机器可读存储介质,所述机器可读存储介质上存储有指令,该指令用于使得机器执行:根据上述所述的运维故障处置方法。
19.本发明还提供一种处理器,其特征在于,用于运行程序,其中,所述程序被运行时用于执行:根据上述所述的运维故障处置方法。
20.本发明还提供一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现:根据上述所述的运维故障处置方法。
21.本发明提供一种运维故障处置方法包括:根据收集的故障信息和故障解决视图的故障描述模块,获取所述故障信息对应的故障类别;根据所述故障类别和所述故障解决视图的故障排查模块,获取所述故障的故障排查路径;根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例;根据所述配置项实例及运维指标数据定位故障实例;以及根据所述故障解决视图的故障处置模块处置所述故障实例。所述运维故障处置方法解决了当前运维人员在处理生产故障过程中依赖个人工作经验、故障排查复杂和定位困难的技
术问题,大大减轻运维人员工作量,降低了运维门槛,提高了运维效率。
22.本技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
23.附图是用来提供对本技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本技术实施例,但并不构成对本技术实施例的限制。在附图中:
24.图1示意性示出了根据本技术实施例的运维故障处置方法的示意图;
25.图2示意性示出了根据本技术实施例的故障解决视图的示意图;
26.图3示意性示出了根据本技术实施例的运维故障处置方法的流程图;
27.图4示意性示出了根据本技术实施例的运维故障处置装置的结构框图;
28.图5为本发明实施例提供的计算机设备的内部结构图。
具体实施方式
29.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本技术实施例,并不用于限制本技术实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
30.需要说明,若本技术实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
31.另外,若本技术实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。
32.图1示意性示出了根据本技术实施例的运维故障处置方法的示意图。如图1所示,步骤s101为根据收集的故障信息和故障解决视图的故障描述模块,获取所述故障信息对应的故障类别。
33.在收集的故障信息和故障解决视图的故障描述模块前,需预先构建运维资产关系图谱和故障解决视图,其中所述运维资产关系图谱为全面描述运维资产关系的知识图谱,其中所述故障解决视图为根据至少一种固定故障构建的知识图谱。然后根据收集的故障信息和故障解决视图的故障描述模块,获取所述故障信息对应的故障类别。所述收集的故障信息至少包括系统成功率指标阈值、业务成功率指标阈值、系统内存使用率指标阈值、文件使用率指标阈值、异常日志、响应时间阈值、full_gc次数及吞吐量等信息。所述故障类别包括业务指标异常、内存使用率异常、san存储异常、数据库异常、日志异常及jdbc连接异常等。
34.所述知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。所述运维一般是指对大型组织已经建立好的网络软硬件的维护,其中传统的运维是指信息技术运维(it运维)。随着信息化进程的推进,运维管理会覆盖对整个组织运行,进行支持的管理信息系统涵盖的所有内容,除了传统的it运维,还拓展了业务运维和日常管理运维。业务运维面向整个组织提供各业务系统的问题受理、响应、处理和转交等方面的服务;日常管理运维面向整个组织提供针对各业务系统的运行状态和需求变化和不同的记录、跟踪、保存、分析方面的管理。
35.如图2所示,所述故障解决视图包括所述故障描述模块、所述故障排查模块、所述故障处置模块。所述故障描述模块包括全部故障的实体、实体关系、属性、属性关系,例如故障的实体包括故障现象,故障的实体关系(直接关系、间接关系等),故障的属性包括故障影响程度,故障的属性关系包括与其他故障的属性的关系(直接关系、间接关系等)。所述故障排查模块的实体与运维资产关系图谱具有对应关系,通过故障排查部分的实体能够搜索到运维资产关系图谱的多个配置项实例,实体的属性是故障排查的判断条件。所述故障处置模块为修复故障的流程及其关联处置脚本,通过预定义的恢复流程快速处置问题。
36.按照一种优选的实施方式,所述运维资产关系图谱可随着运维资产关系的更新而同步更新,以及所述故障解决视图随着故障解决方案的更新而同步更新。所述故障描述模块是由多个故障的具体描述来定位故障类别,所述故障描述模块与故障排查模块的实体部分相关联。
37.步骤s102为根据所述故障类别和所述故障解决视图的故障排查模块,获取所述故障的故障排查路径。所述故障排查路径的节点为配置项,所述故障排查路径的节点属性为故障排查与定位的判断条件。例如节点a为某系统的san存储n,以san存储内存使用率作为该节点属性来判断san存储是否存在系统文件使用率异常。
38.步骤s103为根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例;配置项为配置管理设计的硬件、软件或二者的集合,在配置管理过程中作为一个单个实体来对待。
39.步骤s104为根据所述配置项实例及运维指标数据定位故障实例。所述运维指标数据至少包括以下一者或多者:交易量、系统成功率、平均响应时间、平均处理时间、业务成功率、cpu使用率、cpu负载、内存使用率、swap使用率、文件系统空间使用率、磁盘io时延、数据库表空间使用率、网络链接数、ipc队列深度、文件系统inode使用率。查询运维资产关系图谱,获得故障排查路径中配置项对应的所有配置项实例,利用配置项的故障判断条件结合配置项实例参数、运维指标数据定位故障实例。例如物理子系统的业务成功率出现异常,可以利用运维资产关系查询该物理子系统的所有部署单元,分别比对各部署单元的业务成功率与该部署单元业务成功率故障判断条件,定位出现故障的部署单元;然后利用部署单元与应用服务器的关系的单该部署单元下的所有应用服务器,比对各应用服务器与应用服务器业务成功率故障判断条件,最终定位到出现故障的机器。
40.步骤s105为根据所述故障解决视图的故障处置模块处置所述故障实例。所述故障处置模块修复故障的流程及其关联处置脚本,通过预定义的恢复流程快速处置问题。
41.本技术提出了一种运维故障处置方法具体的实施例,如图3所示,包括:
42.(1)故障触发后,系统自动或工作人员手动收集所有故障下的描述信息,包括系统指标阈值、异常日志等信息;
43.(2)判断是否自动处置故障,包括:根据故障发生概率确定是否自动处理该故障,如果所述故障的发生率大于故障发生阈值,则结合所述运故障解决视图、所述维资产关系图谱及所述运维指标数据,对所述故障进行自动处置;如果所述故障的发生率不大于所述故障发生阈值,则确定对所述故障进行人工处置。故障描述与系统运行状态一致性判断通常包括:数值型指标阈值判断通过比较指标与故障发生阈值判断故障的发生;描述性信息通过词向量技术进行高维向量表示,计算收集信息与故障描述信息间的相似度从而判定是否符合该条件,本发明使用弱监督算法模型roformer-sim进行文本相似度计算,或者,根据roformer-sim计算文本相似度,可以将本部分拆解为向量表示和距离计算两部分:使用word2vec算法生成词向量特征,使用向量间的余弦距离作为距离度量。所述a为输入文本a通过词嵌入向量得到的表征向量;所述b为输入文本b通过词嵌入向量得到的表征向量。优选的,计算故障发生概率的方法为:ni为故障i的全部故障描述数量,ni为故障i的故障描述与系统运行状态符合的数量,threholdi为故障发生概率。将故障发生概率大于设定故障发生阈值的故障作为可能故障;若全部的故障发生概率不大于故障发生阈值,转为人工处置。
44.(3)判定故障类别,在故障解决视图中查询可能故障的排查路径,对应为故障解决视图的故障排查部分。故障排查路径的节点为配置项,节点属性为故障排查与定位的判断条件。
45.(4)查询运维资产关系图谱,获得故障排查路径中配置项对应的所有配置项实例,利用配置项的故障判断条件结合配置项实例参数、运维指标数据定位故障实例。查询故障解决视图中已发生故障的解决方案,针对所述故障实例,依照故障解决方案进行自动化处置。
46.本发明利用知识图谱将数据和经验进行融合,使用知识图谱的逻辑认知能力驱动故障的自动化处置流程,解决了当前运维人员在处理生产故障过程中依赖个人工作经验、故障排查复杂和定位困难的技术问题。
47.图4为本发明实施例提供的运维故障处置装置,如图4所示,所述运维故障处置的装置包括:故障发现单元401、故障定位单元402、故障处置单元403。其中,所述故障发现单元401,用于根据收集的故障信息和故障解决视图的故障描述模块确定所述故障信息对应的故障类别;所述故障定位单元402,用于根据所述故障类别和所述故障解决视图的故障排查模块确定所述故障的故障排查路径,以及根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例;所述故障处置单元403,用于根据所述故障解决视图的故障处置模块处置所述故障实例。
48.所述运维故障处置装置还包括:构建单元,用于预先构建所述运维资产关系图谱和故障解决视图,其中所述运维资产关系图谱为全面描述运维资产关系的知识图谱,其中所述故障解决视图为根据至少一种固定故障构建的知识图谱,其中所述故障解决视图包括
所述故障描述模块、所述故障排查模块、所述故障处置模块。所述故障描述模块是由多个故障的具体描述来定位故障类别,所述故障描述模块与故障排查模块的实体部分相关联。所述故障信息至少包括系统指标阈值、异常日志。
49.所述故障处置单元403还用于:根据所述故障的发生率确定所述故障的处置方法;如果所述故障的发生率大于故障发生阈值,则结合所述运故障解决视图、所述维资产关系图谱及所述运维指标数据,对所述故障进行自动处置;如果所述故障的发生率不大于故障发生阈值,则对所述故障进行人工处置。所述故障排查路径的实体与所述运维资产关系图谱具有映射关系,根据所述故障排查路径查询运维资产关系图谱获取对应的配置项实例,包括:通过故障排查路径的实体查询所述运维资产关系图谱得到至少一个配置项实例。
50.所述运维指标数据至少包括以下一者或多者:交易量、系统成功率、平均响应时间、平均处理时间、业务成功率、cpu使用率、cpu负载、内存使用率、swap使用率、文件系统空间使用率、磁盘io时延、数据库表空间使用率、网络链接数、ipc队列深度、文件系统inode使用率。本发明提出以知识图谱的形式记录故障发现、故障排查、故障定位、故障处置路径,将运维人员的故障处置经验形成可复用的知识,为处置相同故障提供全自动化流程。
51.本发明使用相同的实体定义标准将故障解决视图和运维资产关系图谱进行映射,形成一对一、一对多关系。在故障排查和故障定位的过程打通了两个知识图谱的关联,故障解决视图指导故障排查路径,结合运维资产关系图谱和运维指标数据进行故障实例的定位,最终形成多路径、多决策的排查方式。本发明将运维经验固化到知识图谱,利用知识图谱的逻辑认知能力驱动故障的自动化处置流程使用知识图谱的逻辑认知能力,驱动故障的自动化处置流程,大大减轻运维人员工作量,降低运维门槛,提高运维效率。
52.本技术实施例提供了一种机器可读存储介质,其上存储有程序,该程序被处理器执行时实现上述运维故障处置的方法。
53.本技术实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述运维故障处置的方法。
54.在一个实施例中,提供了一种计算机程序产品,该计算机程序产品可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器a01、网络接口a02、存储器(图中未示出)和数据库(图中未示出)。其中,该计算机设备的处理器a01用于提供计算和控制能力。该计算机设备的存储器包括内存储器a03和非易失性存储介质a04。该非易失性存储介质a04存储有操作系统b01、计算机程序b02和数据库(图中未示出)。该内存储器a03为非易失性存储介质a04中的操作系统b01和计算机程序b02的运行提供环境。该计算机设备的数据库用于存储批处理调度数据。该计算机设备的网络接口a02用于与外部的终端通过网络连接通信。该计算机程序b02被处理器a01执行时以实现一种运维故障处置的方法。
55.本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
56.本技术实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现根据本发明任意实施例所述的运维故障处置的方法。
57.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有根据本发明任意实施例所述的运维故障处置的方法如下方法步骤的程序。
58.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
59.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
60.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
61.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
62.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
63.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
64.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
65.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的
过程、方法、商品或者设备中还存在另外的相同要素。
66.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献