一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

告警处理方法、装置、服务器及存储介质与流程

2022-12-02 19:14:28 来源:中国专利 TAG:


1.本发明实施例涉及信息处理技术,尤其涉及一种告警处理方法、装置、服务器及存储介质。


背景技术:

2.随着业务的复杂化和云化,对运维管理的要求也越来越精细化了。在一个复杂的环境中,数据间都是紧密相连的,只要有一个指标发生变化,就很有可能导致一系列的告警连锁反应。运维团队为了尽可能全面的覆盖it系统的各个环节,不得不引入多个监控工具,不同监控工具会产生数以万计的告警,这些告警都需要去分析、优先级甄别,这样随着时间的推移,可能是数十万、百万的告警事件需要被关注,这就导致了告警风暴。
3.如何在告警风暴爆发时,如何有效的进行告警简化,提高告警提示效率,进而帮助运维人员尽快定位问题,成为亟待解决的问题。


技术实现要素:

4.本发明提供一种告警处理方法、装置、服务器及存储介质,以实现有效的进行告警简化,提高告警提示效率。
5.第一方面,本发明实施例提供了一种告警处理方法,包括:
6.在时间片内进行告警监控;
7.若触发告警,根据告警生成告警图谱;
8.在告警图谱中标记告警节点;
9.根据告警节点之间的关联关系,确定告警节点集合;
10.根据告警节点集合确定告警整合信息。
11.第二方面,本发明实施例还提供了一种告警处理装置,包括:
12.告警监控模块,用于在时间片内进行告警监控;
13.告警图谱生成模块,用于若触发告警,根据告警生成告警图谱;
14.告警节点标记模块,用于在告警图谱中标记告警节点;
15.告警整合模块,用于根据告警节点之间的关联关系,确定告警节点集合;
16.告警信息确定模块,用于根据告警节点集合确定告警整合信息。
17.第三方面,本发明实施例还提供了一种服务器,服务器包括:
18.一个或多个处理器;
19.存储装置,用于存储一个或多个程序,
20.当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如本发明实施例所示的告警处理方法。
21.第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例所示的告警处理方法。
22.本发明提供的告警处理方法,能够在时间片内进行告警监控;若触发告警,根据告
警生成告警图谱;在告警图谱中标记告警节点;根据告警节点之间的关联关系,确定告警节点集合;根据告警节点集合确定告警整合信息。本发明提供的告警处理方法,能够在利用图数据库得到告警图谱后,将告警图谱中存在关联的告警节点进行整合,得到告警整合信息。在告警风暴场景下,能够有效的将有关联的告警合并为到一条告警整合信息中,实现有效的进行告警简化,提高告警提示效率。
附图说明
23.图1为相关技术的软硬件知识图谱示意图;
24.图2为相关技术中因果边权重示意图;
25.图3为相关技术中告警知识图谱示意图;
26.图4为相关技术中告警收敛示意图;
27.图5为本发明实施例一中的一个告警处理方法的流程图;
28.图6为本发明实施例一中的另一个告警处理方法的流程图;
29.图7为本发明实施例一中知识图谱标记示意图;
30.图8为本发明实施例二中的一个告警处理装置的结构示意图;
31.图9为本发明实施例二中的另一个告警处理装置的结构示意图;
32.图10为本发明实施例三中的服务器的结构示意图。
具体实施方式
33.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
34.本发明实施例基于一种基于知识图谱的大规模告警收敛实现方式进行实施。作为一种实现,通过cmdb、调用链等数据构建软硬件知识图谱,在此基础上通过历史告警数据构建告警知识图谱,并最终应用知识图谱进行告警收敛。
35.上述实施包括全局视角下的软硬件知识图谱和告警知识图谱,利用nlp技术对告警文本信息进行分类,然后将告警收敛到软硬件知识图谱的相关节点上,再结合具有因果关系的告警知识图谱,得出一条“a

》b

》c

》d”的根因链路。这样由于结合了领域相关知识,该方法收敛效果更好,而且提供了一条完整的根因链路,所以解释性更强,可以更好的为sre/运维人员提供指引。
36.软硬件知识图谱如图1所示,包括以全局的视角展示系统内各应用、软件、虚拟机、物理机间的内在逻辑,系统间的调用关系,网络设备的物理连接关系。软硬件知识图谱中的节点包括:系统、du(部署单元)、group(主机实例组)、软件、虚拟机、物理机、接入交换机、核心交换机、汇聚交换机、路由器等。关系包括constitute(构成)、call(调用)、logical(逻辑连接)、cluster(汇聚)、ship(承载)、host(宿主)、connect(物理连接)等。
37.软硬件知识图谱构建的数据源主要有cmdb数据、调用链数据和物理设备网络连接数据。实践中首先基于离线数据初始化软硬件知识图谱,随着业务的变化和拓展会出现旧系统的下线和新系统的上线,然后根据变化定时或定期更新软硬件知识图谱。
38.在软硬件知识图谱的基础上,可以针对某一个系统建立通过构建得到的单系统和
系统间图谱。其中节点类型包括:系统、du、group、软件、虚拟机、物理机、接入交换机、汇聚交换机等。
39.为了让构建的因果图有更好的说服力和可解释性,对各种告警信息进行人工分类,比如有的告警是对应于基础设施,比如网卡流量,cpu利用率,有的告警对应于具体软件,比如mysql延迟,wildfly无法获取连接。这样,每个告警类别都有自己明确的含义。在此基础上构建的因果图才是有意义的。
40.首先对某个系统在检测周期(如zabbix六个月)内全量告警信息进行了整理,将所有告警分为了183类,然后使用有监督的方法,训练分类模型。这样新来的告警信息也可以按照预先设定的类别进行分类。
41.因果节点不具体指一个物理机或虚拟机ip上的告警,而是对所有告警类型的一个抽象总结。目前包含三层(结构如下):物理机层面的告警、虚拟机层面的告警、软件层面的告警。比如:任何一台物理机上的宕机告警都归类于因果图上【物理机-宕机】节点。
42.经过告警数据分类,初步将所有的告警分类都作为因果节点,在经过因果算法输出因果边并人工筛查确认之后,选取最终的因果节点。
43.采用已有的因果发现算法工具包:causaldiscoverytoolbox,其中包含的算法有:pc、ges、ccdr、lingam等。
44.随后其进行因果边的权重采用条件概率计算,即:基于因果发现样本数据和因果发现算法给出的因果边(包括两个因果节点),【因节点发生告警的条件下果节点发生告警的次数】与【因节点总共发生的告警次数】的比值作为该因果边的权重。
45.最后经过【告警的分类】
‑‑
》【构建因果发现样本】
‑‑
》【因果算法发现因果边】
‑‑
》【因果边权重计算】,最终生成所有的因果边及其权重,具体如图2所示。
46.基于zabbix的781288条告警数据,最终确定了213条因果边,根据213条因果边的指向和权重,构建告警知识图谱(如图3所示),并将告警知识图谱写入图数据库以便持久化读取,后续的根因定位需从图数据库读取所构建的告警知识图谱进行分析。
47.构架好知识图谱后,苏宁开始进行告警收敛及根因定位。其步骤如下:
48.设置时间切片粒度:实时获取时间切片内(1min、5min等)的告警数据;
49.告警分类:针对原始的告警数据,结合具体的告警信息和监控项等信息,根据训练好的分类模型对原始的告警数据从host、vm、software三个方面进行分类,例如:vm_网卡流量大、host_磁盘使用率过高、software_网页访问失败等。
50.告警收敛:查询软硬件知识图谱将告警以系统为单位进行收敛,收敛格式如下,格式如下:
51.系统:软硬件知识图谱节点1:[告警类型1,告警类型2

],
[0052]
软硬件知识图谱节点2:[告警类型1,告警类型2

]
[0053]
4)告警因果图构建:基于告警收敛结果,在图数据库中按照系统级别查询每个系统下的所有节点之间的连接子图,并将得到的结果输入到networkx中,得到某个系统下的各节点之间的最终连接关系,即告警因果图。
[0054]
5)根因路径:基于上述生成的告警因果图,以及权重来计算疑似路径,排序给出根因路径。
[0055]
基于上述的主要流程,以时间粒度为前后5min内的告警数据创建时间切片样本,
并取告警数量最多的前100个时间片的样本作为主要分析的内容,其中第一个时间切片中的各个系统下各节点的告警收敛结果如图4所示。
[0056]
当发生告警风暴式,上述收敛结果不够直观,且得到的告警信息数量繁多。
[0057]
实施例一
[0058]
图5为本发明实施例一提供的告警处理方法的流程图,本实施例可适用于业务系统发生大规模告警信息的情况,该方法可以由服务器来执行,具体包括如下步骤:
[0059]
步骤s110、在时间片内进行告警监控。
[0060]
时间片可以为一分钟或五分钟。在时间片内对运维系统进行监控,接收触发的告警。
[0061]
步骤s120、若触发告警,根据告警生成告警图谱。
[0062]
若触发告警,则根据相关技术生成告警图谱。当运维多个系统时,可以分别根据每个系统形成告警图谱。
[0063]
可选的,步骤s120、若触发告警,根据告警生成告警图谱,可实施为:以系统为单位,生成目标系统的告警图谱。
[0064]
示例性的,生成目标系统的告警图谱,包括:获取目标系统的子图谱;获取子图谱中每个节点的关联节点;将关联节点添加到子图谱中,得到目标系统的告警图谱。
[0065]
目标系统的子图谱用于表示目标系统包含的软硬件节点。子图谱中的节点可能关联又其他系统的节点,或者关联本系统多节点。将每个节点关联一条的节点作为关联节点。将关联节点添加到子图谱中,得到目标系统的告警图谱。
[0066]
步骤s130、在告警图谱中标记告警节点。
[0067]
根据步骤s110监听到的告警,在告警图谱中对触发告警的节点进行标记。
[0068]
步骤s140、根据告警节点之间的关联关系,确定告警节点集合。
[0069]
可选的,若多个相连的节点均触发告警,则将多个相连的节点进行整合,得到告警节点集合。
[0070]
在一种实现方式中,步骤s140、根据告警节点之间的关联关系,确定告警节点集合,可通过下述方式实施:
[0071]
获取告警图谱中告警节点之间的边数;若边数小于预设边数阈值,则将告警节点划分到同一个告警节点集合中。
[0072]
若存在告警的节点之间的边数小于预设边数阈值,则表示告警节点之间存在关联。预设边数阈值可以为3。
[0073]
在另一种实现方式中,步骤s140、根据告警节点之间的关联关系,确定告警节点集合,可通过下述方式实施:
[0074]
根据节点之间的关联关系确定告警节点的关联节点;
[0075]
根据关联节点和告警节点确定告警节点集合。
[0076]
可选的,可以根据预设的关联关系确定关联节点。关联关系的维度可以包括应用、主机、物理机或虚拟机等。例如将属于同一个应用的节点确定为关联节点。
[0077]
步骤s150、根据告警节点集合确定告警整合信息。
[0078]
压制整合后的告警信息格式如下:
[0079]
系统:知识图谱告警风暴压制1:[告警节点1,告警节点2

],
[0080]
知识图谱告警风暴压制2:[告警节点3,告警节点4

]
[0081]
当运维人员收到信息的第一时间,可以通过告警信息对告警的关联性有一个较为直观的认识。同时由于我们已将所有的告警节点都在谱图上进行了标记,这样运维人员可以直接通过谱图直观的看到告警全局信息,并沿告警路径进行排查,更容易协助其找到告警根因信息。
[0082]
进一步的,如图6所示,在步骤s150之后,还包括:
[0083]
步骤s160、输出标记有告警节点和关联节点告警图谱。
[0084]
可选的,步骤s160、输出标记有告警节点和关联节点告警图谱,可通过下述方式实施:
[0085]
使用线框在图谱中标记告警节点和关联节点。
[0086]
如图7所示,可以使用线框对告警节点集合中的告警节点和关联节点进行标记。
[0087]
本发明提供的告警处理方法,能够在时间片内进行告警监控;若触发告警,根据告警生成告警图谱;在告警图谱中标记告警节点;根据告警节点之间的关联关系,确定告警节点集合;根据告警节点集合确定告警整合信息。本发明提供的告警处理方法,能够在利用图数据库得到告警图谱后,将告警图谱中存在关联的告警节点进行整合,得到告警整合信息。在告警风暴场景下,能够有效的将有关联的告警合并为到一条告警整合信息中,实现有效的进行告警简化,提高告警提示效率。
[0088]
实施例二
[0089]
图8为本发明实施例二提供的告警处理装置的结构示意图,本实施例可适用于业务系统发生大规模告警信息的情况,该装置可以由服务器来执行,包括:告警监控模块210、告警图谱生成模块220、告警节点标记模块230、告警整合模块240以及告警信息确定模块250。
[0090]
告警监控模块210,用于在时间片内进行告警监控;
[0091]
告警图谱生成模块220,用于若触发告警,根据告警生成告警图谱;
[0092]
告警节点标记模块230,用于在告警图谱中标记告警节点;
[0093]
告警整合模块240,用于根据告警节点之间的关联关系,确定告警节点集合;
[0094]
告警信息确定模块250,用于根据告警节点集合确定告警整合信息。
[0095]
在上述实施方式的基础上,告警整合模块240用于:
[0096]
获取告警图谱中告警节点之间的边数;
[0097]
若边数小于预设边数阈值,则将告警节点划分到同一个告警节点集合中。
[0098]
在上述实施方式的基础上,告警整合模块240用于:
[0099]
根据节点之间的关联关系确定告警节点的关联节点;
[0100]
根据关联节点和告警节点确定告警节点集合。
[0101]
在上述实施方式的基础上,如图9所示,还包括输出模块260。输出模块260用于:输出标记有告警节点和关联节点告警图谱。
[0102]
在上述实施方式的基础上,输出模块260用于:
[0103]
使用线框在图谱中标记告警节点和关联节点。
[0104]
在上述实施方式的基础上,告警图谱生成模块220用于:以系统为单位,生成目标系统的告警图谱。
[0105]
在上述实施方式的基础上,告警图谱生成模块220用于:获取目标系统的子图谱;
[0106]
获取子图谱中每个节点的关联节点;
[0107]
将关联节点添加到子图谱中,得到目标系统的告警图谱。
[0108]
本发明提供的告警处理装置,告警监控模块210,用于在时间片内进行告警监控;告警图谱生成模块220,用于若触发告警,根据告警生成告警图谱;告警节点标记模块230,用于在告警图谱中标记告警节点;告警整合模块240,用于根据告警节点之间的关联关系,确定告警节点集合;告警信息确定模块250,用于根据告警节点集合确定告警整合信息。能够在利用图数据库得到告警图谱后,将告警图谱中存在关联的告警节点进行整合,得到告警整合信息。在告警风暴场景下,能够有效的将有关联的告警合并为到一条告警整合信息中,实现有效的进行告警简化,提高告警提示效率。
[0109]
本发明实施例所提供的告警处装置可执行本发明任意实施例所提供的告警处方法,具备执行方法相应的功能模块和有益效果。
[0110]
实施例三
[0111]
图10为本发明实施例三提供的一种服务器的结构示意图,如图10所示,该服务器包括处理器30、存储器31、输入装置32和输出装置33;服务器中处理器30的数量可以是一个或多个,图10中以一个处理器30为例;服务器中的处理器30、存储器31、输入装置32和输出装置33可以通过总线或其他方式连接,图10中以通过总线连接为例。
[0112]
存储器31作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的告警处理方法对应的程序指令/模块(例如,告警处理装置中的告警监控模块210、告警图谱生成模块220、告警节点标记模块230、告警整合模块240、告警信息确定模块250以及输出模块260)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的告警处理方法。
[0113]
存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0114]
输入装置32可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置33可包括显示屏等显示设备。
[0115]
实施例四
[0116]
本发明实施例四还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种告警处理方法,该方法包括:
[0117]
在时间片内进行告警监控;
[0118]
若触发告警,根据告警生成告警图谱;
[0119]
在告警图谱中标记告警节点;
[0120]
根据告警节点之间的关联关系,确定告警节点集合;
[0121]
根据告警节点集合确定告警整合信息。
[0122]
在上述实施方式的基础上,根据告警节点之间的关联关系,确定告警节点集合,包括:
[0123]
获取告警图谱中告警节点之间的边数;
[0124]
若边数小于预设边数阈值,则将告警节点划分到同一个告警节点集合中。
[0125]
在上述实施方式的基础上,根据告警节点之间的关联关系,确定告警节点集合,包括:
[0126]
根据节点之间的关联关系确定告警节点的关联节点;
[0127]
根据关联节点和告警节点确定告警节点集合。
[0128]
在上述实施方式的基础上,在根据告警节点集合确定告警整合信息之后,还包括:
[0129]
输出标记有告警节点和关联节点告警图谱。
[0130]
在上述实施方式的基础上,输出标记有告警节点和关联节点告警图谱,包括:
[0131]
使用线框在图谱中标记告警节点和关联节点。
[0132]
在上述实施方式的基础上,根据告警生成告警图谱,包括:
[0133]
以系统为单位,生成目标系统的告警图谱。
[0134]
在上述实施方式的基础上,生成目标系统的告警图谱,包括:
[0135]
获取目标系统的子图谱;
[0136]
获取子图谱中每个节点的关联节点;
[0137]
将关联节点添加到子图谱中,得到目标系统的告警图谱。
[0138]
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的告警处理方法中的相关操作。
[0139]
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0140]
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0141]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献