基于多源数据的告警处理方法、装置、设备和介质与流程

2021-12-01 01:49:00 来源：中国专利 TAG：

1.本技术涉及应用软件技术领域，尤其是涉及一种基于多源数据的告警处理方法、装置、设备和介质。

背景技术：

2.随着应用软件的普及应用，企业通常可以从多个数据源产生数据，通过对这些数据的分析，支持商业决策，例如告警等。而多个数据源的数据通常面临不同的评价指标。
3.目前技术中，通常根据各个数据源，通常分别设定告警规则，忽略数据源之间的关联性，导致告警效率较低。

技术实现要素：

4.针对上述现有技术的不足，本发明提供一种基于多源数据的告警处理方法、装置、设备及介质。
5.一种基于多源数据的告警处理方法，所述方法包括：
6.从多个数据源采集初始数据；
7.将所述初始数据进行预处理，得到告警事件数据；所述告警事件数据对应有数据指标类型；
8.将所述告警事件数据与所述数据指标类型对应的当前告警基线进行对比，根据对比结果得到所述多个数据源的故障事件信息；其中，所述当前告警基线根据历史告警事件数据和历史故障事件信息动态更新得到。
9.在本发明一个实施例中，所述将所述告警事件数据与所述数据指标类型对应的当前告警基线进行对比，根据对比结果得到所述多个数据源的故障事件信息之前，所述方法包括：
10.获取预设时间区间内的历史故障事件信息对应的历史告警事件数据；
11.根据所述历史告警事件数据的数据分布特征，得到所述当前告警基线。
12.在本发明一个实施例中，所述故障事件信息包括多个故障事件，所述方法还包括：
13.获取所述多个故障事件的多个维度的信息；
14.根据所述多个维度的信息，得到所述多个故障事件中任意两个故障事件之间，与所述多个维度的信息分别对应的因果关系概率；
15.根据所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率。
16.在本发明一个实施例中，所述多个维度的信息至少包括事件时间、应用拓扑网络结构；所述根据所述多个维度的信息，得到所述多个故障事件中任意两个故障事件之间，与所述多个维度的信息分别对应的因果关系概率，包括：
17.获取所述多个故障事件的事件时间，根据所述多个故障事件的事件时间，确定所述多个故障事件中，任意两个故障事件的先后顺序；根据所述先后顺序，得到任意两个故障
事件的时间因果关系概率；
18.获取所述多个故障事件的应用拓扑网络结构，根据所述应用网络拓扑结构，确定所述多个故障事件中，任意两个故障事件的应用因果关系概率。
19.在本发明一个实施例中，所述根据所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率之前，包括：
20.获取所述多个维度的信息分别对应的维度系数；
21.根据所述维度系数修正所述多个维度的信息分别对应的因果关系概率，得到修正后的所述多个维度的信息分别对应的因果关系概率。
22.在本发明一个实施例中，所述根据所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率，包括
23.根据贝叶斯算法处理修正后的所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率。
24.在本发明一个实施例中，所述将所述初始数据进行预处理，得到告警事件数据，包括：
25.对所述初始数据进行字段提取；
26.将字段提取后的所述初始数据按照数据指标类型添加标签，得到所述告警事件数据。
27.一种基于多源数据的告警处理装置，所述装置包括：
28.数据采集模块，用于从多个数据源采集初始数据；
29.告警事件数据模块，用于将所述初始数据进行预处理，得到告警事件数据；所述告警事件数据对应有数据指标类型；
30.故障事件信息模块，用于将所述告警事件数据与所述数据指标类型对应的当前告警基线进行对比，根据对比结果得到所述多个数据源的故障事件信息；其中，所述当前告警基线根据历史告警事件数据和历史故障事件信息动态更新得到。
31.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法实施例的步骤。
32.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法实施例的步骤。
33.本发明通过从多个数据源采集初始数据，将初始数据预处理后，得到告警事件数据，进而将告警事件数据于数据指标类型对应的当前告警基线进行对比，根据对比结果得到多个数据源的故障事件信息，其中，当前告警基线根据历史告警事件和历史故障事件信息动态更新得到。通过对多个数据源进行数据预处理，确定告警事件数据对应的数据指标类型，提高了多个数据源的数据整合效率，并通过动态更新得到的当前告警基线进行告警处理，得到故障事件信息，进一步提高了得到的故障事件信息的准确性。
附图说明
34.图1为本发明一个实施例中提供的基于多源数据的告警处理方法的应用环境示意图；
35.图2为本发明一个实施例中提供的基于多源数据的告警处理方法的流程示意图；
36.图3为本发明一个实施例中提供的基于多源数据的告警处理方法的流程示意图；
37.图4为本发明一个实施例中提供的基于多源数据的告警处理装置的结构框图；
38.图5为本发明一个实施例中提供的计算机设备的内部结构图。
具体实施方式
39.为了使本技术的目的、技术方案及优点更加清楚明白，下面将参照附图更洋细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例。
40.在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
41.应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
42.本技术提供的基于多源数据的告警处理方法，可以应用于如图1所示的应用环境中。其中，智能运维平台102和多个数据源104通过网络连接。告警处理服务器从多个数据源104采集初始数据，将数据进行告警处理后，得到多个数据源的故障事件信息。其中，智能运维平台102和多个数据源104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，。
43.在一个实施例中，如图2所示，提供了一种基于多源数据的告警处理方法，以该方法应用于图1的智能运维平台102为例进行说明，包括以下步骤：
44.s210，从多个数据源采集初始数据.
45.其中，多个数据源可以是与告警处理相关的数据源，例如应用、服务、组件、数据库、主机等。智能运维平台102可以通过第三方监控系统、开源监控工具、api接口、消息队列、snmp trap和邮件等渠道从多个数据源采集所需的数据。
46.其中，初始数据指的是多个数据源产生或存储的数据，例如数据源的软件更新情况、页面加载效率等。智能运维平台102可以全部采集各个数据源的数据，也可以有选择的采集所需的部分数据。该初始数据采集可以是实时采集、定时采集或者随机采集，根据智能运维平台102的需求来确定，此处不做限定。
47.具体实现中，智能运维平台102可以根据数据需求，从多个数据源采集对应的初始数据。
48.s220，将初始数据进行预处理，得到告警事件数据。
49.其中，预处理指的是对数据进行过滤、清洗与加工，可以是对初始数据数据格式和内容的转化，使得多个数据源的数据以标准化的形式呈现，以及不同数据源的同类数据可以组合呈现。
50.其中，数据指标类型指的是智能运维平台102预先设定的进行告警分析所必须的
数据指标，例如应用软件版本更新率、任务并发数等。每个数据指标类型可以对应有告警基线，当某个数据源、多个数据源组成的系统之间的数据，超过对应的告警基线时，则可以判断发生故障事件。
51.其中，告警事件数据指的是经过预处理后得到的数据。每个告警事件数据可以对应至少一个数据指标类型，也即一个告警事件数据可以用于进行多个故障事件的分析。
52.具体实现中，智能运维平台102可以根据数据指标类型，在预处理过程中将各个初始数据进行分类、合并、剔除和数据格式标准化，以得到有对应数据指标类型的告警事件数据。
53.s230，将告警事件数据与数据指标类型对应的当前告警基线进行对比，根据对比结果得到多个数据源的故障事件信息。
54.其中，当前告警基线指的是根据历史告警事件数据和历史故障事件信息动态更新得到的告警判定规则。历史告警事件和历史故障事件可以存储在智能运维平台102的存储模块或者远程服务器，随着时间的推移，历史告警事件和历史故障事件会越来越多，可以从中得到对应的告警基线。
55.其中，故障事件信息指的是根据本次采集到的初始数据，判断得到的某个数据源、多个数据源组成的系统之间的故障事件情况。智能运维平台102可以将该故障事件信息推送至平台管理员或发出告警信号。
56.具体实现中，智能运维平台102可以将告警事件数据与数据指标类型对应的当前告警基线进行对比，得到本次采集的初始数据的多个数据源的故障事件信息。
57.上述基于多源数据的告警处理方法中，通过从多个数据源采集初始数据，将初始数据预处理后，得到告警事件数据，进而将告警事件数据于数据指标类型对应的当前告警基线进行对比，根据对比结果得到多个数据源的故障事件信息，其中，当前告警基线根据历史告警事件和历史故障事件信息动态更新得到。通过对多个数据源进行数据预处理，确定告警事件数据对应的数据指标类型，提高了多个数据源的数据整合效率，并通过动态更新得到的当前告警基线进行告警处理，得到故障事件信息，进一步提高了得到的故障事件信息的准确性。
58.在一个实施例中，s130中确定将告警事件数据与数据指标类型对应的当前告警基线进行对比，根据对比结果得到多个数据源的故障事件信息之前的步骤包括：
59.获取预设时间区间内的历史故障事件信息对应的历史告警事件数据；根据历史告警事件数据的数据分布特征，得到当前告警基线.
60.本实施例中，预设时间区间可以是当前告警分析时间之前的一段时间，例如1天、7天、15天等。数据分布特征指的是历史告警事件数据的统计规律，或者通过机器学习模型提取的特征。
61.智能运维平台102可以采集当前告警分析时间之前的时间区间的历史故障时间信息对应的历史告警事件数据，得到对应的当前告警基线，作为本次告警分析的依据，实现当前告警基线的自动动态更新，无需人为拟定。
62.上述实施例的方案，通过获取预设事件区间内的历史故障信息对应的历史告警事件数据，根据历史告警事件数据的数据分布特征，得到当前告警基线，提升了获取到的当前告警基线的准确性和关联性。
63.在一个实施例中，故障事件信息可以包括多个故障事件，上述方法还包括：
64.获取多个故障事件的多个维度的信息；根据多个维度的信息，得到多个故障事件中任意两个故障事件之间，与多个维度的信息分别对应的因果关系概率；根据多个维度的信息分别对应的因果关系概率，得到多个故障事件的整体因果概率。
65.本实施例中，多个维度的信息指的是告警得到的多个故障事件对应的分析维度，可以用于确定多个故障事件的对应关系，将多个故障事件之间的关系进行进一步分析，以得到对本次采集的多个数据源的整体告警分析结果。
66.其中，多个维度的信息可以包括事件时间、应用拓扑网络结构和调用链关系。
67.其中，多个故障事件中，任意两个故障事件可以在各个维度分别由对应的因果关系概率。
68.例如，故障事件a和故障事件b在事件时间维度上，存在时间因果关系概率。根据故障事件a和故障事件b的开始时间前后及持续段来计算构成因果关系的概率，原因一般发生在影响前。
69.又例如，故障事件c和故障事件d在应用拓扑网络结构的维度上，存在应用因果关系概率。根据多个数据源的应用拓扑网络结构，结合网络相关性算法计算出故障事件之间的因果关系概率。
70.本实施例中，整体因果概率指的是在得到的多个维度信息分别对应的因果关系概率的基础上，可以计算得到多个故障事件的整体因果概率。
71.其中，智能运维平台102得到的多个维度的信息分别对应的因果关系概率，数据关系较为复杂，智能运维平台102可以针对每个维度的信息分别对应的因果关系概率进行可视化展示，以发送告警信息给平台管理员。智能运维平台102还可以通过贝叶斯概率算法组合多个维度的信息分别对应的因果关系概率，得到多个故障事件间的整体因果概率，进一步提升故障分析的系统性、准确性，作为系统整体优化的依据。
72.上述实施例的方案，通过获取多个故障事件的多个维度的信息，得到任意两个故障事件之间的因果关系概率，进而得到多个故障事件的整体因果概率，提升了对故障事件分析的系统性和准确性。
73.在一个实施例中，根据多个维度的信息分别对应的因果关系概率，得到多个故障事件的整体因果概率之前的步骤包括：
74.获取多个维度的信息分别对应的维度系数；根据维度系数修正多个维度的信息分别对应的因果关系概率，得到修正后的多个维度的信息分别对应的因果关系概率。
75.本实施例中，智能运维平台102可以为多个维度的信息分别分配对应的维度系数。在不同的告警处理目标下，每个维度的信息对应的维度系数可以不同。
76.智能运维平台102可以根据维度系数修正对应的因果关系概率，即为不同的因果关系概率赋予对应的权重，以得到修正后的多个维度的信息分别对应的因果关系概率，用于进行整体因果概率分析。
77.智能运维平台102可以根据贝叶斯算法处理修正后的多个维度的信息分别对应的因果关系概率，得到多个故障事件的整体因果概率。
78.上述实施例的方案，通过维度系数对因果关系概率进行修正，使得可以针对不同的告警处理目的对整体因果概率进行调整，提高得到的因果关系概率的准确性。
79.在一个实施例中，步骤s120中确定的将初始数据进行预处理，得到告警事件数据的步骤包括：
80.对所述初始数据进行字段提取；将字段提取后的初始数据按照按照数据指标类型添加标签，得到告警事件数据。
81.本实施例中，智能运维平台102可以对数据进行数据格式处理和内容的转化。该字段提取指的是从接入到的数据字段对应的值中，通过“正则表达式”提取出想要的字段进行一一对应，该字段提取是广义的从初始数据中采集数据的过程，可以包括“直接映射”、“字段符合”、“groovy脚本映射”、“丰富”等转化方式。
82.其中，“直接映射”指的是若接入到的数据字段与标准化字段含义一致，则直接匹配。“字段符合”指的是接入的多个数据字段以组合的方式，与标准化字段一一对应。
83.本实施例中，智能运维平台102可以对字段提取后的初始数据按照指标类型添加标签，每个数据可以对应至少一个标签。智能运维平台102可以通过“标签”来进行事件相关度的特征提取、相似度计算、聚类，进而得到故障事件信息。
84.上述实施例的方法，通过对初始数据进行字段提取以及添加标签，得到告警事件数据，提高了得到告警事件数据的数据格式的一致性，有利于进行告警分析处理。
85.在一个实施例中，如图3所示，提供了一种基于多源数据的告警处理方法，包括：
86.步骤310，从多个数据源采集初始数据。
87.步骤320，对所述初始数据进行字段提取；将字段提取后的所述初始数据按照数据指标类型添加标签，得到所述告警事件数据。所述告警事件数据对应有数据指标类型。
88.步骤330，获取预设时间区间内的历史故障事件信息对应的历史告警事件数据，根据所述历史告警事件数据的数据分布特征，得到所述当前告警基线。
89.步骤340，将所述告警事件数据与所述数据指标类型对应的当前告警基线进行对比，根据对比结果得到所述多个数据源的故障事件信息。
90.步骤350，获取所述多个故障事件的多个维度的信息；所述多个维度的信息至少包括事件时间、应用拓扑网络结构。根据所述多个维度的信息，得到所述多个故障事件中任意两个故障事件之间，与所述多个维度的信息分别对应的因果关系概率；根据所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率。
91.上述实施例的方法，通过采集多个数据源的初始数据，对所述初始数据进行字段提取和加标签等预处理过程，得到告警事件数据，根据告警事件数据与当前告警基线的对比，得到故障事件信息，进而将故障事件信息按照多个维度进行因果关系概率计算，得到多个故障事件的整体因果概率。通过数据预处理，提高数据的一致性，通过动态更新的当前告警基线进行告警处理，提高了得到的故障事件信息的准确性，通过多个维度的因果关系概率分析，得到整体因果概率，提高了对当前采集的初始数据整体故障分析的系统性。
92.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。
93.在一个实施例中，如图4所示，提供了一种基于多源数据的告警处理装置，该装置
400包括：
94.数据采集模块410，用于从多个数据源采集初始数据；
95.告警事件数据模块420，用于将所述初始数据进行预处理，得到告警事件数据；所述告警事件数据对应有数据指标类型；
96.故障事件信息模块430，用于将所述告警事件数据与所述数据指标类型对应的当前告警基线进行对比，根据对比结果得到所述多个数据源的故障事件信息；其中，所述当前告警基线根据历史告警事件数据和历史故障事件信息动态更新得到。
97.在一个实施例中，故障事件信息模块430，还包括：告警基线单元，用于获取预设时间区间内的历史故障事件信息对应的历史告警事件数据；根据所述历史告警事件数据的数据分布特征，得到所述当前告警基线。
98.在一个实施例中，故障事件信息包括多个故障事件，上述方法还包括：整体因果概率模块，包括：维度信息单元，用于获取所述多个故障事件的多个维度的信息；维度因果概率单元，用于根据所述多个维度的信息，得到所述多个故障事件中任意两个故障事件之间，与所述多个维度的信息分别对应的因果关系概率；整体因果概率单元，用于根据所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率。
99.在一个实施例中，多个维度的信息至少包括事件时间、应用拓扑网络结构，维度因果概率单元，进一步用于获取所述多个故障事件的事件时间，根据所述多个故障事件的事件时间，确定所述多个故障事件中，任意两个故障事件的先后顺序；根据所述先后顺序，得到任意两个故障事件的时间因果关系概率；获取所述多个故障事件的应用拓扑网络结构，根据所述应用网络拓扑结构，确定所述多个故障事件中，任意两个故障事件的应用因果关系概率。
100.在一个实施例中，整体因果概率单元，进一步用于获取所述多个维度的信息分别对应的维度系数；根据所述维度系数修正所述多个维度的信息分别对应的因果关系概率，得到修正后的所述多个维度的信息分别对应的因果关系概率。
101.在一个实施例中，整体因果概率单元，进一步用于根据贝叶斯算法处理修正后的所述多个维度的信息分别对应的因果关系概率，得到所述多个故障事件的整体因果概率。
102.在一个实施例中，告警事件数据模块420，进一步用于：对所述初始数据进行字段提取；将字段提取后的所述初始数据按照数据指标类型添加标签，得到所述告警事件数据。
103.关于基于多源数据的告警处理装置的具体限定可以参见上文中对于基于多源数据的告警处理方法的限定，在此不再赘述。上述基于多源数据的告警处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
104.本发明可以应用于计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器、处理器，如图5所示。需要指出的是，图5仅示出了具有存储器、处理器组件的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。存储器(即可读存储介质)包括闪存、硬盘、多媒
体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smartmedia card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。当然，存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器通常用于存储安装于计算机设备的操作系统和各类应用软件，例如初始数据、告警事件数据等。此外，存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器在一些实施例中可以是中央处理器(central processing unit，cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中，处理器用于运行存储器中存储的程序代码或者处理数据，以实现一种基于多源数据的告警处理方法。
105.本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
106.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
107.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
108.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。
109.以上仪为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：系统日前短期负荷预测方法、装置、设备和可读存储介质与流程

基于多源数据的告警处理方法、装置、设备和介质与流程

相关文献

最热文献