一种声明式可视化配置Prometheus监控告警的方法与流程

2022-04-27 03:45:17 来源：中国专利 TAG：

一种声明式可视化配置prometheus监控告警的方法
技术领域
1.本发明涉及监控告警技术领域，更具体地说，本发明涉及一种声明式可视化配置prometheus监控告警的方法。

背景技术：

2.prometheus是一个最初在soundcloud上构建的监控系统，自2012年成为社区开源项目，拥有非常活跃的开发人员和用户社区，为强调开源及独立维护，prometheus于2016年加入云原生云计算基金会(cncf)，成为继kubernetes之后的第二个托管项目，prometheus的基本原理是通过http协议周期性抓取被监控组件的状态，任意组件只要提供对应的http接口就可以接入监控，不需要任何sdk或者其他的集成过程，这样做非常适合做虚拟化环境监控系统，比如vm、docker、kubernetes等，输出被监控组件信息的http接口被叫做exporter，目前互联网公司常用的组件大部分都有exporter可以直接使用，比如varnish、haproxy、nginx、mysql、linux系统信息，但是现有的prometheus监控告警方法在实际使用时缺少对未来告警趋势预测的能力，仅仅能够在告警发生后获取告警信息，这样一来，对于设备运行事故往往会措手不及，不能够提前预知做出相应的处置预案，并且当告警的问题重复时，不能自行修复处理，使得开发人员的维护工作强度较大，因此，研究一种声明式可视化配置prometheus监控告警的方法具有重要意义。

技术实现要素：

3.为了克服现有技术的上述缺陷，本发明的目的是提供一种声明式可视化配置prometheus监控告警的方法，当目标监控节点当前的数据与历史数据中问题发生前的数据和趋势走向一致时，生产告警预测信息，使得开发人员可以提前准备解决方案；同时，通过以往的维护方法记录自行进行修复处理，从而可以降低开发人员的维护工作强度。
4.为实现上述目的，本发明提供如下技术方案：
5.一种声明式可视化配置prometheus监控告警的方法，包括以下步骤：
6.s1、数据采集：
7.通过监控数据采集器对数据进行采集，并将采集到的数据整理之后通过http的方式发送到数据存储器，并由数据存储器通过定期拉取的方式对监控数据进行获取、存储以及查询，然后将各个监控节点的采集数据生成可视化图形。
8.s2、告警信息判断和处理：
9.然后通过promql来创建告警规则和告警级别设定，然后根据可视化图形和预定义的告警规则进行对比，确定目标监控节点当前的数据是否满足这条告警规则，当目标监控节点当前的数据与历史数据中问题发生前的数据和趋势走向一致时，产生告警预测信息，当目标监控节点当前的数据满足这条告警规则时，将其与数据存储器中存储的历史告警信息进行对比，当存在完全相同的告警信息时，通过记录的维护操作方法自行进行维护操作，当问题解决时，通过数据存储器进行记录。
10.s3、告警信息发送：
11.当问题不能解决时，创建一条包含原始告警信息、自动修复数据和以往数据整理后的告警信息，并显示为红色，然后确定告警信息的告警级别以及确定与告警级别相对应的通知渠道，然后发送一条消息给相应的接收者报警插件，同时将告警信息与问题发生之前一段时间的监控数控置于数据存储器进行储存，使报警插件将告警以更加丰富的方式告诉给开发人员，正常情况下prometheus server直接与exporter通信，然后拉取pull数据，当网络需求无法满足时使用pushgateway作为中转站，并且当开发人员进行维护时记录开发人员的维护操作，当开发人员进行消警处理时，同时将记录的维护操作存储到数据存储器中，并与相应的告警信息进行配对处理。
12.作为本发明的进一步方案：所述s1中对采集到的数据进行整理时将监控数据统一整理为指定的metrics格式，方便对数据进行查询汇总。
13.作为本发明的进一步方案：所述s1中的报警插件为alertmanager，所述alertmanager是一个独立的告警模块，接收prometheus客户端发来的警报，之后通过分组删除重复处理，并通过路由发送给正确的接收器，告警方式按照不同的规则发送给不同的模块负责人，所述alertmanager包括但不限于email、pagerduty、opsgenie，slack和webhook五种告警方式。
14.作为本发明的进一步方案：所述s1中的监控数据通过四种指标类型进行定义，四种所述指标类型分别为counter、gauge、histogram和summary。
15.作为本发明的进一步方案：所述counter为只增不减的计数器，在应用程序中记录某些事件发生的次数，为常见的监控指标，且允许以固定的数值递增，该数值必须为正数，所述gauge为仪表盘，侧重于反应系统的当前状态，可增可减，histogram为直方图，所述summary为摘要，所述histogram和summary主要用于统计和分析样本的分布情况。
16.作为本发明的进一步方案：所述告警级别设定为一般告警级别、严重告警级别和紧急告警级别。
17.作为本发明的进一步方案：所述根据告警级别选择相对应的通知渠道的具体步骤为：根据不同级别的告警信息做出不同类型的推送，一般告警级别做重复推送提醒，严重告警级别在重复推送提醒的基础上附带短信提醒通知用户，紧急告警级别在重复推送和短信提醒的推送基础上，发送电话语音提醒。
18.作为本发明的进一步方案：所述promql是prometheus内置的数据查询语言，用于提供查询、逻辑运算和聚合函数。
19.本发明的有益效果在于：
20.1、本发明通过将历史采集数据和维护数据统一存放在数据存储器中，并由promql来创建告警规则和告警级别设定，然后根据可视化图形和预定义的告警规则进行对比，确定目标监控节点当前的数据是否满足这条告警规则，当目标监控节点当前的数据与历史数据中问题发生前的数据和趋势走向一致时，生产告警预测信息，从而可以在问题发生之前，通过异常的数据进行问题预测，使得开发人员可以提前准备解决方案，同时在问题发生时，将其与数据存储器中存储的历史告警信息进行对比，当存在完全相同的告警信息时，通过记录的维护操作方法自行进行维护操作，当问题解决时，通过数据存储器进行记录，使得本方法可以在告警信息与历史告警信息完全一致时，通过以往的维护方法记录自行进行修复
处理，从而可以降低开发人员的维护工作强度；
21.2、本发明通过将告警级别设定为一般告警级别、严重告警级别和紧急告警级别，使得当告警产生时，可以根据不同的告警级别选择相应的通知渠道，一般告警级别做重复推送提醒，严重告警级别在重复推送提醒的基础上附带短信提醒通知用户，紧急告警级别在重复推送和短信提醒的推送基础上，发送电话语音提醒，从而可以根据不同告警级别向用户做出不同提醒，使得在紧急告警级别发生时，通过多种方式进行告警处理。
22.本发明通过设置pushgateway作为中转站，使得prometheus server在正常情况下可以直接与exporter通信，然后拉取pull数据，而当网络需求无法满足时使用pushgateway作为中转站，从而保障了本装置的正常使用效果。
附图说明
23.图1为本发明一种声明式可视化配置prometheus监控告警的方法的流程图。
具体实施方式
24.下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
25.如图1所示，一种声明式可视化配置prometheus监控告警的方法，包括以下步骤：
26.s1、数据采集，监控数据采集器通过拉取的方式定期对数据进行采集、存储
27.通过监控数据采集器对数据进行采集，并将采集到的数据整理之后通过http的方式发送到数据存储器，并由数据存储器通过定期拉取的方式对监控数据进行获取、存储以及查询，通过采用定期拉取的方式对监控数据进行获取、存储以及查询，从而降低了一直进行拉取数据所占用的内存空间和能量的浪费，然后将各个监控节点的采集数据生成可视化图形，通过将各个监控节点的采集数据生成可视化图形，使得当开发人员查看告警信息数据时，可以更方便的对数据进行全面的观察。
28.s2、告警信息判断和处理，通过prom ql创建告警规则，产生告警并追踪处置过程。
29.然后通过promql来创建告警规则和告警级别设定，然后根据可视化图形和预定义的告警规则进行对比，确定目标监控节点当前的数据是否满足这条告警规则，当目标监控节点当前的数据与历史数据中问题发生前的数据和趋势走向一致时，产生告警预测信息，通过将目标监控节点当前的数据与历史数据中问题发生前的数据和趋势走向进行对比，从而可以在数据走势异常时，进行问题预测并告警，使得开发人员可以提前准备解决方案，当目标监控节点当前的数据满足这条告警规则时，将其与数据存储器中存储的历史告警信息进行对比，当存在完全相同的告警信息时，通过记录的维护操作方法自行进行维护操作，通过将历史采集数据和维护数据统一存放在数据存储器中，使得当存在完全相同的告警信息时，通过记录的维护操作方法自行进行维护操作，当问题解决时，通过数据存储器进行记录，使得本方法可以在告警信息与历史告警信息完全一致时，通过以往的维护方法记录自行进行修复处理，从而可以降低开发人员的维护工作强度，当问题解决时，通过数据存储器进行记录。
30.s3、告警信息发送，创建告警信息并确定告警级别，使用报警插件通知责任人
31.当问题不能解决时，创建一条包含原始告警信息、自动修复数据和以往数据整理后的告警信息，并显示为红色，然后确定告警信息的告警级别以及确定与告警级别相对应的通知渠道，然后发送一条消息给相应的接收者报警插件，同时将告警信息与问题发生之前一段时间的监控数控置于数据存储器进行储存，使报警插件将告警以更加丰富的方式告诉给开发人员，正常情况下prometheus server直接与exporter通信，然后拉取pull数据，当网络需求无法满足时使用pushgateway作为中转站，本发明通过设置pushgateway作为中转站，使得prometheus server在正常情况下可以直接与exporter通信，然后拉取pull数据，而当网络需求无法满足时使用pushgateway作为中转站，从而保障了本装置的正常使用效果，并且当开发人员进行维护时记录开发人员的维护操作，当开发人员进行消警处理时，同时将记录的维护操作存储到数据存储器中，并与相应的告警信息进行配对处理。
32.s1中对采集到的数据进行整理时将监控数据统一整理为指定的metrics格式，方便对数据进行查询汇总。
33.s1中的报警插件为alertmanager，alertmanager是一个独立的告警模块，接收prometheus客户端发来的警报，之后通过分组删除重复处理，并通过路由发送给正确的接收器，告警方式按照不同的规则发送给不同的模块负责人，alertmanager包括但不限于email、pagerduty、opsgenie，slack和webhook五种告警方式。
34.s1中的监控数据通过四种指标类型进行定义，四种指标类型分别为counter、gauge、histogram和summary。
35.counter为只增不减的计数器，在应用程序中记录某些事件发生的次数，为常见的监控指标，且允许以固定的数值递增，该数值必须为正数，gauge为仪表盘，侧重于反应系统的当前状态，可增可减，histogram为直方图，summary为摘要，histogram和summary主要用于统计和分析样本的分布情况。
36.告警级别设定为一般告警级别、严重告警级别和紧急告警级别。
37.根据告警级别选择相对应的通知渠道的具体步骤为：根据不同级别的告警信息做出不同类型的推送，一般告警级别做重复推送提醒，严重告警级别在重复推送提醒的基础上附带短信提醒通知用户，紧急告警级别在重复推送和短信提醒的推送基础上，发送电话语音提醒，本发明通过将告警级别设定为一般告警级别、严重告警级别和紧急告警级别，使得当告警产生时，可以根据不同的告警级别选择相应的通知渠道，一般告警级别做重复推送提醒，严重告警级别在重复推送提醒的基础上附带短信提醒通知用户，紧急告警级别在重复推送和短信提醒的推送基础上，发送电话语音提醒，从而可以根据不同告警级别向用户做出不同提醒，使得在紧急告警级别发生时，通过多种方式进行告警处理。
38.promql是prometheus内置的数据查询语言，用于提供查询、逻辑运算和聚合函数。
39.本发明通过将历史采集数据和维护数据统一存放在数据存储器中，并由promql来创建告警规则和告警级别设定，然后根据可视化图形和预定义的告警规则进行对比，确定目标监控节点当前的数据是否满足这条告警规则，当目标监控节点当前的数据与历史数据中问题发生前的数据和趋势走向一致时，产生告警预测信息，从而可以在问题发生之前，通过异常的数据进行问题预测，使得开发人员可以提前准备解决方案，同时在问题发生时，将其与数据存储器中存储的历史告警信息进行对比，当存在完全相同的告警信息时，通过记
录的维护操作方法自行进行维护操作，当问题解决时，通过数据存储器进行记录，使得本方法可以在告警信息与历史告警信息完全一致时，通过以往的维护方法记录自行进行修复处理，从而可以降低开发人员的维护工作强度。
40.最后应说明的几点是：虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明的基础上，以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于深度表征网络的医学影像异常检测方法和装置

一种声明式可视化配置Prometheus监控告警的方法与流程

相关文献

最热文献