一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据中心系统智能监控方法与流程

2022-03-31 07:02:47 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,具体涉及一种数据中心系统智能监控方法。


背景技术:

2.企业的it中心通常是一个是巨大的数据中心,大量设备被采购用以支持业务系统,数据中心作为各项服务的基石,不仅需要管理大范围业务系统,并负责所有设备的运维工作,还负责每年有着千亿级业务的运营监控,系统平台多、设备多,上万台设备的体量对于监控机制提出了更高的挑战,在智能运维研究工作中,为保证用户能够及时获知异常情况,监控异常告警的时效性(通常需要满足分钟级告警需求)显得尤为重要,目前的监控方法大多利用单个轻量的算法或模型(比如时间序列模型),以预测运行性能指标的数据曲线,并根据预测的数据曲线,以获得异常数据存在的位置,从而实现监控预告警的目的,大批量、分布式数据中心,由于涉及到的服务、系统、插件等较多,任何一处出现问题,都可能导致数据采集中出现异常,为了能够保证数据中心稳定、高效的运行,一套能够实时监控采集各个部分状态,在出现异常的时候,能够快速、有效的定位问题的监控体系,是必不可少的。
3.现有技术存在以下不足:由于某些开发人员忘记设置删除日志,或者开发环境中用于测试的文件写入操作关闭,最终导致硬盘可用空间为零,导致当前服务器上部署的所有采集器均处于假死状态,而且数据中心的数据采集使用的服务器性能一般较低,且任务较多、运行时间长,所以,如果cpu长时间(阀值:30分钟)居高不下,就可能导致采集器假死,影响采集器的效率,降低采集速度,异常数据容易进入到生产环境,影响数据中心产品的用户体验,由于涉及到的服务、系统、插件等较多,任何一处出现问题,都可能导致数据采集中出现异常,在出现异常的时候,监控体系难以定位到问题所在。
4.因此,发明一种数据中心系统智能监控方法很有必要。


技术实现要素:

5.为此,本发明提供一种数据中心系统智能监控方法,通过设置了硬盘监控单元需要5分钟监控一次的监控服务器硬盘使用情况,如硬盘使用率大于90%,超过这个阀值则通过邮件,发送报警信息给相应的运维或开发人员,cpu监测单元如果大于30分钟居高不下,此时,就需要把当前情况发送给相应人员,内存监控单元如果发现内容使用率大于30分钟居高不下,则发送报警信息给相关的人员,采集监控单元分别为采集器日志分析、接口日志分析和守护进程,采集中监测单元分别为网站/栏目状态监控和网站/栏目正则监控,以解决背景技术中的问题。
6.为了实现上述目的,本发明提供如下技术方案:一种数据中心系统智能监控方法,包括数据中心智能监控系统,其中,所述数据中心智能监控系统还包括:
7.用于实时监控硬盘空间、cpu运行情况和内存使用率的服务器监控模块;
8.用于监测大批量采集网站的信源监控模块;
9.用于监控任务分发接口、及redis服务的采集器监控模块;
10.用于每日对日志信息进行分析的信息分析模块;
11.用于监测异常数据的数据质量监控模块。
12.优选的,所述服务器监控模块还包括cpu监控单元、内存监控单元、硬盘监控单元和无线信息发送单元。
13.优选的,所述采集器监控模块还包括采集监控单元、任务队列监控单元和redis单元。
14.优选的,所述信源监控模块还包括采集中监测单元和线下监测单元。
15.优选的,所述数据质量监控模块还包括发布时间监控单元、标题监控单元、内容监控单元和持久化过程中监测单元。
16.优选的,所述硬盘监控单元需要5分钟监控一次的监控服务器硬盘使用情况,如硬盘使用率大于90%,超过这个阀值则通过邮件,发送报警信息给相应的运维或开发人员。
17.优选的,所述cpu监测单元如果大于30分钟居高不下,此时,就需要把当前情况发送给相应人员。
18.优选的,所述内存监控单元如果发现内容使用率大于30分钟居高不下,则发送报警信息给相关的人员。
19.优选的,所述采集监控单元分别为采集器日志分析、接口日志分析和守护进程。
20.优选的,所述采集中监测单元分别为网站/栏目状态监控和网站/栏目正则监控。
21.本发明的有益效果是:
22.1、硬盘监控单元:在采集中,需要近实时(5分钟监控一次)的监控服务器硬盘使用情况,我们需要设定报警阀值,比如硬盘使用率大于90%,超过这个阀值则通过无线信息发送单元,发送报警信息给相应的运维或开发人员,为了便于相关人员进行处理,报警信息应该包括:盘符、使用率、服务器ip、用户名、密码、采集器部署路径等主要信息,达到防止硬盘可用空间为零,导致当前所有采集器均处于假死状态的效果;
23.2、cpu监控单元:由于数据采集属于i/o密集型任务,而且数据采集使用的服务器性能一般较低,且任务较多、运行时间长,所以,如果cpu长时间(阀值:30分钟)居高不下,就可能导致采集器假死,影响采集器的效率,降低采集速度,此时,就需要把当前情况通过无线信息发送单元发送给相应人员,同时,报警信息包括:服务器ip、用户名、密码等,以便运维人员迅速处理问题;
24.3、内存监控单元:采集中涉及到大量的数据解析工作,会占用大量的额内容,如果内容使用率长时间(阀值:30分钟)居高不下,则通过无线信息发送单元发送报警信息给相关的人员,报警信息包括:服务器ip、用户名、密码等信息,防止cpu运行占用内存长时间居高不下,导致采集器假死,影响采集器的效率;
25.4、数据质量监控模块将信息详细页正文中,第一个时间作为发布时间,然后判断解析以后的时间是否在正常范围,如果大于当前日期,则记录该任务id,并把当前时间作为发布时间,如果如果内容难以判断对错,目前我们暂时只判断是否为空,如果为空,则暂时把标题作为正文,并把当前信息的来源任务id记录到日志,方便运维人员进行二次处理,提高数据准确性;
26.5、通过统一数据持久化接口,在接口中对标题、发布时间和内容等属性,进行二次
校验,把异常前置,以防异常数据进入到生产环境,影响数据中心产品的用户体验。
附图说明
27.图1为本发明提供的数据中心智能监控系统结构示意图;
28.图2为本发明提供的服务器监控模块结构示意图;
29.图3为本发明提供的采集器监控模块结构示意图;
30.图4为本发明提供的信息分析模块结构示意图;
31.图5为本发明提供的信源监控模块结构示意图;
32.图6为本发明提供的数据质量监控模块结构示意图。
具体实施方式
33.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
34.参照附图1-6,本发明提供的一种数据中心系统智能监控方法,为了实现上述目的,本发明提供如下技术方案:一种数据中心系统智能监控方法,包括数据中心智能监控系统,其中,数据中心智能监控系统还包括:
35.用于实时监控硬盘空间、cpu运行情况和内存使用率的服务器监控模块;
36.用于监测大批量采集网站的信源监控模块;
37.用于监控任务分发接口、及redis服务的采集器监控模块;
38.用于每日对日志信息进行分析的信息分析模块;
39.用于监测异常数据的数据质量监控模块。
40.进一步地,服务器监控模块还包括cpu监控单元、内存监控单元、硬盘监控单元和无线信息发送单元,硬盘监控单元需要5分钟监控一次的监控服务器硬盘使用情况,如硬盘使用率大于90%,超过这个阀值则通过邮件,发送报警信息给相应的运维或开发人员,cpu监测单元如果大于30分钟居高不下,此时,就需要把当前情况通过无线信息发送单元发送给相应人员,内存监控单元如果发现内容使用率大于30分钟居高不下,则通过无线信息发送单元发送报警信息给相关的人员,具体的,硬盘监控单元:在采集中,我们经常发现,由于某些开发人员忘记设置删除日志,或者开发环境中用于测试的文件写入操作关闭,最终导致硬盘可用空间为零,导致当前服务器上部署的所有采集器均处于假死状态,所以,我们需要近实时(5分钟监控一次)的监控服务器硬盘使用情况,我们需要设定报警阀值,比如硬盘使用率大于90%,超过这个阀值则通过无线信息发送单元,发送报警信息给相应的运维或开发人员,为了便于相关人员进行处理,报警信息应该包括:盘符、使用率、服务器ip、用户名、密码、采集器部署路径等主要信息;cpu监控单元:由于数据采集属于i/o密集型任务,而且数据采集使用的服务器性能一般较低,且任务较多、运行时间长,所以,如果cpu长时间(阀值:30分钟)居高不下,就可能导致采集器假死,影响采集器的效率,降低采集速度,此时,就需要通过无线信息发送单元把当前情况发送给相应人员,同时,报警信息包括:服务器ip、用户名、密码等,以便运维人员迅速处理问题;内存监控单元:采集中涉及到大量的数据解析工作,会占用大量的额内容,如果内容使用率长时间(阀值:30分钟)居高不下,则发送报警信息给相关的人员,报警信息包括:服务器ip、用户名、密码等信息。
41.进一步地,采集器监控模块还包括采集监控单元、任务队列监控单元和redis单元,具体的,采集监控也属于运行时监控,主要用于监控采集器、redis、统一数据接口、任务处理等情况,这些也是采集出现异常时,查找、定位问题最重要的依据,数据采集中,首先要保证的就是采集器的正常运行,我们在实际运用中主要监测以下几方面的内容:每次采集器启动,记录服务器ip、启动时间、及采集器id等;每次获取任务集合后,记录任务获取开始时间、结束时间、待采集任务的标识集合、采集器id等;任务执行过程中,记录单个任务的开始时间,下载开始时间、请求返回码、下载结束时间,解析耗时、解析的数据量、以及当前任务id等;所有任务均结束时,记录当前批次任务处理开始时间、结束时间、共解析数据量。
42.进一步地,信源监控模块还包括采集中监测单元和线下监测单元,具体的,数据中心大批量采集数据时,涉及到的网站成千上万个,栏目更是少则几十万、多则上百万个,如何保证这些网站/栏目都有效,也是一件极其麻烦的事情,我们在采集中通常通过一下几种方式进行监测,采集中监测单元:网站/栏目状态监控;采集器监控中,我们记录并持久化了每个任务的请求返回码指标,我们可以按一定的时间间隔分析一遍所有的记录,同时把这些状态码同步到无线信息发送单元,发送后台,提示运维人员进行处理;
43.网站/栏目正则监控采集器监控中,我们记录并持久化了每个任务解析的数据量指标,我们可以按一定的时间间隔分析一遍所有的记录,把请求返回码正常,但解析出的数线下监测单元:在采集中,失效网站或栏目对采集效率的影响是很大,会极大的降低采集能力,所以,采集中对任务的监控,只能作为信源的辅助监控方式,信源的线下监控,主要监控网站/栏目的请求状态码,以及根据配置的正则,匹配出的数据量,可以写一个独立的脚本来处理这些,也可以部署一个采集器,专用于信源的监控,分析信源的状态,并同步到信源系统。
44.进一步地,数据质量监控模块还包括发布时间监控单元、标题监控单元、内容监控单元和持久化过程中监测单元,具体的,发布时间监控:一般情况,我们把信息详细页正文中,第一个时间作为发布时间,然后判断解析以后的时间是否在正常范围,如果大于当前日期,则记录该任务id,并把当前时间作为发布时间;
45.标题监控单元:在采集中,我一般把列表页中a标签内容作为标题,同时在内容解析时,进行二次校验,因为有的列表页中a标签的内容是简称,一部分内容被隐藏,那么就需要在内容解析时进行二次处理,获取到正确的标题;
46.内容监控单元:如果内容难以判断对错,目前我们暂时只判断是否为空,如果为空,则暂时把标题作为正文,并把当前信息的来源任务id记录到日志,供运维人员进行二次处理。
47.进一步地,采集监控单元分别为采集器日志分析、接口日志分析和守护进程,具体的,任务队列监控单元主要是监控任务分发接口、及redis服务是否正常、稳定redis监控单元:一般情况下redis最重要的监控是内存、cpu、及各节点是否在线等,客户端连接数等辅助指标根据实际情况处理;
48.持久化过程中监测单元:
49.通过统一数据持久化接口,在接口中对标题、发布时间和内容等属性,进行二次校验,把异常前置,以防异常数据进入到生产环境,影响产品的用户体验。
50.进一步地,采集中监测单元分别为网站/栏目状态监控和网站/栏目正则监控,具
体的,网站/栏目状态监控:
51.采集器监控中,我们记录并持久化了每个任务的请求返回码指标,我们可以按一定的时间间隔分析一遍所有的记录,同时把这些状态码同步到信源系统,提示运维人员进行处理;
52.网站/栏目正则监控:
53.采集器监控中,我们记录并持久化了每个任务解析的数据量指标,我们可以按一定的时间间隔分析一遍所有的记录,把请求返回码正常,但解析出的数据量为0的任务标识为正则异常,同步到信源系统,供运维人员进行人工处理。
54.本发明的智能监控方法如下:硬盘监控单元:在采集中,当由于某些开发人员忘记设置删除日志,或者开发环境中用于测试的文件写入操作关闭,最终导致硬盘可用空间为零,导致当前服务器上部署的所有采集器均处于假死状态,通过需要近实时(5分钟监控一次)的监控服务器硬盘使用情况,设定报警阀值,比如硬盘使用率大于90%,超过这个阀值则通过邮件,通过无线信息发送单元发送报警信息给相应的运维或开发人员,为了便于相关人员进行处理,报警信息应该包括:盘符、使用率、服务器ip、用户名、密码、采集器部署路径等主要信息;cpu监控单元:由于数据采集属于i/o密集型任务,而且数据采集使用的服务器性能一般较低,且任务较多、运行时间长,所以,如果cpu长时间(阀值:30分钟)居高不下,就可能导致采集器假死,影响采集器的效率,降低采集速度,此时,就需要把当前情况通过无线信息发送单元发送给相应人员,同时,报警信息包括:服务器ip、用户名、密码等,以便运维人员迅速处理问题;内存监控单元:采集中涉及到大量的数据解析工作,会占用大量的额内容,如果内容使用率长时间(阀值:30分钟)居高不下,则通过无线信息发送单元发送报警信息给相关的人员,报警信息包括:服务器ip、用户名、密码等信息;
55.采集监控也属于运行时监控,主要用于监控采集器、redis、统一数据接口、任务处理等情况,这些也是采集出现异常时,查找、定位问题最重要的依据,数据采集中,首先要保证的就是采集器的正常运行,我们在实际运用中主要监测以下几方面的内容:每次采集器启动,记录服务器ip、启动时间、及采集器id等;每次获取任务集合后,记录任务获取开始时间、结束时间、待采集任务的标识集合、采集器id等;任务执行过程中,记录单个任务的开始时间,下载开始时间、请求返回码、下载结束时间,解析耗时、解析的数据量、以及当前任务id等;所有任务均结束时,记录当前批次任务处理开始时间、结束时间、共解析数据量;
56.数据中心大批量采集数据时,涉及到的网站成千上万个,栏目更是少则几十万、多则上百万个,如何保证这些网站/栏目都有效,也是一件极其麻烦的事情,我们在采集中通常通过一下几种方式进行监测,采集中监测单元:网站/栏目状态监控;采集器监控中,我们记录并持久化了每个任务的请求返回码指标,我们可以按一定的时间间隔分析一遍所有的记录,同时把这些状态码同步到无线信息发送单元,提示运维人员进行处理;
57.网站/栏目正则监控采集器监控中,我们记录并持久化了每个任务解析的数据量指标,我们可以按一定的时间间隔分析一遍所有的记录,把请求返回码正常,但解析出的数线下监测单元:在采集中,失效网站或栏目对采集效率的影响是很大,会极大的降低采集能力,所以,采集中对任务的监控,只能作为信源的辅助监控方式,信源的线下监控,主要监控网站/栏目的请求状态码,以及根据配置的正则,匹配出的数据量,可以写一个独立的脚本来处理这些,也可以部署一个采集器,专用于信源的监控,分析信源的状态,并同步到信源
系统;
58.发布时间监控:一般情况,我们把信息详细页正文中,第一个时间作为发布时间,然后判断解析以后的时间是否在正常范围,如果大于当前日期,则记录该任务id,并把当前时间作为发布时间;
59.标题监控单元:在采集中,我一般把列表页中a标签内容作为标题,同时在内容解析时,进行二次校验,因为有的列表页中a标签的内容是简称,一部分内容被隐藏,那么就需要在内容解析时进行二次处理,获取到正确的标题;
60.内容监控单元:如果内容难以判断对错,目前我们暂时只判断是否为空,如果为空,则暂时把标题作为正文,并把当前信息的来源任务id记录到日志,供运维人员进行二次处理;
61.任务队列监控单元主要是监控任务分发接口、及redis服务是否正常、稳定redis监控单元:一般情况下redis最重要的监控是内存、cpu、及各节点是否在线等,客户端连接数等辅助指标根据实际情况处理;
62.持久化过程中监测单元:
63.通过统一数据持久化接口,在接口中对标题、发布时间和内容等属性,进行二次校验,把异常前置,以防异常数据进入到生产环境,影响产品的用户体验。
64.网站/栏目状态监控:
65.采集器监控中,我们记录并持久化了每个任务的请求返回码指标,我们可以按一定的时间间隔分析一遍所有的记录,同时把这些状态码同步到信源系统,提示运维人员进行处理;
66.网站/栏目正则监控:
67.采集器监控中,我们记录并持久化了每个任务解析的数据量指标,我们可以按一定的时间间隔分析一遍所有的记录,把请求返回码正常,但解析出的数据量为0的任务标识为正则异常,同步到信源系统,供运维人员进行人工处理。
68.以上,仅是本发明的较佳实施例,任何熟悉本领域的技术人员均可能利用上述阐述的技术方案对本发明加以修改或将其修改为等同的技术方案。因此,依据本发明的技术方案所进行的任何简单修改或等同置换,尽属于本发明要求保护的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献