一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于AIOps的故障诊断系统的制作方法

2023-01-15 08:25:24 来源:中国专利 TAG:

一种基于aiops的故障诊断系统
技术领域
1.本发明涉及系统故障诊断领域,尤其涉及一种基于aiops的故障诊断系统。


背景技术:

2.企业系统在运维方面的资金投入仍处于增长阶段,以结果为导向的系统稳定性运维kpi指标是当前企业关注的重点,并且对于用户体验的关注正在持续升温。随着云计算、微服务等技术的流行,以及互联网业务的迅速发展,运维人员要关注的服务数量也呈现了指数级增长,自动化运维虽然提升了效率,解决了一部分问题,但也遇到了新的难题,比如面对繁多的报警信息,运维人员应该如何处理;故障发生时,又如何能够迅速定位问题,这使得ai ops(artificial intelligence for it operations)这种跨界创新智能运维方式深受欢迎。
3.从行业应用情况来看,aiops也就是基于ai与大数据相关技术的it运维已经在各行业逐步落地应用,特别是在科技、互联网、金融等几大领域应用效果十分显著。将现有监控平台、大数据平台等多种数据源接入智能运维工具/平台,进行多场景数据融合是当前比较常用的智能运维实践方式。
4.智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量领域最为关注。大部分企业在数据分析和算法模型分析方面已经逐步开始场景探索,通过使用智能运维算法,可快速提升运维智能化、自动化水平,大幅降低故障平均检测时间,加速平均修复时长,但在建设过程中仍有诸多困难与挑战。如一是系统异常类型复杂多样,单一异常检测算法无法做到全方位覆盖,使得无法在问题萌芽状态就发现问题,智能监控程度低;二是异常发生后,无无法快速确定根因,并且缺乏集异常诊断与故障定位于一体的全方位智能运维监测系统。
5.当前,业务量攀升、技术栈重构、新技术推广等为信息系统运维带来更多困难。在大型分布式系统的海量的监控指标、复杂的调用关系中快速识别和定位故障根因成为一个亟需解决的难题。主要表现在一是无法在问题萌芽状态就发现问题,智能监控程度低;二是由于故障根因分析缺少大量有效的训练集,发生了问题无法快速确定根因,完全依赖算法在前期较难达到预期效果,需要结合一定的专家经验辅助决策。
6.在分布式复杂系统自动化运维程度较高的情况下,通过整合机器学习和大数据技术,以数据为基础,以算法为支撑,以专家经验为辅助手段,为企业系统稳定性运维提供数据管控能力、智能根因分析能力、异常风险预测能力的新一代运维手段和方法。提高系统的预判能力和稳定性,实现低成本、高质量及高效支撑。


技术实现要素:

7.鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种基于aiops的故障诊断系统。
8.根据本发明的一个方面,提供了一种基于aiops的故障诊断系统,所述诊断系统包
括:数据层、算法层和应用层;
9.所述数据层搜集了运维系统各个维度中的数据;
10.所述算法层留存各种算法,包括主要做特征工程的算法和建模型用到的算法,以及系统故障异常发现的算法;
11.所述应用层包括基于算法构建的模型,所述模型在实际场景中应用。
12.可选的,所述运维系统各个维度中的数据具体包括:cpu负载数据、网络相应设局、io写入写出速率数据。
13.可选的,所述诊断系统的构建具体包括:构建ai智推异常模型;系统总体功能建设。
14.可选的,所述构建ai智推异常模型具体包括:
15.步骤s1:搜集各种日常运维数据;
16.步骤s2:对步骤s1搜集的所述运维数据进行特征加工和特征抽取工作,获得运维特征;
17.步骤s3:基于步骤s2得到的所述运维特征,基于异常特征建立异常检测模型;
18.步骤s4:评估步骤s3得到的所述异常检测模型;常见指标主要有准确率和召回率;
19.步骤s5:将符合指标的所述异常检测模型存储至服务器。
20.可选的,所述构建ai智推异常模型还包括:
21.步骤s6:不断执行日常任务的运维数据监测,获得运维数据;
22.步骤s7:将所述运维数据进行特征加工后输入到所述异常检测模型,获得模型判断结果;
23.步骤s8:如果所述模型判断结果为异常,则进行系统预警并及时处置。
24.可选的,所述系统总体功能建设具体包括:
25.故障发现阶段,具体采用时间序列lstm检测算法和改进的deeplog算法协作完成;
26.根因智推阶段,当业务关注的指标发生异常告警后,触发系统根因分析功能,分流实现根因定位;
27.采用非监督的时间序列算法实现异常监测,对历史数据和预测数据都建立动态基线,并且参数化幅度如采用3-sigma取值,方便对历史数据和实时数据进行异常检测;
28.根据监控指标的历史变化情况,预测未来增长趋势,实现智能故障预测。
29.可选的,所述根因智推阶段具体包括:
30.基于已建成的aiops智推异常特征模型,通过监控指标多维度下钻和聚合分析锁定故障范围,结合主机进程、中间件、网络拓扑中故障情况,确定引起整个业务故障的排名;
31.结合专家经验知识库辅助决策,全方位对根因情况智能汇总。
32.可选的,所述智能故障预测具体包括:
33.采用非监督的时间序列算法实现异常监测,对历史数据和预测数据都建立动态基线,并且参数化幅度如采用3-sigma取值,方便对历史数据和实时数据进行异常检测;
34.根据监控指标的历史变化情况,预测未来增长趋势,提早发现潜在风险,实现智能故障预测。
35.本发明提供的一种基于aiops的故障诊断系统,所述诊断系统包括:数据层、算法层和应用层;所述数据层搜集了运维系统各个维度中的数据;所述算法层留存各种算法,包
括主要做特征工程的算法和建模型用到的算法,以及系统故障异常发现的算法;所述应用层包括基于算法构建的模型,所述模型在实际场景中应用。提高系统的预判能力和稳定性,实现低成本、高质量及高效支撑。
36.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
37.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
38.图1为本发明实施例提供的aiops故障诊断系统架构图;
39.图2为本发明实施例提供的aiops智推异常特征建模流程示意图;
40.图3为本发明实施例提供的故障根因智推流程图;
41.图4为本发明实施例提供的异常预测示意图。
具体实施方式
42.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
43.本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
44.下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
45.如图1所示,结合ai、大数据技术,实现系统信息采集、故障诊断、问题发生后的故障定位与分析结果自动化,提升了运维故障的发现和处置效率。系统架构如图1所示,该系统根据架构划分为数据层、算法层和应用层。其中数据层主要搜集了运维系统各个维度中的数据,如cpu负载数据、网络相应设局、io写入写出速率数据等;算法层主要留存各种算法,包括主要做特征工程的算法和建模型用到的算法,以及系统故障异常发现的算法;应用层部分主要包括基于算法构建的模型在实际场景中的应用,比如预测io延迟情况以便于及时干预。在系统建设上分两部分构建,一是构建ai智推异常模型,二是系统总体功能建设。
46.ai智推异常模型建设:利用机器学习算法将采集的信息进行集成学习,针对重要特性数据进行预测算法学习,实现了对人工无法覆盖范围的延展。系统异常特征模型主要分成异常模型建立和日常工作流两部分。如图2所示。
47.异常模型建立步骤如下:
48.步骤s1:搜集各种日常运维数据,如内存数据、网络数据;
49.步骤s2:对步骤s1搜集得来的运维数据进行特征加工和特征抽取工作。常见方法不限于tsne、minmaxscaler;
50.步骤s3:基于步骤s2得到的特征,基于异常特征建立异常检测模型;常见方法包括逻辑回归、岭回归、决策树等方法;
51.步骤s4:评估步骤s3得到的模型;常见指标主要有准确率和召回率;
52.步骤s5:将符合指标的模型存储起至服务器。
53.其中日常工作流涉及步骤如下:
54.步骤s6:不断执行日常任务的运维数据监测;
55.步骤s7:将步骤s6得到的数据按照步骤s2执行同样的特征加工后输入将步骤s5得到的模型中得到模型判断结果;
56.步骤s8:如果模型判断结果为异常,则进行系统预警并及时处置。
57.故障发现阶段:采用时间序列lstm检测算法和改进的deeplog算法协作完成;
58.文本日志数据监测,采用非监督算法deeplog(lstm模型),deeplog是将lstm(长短期记忆模型)应用到基于日志分析的系统异常检测的模型的别称,使用lstm模型来对日志序列建模,即使用系统正常运行状态下产生的日志序列来训练lstm模型,让lstm模型学习到系统正常运行状态下产生的日志序列的pattern,从而进行在线的异常检测。
59.在训练阶段:对系统正常运行状态下产生的日志进行处理,从中提取出日志模板序列和日志变量向量,分别用于训练日志模板异常检测模型和日志变量异常检测模型,其中日志模板序列还用于训练工作流模型,用于后续的对异常的理解和诊断;
60.在预测阶段,deeplog会对系统新产生的每一条日志进行异常检测,将新产生的日志转换为日志模板和日志变量向量,随后用日志模板异常检测模型和日志变量异常检测模型进行检测。
61.时序数据采用lstm进行时间序列异常监测,分两步:第一步、是使用lstm进行时间序列预测;第二步、是使用预测结果(y_hat)与实际结果(y_test)的差值进行异常区间的判断。
62.根因智推阶段:当业务关注的指标发生异常告警后,触发系统根因分析功能,分流实现根因定位,根因智推流程图如图3所示。
63.1)基于已建成的aiops智推异常特征模型,通过监控指标多维度下钻和聚合分析锁定故障范围,结合主机进程、中间件、网络拓扑中故障情况,确定引起整个业务故障的排名;
64.2)结合专家经验知识库辅助决策;
65.结合1)和2)工作流结果,全方位对根因情况智能汇总。
66.异常预测阶段:通过非监督的时间序列算法实现异常监测,对历史数据和预测数据都建立动态基线,并且参数化幅度如采用3-sigma取值,方便对历史数据和实时数据进行异常检测,提高报警准确性;同时可根据监控指标的历史变化情况,预测未来增长趋势,提早发现潜在风险,实现智能故障预测。
67.有益效果:对异常数据进行特征提取、分类。利用机器学习算法进行集成学习,针对重要特性数据进行预测算法学习,实现异常特征根因智推模型建立。
68.故障根因智推流程。结合异常特征根因智推模型与专家经验协作完成故障根因定位功能,快速锁定系统故障原因,全方位对根因情况智能汇总。
69.实现系统异常检测与异常发生后根因定位于一体的ai智能系统故障诊断系统。
70.以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献