一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网络故障分析方法及装置与流程

2021-11-26 23:39:00 来源:中国专利 TAG:


1.本技术涉及通信技术领域,具体涉及一种网络故障分析方法及装置。


背景技术:

2.在传统数据中心的网络运维中,专门运维人员在站点进行值守,通过实时监控网络设备的多项独立关键指标。然后,由相关运维专家,基于监控得到的关键指标来判断网络是否出现问题,并借助专业复杂的工具(如抓包,包染色等)来人工进行故障节点判断。由于软件定义网络(software defined network,sdn)覆盖设备面广,指标多,拓扑复杂,人工分析效率低,对人员的技能要求高。若采用传统的运维方案,难以在第一时间对sdn进行故障定界。
3.随着机器学习的技术成熟度日渐提升,可以很好的处理多维度指标间的关联性分析,已经逐渐被用在复杂度较高的网络故障排查。
4.现有的基于机器学习的网络故障排除方案,基于已采集的故障数据进行离线模型训练,然后投入到现网中使用。由于已采集的故障数据有限,难以覆盖现网中的各种情况,可能会出现故障识别过于敏感或迟钝等问题。


技术实现要素:

5.本技术实施例提供了一种网络故障分析方法及装置,在故障检测模型上线使用过程中,可以对故障检测模型进行增量训练,实现了故障检测模型的边使用边更新,使得故障检测模型的识别准确率越来越高。
6.第一方面,本技术实施例提供了一种网络故障分析方法,包括:获取用户上报的故障事件;获取数据中心的网元的第一指标数据,其中第一指标数据与故障事件关联,且第一指标数据被故障检测模型确认为正常数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为故障数据的能力,第二指标数据是根据所述第一指标数据确定的。
7.也就是说,在故障检测模型将故障数据识别为正常数据,即故障检测模型识别错误的情况下,可以为与故障数据关联的指标数据设置标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别故障数据的能力,由此,提高了故障检测模型的识别准确率。
8.可选地,获取数据中心的网元的第一指标数据之后,向用户显示该第一指标数据,用户人工分析第一指标数据之后,确认第一指标数据为故障数据,调取第二指标数据进行人工分析,确认第二指标数据也为故障数据。
9.可选地,第一指标数据可以是该网元的在第一时间段的性能数据,第二指标数据可以是该网友在第二时间段的性能数据,第一时间段为第二时间段的子集。
10.在一种可能的实现方式中,第一指标数据携带有时间戳;该方法还包括:根据时间戳,确定时间段;确定网元在时间段内的性能数据为第二指标数据。
11.也就是说,在该实现方式中,确定时间戳与第一指标数据时间戳相同和相近的指标数据为第二指标数据。
12.在一种可能的实现方式中,为第二指标数据设置标签包括:为第二指标数据关联故障标签,故障标签用于表示第二指标数据为对应于故障场景的故障数据。
13.也就是说,在该实现方式中,可以为第二指标数据添加对应于故障场景的标签,使得故障检测模型获得正确识别故障场景的能力。
14.在一种可能的实现方式中,故障场景为中央处理器(cpu)占用率高、流量突增、小包攻击、开源虚拟交换机(ovs)流表丢失中的任一种。
15.也就是说,在该实现方式中,可以训练故障检测模型识别不同的故障场景,方案的灵活性高。
16.在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
17.也就是说,在该实现方式中,故障检测模型可以根据网元的运行日志中的性能数据进行计算,以识别性能数据是否为故障数据;或者,可以为网元的运行日志中的性能数据设置标签,并用于训练故障检测模型。
18.第二方面,本技术实施例提供了一种网络故障分析方法,包括:获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为故障数据;为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为正常数据的能力,第一指标数据是第二指标数据的子集。
19.也就是说,在故障检测模型将正常数据识别为故障数据,即故障检测模型识别错误的情况下,可以为与正常数据关联的指标数据设置标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别正常数据的能力,由此,提高了故障检测模型的识别准确率。
20.在一种可能的实现方式中,第一指标数据携带有时间戳;方法还包括:根据时间戳,确定时间段;确定网元在时间段内的性能数据为第二指标数据。
21.在一种可能的实现方式中,为第二指标数据设置标签包括:为第二指标数据关联正常标签,正常标签用于表示第二指标数据为正常数据。
22.在一种可能的实现方式中,故障数据对应故障场景,故障场景为中央处理器(cpu)占用率高、流量突增、小包攻击、开源虚拟交换机(ovs)流表丢失中的任一种。
23.在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
24.第三方面,本技术实施例提供了一种网络故障分析方法,包括:获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为第一故障数据,第一故障数据对应第一故障场景;为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为第二故障数据的能力,第二故障数据对应第二故障场景,第一故障场景和第二故障场景不同,第一指标数据是第二指标数据的子集。
25.也就是说,在故障检测模型将故障场景1的故障数据识别为故障场景2的故障数据,即故障检测模型识别错误的情况下,可以为与故障场景1的故障数据关联的指标数据设
置故障场景1的标签,并使用设置标签后的指标数据对故障检测模型进行训练,使得故障检测模型获得正确识别故障场景1的故障数据的能力,由此,提高了故障检测模型的识别准确率。
26.在一种可能的实现方式中,第一指标数据携带有时间戳;方法还包括:根据时间戳,确定时间段;确定网元在时间段内的性能数据为第二指标数据。
27.在一种可能的实现方式中,为第二指标数据设置标签包括:为第二指标数据关联故障标签,故障标签对应于第二故障场景。
28.在一种可能的实现方式中,第一故障场景和第二故障场景为中央处理器(cpu)占用率高、流量突增、小包攻击、开源虚拟交换机(ovs)流表丢失中的任意两种的组合。
29.在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
30.第四方面,本技术实施例提供了一种网络故障分析装置,包括:第一获取单元,用于获取用户上报的故障事件;第二获取单元,用于获取数据中心的网元的第一指标数据,其中第一指标数据与故障事件关联,且第一指标数据被故障检测模型确认为正常数据;设置单元,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为故障数据的能力,第一指标数据是第二指标数据的子集。
31.在一种可能的实现方式中,第一指标数据携带有时间戳;装置还包括确定单元;确定单元用于根据所述时间戳,确定时间段;确定单元还用于确定网元在时间段内的性能数据为第二指标数据。
32.在一种可能的实现方式中,设置单元用于为第二指标数据关联故障标签,故障标签用于表示第二指标数据为对应于故障场景的故障数据。
33.在一种可能的实现方式中,故障场景为中央处理器(cpu)占用率高、流量突增、小包攻击、开源虚拟交换机(ovs)流表丢失中的任一种。
34.在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
35.第五方面,本技术实施例提供了一种网络故障分析装置,包括:获取单元,用于获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为故障数据;设置单元,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为正常数据的能力,第一指标数据是第二指标数据的子集。
36.在一种可能的实现方式中,第一指标数据携带有时间戳;装置还包括确定单元;确定单元用于根据时间戳,确定时间段;确定单元还用于确定网元在时间段内的性能数据为第二指标数据。
37.在一种可能的实现方式中,设置单元还用于为第二指标数据关联正常标签,正常标签用于表示第二指标数据为正常数据。
38.在一种可能的实现方式中,故障数据对应故障场景,故障场景为中央处理器(cpu)占用率高、流量突增、小包攻击、开源虚拟交换机(ovs)流表丢失中的任一种。
39.在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标
数据包含于网元的运行日志。
40.第六方面,本技术实施例提供了一种网络故障分析装置,包括:获取单元,用于获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为第一故障数据,第一故障数据对应第一故障场景;设置单元,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为第二故障数据的能力,第二故障数据对应第二故障场景,第一故障场景和第二故障场景不同,第一指标数据是第二指标数据的子集。
41.在一种可能的实现方式中,第一指标数据携带有时间戳;装置还包括确定单元;确定单元用于根据时间戳,确定时间段;确定单元还用于确定网元在时间段内的性能数据为第二指标数据。
42.在一种可能的实现方式中,设置单元还用于为第二指标数据关联故障标签,故障标签对应于第二故障场景。
43.在一种可能的实现方式中,第一故障场景和第二故障场景为中央处理器(cpu)占用率高、流量突增、小包攻击、开源虚拟交换机(ovs)流表丢失中的任意两种的组合。
44.在一种可能的实现方式中,第一指标数据包含于网元的运行日志,或者,第二指标数据包含于网元的运行日志。
45.第七方面,本技术实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器用于存储计算机指令;当电子设备运行时,处理器执行计算机指令,使得电子设备执行第一方面所提供的方法。
46.第八方面,本技术实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器用于存储计算机指令;当电子设备运行时,处理器执行计算机指令,使得电子设备执行第二方面所提供的方法。
47.第九方面,本技术实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器用于存储计算机指令;当电子设备运行时,处理器执行计算机指令,使得电子设备执行第三方面所提供的方法。
48.第十方面,本技术实施例提供了一种计算机存储介质,计算机存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行第一方面所提供的方法。
49.第十一方面,本技术实施例提供了一种计算机存储介质,计算机存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行第二方面所提供的方法。
50.第十二方面,本技术实施例提供了一种计算机存储介质,计算机存储介质包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行第三方面所提供的方法。
51.第十三方面,本技术实施例提供了一种计算机程序产品,计算机程序产品包含的程序代码被用于电子设备中的处理器执行时,实现第一方面所提供的方法。
52.第十四方面,本技术实施例提供了一种计算机程序产品,计算机程序产品包含的程序代码被用于电子设备中的处理器执行时,实现第二方面所提供的方法。
53.第十五方面,本技术实施例提供了一种计算机程序产品,计算机程序产品包含的程序代码被用于电子设备中的处理器执行时,实现第三方面所提供的方法。
54.本技术实施例提供的网络故障分析方法,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签
的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
附图说明
55.图1是本技术实施例可应用的一种网络结构的示意图;
56.图2是本技术实施例提供的一种网络故障分析方法流程图;
57.图3a是本技术实施例提供的一种用户交互界面示意图;
58.图3b是本技术实施例提供的一种用户交互界面示意图;
59.图4是本技术实施例提供的一种用户交互界面示意图;
60.图5是本技术实施例提供的一种网络故障分析方法流程图;
61.图6是本技术实施例提供的一种用户交互界面示意图;
62.图7是本技术实施例提供的一种用户交互界面示意图;
63.图8是本技术实施例提供的一种网络故障分析方法流程图;
64.图9是本技术实施例提供的一种网络故障分析装置的结构示意图;
65.图10是本技术实施例提供的一种网络故障分析装置的结构示意图;
66.图11是本技术实施例提供的一种网络故障分析装置的结构示意图;
67.图12是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
68.下面将结合附图,对本发明实施例中的技术方案进行描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。
69.在本说明书的描述中“一个实施例”或“一些实施例”等意味着在本说明书的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
70.其中,在本说明书的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,在本说明书实施例的描述中,“多个”是指两个或多于两个。
71.在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
72.根据一种方案,可以在实验室内搭建类现网的网络运行环境,并通过故障注入器或人工故障模拟等方式进行网络故障模拟,致使类现网的网络运行环境中的某个或某些个网元出现运行异常。与此同时,采集运行正常的网元的各项指标以及运行异常的网元的各项指标。然后,分别为运行正常的网元的指标以及运行异常的网元的指标带上标签。再使用携带有标签的指标,进行训练集分类。并借助该训练集以及某种算法(类决策树、神经网络等)进行模型训练,得到检测模型。
73.将训练得到的检测模型可投入到真实的现网运行环境,以进行加载运行。与此同时,为现网运行环境中各关键网元安装指标采集器(agent)。指标采集器可以采集所在网元的相关指标,并将采集的相关指标发送至故障检测模型进行计算,以检测发生故障的网元以及该网元的故障类型。
74.该方案存在如下问题。
75.a,由于实验室内搭建的类现网的网络运行环境与真实的现网运行环境之间存在一定的差异。使得故障检测模型在识别现网运行环境中故障网元时,可能出现过拟合,导致识别敏感或迟钝等情况出现。并且故障检测模型的参数调优较为困难。也就是说,当故障检测模型识别效果较差,再次训练故障检测模型时,需要借助专业人员,优化训练数据。
76.b,故障检测模型扩展困难。一旦需要调优,或者需要适配更多的故障类型时,则需要在实验室环境搭建的新的网络运行环境。该操作难度较高,且现网运行环境中不同局点的网络运行环境难以被覆盖全面。
77.c,新的模型发布难。特别是,企业级模型产品发布需要一定的时间窗口,更新后的故障检测模型难以被及时发布在各个现网局点。导致无法及时更新并检测可用性。
78.为了解决上述问题,本技术提供了一种网络故障分析方法,可以在故障检测模型投入现网后的运行过程中,可以设定采集到的现网中网元的指标数据的标签,并根据携带有标签的指标数据,更新故障检测模型,从而实现了故障检测模型的边运行,边更新,由此,可以随之故障检测模型运行时间的增加,故障检测模型的识别准确率越来越高。
79.图1示出了本技术提供的网络故障分析方法可应用的一种网络结构。该网络结构可以包括数据中心100和故障检测平台200。
80.数据中心100可以为基于软件定义网络(software defined network,sdn)。示例性的,如图1所示,数据中心100可以包括虚拟机(virtual machine,vm)101、虚拟机102、开源虚拟交换机(open vswitch,ovs)111、虚拟机104、虚拟机105、开源虚拟交换机112、虚拟机105、虚拟机106、开源虚拟交换机113、虚拟机107、虚拟机108、开源虚拟交换机114。数据中心100还可以包括虚拟路由器(vrouter)121/弹性负载均衡器(elastic load balancer,elb)131。为方便描述,可以将前述虚拟机、开源虚拟交换机、虚拟路由器、弹性负载均衡器统称为网元。
81.其中,虚拟机101、虚拟机102、开源虚拟交换机111、虚拟机104、虚拟机105、开源虚拟交换机112可以组成一个虚拟私有云(virtual private cloud,vpc)。虚拟机105、虚拟机106、开源虚拟交换机113、虚拟机107、虚拟机108、开源虚拟交换机114可以组成另一个虚拟私有云。这两个虚拟私有云之间可以通过虚拟路由器121/弹性负载均衡器进行通信。
82.可以理解的是,图1示意的结构并不构成对数据中心100的具体限定。在本技术另一些实施例中,数据中心100可以包括比图示更多或更少的网元。
83.可以理解的是,网元可以将自身的性能数据到运行日志中。性能数据也可以称为指标数据,其可以用于表示网元的运行状态。具体而言,性能数据(指标数据)可以包括中央处理器(central processing unit,cpu)占用率、关键绩效指标(key performance indicator,kpi)、告警数据等。更具体的,当网元为虚拟路由器时,关键绩效指标可以包括网口发包数(tx_pkts)、网口收包数(rx_pkts)、网口发流量(tx_bytes)、网口收流量(rx_bytes)、网卡收报文丢包网口发流量(rx_dropped)、网卡发报文丢包网口发流量(tx_
dropped)等等。当网元为虚拟机时,关键绩效指标可以包括接收总字节数、接收数据包总数、接收错误总数、接收丢弃的数据包总数、接收fifo缓冲区错误的数量、接收分组帧错误的数量、接收压缩数据包数、接收多播帧数、发送总字节数等等。
84.需要说明的是,上文仅对性能数据(指标数据)进行举例说明,并不构成限定。在本技术另一些实施例中,性能数据(指标数据)还可以为或包括其他可以表示网元运行状态的数据。
85.数据中心100中的所有网元或者部分网元可以包括指标采集器。示例性的,一个指标采集器可以对应一个网元,一个指标采集器用于采集其对应网元的指标数据。其中,指标采集器在采集到指标数据时,可以将该指标采集器对应的网元的标识和采集到的指标数据进行关联,以表明采集到的指标数据所属的网元。在一个例子中,网元的标识可以为网元的网络地址。
86.示例性的,指标采集器可以按照预设时间间隔(例如每隔1分钟)采集对应网元的指标数据。在一个示例中,采集指标数据可以是指从网元的运行日志中获取指标数据。其中,本次采集的指标数据是网元在上次采集发生后记录到运行日志中的指标数据。具体而言,设定指标采集器每隔1分钟采集一次指标数据,并在xx年xx月xx日12:01采集了一次指标数据,该次采集的指标数据为网元在xx年xx月xx日12:00-xx年xx月xx日12:01之间记录到运行日志中的数据。
87.示例性的,指标采集器采集到的指标数据可以携带有时间戳。在一个例子中,该时间戳可以为该指标数据被指标采集器采集的时间。
88.指标采集器可以将其采集的指标数据发送到故障检测平台200,以供故障检测平台200检测对应网元的运行状态以及校正故障检测模型。示例性的,故障检测平台200可以包括数据存储节点(未示出)。数据存储节点可以用于存储数据中心100的指标采集器发送的指标数据。在一个例子中,数据存储节点也可以为故障检测平台200中的某一设备中的存储器,也可以为故障检测平台200中某一个或几个独立存储设备。本技术不对数据存储节点的实现形式做具体限定。
89.继续参阅图1,故障检测平台200可以包括故障分析节点201、校正节点202、模型训练节点203。示例性的,故障检测平台200可以具有数据计算、处理能力的装置,例如服务器。故障分析节点201、校正节点202、模型训练节点203可以为运行在该装置上的不同软件模块。示例性的,故障检测平台200可以为设备集群,故障分析节点201、校正节点202、模型训练节点203可以为不同的物理设备。可以理解的是,前文仅对故障检测平台200以及故障分析节点201、校正节点202、模型训练节点203的存在形式进行示例说明,并不构成限定。
90.故障分析节点201可以部署有故障检测模型。故障分析节点201可以采用故障检测模型,利用数据中心100发送的网元的指标数据,进行计算,以分析网元的运行状态。可以理解的是,在故障分析节点201首次部署故障检测模型时,可以将线下训练的故障检测模型(例如,根据上文介绍的通过在实验室内搭建类现网的网络运行环境,并通过故障注入器或人工故障模拟等方式进行网络故障模拟,得到训练数据,并进行模型训练得到的故障检测模型)加载到故障分析节点201中。
91.示例性的,故障分析节点201可以按照预设时间间隔(例如每隔1分钟)从数据存储节点提取指标数据。其中,本次提取的指标数据是数据存储节点在上次提取发生后从数据
中心100接收到的指标数据。具体而言,设定故障分析节点201每隔1分钟从数据存储节点提取一次指标数据,并在xx年xx月xx日12:02提取了一次指标数据,该次提取的指标数据为数据中心在xx年xx月xx日12:01-xx年xx月xx日12:02之间从数据中心100接收到的数据。
92.示例性的,每当故障分析节点201提取到指标数据时,故障分析节点根据采用故障检测模型,根据本次提取的指标数据,进行计算,分析网元的运行状态。有上文可知,数据中心100发送给故障检测平台的指标数据关联有网元的标识,因此,故障分析模型可以根据对应于某个网元的指标数据,分析某个网元的运行状态。网元的运行状态可以分为正常运行状态和故障状态。正常运行状态可以是指网元没有出现异常,按照相关要求正常运行的状态。故障状态可以是指网元出现了异常,脱离了正常运行状态。可以理解,若故障分析模型将指标数据识别为了正常数据,则根据该指标数据进行计算,分析出的运行状态为正常运行状态。若故障分析模型将指标数据识别为了故障数据,则根据该指标数据进行计算,分析出的运行状态为故障状态。
93.示例性的,故障状态可以为处于故障场景。也就说,故障分析模型可以根据网元的指标数据,分析该网元是否处于故障场景。故障场景可以是指能够导致网元出现故障(例如时延大、业务丢包率高或某些流量不通等)的异常场景或异常情况。在一个例子中,网元处于故障场景可以是指网元的cpu占用率高(超过了阈值),cpu占用率高可以导致业务丢包率高。在另一个例子中,网元处于故障场景可以是指网元的流量突增,流量突增可以导致业务丢包率高或时延大。在又一个例子中,网元处于故障场景可以是指网元遭遇到小包攻击。在又一个例子中,网元处于故障场景可以是指网元的ovs流表丢失,ovs流表丢失可以导致某些流量不通等等。需要说明的是,前文仅对故障场景进行示例说明,并非构成限定。
94.继续参阅图1,故障分析节点201可以向校正节点202发送分析结果,分析结果可以包括用于表示网元的运行状态的状态指示信息,该运行状态为故障分析节点201最近分析出的运行状态。示例性的,由上文所述,数据中心100发送给故障检测平台200的指标数据携带有时间戳,由此,分析结果还可以包括状态指示信息对应的指标数据携带的时间戳。举例而言,分析结果包括用于表示运行状态a1的状态指示信息,运行状态a1是故障检测模型基于指标数据a11进行计算得到的,指标数据a11携带有时间戳。则分析结果可以包括指标数据a11携带的时间戳。
95.校正节点202可以自动显示从故障分析节点接收到的分析结果。或者,校正节点202可以先本地存储分析结果,当接收到相关人员(运维人员)起始的显示分析结果的操作时,显示分析结果。本技术实施例,对分析结果的显示方式不做具体限定。
96.示例性的,校正节点202可以判断分析结果中是否包括用于表示故障状态的状态指示信息。当分析结果中包括用于表示故障状态的状态指示信息时,校正节点202可以提供警报,以提示运维人员及时查看分析结果。
97.校正节点202还可以提供相关人员(例如运维人员)查看数据存储节点存储的指标数据的入口,以便人工根据指标数据分析网元的运行状态。当人工分析的网元的运行状态和故障检测模型分析出的该网元的运行状态不一致时,可以根据人工分析的运行状态为指标数据设置标签,得到增量训练集。具体将在下文进行介绍,此处不再赘述。
98.继续参阅图1,校正节点202可以将增量训练集发送给模型训练节点203,以便模型训练节点203可以根据增量训练集和历史上用于训练故障检测模型的训练集,再次训练故
障检测模型,以得到更新后的故障检测模型。此处的再次训练故障检测模型也可以称为故障检测模型增量训练。具体而言,模型训练节点203部署有用于实时机器学习(模型构建)的运行环境(例如,evaluation),并且存储有历史上用于训练故障检测模型的训练集。例如,初始的故障检测模型是通过根据上文介绍的通过在实验室内搭建类现网的网络运行环境,并通过故障注入器或人工故障模拟等方式进行网络故障模拟,得到训练数据,并进行模型训练得到的。则历史上用于训练故障检测模型的训练集包括该训练数据。历史上用于训练故障检测模型的训练集包括该训练数据还可以包括历史上历次或某几次从校正节点202接收到的增量训练集。
99.通过对故障检测模型的增量训练,提高了故障检测模型对指标数据进行正确分类的能力,使得故障检测模型识别网元运行状态的准确度越来越高。
100.接下来,在不同实施例中,介绍本技术提供的网络故障分析方法的方法流程。
101.下文介绍本技术提供的一种网络故障分析方法的第一实施例,适用于故障检测模型分析出的运行状态为正常运行状态,而人工分析的运行状态为故障状态这一情况。图2是本技术提供的一种网络故障分析方法的第一实施例的流程图,该方法可以由图1所示的故障检测平台200执行。如图2所示,该方法可以包括如下步骤。
102.步骤210,获取用户上报的故障事件。
103.用户也可以称为租户,可以是指租用数据中心100中的某一个或多个虚拟私有云的用户。
104.用户发现其租用的虚拟私有云可能发生了故障,例如,发现了业务时延超过了120ms,即发现了虚拟私有云发送了故障,且故障的类型为业务时延大。用户可以向故障检测平台200反馈故障事件。
105.在一个说明性示例中,用户侧可以设置有业务监控装置,业务监控装置可以监控业务时延、业务丢包率等。业务监控装置还可以和图1中的校正节点202进行通信。当业务监控装置监控到业务时延大(业务时延超过了门限值)或业务丢包率高(业务丢包率超过了门限值)时,业务监控装置可以主动向校正节点202上报故障事件。或者,当业务监控装置监控到业务时延大(业务时延超过了门限值)或业务丢包率高(业务丢包率超过了门限值)时,业务监控装置可以显示用于表示业务时延大或业务丢包率高的提示信息,以便用户操作业务监控装置,使得该监控装置向校正节点202上报故障事件。例如,业务监控装置可以显示弹出窗口,该弹出窗口可以显示“业务时延大”或“业务丢包率高”,该弹出窗口还可以包括发送功能区和取消功能区。业务监控装置可以响应于针对发送功能区的操作,向校正节点202上报故障事件。
106.在一个说明性示例中,故障事件可以包括故障出现时间和网元的标识。在一个例子中,以设定用户租用了虚拟机101、虚拟机102、开源虚拟交换机111、虚拟机104、虚拟机105、开源虚拟交换机112组成的虚拟私有云。业务监控装置监测到在xx年xx月xx日12:00,开源虚拟交换机111向开源虚拟交换机112发送的数据包的时延超过了120ms。业务监控装置可以将开源虚拟交换机111的标识以及xx年xx月xx日12:00包括在故障事件中。
107.在该示例的一个具体实例中,故障事件还可以包括故障类型。可以理解的是,时延大、丢包率高等为不同的故障,可以将不同的故障称为不同的故障类型。举例而言,时延大为一种故障类型,丢包率高为另一种故障类型。以上段包括了开源虚拟交换机111的标识以
及xx年xx月xx日12:00的故障事件为例,该故障事件还可以包括用于表示时延大这一故障类型的信息。
108.步骤220,获取数据中心的网元的第一指标数据,其中所述第一指标数据与所述故障事件关联,且所述第一指标数据被故障检测模型确认为正常数据。
109.具体而言,校正节点202在接收到用户上报的故障事件后,可以确定该故障事件关联的指标数据。如上所述,故障事件可以包括故障出现时间和网元的标识,数据存储节点存储的指标数据(即数据中心100上报的指标数据)携带有时间戳和网元的标识。由此,可以根据故障事件中故障出现时间和网元的标识,从数据存储节点存储的指标数据中确定故障事件关联的指标数据。在一个例子中,可以先根据故障事件中的网元的标识,从数据存储节点存储的指标数据中筛选出携带有该标识的指标数据;然后,根据故障事件中故障出现时间,从携带有该标识的指标数据中筛选出时间戳最接近故障出现时间的指标数据。由此,得到故障事件关联的指标数据。也就是说,故障事件关联的指标数据携带的网元的标识与故障事件中网元的标识相同,且该指标数据携带的时间戳与故障事件中故障出现时间相同或相近。
110.故障事件关联的指标数据被故障检测模型确认为正常数据。也就是说,故障分析节点201利用故障检测模型,根据故障事件关联的指标数据进行计算,得到的分析结果为网元处于正常状态。示例性的,运维人员可以操作校正节点202,回放故障事件关联的指标数据对应的分析结果,从而可以人为检查故障检测模型根据故障事件关联的指标数据分析出的运行状态。在一个例子中,校正节点202可以提供分析结果查看界面,其中包括搜索框。运维人员可以将故障事件中的网元的标识和故障出现时间输入到搜索框中,并进行搜索,从而可以调出故障检测模型根据故障事件关联的指标数据分析出的运行状态。
111.步骤230,为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为故障数据的能力,所述第一指标数据是所述第二指标数据的子集。
112.在该步骤中,可以先根据故障事件关联的指标数据(第一指标数据),确定待标注指标数据(第二指标数据)。设置标签后的待标注指标数据可以作为增量训练集,用于再次训练故障检测模型。根据增量训练集,再次训练故障检测模型可以参考上文介绍,在此不再赘述。
113.可以理解的是,为了实现较好的模型训练效果,需要较大量的增量训练集,也就是说需要较大量的待标注指标数据。为此,在本步骤中,确定数据量多于故障事件关联的指标数据的待标注指标数据。
114.示例性的,如上所述,故障事件关联的指标数据携带有时间戳和网元的标识。可以先根据故障事件关联的指标数据携带的时间戳,确定时间段t1。在一个例子中,将时间戳前后n分钟之间的时间段作为时间段t1,也就是说,时间段t1包括该时间戳(或者说该时间戳对应的时间)。在一个具体例子中,可以设定故障事件关联的指标数据携带的时间戳为xx年xx月xx日12:00,n为30,则时间段t1为xx年xx月xx日11:30至xx年xx月xx日12:30。
115.数据存储节点存储的指标数据(即数据中心100上报的指标数据)携带有时间戳和网元的标识。可以根据时间段t1以及故障事件关联的指标数据携带的网元的标识,从数据存储节点存储的指标数据中确定待标注指标数据。具体而言,可以先从数据存储节点存储
的指标数据中,筛选出故障事件关联的指标数据携带的网元的标识对应的指标数据,并从筛选出的指标数据中进一步筛选出时间戳位于时间段t1之内的指标数据,得到待标注指标数据。也就是说,待标注指标数据为网元在时间段t1内记录到运行日志中的数据,或者说待标注指标数据为网元在时间段t1内的性能数据。如上所述,时间段t1包括了故障事件关联的指标数据携带的时间戳(或者说时间戳对应的时间),因此,得到的待标注指标数据包括了故障事件关联的指标数据。也就是说,故障事件关联的指标数据是待标注指标数据的子集。
116.可以理解的是,不同的故障类型对应的不同的指标是有差异的。例如,丢包率对应的性能数据包括网卡收报文丢包、网卡发报文丢包等。时延大对应的性能数据包括网口发流量、网口收流量、网口发包数、网口收包数等。在具体实现时,运维人员可以根据经验或实验,预先设置不同的故障类型和指标的对应关系。由上所述,故障事件还可以包括故障类型。校正节点202可以根据故障类型以及预设的不同的故障类型和指标的对应关系,对网元在时间段t1内的指标数据进行分类,筛选出与故障事件中故障类型相关的指标数据,得到待标注指标数据,由此可以得到具有针对性的待标注指标数据。可以理解的是,不同的故障场景可以对应不同的故障类型,例如流量突增可能会导致业务丢包率高或业务时延大,ovs流表丢失导致某些流量不通等等,此处不再一一列举。将与故障事件中故障类型相关的指标数据,作为待标注指标数据,使得待标注指标数据对故障场景而言,更具有针对性。举例而言,故障类型为业务时延大,可以将业务时延大相关的指标数据作为待标注指标数据,而使得待标注指标数据不包括某些流量不通等相关的指标数据。
117.示例性的,可以响应于相关人员起始的操作,为待标注指标数据关联故障标签,以得到增量训练集。
118.在为待标注指标数据关联故障标签关联故障标签之前,可以先人工分析故障事件对应的网元的运行状态。
119.示例性的,当在步骤230中,确定出待标注指标数据时,校正节点202可以显示待标注指标数据,以便运维人员根据待标注指标数据人工分析相应网元是否为故障状态。
120.如上所述,网元的运行状态分为正常运行状态和故障状态。故障状态可以为处于故障场景。故障场景可以为流量突增、小包攻击、ovs流表丢失、cpu占用率高等。运维人员对待标注指标数据进行人工分析发现,在待标注指标数据对应的时间范围(时间段t1)内,网元处于故障状态,且处于故障场景b1中(例如故障场景b1为流量突增或小包攻击或ovs流表丢失或cpu占用率高)。例如,待标注指标数据对应的时间范围为xx年xx月xx日11:30至xx年xx月xx日12:30,故障场景b1为流量突增,说明在xx年xx月xx日11:30至xx年xx月xx日12:30,网元遭遇到了流量突增,从而导致了时延大。
121.当人工分析出待标注指标数据对应的故障场景b1时,可以响应于运维人员的操作,为待标注指标数据关联故障场景b1的标签。对应于故障场景b1的标签表示关联该标签的指标数据为故障场景b1对应的故障数据。
122.示例性的,校正节点202可以显示图3a所示界面,该界面可以包括功能区301和区域302。功能区301可以为运维人员提供选择故障场景的入口。区域302可以显示待标注指标数据。校正节点202可以响应于针对功能区301的操作,显示如图3b所示界面。其中,功能区301可以显示下拉菜单,下拉菜单可以包括“流量突增”、“小包攻击”、“ovs流表丢失”、“cpu
占用率高”等故障场景,以便运维人员进行选择。区域302还可以显示功能区3021。当校正节点202接收到针对下拉菜单中“流量突增”的操作,且接收到针对功能区3021的操作时,校正节点202可以为待标注指标数据关联流量突增的标签。流量突增的标签表示关联该标签的指标数据为流量突增对应的故障数据。
123.关联了故障标签的待标注指标数据可以称为增量训练集。校正节点202可以将增量训练集发送至模型训练节点203,以便模型训练节点203对故障检测模型进行增量训练,更新故障检测模型。增量训练具体可以参考上文所述,在此不再赘述。
124.可以理解,将关联了故障场景b1的待标注指标数据作为增量训练集,对故障检测模型进行更新(对故障检测模型进行增量训练),使得故障检测模型在根据待标注指标数据进行计算时,可以更大概率识别出网元处于故障场景b1,也就是说,故障检测模型获得了识别待标注指标数据为故障数据,且该故障数据对应故障场景b1的能力。由此,当待标注指标数据对应的网元再次处于故障场景b1时,故障检测模型可以较为准确地识别出网元处于故障场景b1。
125.在一个具体实例中,示例介绍更新后的故障检测模型的识别效果。可以设定在包含xx年xx月19日12:00的时间段内,开源虚拟交换机111处于流量突增,但故障检测模型根据开源虚拟交换机111在xx年xx月19日12:00的指标数据,没有检测到开源虚拟交换机111处于流量突增。而用户侧的业务监控装置监测到在xx年xx月19日12:00,业务时延超过了120ms,进而向故障检测平台200上报故障事件。然后,故障检测平台200通过图2所示的方法,确定了增量训练集,并对故障检测模型进行增量训练,使得故障检测模型得到了更新。
126.参阅图4,当开源虚拟交换机111再次处于流量突增时,更新后的故障检测模型可以分析出开源虚拟交换机111处于流量突增。如图4所示,更新后的故障检测模型可以检测到xx年xx月20日12:00,开源虚拟交换机111处于流量突增。
127.本技术实施例提供的网络故障分析方法,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
128.下文介绍本技术提供的一种网络故障分析方法的第二实施例,适用于故障检测模型分析出的运行状态为故障状态,而人工分析的运行状态为正常运行状态这一情况。该方法可以由图1所示的故障检测平台200执行。如图5所示,该方法可以包括如下步骤。
129.步骤510,获取数据中心的网元的第一指标数据,所述第一指标数据被故障检测模型确认为故障数据。
130.故障检测平台200中的故障分析节点201可以采用故障检测模型,利用从数据存储节点提取的网元的指标数据,进行计算,以分析网元的运行状态。具体可以参考上文介绍,在此不再赘述。
131.当分析得到网元的运行状态为故障状态时,则用于分析出该故障状态的指标数据为故障数据。为方便描述,可以设定故障分析节点201可以采用故障检测模型,利用一次从数据存储节点提取的网元c1的指标数据,分析出网元c1为故障状态。即该次从数据存储节点提取的网元c1的指标数据被故障检测模型确认为故障数据。为方便表述,可以将该次从数据存储节点提取的网元c1的指标数据称为指标数据c11(即步骤510中的第一指标数据)。
132.如上所述,故障状态可以称为处于故障场景。示例性的,故障场景可以为流量突
增,或者为小包攻击,或者为ovs流表丢失,或者为cpu占用率高,等等。此处不再一一列举。
133.步骤520,为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为正常数据的能力,所述第一指标数据是所述第二指标数据的子集。
134.由上文所述,数据存储节点存储的指标数据携带有时间戳,因此,指标数据c11也携带有时间戳。可以根据指标数据c11携带的时间戳,确定第二指标数据。第二指标数据也可以称为待标注指标数据。
135.如上所述,故障分析节点201可以将其利用故障检测模型进行分析得到的分析结果发送给校正节点202。分析结果包括用于表示网元的运行状态的状态指示信息。校正节点202可以根据网元的运行状态的状态指示信息,提供用于展示网元的运行状态的界面。当运维人员看到网元的运行状态为故障状态时,可以操作校正节点202,使得校正节点202确定待标注指标数据。
136.在一个说明性示例中,用于展示网元的运行状态的界面可以包括获取待标注指标数据功能区。校正节点可以响应于针对获取待标注指标数据功能区操作,根据指标数据c11,来确定待标注指标数据。具体而言,可以先根据指标数据c11携带的时间戳,确定时间段t2。然后,通过时间t2,确定待标注指标数据。在一个例子中,将指标数据c11携带的时间戳前后n分钟之间的时间段作为时间段t2。在一个具体例子中,可以设定指标数据c11携带的时间戳为xx年xx月xx日10:00,n为30,则时间段t2为xx年xx月xx日09:30至xx年xx月xx日10:30。也就是说,时间段t2包括指标数据c11携带的时间戳(或者说指标数据c11携带的时间戳对应的时间)。
137.在一个说明性示例中,如上所述,分析结果还包括时间戳,该时间戳为状态指示信息对应的指标数据携带的时间戳。具体可以参考上文介绍,在此不再赘述。用于展示网元的运行状态的界面可以显示指标数据c11携带的时间戳,以便运维人员可以看到该时间戳。运维人员可以操作校正节点202,使得校正节点202可以显示时间滑动窗口。在一个例子中,时间滑动窗口可以如图6所示,时间滑动窗口可以包括滑块601和滑块602。滑块601和滑块602可以被任意拖动,以便运维人员选择时间段。通过拖动滑块601和滑块602,从而可以确定时间段t2。在一个例子中,可以设定指标数据c11携带的时间戳为xx年xx月xx日10:00,n为30,通过滑块601和滑块602确定的时间段t2为xx年xx月xx日09:30至xx年xx月xx日10:30。也就是说,时间段t2包括指标数据c11携带的时间戳(或者说指标数据c11携带的时间戳对应的时间)。
138.数据存储节点存储的指标数据(即数据中心100上报的指标数据)携带有时间戳和网元的标识。可以根据时间段t2以及指标数据c11携带的网元(即网元c1)的标识,从数据存储节点存储的指标数据中确定待标注指标数据。具体而言,可以先从数据存储节点存储的指标数据中筛选出网元c1的指标数据,并从筛选出的指标数据中进一步筛选出时间戳位于时间段t2之内的指标数据,得到待标注指标数据。也就是说,待标注指标数据为网元c1在时间段t2内记录到运行日志中的数据,或者说待标注指标数据为网c1元在时间段t2内的性能数据。如上所述,时间段t2包括了指标数据c11携带的时间戳(或者说时间戳对应的时间),因此,得到的待标注指标数据包括了指标数据c11。也就是说,指标数据c11是待标注指标数据的子集。
139.运维人员可以对待标注指标数据进行人工分析。经过人工分析,发现待标注指标数据并非为故障数据,而是正常数据。也就是说,在时间段t2内,网元c1的运行状态为正常状态。运维人员可以操作校正节点202,为待标注指标数据关联正常标签,正常标签用于表示携带正常标签的指标数据为正常数据。也就是说,校正节点202可以为待标注指标数据关联正常标签。
140.在一个说明性示例中,参阅图7,校正节点202可以显示包括功能区701和区域702的界面。校正节点202可以响应于针对功能区701的操作,显示下拉菜单。下拉菜单可以包括“正常运行”,也可以包括“流量突增”、“小包攻击”、“ovs流表丢失”、“cpu占用率高”等故障场景。区域702可以显示待标注指标数据和功能区7021。当校正节点202接收到针对下拉菜单中“正常运行”的操作,且接收到针对功能区7021的操作时,校正节点202可以为待标注指标数据关联正常标签。
141.关联了故障标签的待标注指标数据可以称为增量训练集。校正节点202可以将增量训练集发送至模型训练节点203,以便模型训练节点203对故障检测模型进行增量训练,更新故障检测模型。增量训练具体可以参考上文所述,在此不再赘述。
142.本技术实施例提供的网络故障分析方法,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
143.下文介绍本技术提供的一种网络故障分析方法的第三实施例,适用于故障检测模型分析出的运行状态为处于故障场景b2,人工分析的运行状态为处于故障场景b3,而故障场景b2和故障场景b3不同这一情况。该方法可以由图1所示的故障检测平台200执行。如图8所示,该方法可以包括如下步骤。
144.步骤810,获取数据中心的网元的第一指标数据,所述第一指标数据被故障检测模型确认为第一故障数据,所述第一故障数据对应第一故障场景。
145.故障检测平台200中的故障分析节点201可以采用故障检测模型,利用从数据存储节点提取的网元的指标数据,进行计算,以分析网元的运行状态。具体可以参考上文介绍,在此不再赘述。
146.当分析得到网元的运行状态为故障状态时,则用于分析出该故障状态的指标数据为故障数据。为方便描述,可以设定故障分析节点201可以采用故障检测模型,利用一次从数据存储节点提取的网元c2的指标数据,分析出网元c2为处于故障场景b2。即该次从数据存储节点提取的网元c2的指标数据被故障检测模型确认为故障场景b2对应的故障数据。为方便表述,可以将该次从数据存储节点提取的网元c2的指标数据称为指标数据c21(即步骤810中的第一指标数据)。
147.示例性的,故障场景b2可以为流量突增,或者为小包攻击,或者为ovs流表丢失,或者为cpu占用率高,等等。此处不再一一列举。
148.步骤820,为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得所述故障检测模型获得识别所述第二指标数据为第二故障数据的能力,所述第二故障数据对应第二故障场景,所述第一故障场景和所述第二故障场景不同,所述第一指标数据是所述第二指标数据的子集。
149.由上文所述,数据存储节点存储的指标数据携带有时间戳,因此,指标数据c21也
携带有时间戳。可以根据指标数据c21携带的时间戳,确定第二指标数据。第二指标数据也可以称为待标注指标数据。
150.如上所述,故障分析节点201可以将其利用故障检测模型进行分析得到的分析结果发送给校正节点202。分析结果包括用于表示网元的运行状态的状态指示信息。校正节点202可以根据网元的运行状态的状态指示信息,提供用于展示网元的运行状态的界面。当运维人员看到网元的运行状态为处于故障场景b2时,可以操作校正节点202,使得校正节点202确定待标注指标数据。
151.在一个说明性示例中,用于展示网元的运行状态的界面可以包括获取待标注指标数据功能区。校正节点可以响应于针对获取待标注指标数据功能区操作,根据指标数据c21,来确定待标注指标数据。具体而言,可以先根据指标数据c21携带的时间戳,确定时间段t3。然后,通过时间t3,确定待标注指标数据。在一个例子中,将指标数据c21携带的时间戳前后n分钟之间的时间段作为时间段t2。在一个具体例子中,可以设定指标数据c11携带的时间戳为xx年xx月xx日10:00,n为30,则时间段t2为xx年xx月xx日09:30至xx年xx月xx日10:30。也就是说,时间段t3包括指标数据c21携带的时间戳(或者说指标数据c21携带的时间戳对应的时间)。在一个说明性示例中,如上所述,分析结果还包括时间戳,该时间戳为状态指示信息对应的指标数据携带的时间戳。具体可以参考上文介绍,在此不再赘述。用于展示网元的运行状态的界面可以显示指标数据c21携带的时间戳,以便运维人员可以看到该时间戳。运维人员可以操作校正节点202,使得校正节点202可以显示时间滑动窗口,并可以响应针对时间滑动窗口的操作,确定时间段t3。具体可以参考上文对图6所示实施例的描述,在此不再赘述。也就是说,时间段t3包括指标数据c21携带的时间戳(或者说指标数据c21携带的时间戳对应的时间)。
152.数据存储节点存储的指标数据(即数据中心100上报的指标数据)携带有时间戳和网元的标识。可以根据时间段t3以及指标数据c21携带的网元(即网元c2)的标识,从数据存储节点存储的指标数据中确定待标注指标数据。具体而言,可以先从数据存储节点存储的指标数据中筛选出网元c2的指标数据,并从筛选出的指标数据中进一步筛选出时间戳位于时间段t3之内的指标数据,得到待标注指标数据。也就是说,待标注指标数据为网元c2在时间段t3内记录到运行日志中的数据,或者说待标注指标数据为网c2元在时间段t3内的性能数据。如上所述,时间段t3包括了指标数据c21携带的时间戳(或者说时间戳对应的时间),因此,得到的待标注指标数据包括了指标数据c21。也就是说,指标数据c21是待标注指标数据的子集。
153.运维人员可以对待标注指标数据进行人工分析。经过人工分析,发现待标注指标数据并非故障场景b2对应的故障数据,而是故障场景b3对应的故障数据。也就是说,在时间段t3内,网元c2的运行状态为处于故障场景b3。运维人员可以操作校正节点202,为待标注指标数据关联故障场景b3的标签,故障场景b3的标签用于表示携带该标签的指标数据为故障场景b3对应的故障数据。也就是说,校正节点202可以为待标注指标数据关联故障场景b3的标签。校正节点202为待标注指标数据关联故障场景b3的标签的具体实现手段,可以参考上文对图3a、图3b以及图7所示各实施例的介绍,在此不再赘述。
154.故障场景b3为不同于故障场景b2的故障场景。在一个例子中,故障场景b2可以为流量突增,故障场景b3可以为小包攻击。在另一个例子中,故障场景b2可以为ovs流表丢失,
故障场景b3可以为小包攻击。在又一个例子,故障场景b2可以为cpu占用率高,故障场景b3可以为流量突增。等等,此次不再一一列举。
155.关联了故障场景b3的标签的待标注指标数据可以称为增量训练集。校正节点202可以将增量训练集发送至模型训练节点203,以便模型训练节点203对故障检测模型进行增量训练,更新故障检测模型。增量训练具体可以参考上文所述,在此不再赘述。
156.本技术实施例提供的网络故障分析方法,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
157.参阅图9,本技术实施例提供了一种网络故障分析装置900。如图9所示,装置900包括:
158.第一获取单元910,用于获取用户上报的故障事件;
159.第二获取单元920,用于获取数据中心的网元的第一指标数据,其中第一指标数据与故障事件关联,且第一指标数据被故障检测模型确认为正常数据;
160.设置单元930,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为故障数据的能力,第一指标数据是第二指标数据的子集。
161.在一些实施例中,装置900还包括确定单元(未示出)。确定单元可以根据第一指标数据携带的时间戳,确定时间段;确定单元还用于确定网元在时间段内的性能数据为第二指标数据。
162.本技术实施例的提供的网络故障分析装置的各功能单元的功能,可参照上文如图2所示的各方法实施例实现,在此不再赘述。
163.本技术实施例提供的网络故障分析装置,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
164.参阅图10,本技术实施例提供了一种网络故障分析装置1000。如图10所示,装置1000包括:
165.获取单元1010,用于获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为故障数据;
166.设置单元1020,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为正常数据的能力,第一指标数据是第二指标数据的子集。
167.在一些实施例中,装置1000还包括确定单元(未示出)。确定单元可以根据第一指标数据携带的时间戳,确定时间段;确定单元还用于确定网元在时间段内的性能数据为第二指标数据。
168.本技术实施例的提供的网络故障分析装置的各功能单元的功能,可参照上文如图5所示的各方法实施例实现,在此不再赘述。
169.本技术实施例提供的网络故障分析装置,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
170.参阅图11,本技术实施例提供了一种网络故障分析装置1100。如图11所示,装置1100包括:
171.获取单元1110,用于获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为第一故障数据,第一故障数据对应第一故障场景;
172.设置单元1120,用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为第二故障数据的能力,第二故障数据对应第二故障场景,第一故障场景和第二故障场景不同,第一指标数据是第二指标数据的子集。
173.在一些实施例中,装置1100还包括确定单元(未示出)。确定单元可以根据第一指标数据携带的时间戳,确定时间段;确定单元还用于确定网元在时间段内的性能数据为第二指标数据。
174.本技术实施例的提供的网络故障分析装置的各功能单元的功能,可参照上文如图8所示的各方法实施例实现,在此不再赘述。
175.本技术实施例提供的网络故障分析装置,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
176.本技术实施例提供了一种电子设备。参阅图12,电子设备1200包括处理器1210,存储器1220,收发器1230。存储器1220存储代码。处理器1210执行所述代码以实现相应的控制操作。其中,收发器1230用于获取用户上报的故障事件;收发器1230用于获取数据中心的网元的第一指标数据,其中第一指标数据与故障事件关联,且第一指标数据被故障检测模型确认为正常数据;处理器1210用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入所述故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为故障数据的能力,第一指标数据是第二指标数据的子集。
177.本技术实施例的电子设备各个部件/器件的具体实施方式,可参照图2所示的各方法实施例实现,此处不再赘述。
178.本技术实施例提供的电子设备,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
179.本技术实施例提供了一种电子设备。仍参阅图12,电子设备1200包括处理器1210,存储器1220,收发器1230。存储器1220存储代码。处理器1210执行所述代码以实现相应的控制操作。其中,收发器1230用于获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为故障数据;处理器121用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为正常数据的能力,第一指标数据是第二指标数据的子集。
180.本技术实施例的电子设备各个部件/器件的具体实施方式,可参照图5所示的各方法实施例实现,此处不再赘述。
181.本技术实施例提供的电子设备,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
182.本技术实施例提供了一种电子设备。仍参阅图12,电子设备1200包括处理器1210,存储器1220,收发器1230。存储器1220存储代码。处理器1210执行所述代码以实现相应的控制操作。其中,收发器1230用于获取数据中心的网元的第一指标数据,第一指标数据被故障检测模型确认为第一故障数据,第一故障数据对应第一故障场景;处理器1210用于为第二指标数据设置标签,并将设置标签后的第二指标数据输入故障检测模型进行训练,以使得故障检测模型获得识别第二指标数据为第二故障数据的能力,第二故障数据对应第二故障场景,第一故障场景和第二故障场景不同,第一指标数据是第二指标数据的子集。
183.本技术实施例的电子设备各个部件/器件的具体实施方式,可参照图8所示的各方法实施例实现,此处不再赘述。
184.本技术实施例提供的电子设备,可以在故障检测模型的使用过程中,当故障检测模型的分析结果和实际结果不一致时,为指标数据设置标签,并使用设置有标签的指标数据,进行故障检测模型的增量训练,提高故障检测模型检测结果的准确性。
185.可以理解的是,本技术实施例中的处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
186.本技术实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(random access memory,ram)、闪存、只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。
187.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
188.可以理解的是,在本技术的实施例中涉及的各种数字编号仅为描述方便进行的区
分,并不用来限制本技术的实施例的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献