一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于故障标志物的云化网络业务故障预测方法

2022-07-22 23:54:03 来源:中国专利 TAG:


1.本发明属于可靠性及安全系统工程技术领域,特别是一种基于故障标志物的云化网络业务故障预测方法。


背景技术:

2.随着云化虚拟化网络技术的发展,以用户为核心、以业务为驱动成为云化网络系统在设计和运维过程中的核心理念,云化网络通过设计、部署多业务来满足用户的使用需求,如百度搜索业务、百度地图业务等,而用户对这些业务的体验要求也越来越高,如百度搜索业务在使用过程中能否保持正常返回结果。对于网络运营商而言,如何保证云化网络业务满足用户的体验要求是网络运维管理的终极目标。业务故障预测是保障业务高可靠运行的关键技术,其可以通过监测网络中的关键参数及分析来预测业务未来的运行状态,为网络运营商的运维决策提供重要的技术支持和保障。
3.云化网络业务动态部署使得参数集合动态变化,而业务间的资源耦合、流程耦合等又使得参数间具有多种耦合关系,难以实现云化网络业务故障的准确预测。当前的故障预测方法中,特征参数的集合固定不变,为一个静态集合,同时对特征参数间的复杂多耦合关系考虑不足,不能对云化网络业务故障进行准确预测。因此,为解决此问题,寻求一种基于故障标志物的云化网络业务故障预测方法,以有效地预测云化网络业务故障是十分迫切且必要的。


技术实现要素:

4.本发明针对上述现有技术中的缺陷,提出一种基于故障标志物的云化网络业务故障预测方法。该方法包括采集待分析云化网络底层监测数据,进行业务故障标志物备选参数分析,针对云化网络业务故障标志物备选参数进行显著性分析,进行云化网络业务显著性表达参数组的耦合性分析,构建基于关键参数提取和样本统计的标志物,基于故障标志物进行云化网络业务故障的预警、虚警和预测在内的预测结果分析。本发明能够自上而下分析引起业务故障的原因,实现了特征参数的动态性,并从预先变化性、显著性、耦合性的角度分析设计出动态立体的业务故障标志物,更有效地预测云化网络业务故障。
5.本发明提供一种基于故障标志物的云化网络业务故障预测方法,其包括以下步骤:
6.s1、云化网络业务备选参数分析:采集待分析云化网络底层监测数据,进行业务故障标志物备选参数分析,所述业务故障标志物备选参数分析包括参数的预先变化性分析和基于相关性的备选参数筛选;
7.s2、云化网络业务备选参数的显著性分析:针对云化网络业务故障标志物备选参数进行显著性分析,通过对备选参数进行双总体独立样本t检验筛选,确定具有显著变化性的参数,获取显著性表达参数组{m1,m2,m3,...,mf},其中,f为显著性表达参数组的参数个数;
8.s3、云化网络业务显著性表达参数组的耦合性分析:进行显著性表达参数组的聚类分析,并基于综合指标值进行关键参数组分析;
9.s31、针对所述步骤2获取的显著性表达参数组{m1,m2,m3,...,mf}进行聚类分析:通过相关性系数计算显著性表达参数间的相关距离,并基于显著性表达参数的相关距离进行凝聚层次聚类agnes分析,获得k个强相关参数组其中,g1和g2分别表示第1个和第k个强相关参数组的参数个数;
10.s32、针对所述步骤31获得的k个强相关参数组设计故障标志物的综合指标值cv,计算每个强相关参数组的cv值,并选取cv值最大的强相关参数组为耦合参数组{m1,m2,m3,...,mh},其中h为耦合参数组的参数个数;所述故障标志物的综合指标值cv为:
[0011][0012]
其中,sd表示故障标志物中所有参数的标准差的均值;cs表示耦合关系出现的频次;pcc表示ma与mb的皮尔逊相关系数,ma和mb分别表示耦合参数组{m1,m2,m3,...,mh}的第a和第b个参数;w表示强相关参数组中的耦合关系数;cj表示第j种耦合关系;ncj表示第j种耦合关系出现的样本量;q表示总的样本量;
[0013]
s4、基于关键参数提取和样本统计的标志物构建:
[0014]
s41、基于业务故障树进行关键参数提取;
[0015]
s42、基于故障样本统计进行关键参数取值及耦合关系分析;
[0016]
s5、基于故障标志物的云化网络业务故障预测:
[0017]
s51、预测时刻分析;
[0018]
s511、明确实际故障发生的时刻t1:针对具体的业务通过对其业务故障判据的调研,阈值设定为nmin,第一次超过该阈值的时刻即为该业务故障发生的时刻;
[0019]
s512、明确故障标志物预测的时刻t2:对测试样本进行预测分析,基于测试样本监测获取标志物中各参数的实时状态值,以及耦合关系的存在情况;
[0020]
s513、基于实际故障发生的时刻t1和故障标志物预测的时刻t2,利用两者的差来评价预测的效果:
[0021]
s52、针对测试集样本的预测结果进行预警、虚警和预测在内的预测结果分析:
[0022]
s521、所述预警为能提前预报故障的发生,只需满足提前预报的要求即表示预警成功:在测试集样本中,对于会发生故障的样本,利用实际故障发生的时间点减去业务故障标志物预测的时间点,差值大于0,且小于一定的上限,即为预警成功;
[0023]
s522、所述虚警为在预测中正常状态被检测成发生故障则判断为一次虚警,若虚警次数未超过设定值则认可预测结果;
[0024]
s523、所述预测为在一定的提前时间的区间内,成功预报故障发生,对提前时间的区间的大小有要求:在测试集样本中,对于会发生故障的样本,限定一定长度的时间区间,若实际故障发生的时间点减去业务故障标志物预测的时间点的差值落在这一时间区间内,即认为这次预测准确。
[0025]
进一步,所述步骤s32中的所述耦合关系包括功能依赖耦合、功能倒换耦合、迁移
耦合和竞争耦合,基于虚拟功能模块vnf,设定所述耦合关系的参数及参数状态变化,具体包括以下步骤:
[0026]
s3211、所述功能依赖耦合的参数包括vnf所在服务器状态值和vnf主状态值,所述vnf所在服务器状态值的参数状态变化为正常转变为等待/迁移,所述vnf主状态值的参数状态变化为正常转变为故障;
[0027]
s3212、所述功能倒换耦合的参数包括vnf主节点状态值和vnf备节点状态值,所述vnf主节点状态值和vnf备节点状态值的参数状态变化均为正常转变为故障;
[0028]
s3213、所述迁移耦合的参数包括服务器状态值和空闲服务器数量,所述服务器状态值的参数状态变化为正常转变为迁移,所述空闲服务器数量的参数状态变化为减小1;
[0029]
s3214、所述竞争耦合的参数包括第一服务器状态值和第二服务器状态值,所述第一服务器状态值的参数状态变化为正常转变为迁移,所述第二服务器状态值的参数状态变化为正常转变为等待;
[0030]
基于所述耦合关系的参数及参数状态变化的设定,衡量cj出现次数,具体包括以下步骤:
[0031]
s3221、针对步骤s31得出的强相关参数组分析每个强相关参数组中是否有参数对符合所述耦合关系的设定参数,若符合,则确定执行步骤s3222;
[0032]
s3222、当存在参数对的参数值符合设定的参数状态变化时,即认为相应的耦合关系cj出现一次。
[0033]
可优选的,所述步骤s41具体包括以下步骤:
[0034]
s411、基于业务故障树,从业务的角度分析引起业务故障的原因,并根据业务故障树的基本事件提炼出基本事件参数,所述基本事件参数包括业务的虚拟功能模块vnf主节点状态值、业务的虚拟功能模块vnf备节点状态值、等待的服务器状态值和迁移的服务器状态值;
[0035]
s412、从耦合参数组{m1,m2,m3,...,mh}中选出不具有动态性的r个参数{m1,...,mr},其中,r《h,将不具有动态性的参数{m1,...,mr}与基本事件参数对应起来,所述基本事件参数为从业务故障的角度自上而下分析得出的属于逻辑层面的参数以实现参数的动态变化性;
[0036]
s413、将4个基本事件参数替代不具有动态性的r个参数{m1,...,mr},得出具有动态变化性的耦合参数组,即关键参数组{m1,m2,m3,...,m
h-r 4
};
[0037]
s414、关键参数组中参数间的耦合关系,继承基于耦合参数组中参数间的耦合关系;
[0038]
所述步骤s42具体包括以下步骤:
[0039]
s421、基于故障样本选取故障前时间t1~t2,获取该段时间内关键参数的取值变化量,并统计所有样本中每种变化量的样本量占总样本量的百分比,作为参数阈值选取的依据;所述关键参数的取值变化量的获取具体包括以下步骤:
[0040]
s4211、设置r组故障样本数据作为输入,关键参数变化量的统计量作为输出;
[0041]
s4212、遍历所有故障样本,对于每组故障样本执行步骤s4213;
[0042]
s4213、对于关键参数组中每个参数,在业务发生故障的前nmin内,获取参数值的变化量;其中,n表示业务故障状态的阈值;
[0043]
s422、通过统计关键参数组{m1,m2,m3,...,m
h-r 4
}的参数取值变化量,确定各关键参数的阈值,并根据关键参数的变化量,对比不同耦合关系下的参数变化量,对应分析出关键参数间的耦合关系,得出最终的业务故障标志物,其中,业务故障标志物的参数包括第v个参数有两个时刻(t1、t2)的状态值和
[0044]
可优选的,所述步骤s1具体包括以下步骤:
[0045]
s11、参数的预先变化性分析:针对云化网络底层监测数据,基于理论分析选出早于业务状态变化的参数,作为可能预先变化的参数;
[0046]
s12、基于相关性的备选参数筛选:针对步骤s11筛选出的所述可能预先变化的参数,在全时间周期内取n个时间点,所有训练集故障样本的一类参数为{x1,x2,x3,...,xm},m为该样本中一类参数的数量,同时期的业务故障状态的表达值为y,则两者之间的皮尔逊相关系数pccn(xr,y)为:
[0047][0048]
其中,xr表示所述一类参数中的第r个参数;和yb分别表示在第b个时间点的参数xr和y的表达值;和分别表示参数xr和y的平均表达值;
[0049]
设定皮尔逊相关系数阈值,进行备选参数的筛选。
[0050]
可优选的,所述步骤s2中具体包括以下步骤:
[0051]
s21、通过训练集故障样本、训练集正常样本,对步骤s1得出的备选参数进行双总体独立样本t检验筛选,所述双总体独立样本t检验的统计量t为:
[0052][0053]
其中,和分别表示训练集正常样本和训练集故障样本的均值;sd(d
failure
)表示训练集故障样本的标准差;sd(d
normal
)表示训练集正常样本的标准差;n1和n2分别表示训练集正常样本和训练集故障样本的容量;
[0054]
s22、根据t检验临界值分布表,确定满足设置的显著性水平p取值的临界t值,若计算所得统计量t值大于临界t值,则该参数具有显著变化性,即获取显著性表达的参数组{m1,m2,m3,...,mf}。
[0055]
可优选的,所述步骤s31中具体包括以下步骤:
[0056]
s311、参数相关距离的计算:对于显著性表达的参数组{m1,m2,m3,...,mf},参数间皮尔逊相关系数pcc取绝对值,且满足|pcc|∈[0,1],|pcc|越大两个参数越相关,1-|pcc|的值越小两个参数越相关,且满足1-|pcc|∈[0,1],并以此作为两个参数的空间距离,即参数相关距离dist(mc,md):
[0057]
dist(mc,md)=1-|pccn(mc,md)|
ꢀꢀ
(4)
[0058]
其中,mc、md表示参数组{m1,m2,m3,...,mf}中第c和d个参数;|pccn(mc,md)|表示在全时间周期内的n个时间点参数mc和md间的皮尔逊相关系数;
[0059]
s312、基于参数相关距离的聚类分析:利用获得的参数相关距离对大量的显著性表达参数进行凝聚层次聚类agnes,去除掉参数个数太少的组,降低偶然性,得到k个强相关参数组
[0060]
可优选的,所述步骤s513中若两个时刻(t1~t2)之间参数实时状态值的变化量满足故障标志物的参数变化量要求,且参数间耦合关系的存在情况与故障标志物中耦合关系的存在情况一致,则t2时刻判定业务处于故障前状态,否则业务处于正常状态或者故障状态;若业务处于故障前状态,则在t2时刻预警故障,设定标志物预测的时间点;所述其他状态包括正常状态和故障状态。
[0061]
可优选的,所述步骤s521中所述预警的对应指标为预警成功率/故障检出率,即测试样本中的业务故障提前一段合适的时间被检测出来的比例;所述步骤s522中所述虚警的对应指标为虚警率,即测试样本中正常状态被检测出故障的比例;若预警成功率超过90%且虚警率不超过5%,则认为预测有效且预测结果可靠。
[0062]
可优选的,基于所述步骤s3221,获得耦合参数组{m1,m2,m3,...,mh}中参数间的耦合关系。
[0063]
与现有技术相比,本发明的技术效果为:
[0064]
1、本发明设计的一种基于故障标志物的云化网络业务故障预测方法,针对当前故障预测方法中特征参数的集合固定不变且只是一个静态集合的问题,在业务故障标志物识别方法中,提出了基于业务故障树的关键参数提取方法,能够自上而下分析引起业务故障的原因,从中提炼出逻辑层参数来对应并替代物理层参数,从而解决物理层参数的取值无法随业务动态部署而变化的问题,并将这些逻辑层参数作为筛选业务故障标志物参数的依据,使得筛选出的业务故障标志物参数的取值能随着业务动态部署而与整网的设备都有关,实现了特征参数的动态性。
[0065]
2、本发明设计的一种基于故障标志物的云化网络业务故障预测方法,针对当前故障预测方法中对特征参数间的复杂多耦合关系考虑不足的问题,对云化网络业务进行包括业务故障致因分析、业务故障耦合关系分析在内的故障机理分析,并分析参数间耦合关系,基于此建立网络演化模型获取仿真数据,基于样本数据,从预先变化性、显著性、耦合性的角度分析并筛选出对业务故障具有标识性作用的关键性参数及其耦合,设计出动态立体的业务故障标志物,基于此能够有效地预测云化网络业务故障。
附图说明
[0066]
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显。
[0067]
图1是本发明的基于故障标志物的云化网络业务故障预测方法流程图;
[0068]
图2是本发明的云化虚拟网络案例示意图;
[0069]
图3是本发明的业务故障树示意图;
[0070]
图4是本发明的提取业务虚拟功能模块vnf后的业务故障树示意图;
[0071]
图5是本发明的业务故障标志物示意图;
[0072]
图6是本发明的业务中断故障标志物示意图;
[0073]
图7是本发明的预警结果统计图。
具体实施方式
[0074]
下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0075]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0076]
图1示出了本发明的基于故障标志物的云化网络业务故障预测方法,该方法包括以下步骤:
[0077]
s1、云化网络业务备选参数分析:采集待分析云化网络底层监测数据,进行业务故障标志物备选参数分析,业务故障标志物备选参数分析包括参数的预先变化性分析和基于相关性的备选参数筛选。
[0078]
在一个具体实施例中,云化网络对象如图2所示,该网络有一个中心网关节点d1,8个中间层交换机节点e1-e8,32个底层交换机节点t1-t32,和128个服务器节点s1-s128,共有1253个虚拟机节点v1-v1253,其上部署了155个虚拟功能模块(vnf),100个业务。整个网络结构从上往下采用了树形的拓扑结构。以业务1为目标业务,预测业务1故障。
[0079]
s11、参数的预先变化性分析:针对云化网络底层监测数据,基于理论分析选出早于业务状态变化的参数,作为可能预先变化的参数。
[0080]
在一个具体实施例中,对于表1中可监测的状态参数,进一步基于理论分析选出早于业务状态变化的参数,这些参数可能具有一定的预测业务状态变化的能力。在业务故障发生发展过程中大部分的状态参数都随着业务的状态发生变化,其中有一些参数是随业务状态同步变化的,而有一些参数的变化是早于业务状态变化的,也有一些是滞后于业务状态变化的。基于理论分析,如利用实际数据的验证,从状态参数从中找出那些早于业务状态变化的参数,鉴于这些参数直接可测的特性,可能具有一定的预测业务状态变化的能力,包括预测业务故障发生的能力,因此将这些参数称之为可能预先变化的参数。
[0081][0082]
表1
[0083]
在一个具体实施例中,通过数据观察发现:部分参数与业务1状态同步变化,与业务1状态直接相关,这种参数不具有预测业务故障的能力,不作考虑,这些参数称为与业务1状态直接相关的参数,包括:业务1状态值、vnf1状态值、vnf2状态值、vnf6状态值、vnf7状态值、vnf11状态值(参数序号:2014、1549、1550、1554、1555、1559)。
[0084]
s12、基于相关性的备选参数筛选:针对步骤s11筛选出的可能预先变化的参数,在全时间周期内取n个时间点,所有训练集故障样本的一类参数为{x1,x2,x3,...,xm},m为该样本中一类参数的数量,如vnf1状态值,同时期的业务故障状态的表达值为y,则两者之间的皮尔逊相关系数pccn(xr,y)为:
[0085][0086]
其中,xr表示一类参数中的第r个参数;和yb分别表示在第b个时间点的参数xr和y的表达值;和分别表示参数xr和y的平均表达值。
[0087]
皮尔逊相关系数的取值区间为[-1,1], 1表示完全的正相关,-1表示完全的负相关,0表示没有线性相关。设定皮尔逊相关系数阈值,进行备选参数的筛选。该具体实施例
中,选取皮尔逊相关系数最大的几类参数做标志物研究,即作为筛选故障标志物参数的参考。
[0088]
在一个具体实施例中,基于所有训练样本的全时间周期时序数据,对上述与业务1状态直接相关的参数(参数序号:2014、1549、1550、1554、1555、1559),由公式(2),计算各参数(参数序号:2014、1549、1550、1554、1555、1559)与其他参数的皮尔逊相关系数。
[0089]
一般规定相关系数在0-0.3属于弱相关、0.3-0.6属于中度相关、0.6-1属于强相关,因此,该具体实施例中设定皮尔逊相关系数阈值为0.6,若存在与参数(参数序号:2014、1549、1550、1554、1555、1559)的皮尔逊相关系数大于0.6的参数,则该参数与参数(参数序号:2014、1549、1550、1554、1555、1559)之间具有相关性,因此也与业务1状态具有相关性,将这些参数作为业务1故障标志物的备选参数,共筛选出98个备选参数,如表2所示。
[0090][0091][0092]
表2
[0093]
s2、云化网络业务备选参数的显著性分析:针对云化网络业务故障标志物备选参数进行显著性分析,通过训练集故障样本、训练集正常样本,对备选参数进行双总体独立样本t检验筛选,确定具有显著变化性的参数,获取显著性表达参数组{m1,m2,m3,...,mf},其中,f为显著性表达参数组的参数个数。
[0094]
s21、通过训练集故障样本、训练集正常样本,对步骤s1得出的备选参数进行双总体独立样本t检验筛选,双总体独立样本t检验的统计量t为:
[0095][0096]
其中,和分别表示训练集正常样本和训练集故障样本的均值;sd(d
failure
)表示训练集故障样本的标准差;sd(d
normal
)表示训练集正常样本的标准差;n1和n2分别表示训练集正常样本和训练集故障样本的容量。
[0097]
s22、根据t检验临界值分布表,确定满足设置的显著性水平p取值的临界t值,若计算所得统计量t值大于临界t值,则该参数具有显著变化性,即获取显著性表达的参数组{m1,m2,m3,...,mf}。
[0098]
在一个具体实施例中,设置显著性水平p<0.01,据此挑选出在正常样本和故障样本间差异表达显著的参数。筛去p值大于0.01的参数,获得显著性表达参数,共37个参数,如表3所示。
[0099][0100]
表3
[0101]
s3、云化网络业务显著性表达参数组的耦合性分析:进行显著性表达参数组的聚类分析,并基于综合指标值进行关键参数组分析;
[0102]
s31、针对步骤s2获取的显著性表达参数组{m1,m2,m3,...,mf}进行聚类分析:通过相关性系数计算显著性表达参数间的相关距离,并基于显著性表达参数的相关距离进行凝聚层次聚类agnes分析,获得k个强相关参数组其中,g1和g2分别表示第1个和第k个强相关参数组的参数个数;
[0103]
s311、参数相关距离的计算:对于显著性表达的参数组{m1,m2,m3,...,mf},参数间皮尔逊相关系数pcc应该取绝对值,且满足|pcc|∈[0,1],|pcc|越大两个参数越相关,则1-|pcc|的值越小两个参数越相关,1-|pcc|∈[0,1]并以此作为两个参数的空间距离,即参数相关距离dist(mc,md):
[0104]
dist(mc,md)=1-|pccn(mc,md)|
ꢀꢀ
(4)
[0105]
其中,mc、md表示参数组{m1,m2,m3,...,mf}中第c和d个参数;|pccn(mc,md)|表示在
全时间周期内的n个时间点参数mc和md间的皮尔逊相关系数;
[0106]
s312、基于参数相关距离的聚类分析:利用获得的参数相关距离对大量的显著性表达参数进行聚类,这样每个类中参数间的相关性高。具体选用层次聚类中的凝聚层次聚类agnes算法,这是因为这一聚类算法能提前确定合并两个族的最短距离d,较快较好地实现强相关性的参数组的识别。具体地,对于得到的k个参数组,去除掉参数个数太少的组,降低偶然性,得到k个强相关参数组
[0107]
凝聚层次聚类agnes算法具体包括以下步骤:
[0108]
输入:包含n个参数对象的数据库,合并两个族的最短距离d。
[0109]
输出:k个强相关参数组。
[0110]
a:将每个对象当成一个初始簇;
[0111]
b:根据两个簇中最近的数据点间的距离是否小于d,合并两个簇;
[0112]
c:若存在满足d值的两个簇,则重复执行步骤b,直到没有满足d值的簇为止。
[0113]
s32、针对步骤s31获得的k个强相关参数组设计故障标志物的综合指标值cv,计算每个强相关参数组的cv值,并选取cv值最大的强相关参数组为耦合参数组{m1,m2,m3,...,mh},其中h为耦合参数组的参数个数;故障标志物的综合指标值cv为:
[0114][0115]
其中,sd表示故障标志物中所有参数的标准差的均值;cs表示耦合关系出现的频次;pcc表示ma与mb的皮尔逊相关系数,ma和mb分别表示耦合参数组{m1,m2,m3,...,mh}的第a和第b个参数;w表示强相关参数组中的耦合关系数;cj表示第j种耦合关系;ncj表示第j种耦合关系出现的样本量;q表示总的样本量。可以看出,cs值能够表现耦合关系出现的频次,进而能够表现出参数间的耦合强度。
[0116]
耦合关系包括功能依赖耦合、功能倒换耦合、迁移耦合和竞争耦合,基于虚拟功能模块vnf,设定耦合关系的参数及参数状态变化,如表4所示,具体包括以下步骤:
[0117]
s3211、功能依赖耦合的参数包括vnf所在服务器状态值和vnf主状态值,vnf所在服务器状态值的参数状态变化为正常转变为等待/迁移,vnf主状态值的参数状态变化为正常转变为故障;
[0118]
s3212、功能倒换耦合的参数包括vnf主节点状态值和vnf备节点状态值,vnf主节点状态值和vnf备节点状态值的参数状态变化均为正常转变为故障;
[0119]
s3213、迁移耦合的参数包括服务器状态值和空闲服务器数量,服务器状态值的参数状态变化为正常转变为迁移,空闲服务器数量的参数状态变化为减小1;
[0120]
s3214、竞争耦合的参数包括第一服务器状态值和第二服务器状态值,第一服务器状态值的参数状态变化为正常转变为迁移,第二服务器状态值的参数状态变化为正常转变为等待。
[0121][0122]
表4
[0123]
基于耦合关系的参数及参数状态变化的设定,衡量cj出现次数,具体包括以下步骤:
[0124]
s3221、针对步骤s31得出的强相关参数组分析每个强相关参数组中是否有参数对符合耦合关系的设定参数,若符合,则确定执行步骤s3222;
[0125]
s3222、当存在参数对的参数值符合设定的参数状态变化时,即认为相应的耦合关系cj出现一次。
[0126]
基于步骤s3221,获得耦合参数组{m1,m2,m3,...,mh}中参数间的耦合关系。
[0127]
在一个具体实施例中,采用凝聚层次聚类agnes算法进行聚类分析,由于参数间相关系数大于0.3则视为有相关性,因此设置最短距离d为0.7,不考虑只有单个参数的参数组,通过聚类得到强相关参数组,计算每组参数的cv值,如表5所示。
[0128][0129]
表5
[0130]
经过计算,第1组参数cv值最大,为耦合参数组,基于训练集故障样本观测耦合参数组中的参数对是否出现表4中的参数状态变化,如果出现,可对应分析出耦合参数组中参数间耦合关系,如表6所示。
[0131][0132]
表6
[0133]
s4、基于关键参数提取和样本统计的标志物构建:
[0134]
s41、基于业务故障树进行关键参数提取;
[0135]
s411、基于业务故障树,如图3所示,从业务的角度分析引起业务故障的原因,并根据业务故障树的基本事件提炼出基本事件参数,基本事件参数包括业务的虚拟功能模块vnf主节点状态值、业务的虚拟功能模块vnf备节点状态值、等待的服务器状态值和迁移的服务器状态值;
[0136]
s412、从耦合参数组{m1,m2,m3,...,mh}中选出不具有动态性的r个参数{m1,...,mr},其中,r《h,将不具有动态性的参数{m1,...,mr}与基本事件参数对应起来,基本事件参数为从业务故障的角度自上而下分析得出的属于逻辑层面的参数以实现参数的动态变化性;
[0137]
s413、将4个基本事件参数替代不具有动态性的r个参数{m1,...,mr},得出具有动态变化性的耦合参数组,即关键参数组{m1,m2,m3,...,m
h-r 4
};
[0138]
s414、关键参数组中参数间的耦合关系,继承基于耦合参数组中参数间的耦合关系。
[0139]
在一个具体实施例中,如图3所示,业务调用vnfm、

、vnfn,因此从vnfm、

、vnfn入手,分析其故障原因,可知,当vnfm、

、vnfn所在的server故障vnfm、

、vnfn的主备节点也故障时,vnfm、

、vnfn会发生故障,而导致vnfm、

、vnfn所在的server故障的原因是vnfm、

、vnfn由于资源竞争失败无法迁移而处于等待状态,且此时会存在服务器server处于迁移状态,同时空闲服务器server数量减小。
[0140]
由于业务调用vnfm、

、vnfn,vnfm、

、vnfn任何一个故障都会导致业务故障,业务故障树关于vnfm、

、vnfn的基本事件都是业务发生故障的影响因素,二者是“或”的关系,因此,在这里将vnfm、

、vnfn提取为业务vnf,即业务所调用的vnf,对于业务vnf,不管是vnfm还是vnfn,其故障都会导致业务故障,因此,将vnfm、

、vnfn提取为业务vnf后,业务vnf在故障树中的基本事件即业务故障影响因素。提取业务vnf后的业务故障树如图4所示。将图4中的基本事件整理为参数形式,如表7所示。
[0141][0142][0143]
表7
[0144]
基于表7,从耦合参数组{m1,m2,m3,...,mh}中选出不具有动态性的r个参数{m1,...,mr}(如物理层参数中服务器sever状态值、vm状态值等),其中,r《h,将不具有动态性的参数{m1,...,mr}与基本事件参数对应起来。因此,将4个基本事件参数替代不具有动态性的r个参数{m1,...,mr},进而得出具有动态变化性的耦合参数组,即关键参数组{m1,m2,m3,...,m
h-r 4
}。
[0145]
由于步骤s32已经分析过耦合参数组{m1,m2,m3,...,mh}中参数间的耦合关系,关键参数组{m1,m2,m3,...,m
h-r 4
}中参数间的耦合关系,以耦合参数组中参数的耦合关系为基础继承下来。
[0146]
s42、基于故障样本统计进行关键参数取值及耦合关系分析;
[0147]
根据步骤s41得出的关键参数组{m1,m2,m3,...,m
h-r 4
}的参数及其耦合关系,还需确定其阈值,才能形成完整的标志物。由于云化百度业务的动态部署,业务相关参数不断动态变化,业务故障不仅由参数值决定,还体现在参数的变化量上。而传统的预测指标仅用固定的数值作为阈值,导致忽略了参数值未达到阈值要求的样本,因此难以获取准确的样本统计量,使标志物不能准确判断云化百度业务故障,也难以进行后续的故障预测。
[0148]
s421、基于故障样本选取故障前时间t1~t2,获取该段时间内关键参数的取值变
化量,并统计所有样本中每种变化量的样本量占总样本量的百分比,作为参数阈值选取的依据;
[0149]
关键参数的取值变化量的获取具体包括以下步骤:
[0150]
s4211、设置r组故障样本数据作为输入,关键参数变化量的统计量作为输出;
[0151]
s4212、遍历所有故障样本,对于每组故障样本执行步骤s4213;
[0152]
s4213、对于关键参数组中每个参数,在业务发生故障的前nmin内,获取参数值的变化量;其中,n表示业务故障状态的阈值。
[0153]
s422、通过统计关键参数组{m1,m2,m3,...,m
h-r 4
}的参数取值变化量,确定各关键参数的阈值,并根据关键参数的变化量,对比表4中不同耦合关系下的参数变化量,对应分析出关键参数间的耦合关系,得出最终的业务故障标志物,示意图如图5所示,其中,业务故障标志物的参数包括{s1,s2,...,s
h-r 4
},第v个参数有两个时刻(t1、t2)的状态值和
[0154]
在一个具体实施例中,标志物参数及其取值变化量如表8所示。
[0155][0156][0157]
表8根据表8可分析得标志物参数在达到特定变化量时参数间存在的耦合关系,如表9所示。
[0158][0159]
表9
[0160]
因此,可得app1的业务中断故障标志物如图6右侧虚线框中所示。
[0161]
s5、基于故障标志物的云化网络业务故障预测:一是明确实际故障发生的时刻,二
是明确故障标志物预测的时刻,进而利用两者的差来评价预测的效果。
[0162]
s51、预测时刻分析;
[0163]
s511、明确实际故障发生的时刻t1:针对具体的业务通过对其业务故障判据的调研,阈值设定为nmin,第一次超过该阈值的时刻即为该业务故障发生的时刻。
[0164]
s512、明确故障标志物预测的时刻t2:对测试样本进行预测分析,基于测试样本监测获取标志物中各参数的实时状态值,以及耦合关系的存在情况。
[0165]
s513、基于实际故障发生的时刻t1和故障标志物预测的时刻t2,利用两者的差来评价预测的效果:若两个时刻(t1~t2)之间参数实时状态值的变化量满足故障标志物的参数变化量要求,且参数间耦合关系的存在情况与故障标志物中耦合关系的存在情况一致,则t2时刻判定业务处于故障前状态,否则业务处于正常状态或者故障状态;若业务处于故障前状态,则在t2时刻预警故障,设定标志物预测的时间点。
[0166]
s52、针对测试集样本的预测结果进行预警、虚警和预测在内的预测结果分析:
[0167]
s521、预警为能提前预报故障的发生,只需满足提前预报的要求即表示预警成功:在测试集样本中,对于会发生故障的样本,利用实际故障发生的时间点减去业务故障标志物预测的时间点,差值大于0,且小于一定的上限(根据实际情况进行规定,因为预警提前的时间太早不可信),即为预警成功;预警的对应指标为预警成功率/故障检出率,即测试样本中的业务故障提前一段合适的时间被检测出来的比例。
[0168]
s522、虚警为在预测中正常状态被检测成发生故障:在测试集样本中,对于不会发生故障的样本,方法却预测出会发生故障,此即为一次虚警;虚警的对应指标为虚警率,即测试样本中正常状态被检测出故障的比例,若虚警次数未超过设定值则认可预测结果。
[0169]
s523、预测为在一定的提前时间的区间内,成功预报故障发生,对提前时间的区间的大小有要求:在测试集样本中,对于会发生故障的样本,限定一定长度的时间区间,若实际故障发生的时间点减去业务故障标志物预测的时间点的差值落在这一时间区间内,即认为这次预测准确。
[0170]
若预警成功率超过90%且虚警率不超过5%,则认为预测有效且预测结果可靠。
[0171]
在一个具体实施例中,根据测试集的52组故障样本,将实际发生故障的时间点减去标志物预测的时间点,得到的差值进行统计,若差值≤0即认为没有预警效果,》10分钟则认为时间差太大,预测结果不实用也不可信,因此具体统计提前1~10分钟的预测结果,统计结果如
[0172]
表10和图7所示。
[0173][0174]
由图7可知,预警时刻都在业务故障发生前8~10分钟内,在合理的区间内(提前1~30分钟内)预警率达到100%,可以说明,本发明筛选得到的业务故障标志物预警效果很好。而且预警时间分布还呈现一定的集中趋势,在业务故障发生前8~9分钟内的预警占比达到53.85%,在业务故障发生前9~10分钟内的预警占比达到36.53%,可以说明,本发明筛选得到的标志物有较好的预测效果。
[0175]
因此,针对步骤s52提出的三个指标,该具体实施例预测的结果为:
[0176]
1)预警成功率/故障检出率:故障检出率达到90.38%,超出90%。
[0177]
2)虚警率:本发明对测试集的86个正常样本做了测试,发现有4个样本被误检出故障,因此虚警率为4.65%,低于5%。
[0178]
3)预测准确率:在业务故障发生前8~9分钟内的预警占比达到53.85%,在业务故障发生前9~10分钟内的预警占比达到36.53%,预测准确率达到90.38%。
[0179]
综上,该具体实施例的预测结果证明了识别出的故障标志物对云化网络业务故障具有很好的预警和预测效果,预测结果是可靠的。
[0180]
本发明设计的一种基于故障标志物的云化网络业务故障预测方法,针对当前故障预测方法中特征参数的集合固定不变且只是一个静态集合的问题,在业务故障标志物识别方法中,提出了基于业务故障树的关键参数提取方法,能够自上而下分析引起业务故障的原因,从中提炼出逻辑层参数来对应并替代物理层参数,从而解决物理层参数的取值无法随业务动态部署而变化的问题,并将这些逻辑层参数作为筛选业务故障标志物参数的依据,使得筛选出的业务故障标志物参数的取值能随着业务动态部署而与整网的设备都有关,实现了特征参数的动态性;针对当前故障预测方法中对特征参数间的复杂多耦合关系考虑不足的问题,对云化网络业务进行包括业务故障致因分析、业务故障耦合关系分析在内的故障机理分析,并分析参数间耦合关系,基于此建立网络演化模型获取仿真数据,基于样本数据,从预先变化性、显著性、耦合性的角度分析并筛选出对业务故障具有标识性作用的关键性参数及其耦合,设计出动态立体的业务故障标志物,基于此能够有效地预测云化网络业务故障。
[0181]
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献