一种异常带宽检测方法、装置、电子设备及存储介质与流程

2022-05-06 09:20:12 来源：中国专利 TAG：

1.本技术涉及云计算技术领域，尤其涉及一种异常带宽检测方法、装置、电子设备及存储介质。

背景技术：

2.目前，随着信息技术的快速发展，网络规模日益庞大，需要保证it系统的安全高效。因此，如何能够实现对于带宽的异常检测，成为了一个亟待解决的问题。
3.相关技术中，在对带宽进行异常检测时，通常是依靠运维人员手动设置阈值，当带宽满足阈值条件时，即产生告警。
4.然而，相关技术中，由于在实际生产中，由于带宽的特性会随业务变化而变化，因此，相关技术中设置单一的固定阈值的方式，检测异常带宽的准确度不高，容易出现失误，进而告警时产生大量的漏报误报。

技术实现要素：

5.本技术实施例提供一种异常带宽检测方法、装置、电子设备及存储介质，以提高异常带宽检测的准确度。
6.本技术实施例提供的具体技术方案如下：
7.一种异常带宽检测方法，包括：
8.响应于针对cdn带宽的检测指令，获得当前时间点下的带宽；
9.对所述带宽进行特征提取，获得所述带宽在各时序维度下的时序特征，其中，所述时序特征表征带宽在预设周期内的变化趋势；
10.将所述时序特征输入至已训练的随机森林模型，获得所述随机森林模型输出的异常检测结果，其中，所述随机森林模型是通过对各历史带宽样本进行迭代训练获得的。
11.可选的，对所述带宽进行特征提取，获得所述带宽在各时序维度下的时序特征，具体包括：
12.根据所述带宽，与预设的窗口内各时间点下的带宽的均值之间的比值，获得所述带宽对应的环比属性特征；以及，
13.根据所述带宽，与预设的窗口内各时间点下的带宽的均值之间的差值，获得所述带宽对应的环差属性特征；以及，
14.根据所述带宽，与各历史周期内相同时间点下的带宽的均值之间的比值，获得所述带宽对应的同比属性特征；以及，
15.根据所述带宽，与各历史周期内相同时间点下的带宽的均值之间的差值，获得所述带宽对应的同差属性特征；以及，
16.根据当前时间点，确定所述带宽对应的时刻属性特征；以及，
17.根据所述带宽的均值和标准差，获得区间属性特征；
18.根据所述环比属性特征、所述环差属性特征、所述同比属性特征、所述同差属性特
征、所述时刻属性特征和所述区间属性特征，确定所述带宽的时序特征。
19.可选的，获得所述随机森林模型输出的异常检测结果，具体包括：
20.将所述时序特征，分别输入至所述随机森林模型中的各决策树中，获得相应的决策树输出的分类结果；
21.若确定各分类结果为异常的数量大于等于预设的数量阈值，则确定异常检测结果为异常；
22.若确定所述各分类结果为异常的数量小于所述数量阈值，则确定所述异常检测结果为未存在异常。
23.可选的，所述随机森林模型的训练方法为：
24.获取训练样本集；
25.对所述训练样本集进行随机抽样，获得各初始决策树各自对应的样本子集；
26.分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树；
27.基于各训练完成的决策树，获得训练完成的随机森林模型。
28.可选的，分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树，具体包括：
29.针对所述各初始决策树，分别执行以下操作：
30.将任意一棵初始决策树对应的样本子集中，各个带宽样本输入至该初始决策树中，基于该初始决策树对应的分类结果，以及相应的分类标签，结合网格法，对该初始决策树的各项参数进行调整，直至相应的损失函数最小化，获得训练完成的决策树。
31.一种异常带宽检测装置，包括：
32.获得模块，用于响应于针对cdn带宽的检测指令，获得当前时间点下的带宽；
33.特征提取模块，用于对所述带宽进行特征提取，获得所述带宽在各时序维度下的时序特征，其中，所述时序特征表征带宽在预设周期内的变化趋势；
34.检测模块，用于将所述时序特征输入至已训练的随机森林模型，获得所述随机森林模型输出的异常检测结果，其中，所述随机森林模型是通过对各历史带宽样本进行迭代训练获得的。
35.可选的，所述特征提取模块还用于：
36.根据所述带宽，与预设的窗口内各时间点下的带宽的均值之间的比值，获得所述带宽对应的环比属性特征；以及，
37.根据所述带宽，与预设的窗口内各时间点下的带宽的均值之间的差值，获得所述带宽对应的环差属性特征；以及，
38.根据所述带宽，与各历史周期内相同时间点下的带宽的均值之间的比值，获得所述带宽对应的同比属性特征；以及，
39.根据所述带宽，与各历史周期内相同时间点下的带宽的均值之间的差值，获得所述带宽对应的同差属性特征；以及，
40.根据当前时间点，确定所述带宽对应的时刻属性特征；以及，
41.根据所述带宽的均值和标准差，获得区间属性特征；
42.根据所述环比属性特征、所述环差属性特征、所述同比属性特征、所述同差属性特
征、所述时刻属性特征和所述区间属性特征，确定所述带宽的时序特征。
43.可选的，获得所述随机森林模型输出的异常检测结果时，所述检测模块还用于：
44.将所述时序特征，分别输入至所述随机森林模型中的各决策树中，获得相应的决策树输出的分类结果；
45.若确定各分类结果为异常的数量大于等于预设的数量阈值，则确定异常检测结果为异常；
46.若确定所述各分类结果为异常的数量小于所述数量阈值，则确定所述异常检测结果为未存在异常。
47.可选的，还包括训练模块，所述训练模块用于：
48.获取训练样本集；
49.对所述训练样本集进行随机抽样，获得各初始决策树各自对应的样本子集；
50.分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树；
51.基于各训练完成的决策树，获得训练完成的随机森林模型。
52.可选的，分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树时，所述训练模块还用于：
53.针对所述各初始决策树，分别执行以下操作：
54.将任意一棵初始决策树对应的样本子集中，各个带宽样本输入至该初始决策树中，基于该初始决策树对应的分类结果，以及相应的分类标签，结合网格法，对该初始决策树的各项参数进行调整，直至相应的损失函数最小化，获得训练完成的决策树。
55.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述异常带宽检测方法的步骤。
56.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述异常带宽检测方法的步骤。
57.本技术实施例中，响应于针对cdn带宽的检测指令，获得当前时间点下的带宽，对带宽进行特征提取，获得带宽在各时序维度下的时序特征，时序特征表征带宽在预设周期内的变化趋势，将时序特征输入至已训练的随机森林模型，获得随机森林模型输出的异常检测结果，随机森林模型是通过对各历史带宽样本进行迭代训练获得的，这样，通过对带宽进行特征提取，获得带宽在各时序维度下的时序特征，并基于已训练的随机森林模型，输出异常检测结果，能够减少人为因素带来的误差，从而提高异常带宽检测的准确度，并且，从多个时序维度，提取带宽的时序特征对随机森林模型进行训练，使得随机森林模型能够很好地学习带宽的时序特征，从而提高异常带宽的检测精度。
附图说明
58.图1为本技术实施例中一种异常带宽检测方法的第一流程示意图；
59.图2为本技术实施例中一种随机森林模型的训练方法的流程示意图；
60.图3为本技术实施例中一种异常带宽检测方法的第二流程示意图；
61.图4为本技术实施例中一种异常带宽检测的第三流程示意图；
62.图5为本技术实施例中集成算法原理图；
63.图6为本技术实施例中一种随机森林算法预测流程图；
64.图7为本技术实施例中异常带宽检测装置的结构示意图；
65.图8为本技术实施例中电子设备的结构示意图。
具体实施方式
66.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，并不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
67.随着全球信息化快速发展，网络规模日益庞大，it系统的安全、高效、高质量运维成为业界关注和研究的热点，目前，对于异常带宽的告警实现主要是依靠运维人员手动设置阈值，当带宽满足阈值条件即产生告警，而在实际生产中，带宽的特性会随业务变化而变化，因此，设置单一的固定的阈值欠合理；并且，单纯依靠运维人员凭借经验设置异常带宽的阈值，容易出现失误，进而告警时产生大量的漏报误报。
68.并且，内容分发网络(content delivery network，cdn)带宽最常见的异常是偏离了它的周期，比如出现了突增，突降，预计的波峰或者波谷没有出现，但指标的值仍然位于高阈值与低阈值之间，那么相关技术中的检测方法就无法识别异常，导致告警的漏报。
69.为了解决上述问题，本技术实施例中，提供了一种异常带宽检测方法，响应于针对cdn带宽的检测指令，获得当前时间点下的带宽，对带宽进行特征提取，获得带宽在各时序维度下的时序特征，时序特征表征带宽在预设周期内的变化趋势，将时序特征输入至已训练的随机森林模型，获得随机森林模型输出的异常检测结果，随机森林模型是通过对各历史带宽样本进行迭代训练获得的。这样，从多个时序维度提取了带宽的时序特征，用于训练随机森林模型，使得模型很好地学习了带宽的时序特性，不但提高了带宽异常检测的精度，还实现了现有的自动化运维方式无法完成的某些场景下的带宽的识别，并且，本技术实施例中，针对cdn带宽指标变化频繁且幅度大的特点，选用随机森林算法作为异常检测器，从而实现了良好的鲁棒性与稳定性，获得了比单分类算法更高的异常检测精度。
70.基于上述实施例，参阅图1所示，为本技术实施例中一种异常带宽检测方法的第一流程示意图，具体包括：
71.s10：响应于针对cdn带宽的检测指令，获得当前时间点下的带宽。
72.本技术实施例中，当需要对带宽进行检测时，触发针对cdn带宽的检测指令，从而响应于针对cdn带宽的检测指令，对当前时间点下的带宽进行检测，获得当前时间点下的带宽。
73.s11：对带宽进行特征提取，获得带宽在各时序维度下的时序特征。
74.其中，时序特征表征带宽在预设周期内的变化趋势。
75.本技术实施例中，由于cdn带宽具有周期性的特点，因此，在对cdn带宽进行特征提取时，可以通过对cdn带宽在不同时序维度进行特征提取，从而获得带宽在各时序维度下的时序特征。
76.可选的，本技术实施例中，为对带宽进行特征提取，提供了一种可能的实施方式，具体包括：
77.首先，根据带宽，与预设的窗口内各时间点下的带宽的均值之间的比值，获得带宽对应的环比属性特征。
78.本技术实施例中，首先，计算预设的窗口内，各时间点下的带宽的均值，然后，计算当前时间点下的带宽，与计算出的均值之间的比值，获得带宽对应的环比属性特征。
79.其中，环比属性特征可以表示为：
[0080][0081]
其中，t0表示检测到带宽时的所在时间点，表示当前时间点的带宽，win表示窗口的大小，mean为求平均值，因此，该公式表示当前时间点下的带宽比去以当前时间点为终点，窗口大小为win的带宽序列求和再平均的值。
[0082]
需要说明的是，环比属性特征反映了带宽变化剧烈的程度，该公式分别提取了cdn带宽的1分钟、5分钟、30分钟的环比属性。
[0083]
然后，根据带宽，与预设的窗口内各时间点下的带宽的均值之间的差值，获得带宽对应的环差属性特征。
[0084]
本技术实施例中，首先，计算预设的窗口内，各时间点下的带宽的均值，然后，计算当前时间点下的带宽，与计算出的均值之间的差值，获得带宽对应的环差属性特征。
[0085][0086]
需要说明的是，本技术实施例中，环比属性特征反映的是比例关系，环差属性特征反映的是绝对差值。
[0087]
其次，根据带宽，与各历史周期内相同时间点下的带宽的均值之间的比值，获得带宽对应的同比属性特征。
[0088]
本技术实施例中，首先，计算各历史周期的相同时间点下，各个带宽的均值，然后，计算当前时间点下的带宽，与计算出的均值之间的比值，获得带宽对应的同比属性特征。
[0089]
其中，本技术实施例中的同比属性特征例如可以表示为：
[0090][0091]
需要说明的时，该公式表示当前时间点下的带宽比去昨天、上周同一时间线下的带宽，为了避免偶然因素的影响，昨天、上周同一时刻的值取的是前后10分钟的均，同比属性特征反映了带宽周期性特征。
[0092]
然后，根据带宽，与各历史周期内相同时间点下的带宽的均值之间的差值，获得带宽对应的同差属性特征。
[0093]
本技术实施例中，计算各历史周期的相同时间点下，各个带宽的均值，然后，计算当前时间点下的带宽，与计算出的均值之间的差值，获得带宽对应的同差属性特征。
[0094]
[0095]
然后，根据当前时间点，确定带宽对应的时刻属性特征。
[0096]
本技术实施例中，根据当前时间点，确定带宽对应的时刻属性特征。
[0097]
其中，本技术实施例中的时刻属性可以表示为：
[0098][0099]
该公式中，表示当前时间点下带宽所在时间点的小时数，反映的是带宽是一天中什么时间点产生的，表示当前时间点下带宽所在时间点的星期数，反映的是带宽是星期几产生的。
[0100]
然后，根据带宽的均值和标准差，获得区间属性特征。
[0101]
本技术实施例中，计算在指定窗口下，带宽序列的均值和标准差，并根据带宽的均值和标准差，获得带宽的区间属性特征。
[0102]
其中，本技术实施例中的均值可以表示为：
[0103][0104]
本技术实施例中的标准差可以表示为：
[0105][0106]
该公式反映的是在指定窗口win下的带宽序列的均值与标准差。
[0107]
需要说明的是，本技术实施例中，在提取获得环比属性特征、环差属性特征、同比属性特征、同差属性特征、时刻属性特征和区间属性特征时，对其执行顺序并不进行限制。
[0108]
最后，根据环比属性特征、环差属性特征、同比属性特征、同差属性特征、时刻属性特征和区间属性特征，确定带宽的时序特征。
[0109]
本技术实施例中，将环比属性特征、环差属性特征、同比属性特征、同差属性特征、时刻属性特征和区间属性特征进行合并，获得带宽的时序特征。
[0110]
s12：将时序特征输入至已训练的随机森林模型，获得随机森林模型输出的异常检测结果。
[0111]
其中，随机森林模型是通过对各历史带宽样本进行迭代训练获得的。
[0112]
本技术实施例中，基于已训练的随机森林模型，以时序特征为输入参数，获得随机森林模型输出的异常检测结果。
[0113]
其中，异常检测结果分为：异常和未存在异常。
[0114]
可选的，本技术实施例中，为确定异常检测结果，提供了一种可能的实施方式，具体包括：
[0115]
首先，将时序特征，分别输入至随机森林模型中的各决策树中，获得相应的决策树输出的分类结果。
[0116]
本技术实施例中，随机森林是由多个分类决策树组成的基于bagging的集成分类器，每一个分类器中采用的独立同分布的随机向量决定了树的生长过程。最终是由所有的
树的多数表决结果来决定最后模型的输出结果。决策树采用投票的方式参与判决，所得票数最多的类别将作为随机森林模型最终的异常检测结果。
[0117]
因此，将时序特征，分别输入至随机森林模型的各决策树中，获得每一棵决策树输出的分类结果。
[0118]
然后，若确定各分类结果为异常的数量大于等于预设的数量阈值，则确定异常检测结果为异常。
[0119]
本技术实施例中，在获得各决策树各自对应的分类结果后，统计分类结果为异常的数量，并判断统计出的数量是否大于等于预设的数量阈值，若确定统计出的数量大于等于预设的数量阈值，则确定随机森林模型输出的异常检测结果为异常。
[0120]
最后，若确定各分类结果为异常的数量小于数量阈值，则确定异常检测结果为未存在异常。
[0121]
本技术实施例中，在获得各决策树各自对应的分类结果后，统计分类结果为异常的数量，并判断统计出的数量是否大于等于预设的数量阈值，若确定统计出的数量小于预设的数量阈值，则确定随机森林模型输出的异常检测结果为未存在异常。
[0122]
本技术实施例中，cdn带宽指标是比较典型的cdn监控指标之一，具有鲜明的时序特点，带宽变化复杂且具有周期性，利用传统的运维方式，设置单一阈值进行告警难以满足告警精度的需求，针对此缺陷，本技术实施例中，提取获得带宽的时序特征，利用随机森林算法进行建模检测，提高了异常带宽检测的准确度。
[0123]
基于上述实施例，参阅图2所示，为本技术实施例中一种随机森林模型的训练方法的流程示意图，具体包括：
[0124]
s20：获取训练样本集。
[0125]
本技术实施例中，获取预先设置的训练样本集。
[0126]
s21：对训练样本集进行随机抽样，获得各初始决策树各自对应的样本子集。
[0127]
本技术实施例中，在训练每一棵决策树时，均需要其对应的样本子集，因此，需要从原始的训练样本集中，确定出相同样本数量的样本子集，也即，每个样本子集中包含的样本的数量均是相同的。
[0128]
因此，本技术实施例中，可以通过对训练样本集机型随机抽样的方式，获得每棵决策树各自对应的样本子集。
[0129]
具体的，本技术实施例中，可以按照抽样是否放回，将随机抽样方式分为以下两种。
[0130]
第一种方式：不放回抽样。
[0131]
本技术实施例中，当不放回抽样时，从训练样本集中不放回地抽取特定数量的带宽样本，生成样本子集。
[0132]
具体的，本技术实施例中，可以将不放回抽样分为随机数法和抽签法。
[0133]
抽签法：抽签法采用编号的方法将所有带宽样本进行标记，然后将训练样本集混合均匀，抽取n次以产生一个容量为n的样本子集。因此，抽签法的执行方式非常简单。
[0134]
需要说明的是，采用不放回抽样时，原始的训练样本集会随着抽样的进行而不断缩小，但是却能够保证产生的样本子集中的带宽样本不重复。
[0135]
随机数法：随机数法采用随机数表或者产生随机数来对带宽样本进行抽样。
[0136]
第二种方式：放回抽样。
[0137]
本技术实施例中，当放回抽样时，可以采用bagging算法，该算法将所有带宽样本放入一个黑盒中，然后随机抽取元素组成样本子集。
[0138]
s22：分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树。
[0139]
本技术实施例中，分别针对各初始决策树，执行以下操作：采用任意一棵初始决策树对应的样本子集，对该初始决策树进行训练，获得训练完成的决策树。
[0140]
可选的，本技术实施例中，可以采用id3算法进行训练，id3算法是以信息增益为度量进行属性选择，该算法选择分裂后信息增益最大的属性进行分裂。信息增益反映的是信息熵的变化，而信息熵的概念来自于信息论，表示消息u发生后所含有的信息量的数学期望。信息熵的定义公式为：
[0141]
e(x)＝p(u1)i(u1) p(u2)i(u2)
…
p(ur)i(ur)
[0142]
id3算法计算每个属性的信息增益率，比较其信息增益的大小并选择信息增益最大的属性作为该节点的分裂属性。使用id3算法生成决策树时，产生的规则具有固定性和可重现性，并且生成的决策树深度较小。
[0143]
可选的，本技术实施例中，还可以采用c4.5算法进行训练，c4.5算法在id3算法的基础上作出了优化。c4.5算法是通过属性的信息增益率而非信息增益来判断当前节点选择的分裂属性。信息增益和信息增益率的计算公式如下：
[0144][0145][0146]
同id3算法相比，c4.5算法这样的处理方式能使属性选择不会因数量而产生偏向问题。同时，相比于id3算法，c4.5算法的优势还体现在可以处理连续性的属性以及能够容忍不完整数据。综上所述，c4.5算法生成决策树的方式更加合理，因此算法的分类精度也更高。但是由于预处理的步骤中需要对数据进行反复遍历，算法的运算成本和复杂度相对较高。
[0147]
可选的，本技术实施例中，为训练随机森林模型还提供了一种可能的实施方式，具体包括：
[0148]
针对各初始决策树，分别执行以下操作：
[0149]
将任意一棵初始决策树对应的样本子集中，各个带宽样本输入至该初始决策树中，基于该初始决策树对应的分类结果，以及相应的分类标签，结合网格法，对该初始决策树的各项参数进行调整，直至相应的损失函数最小化，获得训练完成的决策树。
[0150]
本技术实施例中，将任意一棵初始决策树对应的样本子集中，各个带宽样本输入至该初始决策树中，基于该初始决策树对应的分类结果，以及相应的分类标签，结合网格法，对该初始决策树的各项参数进行调整，从而获得训练完成的决策树。
[0151]
具体地，随机森林模型采用网格法对n_estimators参数进行寻优，寻优范围为
{10，300}，步长为10。
[0152]
s23：基于各训练完成的决策树，获得训练完成的随机森林模型。
[0153]
本技术实施例中，基于各训练完成的决策树，采用结合策略，对各训练完成的决策树进行结合，获得训练完成的随机森林模型。
[0154]
本技术实施例中，首先通过运维监控工具采集到原始的cdn带宽样本，并由运维人员标记出各带宽样本中的正样本与负样本，接着从不同时序维度提取出cdn带宽的多个时序属性作为时序特征，进而构造出训练样本集。然后利用训练样本集训练生成随机森林模型，在此过程中利用三折交叉验证和网格法对随机森林算法n_estimators参数进行参数寻优，得到性能最优的随机森林模型。当需要判断某一新的cdn带宽在特定时间点下是否属于异常带宽时，利用同样的方法提取出带宽的时序特征，传入已训练的随机森林模型中，就能判别带宽是否为异常带宽。
[0155]
基于上述实施例，参阅图3所示，为本技术实施例中一种异常带宽检测方法的第二流程示意图，具体包括：
[0156]
首先，获得各带宽样本，并分别对各带宽样本进行特征提取，获得带宽样本1对应的时序特征1，带宽样本2对应的时序特征2，以及带宽样本k对应的时序特征k，并分别对各带宽样本进行标记，获得包含有各带宽样本，以及各自对应的时序特征的训练样本集，然后，通过训练样本集，对初始的随机训练模型进行训练，获得训练完成的随机森林模型。
[0157]
然后，当需要进行检测时，检测到当前时间点下的带宽，并对当前时间点下的带宽进行特征提取，获得当前时间点下的带宽在各时序维度下的时序特征并将时序特征输入至已训练的随机森林模型中，获得异常检测结果。
[0158]
基于上述实施例，参阅图4所示，为本技术实施例中一种异常带宽检测的第三流程示意图，具体包括：
[0159]
s400：开始。
[0160]
s410：从各时序维度提取各带宽样本各自对应的时序特征，构建训练样本集。
[0161]
s420：利用训练样本集训练初始的随机森林模型，得到已训练的随机森林模型。
[0162]
s430：将待检测的带宽提取时序特征后，输入至已训练的随机森林模型，获得异常检测结果。
[0163]
s440：结束。
[0164]
基于上述实施例，参阅图5所示，为本技术实施例中集成算法原理图，具体包括：
[0165]
首先，获得训练样本集，其中，训练样本集中包含有多个带宽样本。
[0166]
然后，对训练样本集进行随机采样，获得包含有m个带宽样本的样本子集1、包含有m个带宽样本的样本子集2，以及包含有m个带宽样本的样本子集t。
[0167]
然后，采用样本子集1对弱学习器1进行训练，采用样本子集2对弱学习器2进行训练，采用样本子集t对弱学习器t进行训练。
[0168]
其中，弱学习器为决策树。
[0169]
最后，采用结合策略，对弱学习器1、弱学习器2，至弱学习器t进行稽核，获得强学习器，也即，训练完成的随机森林模型。
[0170]
基于上述实施例，参阅图6所示，为本技术实施例中一种随机森林算法预测流程图，具体包括：
[0171]
首先，将当前时间点下的带宽输入至随机森林模型中，通过决策树1进行预测，获得分类结果1，通过决策树2进行预测，获得分类结果2，以及，通过决策树n进行预测，获得分类结果n，根据分类结果1、分别结果2，至分类结果n，获得异常检测结果。
[0172]
基于上述实施例，下面采用一个具体的例子对本技术实施例中随机森林模型的训练方法进行说明。
[0173]
首先，采集了cdn实际生产环境中随机选择的三个域名的带宽作为仿真实验数据，采集时间范围是两个星期，采集时间间隔为60秒，指标数量为60480个，参阅表1所示，为本技术实施例中cdn带宽数据。
[0174]
表1.
[0175]
1628524800wlanapk-apkdxdl.vivo.com.cn634201628524800wlanapk-apptopdxdl.vivo.com.cn2030201628524800wlanapk-appdefdxdl.vivo.com.cn432701628524740wlanapk-apkdxdl.vivo.com.cn659101628524740wlanapk-apptopdxdl.vivo.com.cn2030201628524740wlanapk-appdefdxdl.vivo.com.cn432701628524680wlanapk-apkdxdl.vivo.com.cn659101628524740wlanapk-apptopdxdl.vivo.com.cn203020
[0176]
如表1所示，第一列为带宽对应的时间点信息，第二列为cdn的域名，第三列为带宽的值，第四列为标签，0为正常类指标，1为异常类指标。
[0177]
在对模型的性能进行评价时，为性能评价指标引入了混淆矩阵，参阅表2所示，为本技术实施例中混淆矩阵表。
[0178]
表2.
[0179]
类别预测为正常类预测为异常类实际为正常类tpfn实际为异常类fptn
[0180]
根据如表2所示的混淆矩阵，使用了三种性能评价指标：
[0181]
(1)分类精度acc，即总体分类正确率，代表全部带宽样本中被正确分类的带宽样本所占的比例，计算公式是：
[0182][0183]
(2)查全率tpr，代表所有正常类样本中分类正确的带宽样本所占的比例，也称召回率，计算公式是：
[0184][0185]
(3)特异度tnr，代表所有异常类样本中分类正确的带宽样本所占的比例，计算公式是：
[0186]
[0187]
然后，获取通过监控工具采集到的原始的带宽样本。
[0188]
采用时序特征提取方式，从6个维度提取出带宽的时序特征，共提取出18个时序特征，构造训练样本集，参阅表3所示，为本技术实施例中训练样本集示意表。
[0189]
表3.
[0190]
a1b1c1d1e1f1g1h1i1j1k1l1m1n1o1p1q1r10a2b2c2d2e2f2g2h2i2j2k2l2m2n2o2p2q2r21a3b3c3d3e3f3g3h3i3j3k3l3m3n3o3p3q3r31
[0191]
如表3所示，第1-3列是带宽的环比属性特征，分别是1分钟、5分钟、30分钟的环比值，反映的是带宽的变化剧烈程度；第4-6列是带宽的环差属性特征，分别是1分钟、5分钟、30分钟的环差值；第7-8列是带宽的同比属性特征，分别是1天、一周的同比值，反映的是带宽的周期性；第9-10列是带宽的同差属性特征，分别是1天、1周的同差值；第11-12列是带宽的时刻特征；第13-18列是带宽的时间区间特征，分别是一个小时内的均值和标准差、一天内的均值和标准差，一个星期内的均值和标准差；第19列为标签集，其中0为正常类指标，1为异常类指标。
[0192]
然后，利用训练样本集对随机森林模型进行训练，得到训练完成的随机森林模型。
[0193]
最后，将当前时间点下的带宽用同样方法提取特征后，传入随机森林模型，随机森林模型的输出即为该带宽的异常检测结果。
[0194]
根据以上步骤进行仿真实验，使用相同的实验环境，采用3折交叉验证法，取反向传播神经网络(back propagation neural network，bpnn)、支持向量机支持向量机(support vector machines，svm)、相关向量机(rvm)作对比算法。
[0195]
需要说明的是，本技术实施例中的3折交叉验证过程为：将训练样本集d随机分为3个大小基本相等的数据集d1、d2、d3，定义d-j
＝d-dj(j＝1,2,3)分别为3折交叉验证的第j折测试集和训练集。在训练样本集d-j
上训练基分类器得到模型对于测试集dj中的每一个带宽样本，模型会输出一个预测结果，当交叉验证过程结束，则可以得到模型对于整个训练样本的输出结果。
[0196]
其中，bp神经网络的输入层节点有18个，代表样本的18维特征，输出层节点有2个，表示正常和异常两种状态。支持向量机svm使用径向基核。相关向量机rvm采用网格法对核宽度σ进行寻优，寻优范围为{2-2.5
，2-2.4
，
…22.5
}，步长为0.1。随机森林rf采用网格法对n_estimators参数进行寻优，寻优范围为{10，300}，步长为10，参阅表4所示，为本技术实施例中的仿真实验结果表。
[0197]
表4.
[0198][0199]
表5给出了本技术实施例下进行的对比仿真实验结果，由表5可知，随机森林算法与其他三种对比算法在正常类指标的分类正确率上都能达到100％，但在异常类样本的分类上，随机森林算法的准确率远远高于其他三种对比算法，因此随机森林算法在对比实验中也取得了最高的总分类正确率，达到98％。
[0200]
基于同一发明构思，本技术实施例中还提供了一种异常带宽检测装置，该异常带宽检测装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图7所示，本技术实施例中异常带宽检测装置的结构示意图，具体包括：
[0201]
获得模块700，用于响应于针对cdn带宽的检测指令，获得当前时间点下的带宽；
[0202]
特征提取模块710，用于对所述带宽进行特征提取，获得所述带宽在各时序维度下的时序特征，其中，所述时序特征表征带宽在预设周期内的变化趋势；
[0203]
检测模块720，用于将所述时序特征输入至已训练的随机森林模型，获得所述随机森林模型输出的异常检测结果，其中，所述随机森林模型是通过对各历史带宽样本进行迭代训练获得的。
[0204]
可选的，所述特征提取模块710还用于：
[0205]
根据所述带宽，与预设的窗口内各时间点下的带宽的均值之间的比值，获得所述带宽对应的环比属性特征；以及，
[0206]
根据所述带宽，与预设的窗口内各时间点下的带宽的均值之间的差值，获得所述带宽对应的环差属性特征；以及，
[0207]
根据所述带宽，与各历史周期内相同时间点下的带宽的均值之间的比值，获得所述带宽对应的同比属性特征；以及，
[0208]
根据所述带宽，与各历史周期内相同时间点下的带宽的均值之间的差值，获得所述带宽对应的同差属性特征；以及，
[0209]
根据当前时间点，确定所述带宽对应的时刻属性特征；以及，
[0210]
根据所述带宽的均值和标准差，获得区间属性特征；
[0211]
根据所述环比属性特征、所述环差属性特征、所述同比属性特征、所述同差属性特征、所述时刻属性特征和所述区间属性特征，确定所述带宽的时序特征。
[0212]
可选的，获得所述随机森林模型输出的异常检测结果时，所述检测模块720还用于：
[0213]
将所述时序特征，分别输入至所述随机森林模型中的各决策树中，获得相应的决策树输出的分类结果；
[0214]
若确定各分类结果为异常的数量大于等于预设的数量阈值，则确定异常检测结果为异常；
[0215]
若确定所述各分类结果为异常的数量小于所述数量阈值，则确定所述异常检测结果为未存在异常。
[0216]
可选的，还包括训练模块730，所述训练模块730用于：
[0217]
获取训练样本集；
[0218]
对所述训练样本集进行随机抽样，获得各初始决策树各自对应的样本子集；
[0219]
分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树；
[0220]
基于各训练完成的决策树，获得训练完成的随机森林模型。
[0221]
可选的，分别采用各样本子集，对相应的初始决策树进行训练，获得相应的训练完成的决策树时，所述训练模块730还用于：
[0222]
针对所述各初始决策树，分别执行以下操作：
[0223]
将任意一棵初始决策树对应的样本子集中，各个带宽样本输入至该初始决策树中，基于该初始决策树对应的分类结果，以及相应的分类标签，结合网格法，对该初始决策树的各项参数进行调整，直至相应的损失函数最小化，获得训练完成的决策树。
[0224]
基于上述实施例，参阅图8所示为本技术实施例中电子设备的结构示意图。
[0225]
本技术实施例提供了一种电子设备，该电子设备可以包括处理器810(center processing unit，cpu)、存储器820、输入设备830和输出设备840等，输入设备830可以包括键盘、鼠标、触摸屏等，输出设备840可以包括显示设备，如液晶显示器(liquid crystal display，lcd)、阴极射线管(cathode ray tube，crt)等。
[0226]
存储器820可以包括只读存储器(rom)和随机存取存储器(ram)，并向处理器810提供存储器820中存储的程序指令和数据。在本技术实施例中，存储器820可以用于存储本技术实施例中任一种异常带宽检测方法的程序。
[0227]
处理器810通过调用存储器820存储的程序指令，处理器810用于按照获得的程序指令执行本技术实施例中任一种异常带宽检测方法。
[0228]
基于上述实施例，本技术实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的异常带宽检测方法。
[0229]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0230]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0231]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0232]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0233]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于探测参考信号的下行链路传输配置指示的制作方法

一种异常带宽检测方法、装置、电子设备及存储介质与流程

相关文献

最热文献