一种网络流量预测方法和系统与流程

2022-08-17 00:40:47 来源：中国专利 TAG：

1.本发明涉及网络信息技术领域，尤其涉及一种基于加权xgboost-bagging的网络流量预测方法和系统。

背景技术：

2.随着移动通信技术的快速发展，网络的规模也在不断地扩大，网络数据量激增。面对越来越复杂的网络环境和成倍翻升的网络流量数据以及由此可能引发的网络流量突发等问题，单纯增加网络带宽是不可能完全解决的，网络管理和运营者们需要花费更多的时间和资源来监控实时的网络流量状况，以便对网络流量数据进行合理分析和预测以提高网络资源利用率，确保网络稳定性以应对突发的网络拥挤和堵塞，同时可以节约基站能源及时关闭不需要的基站。
3.网络流量预测是根据历史流量数据和现在的已知信息，利用相关算法模型，估计并推测出目前尚未明确和尚未发生的网络流量数据信息。具体而言，就是建立一个网络流量预测模型来刻画流量数据的行为特性，再根据现在已知的流量数据信息，利用所建立的流量模型，在误差允许范围内对未来网络流量的变化趋势或状态作出可解释的合理推断。网络流量的预测效果是否良好，取决于该网络流量预测模型是否能够有效并准确地刻画出网络流量的行为特性。
4.目前，网络流量预测模型主要分为两类，线性预测模型和非线性预测模型。传统的线性流量预测模型，其运算机理是用多项式拟合函数无限逼近真实流量数据，通过设置足够多的未知参数来达到最佳拟合度，计算量小，适用于短期预测、计算快并且对计算精度要求不高的场合，如对实时性要求较高的在线预测。但以上传统的线性预测模型已经不能完全描述日益复杂的非线性网络业务。针对网络流量具有的突发性、周期性、非线性、长相关等特性，提出了许多新的能够描述网络流量的以上特性的非线性预测模型，如小波分解、支持向量机、人工神经网络等非线性处理方法也被用于网络流量的预测。考虑利用小波分解将具有不同优势的模型进行结合，以进一步提高网络流量的预测效果。机器学习和数据挖掘以及混合模型预测的方法将是网络流量预测领域未来的趋势，然而单个学习器往往容易过拟合，影响网络流量预测的泛化性能。
5.目前，对建立网络流量预测模型的研究中仍存在着一些不足之处和有待进一步研究的问题，如获取的原始流量数据通常会掺杂一些不必要的信息，同时又存在大量的数据缺失，因此需要经过一定的预处理才能用到预测模型中，预处理的结果将会直接影响到模型的性能。此外，流量数据进行特征挖掘时，提取的流量数据特征的有效性也会直接影响到模型的性能。进一步而言，减少预测模型的结构复杂度与计算复杂度、实现大规模分布式处理等同样是网络预测模型需要进一步研究解决的问题。
6.本发明提出一种基于加权xgboost-bagging的网络流量预测来解决这些问题，引入集成学习以进一步提高准确性。

技术实现要素：

7.提供本发明内容以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征；也不旨在用于确定或限制所要求保护的主题的范围。
8.本发明提出了一种基于机器学习和数据挖掘方法和系统，构建了改进的xgboost算法模型，可实现基站网络流量的准确预测。本发明应用于预测基站网络流量，是对连续数值预测而不是做分类预测。
9.针对所采集的基站网络流量数据特性，利用大数据挖掘和机器学习算法，可以实现更加快速、准确、高效的预测。首先对网络流量数据进行统计分析做数据预处理工作，再使用网络流量预测算法对预处理过后的数据采用预测性能较高的算法xgboost进行建模。同时，根据流量特性提取更多的流量数据特征以进一步提升算法性能，使用加权xgboost-bagging算法模型，使其更适合于当前流量特性，以提升模型预测准确度。
10.本发明的一种基于加权xgboost-bagging的网络流量预测方法，包括：对流量数据进行清洗、转换、缺失值填充等预处理；基于时空分布和历史流量数据进行流量特征提取，提取时间特征、空间特征、周期性特征；利用bagging策略的自助采样法从训练数据有放回地随机采样来抽取k组训练样本，重复训练xgboost学习器k次，计算每个xgboost学习器的重要性权重，并将经训练的k个带权重的xgboost学习器进行组合，以构建加权xgboost-bagging网络流量预测模型；以及利用所构建的网络流量预测模型，通过计算出经训练的k个带权重的xgboost学习器的组合中xgboost学习器的加权平均值，得到最终流量预测值输出来预测测试数据。
11.其中，重复训练学习器包括：用所抽取的训练数据训练每个xgboost学习器，而用所抽取的训练样本之外的袋外数据作为验证数据来对每个经训练的xgboost学习器进行评估。
12.本发明的一种基于加权xgboost-bagging的网络流量预测系统，包括：流量数据预处理模块、流量特征提取模块、流量预测模型构建模块，以及流量预测模块。
13.在基于单个学习器xgboost模型实现的精准度上，通过引入bagging策略为模型训练增加随机性，引入正则化，有望进一步减小整体的方差，使得模型对噪声数据更具鲁棒性。此外，在给定相同的决策树数量的情况下，加权xgboost-bagging融合算法模型在理论上比单个学习器xgboost算法模型具有更低的时间复杂度，而空间复杂度几乎不变。此优化算法能够有效地提高网络流量的预测性能。
14.通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。
附图说明
15.以下将通过参考附图中示出的具体实施例来对本发明进行更具体描述。
16.图1是本发明的基于加权xgboost-bagging的网络流量预测方法的流程图；
17.图2是本发明的加权xgboost-bagging算法模型框图；
18.图3是本发明的基于加权xgboost-bagging的网络流量预测系统的框图。
19.附图中的流程图和框图显示了根据本技术的实施例的系统、方法可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
具体实施方式
20.以下将通过参考附图中示出的具体实施例来对本发明进行更具体描述。通过阅读下文具体实施方式的详细描述，本发明的各种优点和益处对于本领域普通技术人员将变得清楚明了。然而应当理解，可以以各种形式实现本发明而不应被这里阐述的各实施方式所限制。提供以下实施方式是为了能够更透彻地理解本发明。除非另有说明，本技术使用的技术术语或者科学术语应当为本技术所属领域技术人员所理解的通常意义。
21.假设原始网络流量数据为d＝{(xi,yi),i＝1,2,
…
,n}，其中yi为流量值，n表示样本容量，xi为m维的输入特征向量{x
i1
,x
i2
,
…
,x
im
}，其中m表示输入特征个数。
22.本发明提出的一种基于加权xgboost-bagging的网络流量预测方法如图1所示，包括如下步骤：
23.步骤s1、网络流量数据预处理：预处理主要是针对掺杂了不必要信息同时又存在数据缺失的原始流量数据进行清洗、转换和缺失值填充等预处理。其具体包括以下子步骤：
24.s1.1、数据清洗：去除异常值、重复值和无用数据。
25.例如，在对原始数据集的统计分析中，发现原始数据中存在大量的异常数据(如值为-9999999)，不利于分析，将这些出现异常数据的记录删除。
26.再如，发现某些基站在文件中记录的流量值均为同一个重复值，鉴于其流量值保持不变，没有分析价值，故将这些基站的记录也删除。
27.此外，对流量预测没有帮助的信息也予以删除，如port_type和service_type两个字段记录的均为相同值，属于无用数据，可以删除。再如，某些字段中内容失，也属于无用数据可予以去除。
28.s1.2、数据转换：将原始数据标准化，转换成能够被机器学习模型识别的数据格式，如将时间信息转换成标准的时间序列格式等。
29.以时间信息标准化为例，原始数据集将基站每天的流量值按月份采集在多个文件里，月份在文件名中体现，而文件中time字段为1至31，表示该月的第几日。为了获得标准时间格式，如
‘
2015-05-01’，需要进行整合，同时从文件名和文件中time字段中提取出具体的年月日信息，并转换为标准的时间序列格式，便于机器学习算法识别和分析。
30.s1.3、缺失值填充：经过数据清洗后，流量数据中几乎所有基站都存在着不同程度的流量值随机性缺失情况，采用基于统计特性填充，如相邻均值填充、前后项填充等方式对缺失数据进行填充。
31.步骤s2、流量特征提取：基于基站的时空分布和历史流量数据提取出流量特征。其具体包括以下子步骤：
32.s2.1、时间特征提取：提取流量数据具体日期信息，如星期几、年月日及其组合，同时进一步包括与日期信息相关的时间特征，例如，是否周末、是否节假日、季节、季度、总天数等；
33.s2.2、空间特征提取：由于地区信息往往是文本信息，需要通过独热编码将文本信息转换为二进制编码；
34.s2.3、周期性特征提取：对历史流量数据可以利用移动窗口平均法提取周期性特征，根据时间序列逐项推移，依次计算出包含一定项数的平均值，所述一定项数即为窗口取值，例如包含一周、两周、
…
、五周的平均值。
35.步骤s3、网络流量预测模型构建：将步骤s2提取的q个流量特征作为输入数据，网络流量值作为输出数据，划分训练数据集和测试数据集，构建加权xgboost-bagging网络流量预测模型。
36.输入：训练数据集d’＝{(ai,yi),i＝1,2,
…
,n}，其中ai为q维的输入特征向量{a
i1
,a
i2
,
…
,a
im
}
37.输出：训练得到的加权xgboost-bagging算法模型
38.其具体包括以下子步骤：
39.s3.1、通过有放回地随机采样来抽取训练样本集：利用bagging策略的自助采样法，从训练数据集d’中有放回地随机抽取k组训练样本集，其样本容量与d’相同，记为{d1’
,d2’
,
…
,d
k’}，所抽取的训练样本集之外的为袋外数据，即验证数据，构成后续使用的验证集；
40.s3.2求取样本占原训练数据的百分比：根据自助采样法原理，由于是有放回地随机采样，每次抽取未被选中的样本的概率是
[0041][0042]
对p取极限可得其值约为36.8％，也就是每次选取的训练样本数据的样本容量虽然和原训练数据相同，但是实际数据量占原训练数据的63.2％左右；
[0043]
s3.3、计算每个xgboost学习器的重要性权重：每次用抽取的训练样本集内的训练数据(占比63.2％)训练每个xgboost学习器，而抽取的训练样本集之外的袋外数据(占比36.8％)作为验证数据对每个训练过的xgboost学习器进行评估，计算出每个学习器的重要性权重；
[0044]
s3.4、重复训练k次：将步骤3.3重复k次，可得到k个xgboost学习器，通过训练样本的差异性使得各个xgboost学习器之间具有一定差异性；
[0045]
s3.5、学习器组合：将训练好的k个带权重的xgboost学习器进行组合。
[0046]
步骤s4、用构建的网络流量预测模型预测测试数据，通过计算出组合中xgboost学习器的加权平均值得到最终流量预测值输出。
[0047]
本发明的基于加权xgboost-bagging的网络流量预测算法模型框图如图2所示。bagging策略基本思想：给定一个大小为n的训练集d，bagging算法从中均匀、有放回地(即使用自助抽样法)选出m个大小为n’的子集di，作为新的训练集。在这m个训练集上使用分类、回归等算法，则可得到m个模型，再通过取平均值、取多数票等方法，即可得到bagging的结果。
[0048]
本发明的改进的xgboost-bagging算法模型与单个xgboost算法模型的复杂度相比，时间复杂度降低，空间复杂度几乎不变，具体如下：
[0049]
假设单个xgboost算法模型中的决策树总数为l，则提出的融合算法模型中每个
xgboost学习模型均生成棵决策树。xgboost算法的时间复杂度可记为o(mnlog(n)) o(lmntd)，其中m为特征个数，n是数据集的大小(即样本容量)，td为树的深度。
[0050]
本发明的xgboost-bagging模型使用bagging策略并行生成k个xgboost学习器，因此，其时间复杂度可以表示为相比之下，本发明的改进的xgboost-bagging算法模型的时间复杂度降低，并与参数k成反比。
[0051]
同时，由于两者都使用l个决策树，因此空间复杂度几乎不变。
[0052]
图3是本发明的基于加权xgboost-bagging的网络流量预测系统的框图。
[0053]
该系统包括流量数据预处理模块310、流量特征提取模块320、流量预测模型构建模块330、以及预测模块340。
[0054]
流量数据预处理模块310可包括用于对原始流量数据进行清洗的清洗模块；将数据标准化，转换成能够被模型识别的数据格式的转换模块；以及基于统计特性进行缺失值填充的缺失值填充模块。数据经预处理后被发送到流量特征提取模块320。
[0055]
流量特征提取模块320从经预处理的流量数据中提取时间特征、空间特征、以及周期性特征等流量特征数据以发送到流量预测模型构建模块330。
[0056]
流量预测模型构建模块330可进一步包括训练模块、评估模块、组合模块，划分训练数据集和测试数据集，由训练模块利用bagging策略自助采样从训练数据集当中抽取训练样本集来训练每个xgboost学习器，并由评估模块用训练样本集之外的袋外数据作为验证集对每个训练过的xgboost学习器进行评估，计算出每个xgboost学习器的重要性权重，并由组合模块将训练后带权重的学习器进行组合。
[0057]
预测模块340使用所述构建的流量预测模型，通过计算组合中的学习器的加权平均值得到最终流量预测值供输出。
[0058]
本发明的基于加权xgboost-bagging的网络流量预测方法和系统，利用bagging集成方法集成若干个xgboost模型，利用袋外数据计算每个xgboost的权重系数，引入正则化的同时控制集成参数，达到在时间、空间开销几乎不变甚至降低的情况下，进一步减小过拟合，以优化算法的泛化性能。
[0059]
以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围，其均应涵盖在本技术的权利要求和说明书的范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于无线传输的并行数据采集方法及系统与流程

一种网络流量预测方法和系统与流程

相关文献

最热文献