一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

流量预测方法、装置和电子设备与流程

2022-03-16 05:28:41 来源:中国专利 TAG:


1.本发明涉及智能通信技术领域,尤其涉及一种流量预测方法、装置和电子设备。


背景技术:

2.网络正在渗透人们生活、工作和娱乐的方方面面,给人们带来欢乐的同时也带来了极大的便利。流量预测是指能够预测天/周/月/季度/半年/一年/特殊节假日的流量值。由于网络用户数量、使用移动设备上网的比例以及移动互联网接入的流量数据的激增,国内外对于网络流量预测的研究长期处于热门状态。
3.随着数据量与流量复杂性的增大,对于网络流量的预测逐渐由传统的方式逐渐向新的预测模型发展。目前,流量预测模型主要有时间序列模型、支持向量机、小波变换、基于均值法、基于中间值法、压缩感知以及深度学习模型等。然而对于某些复杂场景,如需满足实现千万级端口流量预测,或者用于预测的原始数据存在缺失与偶发流量,以及单个端口数据分布可能发生变化时,现有流量预测模型储存和计算性能开销巨大,模型的预测性能受到严重影响。


技术实现要素:

4.本发明提供一种流量预测方法、装置和电子设备,用以解决现有技术中针对复杂场景流量预测模型储存和计算性能开销大的缺陷,实现准确的流量预测。
5.本发明提供一种流量预测方法,包括:
6.获取前一时间段的流量数据;
7.将前一时间段的流量数据输入流量预测模型,获得所述流量预测模型输出的当前时间段的预测流量数据;
8.其中,所述流量预测模型是基于历史流量数据训练得到的,流量预测模型包括卷积生成网络和自适应注意力网络,所述卷积生成网络用于生成第一预测流量数据,所述自适应注意力网络用于生成第二预测流量数据,所述预测流量数据包括第一预测流量数据和第二预测流量数据的加权和。
9.根据本发明提供的一种流量预测方法,所述历史流量数据进行训练之前,还包括:
10.对所述历史流量数据进行预处理,所述预处理包括数据清洗和缺失数据填充。
11.根据本发明提供的一种流量预测方法,所述数据清洗包括:
12.获取所述历史流量数据的散度,采用异常点检测算法根据所述历史流量数据的散度计算历史流量数据的异常点;
13.删除包含异常点的异常历史流量数据,获得数据清洗后的历史流量数据。
14.根据本发明提供的一种流量预测方法,所述自适应注意力网络包括重要分数学习网络和注意力矩阵推理网络,所述重要分数学习网络用于获取所述历史流量数据任一个时间段中每个时间点的重要性,所述注意力矩阵推理网络用于根据所述任一个时间段中每个时间点的重要性获得所述任一个时间段的注意力矩阵,所述任一个时间段的注意力矩阵用
于生成第二预测流量数据。
15.根据本发明提供的一种流量预测方法,所述重要分数学习网络为双层卷积结构。
16.根据本发明提供的一种流量预测方法,所述卷积生成网络包括依此相连的第一卷积层、第一反卷积层、第二卷积层和第二反卷积层,所述卷积生成网络还包括残差网络,所述第二预测流量数据包括所述第二反卷积层输出和残差网络输出的加权和。
17.本发明还提供一种流量预测装置,包括:
18.采集模块,用于获取前一时间段的流量数据;
19.预测模块,用于将前一时间段的流量数据输入流量预测模型,获得所述流量预测模型输出的当前时间段的预测流量数据;
20.其中,所述流量预测模型是基于历史流量数据训练得到的,流量预测模型包括卷积生成网络和自适应注意力网络,所述卷积生成网络用于生成第一预测流量数据,所述自适应注意力网络用于生成第二预测流量数据,所述预测流量数据包括第一预测流量数据和第二预测流量数据的加权和。
21.根据本发明提供的一种流量预测装置,所述采集模块中在历史流量数据进行训练之前,还包括:
22.对所述历史流量数据进行预处理,所述预处理包括数据清洗和缺失数据填充。
23.根据本发明提供的一种流量预测装置,所述数据清洗包括:
24.获取所述历史流量数据的散度,采用异常点检测算法根据所述历史流量数据的散度计算历史流量数据的异常点;
25.删除包含异常点的异常历史流量数据,获得数据清洗后的历史流量数据。
26.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述流量预测方法的步骤。
27.本发明提供的一种流量预测方法、装置和电子设备,通过建立流量预测模型,攻克了深度学习模型在千万级端口流量预测任务上,训练、预测、存储、自动修正等多个难点。所述流量预测模型具有参数量小,训练速度快,模型储存占用空间少等优点。本发明通过动态生成时域网络自适应捕捉异常情况并抵抗异常数据干扰,并输出合理预测结果。解决了输入数据存在缺失与偶发流量时,模型预测误差大的难题。
附图说明
28.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1是本发明实施例提供的流量预测方法的流程示意图;
30.图2是本发明实施例提供的流量预测模型结构示意图;
31.图3是本发明实施例提供的流量预测装置的结构示意图;
32.图4是本发明实施例提供的真实流量数据和模型预测结果对比图;
33.图5是本发明提供的电子设备的结构示意图。
具体实施方式
34.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.本发明通过研究差分、傅里叶分解、多级小波分解项、长短期多级特征项等多种特征构造方法对流量数据的表征效果。融合长短期流量特征并利用得到的结果进行下一步的网络流量预测。
36.本发明通过对网络流量的流行特征的分析,依据网络流量数据的自相似性、长时相关性和周期性特点构造多时域融合的流量特征,将人类可以直接理解的流行特征引入到模型训练之中引导模型训练,从而约束现有的深度学习模型能够更好地学习到关键的稳定特征,进而提高模型的预测准确度。
37.下面结合图1流程示意图描述本发明的流量预测方法,该方法包括如下步骤:
38.s101、获取前一时间段的流量数据;
39.s102、将前一时间段的流量数据输入流量预测模型,获得所述流量预测模型输出的当前时间段的预测流量数据;
40.其中,所述流量预测模型是基于历史流量数据训练得到的,流量预测模型包括自适应注意力网络和卷积生成网络,所述自适应注意力网络用于生成第一预测流量数据,所述卷积生成网络用于生成第二预测流量数据,所述预测流量数据包括第一预测流量数据和第二预测流量数据的加权和。
41.本发明实施例的流量预测方法通过建立流量预测模型实现流量预测,所述流量预测模型由并行的卷积生成网络与自适应注意力网络两个部分组成。所述卷积生成网络使得流量数据沿着编码器网络向生成器网络流动的过程中,流量数据噪点被逐渐删去,并引入符合数据输入输出分布的流量特征。针对流量数据连续缺失与突发性流量事件两个问题,所述自适应注意力网络能够提取多时域流量特征重要性,实现不同输入条件下的注意力矩阵自适应推理。本发明的预测方法针对海量规模端口的特点设计支持多端口流量预测的统一模型,实现具备长时稳定性的流量预测。
42.需要注意的是,本发明实施例中所述时间段为一周,也可以为一天、20天、几周、一个月或几个月。
43.在本发明的至少一个实施例中,所述历史流量数据进行训练之前,还包括:
44.对所述历史流量数据进行预处理,所述预处理包括数据清洗和缺失数据填充。
45.本发明实施例中的方法对从原始端口获得的流量数据进行统一的预处理,通过数据清洗和缺失数据填充,使得数据满足模型输入格式,避免缺失数据或在分布异常的数据影响模型对正常数据分布的学习,以及在模型调试过程中易产生的过拟合问题。
46.在本发明的至少一个实施例中,所述缺失数据填充包括重采样和邻近值填充。
47.需要说明的是,端口上时间序列数据存在缺失和连续缺失的问题会导致每天的记录数量不一致,记录的时间间隔和时间点不相同的问题。原始数据无法直接训练网络和使用网络进行预测。经过重采样的数据与原始数据包含的信息量基本一致。经过重采样和邻近值填充使得输入模型的序列数据拥有统一的格式,利于模型在不同的端口上进行训练和
预测。
48.在本发明的至少一个实施例中,所述数据清洗包括:
49.s201、获取所述历史流量数据的散度,采用异常点检测算法根据所述历史流量数据的散度计算历史流量数据的异常点;
50.s202、删除包含异常点的异常历史流量数据,获得数据清洗后的历史流量数据。
51.需要说明的是,实际流量预测场景下用户数量与端口的连接改变不可预知,流量分布模式偶尔出现突发性变化。需要对流量预测模型失效的原因进行分析。本发明实施例的方法结合临近滑窗法与jsd(js-divergence)散度估计临近序列距离,将流量异常分布检测问题转化为异常点检测问题。
52.在本发明实施例中,采用的异常点检测算法为联合孤立森林(isolation forecast)异常点检测算法,用于判断各个异常点的jsd散度值确定真实的流量分布改变点,并计算最终的流量分布改变时间。孤立森林是一种适用于连续数据(continuous numerical data)的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的。对于如何查找哪些点容易被孤立(isolated),孤立森林使用了一套非常高效的策略。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。该异常点检测方法包括如下步骤:
53.s2011、读取一个时间段的流量数据x=[x
t1
,...,x
tn
];
[0054]
s2012、设置两个相邻的滑动窗口window1和window2,大小为s;
[0055]
其中,若序列呈现明显的周期性,设其周期为t个时间点。则设置第三个滑动窗口window3,大小为s,与window2相隔t-1个时间点。设window1的左端点对应的时间点为j,则window1、window2和window3对应的时间序列分别为x[j:j s],x[j s:j 2s],x[j t*s:j (t 1)*s];
[0056]
s2013、沿着时间序列以s为步长不断地滑动window1,window2,window3,并保持他们之间的时间间隔不变;
[0057]
s2014、将window1、window2、window3内的序列数据分别进行统计分析,并利用如式(1)的kde核密度估计方法生成window1,window2,window3内序列数据的概率密度函数,分别记为f,g,h;
[0058]
f(x)=kde(x[j:j s])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(1)
[0059]
定义序列数据之间的距离为s,如式(2)所示:
[0060]
s=min(jsd(f||g),jsd(f||h))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(2)
[0061]
其中,
[0062][0063]
若序列没有周期性,则仅以滑动窗口window1,window2进行检测,在s2014中生成window1和window2内序列数据的概率密度函数,分别记为f和g,s=jsd(f||g)。
[0064]
s2015、重复步骤s2013至s2015直至序列数据末端,得到序列数据的距离数组s,利用孤立森立异常点检测算法检测距离数组s中存在的异常点,得到预备异常点集合s
preoutline
,设置阈值∈,取s
preoutline
中大于阈值的点构成异常点集合s
outline
,其中,s
outline

{s|s》∈,s∈s
preoutline
}。
[0065]
需要说明的是,在进行预测时,对前一时间段的流量数据也需要采用上述实施例的方法进行预处理。
[0066]
图2是本发明实施例提供的流量预测模型结构示意图,其中,图中左侧为重要分数学习网络,右侧为注意力矩阵推理网络。
[0067]
在本发明的至少一个实施例中,所述自适应注意力网络包括重要分数学习网络和注意力矩阵推理网络,所述重要分数学习网络用于获取所述历史流量数据任一个时间段中每个时间点的重要性,所述注意力矩阵推理网络用于根据所述任一个时间段中每个时间点的重要性获得所述任一个时间段的注意力矩阵,所述任一个时间段的注意力矩阵用于生成第一预测流量数据。
[0068]
在本发明的至少一个实施例中,所述重要分数学习网络为双层卷积结构。
[0069]
所述重要分数学习网络的工作流程如下:
[0070]
计算同一周期内不同的天之间的重要性分数is,如式(3)所示:
[0071]
is(x)=linear
n,n
(x1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(3)
[0072]
其中,x1=relu(squeeze(conv
1,n,(n,size)
(unsqueeze(x,dim=1),dim=2));
[0073]
对所述重要性分数is进行压缩,如式(4)所示:
[0074][0075]
所述注意力矩阵推理网络的工作流程如下:
[0076]
将重要分数学习网络得到的压缩后的重要性分数广播到指定维数,如式(5)所示:
[0077][0078]
其中,net(x)=is

(x);
[0079]
根据net(x)

求解注意力矩阵attn(x),如式(6)所示:
[0080][0081]
根据attn(x)对不同时间天之间的流量数据进行加权求和,得到第一预测流量数据,如式(7)所示:
[0082]ydan
=attn(x)x’t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(7)
[0083]
其中,x

=unsqueeze(x,dim=3)。
[0084]
需要说明的是,本发明实施例中,表示流量数据,其中n表示流量数据的周期,m表示每一周期内的序列长度。conv
input_channel.out_channel,kernel_size
和transposeconv
input_channel,out_channel,kernel_size
分别表示卷积与反卷积运算,input_channel表示输入张量的通道数,out_channel表示输出张量的通道数,kernel_size表示卷积核的大小,linear
input_dim,output_dim
表示线性矩阵运算,nput_dim表示输入张量的维度,output_dim表示输出张量的维度,squeeze(〃,dim)表示当输入〃的第dim维为1时,去掉这一维度的运算,unsqueeze(〃,dim)函数表示为输入〃增加第dim维,且保证第dim维上只有1个元素的运算,broadcast(〃,dim,piece)表示对输入〃的第dim维复制piece次的运算,
relu(x)=max(x,0)。
[0085]
在本发明的至少一个实施例中,所述卷积生成网络包括依此相连的第一卷积层、第一反卷积层、第二卷积层和第二反卷积层,所述卷积生成网络还包括残差网络,所述第二预测流量数据包括所述第二反卷积层输出和残差网络输出的加权和。
[0086]
需要说明的是,所述卷积生成网络由两次压缩-生成过程组成,其中压缩过程使用卷积神经网络,生成过程使用反卷积神经网络。所述卷积时域生成网络的工作流程如下:
[0087]
所述第一卷积层和第一反卷积层执行第一次压缩-生成过程:
[0088][0089][0090][0091]
所述第二卷积层和第二反卷积层执行第二次压缩-生成过程:
[0092][0093][0094]
所述残差网络用于残差链接,输出第二预测流量数据,如式(8)所示:
[0095]ygtn
=w1x2′
w2x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(8)
[0096]
其中,w1,w2的优选参数为
[0097]
在本发明的至少一个实施例中,流量预测方法由并行的卷积生成网络与自适应注意力网络两个阶段组成。通过将两者进行加权求和实现网络集成,获得预测流量数据,如式(9)所示:
[0098]
y=w3y
gtn
w4y
dan
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(9)
[0099]
其中,w3,w4的优选参数为
[0100]
本发明实施例中所述卷积生成网络按照时间维度对数据进行卷积和转置卷积,同时兼顾短时依赖和长时周期。在编码阶段可以丢弃对预测有害的信息,在生成阶段可以添加对预测有利的信息。
[0101]
在本发明的至少一个实施例中,为了保证预测系统资源的高效利用与应用gdtn(动态时域生成网络)流量模型的端口覆盖率,充分发挥多端口流量并行预测的优势,设计的多端口预测修正方案支持同一端口流量预测的动态迁移,保证原模型流水工作的同时为数据失准端口重新训练新的多端口模型,稳定流量预测系统资源的负载。
[0102]
所述的多端口自动修正方案包括:基于模型整体性能的修正和基于逐个端口的性能的修正,其中:
[0103]
基于模型整体性能的修正方案包括:
[0104]
根据模型整体性能判断该模型是否重新训练。
[0105]
根据模型管理的端口数量判断该模型是否重新训练。
[0106]
基于逐个端口的性能的修正方案包括:
[0107]
根据基于散度的数据分布异常检测算法,判断该端口是否从模型中去除该端口,并将该端口送入新的集合中,训练新的多端口gdtn模型。
[0108]
根据逐个端口的性能判断是否从模型中去除该端口,并将该端口送入新的集合中,训练新的多端口gdtn模型。
[0109]
下面对本发明提供的流量预测装置进行描述,下文描述的流量预测装置与上文描述的流量预测方法可相互对应参照。
[0110]
如图3是本发明实施例提供的流量预测装置的结构示意图,本发明实施例的流量预测装置,包括:
[0111]
采集模块301,用于获取前一时间段的流量数据;
[0112]
预测模块302,用于将前一时间段的流量数据输入流量预测模型,获得所述流量预测模型输出的当前时间段的预测流量数据;
[0113]
其中,所述流量预测模型是基于历史流量数据训练得到的,流量预测模型包括卷积生成网络和自适应注意力网络,所述卷积生成网络用于生成第一预测流量数据,所述自适应注意力网络用于生成第二预测流量数据,所述预测流量数据包括第一预测流量数据和第二预测流量数据的加权和。
[0114]
本发明实施例的流量预测装置针对网络流量特点构造的深度生成网络,对流量数据进行降噪与预测,能够同时注意到数据噪点以及数据的集中缺失,对网络流量有很好的拟合能力。同时,基于注意力网络进行原理上的创新,通过多层感知器学习不同天之间的重要分数,构造注意力矩阵。稀疏常见注意力网络的参数,亦使注意力机制在网络流量任务上具备良好的可解释性。
[0115]
在本发明的至少一个实施例中,所述采集模块301中在历史流量数据进行训练之前,还包括:
[0116]
对所述历史流量数据进行预处理,所述预处理包括数据清洗和缺失数据填充。
[0117]
在本发明的至少一个实施例中,所述数据清洗包括:
[0118]
获取所述历史流量数据的散度,采用异常点检测算法根据所述历史流量数据的散度计算历史流量数据的异常点集合;
[0119]
删除异常点集合,获得数据清洗后的历史流量数据。
[0120]
如图4所示,是本发明实施例提供的真实流量数据和模型预测结果对比图,其中,真实流量数据为label,模型预测数据为output,从图中可以看出,本发明实施例提供的模型预测出的流量数据与真实流量数据十分贴近,证明了本发明方法的有效性。
[0121]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行流量预测方法,该方法包括:
[0122]
获取前一时间段的流量数据;
[0123]
将前一时间段的流量数据输入流量预测模型,获得所述流量预测模型输出的当前时间段的预测流量数据;
[0124]
其中,所述流量预测模型是基于历史流量数据训练得到的,流量预测模型包括自适应注意力网络和卷积生成网络,所述自适应注意力网络用于生成第一预测流量数据,所
述卷积生成网络用于生成第二预测流量数据,所述预测流量数据包括第一预测流量数据和第二预测流量数据的加权和。
[0125]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0126]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0127]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0128]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献