一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多源网络流量数据的网络流量分析方法和装置

2022-04-30 15:10:08 来源:中国专利 TAG:


1.本技术涉及网络流量分析技术领域,特别是涉及一种基于多源网络流量数据的网络流量分析方法和装置。


背景技术:

2.为了对网络空间流量进行分析和挖掘,充分理解网络空间中业务流转和信息传递,基于网络空间数据传输的基础手段,对网络空间中的目标流量进行识别。
3.现实的网络流量数据的往往通过部署在不同类型的终端设备上的网络探针采集,每一个网络探针作为一个采集信息的源头,采集到的网络流量数据以网络数据流的形式进行存储和利用。面对网络瞬息万变的复杂形势,传统的数据采集、汇集处理,标注训练、发布模型的处理方式需要耗费大量的时间进行数据和模型传输部署,具有较强的滞后性,难以做到对于网络流量实时的分析处理。另外,由于网络环境和网络行为的动态变化,从而引起数据特征和数据标签映射函数产生变化的概念漂移现象,影响流量分析的准确率。网络流量分析方法需要对概念漂移进行动态的检测和应对,提高流量分析能力。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够针对多源网络流量数据分析满足实时性的基于多源网络流量数据的网络流量分析方法和装置。
5.一种基于多源网络流量数据的网络流量分析方法,所述方法包括:
6.在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
7.在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
8.概念漂移检测:每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测;若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
9.在其中一个实施例中,所述方法还包括:分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据源,对所述网络流数据源进行分类。
10.在其中一个实施例中,所述方法还包括:
11.对所述样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;
12.采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵s;
13.计算所述更新后的数据特征矩阵的协方差矩阵
14.计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵u=[w1,

,wd];
[0015]
根据所述数据样本和所述特征变换矩阵,求解z=s
×
u,得到降维后的数据特征矩阵。
[0016]
在其中一个实施例中,所述方法还包括:
[0017]
使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
[0018]
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
[0019]
根据所述降维后的数据特征矩阵和所述数据均值的kl散度,所述变换后的历史数据特征矩阵和所述数据均值的kl散度,得到所述数据特征矩阵和历史数据特征矩阵之间的js散度;
[0020]
当js散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
[0021]
在其中一个实施例中,计算数据特征矩阵和数据均值的kl散度,包括:
[0022][0023]
其中,μk表示数据均值,zk(x)表示降维后的数据特征矩阵,kl(zk||μk)表示降维后的数据特征矩阵和数据均值的kl散度,数据特征数为d。
[0024]
在其中一个实施例中,计算历史数据特征矩阵和数据均值的kl散度,包括:
[0025][0026]
其中,μk表示数据均值,pk(x)表示特征变换后的历史概念数据特征矩阵,kl(pk||μk)表示历史数据特征矩阵和数据均值的kl散度,数据特征数为d。
[0027]
在其中一个实施例中,所述方法还包括:
[0028]
根据所述降维后的数据特征矩阵和所述数据均值的kl散度,所述变换后的历史数据特征矩阵和所述数据均值的kl散度,得到所述数据特征矩阵和历史数据特征矩阵之间的js散度为:
[0029][0030]
其中,jsd(pk||zk)表示所述数据特征矩阵和历史数据特征矩阵之间的js散度。
[0031]
一种基于多源网络流量数据的网络流量分析装置,所述装置包括:
[0032]
分类器设置模块,用于在网络流数据源部署分类器池;其中所述分类器池包括多
个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
[0033]
流量分类模块,用于在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
[0034]
概念漂移检测模块,用于每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测;若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
[0035]
上述基于多源网络流量数据的网络流量分析方法和装置,首先在每个数据源部署网络流量数据,然后在进行在线流量分析时,从流量数据的概念出发,存储历史概念数据,通过实时获取的在线流量数据和历史概念数据,进行流量数据概念漂移的检测,在检测到漂移时,及时的对在线分类器进行重置,从而可以持续的准确对在线流量数据进行分析。
附图说明
[0036]
图1为一个实施例中基于多源网络流量数据的网络流量分析方法的流程示意图;
[0037]
图2为一个实施例中基于多源网络流量数据的网络流量分析装置的结构框图;
[0038]
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
[0039]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0040]
在一个实施例中,如图1所示,提供了一种基于多源网络流量数据的网络流量分析方法,包括以下步骤:
[0041]
步骤102,在网络流数据源部署预训练分类器池。
[0042]
具体的,分类器池包括多个训练好的在线分类器,每个网络流数据源中部署一个训练好的在线分类器,构成一个多源流量数据的多源流量模型集合为:
[0043]
π={ψ1,

,ψ
l
}
[0044]
对于多源的网络流量数据,可以表示如下:
[0045][0046]
其中
[0047]
若多源流量数据包含l个流量采集源头,是多源数据流的数据特征分布空间和对应的类别标签,其中y
l
的取值为
[0048]
步骤104,在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类。
[0049]
具体的,数据标签可选集合定义为在同一时刻,多源数据流会有样本同时到达,其中为t时刻第l个数据源上的无标注数据样本。
[0050]
流量分析是根据在线部署的在线分类器进行分析的,而流量数据的类型不是一成不变的特征分布和类别都会有一定变化,会导致原先的流量分类模型精度下降。因此在进行流量分析时,应该时刻关注于网络流量数据的类型是否发生变化,从而进行了上述概念漂移检测。
[0051]
步骤106,每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块。
[0052]
流量漂移检测模块包含历史概念数据,以根据流量数据特征、特征变换矩阵以及历史概念数据,对概念漂移进行检测。
[0053]
步骤108,若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
[0054]
上述基于多源网络流量数据的网络流量分析方法中,首先在每个网络数据源部署网络流量采集器,通过网络流量采集器获取网络流量数据,然后在进行在线流量分析时,从流量数据的概念出发,存储历史概念数据,通过实时获取的在线流量数据和历史概念数据,进行流量数据概念漂移的检测,在检测到漂移时,及时的对在线分类器进行重置,从而可以持续的准确对在线流量数据进行分析。
[0055]
在其中一个实施例中,分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据样本,对所述网络流数据样本进行分类。
[0056]
在其中一个实施例中,对样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵s;计算更新后的数据特征矩阵的协方差矩阵计算协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵u=[w1,

,wd];根据数据样本和特征变换矩阵,求解z=s
×
u,得到降维后的数据特征矩阵。
[0057]
具体的,对所有样本特征值进行中心化处理求样本集的协方差矩阵:求解协方差的特征值和特征向量,选取最大d个特征值对应的数据特征向量{w1,

,wd},j小于特征数m,在本发明中一般设置为6。用特征向量组成特征向量矩阵u=[w1,

,wd],其中u为n
×
d维的矩阵,又称为特征变换矩阵。求解新的数据特征矩阵z=s
×
u,求解后新的流量数据样本特征集z为一个n
×
d维的矩阵,实现了从大规模数据到小样本数据的降维过程,并且尽可能地保留了流量数据原始的特征。
[0058]
在其中一个实施例中,从初始化数据集中,不重复随机选择k次,每次选择b个数据
作为每个在线分类器对应的历史概念数据,其中,k为在线分类器的数量。历史概念数据存储模块的主要功能是存储具有历史概念的网络流量数据样本,这些存储的样本保存着对应数据源的历史概念,定义为p={p1,

,pk},对于每一个数据源分别存储b个样本。
[0059]
在其中一个实施例中,对数据特征矩阵和历史数据特征矩阵求均值,得到数据均值;根据数据特征矩阵和数据均值的kl散度,历史数据特征矩阵和所述数据均值的kl散度,得到数据特征矩阵和历史数据特征矩阵之间的js散度;当js散度大于预先设置的显著性参数时,确定在线分类器发生漂移。
[0060]
在其中一个实施例中,计算数据特征矩阵和数据均值的kl散度为:
[0061][0062]
其中,μk表示数据均值,zk(x)表示数据特征矩阵,kl(zk||μk)表示数据特征矩阵和数据均值的kl散度,数据特征矩阵的特征数为d。
[0063]
在其中一个实施例中,计算历史数据特征矩阵和数据均值的kl散度为:
[0064][0065]
其中,μk表示数据均值,pk(x)表示历史数据特征矩阵,kl(pk||μk)表示历史数据特征矩阵和数据均值的kl散度,历史数据特征矩阵的特征数为d。
[0066]
在其中一个实施例中,根据数据特征矩阵和数据均值的kl散度,历史数据特征矩阵和所述数据均值的kl散度,得到数据特征矩阵和历史数据特征矩阵之间的js散度为:
[0067][0068]
其中,jsd(pk||zk)表示数据特征矩阵和历史数据特征矩阵之间的js散度。
[0069]
具体的,对于每一个数据源k,传输到概念漂移检测模块的降维后数据特征zk,特征变换矩阵uk和其历史概念数据存储模块中的数据pk,依次执行以下步骤1)取v=min[count(pk),count(zk)]作为漂移检测集的样本个数,并从较多的数据中随机不重复的选择样本。
[0070]
2)使用特征变化矩阵uk对pk进行转化
[0071]
3)计算两组样本的均值
[0072]
4)计算流量数据的分布之间的js散度:
[0073][0074]
其中,kl为计算样本集之间的kullback-leibler散度:
[0075]
[0076][0077]
一般这个地方就是kl的计算公式了,其具体计算步骤为:μk,pk和zk均样本数量为v,特征数量为d,其数据样本特征矩阵为v
×
d:
[0078][0079]
其中每一行为一个样本,每一列为一个特征,kl散度计算目的是衡量每个特征之间的差异程度,因此,计算过程中,对于每一列(每个特征),分别进行一次公式计算
[0080][0081]
得到的kl散度结果为一个一维的矩阵,包含d个元素,分别是每一个特征维度的kl散度的值。
[0082]
若jsd大于预设的显著性参数α,通常取0.6-0.8,若大于则认为概念漂移发生。
[0083]
结合上述实施例,以下以一个具体的实施例进行说明:
[0084]
1.初始化阶段,基于已有的网络流量数据,初始化所有的多源部署的所有k个分类器π=ψ1,

,ψk,在k数据源分别部署对应的分类器ψk;并分别部署网络数据采集器。
[0085]
2.初始化多源网络流量数据历史概念数据存储模块p={p1,

,pk},分别对应k个数据源,从p1到pk,从已有的网络流量数据中随机选择b个样本,输入进历史概念数据存储模块。
[0086]
3.进入模型的部署使用阶段:t=0,初始化漂移检测时间间隔计数器t*=t
[0087]
3.1如果t*==0,说明到达了设置好的漂移检测时间间隔t,将会对数据流中的概念漂移进行检测,跳转至步骤3.2,否则跳转至步骤3.3
[0088]
3.2首先对漂移检测时间间隔进行重置t*=t,并进行概念漂移的检测步骤,跳转至3.2.1
[0089]
3.2.1对于每一个数据源k(k=1,...,k),分别执行以下步骤:
[0090]
1)收集间隔t时间内到达的网络流量数据样本定义为sk[0091]
2)使用特征分析模块,计算降维后的样本数据特征矩阵zk与特征变换矩阵uk[0092]
3.2.2将所有数据源的降维后样本数据特征矩阵与特征变换矩阵传输至多源流量数据概念漂移检测模块
[0093]
3.2.3对于每一个数据源k(k=1,...,k),分别执行以下步骤:
[0094]
1)读取样本数据特征矩阵zk与特征变换矩阵uk,对历史概念数据存储模块中的数据pk进行特征转化操作
[0095]
2)取v=min[count(pk),count(zk)]作为漂移检测集的样本个数,并从较多的数据中随机不重复的选择样本。
[0096]
3)计算当前样本与历史概念样本之间的jsd指标
[0097]
4)对比jsd显著性参数α,通常取0.6-0.8,若大于则认为数据源k发生概念漂移,否则认为没有发生概念漂移
[0098]
5)若已经遍历了所有数据源,则跳转至步骤3.2.4
[0099]
3.2.4对于每一个数据源k(k=1,...,k),分别执行以下步骤:
[0100]
1)若数据源k发生了概念漂移,
[0101]
a)向数据源发起样本获取请求,从数据源获得当前时间段内的网络流量数据样本sk[0102]
b)用sk更新对应的历史概念数据存储模块pk[0103]
c)对sk进行数据标注,重新训练新的网络流量分类模型ψ
′k[0104]
d)将新的流量分类模型ψ
′k传输至数据源k,替换原模型
[0105]
e)跳转至步骤3.3
[0106]
2)若未发生概念漂移,跳转至步骤3.3
[0107]
3.3多源部署分类器π=ψ1,

,ψk对到达样本进行特征处理和分类,并输出分类结果,跳转至步骤44.t=t 1,t*=t*-1跳转至步骤3
[0108]
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0109]
在一个实施例中,如图2所示,提供了一种基于多源网络流量数据的网络流量分析装置,包括:分类器设置模块202、流量分类模块204和概念漂移检测模块206,其中:
[0110]
分类器设置模块202,用于在网络流数据源部署分类器池;其中所述分类器池包括多个训练好的在线分类器,每个网络流数据源部署一个训练好的在线分类器;
[0111]
流量分类模块204,用于在每个时刻,对于每一个网络流数据源,将网络流量采集器采集到当前时刻的网络流量数据作为网络流量数据样本,使用部署在对应网络流数据源的在线分类器对网络流量数据样本进行分类;
[0112]
概念漂移检测模块206,用于每间隔预设时间,将每个网络流数据源收集的网络流量数据进行特征处理和变换,将处理得到的流量数据特征和特征变换矩阵传输至流量漂移检测模块;所述流量漂移检测模块包含历史概念数据,以根据所述流量数据特征、所述特征变换矩阵以及所述历史概念数据,对概念漂移进行检测,若检测到概念漂移,则对部署在对应网络流数据源的在线分类器进行更新。
[0113]
在其中一个实施例中,分类器设置模块202还用于分类器池中包含多个采用增量式更新的在线分类器,将所述分类器池中的在线分类器,分别部署在每个网络流数据源,通过网络流量采集器接收网络流数据源,对所述网络流数据源进行分类。
[0114]
在其中一个实施例中,概念漂移检测模块206还用于对所述样本特征的矩阵中的每个样本特征进行中心化处理,得到处理后的样本特征其中xi表示样本特征矩阵的第i个特征;
[0115]
采用处理后的样本特征更新所述数据特征矩阵,得到更新后的数据特征矩阵s;
[0116]
计算所述更新后的数据特征矩阵的协方差矩阵
[0117]
计算所述协方差矩阵对应的特征值和特征向量,并将特征值和特征向量按照特征值降序进行排序;选择排序靠前的d个特征值对应的特征向量,组成特征变换矩阵u=[w1,

,wd];
[0118]
根据所述数据样本和所述特征变换矩阵,求解z=s
×
u,得到降维后的数据特征矩阵。
[0119]
在其中一个实施例中,概念漂移检测模块206还用于使用特征变换矩阵对历史概念数据的数据特征矩阵进行变换,得到特征变换后的历史概念数据特征矩阵;
[0120]
对所述降维后的数据特征矩阵和变换后的历史数据特征矩阵求均值,得到数据均值;
[0121]
根据所述降维后的数据特征矩阵和所述数据均值的kl散度,所述变换后的历史数据特征矩阵和所述数据均值的kl散度,得到所述数据特征矩阵和历史数据特征矩阵之间的js散度;
[0122]
当js散度大于预先设置的显著性参数时,确定对应数据源的网络流量数据发生漂移。
[0123]
在其中一个实施例中,计算数据特征矩阵和数据均值的kl散度,包括:
[0124][0125]
其中,μk表示数据均值,zk(x)表示数据特征矩阵,kl(zk||μk)表示数据特征矩阵和数据均值的kl散度,数据特征矩阵的特征数为d。
[0126]
在其中一个实施例中,计算历史数据特征矩阵和数据均值的kl散度,包括
[0127][0128]
其中,μk表示数据均值,pk(x)表示历史数据特征矩阵,kl(pk||μk)表示历史数据特征矩阵和数据均值的kl散度,历史数据特征矩阵的特征数为d。
[0129]
在其中一个实施例中,概念漂移检测模块206还用于根据所述数据特征矩阵和所述数据均值的kl散度,所述历史数据特征矩阵和所述数据均值的kl散度,得到所述数据特征矩阵和历史数据特征矩阵之间的js散度为:
[0130][0131]
其中,jsd(pk||zk)表示所述数据特征矩阵和历史数据特征矩阵之间的js散度。
[0132]
关于基于多源网络流量数据的网络流量分析装置的具体限定可以参见上文中对于基于多源网络流量数据的网络流量分析方法的限定,在此不再赘述。上述基于多源网络流量数据的网络流量分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形
式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0133]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种无标注多源网络流量数据漂移检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0134]
本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0135]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
[0136]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
[0137]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0138]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0139]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献