一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据块集成分类的网络流量异常检测方法、设备及存储介质与流程

2022-07-30 22:09:58 来源:中国专利 TAG:


1.本发明涉及一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。


背景技术:

2.随着互联网的飞快发展,全球的信息化建设不断扩充,网络安全事件频发发生,因此网络安全也越来越受重视。因此,必须采用有效的措施及时发现网络流量的异常现象,从而维护网络的安全性。通过分析网络流量,能够及时发现网络中存在的问题,从而提高网络的安全性。
3.网络流量数据实时高速产生,且数据量庞大,其中的数据分布是动态变化的,因此可将网络流量数据看作流数据。首先,网络流量数据是时序型数据,每个数据项都具有一个时间戳。其次,网络流量数据的数据量十分大,无法采用传统批处理的方式训练模型,需要使用增量学习或在线学习的方式来训练网络流量异常检测模型。最后,网络流量数据的数据分布是不稳定的,这种现象被称为概念漂移。使用过去时刻的网络流量数据项训练得到的模型通常不适合处理最新的网络流量数据。因此,模型需要实时更新以适应新的网络流量数据环境。
4.统计学、信息论、分类、聚类等技术已经用于网络流量异常检测中。使用分类技术可以有效地识别异常类网络数据,通常地,属于异常类的网络流量数据量是远远少于正常类的网络流量数据量,其中异常类网络流量数据被称为小样本,正常类网络流量数据被称为大样本。若使用传统的分类模型对网络流量数据进行分类,则模型的性能会偏向于正常类网络流量数据,因此提高分类模型对异常类网络流量样本的识别率是网络流量异常检测中的亟需解决的任务。在分类模型训练时需要增加类别不平衡处理机制,可使用滑动窗口机制保留最新的异常类网络流量数据,该部分数据可用以平衡最新的类别分布。由于网络流量数据的数据分布是动态的,因此滑动窗口中的异常类网络流量数据可能不符合当前的数据分布。需要评估滑动窗口中的数据与当前小类集网络流量数据的相似度,从而避免在候选数据块中引入不符合当前数据分布的异常类网络流量样本。
5.相比于单分类器模型,流数据集成分类模型通常使用多个基础分类器进行样本分类,具有更好的泛化性能。基于每次处理的网络流量数据项的数量,流数据集成分类模型分为在线集成分类模型与数据块集成分类模型。相比于在线集成分类模型,数据块集成分类模型每次使用一个数据块的网络流量数据进行基础分类器的训练,因此性能更加稳定。


技术实现要素:

6.本发明针对现有技术的不足,提供了一种基于数据块集成分类的网络流量异常检测方法、设备及存储介质。
7.本发明的一方面提供了一种基于数据块集成分类的网络流量异常检测方法,包括
以下步骤:
8.步骤1)输入网络流量数据,形成数据块d
t
,将数据块d
t
分为异常类p
t
与正常类n
t
两大类,并得到类别不平衡率ir
t
。其中,t是当前的时间戳,数据块d
t
的大小设定为s,并将n
t
记为大样本集,p
t
记为小样本集。
9.步骤2)使用滑动窗口机制,得到反馈网络流量数据集m
t
。m
t
中保留了t时刻之前最新的w个异常类网络流量数据。
10.步骤3)依据基础分类器个数c
max
和类别不平衡率ir
t
对数据块d
t
进行划分,来得到多个数据子块d
t,i

11.步骤4)对于划分得到的每个网络流量数据子块d
t,i
,基于其类别不平衡率ir
t,i
和反馈网络流量数据集m
t
,进行选择性重采样,得到类别分布平衡的数据子块d’t,i

12.步骤5)基于步骤4)得到的类别分布平衡数据子块d’t,i
,训练得到一个基础分类器c
t,i
,并评估基础分类器性能的方差v
t,i
,计算所有基础分类器性能方差的均值v。
13.步骤6)更新数据块大小为s

,重复步骤1)-5),得到数据块大小为s

时构建得到的基础分类器方差的均值v’,若|v-v’|《ε,则使用c
t,i
构成网络流量数据集成分类模型c,否则,更新数据块大小为s

,返回步骤1)。其中,ε为设定的阈值。
14.步骤7)使用步骤6)得到的网络流量数据集成分类模型c对新来的网络流量样本的类别进行预测,若预测类别为异常类,从而实现了网络流量异常的检测。
15.进一步说,所述的类别不平衡率ir
t
=|p
t
|/|n
t
|,其中|p
t
|和|n
t
|分别为p
t
与n
t
中样本的个数。
16.进一步说,步骤3)中若ir
t
《1/c
max
,则将步骤1获得的d
t
划分为c
max
个数据子块;若ir
t
≥1/c
max
,则将步骤1获得的d
t
划分为1/ir
t
个数据子块。
17.进一步说,在ir
t
《1/c
max
情况下,划分的过程为:将d
t
中的大样本集n
t
分成互不重叠的c
max
等大小的子集,形成c
max
个数据子块;将p
t
所有的样本放入每个数据子块中。
18.进一步说,在ir
t
≥1/c
max
情况下,划分的过程为:将d
t
中的大样本集n
t
分成互不重叠的1/ir
t
等大小的子集,形成1/ir
t
个数据子块;将p
t
所有的样本放入每个数据子块中。
19.进一步说,步骤4)中基于m
t
中样本进行选择性重采样,即使用马氏距离评估m
t
中的每个网络流量样本与数据子块d
t,i
的小类集p
t,i
的相似度,选择相似度最高的设定量样本平衡d
t,i
的样本过采样p
t,i

20.进一步说,被选择的设定量样本数为|n
t,i
|-|p
t,i
|,其中|n
t,i
|和|p
t,i
|分别为数据子块d
t,i
中大样本与小样本的个数。
21.进一步说,步骤5)中每个基础分类器采用了快速决策树vfdt模型。模型的训练采用了交叉验证的方式,使用v
t,i
评估每个基础分类器性能的稳定性,从而得到v
t,i
的均值v。
22.本发明的另一方面,提供了基于数据块集成分类的网络流量异常检测设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述的基于数据块集成分类的网络流量异常检测方法。
23.本发明的再一方面,提供了所述存储介质存储有计算机程序,所述计算机程序用于执行上述的一种基于数据块集成分类的网络流量异常检测方法。
24.本发明与现有技术相比,本发明产生的有益效果是:
25.本发明同时解决了网络流量数据中概念漂移和类别不平衡问题。首先,等大小划
分数据块,每个网络流量数据块的大小是相同的。但是,每个数据块中的网络流量数据的类别分布是不平衡的。因此,使用基于数据块划分的混合重采样机制获得数据子块,混合重采样技术可以有效地缓解过采样中的过拟合问题以及欠采样中的信息丢失问题。然后,使用基于马氏距离的相似度评估方法进行选择性重采样,可以得到一系列类别分布平衡的数据子块。该选择性重采样机制可以避免在候选数据块中引入概念漂移问题。数据块的大小是适应性调整的,通过逐步增加数据块的大小,对比每个数据块上训练出来模型性能均值,从而得到合适的数据块大小。最后,使用每个类别分布平衡的网络流量数据训练得到一个基础分类器,从而得到用于网络流量异常检测的集成分类模型,该模型对异常类网络流量数据具有较高的识别率。
附图说明
26.图1为本发明一种基于数据块集成分类的网络流量异常检测方法。
27.图2为本发明的设备结构图。
具体实施方式
28.本实施例的方法执行以下步骤:
29.步骤1)输入网络流量数据,形成数据块d
t
,d
t
被分为异常类p
t
与正常类n
t
两大类,并得到类别不平衡率ir
t
。其中,t是当前的时间戳,数据块的大小是预定义值s。t中的网络流量数据是时序型数据,d
t
的样本被分为异常类p
t
与正常类n
t
两大类,其中|p
t
|和|n
t
|分别为p
t
与n
t
中样本的个数,d
t
中的类别分布通常是不平衡的,类别不平衡率ir
t
=|p
t
|/|n
t
|。
30.步骤2)使用滑动窗口机制,得到反馈网络流量数据集m
t
。m
t
中保留了t时刻之前最新的w个异常类网络流量数据。
31.步骤3)若ir
t
《1/c
max
,则将步骤1获得的d
t
划分为c
max
个数据子块,其中c
max
为预定义的基础分类器个数的阈值。首先,将d
t
中的大样本集n
t
分成互不重叠的c
max
等大小的子集,形成c
max
个数据子块。然后,将p
t
所有的样本放入每个数据子块中。
32.步骤4)若ir
t
≥1/c
max
,则将步骤1获得的d
t
划分为1/ir
t
个数据子块。首先,将d
t
中的大样本集n
t
分成互不重叠的1/ir
t
等大小的子集,形成1/ir
t
个数据子块。然后,将p
t
所有的样本放入每个数据子块中。
33.步骤5)对于划分得到的每个网络流量数据子块d
t,i
,基于其类别不平衡率ir
t,i
和m
t
,进行选择性重采样,得到类别分布平衡的数据子块d’t,i
。p
t,i
是数据块d
t,i
的小类集。基于m
t
中样本进行选择性重采样,即使用马氏距离评估m
t
中的每个网络流量样本与p
t,i
的相似度,选择相似度值最高的一定量样本平衡d
t,i
的样本过采样p
t,i
。被选择的样本数量为|n
t,i
|-|p
t,i
|,其中|n
t,i
|和|p
t,i
|分别为数据子块d
t,i
中大样本与小样本的个数。其中,马氏距离越小,则相似度值越高,被选中用以选择性重采样机制的概率越高。
34.步骤6)基于步骤5得到的类别分布平衡数据子块d’t,i
,训练得到一个基础分类器c
t,i
,并评估基础分类器性能的方差v
t,i
,计算所有基础分类器性能方差的均值v。其中,每个基础分类器采用了快速决策树vfdt模型。模型的训练采用了交叉验证的方式,使用v
t,i
评估每个基础分类器性能的稳定性,从而得到v
t,i
的均值v。
35.步骤7)更新数据块大小为s

(

>0),重复步骤1-6,得到数据块大小为s


构建得到的基础分类器方差的均值v’,若|v-v’|《ε,则使用c
t,i
构成网络流量数据集成分类模型c,否则,更新数据块大小为s

,返回步骤1,其中,ε是一个事先设定的很小的阈值。
36.步骤8)使用步骤7得到的网络流量数据集成分类模型c对新来的网络流量样本的类别进行预测,若预测类别为异常类,从而实现了网络流量异常的检测。
37.一些实施例中,步骤1)中,网络流量数据块dt中保留了当前t时刻获取的一定量的网络流量数据,每个数据块的大小是相等的,且其中的类别分布通常是不平衡的,即每个数据块中异常类的网络数据量少于正常类的网络数据量。
38.一些实施例中,步骤2)中,滑动窗口的大小是固定的,其中保留了w个最新获得的异常类网络流量数据项。窗口中的数据通常不符合同一个数据分布。
39.一些实施例中,步骤3)中,若正常类网络流量样本的数量足够多,即ir
t
《1/c
max
。则将n
t
等大小划分为c
max
个子集,且子集间的交集为空。每个数据子块包含了一个大类子集以及p
t
中所有的小样本。每个数据子块中,同时使用了过采样与欠采样两种重采样技术。一方面,每个子块中只含有n
t
中一部分随机划分的子集,即对大样本进行了欠采样。另一方面,p
t
被放入每个数据子块中,即对小样本进行了过采样。
40.一些实施例中,步骤4)中,若ir
t
≥1/c
max
,则将n
t
划分为1/ir
t
个子集,且子集间的交集为空。每个数据子块包含了一个大类子集以及p
t
中所有的小样本。基于数据块划分的混合重采样技术,同时充分利用了异常类网络流量数据以及正常类网络流量数据的信息。
41.一些实施例中,步骤5)中,对于每个数据子块,使用选择性重采样技术,得到类别分布平衡的数据子类d’t,i
。并不是盲目地将所有滑动窗口中的异常类网络流量样本用于过采样机制,而且基于马氏距离,选择距离当前小类集较近的滑动窗口中的样本用于过采样,可以避免在候选数据块中引入概念漂移。
42.一些实施实例中,步骤6)中,基于d’t,i
得到基础分类器c
t,i
,并得到c
t,i
的方差v
t,i
,并得到v
t,i
的均值v。
43.一些实施实例中,步骤7)中,通过逐步扩大数据块的大小,评估不同数据块大小上的基础分类器方差值,从而得到合适的数据块大小。因此,用于网络流量异常检测的集成分类器模型中数据块的大小无需实现设置,是适应性地调整的。
44.一些实施实例中,步骤8)中,基于数据块划分的集成分类模型综合了所有基础分类器的预测结果。从而可以有效地实现网络流量的异常检测。
45.实施例:
46.针对网络流量数据中存在的概念漂移和类别不平衡的联合问题,本发明提出了一种基于数据块集成分类的网络流量异常检测方法。参照图1,该模型中主要包含了网络流量数据块划分机制、网络流量滑动窗口划分机制、混合重采样机制、选择性重采样机制和基于集成学习的网络流量异常检测机制。
47.首先,等大小划分网络流量数据块,每个数据块中含有的网络流量数据量是相同的,且通常异常类网络流量数据量是少于正常类网络数据量的,即每个网络流量数据块中的类别分布通常是不平衡的。同时,使用滑动窗口保留一定量的最新获得的异常类网络流量数据。然后,为了解决训练数据集中存在的类别不平衡问题。使用混合重采样技术获得若干网络流量数据子块。一方面,使用欠采样技术等大小随机划分网络流量候选数据块中的大类集,数据子块的个数取决于类别不平衡率。若ir
t
《1/c
max
,则将网络流量数据块d
t
划分为cmax
个数据子块。若ir
t
≥1/c
max
,则将网络流量数据块d
t
划分为1/ir
t
个数据子块。每个数据子块中的大样本都是不重叠的,因此有效地利用了大样本的信息。另一方面,使用过采样技术将候选数据块中的所有大样本放入每个数据子块中。然后,为了获得类别分布平衡的数据子块,使用选择性重采样机制。并不是盲目将保留在滑动窗口中的异常类网络流量样本用于平衡当前的类别分布,而且基于相似度评估机制,从滑动窗口中选择出距离当前异常类网络流量数据集较近的样本用以过采样,可以避免在训练集中引入概念漂移样本。然后,通过逐步增加数据块的大小,基于模型性能值得到合适的数据块大小。并且,基于每个类别分布平衡的数据子块训练得到一个基础分类器,所有的基础分类器构成了集成分类机制,该机制对网络流量数据的分类即实现了网络流量的异常检测。
48.本发明的实施例可以应用在网络设备上。实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的,其中计算机程序用于执行上述步骤1)-步骤8)所确定的方法。从硬件层面而言,如图2所示,为本发明的基于数据块集成分类的网络流量异常检测的硬件结构图,除了图2所示的处理器、网络接口、内存以及非易失性存储器之外,所述设备通常还可以包括其他硬件,以便在硬件层面进行的扩展。另一方面,本技术还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述步骤1)-步骤8)所确定的方法。
49.对于实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
50.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
51.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。
52.以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术保护的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献