一种网络异常流量检测方法、系统及可存储介质

2022-05-21 08:54:55 来源：中国专利 TAG：

1.本发明涉及计算机网络安全技术领域，更具体的说是涉及一种网络异常流量检测方法、系统及可存储介质。

背景技术：

2.随着互联网技术的飞速发展，当前p2p、流媒体、网络游戏以及各种移动互联网新应用等已占据网络流量的60％以上，同时新的业务也在持续增加，使得应用层协议也愈加复杂，网络异常流量对网络安全造成严重威胁。所以，在数据爆炸时代如何有效地进行网络管控、流量异常检测以及网络规划建设，是当前亟需解决的问题。异常流量检测技术作为网络安全防范的基础，已成为网络管理的重要技术手段。
3.但是，随着网络流量飞速增长给异常流量检测技术带来新的挑战，以往对于有限带宽下网络异常流量检测所面临的问题，已不再适合高速网络的应用场景。高速网络环境下的网络流量呈现高维性，普遍存在“维数灾难”的性质。高维数据中一些特征对有效的网络流量识别贡献不大，其中一些特征之间存在相关性，且高维数据导致很多机器学习算法的时空开销较大，一些算法因不同特征之间的相互干扰而性能急剧下降。为减少要处理的数据规模，提高高速网络下的数据处理能力，需要尽可能选择最能代表原始数据分布特征的最优特征子集，即进行特征选择。
4.然而，传统的特征选择算法和端口号检测等技术准确率降低，网络安全再度受到威胁，研究人员开始寻求新的解决方法。此外，流量样本的不均衡性特点更加明显，即大类的网络流数远超小类，部分类别的网络流数不足1％。然而大部分基于行为特征的机器学习算法都是假设各类别的流样本服从均匀分布，且以高的总体正确率为优化目标，导致所产生的异常检测模型偏向于对整体正确率贡献较大的大类流量而忽略了小类流量，如何解决由于流量样本不均衡性而带来的小样本流量检测精度较低的困境是高速网络亟待解决的问题之一。现有公开数据集十分有限，且人工标注成本较高，如何利用仅有的数据集样本实现检测精度的提升是值得探讨的问题。在已知标注样本集的前提下，异常流量可以在识别模型构建后完成样本的检测。然而对于未知异常流量的检测仍是目前该领域需要解决的问题，如何采用新技术解决异常流量检测领域的旧问题值得进一步研究。尽管传统机器学习算法已广泛用于流量识别和异常流量检测领域，然而随着移动终端等新型网络设备的激增，网络流量数据呈现爆炸性的增长，现有的机器学习识别技术已不能满足海量网络数据在线异常流量检测。
5.综上所述，传统的强化学习在离散情景下动作空间和样本空间较小。比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入数据为图像或声音时，往往具有较高维度，传统的强化学习很难处理。此外，基于值的深度强化学习中主要面临以下两个问题：(1)难以处理连续的动作空间；(2)难以学习随机策略。基于策略的代表性算法policy gradient(pg)能够有效处理上两个问题，但该算法需要完整的状态序列，且需要同时单独对策略函数进行迭代更新，使得算法难以收敛。为了解决上述问题，
研究人员将基于值和基于策略的强化学习方法结合起来，代表性算法有actor-critic(ac)。而ac在训练过程中极其不稳定，也存在着难以收敛的问题。
6.因此，如何提供一种网络异常流量检测方法、系统及可存储介质是本领域技术人员亟需解决的问题。

技术实现要素：

7.有鉴于此，本发明提供了一种网络异常流量检测方法、系统及可存储介质，采用深度强化学习和改进现有的机器学习算法使之适应于实时在线的异常流量检测，用以解决上述背景技术中提出的问题。
8.为了实现上述目的，本发明提供如下技术方案：
9.一方面，本发明提供一种网络异常流量检测方法，包括以下步骤：
10.s100：获取网络流量数据，并将所述网络流量数据划分为训练样本和测试样本；
11.s200：建立多目标深度强化学习模型，所述多目标深度强化学习模型包括i个actor-critic网络，其中所述actor-critic网络包括actor网络及critic网络，利用所述训练样本对所述多目标深度强化学习模型中的i个actor-critic网络模型进行训练，保存经验数据；
12.s300：根据所述经验数据对所述i个actor-critic网络模型参数进行更新，保存更新后的多目标深度强化学习模型；
13.s400：输入测试样本，加载更新后的多目标深度强化学习模型进行检测，输出网络异常流量检测结果。
14.优选的，所述s100包括：
15.所述训练样本包括：当前时刻流量特征集合s＝(s
t
,
…
,s
t i
,
…
,s
t n
)、当前时刻流量特征标签值集合a＝(a
t
,
…
,a
t i
,
…
,a
t n
)以及下一时刻流量特征集合s'＝(s
t 1
,
…
,s
t 1 i
,
…
,s
t n 1
)。
16.优选的，所述s200包括：
17.s210：所述actor网络包括actor预测网络及actor训练网络，所述critic网络包括critic预测网络及critic训练网络，所述actor预测网络接收当前时刻流量特征s
t
,
…
,s
t i
，并通过其估计该时刻流量特征下的真实标签值a
t
,
…
,a
t i
，然后采用策略π
θ
提供在给定流量特征下标签值的概率分布，并进行采样选择，在采样过程中首选最佳标签值
18.s220：通过对比最佳标签值和真实标签值a
t
,
…
,a
t i
来获得奖励值r
t
,
…
,r
t i
；
19.s230：所述critic预测网络接收下一时刻流量特征s
t 1
,
…
,s
t 1 i
，并预测下一时刻的流量特征值v
t 1
,
…
,v
t 1 i
；
20.s240：通过下一时刻的流量特征值v
t 1
,
…
,v
t 1 i
、奖励值r
t
,
…
,r
t i
和衰减因子γ来计算值函数r
t
,
…
,r
t i
，所述值函数r
t i
的计算方法如下：
21.r
t i
＝r
t i
γ*v
t 1 i
；
22.s250：当前时刻的流量特征s
t
,
…
,s
t i
通过所述critic预测网络计算当前时刻流量特征值v
t
,
…
,v
t i
，并与值函数r
t
,
…
,r
t i
之间的差异来计算优势值a
t
,
…
,a
t i
，所述优势
值a
t i
的计算方式如下：
23.a
t i
＝r
t i-v
t i
；
24.s260：将当前时刻的流量特征s
t
,
…
,s
t i
输入到所述actor训练网络中进行训练，并采用策略网络来提供给定流量特征下标签值的概率分布π
θ
(a
t
),
…
,π
θ
(a
t i
)；
25.s270：通过概率分布π
θ
(a
t
),
…
,π
θ
(a
t i
)与最佳流量标签值计算该标签值的概率分布
26.优选的，所述s300包括：
27.s310：采用策略梯度对所述actor网络进行参数更新，并通过损失函数对所述critic网络进行参数更新；
28.s320：保存更新后的模型。
29.优选的，所述s310中，利用策略梯度更新actor训练网络，并定期将网络参数复制给actor预测网络，具体过程使用下列公式：
[0030][0031][0032]
其中，l
actor
为actor训练网络的损失函数，n为样本数量，θ为actor训练网络参数，π
θ
为随机策略，α为学习率。
[0033]
优选的，所述s310中，利用损失函数更新critic训练网络，并定期将网络参数复制给critic预测网络，具体过程使用下列公式：
[0034][0035][0036]
其中，l
critic
为critic训练网络的损失函数，n为样本数量，ω为critic预测网络参数，α为学习率。
[0037]
另一方面，本发明提供了一种网络异常流量检测系统，包括：
[0038]
获取模块，用于获取网络流量数据，并将所述网络流量数据划分为训练样本和测试样本；
[0039]
建立模块，与所述获取模块连接，用于建立多目标深度强化学习模型，所述多目标深度强化学习模型包括i个actor-critic网络，利用所述训练样本对所述多目标深度强化学习模型中的i个actor-critic网络模型进行训练，保存经验数据；
[0040]
更新模块，与所述建立模块连接，用于根据所述经验数据对所述i个actor-critic网络模型参数进行更新，保存更新后的多目标深度强化学习模型；
[0041]
检测模块，与所述获取模块与所述更新模块连接，用于将测试样本输入至更新后的多目标深度强化学习模型中进行检测，输出网络异常流量检测结果。
[0042]
再一方面，本发明还提供了一种计算机可读存储介质，其上面存储有计算机程序，所述程序被处理器执行时实现如上所述的网络异常流量检测方法。
[0043]
经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种网络异常流量检测方法、系统及可存储介质，通过多个智能体通过学习多个目标流量特征，所获得的经验数据整合在一起再更新局部智能体。本发明的多目标深度强化学习模型，采用简单快速的策略和值函数，并采用浅层的神经网络，使其不依赖于高性能gpu，只需在cpu上就能快速训练预测，能够显著降低计算机资源。此外，本发明的多目标深度强化学习模型多目标深度强化学习模型不仅具有更好的收敛性，还能在高维度和连续动作空间上更有效的学习，提高了网络异常流量检测效率以及准确率，与现有技术相比，其有益效果如下：
[0044]
(1)本发明中的多目标深度强化学习模型结合浅层的神经网络、不用区分的奖励函数以及随机性策略，使其不仅能处理高维流量数据，还能提高智能体训练过程中的稳定性和训练后的鲁棒性。
[0045]
(2)本发明采用多智能体同步训练，同时更新的方法可以增加对少量异常流量的抽样频率，从而提高异常流量的检测准确率。
[0046]
(3)本发明基于actor-critic网络模型提出了一种多目标深度强化学习方法，通过多个智能体通过学习多个目标流量特征，所获得的经验数据整合在一起再更新局部智能体。
附图说明
[0047]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0048]
图1为本发明提供的一种网络异常流量检测方法的流程示意图；
[0049]
图2为本实施例提供的一种网络异常流量检测系统的结构示意图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0051]
一方面，参见附图1所示，本发明实施例公开了一种网络异常流量检测方法，具体包括一下步骤：
[0052]
首先，获取网络流量数据，并将网络流量数据划分为训练样本和测试样本；
[0053]
具体的，本发明采用公开并著名的数据集nsl-kdd，因为nsl-kdd数据集中正常流量占比53.46％，最不频繁的攻击流量占比0.04％，正是由于这种数据集各类别间大小不均衡性，且存在未知攻击，更能体现该发明具有检测未知攻击的能力，并提升检测准确率的性能。
[0054]
在一个具体实施例中，通过对nsl-kdd数据集训练样本小批量采样，为了将深度强化学习中的元素同化到异常流量检测当中去，将网络流量数据中的流量特征视为状态，流量特征标签值视为动作，采样样本包含当前时刻流量特征集合s＝(s
t
,
…
,s
t i
,
…
,s
t n
)、当
前时刻流量真实标签值集合a＝(a
t
,
…
,a
t i
,
…
,a
t n
)，下一时刻流量特征集合s'＝(s
t 1
,
…
,s
t 1 i
,
…
,s
t n 1
)。
[0055]
在一个具体实施例中，建立多目标深度强化学习模型，多目标深度强化学习模型包括i个actor-critic网络，其中，actor网络包括actor预测网络及actor训练网络，critic网络包括critic预测网络及critic训练网络，利用训练样本对多目标深度强化学习模型中的i个actor-critic网络模型进行训练，保存经验数据。
[0056]
具体的，经验数据包括：当前时刻i个智能体的流量特征集合、当前时刻i个智能体的奖励值集合、当前时刻i个智能体的标签值集合和下一时刻i个智能体的流量特征集合。
[0057]
将当前时刻的流量特征s
t
,
…
,s
t i
输入到i个actor-critic网络模型中的actor网络中，使用策略网络来估计该时刻流量特征下的真实标签值a
t
,
…
,a
t i
。然后，采用策略π
θ
提供在给定流量特征下标签值的概率分布，并进行采样选择，在采样过程中首选最佳标签值
[0058]
在一个具体通过对比最佳标签值和真实标签值a
t
,
…
,a
t i
的值来获得奖励值r
t
,
…
,r
t i
，如果最佳标签值和真实标签值一致，获得奖励，否则，不获得奖励。获得奖励的过程采用0/1奖励函数，获得奖励，奖励为1；否则，奖励为0。
[0059]
更具体的，多目标深度强化学习模型中的智能体不再与环境交互，因此，下一时刻流量特征s
t 1
,
…
,s
t 1 i
不是与环境交互产生，而是由数据集直接提供。多目标深度强化学习模型中的i个actor-critic网络模型中的critic预测网络接收下一时刻流量特征s
t 1
,
…
,s
t 1 i
，通过神经网络预测下一时刻的流量特征值v
t 1
,
…
,v
t 1 i
。通过下一时刻的流量特征值v
t 1
,
…
,v
t 1 i
、奖励值r
t
,
…
,r
t i
和衰减因子γ来计算值函数r
t
,
…
,r
t i
。当前时刻的流量特征s
t 1
,
…
,s
t 1 i
通过critic训练网络计算当前时刻流量特征值v
t
,
…
,v
t i
，并与值函数r
t
,
…
,r
t i
之间的差异来计算优势值a
t
,
…
,a
t i
。最后，计算损失函数更新critic网络参数。
[0060]
在一个具体实施例中，将当前时刻的流量特征s
t
,
…
,s
t i
输入到i个actor-critic网络模型中的actor网络中进行训练，并采用策略网络来提供给定流量特征下标签值的概率分布π
θ
(a
t
),
…
,π
θ
(a
t i
)。通过概率分布与最佳流量标签值计算该标签值的概率分布最后，采用策略梯度方法更新actor网络参数。
[0061]
在一个具体实施例中，分别采用策略梯度和损失函数对actor-critic中的actor和critic网络参数更新，多目标深度强化学习模型训练完成后，保存更新后的模型。
[0062]
具体的，利用策略梯度更新actor训练网络，并定期将网络参数复制给actor预测网络，具体过程使用下列公式：
[0063][0064][0065]
其中，l
actor
为actor训练网络的损失函数，n为样本数量，θ为actor训练网络参数，π
θ
为随机策略，α为学习率。
[0066]
具体的，利用损失函数更新critic训练网络，并定期将网络参数复制给critic预测网络，具体过程使用下列公式：
[0067][0068][0069]
其中，l
critic
为critic训练网络的损失函数，n为样本数量，ω为critic预测网络参数，α为学习率。
[0070]
在一个具体实施例中，输入nsl-kdd数据集的测试样本，加载训练模型进行网络异常流量检测，最终输出网络异常流量检测结果。
[0071]
另一方面，参见附图2所示，本发明实施例公开了一种网络异常流量检测系统，具体包括：
[0072]
获取模块，用于获取网络流量数据，并将网络流量数据划分为训练样本和测试样本；
[0073]
建立模块，与获取模块连接，用于建立多目标深度强化学习模型，多目标深度强化学习模型包括多个actor-critic网络，利用训练样本对多目标深度强化学习模型中的i个actor-critic网络模型进行训练，保存经验数据；
[0074]
更新模块，与建立模块连接，用于根据经验数据对i个actor-critic网络模型参数进行更新，保存更新后的多目标深度强化学习模型；
[0075]
检测模块，与获取模块与更新模块连接，用于将测试样本输入至更新后的多目标深度强化学习模型中进行检测，输出网络异常流量检测结果。
[0076]
再一方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，程序被处理器执行时实现上述的网络异常流量检测方法。
[0077]
使用多目标深度强化学习模型与不同的机器学习模型进行全面对比实验，深度学习(deep learning,dl)选择多层感知机(multi-layer perceptron,mlp)、一维卷积神经网络(one-dimensional convolutional neural network,1d-cnn)，深度强化学习(deep reinforcement learning,drl)选择double deep q-network(ddqn)和dueling deep q-network(dueling dqn)。
[0078]
本实施例使用整个nsl-kdd数据集进行五分类实验，具体的实验结果由表1所示：
[0079]
表1实验结果
[0080][0081]
从表1可以看出，多目标深度强化学习模型取得了较优值，且在准确率、召回率和f1值指标方面均优于其他对比模型。
[0082]
经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种网络异常流
量检测方法、系统及可存储介质，通过多个智能体通过学习多个目标流量特征，所获得的经验数据整合在一起再更新局部智能体。本发明的多目标深度强化学习模型，采用简单快速的策略和值函数，并采用浅层的神经网络，使其不依赖于高性能gpu，只需在cpu上就能快速训练预测，能够显著降低计算机资源。此外，本发明的多目标深度强化学习模型多目标深度强化学习模型不仅具有更好的收敛性，还能在高维度和连续动作空间上更有效的学习，并能提高网络异常流量检测效率以及准确率，与现有技术相比，其有益效果如下：
[0083]
(1)本发明中的多目标深度强化学习模型结合浅层的神经网络、不用区分的奖励函数以及随机性策略，使其不仅能处理高维流量数据，还能提高智能体训练过程中的稳定性和训练后的鲁棒性。
[0084]
(2)本发明采用多智能体同步训练并更新的方法可以增加对少量异常流量的抽样频率，从而提高异常流量的检测准确率。
[0085]
(3)本发明基于actor-critic网络模型提出了一种多目标深度强化学习方法，通过多个智能体通过学习多个目标流量特征，所获得的经验数据整合在一起再更新局部智能体。
[0086]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0087]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：非侵入式的无人装备状态监测及智能处理装置

一种网络异常流量检测方法、系统及可存储介质

相关文献

最热文献