一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于流形的网络数据包特征的降维及聚类的攻击识别方法

2022-06-05 10:30:50 来源:中国专利 TAG:


1.本发明涉及信息技术领域,尤其是涉及一种基于流形的网络数据包特征的降维及聚类的攻击识别方法。


背景技术:

2.目前在网络攻击识别领域中,黑客的网络攻击无所不在,入侵检测在目前的互联网安全中扮演者极为重要的角色。传统网络攻击识别方法一般使用规则库来预防攻击行为,其需要大量的人工参与且准确率不高,后续研究引入了机器学习方法,其仍面对样本不均衡、无法识别新型攻击、难以获取模型可解释性的问题。
3.对于使用机器学习或是深度学习方法的网络攻击判别而言,其主要能够对ddos攻击进行较好的防护,而对于u2r或是r2l类的攻击则几乎完全无法判别,后两者攻击的部分数据包可以在流形上找出其特点。
4.流形学习是非线性降维的一种重要方法,其关注数据点之间的测地线距离,而非两者的直接距离,在许多具有流形结构的数据上表现出了明显效果。
5.当前研究较少关注网络数据包分布的流形结构,正常的数据包虽具有极为不同的数据包特征,但其大多分布于一个流形结构上,具有攻击目的的数据包则大多与正常数据包在流形上的测地线距离较远。
6.无监督或半监督的聚类方法一般用于进行分类并发掘有趣的内在特征,配合部分领域知识标签,能够发掘未曾见过的数据聚集,在有监督的分类算法以外,可以发掘潜在的新型攻击。
7.在不使用流形降维,直接在原始高维特征上进行聚类会面临维数灾难以及直接距离与测地线距离存在巨大偏差的问题。


技术实现要素:

8.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于流形的网络数据包特征的降维及聚类的攻击识别方法,提高了识别新型攻击的准确性,可解释性强。
9.本发明的目的可以通过以下技术方案来实现:
10.一种基于流形的网络数据包特征的降维及聚类的攻击识别方法,包括以下步骤:
11.s1、收集原始网络数据包特征,构成特征集,并进行数据预处理;
12.s2、根据特征集生成模糊单纯形集;
13.s3、通过随机梯度下降算法对模糊单纯形集进行流形降维,获得低维流形;
14.s4、根据低维流形,通过无监督聚类算法判断原始网络数据包是否为网络攻击数据包。
15.进一步地,所述的步骤s2的具体过程包括:
16.s201、计算特征集中每一个数据点的k近邻,记录k近邻距离,构建k近邻边集合;
17.s202、计算特征集中每一个数据点的局部连通距离,以每一个数据点到其最近的
第m个最近邻点的距离作为这个点的局部连通距离;
18.s203、使用二分法获取连通基准;
19.根据局部连通距离和连通基准将特征集中每一个数据点的k近邻边集合,计算特征集中每一个数据点的局部度量距离,构成单向模糊单纯形集;
20.s204、通过取并集的方式将单向模糊单纯形集转化为双向的模糊单纯形集。
21.进一步地,所述的数据预处理的过程包括:
22.将特征集划分为连续特征集和离散特征集;
23.计算连续特征集中每一列特征的四分位数,根据上下四分位距和中位数进行数据标准化;
24.对离散特征集中每一列特征进行哑元化,将离散的类别变量转化为01数值型变量。
25.进一步地,对于连续特征集,使用局部闵可夫斯基距离构建第一模糊单纯形集,对于离散特征集,使用局部闵可夫斯基距离构建第二模糊单纯形集。
26.进一步地,所述的步骤s3的具体过程包括:
27.通过随机梯度下降算法对第一模糊单纯形集和第二模糊单纯形集进行降维,对应获得第一低维流形和第二低维流形;
28.对第一低维流形和第二低维流形进行取交集或取并集的操作,获得最终的低维流形。
29.进一步地,所述的步骤s3的具体过程包括:
30.对第一模糊单纯形集和第二模糊单纯形集进行拼接,获得拼接模糊单纯形集;
31.通过随机梯度下降算法对拼接模糊单纯形集进行降维,获得最终的低维流形。
32.进一步地,所述的随机梯度下降算法采用的损失函数为交叉熵形式,表达式为:
[0033][0034]
其中,e为模糊单纯形集中的数据点,w
high
(e)为高维下表现的模糊单纯形,表现为两点的连接概率,w
low
(e)为低维下表现的模糊单纯形,表现为两点的实际距离。
[0035]
进一步地,所述的步骤s4的具体过程包括:
[0036]
通过hdbscan算法对低维流形进行簇划分,通过k-means对每一簇进行类别划分,根据簇和类的类别判断原始网络数据包是否为现有形式的攻击数据包或新型攻击数据包。
[0037]
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述程序指令能够执行所述的攻击识别方法。
[0038]
一种计算机可读存储介质,包括计算机程序,所述计算机程序能够被处理器执行以实现所述的攻击识别方法。
[0039]
与现有技术相比,本发明具有以如下有益效果:
[0040]
(1)本发明针对网络数据包特征具有的流形结构特点,根据特征集生成模糊单纯形集,通过随机梯度下降算法对模糊单纯形集进行流形降维,获得低维流形,根据低维流形,通过无监督聚类算法判断原始网络数据包是否为现有形式的网络攻击数据包或不同于已有数据包形式中的网络攻击数据包,通过利用无监督聚类的形式可以在有监督网络攻击
识别外发掘隐藏的疑似网络攻击数据包;
[0041]
(2)本发明同时降维得到的低维流形结构具有一定程度的可解释性,可以说明某一数据包不同于正常网络传输的数据包的特征差异,配合使用shap方法可以进行误分类样本的详细分析并对规则库规则加以修正,可帮助构建专家系统中的具体规则,以应对新型的网络攻击形式;
[0042]
(3)本发明攻击识别方法是一种较为轻量级的检测方法,在数据分布采样均匀时,训练流形所需的数据样本少。
附图说明
[0043]
图1为本发明的方法流程图。
具体实施方式
[0044]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0045]
实施例1
[0046]
一种基于流形的网络数据包特征的降维及聚类的攻击识别方法,如图1,包括:
[0047]
s1、收集原始网络数据包特征,构成特征集,并进行数据预处理;
[0048]
s2、根据特征集生成模糊单纯形集;
[0049]
s3、通过随机梯度下降算法对模糊单纯形集进行流形降维,获得低维流形;
[0050]
s4、根据低维流形,通过无监督聚类算法判断原始网络数据包是否为网络攻击数据包。
[0051]
步骤s1中,分离原始数据集中的连续特征和离散特征,其中的protocol_type,service,flag,land,logged_in,is_host_login,is_guest_login,一共7个特征为离散特征,其余34个为连续特征。
[0052]
对连续特征使用上下四分位点进行数据预处理,处理公式如下:
[0053][0054]
其中v代表处理的特征,median代表中位数,iqr代表特征的上下四分位距;
[0055]
对离散特征进行哑元化,将某一特征的不同类别转换为是否属于某一类别的0、1数值形式,将7维特征提升至85维的01数值型特征。
[0056]
步骤s2中,本实施例采用kdd99数据集中10%训练样本的10%样本,即总训练样本的1%和预测样本的10%生成流形,使用的数据进行随机均匀采样。
[0057]
对预处理完成的连续特征构建以闵可夫斯基距离为局部空间的流形,闵可夫斯基距离的维数一般可选取1(曼哈顿距离)、2(欧氏距离)或∞(切比雪夫距离),本实施例使用的闵可夫斯基距离的维数为1,即曼哈顿距离,闵可夫斯基距离公式如下:
[0058]
[0059]
其中d表明闵可夫斯基距离,x和y分别为计算距离的两个点,u表明点的多维特征,p表明闵可夫斯基距离的维数,此处维数p为1。
[0060]
对连续特征中的每一个数据点,寻找其距离最小的k个最近邻点,此处的距离度量为曼哈顿距离,k值取150个,根据每一个点的最近邻点可获得每一个点的最近邻组集合,每个节点的最近邻组集合由k个边集构成,其包括是哪一个点,以及到这个点的距离。
[0061]
使用局部连通系数m以及连通基准距离p对上述每一个节点边集中的边权值进行缩放,缩放如下:
[0062][0063]
p=d(x,y
index
)
[0064]
index=argmin(d(x,yi),m)
[0065][0066]
其中d表明x到yi的距离,p代表局部连通距离,为x点到最近的第m个点的距离,m一般可设置为1,index为数据集中距离x最近的第m个点的序号,σ为连通基准,可以使用二分查找的方式获取其近似值。
[0067]
使用并集将x点到y点的连接概率和y点到x点的连接概率整合为x点和y点的连接概率,使用并集对两个点中的每一条边的连接概率进行操作,公式如下:
[0068]
w(x,y)=∪(d(x,y),d(y,x))
[0069]
其中,w表明两个点之间的连接概率,且w(x,y)=w(y,x)。
[0070]
通过上述计算,最终将边权值集合转化为了两点之间的连接概率集合,每一个点与最近的local个点必然连接,连接概率随着距离增加至第k个最近邻点衰减至0。同样的,使用如上相同的模糊单纯形生成方式,使用余弦距离作为离散特征的局部空间距离,其后的操作完全一致,得到以离散特征为基的数据点的模糊单纯形。
[0071]
步骤s3中,通过随机梯度下降算法获取生成的模糊单纯形集合在低维下的数据点坐标,需要最小化的损失函数采用交叉熵形式,表达式如下:
[0072][0073]
其中,e为模糊单纯形集中的数据点,w
high
(e)为高维下表现的模糊单纯形,表现为两点的连接概率,w
low
(e)为低维下表现的模糊单纯形,表现为两点的实际距离。
[0074]
最终可以得到低维数据点图,此处使用的低维度为二维,同样的,使用如上相同的操作进行随机梯度下降得到离散特征的低维表达。
[0075]
对生成的连续特征和离散特征的低维流形进行拼接,即视为4维数据,得到最终的低维流形。
[0076]
步骤s5中,对生成的低维度数据点图使用hdbscan算法进行聚类,以挖掘网络数据包中复杂的流形构造。如低维数据点图中数据点predict类别的划分,大多数数据点,部分小团簇可通过已有的类别标签进行推测,而完全孤立的团簇则表明其是一种完全不同于已有数据的新型数据包,需要进行额外的甄别工作,聚类方法可以发现这一部分具有差异化
特点的数据。对于同一簇内具有不同类别的标签,则可以使用k-means对相近的标签做进一步的聚类。
[0077]
同时降维得到的低维流形结构具有一定程度的可解释性,可以说明某一数据包不同于正常网络传输的数据包的特征差异,配合使用shap方法可以进行误分类样本的详细分析并对规则库规则加以修正。
[0078]
实施例2
[0079]
本实施例中,对连续特征和离散特征的模糊单纯中相同数据点进行取交集或取并集的操作,整合不同的距离度量,并重新进行生成低维流形,取并集的公式如下,交集以此类推:
[0080]
w(x,y)=∪(wa(x,y),wb(x,y))
[0081]
其中w是模糊单纯形中两个点之间的连接概率,下标表明其来源于不同的模糊单纯形。
[0082]
其他与实施例1相同。
[0083]
实施例3
[0084]
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器调用所述程序指令能够执行实施例1所述的攻击识别方法。
[0085]
实施例4
[0086]
一种计算机可读存储介质,包括计算机程序,所述计算机程序能够被处理器执行以实现实施例1所述的攻击识别方法。
[0087]
实施例1、实施例2、实施例3和实施例4提出了一种基于流形的网络数据包特征的降维及聚类的攻击识别方法、电子设备及介质,使用流形方法进行非线性降维结合聚类方法解决以上问题,在快速的判断是否为网络攻击的传统方法以外,能够发掘未曾见过的数据包结构有助于网安人员的重视,在一定程度上能够发现较为隐蔽的攻击模式,配合shap对流形特征进行可解释性分析可以帮助网安人员构建规则防护库,对于互联网安全具有重大意义。
[0088]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献