一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于AE-SVM模型的分布式拒绝服务攻击网络异常检测方法与流程

2022-02-20 04:24:23 来源:中国专利 TAG:

一种基于ae-svm模型的分布式拒绝服务攻击网络异常检测方法
技术领域
1.本发明专利涉及属于电力系统厂站安全防护的技术领域,特别涉及一种基于ae-svm模型的分布式拒绝服务攻击网络异常检测方法。


背景技术:

2.随着信息化与传统能源行业各环节应用的深度融合,以及物联网的快速发展,工业控制系统得到了前所未有的发展,并成为关键基础设施的重要组成部分,广泛应用于我国电力、水利、水务、石油化工、轨道交通、制药等行业中。调查发现,由于工业控制系统升级程序复杂且危害强度大等原因,半数以上的企业未对其进行过升级和漏洞修复工作。电力企业作为工业控制系统高度发展、深度融合的标杆,推动了智能电网系统的升级也增加了安全风险。与信息系统相比,工控系统地域分布广,终端侧有带传感和控制功能的装置。建立并完善电网和发电厂的电力监控系统网络安全防护体系成为保障电力系统的安全稳定运行的关键因素,也是一体化电力监控系统设计中一个非常重要的组成部分。
3.工业中使用的与因特网通信的设备提高了我们的生活水平,但信息安全是一个需要解决的问题。威胁信息安全的网络攻击有多种来源。拒绝服务(dos)和分布式拒绝服务(ddos)攻击是最常见的网络攻击。ddos攻击分两个阶段进行,入侵和攻击。在入侵阶段,攻击者在不同的网络主机上安装ddos攻击工具。在攻击阶段,触发攻击目标网络。攻击者通过使用这些主机创建大量流量来迫使目标路由器。受害者机器的带宽和资源被这些虚拟生成的流量大量消耗。因此,目标系统无法向其合法用户提供服务,从而导致授权拒绝服务。防火墙和入侵检测系统(ids)通常用于处理网络上的网络攻击。这些系统被设计用来监视网络上的流量并识别异常行为。有两种方法来描述系统的异常行为。它们是误用检测和异常检测。这两种方法是根据攻击检测方法来区分的。在误用检测中,当攻击模型与恶意事务的特征码匹配时,确定攻击模型。另一方面,当数据与网络流的预期行为不符时,会发生异常检测。尽管网络安全技术取得了重大进展,但攻击者使用的复合攻击方法清楚地表明防火墙和ids系统提供的解决方案是不够的。在文献中,研究者更喜欢使用机器学习(ml)算法来进行异常检测,包括决策树(dt)、朴素贝叶斯(nb)和支持向量机(svm)来解决这一问题。涉及这些技术的入侵检测系统是基于在网络流量中表示其有用属性的知识。因此,通过关注结构资产和数据表示从原始数据中获得的特征被用于ml的决策中。使用ml算法检测网络中的异常会导致很高的误判率。


技术实现要素:

4.本发明属于电力系统厂站安全防护的技术领域,具体涉及一种基于ae-svm模型的分布式拒绝服务攻击网络异常检测方法,用于更快速有效地检测厂站电力监控系统中的分布式拒绝服务攻击网络异常。
5.本发明解决技术问题提供的技术方案是:一种基于ae-svm模型的分布式拒绝服务
攻击网络异常检测方法,所述异常检测方法包含:分布式拒绝服务攻击网络异常数据;以及ae-svm模型检测分布式拒绝服务攻击的过程;
6.进入步骤201,将数据集输入,在本研究中使用的cicids数据集中有5个非数字特征和82个数字特征;
7.进入步骤202,对测量的非数值数据采用标签编码进行排列,以便ae-svm正常工作,在编辑过程中,检查了降/升比、标志计数、协议和标志信息,标志和向下/向上信息分别传输到数据集,这些数据被标记为0和1,协议用协议号标记,协议标有协议编号,流id,源ip,目标ip,时间戳和simillarhttp字段被直接丢弃,因为它们被放置在数据集中;
8.训练特征向量的16902行包含87种不同的网络流量测量数据,针对每个测量值标记训练向量中的每一行,数据集中的测量值和标签如式1所示:
[0009][0010]
在式(1)中,x表示包含87个特征数据的向量,而y包含标记数据,此外,通过执行ddos攻击获得的未标记数据如等式2所示:
[0011][0012]
在式(2)中,xu是指当流量实际上生成时的数据行,yu被标识为ddos攻击线,因为已知它们是ddos攻击;
[0013]
进入步骤203,对数据进行标准化,cicids数据集中数据的最小值和最大值在每列中都是不同的,由于这些差异,分类器不能产生良好的分类效果,分类器的每个输入都在一定范围内,这一事实提高了分类器的精度,执行最小-最大标准化,使数据集每列中的值介于0和1之间,公式(3)用于此计算:
[0014][0015]
在式(3)中x
c,i
表示数据集中标准化的每个值,数据集的最小值用min表示,最大值用max表示,因此,x
c,i
值在0和1之间归一化,索引c表示训练数据集中的列,而i表示第c列的行,为每列计算的最小值和最大值用于标准化测试阶段的数据;
[0016]
进入步骤204,使用ae模型进行编码,使特征降维,在ae中,输入层和输出层具有相同数量的单位,并且它们包含的单位与特征向量元素的数量相同,隐藏层包含与训练前定义的瓶颈数一样多的单元,ae可以从输入数据向量中学习有效定义的瓶颈维度属性,该过程自动提取出适合低维特征的高效特征,ae的特征提取和降维包括两个步骤,它们是编码和解码,在编码步骤中,x输入数据与隐藏单元的表示相匹配,如等式4所示:
[0017]
h=g(wx b)
ꢀꢀꢀ
(4)
[0018]
在式(4)中,x代表高维输入向量,w为权重矩阵,b为偏差值,g为ae函数,输入向量用这个函数编码,在编码过程的最后,得到了低维h向量,w表示大小为mxn的权重矩阵,偏差值以mx1和nx1维表示,bias(偏差)尝试学习并重新配置输出值,使其等于每个x输入向量,当得到的同一函数相等时,ae模型学习使输出函数与输入函数相似;
[0019]
应用反向传播算法来获得ae、权重矩阵和偏差值的最佳值,以最小化公式5中表示
的成本函数;
[0020][0021]
式(5)的第一项是指所有m个输入数据的均方误差之和,第二项用于调整隐藏单元和输出单元的权重,以提高性能和预测,第二项也是一个权重降低参数,有助于防止等式中的过度学习,方程中的最后一项是少数惩罚项,它对隐藏层施加限制,以保持较低的平均激活值。kl表示kullback-leibler发散。kl由式6计算:
[0022][0023]
在等式中(6),p是约束参数,范围是0到1,当p=p'时,kl(p\p')达到最小值,在等式p'中,表示出了所有训练输入x上的隐藏单元j的平均激活值,在通过将ae应用于未标记数据xu来学习w权重矩阵和b偏差向量的最合适值之后,将评估标记数据(x,y)的a=h属性表示,表达式h是编码特征的简化向量表示,选择激活函数g(t)作为sigmoid函数,此函数的输出范围在0到1之间。它由等式7计算得出:
[0024][0025]
在式(7)中,隐藏层和输出层中节点的激活用于h(w,b),
[0026]
然后进入步骤205,使用svm进行分类,将编码后的特征向量转移到向量y,即svm分类器的输入向量,这些在分类中没有任何贡献的特征通过编码过程被消除,支持向量机分类器的分类性能随着特征集的减少而提高;
[0027]
支持向量机分类器是由vapnikchervonenkis开发的,它基于统计学习理论和受控机器学习算法,该算法利用第一个非线性选择映射将输入域转换为高维属性域,该算法利用选定的非线性映射将输入向量转化为高维属性向量,在这个向量中,得到了一个微分超平面,计算了不同类的最近向量到超平面的距离最大的向量,包含所获得的n元特征向量的训练数据由式8表示:
[0028]
x={x1,x2,

,xn}
ꢀꢀꢀ
(8)
[0029]
式(8)中的每个x代表编码特征,式(7)用于从x特征向量中获得一个超平面,该向量是通过组合特征来创建的;
[0030]
ω.xi b≥1,ω.xi b《1
ꢀꢀꢀ
(9)
[0031]
式(9)中b的值表示超平面的阈值参数和超平面的正常计算值,得到的两个平面之间的距离为1/||ω||;
[0032]
为了执行分类过程,必须提供两个平面之间的最大距离,||ω||值必须为最小值,才能达到最大距离,拉格朗日函数用于求[1/2||ω||]的最小值,利用拉格朗日函数优化的最小值,由式(10)得到最合适的超平面:
[0033][0034]
在等式中(10),αi是拉格朗日乘数,此参数用于优化,交易产生的决策函数用公式11表示;
[0035][0036]
式(11)中表示的f(x)是支持向量机分类器的径向基函数rbf,用rbf神经网络对输入向量进行分类。
[0037]
进一步地,所述分布式拒绝服务攻击网络异常数据包括cicids数据集。
[0038]
本发明有益效果:本发明考虑了厂站的电力监控系统网络安全受到ddos攻击时入侵检测的实时性,首先收集连接到路由器的ddos攻击的网络流量数据,收集的数据由接口管理器以pcap文件格式保存,此文件作为内容中数据的会话和协定保存,并写入数据库,合同模型由checker控制,从会话数据库接收到的pcap文件被传输到本研究中开发的模型,数据首先被数字化。然后通过矢量变换和归一化对其进行编码,采用ae模型,通过编码过程提供特征学习和特征约简,然后利用svm分类器将编码数据分为ddos和正常两类,更快速有效地检测厂站电力监控系统中的分布式拒绝服务攻击网络异常。
附图说明
[0039]
图1为根据本发明实施方式的一种基于ae-svm模型的分布式拒绝服务攻击网络异常检测流程图;
[0040]
图2为本发明的自动编码器模型体系结构。
具体实施方式
[0041]
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
[0042]
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
[0043]
首先进入步骤201,将数据集输入,在本研究中使用的cicids数据集中有5个非数字特征和82个数字特征。然后进入步骤202,对测量的非数值数据采用标签编码进行排列,以便ae-svm正常工作。在编辑过程中,检查了降/升比、标志计数、协议和标志信息。标志和向下/向上信息分别传输到数据集。这些数据被标记为0和1。协议用协议号标记。协议标有协议编号。流id,源ip,目标ip,时间戳和simillarhttp字段被直接丢弃,因为它们被放置在数据集中。
[0044]
训练特征向量的16,902行包含87种不同的网络流量测量数据。针对每个测量值标记训练向量中的每一行。数据集中的测量值和标签如式1所示。
[0045][0046]
在式(1)中,x表示包含87个特征数据的向量,而y包含标记数据。此外,通过执行
ddos攻击获得的未标记数据如等式2所示。
[0047][0048]
在等式(2)中,xu是指当流量实际上生成时的数据行。yu被标识为ddos攻击线,因为已知它们是ddos攻击。
[0049]
进入步骤203,对数据进行标准化。cicids数据集中数据的最小值和最大值在每列中都是不同的。由于这些差异,分类器不能产生良好的分类效果。分类器的每个输入都在一定范围内,这一事实提高了分类器的精度。执行最小-最大标准化,使数据集每列中的值介于0和1之间。公式(3)用于此计算。
[0050][0051]
在式(3)中x
c,i
表示数据集中标准化的每个值。数据集的最小值用min表示,最大值用max表示。因此,x
c,i
值在0和1之间归一化。索引c表示训练数据集中的列,而i表示第c列的行。为每列计算的最小值和最大值用于标准化测试阶段的数据。
[0052]
进入步骤204,使用ae模型进行编码,使特征降维。在ae中,输入层和输出层具有相同数量的单位,并且它们包含的单位与特征向量元素的数量相同。隐藏层包含与训练前定义的瓶颈数一样多的单元。ae模型的结构如图2所示。ae可以从输入数据向量中学习有效定义的瓶颈维度属性。该过程自动提取出适合低维特征的高效特征。ae的特征提取和降维包括两个步骤。它们是编码和解码。在编码步骤中,x输入数据与隐藏单元的表示相匹配,如等式4所示。
[0053]
h=g(wx b)
ꢀꢀꢀ
(4)
[0054]
式(4)中,x代表高维输入向量,w为权重矩阵,b为偏差值,g为ae函数。输入向量用这个函数编码。在编码过程的最后,得到了低维h向量。w表示大小为mxn的权重矩阵。偏差值以mx1和nx1维表示。bias(偏差)尝试学习并重新配置输出值,使其等于每个x输入向量。当得到的同一函数相等时,ae模型学习使输出函数与输入函数相似(ae模型学习何时获得的标识函数等于使输出函数类似于输入函数)。
[0055]
应用反向传播算法来获得ae、权重矩阵和偏差值的最佳值,以最小化公式5中表示的成本函数。
[0056][0057]
式(5)的第一项是指所有m个输入数据的均方误差之和。第二项用于调整隐藏单元和输出单元的权重,以提高性能和预测。第二项也是一个权重降低参数,有助于防止等式中的过度学习。方程中的最后一项是少数惩罚项,它对隐藏层施加限制,以保持较低的平均激活值。kl表示kullback-leibler(kl)发散。kl由式6计算。
[0058][0059]
在等式中(6),p是约束参数,范围是0到1。当p=p'时,kl(p\p')达到最小值。在等式p'中,表示出了所有训练输入x上的隐藏单元j的平均激活值。在通过将ae应用于未标记
数据xu来学习w权重矩阵和b偏差向量的最合适值之后,将评估标记数据(x,y)的a=h属性表示。表达式h是编码特征的简化向量表示。表1给出了与研究中使用的ae相关的参数。
[0060]
表1自动编码器模型训练参数
[0061][0062][0063]
选择激活函数g(t)作为sigmoid函数。此函数的输出范围在0到1之间。
[0064]
它由等式7计算得出。
[0065][0066]
在等式(7)中,隐藏层和输出层中节点的激活用于h(w,b)。然后进入步骤205,使用svm进行分类。将编码后的特征向量转移到向量y,即svm分类器的输入向量。这些在分类中没有任何贡献的特征通过编码过程被消除。支持向量机分类器的分类性能随着特征集的减少而提高。
[0067]
支持向量机分类器是由vapnikchervonenkis开发的。它基于统计学习理论和受控机器学习算法。该算法利用第一个非线性选择映射将输入域转换为高维属性域。该算法利用选定的非线性映射将输入向量转化为高维属性向量。在这个向量中,得到了一个微分超平面。计算了不同类的最近向量到超平面的距离最大的向量。包含所获得的n元特征向量的训练数据由式8表示。
[0068]
x={x1,x2,

,xn}
ꢀꢀꢀ
(8)
[0069]
式(8)中的每个x代表编码特征。式(7)用于从x特征向量中获得一个超平面,该向量是通过组合特征来创建的。
[0070]
ω.xi b≥1,ω.xi b《1
ꢀꢀꢀ
(9)
[0071]
式(7)中b的值表示超平面的阈值参数和超平面的正常计算值。得到的两个平面之间的距离为1/||ω||。
[0072]
为了执行分类过程,必须提供两个平面之间的最大距离。||ω||值必须为最小值,才能达到最大距离。拉格朗日函数用于求[1/2||ω||]的最小值。利用拉格朗日函数优化的最小值,由式(10)得到最合适的超平面。
[0073][0074]
在等式中(10),αi是拉格朗日乘数。此参数用于优化。交易产生的决策函数用公式11表示。
[0075][0076]
式(11)中表示的f(x)是支持向量机分类器的径向基函数(rbf)。用rbf神经网络对输入向量进行分类。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献