一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据增强和BiLSTM的网络入侵检测方法及系统与流程

2021-10-20 00:35:00 来源:中国专利 TAG:入侵 检测方法 增强 数据 系统

基于数据增强和bilstm的网络入侵检测方法及系统
技术领域
1.本发明涉及网络安全的技术领域,更具体地,涉及一种基于数据增强和bilstm的网络入侵检测方法及系统。


背景技术:

2.随着网络技术的不断发展,互联网给我们的生活带来极大帮助的同时,针对计算机网络攻击的数量也在急剧增加,网络入侵是利用目标系统的漏洞,通过网络通信协议在受攻击的计算机上实现非授权访问的行为,网络入侵检测技术对于保障人们的生活和维护网络空间安全具有重大的意义,但如何在海量的非平衡数据环境下取得较好的网络入侵检测效果是目前亟需解决的技术问题。
3.当前将机器学习应用于网络入侵检测中的做法,弥补了传统的入侵检测器自适应差、误报率和虚警率高的问题,然而,随着数据容量和数据维度的增加,传统的机器学习方法比如支持向量机、决策树算法、贝叶斯网络算法、k

近邻算法等容易出现“维度爆炸”的问题,不适用于处理高维非线性的网络流量特征,基于此,目前很多学者也将神经网络模型运用于入侵检测中,如2017年10月10日,中国发明专利(cn107241358a)中公开了一种基于深度学习的智能家居入侵检测方法,该方法可以自动学习特征之间的内部属性关系,无需手动进行特征选择,避免人为主观上的局限性,进一步降低了入侵检测的误报率和漏报率,且提高了检测率,但采用深度学习的方法对于只有少量攻击样本的网络流量数据的学习效果并不好,存在识别检测率低的问题。


技术实现要素:

4.为解决现有网络入侵检测方法存在对少数类攻击样本入侵检测识别准确率低的问题,本发明提出一种基于数据增强和bilstm的网络入侵检测方法及系统,在保持较高的整体检测率和较低的误报率的前提下,提升对少数类别攻击样本的识别准确率。
5.为了达到上述技术效果,本发明的技术方案如下:
6.一种基于数据增强和bilstm的网络入侵检测方法,至少包括:
7.s1.采集网络入侵检测流量数据,对网络入侵检测流量数据的特征进行提取;
8.s2.利用提取后的特征构建训练数据集,并对训练数据集进行预处理;
9.s3.根据训练数据集中每一个数据类型的数据量,确定数据量少于a的攻击类型数据样本,并增加数据量少于a的攻击类型数据样本的数量;
10.s4.构建bilstm神经网络模型,经步骤s2及步骤s3处理之后的训练数据集输入至bilstm神经网络模型后,进行迭代训练,bilstm神经网络模型提取网络入侵检测流量数据的高维特征;
11.s5.利用softmax逻辑回归函数对网络入侵检测流量数据的高维特征进行识别分类,得到网络入侵检测结果。
12.在本技术方案中,首先采集网络入侵检测流量数据,然后进行初步的特征提取,组
成训练数据集,确认少数类攻击类别样本后进行数据增强(增加数据量少于a的攻击类型数据样本的数量),解决训练数据集中类分布不均衡的难题,使网络流量样本达到较为平衡的状态,然后构建bilstm神经网络模型,可自动的提取更高层次的特征信息,能更好的处理高维非线性网络流量特征,克服传统浅层机器学习依赖手动提取特征所带来的人为上的局限性,使模型识别的准确率更高。
13.优选地,步骤s1所述对网络入侵检测流量数据的特征进行提取的方法包括:过滤式方法、包裹式方法及嵌入式方法,提取到的网络入侵检测流量数据的特征的类标签为字符型特征。
14.优选地,步骤s2所述的预处理包括:
15.通过独热编码技术将训练数据集中类标签的字符型特征映射为数值型特征;
16.将训练数据集中的流字节特征和流数据包特征中的无穷大值进行处理;
17.删除训练数据集中冗余特征,对训练数据集中的数据进行标准归一化操作。
18.在此,由于训练数据集中原始数据为采集到的网络流量特征的类标签为字符型特征,为了方便后续的识别分类,须转换为数值型特征,此外,需要对原始数据集中冗余且无意义的特征进行缩减,降低数据的维度,以减少后续模型训练时的运行开销,归一化操作可以使其符合均值为0、方差为1的高斯正态分布。
19.优选地,处理无穷大值的具体操作为:无穷大值通过无穷大值列的最大值加1进行替换,缺失值用零填充。
20.在此,为了避免后续的模型迭代训练时出现错误,将训练数据集中的无穷大值替换。
21.优选地,通过smote过采样技术或ros随机过采样技术增加步骤s3中所述数据量少于a的攻击类型数据样本的数量。
22.在此,由于原始采集的网络入侵检测流量数据中正常和异常流量样本的比例通常是不平衡的,为了有效的提高少数类别攻击样本的识别准确率,通过smote过采样技术进行数据增强,从而使网络流量样本达到较为平衡的状态,提高模型后续的检测率。
23.优选地,步骤s4中构建的bilstm神经网络模型包括:输入层、前向lstm层、后向lstm层及输出层,其中,前向lstm层或后向lstm层中均包括若干个lstm单元,每一个lstm单元均包括:遗忘门、输入门及输出门,所述遗忘门控制训练数据集中冗余特征的删除,输入门控制输入训练数据集的保留,所述输出门接受遗忘门和输出门的信息,经过筛选后传递给若干个lstm单元中的一个lstm单元。
24.在此,bilstm神经网络模型主要是对经过步骤s2及步骤s3处理之后的训练数据集进行网络权重学习,挖掘出相关性最大的异常流量高维特征属性。
25.优选地,经步骤s2及步骤s3处理之后的训练数据集输入至bilstm神经网络模型后进行迭代训练前,利用reshape函数转化为三维向量。
26.优选地,所述bilstm神经网络模型进行迭代训练时的损失函数采取对数损失函数,优化器采用自适应矩估计adam,bilstm神经网络模型计算的过程为:
[0027][0028]
[0029]
其中,表示后向lstm层的网络隐藏层参数;表示前向lstm层的网络隐藏层参数;x
t
表示经步骤s2及步骤s3处理之后的训练数据集;表示后向lstm层在t时刻的输出结果;表示前向lstm层在t时刻的输出结果;表示后向lstm层的偏置值;表示前向lstm层的偏置值。
[0030]
优选地,步骤s5所述利用softmax逻辑回归函数对网络入侵检测流量数据的高维特征进行识别分类的过程满足:
[0031][0032]
其中,g表示softmax逻辑回归函数,u表示输出的权重矩阵,c表示输出的偏置,y
t
表示网络入侵检测结果。
[0033]
本发明还提出一种基于数据增强和bilstm的网络入侵检测系统,所述系统用于实现所述的基于数据增强和bilstm的网络入侵检测方法,包括:
[0034]
数据采集与特征提取处理模块,用于采集网络入侵检测流量数据,对网络入侵检测流量数据的特征进行提取,提取后的特征构建为训练数据集;
[0035]
预处理模块,对训练数据集进行预处理;
[0036]
数据增强处理模块,根据训练数据集中每一个数据类型的数据量,确定数据量少于a的攻击类型数据样本,增加数据量少于a的攻击类型数据样本的数量;
[0037]
bilstm神经网络模块,用于承载bilstm神经网络模型,对输入至bilstm神经网络模型后的训练数据集进行迭代训练,提取网络入侵检测流量数据的高维特征;
[0038]
softmax分类模块,用于承载softmax逻辑回归函数,对网络入侵检测流量数据的高维特征进行识别分类,得到网络入侵检测结果。
[0039]
与现有技术相比,本发明技术方案的有益效果是:
[0040]
本发明提出一种基于数据增强和bilstm的网络入侵检测方法及系统,首先采集网络入侵检测流量数据,然后进行初步的特征提取,组成训练数据集,确认数据量少的攻击类型数据样本后进行数据增强,然后构建bilstm神经网络模型并进行迭代学习训练,模型自动提取更高层次的特征信息,能更好的处理高维非线性网络流量特征,克服传统浅层机器学习依赖手动提取特征所带来的人为上的局限性,而且数据增强操作可解决训练数据集中类分布不均衡的难题,使模型在保持较高的整体检测率和较低的误报率的前提下,提高了少数类攻击样本的识别准确率。
附图说明
[0041]
图1表示本发明实施例中提出的基于数据增强和bilstm的网络入侵检测方法的流程示意图;
[0042]
图2表示本发明实施例中提出的bilstm神经网络模型的结构框图;
[0043]
图3表示本发明实施例中提出的基于数据增强和bilstm的网络入侵检测系统结构图。
具体实施方式
[0044]
附图仅用于示例性说明,不能理解为对本专利的限制;
[0045]
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
[0046]
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
[0047]
下面结合附图和实施例对本发明的技术方案做进一步的说明。
[0048]
实施例1
[0049]
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
[0050]
如图1所示的基于数据增强和bilstm的网络入侵检测方法的流程示意图,参见图1,包括:
[0051]
s1.采集网络入侵检测流量数据,对网络入侵检测流量数据的特征进行提取;在本实施例中,对网络入侵检测流量数据的特征进行提取的方法包括:过滤式方法、包裹式方法及嵌入式方法,提取到的网络入侵检测流量数据的特征的类标签为字符型特征。
[0052]
s2.利用提取后的特征构建训练数据集,并对训练数据集进行预处理;
[0053]
由于训练数据集中原始数据为采集到的网络流量特征的类标签为字符型特征,为了方便后续的识别分类,须转换为数值型特征,此外,需要对原始数据集中冗余且无意义的特征进行缩减,降低数据的维度,以减少后续模型训练时的运行开销,为了避免后续的模型迭代训练时出现错误,将训练数据集中的无穷大值替换,而归一化操作可以使其符合均值为0、方差为1的高斯正态分布,基于此,具体预处理包括:
[0054]
通过独热编码技术将训练数据集中类标签的字符型特征映射为数值型特征;
[0055]
将训练数据集中的流字节特征和流数据包特征中的无穷大值进行处理;具体为:处理无穷大值的具体操作为:无穷大值通过无穷大值列的最大值加1进行替换,缺失值用零填充;
[0056]
删除训练数据集中冗余特征,对训练数据集中的数据进行标准归一化操作。
[0057]
s3.根据训练数据集中每一个数据类型的数据量,确定数据量少于a的攻击类型数据样本,并增加数据量少于a的攻击类型数据样本的数量;
[0058]
由于原始采集的网络入侵检测流量数据中正常和异常流量样本的比例通常是不平衡的,为了有效的提高少数类别攻击样本的识别准确率,在本实施例中,通过smote过采样技术进行数据增强,也可以采用ros随机过采样技术,使网络流量样本达到较为平衡的状态,提高模型后续的检测率,另外,在本实施例中,a仅代表一个比较小的数,表征某一数据类型的数据量较少。
[0059]
s4.构建bilstm神经网络模型,经步骤s2及步骤s3处理之后的训练数据集输入至bilstm神经网络模型后,进行迭代训练,bilstm神经网络模型提取网络入侵检测流量数据的高维特征;经步骤s2及步骤s3处理之后的训练数据集输入至bilstm神经网络模型后进行迭代训练前,利用reshape函数转化为三维向量。
[0060]
在本实施例中,如图2所示,构建的bilstm神经网络模型包括:输入层、前向lstm层、后向lstm层及输出层,其中,前向lstm层或后向lstm层中均包括若干个lstm单元,实际上,每一个lstm单元均包括:遗忘门、输入门及输出门,遗忘门控制训练数据集中冗余特征的删除,输入门控制输入训练数据集的保留,所述输出门接受遗忘门和输出门的信息,经过
筛选后传递给若干个lstm单元中的一个lstm单元。
[0061]
在本实施例中,所述bilstm神经网络模型进行迭代训练时的损失函数采取对数损失函数,优化器采用自适应矩估计adam,结合图2,bilstm神经网络模型计算的过程为:
[0062][0063][0064]
即后向lstm层是从左向右的处理序列,前向lstm层是从右向左的处理序列,其中,表示后向lstm层的网络隐藏层参数;表示前向lstm层的网络隐藏层参数;x
t
表示经步骤s2及步骤s3处理之后的训练数据集;表示后向lstm层在t时刻的输出结果;表示前向lstm层在t时刻的输出结果;表示后向lstm层的偏置值;表示前向lstm层的偏置值。
[0065]
bilstm神经网络模型主要是对经过步骤s2及步骤s3处理之后的训练数据集进行网络权重学习,挖掘出相关性最大的异常流量高维特征属性,可以自动的提取更高层次的特征信息,能更好的处理高维非线性网络流量特征,克服传统浅层机器学习依赖手动提取特征所带来的人为上的局限性,使模型识别的准确率更好。
[0066]
s5.利用softmax逻辑回归函数对网络入侵检测流量数据的高维特征进行识别分类,得到网络入侵检测结果。
[0067]
在本实施例中,利用softmax逻辑回归函数对网络入侵检测流量数据的高维特征进行识别分类的过程满足:
[0068][0069]
其中,g表示softmax逻辑回归函数,u表示输出的权重矩阵,c表示输出的偏置,y
t
表示网络入侵检测结果。
[0070]
如图3所示,本发明还提出一种基于数据增强和bilstm的网络入侵检测系统,所述系统用于实现所述的基于数据增强和bilstm的网络入侵检测方法,包括:
[0071]
数据采集与特征提取处理模块,用于采集网络入侵检测流量数据,对网络入侵检测流量数据的特征进行提取,提取后的特征构建为训练数据集;
[0072]
预处理模块,对训练数据集进行预处理;
[0073]
数据增强处理模块,根据训练数据集中每一个数据类型的数据量,确定数据量少于a的攻击类型数据样本,增加数据量少于a的攻击类型数据样本的数量;
[0074]
bilstm神经网络模块,用于承载bilstm神经网络模型,对输入至bilstm神经网络模型后的训练数据集进行迭代训练,提取网络入侵检测流量数据的高维特征;
[0075]
softmax分类模块,用于承载softmax逻辑回归函数,对网络入侵检测流量数据的高维特征进行识别分类,得到网络入侵检测结果。
[0076]
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
[0077]
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的
保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜