一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于结构化正则项的入侵检测方法与流程

2022-10-13 00:53:17 来源:中国专利 TAG:


1.本发明属于入侵检测技术领域,具体涉及一种基于结构化正则项的入侵检测方法。


背景技术:

2.随着信息科技的迅速发展,人们对互联网的依赖程度与日俱增。与此同时,各种网络攻击事件层出不穷,并且入侵手段愈来愈复杂,网络攻击的影响范围逐渐扩大。防火墙、用户认证和数据加密等传统的安全防御措施保护着计算机网络系统的安全。入侵检测作为一种主动性的动态安全防御手段,是传统安全技术的有力补充。
3.在网络入侵检测中,网络数据特征维数高、数据量大。这些大量的特征增加了ids的负荷,从而影响了系统实时检测的性能。此外,特征集合中一些不相关的或者冗余的特征还会导致检测精度下降。如何有效降低入侵检测的计算消耗,提高检测性能,并选取对入侵检测最重要的特征子集来提高检测的精度和效率就成了入侵检测技术所要面对的最直接的问题。


技术实现要素:

4.为了解决上述技术问题,本发明提供一种基于结构化正则项的入侵检测方法,通过本方法来选择重要特征,同时识别网络数据分类问题中高度相关的特征,从而建立模型来进行入侵检测。
5.本发明是这样实现的,提供一种基于结构化正则项的入侵检测方法,包括如下步骤:1)数据采集:通过数据包采集工具,从数据集中采集数据;2)数据预处理;3)建立似坐标下降优化算法:301)建立基于结构化正则项的目标函数;302)建立似坐标下降优化算法;4)特征系数选择;5)模型分类训练:根据步骤4)中选出的具有被选择的系数的特征,来进行模型分类训练;6)利用步骤5)训练的模型进行入侵检测。
6.优选的,所述步骤1)中,数据包采集工具为linux下的tcpdump,或windows下的libdump,或软件snort捕捉数据包,数据集为kdd cup 1999 数据集。
7.进一步优选,所述步骤2)中,数据预处理具体包括:201)数据清理:对所述步骤1)中采集的数据进行数据清理,数据清理包括填补空缺的数据值、消除噪音数据和纠正不一致数据;202)对数据进行标准化处理,即对数据的符号属性进行编码,把符号属性转化为
数值属性。
8.进一步优选,所述步骤301)中,建立基于结构化正则化的目标函数包括如下步骤:3011)设输入的数据集d有n个样本,即,其中是第个输入样本,p是的特征的数量,是对应的分类标签,取值为0或 1,逻辑回归函数用于定义类后验概率p,如下所示:其中是通过优化目标函数(1)来估计的特征系数,是截距:(1)3012)当目标函数(1)包含正则化项时,得到的带有正则化模型的逻辑回归表示为:(2)其中,是一个正则化项;3013)本方法采用成对结构化的惩罚正则化方法对数据进行特征选择,对正则化项进行如下修改:其中,表示l1正则化项,表示成对结构化惩罚正则化项,表示自适应项,是变量和变量之间的权重,表示x的第i列,表示x的第列,即表示x的第i个和第个特征,、、表示的相关系数函数,和表示特征前的系数,如果一个特征与响应有很强的相关性,那么相应的就会很小,并且对这个特征应用更少的收缩;如果一个特征与响应的相关性很弱,它将受到严重的惩罚;3014)因此,基于结构化惩罚逻辑回归的目标函数具有以下完整形式:(3)。
9.进一步优选,所述步骤302)中,建立似坐标下降优化算法包括如下步骤:3021)结构化惩罚线性回归模型定义为:
(4)将等式(4)重写为:(5)其中,表示第k个特征当前的系数,表示中第k个向量;3022)在等式(5)中,最小化参数的目标函数,同时保持其他参数不变,当时,基于结构化惩罚逻辑回归的目标函数(3)对的导数计算如下:(6)当时:其中,是与相关的部分残差;因此,使用以表达式(7)更新:(7)(8)其中,是单变量软阈值算子,为,为;为了优化结构化的惩罚线性回归模型,在算法中重复应用以表达式(7);由于坐标下降方法不能直接优化基于结构化正则化的目标函数(3),对基于结构化惩罚逻辑回归的目标函数(3)的对数似然函数;求解重新加权的最小二乘模型,具体的,使用基于当前估计量的目标函数(3)的二次近似,如下所示:(9)其中是的梯度,是的hessian矩阵,q是包含元素的对角矩阵:
其中,在当前参数值下计算,是对角阵,因此,近似如下:(10)其中是基于当前参数估计的伪响应,因此,可以通过结构化的惩罚正则化获得以下重新加权的最小二乘损失函数:(11)将拟合当前的部分残差重新定义为,直接将坐标下降应用于重新加权最小二乘损失函数(11)惩罚基于结构化惩罚逻辑回归的目标函数(3)。
10.进一步优选,所述步骤4)参数选择中:结构化惩罚正则化包括一个必须选择的调整参数,即自适应项,参数控制学习模型的稀疏性,作为起点,让,然后根据计算和之间的一组值,表示迭代次数。
11.与现有技术相比,本发明的优点在于:本发明采用基于结构化正则项的入侵检测方法,在网络入侵检测中,为了降低数据维度,选择与响应更密切相关的特征,并减少相关特征的数量,识别数据中的重要结构,从而降低分类算法的计算复杂度,提高学习性能,提高入侵检测的效率。
具体实施方式
12.为了使本发明的目的、技术方案及优点更加清楚明白,下面结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
13.本发明提供一种基于结构化正则项的入侵检测方法,包括如下步骤:1)数据采集:通过数据包采集工具,从数据集中采集数据;数据包采集工具为linux下的tcpdump,或windows下的libdump,或软件snort捕捉数据包,数据集为kdd cup 1999 数据集。
14.kdd cup 1999 数据集为入侵检测领域广泛使用的经典数据集,分成具有标识的训练数据和未加标识的测试数据,总共约有500万条记录,其中攻击数据约占80%。数据集中共有41个特征属性,可分为基本特征、流量特征和内容特征。该数据集中的数据可分为5大类别,其中攻击类别有4类。
15.2)数据预处理,具体包括:201)数据清理:由于采集的数据一般都是不完整的和不一致的,因此对所述步骤1)中采集的数据进行数据清理,数据清理包括填补空缺的数据值、消除噪音数据和纠正不一致数据;202)对数据进行标准化处理,即对数据的符号属性进行编码,把符号属性转化为数值属性。
16.3)建立似坐标下降优化算法:301)建立基于结构化正则项的目标函数,包括如下步骤:3011)设输入的数据集d有n个样本,即,其中是第个输入样本,p是的特征的数量,是对应的分类标签,取值为0或 1,逻辑回归函数用于定义类后验概率p,如下所示:其中是通过优化目标函数(1)来估计的特征系数,是截距,估计量作为以下对数似然函数的最小值获得:(1)3012)在高维环境中,直接优化目标函数(1) 是不合适的,本方法在网络数据中选择少量的信息特征,适用选择正则化方法。当目标函数(1)包含正则化项时,得到的带有正则化模型的逻辑回归表示为:(2)其中,是一个正则化项,可以用不同的形式指定;3013)本方法采用成对结构化的惩罚正则化方法对数据进行特征选择,对正则化项进行如下修改:其中,表示l1正则化项,表示成对结构化惩罚正则化项,表示自适应项,是变量和变量之间的权重,用于衡量每对变量的相似度,表示x的第i列,表示x的第列,即表示x的第i个和第个特征,、、表示的相关系数函数,和表示特征前的系数,相似性权重允许正则化项根据数据中的结构信息来惩罚系数,如果一个特征与响应有很强的相关性,那么相应的就会很小,并且对这个特征应用更少的收缩;如果一个特征与响应的相关性很弱,它将受到严重的惩罚;3014)因此,基于结构化惩罚逻辑回归的目标函数具有以下完整形式:(3)。
17.302)建立似坐标下降优化算法;
包括如下步骤:3021)在本发明中,开发了一种似坐标下降算法来优化目标函数(3)。坐标下降算法是一种简单而有效的方法,它每次求解一个参数,同时保持其他参数不变。首先在线性回归设置中引入结构化惩罚模型的坐标下降算法,然后扩展该算法以解决惩罚逻辑回归问题。
18.结构化惩罚线性回归模型定义为:(4)将等式(4)重写为:(5)其中,表示第k个特征当前的系数,表示中第k个向量;3022)在等式(5)中,最小化参数的目标函数,同时保持其他参数不变,当时,基于结构化惩罚逻辑回归的目标函数(3)对的导数计算如下:(6)当时:其中,是与相关的部分残差;因此,使用以表达式(7)更新:(7)(8)其中,是单变量软阈值算子,为,为;为了优化结构化的惩罚线性回归模型,在算法中重复应用以表达式(7);由于坐标下降方法不能直接优化基于结构化正则化的目标函数(3),对基于结构化惩罚逻辑回归的目标函数(3)的对数似然函数;求解重新加权的最小二乘模型,具体的,使用基于当前估计
量的目标函数(3)的二次近似,如下所示:(9)其中是的梯度,是的hessian矩阵,q是包含元素的对角矩阵:其中,在当前参数值下计算,是对角阵,因此,近似如下:(10)其中是基于当前参数估计的伪响应,因此,可以通过结构化的惩罚正则化获得以下重新加权的最小二乘损失函数:(11)将拟合当前的部分残差重新定义为,直接将坐标下降应用于重新加权最小二乘损失函数(11)惩罚基于结构化惩罚逻辑回归的目标函数(3)。
19.具体的,似坐标下降优化算法描述为:步骤1:初始化所有系数和参数,设置;步骤2:根据当前的计算 、和重新加权的最小二乘损失函数;步骤3:一个一个地更新每个直到 不再改变:步骤3.1:计算步骤3.2:更新:步骤4:设。如果足够小,则停止算法。否则,重复步骤2和步骤3。
20.4)特征系数选择;结构化惩罚正则化包括一个必须选择的调整参数,即自适应项,参数控制学习模型的稀疏性,作为起点,让,然后根据计算和之间的一组值,表示迭代次数。
21.5)模型分类训练:根据步骤4)中选出的具有被选择的特征系数的特征,来进行模型分类训练;6)利用步骤5)训练的模型进行入侵检测。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献