一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于hVAE生成模型的入侵检测方法及系统

2022-12-20 20:52:41 来源:中国专利 TAG:

一种基于hvae生成模型的入侵检测方法及系统
技术领域
1.本发明属于入侵检测领域,特别涉及一种基于hvae生成模型的入侵检测方法及系统。


背景技术:

2.随着网络技术的飞速发展和大数据技术的广泛应用,越来越多的行业选择将原有行业领域技术与高科技信息化技术相结合。而当享受信息化技术给人民带来便利的同时,也同样需要承担因外界网络入侵攻击而导致的风险。
3.现如今,在入侵检测领域中,选取合适的网络流量数据特征一般来说是比较困难的。此外,也难以获取真实网络中带有标签的流量数据用于进行网络入侵检测模型的训练,这种情况往往源于对真实流量数据标签化所耗费的代价巨大且可能会涉及一些隐私。
4.传统的数据生成模型如gan同样能够实现数据生成,但当考虑真实网络数据样本对于入侵检测模型训练的影响时发现,gan作为对抗生成神经网络的模型,其依托于编码器和生成器互相博弈实现的纳什均衡。模型需要的是符合真实网络攻击的样本,其生成数据应该满足在核心特征比较容易区分辨别的情况下尽可能的增大数据样本的方差,用以进行模型的训练。而过多生成难以区分真假的入侵检测数据样本反而会使得原模型在实际判别入侵检测时难以判断正常流量数据,从而造成false alarm rate(误报率)提升。


技术实现要素:

5.本发明提供一种基于hvae生成模型的入侵检测方法及系统。
6.为达到上述目的,本发明采用如下技术方案:
7.本发明其中一个技术方案提供一种基于hvae生成模型的入侵检测方法,所述方法包括:
8.生成hvae生成模型;
9.利用hvae生成模型生成入侵检测所需的数据集。
10.结合第一个技术方案,在第一个技术方案的第一种可能的实现方式中,所述方法还包括:
11.将原始训练数据集分成第一训练集和测试集,利用第一训练集进行训练,获得第一入侵检测模型;
12.利用hvae生成模型生成入侵检测所需的数据集进行训练,获得第二入侵检测模型;
13.将测试集输入到第一入侵检测模型和第二入侵检测模型中进行检测,分别输出检测结果;
14.计算两个入侵检测模型输出的检测结果误差,当误差值大于阈值时,随机从原始训练数据集中选择t个样本放入利用hvae生成模型生成入侵检测所需的数据集中,组成新的数据集并进行训练,获得新的入侵检测模型,并进行上述步骤,直至误差值不大于阈值
时,形成最终的入侵检测模型,t>1。
15.结合第一个技术方案,进一步改进的技术方案中,所述生成hvae生成模型具体包括:
16.对原始训练数据集进行重构,获得重构数据及重构数据的标签;
17.求得重构数据的损失函数l1(x,y;θ,φ)和基于重构数据的标签的重构误差l2(x,y;θ,φ);
18.求取hvae生成模型的损失函数l(x,y;θ,φ);
19.构建整体hvae生成模型框架,利用随机梯度下降法对模型进行迭代优化,求取损失函数l(x,y;θ,φ)的最优化参数。
20.结合第一个技术方案,进一步改进的技术方案中,所述损失函数l(x,y;θ,φ)表示为:
21.l(x,y;θ,φ)=λ*l1(x,y;θ,φ) (1-λ)*l2(x,y;θ,φ)。
22.结合第一个技术方案,进一步改进的技术方案中,
23.结合第一个技术方案,进一步改进的方案中,
[0024][0025]
结合第一个技术方案,进一步改进的技术方案中,所述对原始训练数据集进行重构,获得重构数据及重构数据的标签具体包括:
[0026]
通过原始训练数据集x和标签y构建vae中的encoder;
[0027]
获取隐变量z*和重构数据x*;
[0028]
根据隐变量z*和重构数据x*获取重构数据的标签y*。
[0029]
结合第一个技术方案,进一步改进的技术方案中,通过原始训练数据集x和标签y构建vae中的encoder,其函数过程设定为q(z|x,y),将其结果用重参数化表示,参数设定为φ,对重参数化后的分布进行采样,最终生成的隐变量用z(i)来表示,encoder过程表示为q
φ
(z(i)|x(i),y(i)),i为数据样本的第i个特征。
[0030]
结合第一个技术方案,进一步改进的技术方案中,利用p
θ
()分布来对原始的函数过程得到的分布进行拟合,初始选取一个分布n(0,i),从n(0,i)进行采样后得到隐变量z*,通过decoder过程生成重构数据x*;
[0031]
通过p
θ
(y
*(i)
|x
*(i)
,z
*(i,l)
)得到重构数据的标签y*。
[0032]
本发明第二个技术方案提一种基于hvae生成模型的入侵检测系统,其特征在于,所述系统包括:
[0033]
模型生成模块,所述模型生成模块被配置为用于生成hvae生成模型;
[0034]
数据集生成模块,所述数据集生成模块被位置为用于利用hvae生成模型生成入侵检测所需的数据集。
[0035]
本发明提供的基于hvae生成模型的入侵检测方法及系统,在生成数据集过程中,在vae的基础之上,引入了权重参数λ,在求取hvae生成模型整体的损失函数时,根据权重参数来调节利用vae得到的输入数据损失函数和标签重构误差之间权重;获得的hvae生成模
型综合考虑了有监督学习和无监督学习两种生成预测方式;并基于随机梯度下降法构造出带有权重调和的模型,使得生成数据更加符合现实网络中的环境,提高对正常流量数据的判断,降低误报率;提升利用生成的数据对入侵检测模型进行训练,进而提高入侵检测模型检测的准确性。
附图说明
[0036]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0037]
图1是本发明其中一个实施例提供的一种基于hvae生成模型的入侵检测方法的流程示意图;
[0038]
图2是本发明提供的对原始训练数据集进行重构,获得重构数据及重构数据的标签的流程示意图;
[0039]
图3是本发明提供的生成hvae生成模型的基本核心流程图;
[0040]
图4是本发明另一个实施例提供的一种基于hvae生成模型的入侵检测方法的流程示意图;
[0041]
图5是本发明另一个实施例提供的一种基于hvae生成模型的入侵检测系统的结构示意图。
具体实施方式
[0042]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0043]
本发明其中一实施例提供一种基于hvae生成模型的入侵检测方法,如图1所示,所述方法包括:
[0044]
s1、生成hvae生成模型;
[0045]
如图2所示,所述生成hvae生成模型的具体方法包括:
[0046]
s11、对原始训练数据集进行重构,获得重构数据及重构数据的标签;
[0047]
进一步地,对原始训练数据集进行重构,获得重构数据及重构数据的标签具体为:
[0048]
1)通过原始训练数据集x和标签y构建vae中的encoder;
[0049]
参见图3,

部分代表vae中的encoder过程,此处定义为q
φ
(z|x,y)。通过encoder过程将原始训练数据集得到隐变量的分布,对分布进行采样,最终结果为z。
[0050]
基于以上内容,本发明通过原始训练数据集x和标签y构建vae中的encoder,其函数过程设定为q(z|x,y),将其结果用重参数化表示,参数设定为φ,对重参数化后的分布进行采样,最终生成的隐变量用z(i)来表示,encoder过程表示为q
φ
(z(i)|x(i),y(i)),i为数据样本的第i个特征;
[0051]
2)获取隐变量z*和重构数据x*;
[0052]
参见图3,

部表示为当给定一个拟合分布后,得到隐变量z*,基于z*可以基于神经网络得到重构数据x*,其decoder过程定义为p
θ
(x*|z*)。
[0053]
因此,本发明利用p
θ
()分布来对原始的函数过程得到的分布进行拟合,初始选取一个分布n(0,i),从n(0,i)进行采样后得到隐变量z*,隐变量z*是一开始给定一个初始分布(服从某分布,如正态分布),而后利用神经网络参数自适应进行参数调整从而得到一个分布接近于采样后的隐变量z(i)的分布。简而言之是利用z*(i)去拟合z(i)的分布,使二者分布接近。通过decoder过程生成重构数据x*。
[0054]
3)根据隐变量z*和重构数据x*获取重构数据的标签y*;
[0055]
参见图3,

部表示为根据x*和z*得到y*。
[0056]
具体为:通过p
θ
(y
*(i)
|x
*(i)
,z
*(i,l)
)得到重构数据的标签y*。
[0057]
s12、求得重构数据的损失函数l1(x,y;θ,φ)和基于重构数据的标签的重构误差l2(x,y;θ,φ);
[0058]
其中,
[0059][0060]
其中,l表示需要优化的误差客体;d
kl
表示kl散度;由于i是分量,n就是所有特征的总和;x表示输入数据;y表示标签;φ和θ分别表示encoder中的参数和decoder中的参数;
[0061]
s13、求取hvae生成模型的损失函数l(x,y;θ,φ);
[0062]
其中,l(x,y;θ,φ)=λ*l1(x,y;θ,φ) (1-λ)*l2(x,y;θ,φ);
[0063]
s14、构建整体hvae生成模型框架,利用随机梯度下降法对模型进行迭代优化,求取损失函数l(x,y;θ,φ)的最优化参数;进而获得hvae生成模型。
[0064]
s2、利用hvae生成模型生成入侵检测所需的数据集;
[0065]
利用训练好的hvae生成模型对原样本进行数据生成,将生成的数据纳入对入侵检测模型训练的数据集。
[0066]
本发明提供的基于hvae生成模型的入侵检测方法,在生成数据集过程中,在vae的基础之上,引入了权重参数λ,在求取hvae生成模型整体的损失函数时,根据权重参数来调节利用vae得到的输入数据损失函数和标签重构误差之间权重;获得的hvae生成模型综合考虑了有监督学习和无监督学习两种生成预测方式;并基于随机梯度下降法构造出带有权重调和的模型,使得生成数据更加符合现实网络中的环境,提高对正常流量数据的判断,降低误报率;利用生成的数据对入侵检测模型进行训练,进而提高入侵检测模型检测的准确性。
[0067]
本发明其中再一些实施例提供一种基于hvae生成模型的入侵检测方法,所述方法还包括:
[0068]
利用所生成的数据集进行训练,获得入侵检测模型;
[0069]
可以利用数据集对卷积神将网络模型、随机森林模型等进行训练。
[0070]
利用入侵检测模型对待检测数据进行检测。
[0071]
以上方法提高了检测的准确性。
[0072]
本发明其中另一些实施例提供一种基于hvae生成模型的入侵检测方法,如图4所
示,所述方法包括:
[0073]
s1、生成hvae生成模型;
[0074]
如图2所示,所述生成hvae生成模型的具体方法包括:
[0075]
s11、对原始训练数据集进行重构,获得重构数据及重构数据的标签;
[0076]
进一步地,对原始训练数据集进行重构,获得重构数据及重构数据的标签具体为:
[0077]
1)通过原始训练数据集x和标签y构建vae中的encoder;
[0078]
参见图3,

部分代表vae中的encoder过程,此处定义为q
φ
(z|x,y)。通过encoder过程将原始训练数据集得到隐变量的分布,对分布进行采样,最终结果为z。
[0079]
基于以上内容,本发明通过原始训练数据集x和标签y构建vae中的encoder,其函数过程设定为q(z|x,y),将其结果用重参数化表示,参数设定为φ,对重参数化后的分布进行采样,最终生成的隐变量用z(i)来表示,encoder过程表示为q
φ
(z(i)|x(i),y(i)),i为数据样本的第i个特征;
[0080]
2)获取隐变量z*和重构数据x*;
[0081]
参见图3,

部表示为当给定一个拟合分布后,得到隐变量z*,基于z*可以基于神经网络得到重构数据x*,其decoder过程定义为p
θ
(x*|z*)。
[0082]
因此,本发明利用p
θ
()分布来对原始的函数过程得到的分布进行拟合,初始选取一个分布n(0,i),从n(0,i)进行采样后得到隐变量z*,隐变量z*是一开始给定一个初始分布(服从某分布,如正态分布),而后利用神经网络参数自适应进行参数调整从而得到一个分布接近于采样后的隐变量z(i)的分布。简而言之是利用z*(i)去拟合z(i)的分布,使二者分布接近。通过decoder过程生成重构数据x*。
[0083]
3)根据隐变量z*和重构数据x*获取重构数据的标签y*;
[0084]
参见图3,

部表示为根据x*和z*得到y*。
[0085]
具体为:通过p
θ
(y
*(i)
|x
*(i)
,z
*(i,l)
)得到重构数据的标签y*。
[0086]
s12、求得重构数据的损失函数l1(x,y;θ,φ)和基于重构数据的标签的重构误差l2(x,y;θ,φ);
[0087]
其中,
[0088][0089]
其中,l表示需要优化的误差客体;d
kl
表示kl散度;由于i是分量,n就是所有特征的总和;x表示输入数据;y表示标签;φ和θ分别表示encoder中的参数和decoder中的参数;
[0090]
s13、求取hvae生成模型的损失函数l(x,y;θ,φ);
[0091]
其中,l(x,y;θ,φ)=λ*l1(x,y;θ,φ) (1-λ)*l2(x,y;θ,φ);
[0092]
s14、构建整体hvae生成模型框架,利用随机梯度下降法对模型进行迭代优化,求取损失函数l(x,y;θ,φ)的最优化参数;进而获得hvae生成模型。
[0093]
s2、利用hvae生成模型生成入侵检测所需的数据集;
[0094]
利用训练好的hvae生成模型对原样本进行数据生成,将生成的数据纳入对入侵检测模型训练的数据集;
[0095]
s3、将原始训练数据集x和标签y分成第一训练集和测试集,利用第一训练集进行训练,获得第一入侵检测模型;
[0096]
其中80%样本作为第一训练集,其余的样本作为测试集;
[0097]
s4、利用s2步骤所生成的数据集进行训练,获得第二入侵检测模型;
[0098]
s5、将测试集输入到第一入侵检测模型和第二入侵检测模型中进行检测,分别输出检测结果;
[0099]
s6、计算两个入侵检测模型输出的检测结果误差,当误差值大于阈值时,随机从原始训练数据集x中选择t个样本放入利用hvae生成模型生成入侵检测所需的数据集中,组成新的数据集并进行训练,获得新的入侵检测模型,并进行步骤s5,直至误差值不大于阈值时,形成最终的入侵检测模型,t>1。
[0100]
利用数据集对卷积神经网络、随机森林模型进行训练。
[0101]
以上方法显著提高了入侵检测的准确性,并且提高了模型的稳定性。
[0102]
本发明其中另一些实施例提供一种基于hvae生成模型的入侵检测系统,如图5所示,所述系统包括:
[0103]
本发明其中一实施例提供一种基于hvae生成模型的入侵检测系统,如图3所示,所述系统包括:
[0104]
模型生成模块10,所述模型生成模块被配置为用于生成hvae生成模型;
[0105]
其中,所述模型生成模块10包括:
[0106]
重构单元101,所述重构单元被配置为用于对原始训练数据集进行重构,获得重构数据及重构数据的标签;
[0107]
进一步地,对原始训练数据集进行重构,获得重构数据及重构数据的标签具体为:
[0108]
1)通过原始训练数据集x和标签y构建vae中的encoder;
[0109]
参见图3,

部分代表vae中的encoder过程,此处定义为q
φ
(z|x,y)。通过encoder过程将原始训练数据集得到隐变量的分布,对分布进行采样,最终结果为z。
[0110]
基于以上内容,本发明通过原始训练数据集x和标签y构建vae中的encoder,其函数过程设定为q(z|x,y),将其结果用重参数化表示,参数设定为φ,对重参数化后的分布进行采样,最终生成的隐变量用z(i)来表示,encoder过程表示为q
φ
(z(i)|x(i),y(i)),i为数据样本的第i个特征;
[0111]
2)获取隐变量z*和重构数据x*;
[0112]
参见图3,

部表示为当给定一个拟合分布后,得到隐变量z*,基于z*可以基于神经网络得到重构数据x*,其decoder过程定义为p
θ
(x*|z*)。
[0113]
因此,本发明利用p
θ
()分布来对原始的函数过程得到的分布进行拟合,初始选取一个分布n(0,i),从n(0,i)进行采样后得到隐变量z*,通过decoder过程生成重构数据x*。
[0114]
3)根据隐变量z*和重构数据x*获取重构数据的标签y*;
[0115]
参见图3,

部表示为根据x*和z*得到y*。
[0116]
具体为:通过p
θ
(y
*(i)
|x
*(i)
,z
*(i,l)
)得到重构数据的标签y*。
[0117]
以上过程为非监督学习的数据生成过程。
[0118]
获得单元102,所述求得单元被配置为用于求得重构数据的损失函数l1(x,y;θ,φ)和基于重构数据的标签的重构误差l2(x,y;θ,φ);
[0119]
其中,
[0120][0121]
求取单元103,所述求取单元被配置为用于求取hvae生成模型的损失函数l(x,y;θ,φ);
[0122]
其中,l(x,y;θ,φ)=λ*l1(x,y;θ,φ) (1-λ)*l2(x,y;θ,φ);
[0123]
构建单元104,所述构建单元被配置为用于构建整体hvae生成模型框架,利用随机梯度下降法对模型进行迭代优化,求取损失函数l(x,y;θ,φ)的最优化参数;
[0124]
数据集生成模块20,所述数据集生成模块被位置为用于利用hvae生成模型生成入侵检测所需的数据集;
[0125]
利用训练好的hvae生成模型对原样本进行数据生成,将生成的数据纳入对入侵检测模型训练的数据集。
[0126]
本发明提供的基于hvae生成模型的入侵检测系统,在生成数据集过程中,在vae的基础之上,引入了权重参数λ,在求取hvae生成模型整体的损失函数时,根据权重参数来调节利用vae得到的输入数据损失函数和标签重构误差之间权重;获得的hvae生成模型综合考虑了有监督学习和无监督学习两种生成预测方式;并基于随机梯度下降法构造出带有权重调和的模型,使得生成数据更加符合现实网络中的环境,提高对正常流量数据的判断,降低误报率;利用生成的数据对入侵检测模型进行训练,进而提高入侵检测模型检测的准确性。
[0127]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
[0128]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0129]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献