一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种采用多模组学习的网络攻击免疫防御方法及系统与流程

2023-02-02 02:34:25 来源:中国专利 TAG:


1.本发明涉及网络技术与信息安全领域,尤其涉及一种采用多模组学习的网络攻击免疫防御方法及系统。


背景技术:

2.随着通信、计算能力极大的提升,网络数字设备数量大量增加,同时信息与物理的关系愈加强耦合,然而这也引入了更多网络攻击的风险,使得人们在维护系统的信息与通信技术的网络安全时存在相当大的难度。在已知流行的网络安全防范体系中,防火墙技术是对入侵行为防御的第一道防线,入侵检测系统则是对防火墙技术的补充,两者的结合一定程度上防御网络攻击,然而传统的入侵检测和防火墙存在一些缺陷,如只能区分特定的行为,对于迂回的、隐蔽的入侵行为检测表现得效果一般。而入侵检测与防御系统(intrusion detection and prevention system,idps)以入侵检测为基础,对网络能够进行全面、深度、主动的保护,在防御网络攻击方面取得了良好的性能,因此研究入侵防御系统对保护系统安全具有重大意义。
3.入侵检测(intrusion detection system,ids)是指识别出针对计算机或网络资源的恶意攻击的行为并对此做出反应的过程。ids方案主要分为误用检测和异常检测。误用检测即基于签名的系统在很大程度上依赖于攻击和恶意行为的签名,并支持多类分类,基于误用检测的方法在识别已知恶意行为及其变体方面更准确。然而,无法检测到新的攻击,因为新的攻击的签名没法获得。另一方面,基于异常检测的ids可以依靠用户的正常行为特征来检测新的攻击,并且只支持二分类。然而,在用户角色偶尔变化的动态组织中,他们的个人资料应该相应地更新。此外,异常检测方案可能会有误报问题。
4.入侵检测和防御系统(idps)是监视系统或网络中的可疑活动或异常行为并对其采取适当操作的系统。入侵检测系统(ids)在网络中只检测到恶意活动并向管理员发出警报,以便管理员必须决定如何处理这些警报。入侵防御系统(intrusion prevention system,ips)系统除了生成警报外,它还可以自动对异常活动做出反应,可以阻止攻击源或重置连接。在所有类型的这些系统中,最常被考虑的是它们会产生大量的错误警报。减少这些错误警报的方法之一是使用结合了两种或两种以上技术的优点的混合系统。idps系统的目标是在攻击成功之前阻止攻击,并采取多种措施来防止网络受到不同类型的攻击,如dos攻击和ftp攻击。
5.传统的机器学习缺乏有标签的训练数据集,严重依赖于人类提取的特征,这使得它很难在大型平台上部署,而深度学习是机器学习的子集,其训练时间短,准确率高,相比传统方法具有更高的性能,它旨在利用分层结构从原始输入数据中找到合适的高级特征,而不是使用手动特征。因此,深度学习在研究入侵检测和防御方法时得到了广泛的关注。
6.现有的基于深度学习的入侵检测与防御系统有感知能力弱,检测误报率高,自适应学习能力不足。


技术实现要素:

7.鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种采用多模组学习的网络攻击免疫防御方法及系统。
8.根据本发明的一个方面,提供了一种采用多模组学习的网络攻击免疫防御方法,所述防御方法包括:
9.收集信息侧数据和物理侧数据;
10.对所述信息侧数据和物理侧数据进行预处理,获得多源数据;
11.对所述多源数据进行特征学习;
12.利用自学习模型对异常进行检测;
13.对检测到的异常数据包进行处置,再采取措施恢复主机的正常通信。
14.可选的,所述收集信息侧数据具体包括:网络流、分段数据,所述物理侧数据包括时间、位置、设备id、网段、区域、设备类型特征、用户组织。
15.可选的,所述对所述信息侧数据和物理侧数据进行预处理,获得多源数据具体包括:
16.数据预处理:对系统进行入侵检测首先需要对目标系统有一个全面概括性的了解,对数据的来源以及结构进行概括性的统计和了解;
17.可选的,所述对所述多源数据进行特征学习具体包括:
18.基于预训练的特征表示:随着基于深度学习的单模态技术的发展,在深度学习中,希望机器学到的表示能够与人的认知一样包含着数据的完整语义信息,为了使得模型针对具体样本构建具有丰富与全面的语义信息的表示仅使用单模态数据是不足够的,因此多模态技术逐渐引起了更多的关注;
19.在对物理层信息和包的原始字节码,以及网络流进行表征学习,利用信息侧和物理侧联合防御。
20.可选的,所述利用自学习模型对异常进行检测具体包括:
21.采用自监督的认知记忆网络,实现表征学习;
22.利用特征稀疏、特征重构、样本重构,对模型进行优化,以实现更好地提取潜在空间特征。
23.本发明还提供了一种采用多模组学习的网络攻击免疫防御系统,所述防御系统包括:
24.数据收集模块,用于收集信息侧数据和物理侧数据;
25.特征计算模块,用于对所述信息侧数据和物理侧数据进行预处理,获得多源数据;对所述多源数据进行特征学习;
26.攻击检测模块,用于利用自学习模型对异常进行检测;
27.攻击判断模块,用于判断是否需要发起攻击;
28.防御模块,用于对检测到的异常数据包进行处置;
29.恢复模块,用于采取措施恢复主机的正常通信。
30.本发明提供的一种采用多模组学习的网络攻击免疫防御方法,所述防御方法包括:收集信息侧数据和物理侧数据;对所述信息侧数据和物理侧数据进行预处理,获得多源数据;对所述多源数据进行特征学习;利用自学习模型对异常进行检测;对检测到的异常数
据包进行处置,再采取措施恢复主机的正常通信。实现了在攻击发生时立即捕获攻击特征,并检测出相应的攻击并进行防御,从而确保整个系统的网络安全。
31.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
32.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
33.图1为本发明实施例提供的入侵检测与防御模型系统架构图;
34.图2为本发明实施例提供的入侵检测和防御流程图;
35.图3为本发明实施例提供的基于beit-3预训练模型的表征学习方法的流程图;
36.图4为本发明实施例提供的beit-3预训练模型示意图;
37.图5为本发明实施例提供的基于认知记忆网络的异常检测过程示意图。
具体实施方式
38.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
39.本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
40.下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
41.本发明提出一种基于多模组学习的网络攻击免疫防御方法,其目标是在攻击发生时立即捕获攻击特征,并检测出相应的攻击并进行防御,从而确保整个系统的网络安全。主要功能是发现、收集、报告、计划阻止或阻止恶意活动。入侵防御系统是入侵检测系统的扩展,本发明将两者融合为一体;信息和物理的耦合特性使得信息物理两侧通常相互关联,并遵循一定的物理规律或人为既定规则,本发明结合信息侧和物理侧单侧的多源数据,对多模态数据进行感知,让机器学到的表示能够与人的认知一样包含着数据的完整语义信息;随后使用基于深度学习的自监督的认知记忆网络,自学习的方法可以使得其不断在认知学习中进行检测异常;最终,提供相应的预测与预警,挖掘精心设计的隐蔽攻击行为,为信息侧的攻击溯源/阻断、网络资源调整提供支撑。
42.如图1所示,本发明的模型包含以下两个主要的模块:入侵检测模块与入侵防御模块。在入侵检测检测模块,创建了一个深度学习模型来检测入侵和任何可能的网络威胁,这是通过一系列小模块来完成的,使得模型具有最大可能的准确性和可以忽略的损失。具体来说,在入侵检测模块中包括数据预处理、基于预训练的特征表示、基于认知记忆网络的异常检测模型。首先从合适的数据集收集开始。在数据集采集之后,进行预处理。然后输入数
据进入基于预训练的特征表示模块来创建预训练模型,对多模态数据进行表征学习以捕获其中蕴含的完整语义信息。最后采用基于认知记忆网络的异常检测模块进行非合规行为的检测,并且使用该模型对测试数据进行测试。
43.在入侵防御模块,通过使用所有管理员权限在后台运行的脚本来阻止入侵。该脚本的开发方式是通过终止连接并通知管理员恶意事件的发生来阻止任何恶意请求,例如dos攻击。检测和防御阶段都是集成的,并作为软件部署。
44.对于一种采用多模组学习的网络攻击免疫防御方法,下面结合附图和示例对本发明的各个环节的流程中的各个模块细节做进一步的阐述。
45.本发明提供的采用多模组学习的网络攻击免疫防御共包括两部分:入侵检测模块和入侵防御模块。本发明的重点在与第一个模块。在入侵检测模块中,主要包括数据预处理、基于预训练的特征表示、基于认知记忆网络的异常检测三个步骤,之后会详细描述。在入侵防御模块中,主要使用基于linux的命令操作来防御通过入侵检测模块检测到的攻击。如果发生探测攻击,则获取发送者和攻击者的ip地址,并且丢弃或阻止来自攻击者ip的所有分组,类似地,如果发生dos攻击,则系统记录被攻击的连接端口号,并且同时阻止通过该端口号的所有分组,并且如果检测部分的输出正常,则不做任何事情。因此,通过使用所有管理员权限,可以使用在后台运行的脚本来防止入侵,使系统免受网络中可能发生的任何类型的入侵,从而防止任何类型的攻击。
46.具体的入侵检测和防御的流程如图2所示。数据收集模块主要是定期收集一些信息侧数据,如网络流和分段数据,以及物理侧数据,如时间、位置、设备id、网段、区域、设备类型特征、用户组织等关联数据。特征计算模快主要功能是对收集到的数据进行预处理后得到的多源数据进行特征学习,用到的是预训练的模型,预训练模型有很好的泛化能力,且能够在大规模数据下学到丰富的语义信息的表示,在下游任务的小数据集上进行微调就可以得以应用。攻击检测模块主要功能是利用自学习模型对异常进行检测,是种无监督的方法。防御模块与恢复模块,则是对上一步检测到的异常数据包进行处置,再采取一定措施恢复主机的正常通信。
47.入侵检测模块
48.在入侵检测模块中,包括数据预处理、基于预训练的特征表示、基于认知记忆网络的异常检测模型三个过程。该模块主要用于明确系统需要采集的数据,并针对多源数据利用预训练模型进行特征学习,得到更具有代表含义的安全性上的特征,并根据认知记忆网络从现有数据中检测出问题数据包。对其进行警告,并提供给下一模块进行具体的防御策略选择。
49.1)数据预处理:
50.对系统进行入侵检测首先需要对目标系统有一个较为全面概括性的了解,对数据的来源以及结构进行概括性的统计和了解。在本场景中,重点关注系统中信息侧数据、物理侧数据、以及两者之间的关联关系。获取到上述信息后续再根据要模型进行相应的数据预处理,通常对于网络流数据一般会进行连续数据离散化、去除冗余特征、筛选重要特征、对特征值进行标准化、解决数据集类别不平衡等等。
51.2)基于预训练的特征表示:
52.随着基于深度学习的单模态技术的发展,表示学习是其最为核心的部分,在深度
学习中,我们希望机器学到的表示能够与人的认知一样包含着数据的完整语义信息。为了使得模型针对具体样本构建具有丰富与全面的语义信息的表示仅使用单模态数据是不足够的,因此多模态技术逐渐引起了更多的关注。
53.在对物理层信息和包的原始字节码,以及网络流进行表征学习,可以分别达到较好的异常检测与防御效果,然而,这并没有提取到具体样本的完整的语义信息表示,我们希望能够有效利用数据之间的互补信息,利用信息侧和物理侧联合防御能够有效减少防御盲区和增强防御体系,有助于实现更鲁棒的分类或预测。
54.多模态学习要遵循的准则有:互补性准则,即利用多个模态之间的互补信息来增强模型,综合多模态的信息能够更加全面地表述目标对象;一致性准则,其出发点在于认为多模态数据共享某些一致的语义信息,这里使用的是beit-3,利用一个共享的多路transformer结构,通过在单模态和多模态数据上进行掩码数据建模完成预训练,可迁移到各种下游任务中。如图3所示,基于beit-3预训练模型的表征学习方法。
55.将物理侧的比特流信息以及时间、位置、设备id、网段、区域、设备类型特征、用户组织等关联数据利用工具进行数据格式转化,转为图像信息,而信息侧的网络流特征则可以看作是文本信息;之后进入beit-3预训练模型中进行表征学习,在这一步进行掩码数量选择时用到贝叶斯参数优化方法,以达到使用较少的暴露信息就可以支持识别异常;最后将上一步输出用于下游任务的完成,这里指异常检测任务。
56.beit-3的结构如图4所示:
57.以一个共享的多路transformer为骨干网络,对单模(即图像和文本)和多模(即图文对)数据进行掩码数据建模。beit-3的创新之处包含三个方面:
58.第一、骨干网络,使用一个多路的transformer。将多路的transformer作为骨干网络以对不同模态进行编码。每个多路的transformer由一个共享的自注意力模块(self-attention)和多个模态专家(modality experts)组成,每个模态专家都是一个前馈神经网络(feed-forward network)。共享自注意力模块可以有效学习不同模态信息的对齐,并对不同模态信息深度融合编码使其更好地应用在多模态理解任务上。根据当前输入的模态类别,多路的transformer会选择不同模态专家对其进行编码以学习更多模态特定的信息。每层多路的transformer包含一个视觉专家和一个语言专家,而前三层multiway transformer拥有为融合编码器设计的视觉-语言专家。
59.第二、预训练任务,用掩码数据建模(masked data modeling)。在单模态(即图像与文本)和多模态数据(即图像-文本对)上通过统一的掩码-预测任务进行beit-3预训练。预训练期间,会随机掩盖一定百分比的文本字符或像素块,模型通过被训练恢复掩盖的文本字符或其视觉符号,来学习不同模态的表示及不同模态间的对齐。不同于之前的视觉-语言模型通常采用多个预训练任务,beit-3仅使用一个统一的预训练任务,对于更大模型的训练更加友好。由于使用生成式任务进行预训练,beit-3相对于基于对比学习的模型也不需要大批量训练,从而缓解了gpu显存占用过大等问题。
60.第三、扩大模型规模,beit-3由40层多路的transformer组成,模型共包含19亿个参数。在预训练数据上,beit-3基于多个单模态和多模态数据进行预训练,多模态数据从五个公开数据集中收集了大约1500万图像和2100万图像-文本对;单模态数据使用了1400万图像和160gb文本语料。
61.之后,引入贝叶斯优化,与用于多路transformer的自监督预训练框架进行结合,从而最小化打开掩码区域的个数,但可以实现相同的预训练效果,从而使得模型更具有鲁棒性。具体来说,贝叶斯优化可更高效的逐步选择非掩码区域,优化掩码选择,使得能够最小化暴露信息就可以支撑识别。
62.ml工作流中最困难的部分之一是为模型找到最好的超参数。ml模型的性能与超参数直接相关。贝叶斯优化,属于一类优化算法,称为基于序列模型的优化(smbo)算法。在贝叶斯优化的数学过程当中,主要执行以下几个步骤:
63.(1)定义需要估计的f(x)以及x的定义域
64.(2)取出有限的n个x上的值,求解出这些x对应的f(x)(求解观测值)
65.(3)根据有限的观测值,对函数进行估计(该假设被称为贝叶斯优化中的先验知识),得出该估计f*上的目标值(最大值或最小值)
66.(4)定义某种规则,以确定下一个需要计算的观测点
67.并持续在2-4步骤中进行循环,直到假设分布上的目标值达到我们的标准,或者所有计算资源被用完为止(例如,最多观测m次,或最多允许运行t分钟)。
68.在实际的运算过程当中,尤其是超参数优化的过程当中,有以下具体细节需要注意:
69.当贝叶斯优化不被用于hpo时,一般f(x)可以是完全的黑盒函数(black box function,也译作黑箱函数,即只知道x与f(x)的对应关系,却丝毫不知道函数内部规律、同时也不能写出具体表达式的一类函数),因此贝叶斯优化也被认为是可以作用于黑盒函数估计的一类经典方法。但在hpo过程当中,需要定义的f(x)一般是交叉验证的结果/损失函数的结果,而我们往往非常清楚损失函数的表达式,只是我们不了解损失函数内部的具体规律,因此hpo中的f(x)不能算是严格意义上的黑盒函数。
70.在hpo中,自变量x就是超参数空间。在上述二维图像表示中,x为一维的,但在实际进行优化时,超参数空间往往是高维且极度复杂的空间。
71.最初的观测值数量n、以及最终可以取到的最大观测数量m都是贝叶斯优化的超参数,最大观测数量m也决定了整个贝叶斯优化的迭代次数。
72.在第3步中,根据有限的观测值、对函数分布进行估计的工具被称为概率代理模型(probability surrogate model),这些概率代理模型自带某些假设,他们可以根据廖廖数个观测点估计出目标函数的分布f*(包括f*上每个点的取值以及该点对应的置信度)。在实际使用时,概率代理模型往往是一些强大的算法,最常见的比如高斯过程、高斯混合模型等等。传统数学推导中往往使用高斯过程,但现在最普及的优化库中基本都默认使用基于高斯混合模型的tpe过程。
73.在第4步中用来确定下一个观测点的规则被称为采集函数(aquisition function),采集函数衡量观测点对拟合f*所产生的影响,并选取影响最大的点执行下一步观测,因此我们往往关注采集函数值最大的点。最常见的采集函数主要是概率增量pi(probability of improvement,比如计算频数)、期望增量(expectation improvement)、置信度上界(upper confidence bound)、信息熵(entropy)等等。
74.3)基于认知记忆网络的异常检测,如图5所示。
75.使用自监督的认知记忆网络,实现表征学习。利用特征稀疏、特征重构、样本重构,
对模型进行优化,以实现更好地提取潜在空间特征。这里使用一种新的基于深度神经网络的入侵检测方法——认知记忆引导自动编码器(cmae)。第一,引入了memory-model,在保留auto encoder架构的基础上,强化对正常样本特征的记忆能力。为了获得更好的入侵检测性能,第二,除了重构损失外,提出了特征重构损失和特征稀疏性损失来约束所提出的存储模块,提高了memory-model的区分能力和对正常数据的表示能力。
76.网络采用卷积神经网络构建主体结构,有效处理结构化数据。为了获得高效的存储模块,提出了特征重构损失和特征稀疏性损失。特征重构丢失提高了存储模块的表示能力,消除了查询特征和检索特征之间的差异。特征稀疏性丢失要求记忆项具有良好的区分性,并记录正常模式的多样性。
77.定义x∈rn,其中n表示输入数据的维数,表示输入,en(
·
)表示编码器,de(
·
)表示解码器。然后,在en(
·
)中输入x,得到一个z
query
∈rd,其中d是维度,然后获得一个z
retrieve
∈rd,通过memory module读取数据。最后,解码器de(
·
)将z
retrieve
重构回x。公式如下:
78.z
query
=en(x;θ
en
)
79.x
rec
=de(z
retrieve
;θ
de
)
80.其中θ
en
和θ
de
分别表示编码器en(
·
)和解码器de(
·
)的参数。特别地,使用卷积神经网络(cnn)作为编码器和解码器的基本模块。
81.用memory module来记忆和定位正常数据的潜在空间特征表示。所提出的memory module由矩阵m∈rk×d表示,其中,d是记忆特征的维度,k表示记忆项数。
82.每个记忆项mi表示存储在memory module中的特征表示。通过用特定的记忆项组合来获得特征表示。memory module m通过特定的组合来表示z
retrieve
,如下所示:
[0083][0084]
其中,wi表示z
query
和记忆项mi之间的相似性。每个相似性wi的计算公式为:
[0085][0086]
将每个相似性与相应的记忆项相乘,得到记忆项的组合模式,将获取特定组合的操作视为基于注意的查询操作。然后z
retrieve
被重建回原始输入数据。
[0087]
对损失函数进行改进,得到:
[0088]
l=l
rec
λrl
fea_rec
λsl
fea_spa
[0089]
其中l
rec
、l
fea_rec
和l
fea_spa
分别表示重构损失、特征重构损失和特征稀疏性损失。此外,λr和λs是平衡各损失函数的参数。
[0090]
接下来分别解释三个损失函数:
[0091]
重构损失:是训练ae模型基本的损失函数,是使模型收敛的基本损失函数,使解码器decoder重建的数据更接近输入数据,公式如下:
[0092][0093]
同时它也是判断输入数据是否为异常的标准,因为如果是异常,重建的损失会大于正常的。
[0094]
特征重构损失:用来最小化z
query
和z
retrieve
之间的表示误差,让memory module记忆的特征表示更加准确,公式如下,其中d为z
query
和z
retrieve
的维度,为向量的某个维度的值:
[0095][0096]
特征稀疏性损失:保证记忆项mi之间的区分,提高了记忆多种正常特征表示的能力。避免memory module记忆大量相似的特征表示,防止异常样本可以由大量的记忆项mi表示,公式如下,其中d为余弦相似性函数,k是记忆项mi的个数:
[0097][0098]
入侵防御模块
[0099]
入侵防御系统作为比入侵检测更完善的系统,能够对网络进行多层、深层、主动的防护以有效保证网络安全。入侵防御系统能够对网络威胁进行检测并主动启动防御机制进行阻断。通过上述入侵检测模块对外部通信数据的检验,允许其中正常数据通过防火墙进入内部进行交互,阻断其中的异常数据,确保网络不会受到安全威胁。
[0100]
有益效果:为了防止对网络的攻击,入侵检测和防御系统在网络安全领域发挥着至关重要的作用。为了提高系统的通用性,有必要将系统实现为具有深度学习框架的异常检测,在使用深度学习实现入侵检测模型后,将生成用于防御的脚本。
[0101]
具体来说,物理侧与信息侧之间存在异构数据同构化问题、连续数据与离散事件时标统一问题、多源数据的关联分析问题,同时信息和物理也存在强耦合的特点,一方变化另一方也会有所体现,两者互补且一致,本发明结合信息侧和物理侧单侧的多源数据,利用最新的模型beit-3对多模态数据进行感知,让机器学到的表示能够与人的认知一样包含着数据的完整语义信息。
[0102]
随后使用基于深度学习的自监督的认知记忆网络进行异常检测。基于认知的理论基础,让入侵防御系统有较强的自学习能力,利用不断迭代反馈学习进行更新。通过一定的学习能力,将未知的数据不断提炼出有意义的信息,在一定程度上解决了传统的入侵检测与防御系统会出现大量的漏报、误报情况,具有学习能力的入侵防御系统的数据库是不断动态更行变化的,随着知识库的不断完善,大量的漏报、误报也会被逐渐改善。
[0103]
综上所述,经过性能分析,本发明提出方法在保证正常数据通过同时,提高入侵检测和攻击阻断效率,有效降低误报和漏报给网络和应用造成的影响,提高入侵防御系统的智能化和综合防御能力。
[0104]
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献