针对非平衡数据的入侵检测系统的制作方法

2021-10-27 20:37:00 来源：中国专利 TAG：入侵平衡检测计算机数据

1.本发明主要涉及计算机技术领域，尤其涉及针对非平衡数据的入侵检测系统。

背景技术：

2.数据不平衡是指由于数据分布的差异性，导致不同类别间的数据量存在很大的不同。在实际应用中，对于数据不平衡的问题广泛存在，特别是在金融欺诈、疾病诊断等领域。数据不平衡的显著特征是某一类数据十分容易获得，而部分类别的数据由于获取的难度导致样本十分稀少。
3.一般的入侵检测系统需要收集大量的行为数据，模式专家进行统计分析发现行为特征，加入标签比对库，或者利用数据挖掘和机器学习算法，首先对特征进行抽象、提取，使用算法模型训练并检测以判断安全性。但是上述构建方式，十分依赖于所获取的数据样本，对于分布不平衡的数据，如果不进行额外的处理，对于结果的预测将导致大的偏差。

技术实现要素：

4.为解决以上问题，本发明提出了针对非平衡数据的入侵检测系统，针对入侵检测中存在的部分数据分布不平衡的现象，在数据集构建中，通过对数据进行重采样，消除部分类别的不平衡，另外在入侵检测模型上进一步削减不平衡数据分类的难度，可以有效解决入侵检测系统中针对不平衡数据检测的问题，并能进一步提高保障系统安全的能力，做到高效智能。
5.具体的，本发明提出了一种针对非平衡数据的入侵检测系统，包括：
6.获取模块，用于获取数据样本；
7.分类模块，用于对所述数据样本进行分类处理，得到少数类样本集和多数类样本集；
8.上采样模块，用于使用预设采样算法对所述少数类样本集进行上采样，将上采样得到的新数据样本加入所述数据样本中，构成待检测数据；
9.入侵检测模块，用于将所述待检测数据输入预先训练好的入侵检测模型中进行检测，以判断安全性。
10.优选的，如上所述的针对非平衡数据的入侵检测系统，还包括：
11.模型训练模块，用于预先对入侵检测模型进行训练，得到训练好的入侵检测模型，所述入侵检测模型的训练采用focal loss损失函数。
12.优选的，如上所述的针对非平衡数据的入侵检测系统，所述获取模块包括原始数据获取单元和数据预处理单元。
13.优选的，如上所述的针对非平衡数据的入侵检测系统，所述原始数据获取单元获取原始数据；所述数据预处理单元去除所述原始数据中的无效数据和重复数据，得到数据样本。
14.优选的，如上所述的针对非平衡数据的入侵检测系统，所述分类模块包括特征统计单元和样本分类单元。
15.优选的，如上所述的针对非平衡数据的入侵检测系统，所述特征统计单元对所述数据样本进行特征统计，得到相应的数据特征；所述样本分类单元对所述数据特征进行分类处理，得到数值属性、序列属性和类别属性；根据所述类别属性将所有数据样本分为少数类样本集和多数类样本集。
16.优选的，如上所述的针对非平衡数据的入侵检测系统，所述预设采样算法为smote采样算法。
17.优选的，如上所述的针对非平衡数据的入侵检测系统，所述上采样模块包括近邻样本获取单元和线性插值单元。
18.优选的，如上所述的针对非平衡数据的入侵检测系统，所述近邻样本获取单元对少数类样本集中每一个样本，以欧氏距离为标准计算每一个样本到少数类样本集中所有样本的距离，根据所述距离得到其k近邻样本。
19.优选的，如上所述的针对非平衡数据的入侵检测系统，所述线性插值单元，对于每一个少数类样本，从其k近邻样本中随机选择预设数量个近邻样本，对于每一个随机选出的近邻样本，分别与原少数类样本按照以下公式构建新数据样本，所述公式如下：
20.x
im
＝x
i
λ1*(x
in
‑
x
i
)；其中，x
im
表示新数据样本，x
i
表示随机选出的近邻样本，x
in
表示原少数类样本，λ1为一个0到1之间的随机数。
21.本发明所述的针对非平衡数据的入侵检测系统，具有如下有益效果：
22.针对入侵检测中存在的部分数据分布不平衡的现象，在数据集构建中，通过对数据进行重采样，消除部分类别的不平衡，另外在入侵检测模型上进一步削减不平衡数据分类的难度，可以有效解决入侵检测系统中针对不平衡数据检测的问题，并能进一步提高保障系统安全的能力，做到高效智能。
附图说明
23.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
24.附图1示出了根据本发明实施例一的针对非平衡数据的入侵检测系统的结构图；
25.附图2示出了根据本发明实施例一的获取模块的结构图；
26.附图3示出了根据本发明实施例一的分类模块的结构图；
27.附图4示出了根据本发明实施例一的网络数据的格式及信息的示意图；
28.附图5示出了根据本发明实施例一的上采样模块的结构图；
29.附图6示出了根据本发明实施例一的对数据样本进行分类的具体步骤流程图；
30.附图7示出了根据本发明实施例一的另一种针对非平衡数据的入侵检测系统的结构图；
31.附图8示出了采用一致的tcn
‑
ids模型的最终对比结果；附图9示出了根据本发明实施例二的针对非平衡数据的入侵检测方法的流程图。
具体实施方式
32.下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
33.实施例一
34.如图1所示，本发明实施例一提供了一种针对非平衡数据的入侵检测系统 100，所述系统包括如下模块：
35.获取模块110，用于获取数据样本；
36.如图2所示，所述获取模块110包括原始数据获取单元111和数据预处理单元112。所述原始数据获取单元111获取原始数据；所述数据预处理单元112 去除所述原始数据中的无效数据和重复数据，得到数据样本。
37.分类模块120，用于对所述数据样本进行分类处理，得到少数类样本集和多数类样本集；
38.如图3所示，所述分类模块120包括特征统计单元121和样本分类单元122。所述特征统计单元121对所述数据样本进行特征统计，得到相应的数据特征；所述样本分类单元122对所述数据特征进行分类处理，得到数值属性、序列属性和类别属性；根据所述类别属性将所有数据样本分为少数类样本集和多数类样本集。
39.进一步举例说明上述获取模块110和分类模块120。以输入数据来源为网络数据为示例，格式及信息如图4所示，包括固有属性、内容、基于网络的流量、基于主机的流量以及类别等，可见，其具备固定的协议特征及流量特征，其中分类标签如normal为类别属性，字符特征多为协议相关信息，包含序列特征，大部分为数值特征。将示例数据初始化，将原始数据进行预处理，并对特征进行统计包括：去除无效数据和重复数据，并对数据特征进行分类，包含数值属性、序列属性和类别属性。根据类别标签将数据进行分类，数据出现少数类和多数类，从而得到少数类样本集和多数类样本集。
40.上采样模块130，用于使用预设采样算法对所述少数类样本集进行上采样，将上采样得到的新数据样本加入所述数据样本中，构成待检测数据；
41.其中，所述预设采样算法可以为smote(synthetic minority oversamplingtechnique，合成少数类过采样技术)采样算法。
42.如图5所示，所述上采样模块130包括近邻样本获取单元131和线性插值单元132。
43.所述近邻样本获取单元131对少数类样本集中每一个样本，以欧氏距离为标准计算每一个样本到少数类样本集中所有样本的距离，根据所述距离得到其 k近邻样本。
44.所述线性插值单元132，对于每一个少数类样本，从其k近邻样本中随机选择预设数量个近邻样本，对于每一个随机选出的近邻样本，分别与原少数类样本按照以下公式构建新数据样本，所述公式如下：
45.x
im
＝x
i
λ1*(x
in
‑
x
i
)；其中，x
im
表示新数据样本，x
i
表示随机选出的近邻样本，x
in
表示原少数类样本，λ1为一个0到1之间的随机数。
46.具体的，对示例数据类别为probe，u2l和r2l的使用smote采样算法上采样了2倍、40倍和10倍，从需要上采样的少数类样本中找到x
in
的k近邻样本，标记为x
i(near)
,near∈
{1,2
…
k}；从获得的k个样本中选择一个样本x
i
, 针对每个维度的特征(数值属性、序列属性和类别属性)进行遍历，如果该维度的特征为数值特征则生成一个0到1之间的随机数λ1,然后合成新样本在该维度的特征x
im
＝x
i
λ1*(x
in
‑
x
i
)；如果该维度的特征为序列属性，和数值属性类似，进行插值生成，但结果取整数；若该维度特征为类别属性，则保持不变，具体步骤如图6所示。重复上述步骤，直到生成n个新的样本，同时将样本整合进原有的数据中，构成待检测数据。
47.入侵检测模块140，用于将所述待检测数据输入预先训练好的入侵检测模型中进行检测，以判断安全性。
48.如图7所示，所述系统还包括如下模块：
49.模型训练模块150，用于预先对入侵检测模型进行训练，得到训练好的入侵检测模型，所述入侵检测模型的训练采用focal loss损失函数。
50.完成数据上采样步骤后，使用改进的focal loss损失函数对入侵检测模型进行损失函数设计包括：使用改进的损失函数，focal loss函数替换原有的损失函数，其中，focal loss函数表现为：fl
(pt)
＝
‑
α(1
‑
p
t
)
γ
log(p
t
),γ为调制系数，α为平衡因子，可以通过α改变样本类的重要性，通过γ影响易分类难分类样本的损失贡献。p
t
是经过相关激活函数(如sigmoid)的预测输出(数值在0
‑
1之间)。
51.通过α改变样本类的重要性，通过γ影响易分类难分类样本的损失贡献包括：当一个样本分类错误，此时p
t
很小，调制系数接近于1，这样就和原来的loss 相近。p
t
趋近于1时(即分类正确且为易分类样本)，调制系数趋于0，那么 loss趋于0，此时影响就很小；当γ＝0时，focal loss为传统交叉熵函数，其增大调制系数也随之增大。通过多组对比实验，并进行控制变量的比较，调整调制系数和平衡因子的大小，本示例中α为0.3，γ为2，采用一致的tcn
‑
ids 模型的最终对比结果如图8所示，其中p、r、f1、acc均为机器学习的评价指标，不做赘述。可见，采用所述的改进smote采样和focal loss函数的改进的策略，能够有效的改进入侵检测系统的表现，改善其对不平衡数据的检测能力。
52.本实施例提供的针对非平衡数据的入侵检测系统，通过使用smote采样算法和focal loss损失函数，可以分别在数据层面上对不平衡的少数数据进行线性插值的生成，完成上采样，进而解决数据的不平衡分布。同时，通过对调制系数和平衡因子的设置，可以在算法层面上进一步对不平衡数据在模型的影响进行改善。在如今复杂的网络安全环境下，将极大的改善入侵检测系统对不平衡数据的检测能力，保障系统的安全性。
53.实施例二
54.如图9所示，本发明实施例二提供了一种针对非平衡数据的入侵检测方法，包括以下步骤：
55.步骤s101：获取数据样本；
56.步骤s102：对所述数据样本进行分类处理，得到少数类样本集和多数类样本集；
57.步骤s103：使用预设采样算法对所述少数类样本集进行上采样，将上采样得到的新数据样本加入所述数据样本中，构成待检测数据；
58.步骤s104：将所述待检测数据输入预先训练好的入侵检测模型中进行检测，以判断安全性。
59.优选的，所述方法还包括以下步骤：
60.预先对入侵检测模型进行训练，得到训练好的入侵检测模型，所述入侵检测模型的训练采用focal loss损失函数。
61.需要说明的是：
62.在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
63.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的系统、结构和技术，以便不模糊对本说明书的理解。
64.类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一根或多根，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的系统解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
65.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一根或多根设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个单元或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何系统或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
66.此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
67.本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的系统的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
68.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本
领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或模块。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
69.以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种隧道围岩快速分级方法和系统与流程

针对非平衡数据的入侵检测系统的制作方法

相关文献

最热文献