一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

入侵检测模型的构建方法及装置与流程

2022-08-10 16:18:42 来源:中国专利 TAG:


1.本发明涉及网络安全技术领域,特别是涉及一种入侵检测模型的构建方法及装置。


背景技术:

2.随着信息技术的发展,网上生活越来越普及,互联网用户和互联网业务在不断快速增长,网络数据流量激增,与此同时,网络安全问题也越来越受到全社会的关注。网络入侵是互联网黑客通过网络对电脑进行远程操控或者破坏,严重威胁网络安全。而网络入侵技术随着信息技术的发展也在不断地提高,入侵的多样性和隐蔽性不断增强,入侵场景越来越复杂,使得网络入侵检测变得越来越困难。
3.网络入侵检测是通过对网络入侵数据进行分类识别,以及时有效地处理网络安全问题。网络入侵数据往往数量大、种类多、碎片化,现有技术中,主要是通过简单集成各个分类器得到入侵检测模型,以实现对入侵数据的检测分类,并没有深入研究分类器的选取,因而容易导致模型的过拟合和计算资源的浪费,使得检测效率下降。


技术实现要素:

4.有鉴于此,本发明提供一种入侵检测模型的构建方法,通过该方法,可以构建出一个具有较好泛化能力的入侵检测模型,避免过拟合,提高入侵检测效率。
5.本发明还提供了一种入侵检测模型的构建装置,用以保证上述方法在实际中的实现及应用。
6.一种入侵检测模型的构建方法,包括:
7.获取各个分类器,并获取各个测试数据组成的测试数据集以及所述测试数据集对应的验证数据集;
8.将所述测试数据集中的各个测试数据分别输入到每个所述分类器中,获得每个所述分类器输出的测试结果,并通过验证数据集对每个所述测试结果进行验证,得到每个所述分类器对应的混淆矩阵;
9.基于每个所述分类器对应的混淆矩阵,计算得到该分类器的f1值、接受者操作特征曲线下方的面积auc值和熵值;
10.基于各个所述分类器的f1值、auc值和熵值,对各个所述分类器进行层次聚类,得到多个类簇;
11.确定每个所述类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;
12.确定各个所述个体学习器的组合权重,并根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型。
13.上述的方法,可选的,所述获取各个分类器,包括:
14.获取需要进行集成的各个初始分类器,并获取各个训练数据组成的训练数据集;
15.基于所述训练数据集,对各个所述初始分类器进行迭代训练,直至训练后的各个
所述初始分类器满足预设的停止迭代条件,得到各个所述分类器。
16.上述的方法,可选的,所述基于每个所述分类器对应的混淆矩阵,计算该分类器的熵值,包括:
17.根据所述验证数据集,确定所述测试数据集中包含的各个样本类别;
18.根据所述分类器对应的混淆矩阵,确定所述测试数据集中各个测试数据划分至各个样本类别中的数据个数;
19.根据划分至各个所述样本类别中的数据个数,确定各个所述样本类别的熵值,并确定所述分类器的熵值为各个所述样本类别的熵值的平均值。
20.上述的方法,可选的,所述确定各个所述个体学习器的组合权重,包括:
21.根据每个所述个体学习器的f1值和auc值,确定每个所述个体学习器的分类性能数值,所述分类性能数值为f1值和auc值的调和平均值;
22.根据每个所述个体学习器的熵值和预设的最大熵值,确定每个所述个体学习器的适用性数值;
23.基于每个所述个体学习器的分类性能数值和适用性数值,运用预先设置的组合权重计算公式计算得到该个体学习器的组合权重。
24.上述的方法,可选的,所述根据每个所述个体学习器的熵值和预设的最大熵值,确定每个所述个体学习器的适用性数值,包括:
25.确定每个所述个体学习器的熵值与所述最大熵值的比值为该个体学习器的熵值等级;
26.根据每个所述个体学习器的熵值等级,确定该个体学习器的适用性数值,所述适用性数值为数值1减去熵值等级。
27.上述的方法,可选的,所述根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型,包括:
28.以各个所述个体学习器中组合权重最小的个体学习器为基准,确定各个所述个体学习器的权重等级;
29.根据各个所述个体学习器的权重等级,运用所述加权投票法集成各个所述个体学习器,得到入侵检测模型。
30.一种入侵检测模型的构建装置,包括:
31.获取单元,用于获取各个分类器,并获取各个测试数据组成的测试数据集以及所述测试数据集对应的验证数据集;
32.测试单元,用于将所述测试数据集中的各个测试数据分别输入到每个所述分类器中,获得每个所述分类器输出的测试结果,并通过验证数据集对每个所述测试结果进行验证,得到每个所述分类器对应的混淆矩阵;
33.计算单元,用于基于每个所述分类器对应的混淆矩阵,计算得到该分类器的f1值、接受者操作特征曲线下方的面积auc值和熵值;
34.聚类单元,用于基于各个所述分类器的f1值、auc值和熵值,对各个所述分类器进行层次聚类,得到多个类簇;
35.确定单元,用于确定每个所述类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;
36.集成单元,用于确定各个所述个体学习器的组合权重,并根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型。
37.上述的装置,可选的,所述获取单元,包括:
38.获取子单元,用于获取需要进行集成的各个初始分类器,并获取各个训练数据组成的训练数据集;
39.训练子单元,用于基于所述训练数据集,对各个所述初始分类器进行迭代训练,直至训练后的各个所述初始分类器满足预设的停止迭代条件,得到各个所述分类器。
40.上述的装置,可选的,所述计算单元,包括:
41.第一确定子单元,用于根据所述验证数据集,确定所述测试数据集中包含的各个样本类别;
42.第二确定子单元,用于根据所述分类器对应的混淆矩阵,确定所述测试数据集中各个测试数据划分至各个样本类别中的数据个数;
43.第三确定子单元,用于根据划分至各个所述样本类别中的数据个数,确定各个所述样本类别的熵值,并确定所述分类器的熵值为各个所述样本类别的熵值的平均值。
44.上述的装置,可选的,所述集成单元,包括:
45.第四确定子单元,用于根据每个所述个体学习器的f1值和auc值,确定每个所述个体学习器的分类性能数值,所述分类性能数值为f1值和auc值的调和平均值;
46.第五确定子单元,用于根据每个所述个体学习器的熵值和预设的最大熵值,确定每个所述个体学习器的适用性数值;
47.计算子单元,用于基于每个所述个体学习器的分类性能数值和适用性数值,运用预先设置的组合权重计算公式计算得到该个体学习器的组合权重。
48.一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的入侵检测模型的构建方法。
49.一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的入侵检测模型的构建方法。
50.与现有技术相比,本发明包括以下优点:
51.基于本发明提供的方法,入侵检测模型的构建过程包括:获取各个分类器,并获取各个测试数据组成的测试数据集以及测试数据集对应的验证数据集;将测试数据集中的各个测试数据分别输入到每个分类器中,获得每个分类器输出的测试结果,并通过验证数据集对每个测试结果进行验证,得到每个分类器对应的混淆矩阵;根据每个分类器对应的混淆矩阵,计算得到每个分类器的f1值、auc值和熵值,并基于各个分类器的f1值、auc值和熵值,对各个分类器进行层次聚类,得到多个类簇;确定每个类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;确定各个个体学习器的组合权重,并根据各个个体学习器的组合权重,通过加权投票法集成各个个体学习器,得到入侵检测模型。
52.应用本发明提供的方法,能够构建出一个具有较高检测效率的入侵检测模型,在进行个体学习器的动态选择时,对各个分类器进行层次聚类,并在每个聚类得到的类簇中选出一个个体学习器,再将选取出的各个异质性高、分类性能好的个体学习器进行集成,使得集成后得到的模型能够有较好的泛化能力,避免过拟合,并且可以有效减少用于集成入
侵检测模型的个体学习器的个数,以提高计算的速度,降低计算所需的资源,加快入侵检测速度。
附图说明
53.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
54.图1为本发明实施例提供的一种入侵检测模型的构建方法的方法流程图;
55.图2为本发明实施例提供的一种入侵检测模型的构建方法的又一方法流程图;
56.图3为本发明实施例提供的一种入侵检测模型的构建方法的再一方法流程图;
57.图4为本发明实施例提供的一种入侵检测模型的构建装置的装置结构图;
58.图5为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
59.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
60.在本技术中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
61.本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
62.本发明实施例提供了一种入侵检测模型的构建方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
63.s101:获取各个分类器,并获取各个测试数据组成的测试数据集以及所述测试数据集对应的验证数据集。
64.本发明提供的实施例中,针对网络入侵检测数据具有数量大、种类多、碎片化的特点,网络入侵测试数据集往往使用多个分类器进行分类,并运用大数据研究中的集成算法,将多个分类器集成得到入侵数据检测模型,能够提高入侵检测的精度。因此,构建入侵检测模型,需要获取各个用于集成的分类器,并获取有助于各个分类器进行集成的各个测试数据,各个测试数据组成测试数据集,同时获取到各个测试数据对应的验证数据,各个验证数
据组成验证数据集。
65.s102:将所述测试数据集中的各个测试数据分别输入到每个所述分类器中,获得每个所述分类器输出的测试结果,并通过验证数据集对每个所述测试结果进行验证,得到每个所述分类器对应的混淆矩阵。
66.本发明提供的实施例中,测试数据集使用各个分类器进行分类,并结合各个测试数据对应的验证数据,得到每个分类器对应的混淆矩阵。
67.混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示,其中每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。
68.假设测试数据集中a、b、c三类样本都有100个,使用某个分类器分类,结合验证数据集,得到该分类器对应的混淆矩阵如表1所示,该分类器将80个a样本正确分类为a类,15个a样本错误分为b类,5个a样本错误分为c类;将70个b样本正确分类为b类,15个b样本错误分为a类,15个b样本错误分为c类;将90个c样本正确分类为c类,10个c样本错误分为b类,0个c样本错误分为a类。
[0069][0070]
表1
[0071]
s103:基于每个所述分类器对应的混淆矩阵,计算得到该分类器的f1值、接受者操作特征曲线下方的面积auc值和熵值。
[0072]
本发明提供的实施例中,f1分值是对分类精确率(precision)和召回率(recall)的综合考虑,如下公式(1)所示:
[0073][0074]
精确率表示分类器预测为正类的样本数据中,真正的正类占多少,召回率表示真正的正类样本数据中,分类器能预测出来多少。
[0075]
本发明实施例中,数据大体上分为两类,正常数据和入侵数据。本发明的目的是识别出入侵数据,因此可以约定入侵数据为正类,正常数据为负类。
[0076]
基于分类器对应的混淆矩阵,计算得到该分类器的auc值(area undercurve,roc曲线下方面积),其中,roc曲线全称为受试者工作特征曲线(receiver operating characteristic curve),roc曲线横坐标为fpr(false positiverate,假正类率),纵坐标为tpr(true positive rate,真正类率)。具体的,基于混淆矩阵中的信息,并根据公式:fpr=被错分为正样本的负样本个数/全部负样本个数,tpr=分为正样本的正样本个数/所有正样本个数,计算得到该分类器对应的auc值。auc的值通常介于0.5到1.0之间,较大的auc代表了较好的分类性能。
[0077]
根据分类器对应的混淆矩阵,还可以计算得到该分类器的熵值,具体包括:
[0078]
根据所述验证数据集,确定所述测试数据集中包含的各个样本类别;
[0079]
根据所述分类器对应的混淆矩阵,确定所述测试数据集中各个测试数据划分至各个样本类别中的数据个数;
[0080]
根据划分至各个所述样本类别中的数据个数,确定各个所述样本类别的熵值,并确定所述分类器的熵值为各个所述样本类别的熵值的平均值。
[0081]
本发明提供的实施例中,计算该分类器的混淆矩阵中每个样本类别的熵,每个样本类别的熵值与该分类器将该样本类别的各个数据划分至各个样本类别中数据个数有关,并取各个样本类别的熵值的平均值即可得到该分类器的熵,分类器的熵代表分类器预测的稳定程度。
[0082]
例如,通过验证数据集对某个分类器的输出结果进行验证,得到混淆矩阵如表1所示,测试数据集中的样本类别有a、b和c三种,该分类器将80个a样本正确分类为a类,15个a样本错误分为b类,5个a样本错误分为c类。即p(a)=0.8,p(b)=0.15,p(c)=0.05,根据熵的计算公式得到a类样本的熵值,具体计算a类样本的熵值的公式如公式(2)所示。
[0083]
h(a)=-(p(a)*logp(a) p(b)*logp(b) p(c)*logp(c),
ꢀꢀꢀ
(2)。
[0084]
同理计算得到b类样本的熵值h(b)和c类样本的熵值h(c),所以,该分类器的熵值为h(分类器)=1/3*(h(a) h(b) h(c))。
[0085]
应用本发明提供的实施例,通过计算分类器对应的分类结果中各个样本类别的熵值,并将各个样本类别的熵值的平均值作为分类器的熵值,能够更好地兼顾分类器对各个样本类别数据进行分类的稳定性,更好地反映出分类器的适应性。
[0086]
s104:基于各个所述分类器的f1值、auc值和熵值,对各个所述分类器进行层次聚类,得到多个类簇。
[0087]
本发明提供的实施例中,通过每个分类器对应的混淆矩阵计算每个分类器的f1值、auc值、熵值三个指标,并基于各个分类器的上述三个指标,对各个分类器进行层次聚类,可以将多个分类器聚成多个类簇,类簇中的分类器相似,类簇与类簇间的各个分类器异质性明显。
[0088]
s105:确定每个所述类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器。
[0089]
本发明提供的实施例中,从每一个类簇的各个分类器中选出一个f1值与auc值调和平均数值最高的分类器,即分类性能最好的分类器作为个体学习器,各个类簇中选择出的多个个体学习器既保证了异质性,又保证分类效果。
[0090]
s106:确定各个所述个体学习器的组合权重,并根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型。
[0091]
本发明提供的实施例中,对选择出来的个体学习器根据其对应的组合权重进行集成,得到入侵检测模型。投票法是分类器结果最简单、最直接的集成。组合权重投票算法是一种加权投票法,可以更好的展示异构高性能分类器的优势。本发明还可以采用其他集成方法,具体依情况而定,此处不做具体限定。
[0092]
本发明提供的实施例,在进行入侵检测模型的构建的过程中,获取各个分类器,并获取各个测试数据组成的测试数据集以及测试数据集对应的验证数据集;将测试数据集中的各个测试数据分别输入到每个分类器中,获得每个分类器输出的测试结果,并通过验证
数据集对每个测试结果进行验证,得到每个分类器对应的混淆矩阵;根据每个分类器对应的混淆矩阵,计算得到每个分类器的f1值、auc值和熵值,并基于各个分类器的f1值、auc值和熵值,对各个分类器进行层次聚类,得到多个类簇;确定每个类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;确定各个个体学习器的组合权重,并根据各个个体学习器的组合权重,运用预设的加权投票法集成各个个体学习器,得到入侵检测模型。
[0093]
应用本发明提供的实施例,对入侵检测中使用到的集成算法进行深层次的剖析,深入到个体学习器层次,在个体学习器的动态选择时,不是简单的将检测准确度最高的几个分类器作为个体学习器,而是对分类器进行层次聚类,再在每个聚类得到的类簇中选出一个综合评分最高的作为个体学习器。将选取出的异质性高、分类性能好的个体学习器进行集成,使得集成后得到的模型能够有较好的泛化能力,避免过拟合,并且可以有效减少用于集成入侵检测模型的个体学习器的个数,以提高计算的速度,降低计算所需的资源,加快入侵检测速度。
[0094]
本发明提供的实施例中,可选的,所述获取各个分类器,包括:
[0095]
获取需要进行集成的各个初始分类器,并获取各个训练数据组成的训练数据集;
[0096]
基于所述训练数据集,对各个所述初始分类器进行迭代训练,直至训练后的各个所述初始分类器满足预设的停止迭代条件,得到各个所述分类器。
[0097]
具体的,对于用于集成入侵检测模型的各个初始分类器,先通过训练数据集对每个初始分类器进行训练,具体训练过程为:
[0098]
将任一初始分类器作为待训练分类器,选取训练数据集中的任一训练数据输入到待训练分类器中,得到已训分类器和该训练数据对应的输出结果,根据该训练数据对应的标准结果与该输出结果的之间的损失值,调整已训分类器的参数,得到已调整分类器,再将已调整分类器重新作为待训练分类器,选取训练数据集中的其他训练数据对该待训练分类器进行迭代训练,直至得到的已训分类器的输出结果与训练数据对应的标准结果的损失值在某个预设的阈值内,或训练数据集中的每个数据均已作为训练数据对该初始模型进行训练,则结束训练过程,得到已训练完成的分类模型。
[0099]
每个初始分类器均通过训练数据集进行训练,得到每个初始分类器对应的分类器。
[0100]
应用本发明实施例,通过对各个初始分类器进行训练,得到训练后的多个分类器,后续从多个分类器中选出更具异质性和分类效果的个体学习器,能够保证后续选取的个体学习器集成的入侵检测模型在进行检测过程中具有较高的检测效率和检测结果。
[0101]
在集成入侵检测模型的过程中,个体学习器的性能和不同个体学习器之间的差异是影响集成模型的重要因素,因此,在集成模型的过程中,要综合考虑个体学习器的性能和差异,本发明提供的实施例中通过设置组合权重实现考虑到个体学习器的分类性能和适用性,以提高入侵数据分类效率,如图2所示,可选的,所述确定各个所述个体学习器的组合权重,包括:
[0102]
s201:根据每个所述个体学习器的f1值和auc值,确定每个所述个体学习器的分类性能数值,所述分类性能数值为f1值和auc值的调和平均值。
[0103]
在进行入侵检测模型的构建过程中,在优化f1分值时希望同时优化精准率和召回率,优化auc时希望提高真正率trp,降低假正率fpr,即提升召回率,降低假正率。上述两个
优化过程都希望提升召回率,但auc指标倾向于训练出一个尽量不误报的入侵检测模型,较为保守,f1指标倾向于训练出一个不放过任何可能的入侵检测模型,较为激进。在使用f1和auc作为分类器分类性能指标时,使用二者的调和平均数作为分类器性能评价指标,可以在误报和漏报之间做平衡。具体的调和平均值如下所述:
[0104]
c为f1和auc的调和平均,即c=2*f1*auc/(f1 auc)。
[0105]
s202:根据每个所述个体学习器的熵值和预设的最大熵值,确定每个所述个体学习器的适用性数值。
[0106]
本发明提供的实施例中,分类器在对一个测试数据做类别预测时,会给出该测试数据可能的样本类别及概率,并最终取概率最高的类别作为预测类别。即使两个分类器分类结果相同,其熵也会有很大差别。如使用相同训练数据集训练两个分类器c1、c2,使用c1、c2对样本a进行类别预测,预测的结果如表2:
[0107][0108]
表2
[0109]
虽然分类器c1、c2都将样本a正确分类,但明显分类器c1更适合用来对此类分布的数据进行分类,其分类结果更稳定。通过计算验证集中每个样本的熵值并求平均,即可得到该分类器的熵值。分类器的熵值越小,说明分类器对这种类型待分类数据的适用性越好。
[0110]
由s105可知,本发明中所述的个体学习器为多个分类器组成的类簇中分类性能最好的分类器,因此,以各个个体学习器的熵值为基准,结合预先求得的最大熵值得出的各个个体学习器的适用性数值,可以更好地统一刻画出各个个体学习器的适应性情况。
[0111]
具体的,所述根据每个所述个体学习器的熵值和预设的最大熵值,确定每个所述个体学习器的适用性数值,包括:
[0112]
确定每个所述个体学习器的熵值与所述最大熵值的比值为该个体学习器的熵值等级;
[0113]
根据每个所述个体学习器的熵值等级,确定该个体学习器的适用性数值,所述适用性数值为数值1减去熵值等级。
[0114]
以最大熵值为基数,个体学习器的熵值与最大熵值的比值作为个体学习器的熵值等级。其中,对于有k种样本类别的测试数据集,最大熵值如公式(3)所示:
[0115][0116]
熵值与适用性成负相关,熵值越小,适用性越大,本发明为了便于理解,将(1-熵值等级)作为个体学习器最终的熵值,此最终熵值范围为0~1,并且此值越大,模型适用性越高。
[0117]
s203:基于每个所述个体学习器的分类性能数值和适用性数值,运用预先设置的组合权重计算公式计算得到该个体学习器的组合权重。
[0118]
分类器的组合权重计算公式如下公式(4)所示,ω为组合权重,c为分类性能数值,α为分类性能分配系数,m为适用性数值,β为适用性分配系数。α、β这两个参数需要用户预先
确定。对于一个分类器,其分类性能比该分类器对待分类数据的适用性更重要,只有在保证分类性能的前提下,再选择适用性更强的分类器,因此α》β。
[0119]
ω=αc βm,
ꢀꢀꢀ
(4)。
[0120]
由s105可知,本发明中所述的个体学习器即为分类器,因此,将个体学习器的分类性能数值和适用性数值代入式3可以得到个体学习器的组合权重。
[0121]
应用本发明提供的实施例,通过个体学习器的f1值、auc值和熵值计算个体学习器的分类性能数值和适用性数值,以计算个体学习器的组合权重,并基于各个个体学习器的组合权重集成入侵检测模型,综合考虑了个体学习器的分类性能和适用性,使得入侵检测模型能够具有较高的检测准确度和检测效率。
[0122]
本发明提供的实施例,可选的,所述根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型,包括:
[0123]
以各个所述个体学习器中组合权重最小的个体学习器为基准,确定各个所述个体学习器的权重等级;
[0124]
根据各个所述个体学习器的权重等级,运用所述加权投票法集成各个所述个体学习器,得到入侵检测模型。
[0125]
具体的,确定每个个体学习器的组合权重后,选取其中组合权重最小的个体学习器作为基准,且确定该作为基准个体学习器的权重等级为1,剩余的个体学习器的权重等级按照基准组合权重的比值进行计算,具体可以理解为其他个体学习器的组合权重与组合权重最小的个体学习器的组合权重的比值是一个大于1的值,此值四舍五入得到的值就是对应个体学习器的最终权重等级。最后,根据各个个体学习器的权重等级,集成各个个体学习器得到入侵检测模型。
[0126]
入侵检测模型检测某一入侵流量数据的具体检测过程可以理解为:入侵流量数据经由各个个体学习器进行分类,根据每个个体学习器对该入侵数据的分类结果,即个体学习器对该入侵流量数据在各个样本类别的预测概率与该个体学习器的权重等级相乘,得到该个体学习器对该入侵数据的加权预测概率,整合各个个体学习器对该入侵流量数据的加权预测概率,得到最终的入侵检测结果。
[0127]
应用本发明实施例提供的方法,根据个体学习器的权重等级将多个个体学习器集成入侵检测模型,能更好体现出各个个体学习器在入侵检测模型中的比重,通过个体学习器对入侵数据的预测概率与权重等级相乘得到加权预测概率,整合各个加权预测概率,得到入侵检测结果,可以节省计算时间,加快检测速度。
[0128]
如图3所示的一种入侵检测模型的构建方法,在基分类器选择模块中,先运用训练数据对各个分类器进行训练,得到训练好的各个分类模型,此处为便于区分,可以理解为运用训练数据对各个初始分类器进行训练,得到训练好的各个分类器,并通过输入测试数据至各个分类模型中,计算各个分类模型的f1值、auc值和熵值,根据各个分类模型的f1值、auc值和熵值,对各个分类模型进行层次聚类,得到各个类簇;从每个类簇中选出f1值和auc值调和平均值最高的分类模型为基分类器。由组合权重计算模块根据各个基分类器的f1值、auc值和熵值,计算各个基分类器的组合权重,其中,各个基分类器的熵值反映出各个基分类器的适用性,各个基分类器的f1值和auc值的调和平均值反映出各个基分类器的分类性能;最后由入侵检测模型动态生成模块根据各个基分类器的组合权重,将各个基分类器
集成入侵检测模型。
[0129]
本发明将待测流量数据和分类器特性深度结合,从分类器对检测数据的检测准确度和分类器对检测数据的适应性两方面来选择集成学习算法底层的个体学习器,并确定个体学习器的组合权重。通过该方法集成得到的入侵检测模型能深度拟合待测流量数据,在具体领域中,具有更好的检测效率。
[0130]
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
[0131]
与图1所述的方法相对应,本发明实施例还提供了一种入侵检测模型的构建装置,用于对图1中方法的具体实现,本发明实施例提供的入侵检测模型的构建装置可以应用计算机终端或各种移动设备中,其结构示意图如图4所示,具体包括:
[0132]
获取单元401,用于获取各个分类器,并获取各个测试数据组成的测试数据集以及所述测试数据集对应的验证数据集;
[0133]
测试单元402,用于将所述测试数据集中的各个测试数据分别输入到每个所述分类器中,获得每个所述分类器输出的测试结果,并通过验证数据集对每个所述测试结果进行验证,得到每个所述分类器对应的混淆矩阵;
[0134]
计算单元403,用于基于每个所述分类器对应的混淆矩阵,计算得到该分类器的f1值、接受者操作特征曲线下方的面积auc值和熵值;
[0135]
聚类单元404,用于基于各个所述分类器的f1值、auc值和熵值,对各个所述分类器进行层次聚类,得到多个类簇;
[0136]
确定单元405,用于确定每个所述类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;
[0137]
集成单元406,用于确定各个所述个体学习器的组合权重,并根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型。
[0138]
本发明实施例提供的入侵检测模型的构建装置,通过获取单元获取各个分类器,并获取各个测试数据组成的测试数据集以及测试数据集对应的验证数据集;测试单元将测试数据集中的各个测试数据分别输入到每个分类器中,获得每个分类器输出的测试结果,并通过验证数据集对每个测试结果进行验证,得到每个分类器对应的混淆矩阵;计算单元根据每个分类器对应的混淆矩阵,计算得到每个分类器的f1值、auc值和熵值,并由聚类单元基于各个分类器的f1值、auc值和熵值,对各个分类器进行层次聚类,得到多个类簇;再由确定单元确定每个类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;最后由集成单元确定各个个体学习器的组合权重,并根据各个个体学习器的组合权重,运用加权投票法集成各个个体学习器,得到入侵检测模型。
[0139]
应用本发明实施例提供的装置,可以构建出一个具有较高检测效率的入侵检测模型,通过选取出的异质性高、分类性能好的多个个体学习器进行集成,使得集成后得到的入侵检测模型能够具有较好的泛化能力,避免过拟合,并且可以有效减少用于集成入侵检测模型的个体学习器的个数,以提高计算的速度,降低计算所需的资源,加快入侵检测速度。
[0140]
上述的入侵检测模型的构建装置,可选的,所述获取单元,包括:
[0141]
获取子单元,用于获取需要进行集成的各个初始分类器,并获取各个训练数据组成的训练数据集;
[0142]
训练子单元,用于基于所述训练数据集,对各个所述初始分类器进行迭代训练,直
至训练后的各个所述初始分类器满足预设的停止迭代条件,得到各个所述分类器。
[0143]
上述的入侵检测模型的构建装置,可选的,所述计算单元,包括:
[0144]
第一确定子单元,用于根据所述验证数据集,确定所述测试数据集中包含的各个样本类别;
[0145]
第二确定子单元,用于根据所述分类器对应的混淆矩阵,确定所述测试数据集中各个测试数据划分至各个样本类别中的数据个数;
[0146]
第三确定子单元,用于根据划分至各个所述样本类别中的数据个数,确定各个所述样本类别的熵值,并确定所述分类器的熵值为各个所述样本类别的熵值的平均值。
[0147]
上述的入侵检测模型的构建装置,可选的,所述集成单元,包括:
[0148]
第四确定子单元,用于根据每个所述个体学习器的f1值和auc值,确定每个所述个体学习器的分类性能数值,所述分类性能数值为f1值和auc值的调和平均值;
[0149]
第五确定子单元,用于根据每个所述个体学习器的熵值和预设的最大熵值,确定每个所述个体学习器的适用性数值;
[0150]
计算子单元,用于基于每个所述个体学习器的分类性能数值和适用性数值,运用预先设置的组合权重计算公式计算得到该个体学习器的组合权重。
[0151]
以上本发明实施例公开的入侵检测模型的构建装置中各个单元及子单元的具体工作过程,可参见本发明上述实施例公开的入侵检测模型的构建方法中的对应内容,这里不再进行赘述。
[0152]
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述入侵检测模型的构建方法。
[0153]
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:
[0154]
获取各个分类器,并获取各个测试数据组成的测试数据集以及所述测试数据集对应的验证数据集;
[0155]
将所述测试数据集中的各个测试数据分别输入到每个所述分类器中,获得每个所述分类器输出的测试结果,并通过验证数据集对每个所述测试结果进行验证,得到每个所述分类器对应的混淆矩阵;
[0156]
基于每个所述分类器对应的混淆矩阵,计算得到该分类器的f1值、接受者操作特征曲线下方的面积auc值和熵值;
[0157]
基于各个所述分类器的f1值、auc值和熵值,对各个所述分类器进行层次聚类,得到多个类簇;
[0158]
确定每个所述类簇中f1值与auc值的调和平均数值最高的分类器为个体学习器;
[0159]
确定各个所述个体学习器的组合权重,并根据各个所述个体学习器的组合权重,运用预设的加权投票法集成各个所述个体学习器,得到入侵检测模型。
[0160]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法
实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0161]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。
[0162]
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0163]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献