基于D-N的工业互联网入侵检测数据集处理方法与流程

2022-02-20 13:40:05 来源：中国专利 TAG：

基于d-n的工业互联网入侵检测数据集处理方法
技术领域
1.本发明涉及数据集的处理、数据清洗、离散-归一化数学方法(d-n算法)、集成学习类算法的分类及其应用领域，尤其是用于实现工业互联网入侵检测的集成学习类算法中基于cart-amv算法的kdd99数据集的处理中。

背景技术：

2.集成学习类算法的出现，改进了机器学习中复杂繁琐的单一算法流程，通过构建大量算法简单、种类多样的个体学习器，可以有效地降低机器学习的算法复杂度和代价开销，这是集成学习类算法的优点。其缺陷是在对个体学习器的训练中，强依赖于使用的训练数据集。训练数据集数据结构的好坏直接影响了训练后个体学习器泛化性能的优劣。在工业互联网的入侵检测的集成学习类算法解决分类问题的应用背景下，已经有了诸如kdd99、kdd-nsd、unsw-nb15等大型数据集，其数据量庞大、数据真实、入侵攻击类型覆盖全面。但是存在着数据大量冗余、数据类型不统一、部分数据标签不能被个体学习器识别的缺陷。

技术实现要素：

3.本发明是为了解决集成学习算法对数据集数据结构的高要求，以及工业互联网入侵检测数据集缺失的问题而提出的，基于d-n的工业互联网入侵检测数据集处理算法通过数据清洗、数据离散化、数据归一化三个步骤实现对数据集的数据分析与整理。本发明可以应用于各种类型和规模的数据集。
4.实现本发明目的的具体技术方案是：
5.首先，通过构建数据清洗池，对某些数据标签取特定值的数据项进行处理，如改写或剔除，降低数据的冗余度，以提高训练后集成学习类算法模型的泛化性能；其次，通过对非数值型数据标签的编码转换、算数平均值计算、平均绝对偏差计算三个步骤，将非数值型数据标签转换为离散的数值型标签，以提高数据集中数据标签的可用量；最后，通过对离散化处理后的非数值型数据标签、连续数值型数据标签进行归一化处理，进一步降低了不同数据标签中心值的数量级差异，以提高训练后集成学习算法模型的分类精度。
附图说明
6.通过参考以下结合附图的说明及权利要求书的内容，并且随着本发明专利的更全面理解，本发明专利的其它目的及结果将更加明白及易于理解。在附图中：
7.图1为基于d-n的工业互联网入侵检测数据集处理算法的算法流程图；
8.图2为使用基于d-n的工业互联网入侵检测数据集处理算法对kdd99系列数据集中kddcup.data_10_percent.gz数据集处理后，使用集成学习中的cart-amv算法进行训练后数据标签自重要性系数的统计图；
9.图3为图2中数据标签自重要性系数大于0.6的数据标签中，经基于d-n的工业互联网入侵检测数据集处理算法处理过的数据标签的分布图。
具体实施方式
10.(1)输入需要处理的数据集d，遍历数据集d的全部数据标签l1、l2、
…
ln。
11.(2)根据对数据集d数据标签的遍历结果，建立表头与数据集d数据标签顺序、名称完全一致的空表e，即数据清洗池。
12.(3)在数据清洗池e的每个数据标签l1、l2、
…
ln下分别输入需要处理的数据标签的取值v
11
、v
12
、
…
、v
1m
；v
21
、v
22
、
…
、v
2m
；
…
；v
n1
、v
n2
、
…
、v
nm
，以及每项的处理方式m，更新数据清洗池为ef。
13.(4)以先逐行再逐列的顺序遍历数据集d，对比数据清洗池ef，对需要处理的数据标签以处理方式m进行处理，得到遍历处理后的数据集df。
14.(5)以先逐列再逐行的顺序遍历数据集d1，若数据标签的数据类型为数值型，则跳过该步骤；若数据标签的数据类型为非数值型，统计该数据标签的取值类型数量m，对该数据标签的m个取值类型进行简单编码：1、2、
…
、m，得到数值化的数据标签取值x1、x2、
…
、xn。
15.(6)根据步骤(5)中得到的数值化的数据标签取值x1、x2、
…
、xn，计算每个进行数值化处理数据标签的数值化取值的算数平均值avg，其中
16.(7)根据步骤(5)中得到的数值化的数据标签取值x1、x2、
…
、xn及步骤(6)中得到的算数平均值avg，计算每个进行数值化处理数据标签的数值化取值的平均绝对偏差stad，其中
17.(8)根据步骤(5)、(6)、(7)中分别得到的xn、avg、stad，计算步骤(5)-(7)处理后最终的数值离散化后的数据标签取值x
′n，其中注意若avg＝0或stad＝0，离散化后的x
′n＝0，得到遍历处理后的数据集dd。
18.(9)遍历每个数据标签的取值，得到离散化后的数据标签取值最大值x
max
和数据标签取值最小值x
min
。
19.(10)根据步骤(9)中得到的x
max
、x
min
，计算数值归一化后的数据标签取值x
″n，其中
20.(11)在对数据集df所有列的数据完成步骤(5)-(10)的处理后，将所有处理后的数据按照数据集d的数据格式存储到新的数据集dn中。
21.(12)将步骤(1)-(11)描述的工业互联网入侵检测数据集处理算法应用于工业互联网入侵检测数据集的处理中，并通过在集成学习类工业互联网入侵检测算法上的实验，进一步验证了本发明的可用性。

技术特征：
1.基于d-n的工业互联网入侵检测数据集处理方法，其特征在于：基于d-n的工业互联网入侵检测数据集处理算法可以有效地分析工业互联网入侵检测数据集的数据类型，对工业互联网入侵检测数据集中的数据进行数据清洗，进行离散化和归一化处理。2.根据权利要求1所述的基于d-n的工业互联网入侵检测数据集处理方法，其特征在于：首先，通过构建数据清洗池，对某些数据标签取特定值的数据项进行处理，如改写或剔除，降低数据的冗余度，以提高训练后集成学习类算法模型的泛化性能；其次，通过对非数值型数据标签的编码转换、算数平均值计算、平均绝对偏差计算三个步骤，将非数值型数据标签转换为离散的数值型标签，以提高数据集中数据标签的可用量；最后，通过对离散化处理后的非数值型数据标签、连续数值型数据标签进行归一化处理，进一步降低了不同数据标签中心值的数量级差异，以提高训练后集成学习算法模型的分类精度。3.根据权利要求2所述的基于d-n的工业互联网入侵检测数据集处理方法，其特征在于：(1)输入需要处理的数据集d，遍历数据集d的全部数据标签l1、l2、
…
l
n
；(2)根据对数据集d数据标签的遍历结果，建立表头与数据集d数据标签顺序、名称完全一致的空表e，即数据清洗池；(3)在数据清洗池e的每个数据标签l1、l2、
…
l
n
下分别输入需要处理的数据标签的取值v
11
、v
12
、
…
、v
1m
；v
21
、v
22
、
…
、v
2m
；
…
；v
n1
、v
n2
、
…
、v
nm
，以及每项的处理方式m，更新数据清洗池为e
f
；(4)以先逐行再逐列的顺序遍历数据集d，对比数据清洗池e
f
，对需要处理的数据标签以处理方式m进行处理，得到遍历处理后的数据集d
f
；(5)以先逐列再逐行的顺序遍历数据集d1，若数据标签的数据类型为数值型，则跳过该步骤；若数据标签的数据类型为非数值型，统计该数据标签的取值类型数量m，对该数据标签的m个取值类型进行简单编码：1、2、
…
、m，得到数值化的数据标签取值x1、x2、
…
、x
n
；(6)根据步骤(5)中得到的数值化的数据标签取值x1、x2、
…
、x
n
，计算每个进行数值化处理数据标签的数值化取值的算数平均值avg，其中(7)根据步骤(5)中得到的数值化的数据标签取值x1、x2、
…
、x
n
及步骤(6)中得到的算数平均值avg，计算每个进行数值化处理数据标签的数值化取值的平均绝对偏差stad，其中(8)根据步骤(5)、(6)、(7)中分别得到的x
n
、avg、stad，计算步骤(5)-(7)处理后最终的数值离散化后的数据标签取值x
′
n
，其中注意若avg＝0或stad＝0，离散化后的x
′
n
＝0，得到遍历处理后的数据集d
d
；(9)遍历每个数据标签的取值，得到离散化后的数据标签取值最大值x
max
和数据标签取值最小值x
min
；(10)根据步骤(9)中得到的x
max
、x
min
，计算数值归一化后的数据标签取值x
″
n
，其中(11)在对数据集d
f
所有列的数据完成步骤(5)-(10)的处理后，将所有处理后的数据按照数据集d的数据格式存储到新的数据集d
n
中。

技术总结
本发明公开了一种基于D-N的工业互联网入侵检测数据集处理方法，该算法改进了现有集成学习类算法解决工业互联网入侵检测问题时，数据集中的冗余数据项导致训练出的集成学习模型泛化性能差、数据集中某些类型的数据标签不能被集成学习的个体学习器识别、数据集中某些类型的数据标签被集成学习的个体学习器错误识别导致训练出的集成学习模型检测精度低的上述问题，为使用集成学习类算法解决工业互联网入侵检测问题时，训练数据集、验证数据集的处理提供了新的方法。处理提供了新的方法。处理提供了新的方法。

技术研发人员：刘明山石伟诚周原韦晓宇
受保护的技术使用者：吉林大学
技术研发日：2021.10.15
技术公布日：2022/1/14

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种电商跨境物流订单拆分方法及系统及设备及存储介质与流程

基于D-N的工业互联网入侵检测数据集处理方法与流程

相关文献

最热文献