一种网络流量的马尔科夫图像表征方法与流程

2022-02-20 20:15:51 来源：中国专利 TAG：

1.本发明属于机器学习技术领域，具体涉及一种网络流量的马尔科夫图像表征方法。

背景技术：

2.随着物联网、大数据和云计算等一系列新兴技术的崛起，新型协议及新型网络流量急剧增加。在迅猛增长的网络流量中，隐藏了大量网络攻击、数据渗漏以及勒索服务等恶意行为，已成为网络安全治理的重大挑战。不同网络流量的检测、识别及分类的难度差异巨大，使得现有数据集存在严重类分布不平衡问题，导致基于深度学习的分类模型泛化能力差。如何对网络流量进行归一化的表征学习，为机器学习提供变换域特征向量，成为了目前亟需解决的问题。
3.现有技术中，对网络流量的检测的方式是，提取网络流量的不同特征放入模型中进行训练，然后将训练完成的模型用于判断新样本是否存在异常。
4.上述现有技术存在以下问题：1.现有技术只提取了网络流量的特征部分，原始流量中部分信息失真，可能会导致模型出现过拟合问题，使得准确率只在各自数据集情况下较高，而泛化能力较差；2.现有技术还采用低维空间的图像来表征高维空间的流量，然而由于流量大小不一，转换后的图像大小规格也不统一，放入神经网络进行训练前需进行一系列繁琐的预处理操作；同时，随着原始流量大小递增，对应转换后的图像占用的内存空间也逐渐递增，模型训练时的负担较大。

技术实现要素：

5.针对上述现有技术中存在的问题，本发明提出了一种网络流量的马尔科夫图像表征方法，其目的为：解决现有技术中样本训练时模型泛化能力较差以及预处理繁琐的情况。
6.为实现上述目的本发明所采用的技术方案是：提供一种网络流量的马尔科夫图像表征方法，包括：步骤1：获取原始流量数据包，并对所述原始流量数据包进行预处理；步骤2：采用统计过滤的方法，将预处理后的原始流量数据包按会话形式存储为会话文件；步骤3：以二进制格式打开并读取所述会话文件；步骤4：获取二进制会话文件，以字节为单位计算会话文件的转移概率矩阵，然后将矩阵值与像素一一映射，得到该会话文件的马尔科夫图像。
7.本发明中，通过采用变换域的思想，使得在保留原始流量所有内容的基础上，将高维流量转换成低维马尔科夫图像，实现了流量的可视化操作。转换后的马尔科夫图像大小相同，训练前无需再进行繁琐的预处理操作；同时相比于大规格流量，马尔科夫图像可以实现大流量的轻量级检测，减少了内存的消耗。
8.较优的，本发明所述原始流量数据包的文件格式包括数种离线文件格式；所述原始流量数据包的类型包括数种类型。
9.本发明中，所能转换的原始流量数据包文件格式多样，而不单单仅限于某一种流量文件格式。同时可转换的流量类型丰富，模型泛化性好。
10.较优的，本发明所述原始流量数据包的类型具体包括正常流量类型、加密流量类型和攻击流量类型；所述原始流量数据包的格式具体包括pcap格式和cap格式。
11.较优的，本发明步骤2中，采用会话形式对原始流量数据包进行切分，切分后存储原始流量数据包中的所有内容。
12.本发明中，切分后的会话文件仍然保留原始流量数据包中的所有内容，没有造成原始流量数据包的信息失真。
13.较优的，本发明步骤2中，所述会话形式为双向流，包括流的两个方向，即源ip和目的ip、源端口和目的端口是互换的。
14.较优的，本发明所述会话文件包括存储时间、源ip、目的ip、协议类型和会话长度。
15.较优的，本发明步骤2具体为：步骤2.1：对原始流量数据包进行流量统计及过滤；步骤2.2：然后将整个原始流量数据包以会话为单位进行切分；步骤2.3：将切分后的多个会话依次保存为会话文件，每一个会话对应一个会话文件。
16.本发明中，在保证原始流量数据包内容完整的基础上，以会话为单位进行切分，方便观察后续转换的马尔科夫图像的效果。
17.较优的，本发明步骤4具体为：步骤4.1：获取二进制会话文件，以字节为单位进行读取，即读取后二进制会话文件的数组中每个元素取值范围为[0,255]；步骤4.2：对于两个相邻的字节x1和字节x2,由于字节x2出现的概率只与字节x1有关，由此得到p(x2|x1)的转移概率矩阵，其公式为：；其中，p
x1,x2
为转移概率，x1和x2分别为字节流中两个相邻的字节x1和字节x2的实际值；p
x1,x2
的计算公式为：
其中表示x2紧随x1出现的频率，即x2出现在x1后一位的概率；步骤4.3:将得到的转移概率矩阵进行扩展，其中每个元素乘以255，使每个元素的值从区间[0,1]扩展到[0,255]内；步骤4.4：将扩展后的转移概率矩阵转化为图像，其中转移概率矩阵中每一位元素值即对应256*256图像中该位的像素值，将转移概率矩阵和图像一一对应得到马尔科夫图像，完成会话文件的马尔科夫图像转换。
[0018]
本发明中，考虑到流量的时序特征，采用转移概率矩阵作为转换图像的依据，而不是简单的直接将字节值作为像素值依次插入。使得转换后的马尔科夫图像大小相同，无需在训练神经网络前再进行复杂的预处理操作。并且，每个会话文件即对应转换后的一幅马尔科夫图像。同一类别的会话文件转换成的马尔科夫图像具有相似性，而不同类的会话文件转换成的马尔科夫图像则差异较大。同时，针对部分较大规格的流量，转换成马尔科夫图像后能有效减少占用存储空间大小，减少神经网络训练时的负担。
[0019]
相比现有技术，本发明的技术方案具有如下优点/有益效果：1.本发明中，所能转换的原始流量数据包文件格式多样，而不单单仅限于某一种流量文件格式。同时可转换的流量类型丰富，模型泛化性好。
[0020]
2.本发明中，切分后的会话文件仍然保留原始流量数据包中的所有内容，没有造成原始流量数据包的信息失真。
[0021]
3.本发明中，在保证原始流量数据包内容完整的基础上，以会话为单位进行切分，方便观察后续转换的马尔科夫图像的效果。
[0022]
4.本发明中，考虑到流量的时序特征，采用转移概率矩阵作为转换图像的依据，而不是简单的直接将字节值作为像素值依次插入。使得转换后的马尔科夫图像大小相同，无需在训练神经网络前再进行复杂的预处理操作。并且，每个会话文件即对应转换后的一幅马尔科夫图像。同一类别的会话文件转换成的马尔科夫图像具有相似性，而不同类的会话文件转换成的马尔科夫图像则差异较大。同时，针对部分较大规格的流量，转换成马尔科夫图像后能有效减少占用存储空间大小，减少神经网络训练时的负担。
[0023]
5.本发明中，转换后不同类的马尔科夫图像有较大差异，使得神经网络在训练时能从这些差异中学习到信息，并进行分类判别。同时，转换后得到的图像大小始终保持在一个相对稳定的区间内，实现了大流量的轻量级检测。
附图说明
[0024]
为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根
据这些附图获得其他相关的附图。
[0025]
图1是本发明一种网络流量的马尔科夫图像表征方法的流程示意图。
[0026]
图2是实施例1中步骤2的流程示意图。
[0027]
图3是实施例1中步骤4的流程示意图。
[0028]
图4是本发明实施例1中转换后的马尔科夫图像。
[0029]
图5是本发明实施例1中转换后的马尔科夫图像。
具体实施方式
[0030]
为使本发明目的、技术方案和优点更加清楚，下面对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。
[0031]
实施例1：如图1、图2和图3所示，提供一种网络流量的马尔科夫图像表征方法，包括：步骤1：获取原始流量数据包，并通过wireshark等数据包分析软件对所述原始流量数据包进行预处理；所述原始流量数据包的类型具体包括正常流量类型、加密流量类型和攻击流量类型；所述原始流量数据包的格式具体包括pcap格式和cap格式。本实施例1选择ustc-tfc2016数据集中的攻击流量及应用流量作为转换马尔科夫图像的背景流量。
[0032]
步骤2：采用统计过滤的方法，将预处理后的原始流量数据包按会话形式存储为会话pcap文件；采用会话形式对原始流量数据包进行切分，切分后保留原始流量数据包中的所有内容，没有造成原始流量数据包的信息失真。
[0033]
所述会话形式为双向流，包括流的两个方向，即源ip和目的ip、源端口和目的端口是互换的。所述会话pcap文件包括存储时间、源ip、目的ip、协议类型和会话长度。
[0034]
本发明步骤2具体为：步骤2.1：对原始流量数据包进行流量统计及过滤；步骤2.2：然后将整个原始流量数据包以会话为单位进行切分；步骤2.3：将切分后的多个会话依次保存为会话pcap文件格式，每一个会话对应一个会话pcap文件。
[0035]
步骤3：以二进制格式打开并读取所述会话pcap文件；步骤4：获取二进制会话pcap文件，以字节为单位计算会话pcap文件的转移概率矩阵，然后将矩阵值与像素一一映射，得到该会话pcap文件的马尔科夫图像。
[0036]
步骤4具体为：步骤4.1：获取二进制会话pcap文件，以字节为单位进行读取，即读取后二进制会话pcap文件的数组中每个元素取值范围为[0,255]；步骤4.2：对于两个相邻的字节x1和字节x2,由于字节x2出现的概率只与字节x1有关，由此得到p(x2|x1)的转移概率矩阵，其公式为：
；其中，p
x1,x2
为转移概率，x1和x2分别为字节流中两个相邻的字节x1和字节x2的实际值；p
x1,x2
的计算公式为：；其中表示x2紧随x1出现的频率，即x2出现在x1后一位的概率；步骤4.3:将得到的转移概率矩阵进行扩展，其中每个元素乘以255，使每个元素的值从区间[0,1]扩展到[0,255]内；步骤4.4：将扩展后的转移概率矩阵转化为图像，其中转移概率矩阵中每一位元素值即对应256*256图像中该位的像素值，将转移概率矩阵和图像一一对应得到马尔科夫图像，完成会话pcap文件的马尔科夫图像转换。
[0037]
如图4和图5所示，分别为随机选择ustc-tfc2016数据集中的htbot恶意流量和skype应用流量下的样本转换的马尔科夫图像。可以看出不同类别下的马尔科夫图像纹理分布不同，保证了转换后的图像不同类别具有区分性。
[0038]
本发明中，通过采用变换域的思想，使得在保留原始流量所有内容的基础上，将高维流量转换成低维马尔科夫图像，实现了流量的可视化操作。转换后的马尔科夫图像大小相同，训练前无需再进行繁琐的预处理操作；同时相比于大规格流量，马尔科夫图像可以实现大流量的轻量级检测，减少了内存的消耗。
[0039]
本发明中，所能转换的原始流量数据包文件格式多样，而不单单仅限于某一种流量文件格式。同时可转换的流量类型丰富，模型泛化性好。
[0040]
本发明中，考虑到流量的时序特征，采用转移概率矩阵作为转换图像的依据，而不是简单的直接将字节值作为像素值依次插入。使得转换后的马尔科夫图像大小相同，无需在训练神经网络前再进行复杂的预处理操作。并且，每个会话文件即对应转换后的一幅马尔科夫图像。同一类别的会话文件转换成的马尔科夫图像具有相似性，而不同类的会话文件转换成的马尔科夫图像则差异较大。同时，针对部分较大规格的流量，转换成马尔科夫图像后能有效减少占用存储空间大小，减少神经网络训练时的负担。
[0041]
本发明有效缓解了采用传统检测方法时，预处理会丢失部分流量数据包信息导致模型出现过拟合问题。通过采用变换域的思想，使得在保留原始流量所有内容的基础上，将
高维流量转换成低维马尔科夫图像，实现了流量的可视化操作。转换后的马尔科夫图像大小相同，训练前无需再进行繁琐的预处理操作；同时相比于大规格流量，马尔科夫图像可以实现大流量的轻量级检测，减少了内存的消耗。
[0042]
以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视频标注方法、装置、终端设备及存储介质与流程

一种网络流量的马尔科夫图像表征方法与流程

相关文献

最热文献