基于图神经网络和流时空关联的网络流量识别方法和系统与流程

2022-04-24 22:46:04 来源：中国专利 TAG：

1.本技术涉及互联网技术领域，尤其涉及一种基于图神经网络和流时空关联的网络流量识别方法和系统。

背景技术：

2.近年来，随着网络加密技术的广泛应用，有效提高了网络安全水平，但是也提高了流量识别的难度，目前，现有的基于深度学习的网络流量识别技术大多关注于对单个网络数据流的识别，然而，随着当前网络应用的功能以及内容的增长，一个应用通常会产生多条有一定关联关系的网络数据流，而对于同一个应用所产生的多条网络数据流，每条网络数据流由于其对应的功能不同，以及其所传输的内容类型、大小、持续时间等特征可能存在较大区别，因此，在网络流量识别中，仅仅针对单个网络数据流，而不考虑网络数据流之间的关联关系，会导致对网络流量识别的准确性较低。

技术实现要素：

3.本技术的主要目的在于提供一种基于图神经网络和流时空关联的网络流量识别方法和系统，旨在解决现有技术中的对网络流量识别的准确性较低的技术问题。
4.为实现上述目的，本技术提供一种基于图神经网络和流时空关联的网络流量识别方法，所述网络流量识别方法包括：获取待识别网络数据集；提取所述待识别网络数据集中每一条待识别网络数据流的目标特征，并基于各所述待识别网络数据流对应的目标特征，构建网络数据流时空关联图，其中，所述网络数据流时空关联图中的一个节点代表一条待识别网络数据流，所述网络数据流时空关联图中的一条边表示各所述待识别网络数据流之间的关联性；将所述网络数据流时空关联图进行图分割处理，获得各目标子图；基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，其中，所述目标图神经网络模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得，其中，节点特征是指网络数据流特征中被用来描述图节点的特征；基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用。
5.本技术还提供一种基于图神经网络和流时空关联的网络流量识别系统，所述基于图神经网络和流时空关联的网络流量识别系统为虚拟系统，所述基于图神经网络和流时空关联的网络流量识别系统包括：获取模块，用于获取待识别网络数据集；构建模块，用于提取所述待识别网络数据集中每一条待识别网络数据流的目标特征，并基于各所述待识别网络数据流对应的目标特征，构建网络数据流时空关联图，其中，
所述网络数据流时空关联图中的一个节点代表一条待识别网络数据流，所述网络数据流时空关联图中的一条边表示各所述待识别网络数据流之间的关联性；图分割模块，用于将所述网络数据流时空关联图进行图分割处理，获得各目标子图；识别模块，用于基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，并基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用，其中，所述网络流量识别模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得。
6.本技术还提供一种基于图神经网络和流时空关联的网络流量识别设备，所述基于图神经网络和流时空关联的网络流量识别设备为实体设备，所述基于图神经网络和流时空关联的网络流量识别设备包括：存储器、处理器以及存储在所述存储器上的基于图神经网络和流时空关联的网络流量识别程序，所述基于图神经网络和流时空关联的网络流量识别程序被所述处理器执行实现如上述的网络流量识别方法的步骤。
7.本技术还提供一种存储介质，所述存储介质为计算机可读存储介质，所述计算机可读存储介质上存储基于图神经网络和流时空关联的网络流量识别程序，所述基于图神经网络和流时空关联的网络流量识别程序被处理器执行实现如上述的网络流量识别方法的步骤。
8.本技术提供了一种基于图神经网络和流时空关联的网络流量识别方法和系统，相比于现有技术采用的对单条网络数据流的识别的技术手段，本技术基于多条流来对网络应用进行识别，首先获取待识别网络数据集，并提取所述待识别网络数据集中每一条待识别网络数据流的目标特征，并基于各所述待识别网络数据流对应的目标特征，构建网络数据流时空关联图，进而可通过网络数据流时空关联图，获取到网络应用流量的行为模式和网络数据流时空关联图的全局表征，进一步地，在测试阶段，对于多个应用产生的混合流量，将所述网络数据流时空关联图进行图分割处理，获得各目标子图，进而基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，并基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用，其中，所述目标图神经网络模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得，实现了通过结合网络数据流本身的特征，和多个网络数据流在时空上的关联关系，构建时空关联图，进而使得在建模过程中，能够从时空关联图中提取更多网络数据流的综合表征信息，从而提升模型的精准度，进而通过网络流量识别模型对待识别网络数据流进行识别，提高了网络流量识别的识别准确性和泛化能力。
附图说明
9.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
10.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域默认技术人员而
言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
11.图1为本技术基于图神经网络和流时空关联的网络流量识别方法第一实施例的流程示意图；图2为本技术网络数据流时空关联图的构建示意图；图3为本技术基于图神经网络和流时空关联的网络流量识别方法第二实施例的流程示意图；图4为本技术中图卷积网络模型的结构示意图；图5为本技术中sagpool神经网络示意图；图6为本技术基于图神经网络和流时空关联的网络流量识别方法模型训练流程示意图；图7为本技术基于图神经网络和流时空关联的网络流量识别方法第三实施例的流程示意图；图8为本技术网络流量识别方法模型训练结构示意图；图9为本技术实施例方案涉及的硬件运行环境的基于图神经网络和流时空关联的网络流量识别设备结构示意图；图10为本技术基于图神经网络和流时空关联的网络流量识别系统的功能模块示意图。
12.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
13.应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
14.本技术实施例提供一种基于图神经网络和流时空关联的网络流量识别方法，在本技术网络流量识别方法的第一实施例中，参照图1，所述网络流量识别方法包括：步骤s10，获取待识别网络数据集；在本实施例中，需要说明的是，在模型训练结束后，将模型部署在路由器或者交换机等网络设备中，或通过一定方式导入到计算设备上，在部署和测试阶段，可通过镜像的方式去获取流经部署节点的流量，需要说明的是，本专利中所提到的网络数据流，指的是两台主机之间的一次数据通信过程所产生的流量，这个通信过程也可称为一个会话(conversation)，所产生的流量也可称为双向流，一般可以由一个五元组，也即（源ip地址，源端口，目的ip地址，目的端口，传输层协议）来确定。
15.具体地，通过镜像处理方式获取到流经部署节点的各个网络数据流，并将所述各个网络数据流作为本实施例中的待识别网络数据集。
16.步骤s20，提取所述待识别网络数据集中每一条待识别网络数据流的目标特征，并基于各所述待识别网络数据流对应的目标特征，构建网络数据流时空关联图，其中，所述网络数据流时空关联图中的一个节点代表一条待识别网络数据流，所述网络数据流时空关联图中的一条边表示各所述待识别网络数据流之间的关联性；在本实施例中，需要说明的是，网络数据流时空关联图中的一个节点来代表一条网络数据流，每条网络数据流对应一个节点，特征信息对应节点的参数，网络数据流之间的关联性构成数据流图中的一条边。所述目标特征包括节点特征和边特征，其中，所述边特征
为网络数据流之间的时空关联特征，由网络数据流的关联关系向量表示，网络数据流之间的关联性对应的是边的权重，具体包括：网络数据流之间的起始传输时间的时间间隔和远程目的ip所在目标地址池之间的距离，需要说明的是，网络应用为了保证服务的质量和尽可能地减少服务中断情况的发生，可能会让应用的某项服务由多个冗余服务器同时来提供，或者网络系统也可能会采用负载均衡机制。因此，网络应用在运行时，本地ip可能会与某个ip地址段内的一个或多个ip地址建立一条或多条网络数据流，这些网络数据流中ip地址的不同并不会影响应用服务的正常运行，将上述ip地址段称为ip地址池。
17.进一步地，所述节点特征包括该网络数据流的上行数据包大小标准差、下行数据包大小标准差和数据包间隔时间标准差等统计特征，还包括从数据包的包头或者tcp/ tls的协议字段中获取的标识等非统计数据类型的特征，其中，上行数据包表示用户设备发送到网络测设备的数据包，下行数据包表示用户设备从网络侧接收到的数据包。
18.具体地，将每一所述待识别网络数据流作为一个节点，进而计算各所述待识别网络数据流对应的节点特征，并基于各所述待识别网络数据流的起始传输时间，计算起始时间间隔，另外，根据预先缓存的本地ip地址库，区分出所述每一条待识别网络数据流对应的远程目的ip，进而确定每一个网络数据流的远程目标ip所在的目标地址池，计算每两个网络数据流的目标地址池之间的距离，进而基于所述节点特征、时间间隔和目标地址池之间的距离，构建所述网络数据流时空关联图，将数据流之间的关联性加入到网络流量的识别中来，提高网络流量识别的准确性。参照图2，图2为本技术网络数据流时空关联图的构建示意图，其中，流特征为所述节点特征，起始时间为所述起始传输时间，远程ip为所述远程目的ip，地址池为所述目标地址池。
19.步骤s30，将所述网络数据流时空关联图进行图分割处理，获得各目标子图；在本实施例中，需要说明的是，在模型部署和测试阶段面对的是多个应用产生的混合在一起的多条数据流，导致在构建网络数据流时空关联图时使用的流量中可能包含不止一个应用的流量数据，因此，在构建网络数据流时空关联图后添加图分割操作，在本技术中，利用谱聚类算法进行图分割处理，其中，谱聚类的方法遵循切图后子图间边权重和尽可能低，子图内的边权重和尽可能高的原则对关联图进行聚类得到子图。
20.其中，上述步骤s30：将所述网络数据流时空关联图进行图分割处理，获得各目标子图，具体包括：步骤s31，计算所述网络数据流时空关联图对应的正则化拉普拉斯矩阵；在本实施例中，具体地，计算所述网络数据流时空关联图的邻接矩阵、度矩阵以及单位矩阵，进而基于所述邻接矩阵、所述度矩阵以及所述单位矩阵，计算所述网络数据流时空关联图的正则化拉普拉斯矩阵，其中，正则化拉普拉斯矩阵的计算公式如下：其中，i是单位矩阵，a是邻接矩阵，d是度矩阵。
21.步骤s32，对所述正则化拉普拉斯矩阵进行特征分解，确定目标特征向量；步骤s33，基于所述目标特征向量，构建目标特征矩阵；步骤s34，基于所述目标特征矩阵进行聚类分析，得到各所述目标子图。
22.在本实施例中，具体地，例如：假设网络数据流时空关联图中有n个节点，对正则化拉普拉斯矩阵进行特征分解，取其最小的k个特征值所对应的特征向量，将所述k个的特征向量按列组成一个目标特征矩阵，目标特征矩阵如下：进而把所述目标特征矩阵的每一行看作是k维的样本，从而将图节点嵌入 (embedding) 到k维空间，对目标特征矩阵的行，即k维的样本进行聚类，如k-means聚类，得到整个图节点的划分结果，从而获得各所述目标子图。
23.步骤s40，基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，并基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用，其中，所述网络流量识别模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得；在本实施例中，需要说明的是，所述网络流量识别模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图，对待训练图神经网络模型进行迭代训练获得，其中，节点特征是指网络数据流特征中被用来描述图节点的特征。所述待训练图神经网络模型包括若干个图卷积层、图池化层、读出层和全连接层。
24.具体地，对于每一所述目标子图均执行以下步骤：提取所述目标子图对应的特征矩阵，并计算所述目标子图对应的邻接矩阵，其中，所述特征矩阵由目标子图图上的各个节点特征获得，所述目标子图的邻接矩阵基于目标子图中各待识别网络数据流对应的时间间隔和目标地址池之间的距离等特征获得，进而将所述目标子图的邻接矩阵和特征矩阵输入至所述网络流量识别模型，从而通过所述网络流量识别模型中若干个图卷积层将所述特征矩阵进行卷积处理，得到各个图卷积层对应输出的特征矩阵，进而将每一所述特征矩阵进行拼接，得到拼接特征矩阵，从而使得目标子图每个节点的特征既包含了自身的信息，也包含了若干范围内的邻居节点（取决于图卷积层的数量）的特征信息，进一步，通过所述图池化层将所述拼接特征矩阵和所述邻接矩阵进行池化操作，在图池化层中，将特征维度设置为1，从而对目标子图中每个节点学习输出一个分数值，基于每个节点的分数对应的排序结果，对邻接矩阵和拼接特征矩阵进行更新，得到池化结果，然后再经过读出层对池化结果进行全局池化，从而获得目标子图的全局表征信息，将所述目标子图对应的全局表征信息与模型在训练阶段学习到不同类别的网络应用对应的图模式进行匹配，确定匹配结果大于预设相似度阈值对应的网络应用，并将所述网络应用作为所述目标子图中待识别网络数据流所属的目标应用，也即，如果发现匹配结果大于预设相似度阈值，则判定该目标子图对应的网络数据流是对应网络应用产生的。
25.其中，所述基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用的步骤包括：步骤s41，分别将各所述目标子图对应的全局表征信息与预设各网络应用的图模式进行匹配，得到每一所述目标子图分别与预设各网络应用对应的匹配结果；步骤s42，针对每一所述目标子图，确定匹配结果大于预设相似度阈值对应的网络
应用，并将所述网络应用作为所述目标子图中待识别网络数据流所属的目标应用。
26.在本实施例中，需要说明的是，所述预设各网络应用的图模式为模型在训练阶段学习到不同类别的网络应用对应的图模式，具体地，对于每一所述目标子图均执行以下步骤：计算所述目标子图中全局表征信息与模型在训练阶段学习到不同类别的网络应用对应的图模式之间的相似度，若相似度大于预设相似度阈值，则确定所述相似度大于预设相似度阈值对应的网络应用，并将所述网络应用作为所述目标子图中待识别网络数据流所属的目标应用。
27.本技术实施例提供了一种基于图神经网络和流时空关联的网络流量识别方法，相比于现有技术采用的对单条网络数据流的识别的技术手段，本技术实施例基于多条流来对网络应用进行识别，首先获取待识别网络数据集，并提取所述待识别网络数据集中每一条待识别网络数据流的目标特征，并基于各所述待识别网络数据流对应的目标特征，构建网络数据流时空关联图，进而可通过网络数据流时空关联图，获取到网络应用流量的行为模式和网络数据流时空关联图的全局表征，进一步地，在测试阶段，对于多个应用产生的混合流量，将所述网络数据流时空关联图进行图分割处理，获得各目标子图，进而基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，并基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用，其中，所述目标图神经网络模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得，实现了通过结合网络数据流本身的特征，和多个网络数据流在时空上的关联关系，构建时空关联图，进而使得在建模过程中，能够从时空关联图中提取更多网络数据流的综合表征信息，从而提升模型的精准度，进而通过网络流量识别模型对待识别网络数据流进行识别，提高了网络流量识别的识别准确性和泛化能力。
28.进一步地，参照图3，基于本技术中第一实施例，在本技术的另一实施例中，在所述基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，其中，所述网络流量识别模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得的步骤之前，所述网络流量识别方法还包括：步骤a10，采集不同类别的网络应用的目标网络数据流集，其中，所述目标网络数据流集为通过多次访问网络应用获得，一种网络应用对应一种图模式；在本实施例中，具体地，使用脚本运行不同种类的网络应用，进而采集不同类别的网络应用的目标网络数据流集，并标注每一所述网络数据流的标签，且需要说明的是，本实施例中的目标网络数据流集为访问不同网络应用所产生的流量数据，针对每一个网络应用：训练所用的网络数据流集是对该网络应用多次访问得到的，一次访问网络应用得到的网络数据流对应一个图，其中，一种所述网络应用对应一种图模式。脚本(script)，是使用一种特定的描述性语言，可依据一定的格式编写的可执行文件，利用脚本在网络平台上运行不同种类的网络应用，降低网络流量采集的难度，且可保证网络流量采集的正确性。
29.步骤a20，提取所述目标网络数据流集对应的训练流量特征，其中，所述训练流量特征包括图的节点特征和图的边特征；
在本实施例中，需要说明的是，针对所述目标网络数据流集中每一条网络数据流：所述节点特征包括网络数据流的上行数据包大小标准差、下行数据包大小标准差和数据包间隔时间标准差等统计特征，还包括从数据包的包头或者tcp/ tls的协议字段中获取的标识等非统计数据类型的特征，上行数据包表示用户设备发送到网络测设备的数据包，下行数据包表示用户设备从网络侧接收到的数据包，所述时空关联特征由网络数据流之间的起始时间的时间间隔和远程ip等特征构建的，表征网络数据流之间的时空关系，其特征由一个2维向量表示，分别表示两个网络数据流之间的时间和空间关系，时间关系为网络数据流的起始时间之前的时间间隔，空间关系为网络数据流的远程ip对应的目标地址池之间的距离。
30.其中，步骤a20：提取所述目标网络数据流集对应的训练流量特征，具体包括：步骤a21，分别提取所述目标网络数据流集中每一条网络数据流对应的特征信息，并将所述特征信息作为所述节点特征；步骤a22，获取各所述网络数据流对应的起始时间以及远程ip，并确定所述各所述网络数据流的远程ip所属的目标地址池；步骤a23，计算各所述网络数据流的起始时间之间的时间间隔以及目标地址池之间的目标距离；步骤a24，基于所述时间间隔和所述目标距离，确定各所述网络数据流之间的时空关联特征，并将所述时空关联特征作为所述边特征。
31.在本实施例中，具体地，计算各所述网络数据流对应的特征信息，并将所述特征信息作为所述节点特征，并基于各所述网络数据流的起始时间，计算各所述网络数据流之间的起始时间间隔，以及根据每一所述网络数据流对应的远程ip，确定每一个网络数据流的远程目标ip所在的目标地址池，计算每两个网络数据流的目标地址池之间的目标距离，进而基于所述时间间隔确定所述时空关联特征的第一维特征，其中，时间间隔的数值越小表示两个网络数据流的起始时间间隔越小。在本实施例中，可定义多个时间间隔区间，每个区间对应一个值，两个网络数据流起始时间间隔落在某一区间，则将该区间的对应值作为第一维特征，进一步地，基于目标地址池之间的目标距离确定所述时空关联特征的第二维特征，目标距离的数值越小表示两个网络数据流的ip地址池越近。在本实施例中，可以将不同的ip地址池按照网络应用的类别进行集合，对于属于同一集合且属于同一ip地址池的两个节点，它们之间的距离最近；对于属于同一集合但不属于同一ip地址池的两个节点，它们之间的距离次之，不属于同一集合的两个节点的距离最远，根据以上情况来对第二维特征赋值，从而基于上述第一维特征以及第二维特征得到各所述网络数据流之间的时空关联特征，并将所述时空关联特征作为图的边特征。另外地，步骤a21和步骤a22的执行顺序不做限制。
32.步骤a30，基于所述训练流量特征，构建时空关联图；在本实施例中，需要说明的是，时空关联图中的一个节点表示单次访问网络应用所产生流量数据中的一条网络数据流，具体地，将每一条网络数据流作为所述时空关联图中的一个节点，将所述训练流量特征中的节点特征作为所述时空关联图中节点对应的节点特征，并将各所述网络数据流之间的时空关联特征作为所述时空关联图中节点之间的边特征，基于所述节点特征和所述边特征，构建所述时空关联图，本实施例与上述网络流量识别
方法的第一实施例中的步骤s20基本相同，在此不再赘述。
33.步骤a40，基于所述时空关联图，对待训练图神经网络模型进行迭代训练，获得所述网络流量识别模型。
34.在本实施例中，需要说明的是，所构建的网络数据流时空关联图是一种非欧几里德结构数据，需要使用图神经网络来进行处理。
35.图卷积神经网络 (graph convolutional networks， gcn)是一种典型的图神经网络，它将卷积迁移到图数据上，可以学习图上节点的代表性特征。图卷积神经网络的作用本质上是对图节点信息的更新，参照图4，图4为本技术中图卷积网络模型的结构示意图，一个节点特征为f维的图作为输入，经过中间的隐藏层，可以得到节点特征为c维的图。空域图卷积是通过与传统卷积神经网络 (convolutional neural networks， cnn) 类比得到的，对图上的节点来说，首先需要确定节点的邻域，然后将邻居节点的信息聚合来更新自身的信息，而邻居节点可以通过图的邻接矩阵来确定，根据矩阵乘法，将图的邻接矩阵与图的特征矩阵相乘，得到的结果是每个节点的新特征，从而就得到了图卷积层的传播方式如下：其中，是第l层的特征矩阵，是加了自连接的邻接矩阵，是的度矩阵，是第l层的特征变换矩阵，用于变换节点特征的维度，是第（l 1）层的特征矩阵。
36.图卷积可对图的节点信息进行更新，但是为了实现端到端的学习，还需要像cnn那样对图做池化的操作来获取图的全局表示。在cnn模型中，通常是通过层次化池化机制来逐渐提取全局信息，然而对于非规则结构的图数据，这类池化操作的直接迁移变得不可行。自注意力图池化 (self-attention graph pooling， sagpool) 利用图卷积的方法对图中每个节点学习出一个分数（即图卷积输出的节点特征维度为1），基于这个分数的排序丢弃一些低分数的节点，从而将更重要的信息筛选出来，具体地，参照图5，图5为本技术中sagpool神经网络示意图，其中，sagpool利用了图的结构信息对节点的重要度进行学习，得到的图的全局表示既包含了图的结构信息，也包含了各个节点的属性信息。
37.具体地，基于所述时空关联图，获取所述时空关联图对应的训练特征矩阵以及计算所述时空关联图的训练邻接矩阵，进而将所述训练特征矩阵以及所述训练邻接矩阵输入所述待训练图神经网络模型进行，从而输出分类结果，进而基于所述分类结果和标注对应的标签，调节模型参数，以对所述待训练图神经网络模型进行优化，得到优化后的待训练图神经网络模型，并判断所述优化后的待训练图神经网络模型是否满足训练结束条件，若满足，则将所述优化后的待训练图神经网络模型作为所述网络流量识别模型，若不满足，则返回执行步骤：采集不同类别的网络应用的目标网络数据流集，以继续训练待训练图神经网络模型，从而实现了采用图卷积层和自注意力图池化层来构建图神经网络模型对网络数据流时空关联图的学习训练。
38.进一步地，参照图6，图6为本技术基于图神经网络和流时空关联的网络流量识别方法模型训练流程示意图，其中，所述流量采集为所述采集不同类别的网络应用的目标网络数据流集，流量标签为所述标注每一所述目标网络数据流的标签，流量预处理为所述提
取所述目标网络数据流集对应的训练流量特征，流量特征为所述训练流量特征，关联图生成为所述构建时空关联图，模型训练为所述对所述待训练图神经网络模型进行迭代训练，预测结果为所述分类结果，流特征为所述每一条网络数据流对应的特征信息。
39.本技术实施例提供了一种基于图神经网络和流时空关联的网络流量识别方法，也即，采集不同类别的网络应用的目标网络数据流集，其中，所述目标网络数据流集为通过多次访问网络应用获得，一种网络应用对应一种图模式，进而提取所述目标网络数据流集对应的训练流量特征，其中，所述训练流量特征包括图的节点特征和图的边特征，进一步地，基于所述训练流量特征，构建时空关联图，进而基于所述时空关联图，对待训练图神经网络模型进行迭代训练，获得所述网络流量识别模型，实现了通过挖掘网络数据流本身的特征信息以及网络数据流之间的关联信息，进而构建时空关联图，使得时空关联图具有表征网络数据流之间关系的潜力，进一步地，将图神经网络应用于网络流量的识别，能够从时空关联图中提取更多网络数据流的综合表征信息，同时保证了网络数据流之间的相关性在网络流量识别中的作用，从而提高了网络流量识别模型识别的准确性。
40.进一步地，参照图7，基于本技术中第一实施例，在本技术的另一实施例中，所述基于所述时空关联图，对待训练图神经网络模型进行迭代训练，获得所述网络流量识别模型的步骤包括：步骤b10，获取所述时空关联图的训练特征矩阵以及训练邻接矩阵；在本实施例中，需要说明的是，参照图8，图8为本技术网络流量识别方法模型训练结构示意图，所述待训练图神经网络模型包括若干个图卷积层、图池化层、读出层和全连接层，具体地，提取所述时空关联图的训练特征矩阵和训练邻接矩阵，特征矩阵和邻接矩阵的计算过程属于现有技术，在此不作赘述。
41.步骤b20，通过各所述图卷积层对所述训练特征矩阵进行卷积处理，得到各所述图卷积层输出的特征矩阵，并将各所述特征矩阵进行拼接，得到目标拼接特征矩阵；在本实施例中，需要说明的是，所述图卷积层的数量与所述时空关联图的节点数量相关，卷积层数量可以根据时空关联图的节点数量进行调整。具体地，将训练特征矩阵依次输入各所述图卷积层，以通过各个图卷积层对所述训练特征矩阵进行卷积处理，输出各个图卷积层对应的特征矩阵，从而更新时空关联图中节点的特征信息，进而将每一个图卷积层输出的特征矩阵进行拼接，得到所述目标拼接特征矩阵，从而使得每个节点的特征既包含了自身的信息，也包含了若干跳范围内的邻居节点（取决于图卷积层的数量）的特征信息，提高模型识别的准确性以及泛化性。
42.步骤b30，通过所述图池化层对所述目标拼接特征矩阵和所述训练邻接矩阵进行池化处理，得到池化结果；在本实施例中，需要说明的是，所述图池化层为基于sagpool池化机制的图池化层，将所述图池化层输出的特征维度设置为1，具体地，通过所述图池化层对所述目标拼接特征矩阵和所述训练邻接矩阵进行处理，得到各个节点对应的特征值，并基于各所述特征值进行筛选，确定所述池化结果。
43.其中，步骤b30具体包括：步骤b31，将所述目标拼接特征矩阵和所述训练邻接矩阵输入至所述图池化层，输出所述时空关联图各节点的池化分数；
步骤b32，基于各节点的池化分数，对所述目标拼接特征矩阵和所述训练邻接矩阵进行调整优化，得到所述池化结果。
44.在本实施例中，具体地，将所述图池化层输出的特征维度设置为1，将所述目标拼接特征矩阵和所述训练邻接矩阵输入至所述图池化层，由于特征维度设置为1，即可得到所述时空关联图各节点对应的输出特征值，进而将所述特征值作为所述池化分数，进一步地，将所述池化分数进行排序，基于分数排序结果，去除分数较低的节点，进而提取保留下来的各个节点对应的特征矩阵，并重新确定筛选后的训练邻接矩阵，得到所述池化结果。
45.步骤b40，通过所述读出层对所述池化结果进行全局池化处理，得到全局特征信息；在本实施例中，具体地，通过一个读出层实现对sagpool图卷积层输出的池化结果进行全局池化处理，从而获得时空关联图的得到全局特征信息。
46.步骤b50，将所述全局特征信息输入所述全连接层，输出分类结果；步骤b60，基于所述分类结果和所述时空关联图对应的真实标签，调节所述待训练图神经网络模型的模型参数，得到所述网络流量识别模型。
47.在本实施例中，具体地，基于所述分类结果，计算所述分类结果和标注的标签的模型损失，进而基于所述模型损失，通过梯度下降算法优化所述待训练图神经网络模型的模型参数，得到所述网络流量识别模型，从而实现模型对时空关联图进行端到端的学习和训练。
48.本技术实施例提供了一种基于图神经网络和流时空关联的网络流量识别方法，也即，获取所述时空关联图的训练特征矩阵以及训练邻接矩阵，进而通过各所述图卷积层对所述训练特征矩阵进行卷积处理，得到各所述图卷积层输出的特征矩阵，并将各所述特征矩阵进行拼接，得到目标拼接特征矩阵，进一步地，通过所述图池化层对所述目标拼接特征矩阵和所述训练邻接矩阵进行池化处理，得到池化结果，进而通过所述读出层对所述池化结果进行全局池化处理，得到全局特征信息，将所述全局特征信息输入所述全连接层，输出分类结果，进一步地，基于所述分类结果和所述时空关联图对应的真实标签，调节所述待训练图神经网络模型的模型参数，得到所述网络流量识别模型，实现了通过若干个图卷积层对训练特征矩阵进行卷积后在进行拼接，从而挖掘学习到包含了节点自身的特征信息，也包含了邻居节点的特征信息，进一步地，基于sagpool池化机制形成的图池化层对所述目标拼接特征矩阵和所述训练邻接矩阵进行池化处理，得到各个节点对应的特征值，以进行筛选节点，进而通过读出层学习池化处理后的关联图的全局特征信息，提高模型识别的准确性，也实现模型对时刻关联图进行端到端的学习和训练，提高模型网络流量识别的精准度。
49.参照图9，图9是本技术实施例方案涉及的硬件运行环境的基于图神经网络和流时空关联的网络流量识别设备结构示意图。
50.如图9所示，该基于图神经网络和流时空关联的网络流量识别设备可以包括：处理器1001，例如cpu，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
51.可选地，该基于图神经网络和流时空关联的网络流量识别设备还可以包括矩形用
户接口、网络接口、相机、rf（radio frequency，射频）电路，传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏（display）、输入子模块比如键盘（keyboard），可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可包括标准的有线接口、无线接口（如wifi接口）。
52.本领域技术人员可以理解，图9中示出的基于图神经网络和流时空关联的网络流量识别设备结构并不构成对基于图神经网络和流时空关联的网络流量识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
53.如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及基于图神经网络和流时空关联的网络流量识别程序。操作系统是管理和控制基于图神经网络和流时空关联的网络流量识别设备硬件和软件资源的程序，支持基于图神经网络和流时空关联的网络流量识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与基于图神经网络和流时空关联的网络流量识别系统中其它硬件和软件之间通信。
54.在图9所示的基于图神经网络和流时空关联的网络流量识别设备中，处理器1001用于执行存储器1005中存储的基于图神经网络和流时空关联的网络流量识别程序，实现上述任一项所述的基于图神经网络和流时空关联的网络流量识别方法的步骤。
55.本技术基于图神经网络和流时空关联的网络流量识别设备具体实施方式与上述网络流量识别方法各实施例基本相同，在此不再赘述。
56.此外，请参照图10，图10是本技术基于图神经网络和流时空关联的网络流量识别系统的功能模块示意图，本技术还提供一种基于图神经网络和流时空关联的网络流量识别系统，所述基于图神经网络和流时空关联的网络流量识别系统包括：获取模块，用于获取待识别网络数据集；构建模块，用于提取所述待识别网络数据集中每一条待识别网络数据流的目标特征，并基于各所述待识别网络数据流对应的目标特征，构建网络数据流时空关联图，其中，所述网络数据流时空关联图中的一个节点代表一条待识别网络数据流，所述网络数据流时空关联图中的一条边表示各所述待识别网络数据流之间的关联性；图分割模块，用于将所述网络数据流时空关联图进行图分割处理，获得各目标子图；识别模块，用于基于已训练好的网络流量识别模型，分别对各所述目标子图进行识别，得到各所述目标子图对应的全局表征信息，并基于各所述目标子图对应的全局表征信息，确定各所述目标子图中待识别网络数据流所属的目标应用，其中，所述网络流量识别模型为基于预先提取的各网络数据流的节点特征以及各网络数据流之间的时空关联特征构建的时空关联图进行迭代训练获得。
57.可选地，所述图分割模块还用于：计算所述网络数据流时空关联图对应的正则化拉普拉斯矩阵；对所述正则化拉普拉斯矩阵进行特征分解，确定目标特征向量；基于所述目标特征向量，构建目标特征矩阵；基于所述目标特征矩阵进行聚类分析，得到各所述目标子图。
58.可选地，所述识别模块还用于：
分别将各所述目标子图对应的全局表征信息与预设各网络应用的图模式进行匹配，得到每一所述目标子图分别与预设各网络应用对应的匹配结果；针对每一所述目标子图，确定匹配结果大于预设相似度阈值对应的网络应用，并将所述网络应用作为所述目标子图中待识别网络数据流所属的目标应用。
59.可选地，所述基于图神经网络和流时空关联的网络流量识别系统还用于：采集不同类别的网络应用的目标网络数据流集，其中，所述目标网络数据流集为通过多次访问网络应用获得，一种网络应用对应一种图模式；提取所述目标网络数据流集对应的训练流量特征，其中，所述训练流量特征包括图的节点特征和图的边特征；基于所述训练流量特征，构建时空关联图；基于所述时空关联图，对待训练图神经网络模型进行迭代训练，获得所述网络流量识别模型。
60.可选地，所述基于图神经网络和流时空关联的网络流量识别系统还用于：分别提取所述目标网络数据流集中每一条网络数据流对应的特征信息，并将所述特征信息作为所述节点特征；获取各所述网络数据流对应的起始时间以及远程ip，并确定所述各所述网络数据流的远程ip所属的目标地址池；计算各所述网络数据流的起始时间之间的时间间隔以及目标地址池之间的目标距离；基于所述时间间隔和所述目标距离，确定各所述网络数据流之间的时空关联特征，并将所述时空关联特征作为所述边特征。
61.可选地，所述基于图神经网络和流时空关联的网络流量识别系统还用于：获取所述时空关联图的训练特征矩阵以及训练邻接矩阵；通过各所述图卷积层对所述训练特征矩阵进行卷积处理，得到各所述图卷积层输出的特征矩阵，并将各所述特征矩阵进行拼接，得到目标拼接特征矩阵；通过所述图池化层对所述目标拼接特征矩阵和所述训练邻接矩阵进行池化处理，得到池化结果；通过所述读出层对所述池化结果进行全局池化处理，得到全局特征信息；将所述全局特征信息输入所述全连接层，输出分类结果；基于所述分类结果和所述时空关联图对应的真实标签，调节所述待训练图神经网络模型的模型参数，得到所述网络流量识别模型。
62.可选地，所述基于图神经网络和流时空关联的网络流量识别系统还用于：将所述目标拼接特征矩阵和所述训练邻接矩阵输入至所述图池化层，输出所述时空关联图各节点的池化分数；基于各节点的池化分数，对所述目标拼接特征矩阵和所述训练邻接矩阵进行调整优化，得到所述池化结果。
63.本技术基于图神经网络和流时空关联的网络流量识别系统的具体实施方式与上述网络流量识别方法各实施例基本相同，在此不再赘述。
64.本技术实施例提供了一种存储介质，所述存储介质为计算机可读存储介质，且所
述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于图神经网络和流时空关联的网络流量识别方法的步骤。
65.本技术计算机可读存储介质具体实施方式与上述网络流量识别方法各实施例基本相同，在此不再赘述。
66.以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利处理范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于区块链的网络安全监控方法及系统与流程

基于图神经网络和流时空关联的网络流量识别方法和系统与流程

相关文献

最热文献