一种数据处理方法、装置、设备及存储介质与流程

2021-10-19 23:48:00 来源：中国专利 TAG：数据处理装置计算机方法设备

1.本发明涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术：

2.基于快速用户数据报协议网络连接(quick udp internet connection,quic)协议是谷歌制定的一种基于用户数据报协议(user datagram protocol,upd)的低时延的互联网传输层协议。2015年6月，quic规范的互联网草案已提交国际互联网工程任务组(the internet engineering task force,ietf)进行标准化。
3.在google产品大量使用的环境中，有10％到20％的网络流量通过quic协议进行通信。但目前还没有方法可以对于quic协议生成的数据流量进行识别，以识别出该流量是恶意数据流量还是正常数据流量。因此如何对quic协议生成的数据流量进行识别是当前亟待解决的问题。

技术实现要素：

4.本发明实施例提供了一种数据处理方法、装置、设备及存储介质，可以准确有效地识别基于quic协议生成的数据流量的流量类型。
5.一方面，本发明实施例提供了一种数据处理方法，所述方法包括：
6.获取待识别数据流量，所述待识别数据流量是基于快速用户数据报协议网络连接quic协议生成的数据流量，所述待识别数据流量中包含quic属性信息和网域名称系统信息；
7.将所述待识别数据流量中的quic属性信息和网域名称系统信息组合为所述待识别数据流量的流量特征；
8.调用流量类型识别模型识别所述待识别数据流量的流量特征，得到所述待识别数据流量的流量类型，输出所述待识别数据流量的流量类型。
9.一方面，本发明实施例提供了一种数据处理方法装置，所述装置包括：
10.获取模块，用于获取待识别数据流量，所述待识别数据流量是基于快速用户数据报协议网络连接quic协议生成的数据流量，所述待识别数据流量中包含quic属性信息和网域名称系统信息；
11.处理模块，用于将所述待识别数据流量中的quic属性信息和网域名称系统信息组合为所述待识别数据流量的流量特征；
12.处理模块，还用于调用流量类型识别模型识别所述待识别数据流量的流量特征，得到所述待识别数据流量的流量类型，输出所述待识别数据流量的流量类型。
13.一方面，本发明实施例提供了一种计算机设备，该设备包括处理器、通信接口和存储器，所述处理器、通信接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用于执行上述一
种数据处理方法所涉及到的操作。
14.一方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述一种数据处理方法所涉及的程序。
15.一方面，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一种数据处理方法。
16.本发明实施例通过利用数据流量样本中的quic属性信息和网域名称系统信息训练原始流量类型识别模型，使得到的流量类型识别模型能够识别基于quic协议生成的数据流量的流量类型；同时通过提取基于quic协议生成的待识别数据流量中的quic属性信息和网域名称系统信息，并将其组合作为待识别数据流量的流量特征，可以使得流量类型识别模型能够准确有效地识别基于quic协议生成的待识别数据流量的流量类型。
附图说明
17.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1为本发明实施例提供的一种数据处理系统的架构示意图；
19.图2为本发明实施例提供的一种数据处理方法的流程示意图；
20.图3为本发明实施例提供的一种流量类型识别模型建立的流程示意图；
21.图4为本发明实施例提供的一种数据处理方法的流程示意图；
22.图5为本发明实施例提供的一种chlo包的示意图；
23.图6为本发明实施例提供的一种数据处理方法的流程示意图；
24.图7为本发明实施例提供的一种数据处理装置的结构示意图；
25.图8为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
26.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
27.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
28.机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。
机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
29.具体地，在本技术中，通过海量的数据流量训练样本集和机器学习算法训练出一个用于识别流量类型的流量类型识别模型，该流量类型识别模型可以用于识别待识别数据流量是正常数据流量或者恶意数据流量。
30.云计算(cloud computing)指it基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是it和软件、互联网相关，也可是其他服务。云计算是网格计算(grid computing)、分布式计算(distributedcomputing)、并行计算(parallel computing)、效用计算(utility computing)、网络存储(network storage technologies)、虚拟化(virtualization)、负载均衡(load balance)等传统计算机和网络技术发展融合的产物。
31.云安全(cloud security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念，通过网状的大量客户端对网络中软件行为的异常监测，获取互联网中木马、恶意程序的最新信息，并发送到服务端进行自动分析和处理，再把病毒和木马的解决方案分发到每一个客户端。
32.可以将本技术提出的数据处理方法封装为云平台的一个安全服务，当存在需要识别的数据流量时，通过在云平台调用该安全服务得到识别结果。后续，可以根据得到的识别结果，允许正常数据流量通过，以及拦截恶意数据流量，从而保证设备不被攻击，提升设备的网络安全性。
33.应理解，本技术实施例提供的数据处理方法可以应用于基于quic协议的各种通信系统，例如：计算机网络、全球移动通讯(global system of mobile communication,gsm)系统、码分多址(code division multiple access,cdma)系统、宽带码分多址(wideband code division multiple access,wcdma)系统、通用分组无线业务(general packet radio service，gprs)、长期演进(long term evolution，lte)系统、lte频分双工(frequency division duplex,fdd)系统、lte时分双工(time division duplex,tdd)、通用移动通信系统(universal mobile telecommunication system,umts)、全球互联微波接入(worldwide interoperability for microwave access,wimax)通信系统、以及5g通信系统等。
34.如图1所示，本技术实施例提供了一种数据处理系统，该系统包括至少一个终端设备101和至少一个服务器102。终端设备101也称为终端(terminal)、用户设备(user equipment,ue)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备101可以是个人数字处理(personaldigital assistant,pda)设备、智能电视、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,pc)、车载设备以及可穿戴设备等，但并不局限于此。
35.服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、
以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
36.终端设备101将待识别数据流量发送到服务器102，服务器102通过提取基于quic协议生成的待识别数据流量中的quic属性信息和网域名称系统信息，并将其组合作为待识别数据流量的流量特征，接着通过调用预先训练的流量类型识别模型对待识别数据流量的流量特征进行识别，从而得到待识别数据流量的流量类型，可以准确有效地识别基于quic协议生成的数据流量的流量类型。
37.本技术的具体应用场景可以是：在安装有大量服务器的机房流量出入口(机房流量出口处可以是交换机)安装一个旁路设备，其中，可以将本技术封装为一个应用软件，安装在上述旁路设备中。采用本技术可以监控出入机房的，且由quic协议生成的数据流量的安全性，一旦检测到恶意数据流量，通知服务器停止发送或者停止接收，以保证服务器以及客户端的安全。
38.可以理解的是，本技术实施例描述的系统的架构示意图是为了更加清楚的说明本技术实施例的技术方案，并不构成对于本技术实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本技术实施例提供的技术方案对于类似的技术问题，同样适用。
39.在一个实施例中，如图2所示，是本发明实施例基于图1的数据处理系统提供的一种数据处理方法。以服务器是图1中提及的服务器102为例。以下结合图2对本发明实施例的所述方法进行说明。
40.s201、获取待识别数据流量，所述待识别数据流量是基于快速用户数据报协议网络连接quic协议生成的数据流量，所述待识别数据流量中包含quic属性信息和网域名称系统信息。
41.其中，需要说明的是quic协议作为互联网传输层协议，其包含传输加密层，保证传输数据的保密性，避免了被窃听、篡改等中间人攻击，因此基于quic协议生成的待识别数据流量为加密数据流量。
42.在一个实施例中，待识别数据流量中包含有quic数据流量，quic数据流量为了安全起见，一般仅有少部分数据是未加密的，这些数据主要是在建立连接时产生的，因此提取quic数据流量中包括的未加密的特殊字段作为quic属性信息，同时选取和目的ip地址相关的网域名称系统信息。
43.s202、将所述待识别数据流量中的quic属性信息和网域名称系统信息组合作为所述待识别数据流量的流量特征。
44.在一个实施例中，通过联合quic属性信息和网域名称系统信息作为待识别数据流量的流量特征进行下一步的流量类型分析。
45.s203、调用流量类型识别模型识别所述待识别数据流量的流量特征，得到所述待识别数据流量的流量类型，输出所述待识别数据流量的流量类型。
46.在一个实施例中，在调用流量类型识别模型识别待识别数据流量的流量类型时，流量类型识别模型可以看作一个分类器，通过待识别数据流量中的流量特征识别待识别数据流量的流量类型。
47.在本技术实施例中，通过提取基于quic协议生成的待识别数据流量中的quic属性
信息和网域名称系统信息，并将其组合作为待识别数据流量的流量特征，接着通过调用流量类型识别模型对待识别数据流量的流量特征进行识别，从而得到待识别数据流量的流量类型，可以准确有效地识别基于quic协议生成的数据流量的流量类型。
48.在一个实施例中，对所述待识别数据流量的流量特征进行标准化处理，得到标准化流量特征；则所述调用流量类型识别模型识别所述流量特征，得到所述待识别数据流量的流量类型，包括：调用流量类型识别模型识别所述标准化流量特征，得到所述待识别数据流量的流量类型。
49.在一个实施例中，利用数据清洗、数据标准化和数据正则化中的一个或多个对待识别数据流的流量特征中的quic属性信息和网域名称系统信息进行标准化处理，得到标准化流量特征，并调用流量类型识别模型识别标准化流量特征，得到待识别数据流量的流量类型。对待识别数据流量的流量特征进行数据清洗的过程主要是针对提取到的流量特征中的缺失值、异常值、重复值、噪音数据等进行清洗。例如，可用采用固定值填充、均值填充、中位数填充、上下数据填充、插值法填充或者随机数填充等方法处理缺失值。通过标准化处理可以便于数据更加快速的提取，同时数据标准化和数据正则化可以消除数值化带来的不同量纲的影响，加快流量类型识别模型的运作效率，例如z
‑
score标准化。
50.在一个实施例中，调用流量类型识别模型识别所述标准化流量特征，得到所述待识别数据流量的流量类型，包括：调用流量类型识别模型中的多个分类回归树集识别所述标准化流量特征，得到所述标准化流量特征在每个分类回归树集的预测结果，每个预测结果包括所述标准化流量特征与多种流量类型之间的匹配概率集合；基于多个预测结果确定所述待识别数据流量的流量类型。
51.在一个实施例中，流量类型识别模型是基于梯度提升决策树算法(gradient boosting decision tree,gbdt)生成的，利用流量类型识别模型中的多个分类回归树集识别标准化流量特征时，每个分类回归树集都得到一个标准化流量特征的预测结果，每个预测结果包括标准化流量特征与多种流量类型之间的匹配概率集，通过多个预测结果确定待识别数据流量的流量类型。
52.具体地，梯度提升决策树算法针对每个数据流量样本可能的流量类型都训练一个分类回归树集，假设数据流量样本的流量类型为正常数据流量和恶意数据流量时，在每轮训练时会同时训练两个分类回归树，例如，当数据流量样本x为正常数据流量时，在第一轮训练时，针对第一个分类回归树输入的为(x,1)，针对第二个分类回归树输入的为(x,0)，1表示属于该类，0表示不属于该类。在每一种流量类型的分类回归树集的训练过程中，在一棵树中，从根节点开始，每个树节点需要给出一个分裂规则，此分裂规则包括分裂特征和分裂特征值，例如可以采用如mse、mae等作为分裂规则，根据分裂规则将数据样本切分到下一层的子树节点，最终，每个数据流量样本x，被分配到一个叶子节点，叶子节点将其上的数据流量样本预测为w。梯度提升决策树的叶子节点给出的是连续值，在训练完一棵树之后，将w加到每个数据流量样本的预测值上，然后以新的预测值开始训练下一棵树。梯度提升决策树累加所有分类回归树的预测值作为最终的预测值，如下述公式(1)所示。
[0053][0054]
其中，n是树的数量，f
i
(x
i
)是第i棵树的预测值，η是超参数。
[0055]
因此，最终得到的每种流量类型的分类回归树集中都包括多个分类回归树。当两个分类回归树集识别待识别数据流量z的流量类型时，得到的预测结果为f1(z)和f2(z)时，待识别数据流量z属于第一个分类回归树集，即属于流量类型为正常数据流量的匹配概率为下述公式(2)。
[0056][0057]
则，待识别数据流量z属于第二个分类回归树集，即属于流量类型为恶意数据流量的匹配概率为下述公式(3)。
[0058][0059]
则，大的匹配概率值对应的流量类型为待识别数据流量z的流量类型。
[0060]
在一个实施例中，由于本技术实施例提供的方法具有强适用性和模型可替代性，因此可以使用不同的算法来训练模型得到流量类型识别模型，比如向量机(support vector machine,svm)、l1正则化的逻辑回归算法(l1
‑
logistic regression)、随机森林(random forest,rf)、梯度提升决策树算法和极端梯度提升(extreme gradient boosting,xgboost)算法等，本技术对此不作限定。
[0061]
在一个实施例中，请参见图3，在调用流量类型识别模型识别待识别数据流量的流量类型之前，还包括建立流量类型识别模型的步骤，该步骤具体包括以下内容：
[0062]
s301、获取数据流量训练样本集，所述数据流量训练样本集中包括多个数据流量样本和每个数据流量样本的流量类型，所述数据流量训练样本集中的任一数据流量样本是基于quic协议生成的数据流量，所述数据流量训练样本集中的任一数据流量样本均包括quic属性信息和网域名称系统信息。
[0063]
在一个实施例中，数据流量训练样本集包括多个数据流量样本，任一数据流量样本是基于quic协议生成的，因此数据流量训练样本集包括的多个数据流量样本均为加密数据流量，其中多个数据流量样本中每个数据流量样本的流量类型为正常数据流量和恶意数据流量。
[0064]
在一个实施例中，在对原始流量类型识别模型进行训练之前，如图4所示，还包括以下步骤：首先通过在机房的交换机处部署分光设备，从而捕获机房全部分光数据流量；接着进行筛选得到基于quic协议生成的数据流量，并进行流量过滤提取出基于quic协议生成的数据流量中的quic数据流量，对quic数据流量进行解密后送入非加密流量检测系统；依据非加密流量检测系统识别出的结果对quic数据流量进行分类，这里的分类主要是将quic数据流量分为恶意数据流量和正常数据流量；然后将分类后的quic数据流量中的quic属性信息与目的ip地址相关的网域名称系统信息进行关联；最后对关联后的数据进行数据预处理，得到数据流量的流量特征，数据预处理为上述实施例说明的标准化处理。通过这种方式，可以得到海量的数据流量样本，该样本可以用于训练原始流量类型识别模型，使得训练后得到的流量类型识别模型可以准确有效地识别待识别数据流量的流量类型。
[0065]
在一个实施例中，数据流量训练样本集中每个数据流量样本中具有quic数据流量，quic数据流量为了安全起见，一般仅有少部分数据是未加密的，这些数据主要是在建立
连接时产生的，因此提取quic数据流量中包括的未加密的特殊字段作为quic属性信息，同时通过选取和目的ip地址相关的网域名称系统信息。
[0066]
在一个实施例中，quic数据流量在建立连接时产生的握手包是未加密的，以gquic version q035为例，一个终端设备发出chlo包，其包含了多个未加密字段，如图5所示，可以从该chlo包中提取以下特征字段作为模型输入：服务器名字指示(server name indication,sni)、客户端的用户代理和quic联合属性。其中，quic联合属性包括quic版本ver、填充pad、源地址令牌stk、公共证书集ccs、客户名单none、认证加密算法aead、服务器配置账号scid、连接身份截断tcid、验证要求pdmd、支持最大报头列表smhl、空闲连接状态的生命周期icsl、客户证明nonp、密钥交换的公共值pubs、最大传入动态流mids、无提示关闭超时scls、密钥交换算法kexs、预期的叶子证书xlct、签名证书时间戳csct、连接选项copt、缓存证书ccrt、自动初始往返时延irrt、初始的会话/连接流控制接收窗口cfcw、初始流流量控制接收窗口sfcw中的一个或多个。
[0067]
在一个实施例中，在得到quic联合属性字段后，调用信息
‑
摘要算法(message
‑
digest algorithm,md5)对quic联合属性字段进行加密，得到由4组32位长度的散列值，通过级联得到128字节长度的quic联合属性的数据指纹。还可以用md4加密算法、url加密算法、js加密算法等，本技术对此不作限定。
[0068]
在一个实施例中，quic属性信息还包括quic数据流量的大小、quic数据流量的多个数据报的到达时间序列中的一个或多个。例如，在分析quic数据流量的大小时主要看64字节左右的小的数据包和1500字节左右的大的数据包，在正常数据流量中，这两种数据包的分布比例应该都是较小的。
[0069]
在一个实施例中，数据分析表明，恶意数据流量与正常数据流量在网域名称系统信息中的区别主要体现在网际协议数、生存时间(time to live,ttl)、alexa网站排名、域名长度、域名数字字符和非字母数字字符的比例上。例如，正常数据流量的ttl值一般为60、300、20、30；而恶意数据流量多为300，大约22％的网域名称系统响应汇总ttl为100，而这在正常数据流量中很罕见。恶意的网域名称系统响应报文中，最常见的ttl值是100，300，60，其中正常网域名称系统响应报文的ttl值从未使用过100。其中网域名称系统信息可以从服务器名字指示(server name indication,sni)字段获取。
[0070]
s302、将所述每个数据流量样本中的quic属性信息和网域名称系统信息组合为所述每个数据流量样本的流量特征。
[0071]
在一个实施例中，如表1所示，将每个数据流量样本中的quic属性信息和网域名称系统信息组合为每个数据流量样本的流量特征，其中，quic属性信息包括：客户端的用户代理、quic联合属性的数据指纹、quic数据流量的大小、quic数据流量的多个数据报的到达时间序列中的一个或多个；网域名称系统信息包括：网际协议数、生存时间、alexa网站排名、域名长度、域名数字字符和非字母数字字符的比例中的一个或多个。
[0072]
表1
[0073][0074]
s303、利用每个数据流量样本的流量特征和每个数据流量样本的流量类型对原始流量类型识别模型进行训练，得到流量类型识别模型。
[0075]
在一个实施例中，原始流量类型识别模型可以为向量机(support vector machine,svm)、l1正则化的逻辑回归算法(l1
‑
logistic regression)、随机森林(random forest,rf)、梯度提升决策树算法和极端梯度提升(extreme gradient boosting,xgboost)算法等，本技术对此不作限定。通过数据流量训练样本集中每个数据流量样本的流量特征和对应的流量类型对原始流量类型识别模型进行训练，例如利用数据流量训练样本集基于梯度提升决策树算法依次训练多个分类回归树，得到最终的流量类型识别模型。
[0076]
具体地，在利用数据流量训练样本集训练原始流量类型识别模型时，本技术将每个数据流量样本的流量类型划分为正常数据流量和恶意数据流量，其中恶意数据流量包括如：特洛伊木马、勒索软件、感染式病毒、蠕虫病毒、下载器及其他恶意软件等。
[0077]
在本技术实施例中，通过获取带有流量类型的数据流量训练样本集，并提取数据流量训练样本集中的每个数据流量样本的流量特征，从而基于每个数据流量样本的流量特征和流量类型对原始流量类型识别模型进行训练，使得到的流量类型识别模型能够识别待识别数据流量的流量类型。
[0078]
在一个实施例中，所述获取数据流量训练样本集，包括：获取多个原始数据流量样本和每个原始数据流量样本的协议标识；根据所述每个原始数据流量样本的协议标识从所述多个原始数据流量样本中提取由quic协议生成的多个数据流量样本；获取每个数据流量样本的流量类型，将多个数据流量样本和每个数据流量样本的流量类型组合为数据流量训练样本集。
[0079]
在一个实施例中，需要获取多个原始数据流量样本和每个原始数据流量样本的协议标识。每个原始数据流量样本的协议标识为数据流量样本区别于其他数据流量样本的标识，可以为预设标识位或者就是该数据流量样本的协议名称等。
[0080]
在一个实施例中，为了获取原始数据流量样本，可以在网络中的交换机处架设捕包平台，例如，将安装了sniffer软件的主机接入到交换机的某个端口(目的映射端口des
‑
tination span port)，然后将其它需要采集流量的交换机端口(可不在同一交换机上)流量映射到此端口，从而通过对一个端口的扫描就可以采集到多个端口的数据流量，或者通过在交换机处部署分光设备，来捕获网络中的数据流量，本技术对原始数据流量样本的获取方式不作限定。
[0081]
在一个实施例中，在获取到原始数据流量样本后可以利用基于网络端口号的流量识别技术、基于深度包检测(deep packet inspection,dpi)的流量识别技术、基于动态流检测(dynamicflow inspection,dfi)的流量识别技术或基于主机行为的流量识别技术等识别原始数据流量样本的协议类型。基于网络端口号的流量识别技术主要是根据互联网分配号码机构(internet assigned numbers authority,iana)端口号列表的信息，通过检查数据包中源端口号或目的端口号的方法分析出数据流量使用的协议。例如ftp服务登记分配的端口号是21，http协议的网页应用的端口为80，常用的电子邮箱协议smtp的端口号为25。dpi技术主要是通过分析数据流量中数据包的有效载荷，判断有效载荷部分和目前己知协议在某些特征字上是否能够匹配。
[0082]
在一个实施例中，在获取到每个数据流量样本的协议标识后，提取基于quic协议生成的数据流量样本，并进一步对每个数据流量样本进行解密，通过解密后的明文获取每个数据流量样本的流量类型，将多个数据流量样本和每个数据流量样本的流量类型组合为数据流量训练样本集。
[0083]
在一个实施例中，所述获取每个数据流量样本的流量类型，包括：利用密钥交换算法生成的共享密钥对所述每个数据流量样本分别进行解密，得到所述每个数据流量样本的明文数据流量；利用入侵检测方法检测所述每个数据流量样本的明文数据流量，确定所述每个数据流量样本的流量类型。
[0084]
在一个实施例中，密钥交换算法生成的共享密钥是quic协议能提供安全传输的一个不可或缺的条件，因此可以通过共享密钥对数据流量样本进行加密。同时，当接收到数据流量样本时，可以通过密钥交换算法生成的共享密钥对每个数据流量样本进行解密，从而得到所述每个数据流量样本的明文数据流量。
[0085]
在一个实施例中，quic协议的共享密钥使得的密钥交换算法主要是dh(diffie hellman)算法，该算法基于密钥协商机制，由终端设备与服务器共同产生一个对它们来说是各自私有的密钥，通过组合各自私有的密钥，终端设备与服务器会共同产生一个共享密钥。当服务端向客户端或者客户端向服务器发送每个数据流量样本包括的数据包进行密钥协商时，可以通过dh算法生成的共享密钥对每个数据流量样本进行解密，从而得到每个数据流量样本进行解密后的明文数据流量。
[0086]
在一个实施例中，利用入侵检测方法检测每个数据流量样本的明文数据流量，确定所述每个数据流量样本的流量类型。
[0087]
具体地，入侵检测方法可以通过解密后的数据流量样本的明文数据流量确定数据流量样本是否存在异常，例如利用基于用户行为概率统计模型的入侵检测、基于神经网络的入侵检测方法、基于专家系统的入侵检测技术和基于模型推理的入侵检测技术等，并将检测出存在异常的数据流量样本作为恶意数据流量，相反则为正常数据流量。其中，异常的
数据流量样本是指数据流量的行为不符合预期的正常行为模式。异常数据流量的出现，意味着网络中可能存在某些未经授权的信息访问和数据操作。例如拒绝服务(denial of service,dos)攻击使相应的服务器过载、蠕虫和病毒通过网络利用己知漏洞对主机进行特权访问与攻击等。
[0088]
通过本技术实施例，利用可解密的数据流量来区分解密前的恶意数据流量和正常数据流量，可以弥补基于quic协议生成的恶意数据流量目前难以收集的缺陷。
[0089]
在一个实施例中，待识别数据流量包括quic数据流量，所述quic数据流量包括所述quic属性信息和所述网域名称系统信息；所述quic属性信息包括：客户端的用户代理、quic联合属性的数据指纹、所述quic数据流量的大小、所述quic数据流量的多个数据报的到达时间序列中的一个或多个；所述网域名称系统信息包括：网际协议数、生存时间、alexa网站排名、域名长度、域名数字字符和非字母数字字符的比例中的一个或多个。
[0090]
在一个实施例中，待识别数据流量为了安全起见，一般仅有少部分数据是未加密的，这些数据主要是在建立连接时产生的，因此提取quic数据流量中包括的未加密的特殊字段作为quic属性信息，同时通过选取和目的ip地址相关的网域名称系统信息。
[0091]
在一个实施例中，quic数据流量在建立连接时产生的握手包是未加密的，以gquic version q035为例，一个终端设备发出chlo包，包含了多个未加密字段，如图5所示，可以从该chlo包中提取以下特征字段作为模型输入：服务器名字指示(server name indication,sni)、客户端的用户代理和quic联合属性。其中，quic联合属性包括quic版本ver、填充pad、源地址令牌stk、公共证书集ccs、客户名单none、认证加密算法aead、服务器配置账号scid、连接身份截断tcid、验证要求pdmd、支持最大报头列表smhl、空闲连接状态的生命周期icsl、客户证明nonp、密钥交换的公共值pubs、最大传入动态流mids、无提示关闭超时scls、密钥交换算法kexs、预期的叶子证书xlct、签名证书时间戳csct、连接选项copt、缓存证书ccrt、自动初始往返时延irrt、初始的会话/连接流控制接收窗口cfcw、初始流流量控制接收窗口sfcw中的一个或多个。
[0092]
在一个实施例中，在得到quic联合属性字段后，调用信息
‑
摘要算法(message
‑
digest algorithm,md5)对quic联合属性字段进行加密，得到由4组32位长度的散列值，通过级联得到128字节长度的quic联合属性的数据指纹。还可以用md4加密算法、url加密算法、js加密算法等，本技术对此不作限定。
[0093]
其中，quic属性信息还包括quic数据流量的大小、quic数据流量的多个数据报的到达时间序列中的一个或多个。例如，在分析quic数据流量的大小时主要看64字节左右的小的数据包和1500字节左右的大的数据包，在正常数据流量中，这两种数据包的分布比例应该都是较小的。
[0094]
在一个实施例中，恶意数据流量与正常数据流量在网域名称系统信息中的区别主要体现在网际协议数、生存时间(time to live,ttl)、alexa网站排名、域名长度、域名数字字符和非字母数字字符的比例上。例如，正常数据流量的ttl值一般为60、300、20、30；而恶意数据流量多为300，大约22％的网域名称系统响应汇总ttl为100，而这在正常数据流量中很罕见。恶意的网域名称系统响应报文中，最常见的ttl值是100，300，60，其中正常网域名称系统响应报文的ttl值从未使用过100。其中网域名称系统信息可以从服务器名字指示(server name indication,sni)字段获取。
[0095]
在一个实施例中，对原始流量类型识别模型进行训练，得到流量类型识别模型后，还可以通过流量类型识别模型对基于quic协议生成的数据流量进行异常检测，计算出模型的召回率和准确率，不断改进特征提取和参数调优，人工介入将模型输出的误报和漏报加入流量类型识别模型的特征工程，迭代优化更新流量类型识别模型。
[0096]
在一个实施例中，如图6所示，提供了一种数据处理方法的流程示意图，其中，数据流量捕获模块用于得到多个原始数据流量样本，在得到多个原始数据流量样本后对原始数据流量样本进行解密；接着调用流量检测模块识别基于quic协议生成的数据流量样本，并根据解密后的数据流量样本识别数据流量样本的流量类型，将流量类型与数据流量样本进行关联，从而得到带有流量类型标签的数据流量样本集；对该样本集中包括的数据流量样本提取quic属性信息和网域名称系统信息，并将quic属性信息和网域名称系统信息进行组合作为数据流量样本的流量特征；对数据流量样本的流量特征进行数据预处理，数据预处理主要为上述实施例中说明的标准化处理；再对数据预处理后的数据流量样本的流量特征输入机器学习模型，同时结合数据流量样本的流量类型对机器学习模型进行训练，得到输出的模型，即流量类型识别模型，具体的训练过程在上述实施例中已详细说明，本实施例不再赘述。当有数据流量识别任务到来时，提取待识别数据流量的流量特征，并启动输出的模型进行数据流量的流量类型识别，从而判断待识别数据流量是否是恶意数据流量，并将得到的恶意数据流量的结果在结果展示界面中进行展示。本技术实施例中的其它具体步骤，在上述实施例中已详细说明，本实施例不再赘述。
[0097]
如图7所示，图7是本技术实施例提供的一种数据处理装置的结构示意图，所述装置包括：
[0098]
获取模块701，用于获取待识别数据流量，所述待识别数据流量是基于快速用户数据报协议网络连接quic协议生成的数据流量，所述待识别数据流量中包含quic属性信息和网域名称系统信息；
[0099]
处理模块702，用于将所述待识别数据流量中的quic属性信息和网域名称系统信息组合为所述待识别数据流量的流量特征；
[0100]
处理模块702，还用于调用流量类型识别模型识别所述待识别数据流量的流量特征，得到所述待识别数据流量的流量类型，输出所述待识别数据流量的流量类型。
[0101]
在一个实施例中，所述处理模块702，具体用于：
[0102]
对所述待识别数据流量的流量特征进行标准化处理，得到标准化流量特征；
[0103]
则所述调用流量类型识别模型识别所述流量特征，得到所述待识别数据流量的流量类型，包括：
[0104]
调用流量类型识别模型识别所述标准化流量特征，得到所述待识别数据流量的流量类型。
[0105]
在一个实施例中，所述处理模块702，具体用于：
[0106]
调用流量类型识别模型中的多个分类回归树集识别所述标准化流量特征，得到所述标准化流量特征在每个分类回归树集的预测结果，每个预测结果包括所述标准化流量特征与多种流量类型之间的匹配概率集合；
[0107]
基于多个预测结果确定所述待识别数据流量的流量类型。
[0108]
在一个实施例中，所述处理模块702，具体用于：
[0109]
获取数据流量训练样本集，所述数据流量训练样本集中包括多个数据流量样本和每个数据流量样本的流量类型，所述数据流量训练样本集中的任一数据流量样本是基于quic协议生成的数据流量，所述数据流量训练样本集中的任一数据流量样本均包括quic属性信息和网域名称系统信息；
[0110]
将所述每个数据流量样本中的quic属性信息和网域名称系统信息组合为所述每个数据流量样本的流量特征；
[0111]
利用每个数据流量样本的流量特征和每个数据流量样本的流量类型对原始流量类型识别模型进行训练，得到流量类型识别模型。
[0112]
在一个实施例中，所述处理模块702，具体用于：
[0113]
获取多个原始数据流量样本和每个原始数据流量样本的协议标识；
[0114]
根据所述每个原始数据流量样本的协议标识从所述多个原始数据流量样本中提取由quic协议生成的多个数据流量样本；
[0115]
获取每个数据流量样本的流量类型，将多个数据流量样本和每个数据流量样本的流量类型组合为数据流量训练样本集。
[0116]
在一个实施例中，所述处理模块702，具体用于：
[0117]
所述获取每个数据流量样本的流量类型，包括：
[0118]
利用密钥交换算法生成的共享密钥对所述每个数据流量样本分别进行解密，得到所述每个数据流量样本的明文数据流量；
[0119]
利用入侵检测方法检测所述每个数据流量样本的明文数据流量，确定所述每个数据流量样本的流量类型。
[0120]
在本技术实施例中，通过提取基于quic协议生成的待识别数据流量中的quic属性信息和网域名称系统信息，并将其组合作为待识别数据流量的流量特征，接着通过调用流量类型识别模型对待识别数据流量的流量特征进行识别，从而得到待识别数据流量的流量类型，可以准确有效地识别基于quic协议生成的数据流量的流量类型。
[0121]
如图8所示，图8是本技术实施例提供的一种计算机设备的结构示意图，该设备内部结构如图8所示，包括：一个或多个处理器801、存储器802、通信接口803。上述处理器801、存储器802和通信接口803可通过总线804或其他方式连接，本技术实施例以通过总线804连接为例。
[0122]
其中，处理器801(或称cpu(central processing unit，中央处理器))是计算机设备的计算核心以及控制核心，其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据，例如：cpu可以用于解析用户向计算机设备所发送的开关机指令，并控制计算机设备进行开关机操作；再如：cpu可以在计算机设备内部结构之间传输各类交互数据，等等。通信接口803可选的可以包括标准的有线接口、无线接口(如wi
‑
fi、移动通信接口等)，受处理器801的控制用于收发数据。存储器802(memory)是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器802既可以包括计算机设备的内置存储器，当然也可以包括计算机设备所支持的扩展存储器。存储器802提供存储空间，该存储空间存储了计算机设备的操作系统，可包括但不限于：windows系统、linux系统等等，本技术对此并不作限定。
[0123]
在一个实施例中，所述处理器801，具体用于：
access memory,ram)等。
[0144]
本技术一个或多个实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。
[0145]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种基于空分波分复用的分布式测量系统及方法与流程
下一篇：路由确定方法及装置与流程

一种数据处理方法、装置、设备及存储介质与流程

相关文献

最热文献