一种从大数据中提取用于网络安全的训练数据方法和装置与流程

2021-12-17 21:58:00 来源：中国专利 TAG：

1.本技术涉及到网络安全领域，具体而言，涉及一种从大数据中提取用于网络安全的训练数据方法和系统。

背景技术：

2.在现有技术中，一般是采用规则来判断是否发起了网络攻击。这种采用规则的判断方法需要规则的建立比较完善。这些规则都是靠人工来进行制定的。这依赖于制定规则的人的经验。
3.随着人工智能的发展，在网络安全领域希望使用机器学习的方式来代替人为规则的制定，但是机器学习的训练需要大量的训练数据，对于这些训练数据的收集目前均是靠人工进行收集和打标签，这种基于网络安全训练数据的收集方式效率比较低。

技术实现要素：

4.本技术实施例提供了一种从大数据中提取用于网络安全的训练数据方法和系统，以至少解决人工收集网络安全训练数据所导致的效率比较低的问题。
5.根据本技术的一个方面，提供了一种从大数据中提取用于网络安全的训练数据方法，包括：抓取来自网络的数据包并进行缓存；获取防火墙的判断结果，以及所述判断结果发生的第一时间，其中，所述判断结果用于指示所述防火墙受到网络攻击；从缓存的数据包中获取从所述第一时间开始向前的预定时长内的所有数据包；将获取到的所有数据包按照接收数据包的时间先后进行排序；将排序后的数据包作为一组数据包，并为所述一组数据包打上标签，其中，所述标签用于指示该组数据包的出现伴随了网络攻击的发生；将所述一组数据包和所述标签作为训练数据进行保存。
6.进一步地，将所述一组数据包和所述标签作为训练数据进行保存包括：获取训练数据服务器的网络地址；根据所述网络地址将所述一组数据包和所述标签作为一组训练数据发送至所述训练数据服务器进行保存。
7.进一步地，所述方法还包括：所述训练数据服务器判断其接收的训练数据的组数是否超过阈值，其中，所述阈值为预先配置的；所述训练数据服务器在所述训练数据的组数超过所述阈值的情况下，将保存的所有训练数据发送至机器学习服务器进行训练。
8.进一步地，将所述一组训练数据发送至所述训练数据服务器进行保存之后，所述方法还包括：清空缓存的所有数据包，并重新开始抓取数据并进行缓存。
9.根据本技术的另一个方面，还提供了一种从大数据中提取用于网络安全的训练数据系统，包括：第一软件，其中，所述第一软件包括：抓取模块，用于抓取来自网络的数据包并进行缓存；第一获取模块，用于获取防火墙的判断结果，以及所述判断结果发生的第一时间，其中，所述判断结果用于指示所述防火墙受到网络攻击；第二获取模块，用于从缓存的数据包中获取从所述第一时间开始向前的预定时长内的所有数据包；排序模块，用于将获取到的所有数据包按照接收数据包的时间先后进行排序；标签模块，用于将排序后的数据
包作为一组数据包，并为所述一组数据包打上标签，其中，所述标签用于指示该组数据包的出现伴随了网络攻击的发生；保存模块，用于将所述一组数据包和所述标签作为训练数据进行保存。
10.进一步地，所述保存模块用于：获取训练数据服务器的网络地址；根据所述网络地址将所述一组数据包和所述标签作为一组训练数据发送至所述训练数据服务器进行保存。
11.进一步地，还包括：训练数据服务器，其中，所述训练数据服务器用于判断其接收的训练数据的组数是否超过阈值，其中，所述阈值为预先配置的；所述训练数据服务器还用于在所述训练数据的组数超过所述阈值的情况下，将保存的所有训练数据发送至机器学习服务器进行训练。
12.进一步地，将所述一组训练数据发送至所述训练数据服务器进行保存之后，所述抓取模块还用于：清空缓存的所有数据包，并重新开始抓取数据并进行缓存。
13.进一步地，还包括：机器学习服务器，其中，所述机器学习服务器用于使用接收到的训练数据对机器学习模型进行训练。
14.进一步地，所述第一软件为所述防火墙。
15.在本技术实施例中，采用了抓取来自网络的数据包并进行缓存；获取防火墙的判断结果，以及所述判断结果发生的第一时间，其中，所述判断结果用于指示所述防火墙受到网络攻击；从缓存的数据包中获取从所述第一时间开始向前的预定时长内的所有数据包；将获取到的所有数据包按照接收数据包的时间先后进行排序；将排序后的数据包作为一组数据包，并为所述一组数据包打上标签，其中，所述标签用于指示该组数据包的出现伴随了网络攻击的发生；将所述一组数据包和所述标签作为训练数据进行保存。通过本技术解决了人工收集网络安全训练数据所导致的效率比较低的问题，从而提高了网络安全训练数据收集的效率。
附图说明
16.构成本技术的一部分的附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
17.图1是根据本技术实施例的从大数据中提取用于网络安全的训练数据方法的流程图。
具体实施方式
18.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
19.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
20.在本实施例中提供了一种从大数据中提取用于网络安全的训练数据方法，图1是根据本技术实施例的从大数据中提取用于网络安全的训练数据方法的流程图，如图1所示，该流程包括如下步骤：
21.步骤s102，抓取来自网络的数据包并进行缓存；
22.作为一个可以增加的实施方式，抓取并进行缓存的时候设定一个时间长度，该时间长度可以是步骤s106中的预定时长，也可以比步骤s106中的预定时长更长。在所述时间长度内的数据包均进行缓存，在所述时间长度内没有接收到防火墙发送的用于指示防火墙受到网络攻击的情况下，丢弃在所述时间长度之前的缓存的所有数据包。例如，所述时间长度为一个小时，在1点01分抓取数据包之后，判断在12点01分和1点01分之间没有受到网络攻击，则将12点01分之前缓存的所有数据包均丢弃。在1点02分抓取数据包之后，判断在12点02分和1点02分之间没有受到网络攻击，则将12点02分之前缓存的所有数据包均丢弃。
23.可选地，在所述时间长度内没有受到网络攻击的情况下，将所述时间长度内的所有数据包分为n组，所述n组中的每一组数据包均配置上标签，所述标签用于指示该组数据包不包括用于网络攻击的数据包，将所述n组数据包也发送至训练数据服务器进行训练。
24.所述训练数据服务器在接收到标签为不包括用于网络攻击的数据包的n组数据包之后，将所述n组数据包和对应的标签进行保存。所述训练数据服务器从所述n组数据包中随机选择k组数据包和对应的标签作为训练数据发送给机器学习服务器进行训练。其中，所述n大于等3，所述时间长度小于等于1小时，所述k小于等于2。
25.步骤s104，获取防火墙的判断结果，以及所述判断结果发生的第一时间，其中，所述判断结果用于指示所述防火墙受到网络攻击；
26.步骤s106，从缓存的数据包中获取从所述第一时间开始向前的预定时长内的所有数据包；步骤s108，将获取到的所有数据包按照接收数据包的时间先后进行排序；
27.步骤s110，将排序后的数据包作为一组数据包，并为所述一组数据包打上标签，其中，所述标签用于指示该组数据包的出现伴随了网络攻击的发生；
28.作为一个可选的实施方式，判断所述一组数据包中的数据包的个数是否超过预定数量，在超过所述预定数量的情况下，获取排序后的数据包中的每个数据包的源网络地址和端口，将所述源网络地址和端口在白名单中的数据包从所述排序后的数据包中进行删除，将删除后的一组数据包打上所述标签，其中，所述白名单中保存的源网络地址和端口为安全的网络地址和端口，所述白名单中保存的源网络地址和端口为预先配置的。
29.步骤s112，将所述一组数据包和所述标签作为训练数据进行保存。
30.保存可以在本地保存，也可以获取训练数据服务器的网络地址；根据所述网络地址将所述一组数据包和所述标签作为一组训练数据发送至所述训练数据服务器进行保存。可选地，所述训练数据服务器判断其接收的训练数据的组数是否超过阈值，其中，所述阈值为预先配置的；所述训练数据服务器在所述训练数据的组数超过所述阈值的情况下，将保存的所有训练数据发送至机器学习服务器进行训练。
31.作为另一个可选的实施方式，将所述一组训练数据发送至所述训练数据服务器进行保存之后，还可以清空缓存的所有数据包，并重新开始抓取数据并进行缓存。
32.通过上述步骤解决了人工收集网络安全训练数据所导致的效率比较低的问题，从而提高了网络安全训练数据收集的效率。上述步骤可以由单独的一个软件实现，在本实施例中称为第一软件，或者也可以直接由防火墙实现，此时所述第一软件就是防火墙。
33.上述保存的训练数据可以用于多种机器学习模型的训练，下面对此进行举例说明。
34.该例子中的机器学习模型在训练收敛之后，直接输入一组数据包，就能判断出该
组数据包是否出现网络攻击。
35.该例子中获取多维度数据(即待判断是否出现网络攻击的一组数据包，并根据该组数据包计算得到的流量)；对获取到的所述多维度数据进行预处理，生成待分析数据；对所述待分析数据进行分析并生成预警报告，所述预警报告用于预告威胁；对所述待分析数据分析并生成预警报告至少包括：态势感知、实时分析预警或网络入侵攻击路径及威胁溯源分析；所述态势感知包括使用机器学习从所述待分析数据中提取正常网络状态下的流量上限(根据多组未发生网络攻击的数据包的大小可以得到正常网络状态下流量的上限)，根据所述流量上限从所述待分析数据中划分出信任的流量数据，根据所述信任的流量数据建立流量评估模型，根据所述流量评估模型评估网络流量，如果监测到异常流量则生成所述预警报告；所述实时分析预警用于对所述待分析数据中的异常数据进行预警。可选地，所述使用机器学习从所述待分析数据中提取正常网络状态下的流量上限包括记录网络的流量变化特征，根据所述流量变化特征进行基础数据建模；所述根据所述信任的流量数据建立流量评估模型包括设置时间点，针对不同时间点下的所述信任的流量数据进行学习建模。可选地，所述态势感知还包括蠕虫态势感知、木马态势感知；使用防病毒引擎监控网络流量，从而发现蠕虫病毒或木马；使用所述防病毒引擎监控蠕虫态势和木马态势。所述态势感知还包括apt攻击态势感知，所述apt攻击态势感知包括部署未知威胁态势感知传感器，利用所述未知威胁态势传感器检测通过网页、电子邮件或其他的在线文件共享方式进入网络的已知和未知恶意软件；至少利用应用层即文件层解码、智能shellcode检测、动态沙箱检检测或基于漏洞的静态检测对未知威胁感知和检测。
36.在另一个例子中，可以对多组训练数据中的数据包进行深度解析，例如，通过对原始数据包的分析，提取关键性的信息，这些数据包信息包含但不限于数据包的源地址，目标地址，
37.协议名，端口号，数据详细信息。然后使用深度解析后的数据包作为训练数据对安全规则学习引擎(该引擎为一种机器学习模型)进行训练，并生成安全规则。所述安全规则包含源地址、目标地址、规则细节、应对措施等内容。该学习引擎可以为一个或多个学习引擎，每个学习引擎可以单独学习部分或全部安全规则，当存在多个学习引擎时，某个中央学习引擎汇总所有的部分安全规则形成最终的整体安全规则。所述安全规则学习引擎使用上述训练数据包，以及网络设备类别信息和网络行为类别信息自动生成针对用户环境的安全规则。
38.在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。
39.上述程序可以运行在处理器中，或者也可以存储在存储器中(或称为计算机可读介质)，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机
可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
40.这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。
41.在本实施例中就提供了这样的一种装置，该装置被称为从大数据中提取用于网络安全的训练数据系统，包括：第一软件(例如，防火墙)，其中，所述第一软件包括：抓取模块，用于抓取来自网络的数据包并进行缓存；第一获取模块，用于获取防火墙的判断结果，以及所述判断结果发生的第一时间，其中，所述判断结果用于指示所述防火墙受到网络攻击；第二获取模块，用于从缓存的数据包中获取从所述第一时间开始向前的预定时长内的所有数据包；排序模块，用于将获取到的所有数据包按照接收数据包的时间先后进行排序；标签模块，用于将排序后的数据包作为一组数据包，并为所述一组数据包打上标签，其中，所述标签用于指示该组数据包的出现伴随了网络攻击的发生；保存模块，用于将所述一组数据包和所述标签作为训练数据进行保存。
42.该系统或者装置用于实现上述的实施例中的方法的功能，该系统或者装置中的每个模块与方法中的每个步骤相对应，已经在方法中进行过说明的，在此不再赘述。
43.例如，所述保存模块用于：获取训练数据服务器的网络地址；根据所述网络地址将所述一组数据包和所述标签作为一组训练数据发送至所述训练数据服务器进行保存。可选地，将所述一组训练数据发送至所述训练数据服务器进行保存之后，所述抓取模块还用于：清空缓存的所有数据包，并重新开始抓取数据并进行缓存。
44.例如，上述系统还可以包括：训练数据服务器，其中，所述训练数据服务器用于判断其接收的训练数据的组数是否超过阈值，其中，所述阈值为预先配置的；所述训练数据服务器还用于在所述训练数据的组数超过所述阈值的情况下，将保存的所有训练数据发送至机器学习服务器进行训练。可选地，还可以包括：机器学习服务器，其中，所述机器学习服务器用于使用接收到的训练数据对机器学习模型进行训练。
45.通过本实施例解决了人工收集网络安全训练数据所导致的效率比较低的问题，从而提高了网络安全训练数据收集的效率。
46.以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种线阵Bayer转面阵Bayer格式图像的获取方法及装置与流程

一种从大数据中提取用于网络安全的训练数据方法和装置与流程

相关文献

最热文献