一种数据存储方法、装置、电子设备及计算机存储介质与流程

2022-12-19 23:55:35 来源：中国专利 TAG：

1.本发明涉及数据存储以及网络安全技术领域，具体而言，本发明涉及一种数据存储方法、装置、电子设备及计算机存储介质。

背景技术：

2.对于数据量大的数据，通常采用传统的http、syslog、snmp等协议方式接入数据处理平台进行处理，由于不同的数据的数据类型可能不同，不同类型的数据对应的数据处理平台也可能不同，因此，直接将数据接入数据处理平台，不便于数据的后续处理，且降低数据处理效率。

技术实现要素：

3.本发明所要解决的技术问题是提供了一种数据存储方法、装置、电子设备及计算机存储介质，旨在解决上述至少一个技术问题。
4.第一方面，本发明解决上述技术问题的技术方案如下：一种数据存储方法，该方法包括：
5.获取待存储数据；
6.将待存储数据缓存至消息对列中，并确定待存储数据的数据类型；
7.按照数据类型，将待存储数据存储至数据类型对应的数据库中。
8.本发明的有益效果是：将待存储数据缓存至消息队列中，然后确定待存储数据的数据类型，这样按照数据类型，将待存储数据存储至数据类型对应的数据库中，可以便于对待存储数据的后续处理，提高后续对待存储数据的处理效率。
9.在上述技术方案的基础上，本发明还可以做如下改进。
10.进一步，上述消息对列为kafka消息队列。
11.采用上述进一步方案的有益效果是，可将kafka作为消息对列，kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。
12.进一步，上述确定待存储数据的数据类型，包括：
13.提取待存储数据中的数据类型特征；
14.根据数据类型特征，确定待存储数据的数据类型。
15.采用上述进一步方案的有益效果是，根据数据类型特征可准确的确定待存储数据的数据类型。
16.进一步，该方法还包括：将待存储数据进行分布式文件存储。
17.采用上述进一步方案的有益效果是，将待存储数据进行分布式文件存储，可便于后续对待存储数据的溯源。
18.进一步，该方法还包括：将待存储数据进行分布式检索存储。
19.采用上述进一步方案的有益效果是，将待存储数据进行分布式检索存储，可实现对待存储数据的备份。
20.进一步，上述分布式检索存储为es存储方式。
21.采用上述进一步方案的有益效果是，es存储方式相较于其他存储方式，存储方式较快。
22.进一步，上述待存储数据为针对待检测对象的待处理网络安全数据，该方法还包括：
23.对待处理网络安全数据进行网络安全感知处理，得到处理结果。
24.采用上述进一步方案的有益效果是，对待处理网络安全数据进行网络安全感知处理，可以满足更多的业务需求。
25.第二方面，本发明为了解决上述技术问题还提供了一种数据存储装置，该装置包括：
26.数据获取模块，用于获取待存储数据；
27.数据类型确定模块，用于将待存储数据缓存至消息对列中，并确定待存储数据的数据类型；
28.第一数据存储模块，用于按照数据类型，将待存储数据存储至数据类型对应的数据库中。
29.第三方面，本发明为了解决上述技术问题还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现本技术的数据存储方法。
30.第四方面，本发明为了解决上述技术问题还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本技术的数据存储方法。
31.本技术附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
32.为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
33.图1为本发明一个实施例提供的一种数据存储方法的流程示意图；
34.图2为本发明一个实施例提供的一种存储系统示意图；
35.图3为本发明一个实施例提供的一种异常网络行为的分析流程示意图；
36.图4为本发明一个实施例提供的一种攻击事件识别过程的示意图；
37.图5为本发明一个实施例提供的一种数据存储装置的结构示意图；
38.图6为本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
39.以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
40.下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或
过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。
41.本发明实施例所提供的方案可以适用于任何需要进行数据存储的应用场景中。本发明实施例所提供的方案可以由任一电子设备执行，比如，可以是用户的终端设备，上述终端设备可以是任何可以安装应用，并可通过应用进行数据存储的终端设备，包括以下至少一项：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。
42.本发明实施例提供了一种可能的实现方式，如图1所示，提供了一种数据存储方法的流程图，该方案可以由任一电子设备执行，例如，可以是终端设备，或者由终端设备和服务器共同执行。为描述方便，下面将以服务器作为执行主体为例对本发明实施例提供的方法进行说明，如图1中所示的流程图，该方法可以包括以下步骤：
43.步骤s110，获取待存储数据；
44.步骤s120，将待存储数据缓存至消息对列中，并确定待存储数据的数据类型；
45.步骤s130，按照数据类型，将待存储数据存储至数据类型对应的数据库中。
46.通过本发明的方法，将待存储数据缓存至消息队列中，然后确定待存储数据的数据类型，这样按照数据类型，将待存储数据存储至数据类型对应的数据库中，可以便于对待存储数据的后续处理，提高后续对待存储数据的处理效率。
47.下面结合以下具体的实施例，对本发明的方案进行进一步的说明，在该实施例中，数据存储方法可以包括以下步骤：
48.步骤s110，获取待存储数据。
49.其中，待存储数据可以是不同格式的数据，也可以是从不同平台获取的数据，比如，待存储数据可以是flume接收到的流式数据和来自sqoop的结构化数据，还可以是spark引擎和flink引擎计算出来的结果数据。
50.步骤s120，将待存储数据缓存至消息对列中，并确定待存储数据的数据类型。
51.具体的，可将待存储数据的来源平台与消息对列之间建立连接关系，则通过该连接关系可将该待存储数据缓存至消息对列中，该消息对列可以为kafka消息对列。
52.可选的，如果待存储数据中包括多种消息主题的数据，则可按照消息主题将待存储数据缓存至该消息队列中。
53.可选的，上述确定待存储数据的数据类型，包括：
54.提取待存储数据中的数据类型特征；
55.根据数据类型特征，确定待存储数据的数据类型。
56.其中，数据类型可以按照数据格式划分，也可以按照数据来源(比如，不同的平台)划分，本技术方案中不限定数据类型的具体划分方式。则数据类型特征可以是数据格式的标识，或者数据来源的标识。上述确定待存储数据的数据类型的实现方式仅是一种可选的实现方案，还可基于现有技术中的其他算法实现，在此不再赘述。
57.步骤s130，按照数据类型，将待存储数据存储至数据类型对应的数据库中。
58.其中，数据库可以为hadoop数据库，如果待存储数据中包括不同数据类型的数据，一个数据库存储一种数据类型的数据，则可将待存储数据中各个不同数据类型的数据存储至对应的数据库中。
59.可选的，该方法还包括：将待存储数据进行分布式文件存储。将待存储数据进行分
布式文件存储，可便于后续对待存储数据的溯源，溯源可包括对数据来源，经过什么处理的溯源。
60.可选的，该方法还包括：将待存储数据进行分布式检索存储。
61.将待存储数据进行分布式检索存储，可实现对待存储数据的备份。
62.可选的，上述分布式检索存储为es存储方式。es存储方式相较于其他存储方式，存储方式较快。
63.可选的，上述待存储数据还可采用其他存储方式进行存储，比如，按照数据结构类型进行存储，本技术方案中，待存储数据可支持以下三种类型的数据存储：
64.1、非结构化数据：包括所有格式的文本文件、图片、音视频等；
65.2、结构化数据：可以用二维关系表结构来表示，具备结构化数据的模式和内容；
66.3、半结构化数据：介于非结构化数据和结构化数据之间，如：html文档等。
67.基于上述不同的存储方式，可将待存储数据中的各个数据按照不同的方式进行存储，具体可参见图2所示的存储系统示意图，待存储数据中的各个数据(包括图2中所示的流量数据、日志数据、行为数据、情报数据、资产数据和其他数据)可按照不同的存储方式(包括图2中所示的非结构化数据、半结构化数据和结构化数据)进行存储，不同的存储方式还可对应不同的数据库，包括但不限于hive、hbase、hdfs、es、nosql和mysql数据库。
68.采用非结构化存储系统的hdfs、索引存储的elasticsearch、数据仓库的hive。hdfs实现底层的分布式文件系统构建，直接为hive提供可使用的文件系统。hive所保存的数据实际上是保存在hdfs中。hive实现结构化数据保存，能够运行sql实现数据查询、分析等基础操作。所有结构化数据都可以保存在hive这样一个数据仓库中。elasticsearch实现文本数据的检索查询，主要针对日志数据、系统数据，对于需要人工检索查询的数据可以直接保存在这里。
69.根据流量日志的流入速率和保留时间选择合适的存储，基于所有的网络流量，并考虑后续平台监控范围扩展，可将所有网络流量还原成的格式化数据存入hive；同时，为了快速对告警日志进行检索，可将流式计算和离线计算的结果数据送至elasticsearch组件存储。
70.可选的，上述待存储数据为针对待检测对象的待处理网络安全数据，该方法还包括：
71.对待处理网络安全数据进行网络安全感知处理，得到处理结果。
72.其中，待处理网络安全数据包括网络流量数据、僵尸网络行为相关信息、网络攻击相关信息、0day漏洞相关信息和用户行为信息。待检测对象指的是需要进行网络安全分析的对象，比如，可以是一个应用程序或一个网站。待处理网络安全数据指的是与待检测对象相关的网络数据，包括待检测对象本身的网络数据和其他对象与待检测对象之间的网络数据。
73.可选的，网络流量数据可通过网内部署的ids、ips、waf、僵木儒等安全设备日志获取。
74.在获取待处理网络安全数据之后，该方法还包括：
75.对待处理网络安全数据进行预处理，得到预处理后的网络事件数据，预处理包括数据清洗、数据格式统一处理和数据补齐处理中的至少一种。
76.其中，数据清洗指的是将待处理网络安全数据中与网络安全无关的数据清洗或过滤，数据格式统一处理指的是将待处理网络安全数据中的各个数据进行格式统一，由于待处理网络安全数据中的各个数据可能具有不同的格式，因此对待处理网络安全数据进行数据格式统一处理，可便于后续的数据处理。数据补齐处理指的是将缺失的数据补齐，由于待处理网络安全数据中的各个数据中，有的数据可能不完整，有缺失，因此，对待处理网络安全数据进行数据补齐处理，可丰富待处理网络安全数据。
77.上述数据清洗的具体实现过程为：
78.数据的清洗过滤针对数据格式的不一致、数据输入错误、数据不完整等问题，支持对数据进行转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据合并、数据拆分等，实际处理过程中可以根据实际的需求灵活选择相应的组件；
79.安全事件数据(待处理网络安全数据)清洗与过滤功能包括但不限于：
80.1、过滤重复数据；
81.2、过滤噪音数据；
82.3、过滤数据不完整或不合理性的数据；例如：时间字段越界、关键属性值缺失、关键属性值异常等。
83.通过上述数据清洗和过滤方法可过滤掉待处理网络安全数据中的重复数据、噪音数据、数据不完整或不合理性的数据等与网络安全无关的数据。
84.上述数据格式统一处理的具体实现过程为：
85.对异构原始数据(包含不同数据格式的待处理网络安全数据)进行统一格式化处理，以满足存储层数据格式定义的要求。对于被标准化(格式统一)的数据应保存原始日志。
86.上述数据标准化的原则包括但不限于：
87.1、在保证基本扩展能力的基础上，根据每种类型数据的标准库规则，实现相关字段的标准化；
88.2、对于常用的字段，保证字段内容的一致性，消除不同事件对于相似问题描述的不一致性，满足依赖于这些字段的规则的可移植性。
89.3、未被标准化的数据应保存原始日志。可用于事后为该特定数据再定义标准化规则。
90.上述数据标准化的要求包括但不限于：
91.1、支持通过正则表达式、字符串拆分等手段对原始内容进行格式化处理；
92.2、支持对特殊字段映射处理，消除不同事件对相似问题描述的不一致性。例如类型转换、时间字段统一格式等；
93.3、支持对未知的数据格式做留存处理，用于后续的定制开发。
94.上述数据补齐处理也可称为数据丰富化处理，具体实现过程为：
95.采集到的待处理网络安全数据中的各个数据之间可能存在关联性，通过关联补齐后形成完整的数据，能够丰富数据本身，以便于后期的统计分析。
96.上述数据丰富化的对象包括但不限于：
97.1、用户信息，补齐的字段包含但不限于用户名、用户所属组织结构、用户角色、联系方式等信息。
98.2、资产信息，补齐的字段包含但不限于资产名、资产ip、资产所属业务系统、资产标准系统、资产所属责任人、资产状态等信息。
99.3、威胁情报，补齐的字段包含但不限于威胁情报名称、威胁情报编号、威胁情报威胁级别、威胁情报解决方案等信息。
100.上述对待处理网络安全数据进行网络安全感知处理，得到处理结果，包括：
101.步骤s210，对网络流量数据进行异常网络流量分析，得到待检测对象的异常网络流量分析结果。
102.可选的，上述对网络流量数据进行异常网络流量分析，得到待检测对象的异常网络流量分析结果，包括：
103.提取网络流量数据的第一流量特征，第一流量特征包括攻击时间、告警标识、攻击源地址、资产地址、攻击类型和处置方式；
104.其中，攻击时间指的是攻击者对目标发起攻击的时间，告警标识指的是区分网络流量数据中不同的攻击类型的标识，攻击源地址指的是攻击者所在ip地址，资产地址指的是被攻击者的地址，攻击类型指的是攻击者对目标发起的攻击行为事件的类型，处置方式指的是发生攻击事件后发生攻击事件后，设备对应的处理方式，比如，阻断、允许。
105.根据第一流量特征，确定待检测对象的异常网络流量分析结果，上述异常网络流量分析结果包括开始时间、结束时间、流量攻击告警标识、事件类型、源地址、源端口、目的地址、目的端口、设备地址、发生事件地址、攻击源位置、攻击源位置名称、攻击源次数、事件严重程度、处理方式、总字节流量、总包流量、平均字节流量、平均包流量、峰值字节流量和告警类型中的至少一项。
106.其中，异常网络流量可以为大于第一设定流量的网络流量，或者，小于第二设定流量的网络流量，开始时间指的是异常网络流量开始的时间，即攻击发生的时间，结束时间指的是异常网络流量结束的时间，即攻击结束的时间，流量攻击告警标识指的是用于区分流量数据中不同的攻击类型的区分标识，事件类型指的是攻击者发起的不同的攻击行为事件的类型，源地址指的是攻击源所在ip地址，源端口指的是攻击源所用端口，目的地址指的是攻击者攻击的ip地址，目的端口指的是攻击者攻击的端口，设备地址指的是检测设备的ip地址，发生事件地址指的是攻击者所在ip地址，攻击源位置指的是攻击者所在地区，攻击源位置名称指的是攻击者所在地区名称，攻击源次数指的是攻击者进行的攻击次数，事件严重程度指的是攻击事件的严重程度，可分为高危、中危、低危，处理方式指的是发生攻击事件后，对应的处理方式，总字节流量指的是总的流量数据字节大小，总包流量指的是总包的流量数据大小，平均字节流量指的是攻击周期内的平均数据字节大小，平均包流量指的是攻击周期内的平均包的流量数据大小，峰值字节流量指的是攻击周期内的最大的字节流量，告警类型指的是流量数据中不同的威胁类型。
107.其中，上述网络流量数据可包括流量检测类流量攻击告警日志，对攻击事件的关键字段、时间范围、物理位置进行基于机器学习的大数据统计分析，为安全人员排查安全设备告警误报、准确定位攻击来源提供参考。
108.可选的，参见图3所示的异常网络行为的分析流程示意图，包括五个部分，分别为：数据收集、特征提取、数据分析、结果输出、研判与模型更新，下面对各个部分进行说明：
109.1、数据收集
110.获取网络流量数据，该网络流量数据可以为安全设备流量检测告警日志数据。主要通过收集网内部署的ids、ips、waf、僵木儒等安全设备日志获取；
111.2、特征提取
112.提取网络流量数据的第一流量特征，第一流量特征包括攻击时间、告警标识、攻击源地址、资产地址、攻击类型和处置方式；
113.3、数据分析
114.具体分为：训练集提取、特征工程和模型训练，具体如下：
115.1)、训练集提取
116.获取已知的告警信息，已知的告警信息指的是出现网络流量异常的告警信息，包括但不限于ids告警、waf告警、ips告警等攻击事件日志；
117.通过人工方式研判该告警信息，并输出结果，区分告警信息的良性与恶性，即告警等级；
118.将带有良性标签与恶性标签的数据输出为训练集；
119.2)、特征工程
120.提取告警信息中所有字段特征，以及非关键信息特征，如：告警数据长度、包大小、包平均大小、峰值频率等。
121.3)、模型训练
122.基于从告警信息中提取出的信息，使用随机森林算法进行训练，得到流量分析模型。
123.其中，在模型训练过程中，可基于告警数据长度、告警信息中是否包含http字符、软件签名(字段类型)是否带有outlook信息来输出分析结果和分析结果的权重，通过权重的大小表征分析结果的等级。
124.根据第一流量特征，通过训练得到的流量分析模型，可得到网络流量数据对应的异常网络流量分析结果。
125.作为一个示例，具体可参见图4所示的攻击事件识别过程的示意图，对于过程警报(process alert)的告警信息，其中包括过程报警对应的名称name：powershell.exe，字段特征parent：outlook.exe，告警数据长度length：136，是否包含http字符：包含(contains http：true，true表示包含http字符)。
126.判断告警数据长度136是否大于第一预设长度100，如果大于，则判断告警信息中是否包含http字符，结果是包含，则进一步判断软件签名(字段特征)是否带有outlook，结果是带有outlook信息，则最后输出的分析结果为恶性的(mallcious)，其对应的权重为95％，表示存在异常网络流量，且分析结果很不好。
127.基于图4的方案，如果告警数据长度不大于100，则判断entropy(随机变量不确定性的度量)是否小于阈值2，如果小于，则判断名称name是否为powershell，如果是，则输出分析结果为良性的(benign)，其对应的权重为85％，相较于95％，表示分析结果没有那么严重。如果名称name不是powershell，则输出分析结果为恶性的，其权重为67％。
128.如果告警信息中不包含http字符，则判断告警数据长度是否小于第二预设长度50，如果小于，则输出分析结果为良性的，其权重为72％，如果告警数据长度不小于第二预设长度，则输出分析结果是恶性的，其权重为85％。
129.对于训练得到的流量分析模型，可基于人工研判模型的输出结果，判别机器学习的准确度，同时人工研判的介入，对特征提取环节会带来新的需求与优化，需要对特征提取环节进行更新。
130.通过上述方式，流量分析模型的输出不仅包括分析结果，还包括分析结果对应的置信度标签，也可理解为权重，通过该置信度标签表征分析结果的告警等级，即表征输入至模型的告警信息的告警良性或恶性程度，有助于用户在出现海量告警情况下，能及时对真正恶意的告警进行处置。并且随着模型的不断扩展，会逐步降低人工参与威胁研判的时间。
131.步骤s220，对僵尸网络行为相关信息进行僵尸网络行为分析，得到待检测对象的僵尸网络行为分析结果。
132.其中，僵尸网络是指采用一种或多种传播手段，将大量主机感染僵尸程序，从而在控制者和被感染主机之间所形成的一个可一对多控制的网络。
133.可选的，对僵尸网络行为相关信息进行僵尸网络行为分析，得到待检测对象的僵尸网络行为分析结果，包括：
134.提取僵尸网络行为相关信息中的僵尸网络行为特征，僵尸网络行为特征包括第一网络监测特征和第二流量特征，第一网络监测特征包括源地址、源端口、目标地址、目标端口和互联时间，第二流量特征包括攻击时间、告警标识、攻击源地址、资产地址、攻击类型和处置方式；
135.其中，源地址指的是攻击源所在ip地址，源端口指的是攻击源所用端口，目标地址指的是攻击者攻击的ip地址，目标端口指的是攻击者攻击的端口，互联时间指的是攻击周期起始时间，攻击时间指的是攻击者对目标发起攻击的时间，告警标识指的是僵尸网络行为相关信息中不同的攻击类型区分标识，攻击源地址指的是攻击者所在ip地址，资产地址指的是被攻击者地址，攻击类型指的是攻击者对目标发起的不同的攻击事件类型，处置方式指的是发生攻击事件后，设备对应的处理方式，比如阻断、允许。
136.根据第一网络监测特征和第二流量特征，确定待检测对象的僵尸网络行为分析结果。
137.可选的，僵尸网络行为相关信息包括第一流量日志和第一僵木儒日志，提取僵尸网络行为相关信息中的僵尸网络行为特征，包括：
138.从第一流量日志中提取第一网络监测特征；
139.从第一僵木儒日志中提取第二流量特征。
140.上述僵尸网络行为分析结果包括僵尸网络行为告警信息和第一攻击事件告警信息，僵尸网络行为告警信息包括事件时间、攻击类型、协议、控制端地址、控制端端口、被控端地址、被控端端口、告警安全设备地址、eventip(事件地址)、处置动作和告警类型中的至少一项；攻击事件告警信息包括源地址、目的地址、攻击名称，攻击样本名称、告警时间、危险级别、行为参数、响应方式和告警类型中的至少一项。
141.其中，网络监测特征指的是通过监测网络得到的特征，可以从监测网络得到的日志中提取，监测网络得到的日志包括但不限于第一流量日志和第一僵木儒日志。
142.其中，事件时间指的是攻击事件发生的时间，攻击类型指的是攻击者对目标发起的攻击行为事件的类型，协议指的是数据传输协议，比如tcp/udp/dns，控制端地址指的是控制者僵尸网络管理地址，控制端端口指的是控制者僵尸网络管理端口，被控端端口指的
是被控制者本地打开的端口，告警安全设备地址指的是检测设备的ip地址，eventip(事件地址)指的是发出攻击事件的地址，处置动作指的是对网络攻击采取的阻断或允许动作，攻击名称指的是攻击流量的威胁名称，攻击样本名称指的是攻击者使用的木马蠕虫名称，告警时间指的是攻击发生时对应的响应时间，危险级别指的是攻击事件的严重程度，可分为高危、中危、低危，行为参数指的是发生攻击行为时携带的攻击动作，响应方式指的是攻击发生时对应的响应行为，告警类型指的是流量数据中不同的威胁类型。
143.步骤s230，对网络攻击相关信息进行攻击事件识别，得到待检测对象的攻击行为分析结果。
144.可选的，上述对网络攻击相关信息进行攻击事件识别，得到待检测对象的攻击行为分析结果，包括：
145.提取网络攻击相关信息中的告警信息、网络行为信息、操作系统信息、协议解析信息、第二网络监测特征、账号信息和网站相关信息；
146.根据告警信息、网络行为信息、协议解析信息、第二网络监测特征、账号信息和网站相关信息，确定待检测对象的攻击行为分析结果。
147.可选的，网络攻击相关信息包括防火墙日志、ids日志、waf日志、网络审计日志、第二僵木儒日志、服务器日志、4a审计日志、第二流量日志、edr信息；
148.提取网络攻击相关信息中的告警信息、网络行为信息、操作系统信息、协议解析信息、第二网络监测特征、账号信息和网站相关信息，包括：
149.从防火墙日志、ids日志、waf日志和第二僵木儒日志中提取告警信息，即防火墙日志、ids日志、waf日志和第二僵木儒日志中体现网络攻击的信息；
150.从网络审计日志中提取网络行为信息；
151.从服务器日志中提取操作系统信息，比如windows event log、linux日志信息；
152.从4a审计日志中提取账号信息，账号信息包括但不限于主账号变更信息、从账号变更信息、授权信息、操作日志信息；
153.从第二流量日志中提取第二网络监测特征和协议解析信息，第二网络监测特征包括但不限于源ip(源地址)、源端口、目标ip(目标地址)、目标端口、互联时间；协议解析信息包括但不限于http、dns、mail、rdp、smb、ftp、ssh、ntlm、file。
154.从edr中提取网站相关信息，包括网站防护信息，登录防护信息，异常文件信息，性能监控信息，系统防护信息等特征信息。
155.其中，上述攻击行为分析结果包括第二攻击事件告警信息，第二攻击事件告警信息包括源地址、目的地址、攻击名称，攻击样本名称、告警时间、危险级别、行为参数、响应方式和告警类型中的至少一项。
156.其中，攻击行为可以为apt攻击行为，是指针对明确目标的持续的、复杂的网络攻击。apt攻击的防御一直是业界难题，无法通过单一的安全技术进行有效检测和防护。本技术方案从多个可能发现网络攻击的方面进行网络攻击行为的分析，使得网络攻击行为分析结果更加准确。
157.步骤s240，对0day漏洞相关信息进行0day漏洞分析，得到待检测对象的0day漏洞分析结果。
158.其中，0day漏洞为未知漏洞，通常是黑客为攻破某个系统，而专门进行深度挖掘后
得到的漏洞，安全业界不得而知。0day漏洞无法通过现有安全设备及其他防护措施进行发现和拦截。
159.可选的，对0day漏洞相关信息进行0day漏洞分析，得到待检测对象的0day漏洞分析结果，包括：
160.提取0day漏洞相关信息中的0day漏洞特征；
161.根据0day漏洞特征，确定待检测对象的0day漏洞分析结果。
162.上述0day漏洞分析结果包括0day漏洞提示信息。0day漏洞提示信息可通过流量、系统错误日志、应用错误日志进行提示，并结合外部漏洞知识库、代码审计报告和漏洞挖掘系统报告，进行特征分辨。
163.步骤s250，对用户行为信息进行分析，得到待检测对象的异常用户行为分析结果
164.可选的，上述对用户行为信息进行分析，得到待检测对象的异常用户行为分析结果，包括：
165.提取用户行为信息中的用户行为轨迹特征；
166.根据用户行为轨迹特征，确定待检测对象的异常用户行为分析结果。
167.其中，上述异常用户行为分析结果包括潜在攻击者的标识信息。在本技术方案中，异常用户行为分析可以由异常网络流量分析模型、业务应用日志、0d熬夜漏洞预警分析、威胁情报和用户行为轨迹进行综合研判，以发现潜在攻击者，进行安全预警，继而监控该用户，防止发生攻击行为。
168.上述处理结果包括异常用户行为分析结果、0day漏洞分析结果、攻击行为分析结果、僵尸网络行为分析结果和异常网络流量分析结果。
169.可选的，上述待处理网络安全数据包括当前网络事件数据和历史网络事件数据，当前网络事件数据包括第一网络流量数据、第一僵尸网络行为相关信息、第一网络攻击相关信息、第一0day漏洞相关信息和第一用户行为信息，历史网络事件数据包括第二网络流量数据、第二僵尸网络行为相关信息、第二网络攻击相关信息、第二0day漏洞相关信息和第二用户行为信息。可以理解的是，以一个分析结果为例，比如，异常网络流量分析结果，则可基于第一网络流量数据得到第一异常网络流量分析结果，基于第二网络流量数据得到第二异常网络流量分析结果，基于第一异常网络流量分析结果和第二异常网络流量分析结果，确定待检测对象的异常网络流量分析结果。同理，其他分析结果也可基于此种方式确定，在此不再赘述。
170.通过本技术方案，在计算引擎(服务器)选择上可同时具备流式计算引擎和离线计算引擎，建议流式计算采用flink组件，离线计算采用spark组件，即本技术方案可离线进行，也可在线进行。
171.可选的，该方法还包括：
172.将各分析结果进行可视化展示，各分析结果包括异常网络流量分析结果、僵尸网络行为分析结果、攻击行为分析结果、0day漏洞分析结果和异常用户行为分析结果中的至少一项。
173.通过安全数据治理，开展安全数据治理的运维、监控，安全事件的分析和处置，综合展示网络安全态势。
174.本技术方案可通过一个平台实现，通过该平台可集中各类展现视图，提供直观的
威胁可视化和开放的自定义能力，包含集中展示视图、任务展示视图、功能展示视图。集中展示视图将各种信息汇集起来进行综合展示，各种信息包括各个分析结果，任务展示视图基于每个过程生成的任务进行展现，其中，任务指的是底层数据分析统计任务，功能展示视图实现对平台配置操作应用的交互展现，即用户对平台的配置操作，以及操作后的后果。
175.基于与图1中所示的方法相同的原理，本发明实施例还提供了一种数据存储装置20，如图5中所示，该数据存储装置20可以包括数据获取模块210、数据类型确定模块220和第一数据存储模块230，其中：
176.数据获取模块210，用于获取待存储数据；
177.数据类型确定模块220，用于将待存储数据缓存至消息对列中，并确定待存储数据的数据类型；
178.第一数据存储模块230，用于按照数据类型，将待存储数据存储至数据类型对应的数据库中。
179.可选的，上述消息对列为kafka消息队列。
180.可选的，上述数据类型确定模块220在确定待存储数据的数据类型时，具体用于：
181.提取待存储数据中的数据类型特征；
182.根据数据类型特征，确定待存储数据的数据类型。
183.可选的，该装置还包括：
184.第二数据存储模块，用于将待存储数据进行分布式文件存储。
185.可选的，该装置还包括：
186.第三数据存储模块，用于将待存储数据进行分布式检索存储。
187.可选的，上述分布式检索存储为es存储方式。
188.可选的，上述待存储数据为针对待检测对象的待处理网络安全数据，该装置还包括：
189.处理模块，用于对待处理网络安全数据进行网络安全感知处理，得到处理结果。
190.本发明实施例的数据存储装置可执行本发明实施例所提供的数据存储方法，其实现原理相类似，本发明各实施例中的数据存储装置中的各模块、单元所执行的动作是与本发明各实施例中的数据存储方法中的步骤相对应的，对于数据存储装置的各模块的详细功能描述具体可以参见前文中所示的对应的数据存储方法中的描述，此处不再赘述。
191.其中，上述数据存储装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据存储装置为一个应用软件；该装置可以用于执行本发明实施例提供的方法中的相应步骤。
192.在一些实施例中，本发明实施例提供的数据存储装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的数据存储装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的数据存储方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic，application specific integrated circuit)、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、现场可编程门阵列(fpga，field-programmable gate array)或其他电子元件。
193.在另一些实施例中，本发明实施例提供的数据存储装置可以采用软件方式实现，
图5示出了存储在存储器中的数据存储装置，其可以是程序和插件等形式的软件，并包括一系列的模块，包括数据获取模块210、数据类型确定模块220和第一数据存储模块230，用于实现本发明实施例提供的数据存储方法。
194.描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。
195.基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。
196.在一个可选实施例中提供了一种电子设备，如图6所示，图6所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。
197.处理器4001可以是cpu(central processing unit，中央处理器)，通用处理器，dsp(digital signal processor，数据信号处理器)，asic(application specific integrated circuit，专用集成电路)，fpga(field programmable gate array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等。
198.总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect，外设部件互连标准)总线或eisa(extended industry standard architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
199.存储器4003可以是rom(read only memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，ram(random access memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)、cd-rom(compact disc read only memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。
200.存储器4003用于存储执行本发明方案的应用程序代码(计算机程序)，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。
201.其中，电子设备也可以是终端设备，图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
202.本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有
计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。
203.根据本发明的另一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种实施例实现方式中提供的方法。
204.可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
205.应该理解的是，附图中的流程图和框图，图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
206.本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
207.上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。
208.以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：三维模型与对抗生成神经网络生成数字蝴蝶的方法及系统与流程

一种数据存储方法、装置、电子设备及计算机存储介质与流程

相关文献

最热文献