一种日志关联的方法、装置及电子设备与流程

2022-02-19 02:27:43 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种日志关联的方法、装置及电子设备。

背景技术：

2.随着信息化的高速发展，中心化的数据汇聚平台(例如：安全信息和事件管理等)需要接入大规模的多源异构数据。由于多源异构数据可以通过不同设备采集，并且针对不同设备采集到的多源异构数据的分析机制不同，因此，为了有效还原攻击者的攻击意图，对攻击行为进行精准检测与路径溯源，针对不同设备采集到的多源异构数据的关联分析成为当前的一大挑战。
3.具体来说，多源异构数据可以是通过网络侧设备(例如：ips、waf等)采集的网络日志以及网络告警，也可以通过终端侧设备(例如：edr等)采集的行为日志以及行为告警。一般来说，网络告警表示危险程度较高的网络日志，行为告警表示危险程度较高的行为日志。在实际采集过程中，网络侧设备一般采集网络告警，终端侧设备一般采集行为日志。
4.在当前多源异构数据中，为了关联分析网络侧设备采集的网络告警与终端侧设备采集的行为日志，在已有方案中提出一种跨网络、终端的弱关联的方法。
5.弱关联的方法：根据预设置的网络告警类型与行为日志类型之间的关联关系以及预设时序区间来定位对应的日志类型。例如，在采集到满足预设时序区间的网络告警时，可以根据采集网络告警的类型，得到对应的行为日志类型；在采集到满足预设时序区间的行为日志时，可以根据采集行为日志的类型，得到对应的网络告警类型。
6.但是在上述方案中，人为预设值的关联规则是非常粗糙的，只能得到关联的大致范畴(例如：对应的类型)，同时受预设时序区间的限定(例如：当与某一网络告警关联的行为日志异常庞大时，只能关联在预设时序区间内对应的行为日志)。
7.鉴于此，现有技术中存在针对不同设备采集到的原始数据进行关联分析时，难以完整准确定位与溯源对应的关联日志的问题。

技术实现要素：

8.本技术提供一种日志关联的方法、装置及电子设备，用以根据网络侧的网络告警，关联定位到终端侧的行为日志，同时根据终端侧的行为日志，关联到一种可能的网络侧的网络告警。
9.第一方面，本技术提供了一种日志关联的方法，所述方法包括：
10.获取预设时间窗口长度的多个序列对，其中，每个序列对表征第一向量序列与第二向量序列之间一对一的对应关系，所述第一向量序列表征具有同一ip地址的多个经过向量化处理的网络告警的序列，所述第二向量序列表征具有同一主机序号的多个经过向量化处理的终端实体的序列；
11.当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，并根据所述第一预测结果得到与所述第一向量序列关联的目标日
志；
12.当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，并根据所述第二预测结果得到与所述第二向量序列关联的目标日志。
13.通过上述方法，可以支持根据具体的网络侧的网络告警，准确关联溯源到终端侧的行为日志，并屏蔽大量无关、正常行为日志；同时支持根据终端侧的行为日志，关联到一种可能的网络侧的网络告警，有效辅助专家用户针对可能的网络告警进行研判。
14.在一种可能的设计中，在所述获取预设时间窗口长度的多个序列对之前，还包括：
15.获取多个第一向量序列以及多个第二向量序列；
16.根据所述第二向量序列中的第一主机序号，得到与所述第一主机序号对应的第一ip地址，并提取所有具有所述第一ip地址的第一向量序列；
17.将所述第一主机序号对应的第二向量序列与所述第一ip地址对应的第一向量序列进行聚合，得到序列对数据集，其中，所述序列对数据集表征由序列对组成的集合，所述序列对表征第一向量序列与第二向量序列之间一对一的对应关系；
18.根据预设时间窗口长度切分所述序列对数据集，得到多个预设时间窗口长度的多个序列对。
19.通过上述方法，可以得到具体网络侧的网络告警与具体的终端侧的行为日志之间的实际关联。
20.在一种可能的设计中，在所述获取多个第一向量序列以及多个第二向量序列之前，还包括：
21.获取第一数据以及第二数据，其中，所述第一数据表征网络侧设备采集的多个网络告警，所述第二数据表征终端侧采集的多个行为日志；
22.将所述第一数据中具有相同ip地址的网络告警分为一个序列，得到多个第一序列，其中，所述第一序列表征具有相同ip地址的多个网络告警；
23.将所述第二数据中具有相同主机标识的行为日志分为一个序列，得到多个第二序列，其中，所述第二序列表征具有相同主机标识的多个行为日志；
24.对多个第一序列进行向量化处理，得到多个第一向量序列；
25.对多个第二序列进行向量化处理，得到多个第二向量序列。
26.通过上述方法，可以得到具体网络侧的网络告警的向量序列，以及具体终端侧的行为日志的向量序列。
27.在一种可能的设计中，所述当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，并根据所述第一预测结果得到与所述第一向量序列关联的目标日志，包括：
28.当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，其中，所述第一预测结果表征根据所述第一向量序列预测的第二向量序列；
29.根据所述第一向量序列，在所述序列对中提取与所述第一向量序列对应的n个第二向量序列，其中,n为大于等于1的正整数；
30.将n个第二向量序列分别与所述第一预测结果进行相似性比较，得到n个相似值；
31.按照所述相似值的大小，将n个相似值进行排序，并在n个相似值中，提取前m个相似值，其中，m为大于等于1的正整数；
32.根据前m个相似值，得到m个对应的第二向量序列作为与所述第一向量序列关联的目标日志。
33.通过上述方法，基于机器学习得到的第一预测结果，可以支持根据具体的网络侧的网络告警，准确关联溯源到终端侧的行为日志，并屏蔽大量无关、正常行为日志，有效辅助专家用户针对关联的行为日志进行研判。
34.在一种可能的设计中，所述当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，并根据所述第二预测结果得到与所述第二向量序列关联的目标日志，包括：
35.当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，其中，所述第二预测结果表征根据所述第二向量序列预测的第一向量序列；
36.将所述第二预测结果作为与所述第二向量序列关联的目标日志。
37.通过上述方法，基于机器学习得到的第二预测结果，可以支持根据终端侧的行为日志，关联到一种可能的网络侧的网络告警，有效辅助专家用户针对可能的网络告警进行研判。
38.在一种可能的设计中，在所述当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果之后，还包括：
39.根据所述第二向量序列，提取所述序列对中与所述第二向量序列对应的n个第二向量序列，其中，n为大于等于1的正整数；
40.将n个第二向量序列分别与所述第二预测结果进行相似性比较，得到n个相似值；
41.按照所述相似值的大小，将n个相似值进行排序，并在n个相似值中，提取前m个相似值，其中，m为大于等于1的正整数；
42.根据前m个相似值，得到m个对应的第一向量序列作为与所述第二向量序列关联的目标日志。
43.通过上述方法，基于机器学习得到的第二预测结果，可以支持根据终端侧的行为日志，关联溯源到实际存在的网络侧的网络告警，有效辅助专家用户针对实际存在的网络告警进行研判。
44.第二方面，本技术提供了一种日志关联的装置，所述装置包括：
45.获取模块，获取预设时间窗口长度的多个序列对，其中，每个序列对表征第一向量序列与第二向量序列之间一对一的对应关系，所述第一向量序列表征具有同一ip地址的多个经过向量化处理的网络告警的序列，所述第二向量序列表征具有同一主机序号的多个经过向量化处理的终端实体的序列；
46.第一检测模块，当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，并根据所述第一预测结果得到与所述第一向量序列关联的目标日志；
47.第二检测模块，当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，并根据所述第二预测结果得到与所述第二向量序列
关联的目标日志。
48.在一种可能的设计中，在所述获取模块前，还包括获取多个第一向量序列以及多个第二向量序列；根据所述第二向量序列中的第一主机序号，得到与所述第一主机序号对应的第一ip地址，并提取所有具有所述第一ip地址的第一向量序列；将所述第一主机序号对应的第二向量序列与所述第一ip地址对应的第一向量序列进行聚合，得到序列对数据集，其中，所述序列对数据集表征由序列对组成的集合，所述序列对表征第一向量序列与第二向量序列之间一对一的对应关系；根据预设时间窗口长度切分所述序列对数据集，得到多个预设时间窗口长度的多个序列对。
49.在一种可能的设计中，在所述获取模块前的获取多个第一向量序列以及多个第二向量序列之前，还包括获取第一数据以及第二数据，其中，所述第一数据表征网络侧设备采集的多个网络告警，所述第二数据表征终端侧采集的多个行为日志；将所述第一数据中具有相同ip地址的网络告警分为一个序列，得到多个第一序列，其中，所述第一序列表征具有相同ip地址的多个网络告警；将所述第二数据中具有相同主机标识的行为日志分为一个序列，得到多个第二序列，其中，所述第二序列表征具有相同主机标识的多个行为日志；对多个第一序列进行向量化处理，得到多个第一向量序列；对多个第二序列进行向量化处理，得到多个第二向量序列。
50.在一种可能的设计中，所述第一检测模块，具体用于当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，其中，所述第一预测结果表征根据所述第一向量序列预测的第二向量序列；根据所述第一向量序列，在所述序列对中提取与所述第一向量序列对应的n个第二向量序列，其中,n为大于等于1的正整数；将n个第二向量序列分别与所述第一预测结果进行相似性比较，得到n个相似值；按照所述相似值的大小，将n个相似值进行排序，并在n个相似值中，提取前m个相似值，其中，m为大于等于1的正整数；根据前m个相似值，得到m个对应的第二向量序列作为与所述第一向量序列关联的目标日志。
51.在一种可能的设计中，所述第二检测模块，具体用于当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，其中，所述第二预测结果表征根据所述第二向量序列预测的第一向量序列；将所述第二预测结果作为与所述第二向量序列关联的目标日志。
52.在一种可能的设计中，所述第二检测模块，还用于根据所述第二向量序列，提取所述序列对中与所述第二向量序列对应的n个第二向量序列，其中，n为大于等于1的正整数；将n个第二向量序列分别与所述第二预测结果进行相似性比较，得到n个相似值；按照所述相似值的大小，将n个相似值进行排序，并在n个相似值中，提取前m个相似值，其中，m为大于等于1的正整数；根据前m个相似值，得到m个对应的第一向量序列作为与所述第二向量序列关联的目标日志。
53.第三方面，本技术提供了一种电子设备，所述电子设备包括：
54.存储器，用于存放计算机程序；
55.处理器，用于执行所述存储器上所存放的计算机程序时，实现上述的一种检测运动状态异常的对象的方法步骤。
56.第四方面，本技术提供了一种计算机可读存储介质，所述计算机可读存储介质内
存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种检测运动状态异常的对象的方法步骤。
57.上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。
附图说明
58.图1为本技术提供的一种日志关联的方法的流程图；
59.图2为本技术提供的一种生成第二向量序列的示意图；
60.图3为本技术提供的一种生成多个序列对的示意图；
61.图4为本技术提供的一种日志关联的装置的示意图；
62.图5为本技术提供的一种电子设备的结构的示意图。
具体实施方式
63.本技术实施例提供了一种日志关联的方法、装置及电子设备，解决现有技术中存在针对不同设备采集到的原始数据进行关联分析时，难以完整准确定位与溯源对应的关联日志的问题。
64.下面结合附图对本技术实施例所提供的方法作出进一步详细说明。
65.参见图1所示，本技术实施例提供了一种日志关联的方法，具体流程如下：
66.步骤101：针对获取的第一数据以及第二数据进行向量化处理，得到第一数据对应的多个第一向量序列以及第二数据对应的多个第二向量序列；
67.首先获取第一数据以及第二数据，在这里，第一数据是通过网络侧设备采集的网络告警的数据，第二数据是通过终端侧采集的行为日志的数据。
68.在第一数据中的网络告警，至少包括网络告警的源ip地址、目的ip地址、告警类型、时间戳等。
69.在第二数据中的行为日志的类型，至少包括进程行为类型、文件操作类型、注册表操作类型等，并且每种行为日志中包含的字段至少有源实体、目的实体、日志类型以及时间戳。
70.举例来说，若某进程创建的行为日志中源实体对应为父进程名，目的实体对应为子进程名，即日志类型为进程创建，时间戳为该日志创建的时间。
71.值得注意的是，每种行为日志还至少包含源实体或目的实体中的一个。
72.在获取到第一数据以及第二数据后，将针对第一数据中的网络告警以及第二数据中的行为日志分别进行分组划分，最终将第一数据中具有相同ip地址的网络告警分为多个第一序列，将第二数据中具有相同主机标识的行为日志分为多个第二序列。
73.针对第一数据，首先按照网络告警的ip地址(即：源ip地址或目的ip地址)对第一数据中的网络告警进行分组划分：将具有任意ip地址的所有网络告警从第一数据中取出来，然后根据提取出的网络告警的时间戳，按照时间戳记载时间的先后顺序将具有任意ip地址的多个网络告警对应的告警类型组成新的序列，即第一序列。
74.需要强调的是，第一数据可以分为多个第一序列，多个第一序列即形成第一数据
的告警序列数据语料库。在这里，每个第一序列中的网络告警具有相同的ip地址，同时每个第一序列可以由多个网络告警对应的告警类型组成，并且在每个第一序列之间对应不同的ip地址。
75.针对第二数据，首先通过溯源图模板，将第二数据中的行为日志转化由实体点及实体关联边组成的溯源图。即在第二数据中，将根据每台主机(即：具有相同主机标识)上的所有行为日志，生成一个完整的溯源图，并针对形成的溯源图，采用随机游走的方式，生成多个的第二序列。
76.需要注意的是，上述溯源图模板以行为日志的源实体为起始点，目的实体为终点，在两点之间形成从起始点到终点的一条边。上述随机游走的方式可以采用任何概率模型或其他方法，在本技术实施例中不限制随机游走中任何概率模型。
77.另外，在以该模板生成完整的溯源图的过程中，需要保留行为日志的进程名、文件名、启动项名称等信息，并需要保留行为日志的完整的路径信息。
78.并且，可以根据行为日志中的路径信息以及名称信息唯一确定行为日志的实体。例如，行为日志的单个实体可以用“c:\windows\system32\svchost.exe”来表示。
79.具体来说，参见图2所示，在第二数据中，提取第一主机标识对应主机的行为日志，具体可以参考图2所示的表格，每条行为日志将从源实体、目的实体、日志类型、时间戳展示，在这里，通过对行为日志的源实体以及目的实体的抽取，形成一个完整的溯源图。
80.然后，对于形成的一个完整的溯源图，采用随机游走的方式，以长度l为限制，生成na个随机游走形成的序列。在图2所示的溯源图中列举两种游走方式，一种方式游走了三个实体点，一种方式游走了四个实体点。
81.根据这两种游走方式，在图2中还列举出为2个随机游走形成的序列，若以第一个随机游走形成的序列为例，在图2中具体为：
[0082]“c:\windows\system32\svchost.exe,c:\windows\user\word.exe,c:\user\tmp\downloader.php,192.168.1.1”。
[0083]
其中，“c:\windows\system32\svchost.exe”、“c:\windows\user\word.exe”、“c:\user\tmp\downloader.php”、“192.168.1.1”分别对应为溯源图中四个不同的有关联的实体节点。
[0084]
进一步，在前面阐述了，在本技术实施例中不限制随机游走中任何概率模型，那么生成的na个随机游走形成的序列便可能存在重复的序列，因此，需要对na个随机游走形成的序列进行去重处理，得到多个不重复的第四序列，即：该主机的行为实体序列语料库。
[0085]
步骤102：对所述第一向量序列以及所述第二向量序列进行聚合切分，得到多个预设时间窗口长度的多个序列对；
[0086]
在通过上述预处理的方式得到第一数据的多个第一序列、第二数据的多个第二序列后，针对多个第一序列、多个第二序列分别进行向量化处理：针对多个第一序列进行向量化处理，得到多个第一向量序列；针对多个第二序列进行向量化处理，得到多个第二向量序列。
[0087]
针对多个第一序列，采用类别自然语言处理的方法，以单个第一序列为例，可以将第一序列中的每个网络告警对应的告警类型作为一个单词，在这里，单个第一序列中可以包括多个网络告警，因此单个第一序列可以对应为一篇由单词序列组成的文章。
[0088]
此时，通过预训练的第一模型，可以将第一序列中的每个网络告警对应的告警类型看做一个单词，将每个单词转化为一个向量，即将每个告警类型转化为一个稠密向量，得到第一序列经过向量化处理的第一向量序列。
[0089]
具体来说，上述预训练的第一模型可以是根据word2vector等的词嵌入方法，学习到的网络告警的告警类型的向量化表达模型。采用第一模型，可以根据输入单个的网络告警的告警类型，得到输出的单个告警类型的向量化表达，即单个稠密向量。
[0090]
另外，通过这种方法得到的向量，如果两个告警类型对应的向量之间的距离越小，那么两个告警类型之间的语义便更加接近，即表示两个告警类型越相似。
[0091]
针对多个第四向量，同样采用类别自然语言处理的方法，以单个第二序列为例，可以将第二序列中的每个实体对应的文件路径以及文件名作为一个单词，在这里，单个第二序列中可以包括多个实体，因此单个第二序列可以对应为一篇由单词序列组成的文章。
[0092]
此时，通过预训练的第二模型，根据第二序列中的每个行为日志对应的实体，将每个实体转化为一个稠密向量，得到第二序列经过向量化处理的第二向量序列。
[0093]
具体来说，上述预训练的第二模型可以是根据word2vector等的词嵌入方法，学习到的行为日志的实体的向量化表达模型。采用第二模型，可以根据输入单个的行为日志的实体，得到输出的单个行为日志的实体的向量化表达，即单个稠密向量。
[0094]
另外，通过这种方法得到的向量，如果两个行为日志的实体对应的向量之间的距离越小，那么两个告警类型之间的语义便更加接近，即表示两个行为日志的实体越相似。
[0095]
接着，在通过上述方法得到多个第一向量序列以及多个第二向量序列后，需要根据常规的网络告警的ip地址与终端实体(即上述的实体)的对应关系进行聚合，建立起第一向量序列和第二向量序列之间的实际关联关系。
[0096]
首先获取某第二向量序列的第一主机序号，查找到第二向量序列所在的第一主机，然后通过查找与第一主机关联的ip地址，提取出具有前述ip地址的第一向量序列。然后，将第一主机对应的第二向量序列、提取出的第一向量序列，分为一组。并通过相同方法，完成对获取到所有的第一向量序列和所有的第二向量序列之间的聚合，最终得到序列对数据集。
[0097]
值得注意的是，在这里聚合得到的关系，可以是一对多、多对一、多对多的关系，即：一个第一向量序列对应多个第二向量序列、多个第一向量序列对应一个第二向量序列、多个第一向量序列对应多个第二向量序列。因此序列对数据集可以包含多个序列对，序列对具体表示为第一向量序列与第二向量序列之间一对一的对应关系。
[0098]
举例来说，参见图3所示，在这里标识出有一条网络告警序列(第一向量序列)、三条终端实体序列(第二向量序列)，在这里是一个第一向量序列对应三个第二向量序列，因此在对应的数据集中，聚合结果可以表示为三条对应关系。
[0099]
进一步，按照预设时间窗口长度对序列对数据集进行切分得到最终的序列对数据集，并且为了保证得到序列对的完整性，还需要对在预设时间窗口长度内未发生任何告警的序列对(第一向量序列为空的序列对)进行检测，如果发现即作丢弃处理。
[0100]
通过上述方法，得到预设时间窗口长度的多个序列对。
[0101]
步骤103：获取预设时间窗口长度的多个序列对；
[0102]
在本技术实施例中，每个序列对可以表征第一向量序列与第二向量序列之间一对
一的对应关系，在这里，第一向量序列用于表征具有同一ip地址的多个经过向量化处理的网络告警的序列，第二向量序列用于表征具有同一主机序号的多个经过向量化处理的终端实体的序列；
[0103]
步骤104：当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，并根据所述第一预测结果得到与所述第一向量序列关联的目标日志；
[0104]
通过预训练的第三模型，检测序列对中是否存在第一向量序列异常，如果检测到存在异常，那么通过第四模型获取到异常的第一向量序列的第一预测结果，第一预测结果即为根据异常的第一向量序列预测的第二向量序列。
[0105]
然后，根据第一预测结果，与异常的第一向量序列所有所在的序列对中对应的实际m个第二向量序列进行相似性比较，可以得到m个相似值，将相似值进行排序，相似性越高的排在前面，取前n个相似值对应实际的n个第二向量序列，作为与异常的第一向量序列关联的目标日志。其中，m、n为大于等于1的正整数。
[0106]
具体来说，上述第三模型为可以是基于多个第一序列进行训练，通过局部异常因子(local outlier factor,lof)模型生成的基线建模，在这里用于检测第一向量序列是否出现异常。
[0107]
上述第四模型可以是基于序列对数据集进行训练，通过seq2seq等机器翻译模型生成的第一向量序列与第二向量序列关联翻译模型。第四模型可以根据输入的第一向量序列，获得输出一个的第二向量序列；根据输入的第二向量序列，获得输出最有可能的第一向量序列。即输出的序列为第四模型的预测结果。
[0108]
上述相似性比较的策略可以采用基于信息熵的序列对比算法、基于遍历的序列对比算法等。以采用基于信息熵的序列对比算法为例，本技术实施例中的相似值即为相对熵：那么相似值越大，差异越大；相似值越小，差异越小，因此针对该方法下的相似值排序可以为升序。
[0109]
上述与异常的第一向量序列关联的目标日志即根据第一预测结果得到的n个第二向量序列，即可得到n个关键的终端实体序列。
[0110]
步骤105：当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，并根据所述第二预测结果得到与所述第二向量序列关联的目标日志。
[0111]
通过预训练的第五模型，检测序列对中是否存在第二向量序列异常，如果检测到存在异常，那么通过第五模型获取到异常的第二向量序列的第二预测结果，将第二预测结果作为根据异常的第二向量序列预测的第一向量序列。
[0112]
具体来说，上述第五模型为可以是基于多个第二序列进行训练，通过局部异常因子(local outlier factor,lof)模型生成的基线建模，在这里用于检测第二向量序列是否出现异常。
[0113]
进一步地，还可以根据异常的第二向量序列的第二预测结果，与异常的第二向量序列所有所在的序列对中对应的实际m个第一向量序列进行相似性比较，可以得到m个相似值，将相似值进行排序，相似性越高的排在前面，取前n个相似值对应实际的n个第一向量序列，作为与异常的第二向量序列关联的目标日志。其中，m、n为大于等于1的正整数。
[0114]
上述第四模型以及相似性比较的策略具体可参见步骤104中描述。
[0115]
上述与异常的第二向量序列关联的目标日志即根据第二预测结果得到的n个第一向量序列，即可得到n个与第二预测结果最相似的网络告警序列。
[0116]
通过本技术实施例中提供的方法，解决了现有技术中存在针对不同设备采集到的原始数据进行关联分析时，难以完整准确定位与溯源对应的关联日志的问题。
[0117]
在安全运营中心的大数据平台汇聚平台中，下面将分为两个部分说明本技术实施例带来的直接的技术效果：
[0118]
第一方面，可以根据给定的网络侧的网络告警，快速有效定位到异常的网络告警，关联到关键的终端侧的实体日志中，并且能够溯源到关键的实体日志的行为路径和日志内容。
[0119]
第二方面，可以根据给定的终端侧的行为日志，快速有效定位到异常的行为日志的实体，例如进程、文件等，获得一种可能的网络告警序列，通过这种可能的网络告警序列能够辅助运营人员判断该终端侧的异常行为日志可能导致的网络侧的网络告警类型，特别针对只有终端日志采集的情形下，为专家带来恶意网络行为的预判依据。
[0120]
基于同一发明构思，本技术还提供了一种日志关联的装置，用以根据网络侧的网络告警，关联定位到终端侧的行为日志，同时根据终端侧的行为日志，关联到一种可能的网络侧的网络告警，解决现有技术中存在针对不同设备采集到的原始数据进行关联分析时，难以完整准确定位与溯源对应的关联日志的问题，有效辅助专家用户针对行为日志或网络告警进行研判，参见图4，该装置包括：
[0121]
获取模块401，获取预设时间窗口长度的多个序列对，其中，每个序列对表征第一向量序列与第二向量序列之间一对一的对应关系，所述第一向量序列表征具有同一ip地址的多个经过向量化处理的网络告警的序列，所述第二向量序列表征具有同一主机序号的多个经过向量化处理的终端实体的序列；
[0122]
第一检测模块402，当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，并根据所述第一预测结果得到与所述第一向量序列关联的目标日志；
[0123]
第二检测模块403，当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，并根据所述第二预测结果得到与所述第二向量序列关联的目标日志。
[0124]
在一种可能的设计中，在所述获取模块401前，还包括获取多个第一向量序列以及多个第二向量序列；根据所述第二向量序列中的第一主机序号，得到与所述第一主机序号对应的第一ip地址，并提取所有具有所述第一ip地址的第一向量序列；将所述第一主机序号对应的第二向量序列与所述第一ip地址对应的第一向量序列进行聚合，得到序列对数据集，其中，所述序列对数据集表征由序列对组成的集合，所述序列对表征第一向量序列与第二向量序列之间一对一的对应关系；根据预设时间窗口长度切分所述序列对数据集，得到多个预设时间窗口长度的多个序列对。
[0125]
在一种可能的设计中，在所述获取模块401前的获取多个第一向量序列以及多个第二向量序列之前，还包括获取第一数据以及第二数据，其中，所述第一数据表征网络侧设备采集的多个网络告警，所述第二数据表征终端侧采集的多个行为日志；将所述第一数据
中具有相同ip地址的网络告警分为一个序列，得到多个第一序列，其中，所述第一序列表征具有相同ip地址的多个网络告警；将所述第二数据中具有相同主机标识的行为日志分为一个序列，得到多个第二序列，其中，所述第二序列表征具有相同主机标识的多个行为日志；对多个第一序列进行向量化处理，得到多个第一向量序列；对多个第二序列进行向量化处理，得到多个第二向量序列。
[0126]
在一种可能的设计中，所述第一检测模块402，具体用于当检测到所述序列对中的所述第一向量序列存在异常时，获取所述第一向量序列对应的第一预测结果，其中，所述第一预测结果表征根据所述第一向量序列预测的第二向量序列；根据所述第一向量序列，在所述序列对中提取与所述第一向量序列对应的n个第二向量序列，其中,n为大于等于1的正整数；将n个第二向量序列分别与所述第一预测结果进行相似性比较，得到n个相似值；按照所述相似值的大小，将n个相似值进行排序，并在n个相似值中，提取前m个相似值，其中，m为大于等于1的正整数；根据前m个相似值，得到m个对应的第二向量序列作为与所述第一向量序列关联的目标日志。
[0127]
在一种可能的设计中，所述第二检测模块403，具体用于当检测到所述序列对中的所述第二向量序列存在异常时，获取所述第二向量序列对应的第二预测结果，其中，所述第二预测结果表征根据所述第二向量序列预测的第一向量序列；将所述第二预测结果作为与所述第二向量序列关联的目标日志。
[0128]
在一种可能的设计中，所述第二检测模块403，还用于根据所述第二向量序列，提取所述序列对中与所述第二向量序列对应的n个第二向量序列，其中，n为大于等于1的正整数；将n个第二向量序列分别与所述第二预测结果进行相似性比较，得到n个相似值；按照所述相似值的大小，将n个相似值进行排序，并在n个相似值中，提取前m个相似值，其中，m为大于等于1的正整数；根据前m个相似值，得到m个对应的第一向量序列作为与所述第二向量序列关联的目标日志。
[0129]
基于上述装置，用以根据网络侧的网络告警，关联定位到终端侧的行为日志，同时根据终端侧的行为日志，关联到一种可能的网络侧的网络告警。解决现有技术中存在针对不同设备采集到的原始数据进行关联分析时，难以完整准确定位与溯源对应的关联日志的问题，有效辅助专家用户针对行为日志或网络告警进行研判。
[0130]
基于同一发明构思，本技术实施例中还提供了一种电子设备，所述电子设备可以实现前述一种日志关联的装置的功能，参考图5，所述电子设备包括：
[0131]
至少一个处理器501，以及与至少一个处理器501连接的存储器502，本技术实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器501也可以称为控制器，对于名称不做限制。
[0132]
在本技术实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前文论述的日志关联方法。处理器501可以实现图4所示的装置中各个模块的功能。
[0133]
其中，处理器501是该装置的控制中心，可以利用各种接口和线路连接整个该控制
设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。
[0134]
在一种可能的设计中，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
[0135]
处理器501可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的日志关联方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
[0136]
存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read
‑
only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
[0137]
通过对处理器501进行设计编程，可以将前述实施例中介绍的日志关联方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图1所示的实施例的日志关联方法的步骤。如何对处理器501进行设计编程为本领域技术人员所公知的技术，这里不再赘述。
[0138]
基于同一发明构思，本技术实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行前文论述日志关联方法。
[0139]
在一些可能的实施方式中，本技术提供的日志关联方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在装置上运行时，程序代码用于使该控制设备执行本说明书上述描述的根据本技术各种示例性实施方式的日志关联方法中的步骤。
[0140]
本领域内的技术人员应明白，本技术的实施例可提供为方法、装置、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0141]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0142]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0143]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0144]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：无线通信系统中用于寻呼的方法及装置与流程

一种日志关联的方法、装置及电子设备与流程

相关文献

最热文献