时序图谱构建方法、装置、设备及介质与流程

2022-06-01 01:30:23 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种时序图谱构建方法、装置、设备及介质。

背景技术：

2.伴随着计算机技术的发展，网络安全愈加重要，通过安全图谱能够将与网络安全相关的数据、行为等直观的进行表达。
3.相关技术中，可以通过探针设备对网络进行安全检测，若检测到异常情况，探针设备会发出告警信息，解析该告警信息，从中抽取出源互联网协议ip地址、目的互联网协议ip地址以及事件，从而根据上述三元组构建安全图谱。
4.然而对于上述技术方案，一些复杂度较高的网络攻击能够绕过探针设备的检测，从而导致探针设备无法发出告警，因而造成了的安全图谱的精确性不足。

技术实现要素：

5.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种时序图谱构建方法、装置、设备及介质。
6.第一方面，本公开实施例提供了一种时序图谱构建方法，所述方法包括：
7.获取预设时间段内的流量数据信息；
8.基于所述流量数据信息，构建原始序列；
9.对所述原始序列进行采样处理获得多个子序列，基于每个所述子序列与所述原始序列的距离分布，确定每个所述子序列的信息增益；
10.将各个所述子序列的信息增益进行比较，并基于比较结果从所述多个子序列中获得目标序列；
11.将所述目标序列作为时序图谱的节点，以及将所述目标序列在同一所述原始序列中的时序关系作为所述时序图谱的边，构建所述时序图谱。
12.一种可选的实施方式中，所述基于所述流量数据信息，构建原始序列，包括：
13.解析所述流量数据信息，获取预设时间段中的每个子时间段内访问端的访问次数；
14.基于所述访问次数以及各所述子时间段之间的时序关系，构建每个所述访问端对应的原始序列。
15.一种可选的实施方式中，所述对所述原始序列进行采样处理获得多个子序列，包括：
16.根据预设滑动窗口以及预设滑动距离对所述原始序列进行采样处理，获得所述多个子序列。
17.一种可选的实施方式中，所述基于每个所述子序列与所述原始序列的距离分布，确定每个所述子序列的信息增益，包括：
18.基于所述子序列构建第一序列集合，计算所述第一序列集合到每个所述原始序列的第一距离分布；
19.将所述第一序列集合中当前处理的所述子序列剔除，获得第二序列集合，计算所述第二序列集合到每个所述原始序列的第二距离分布；
20.根据所述第一距离分布和所述第二距离分布确定当前处理的所述子序列的信息增益。
21.一种可选的实施方式中，所述计算所述第一序列集合到每个所述原始序列的第一距离分布，包括：
22.获取对当前处理的所述原始序列进行采样确定的第一采样子序列；
23.计算每个所述第一采样子序列与所述第一序列集合中的子序列之间的第一距离，将所述第一距离中的最小值作为所述第一序列集合中的子序列与当前处理的所述原始序列之间的第一目标距离；
24.计算每个所述原始序列与所述第一序列集合中的每个所述子序列之间的所述第一目标距离，根据所述第一目标距离确定所述第一距离分布；
25.所述计算所述第二序列集合到每个所述原始序列的第二距离分布，包括：
26.获取对当前处理的所述原始序列进行采样确定的第二采样子序列；
27.计算每个所述第二采样子序列与所述第二序列集合中的子序列之间的第二距离，将所述第二距离中的最小值作为所述第二序列集合中的子序列与当前处理的所述原始序列之间的第二目标距离；
28.计算每个所述原始序列与所述第二序列集合中的每个所述子序列之间的所述第二目标距离，根据所述第二目标距离确定所述第二距离分布。
29.一种可选的实施方式中，所述将所述目标序列作为时序图谱的节点，以及将所述目标序列在同一所述原始序列中的时序关系作为所述时序图谱的边，构建所述时序图谱，包括：
30.获取所述目标序列中属于同一个所述原始序列的同源序列；
31.在所述原始序列中对所述同源序列进行检索，获得每个所述同源序列对应的时序标识；
32.将所述同源序列作为所述时序图谱的节点，根据每个所述同源序列对应的时序标识确定所述同源序列之间的连接关系，构建所述时序图谱。
33.第二方面，本公开实施例还提供了一种时序图谱构建装置，所述装置包括：
34.获取模块，用于获取预设时间段内的流量数据信息；
35.第一构建模块，用于基于所述流量数据信息，构建原始序列；
36.确定模块，用于对所述原始序列进行采样处理获得多个子序列，基于每个所述子序列与所述原始序列的距离分布，确定每个所述子序列的信息增益；
37.比较模块，用于将各个所述子序列的信息增益进行比较，并基于比较结果从所述多个子序列中获得目标序列；
38.第二构建模块，用于将所述目标序列作为时序图谱的节点，以及将所述目标序列在同一所述原始序列中的时序关系作为所述时序图谱的边，构建所述时序图谱。
39.第三方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中
存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的方法。
40.第四方面，本公开提供了一种设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。
41.第五方面，本公开提供了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的方法。
42.本公开实施例提供的技术方案与现有技术相比具有如下优点：
43.本公开实施例的时序图谱构建方法，获取预设时间段内的流量数据信息；基于流量数据信息，构建原始序列；对原始序列进行采样处理获得多个子序列，基于每个子序列与原始序列的距离分布，确定每个子序列的信息增益；将各个子序列的信息增益进行比较，并基于比较结果从多个子序列中获得目标序列；将目标序列作为时序图谱的节点，以及将目标序列在同一原始序列中的时序关系作为时序图谱的边，构建时序图谱。可见，本公开实施例能够将预设时间段内的流量数据信息进行模式抽取，并且结合时序特征，获得时序图谱，将时序的网络安全攻击或访问路径转化为了时序图谱的表现形式，在时序图谱上构建出了时序行为，能够将设备探针无法检测到的网络攻击反馈在时序图谱上，从而提高了时序图谱的准确性，并且较好的利用了流量数据信息中所包含的信息，能够较好的解决长时间周期的潜伏攻击行为。
附图说明
44.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。
45.图1为本公开实施例提供的一种时序图谱构建方法的流程示意图；
46.图2为本公开实施例提供的另一种时序图谱构建方法的流程示意图；
47.图3为本公开实施例提供的一种确定时序标识的方法示意图；
48.图4为本公开实施例提供的一种时序图谱构建装置的结构示意图；
49.图5为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
50.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
51.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
52.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。
53.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
54.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
55.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
56.为了解决上述问题，本公开实施例提供了一种时序图谱构建方法，下面结合具体的实施例对该方法进行介绍。
57.图1为本公开实施例提供的一种时序图谱构建方法的流程示意图，该方法可以由时序图谱构建装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：
58.步骤101，获取预设时间段内的流量数据信息。
59.由于在网络安全领域，特别是在内网访问环境下，大多数的访问模式都遵循一定的时序规律，可以将这类时序规律通过时序图谱的形式进行展示。
60.具体地，首先获取预设时间段内的流量数据信息，在本实施例中，预设时间段可以根据应用场景进行设置，本实施例不作限制，该预设时间段可以为一较长时间段，例如半年或一年等。流量数据信息记录了该时间段内，一个或多个访问端的访问发起次数等信息。该流量数据信息可以为netflow协议日志或http日志等网络通联日志。
61.步骤102，基于流量数据信息，构建原始序列。
62.在获取流量数据信息之后，可以解析该流量数据信息，从而构建原始序列。其中，原始序列的构建方法有多种，可以根据应用场景进行选择，本实施例不做限制，示例说明如下：
63.一种可选的实施方式中，对将预设时间段划分为多个子时间段，基于该子时间段构建原始序列，具体包括：
64.首先，解析流量数据信息，获取预设时间段中的每个子时间段内访问端的访问次数。
65.解析流量数据信息，从而获得流量信息中的访问时间、源互联网协议(internet protocol address，ip)地址等信息，进而根据该信息获取每个子时间段内访问端的访问次数。其中，访问端可以根据应用场景确定，本实施例不作限制，例如，访问端可以为源ip地址。
66.需要说明的是，上述子时间段的长度可以基于预设时间段的长度确定，一种可选的实施方式中，可以将子时间段的长度设置为相对较短，具体地，可以预设比例阈值，预设时间段长度与子时间段长度的比值需大于该比例阈值，例如，该比例阈值可以为150，若预设时间段为半年，则子时间段可以为1天。
67.进一步的，基于访问次数以及各子时间段之间的时序关系，构建每个访问端对应的原始序列。
68.在确定各子时间段内的访问次数之后，可以提取出同一访问端在多个子时间段内的访问次数，并根据每个子时间段之间的时序关系对该多个访问次数进行排序处理，从而
获得对应的原始序列。
69.例如，若解析流量数据信息，统计10天内每天ip1的访问发起次数，且统计结果按照时序由先到后依次为：11、2、13、5、8、6、3、10、9、4。则构建的原始序列为{11，2，13，5，8，6，3，10，9，4}
70.另一种可选的实施方式中，可以解析获得流量数据信息中的源ip地址、目的互联网协议(internet protocol address，ip)地址以及时间，根据预设时间段的各个子时间段内目标源ip地址向目的ip地址的访问发起次数，构建原始序列。
71.步骤103，对原始序列进行采样处理获得多个子序列，基于每个子序列与原始序列的距离分布，确定每个子序列的信息增益。
72.在获得原始序列之后，对每个原始序列进行采样处理获得多个子序列，一种可选的实施方式中，可以通过预设的滑动窗口以及滑动距离对原始序列进行采样处理，从而获得多个子序列，需要说明的是，该多个子序列可以采样自不同原始序列。其中滑动窗口的长度以及滑动距离可以根据应用场景进行设定，例如，可以对ip1{11，2，13，5，8，6，3，10，9，4}以滑动窗口为7，滑动距离为1采样，获得的四个子序列分别为：{11，2，13，5，8，6，3}、{2，13，5，8，6，3，10}、{13，5，8，6，3，10，9}、{5，8，6，3，10，9，4}。可选的，还可以对采样获取的多个子序列进行去重处理。
73.在本实施例中，对子序列和原始序列进行距离计算，具体计算方法本实施例不作限制，本领域技术人员可以根据场景需求等进行相应设置，通过计算能够确定每个子序列和每个原始序列之间的距离，基于该距离能够构成距离分布，从而根据距离分布确定每个子序列的信息增益。
74.一种可选的实施方式中，可以分别计算包括当前处理的子序列的距离分布，以及剔除当前处理的子序列的距离分布，从而根据两种距离分布的信息差异确定当前处理的子序列的信息增益，对每个子序列进行处理，可以获得每个子序列对应的信息增益。
75.步骤104，将各个子序列的信息增益进行比较，并基于比较结果从多个子序列中获得目标序列。
76.进一步的，可以对各个子序列的信息增益进行数值比较，若数值越大，则说明该子序列所携带的信息量越大，该子序列的代表性越强，因而可以基于该比较结果从多个子序列中获得目标序列。
77.一种可选的实施方式中，可以预设整数n，根据信息增益从大至小对子序列进行排序，获取前n个子序列作为目标序列。
78.步骤105，将目标序列作为时序图谱的节点，以及将目标序列在同一原始序列中的时序关系作为时序图谱的边，构建时序图谱。
79.可以理解地，图谱是由节点和边构成的，在本实施例中，可以基于筛选获得的目标序列构建时序图谱，具体地，可以将目标序列作为时序图谱的节点，在同一原始序列上对目标序列进行匹配，根据时序对匹配成功的目标序列进行排序，将排序之后相邻的两个目标序列之间建立边，从而确定该时序图谱的边，进而构建时序图谱。一种可选的实施方式中，相邻的目标序列之间的边可以为从时序靠前的目标序列指向时序靠后的目标序列的有向线。
80.以ip1对应的原始序列为{11，2，13，5，8，6，3，10，9，4}为例，假设第一目标序列为
{11，2，13，5，8，6，3}、第二目标序列为{13，5，8，6，3，10，9}，可以确定在ip1上，第一目标序列的时序先于第二目标序列的时序，可以以第一目标序列和第二目标序列为时序图谱的两个节点，并且建立由第一目标序列指向第二目标序列的线作为时序图谱的边。
81.综上，本公开实施例的时序图谱构建方法，获取预设时间段内的流量数据信息；基于流量数据信息，构建原始序列；对原始序列进行采样处理获得多个子序列，基于每个子序列与原始序列的距离分布，确定每个子序列的信息增益；将各个子序列的信息增益进行比较，并基于比较结果从多个子序列中获得目标序列；将目标序列作为时序图谱的节点，以及将目标序列在同一原始序列中的时序关系作为时序图谱的边，构建时序图谱。可见，本公开实施例能够将预设时间段内的流量数据信息进行模式抽取，并且结合时序特征，获得时序图谱，将时序的网络安全攻击或访问路径转化为了时序图谱的表现形式，在时序图谱上构建出了时序行为，能够将设备探针无法检测到的网络攻击反馈在时序图谱上，从而提高了时序图谱的准确性，并且较好的利用了流量数据信息中所包含的信息，能够较好的解决长时间周期的潜伏攻击行为。并且，可应用于大数据安全分析或威胁狩猎等场景。
82.基于上述实施例，图2为本公开实施例提供的另一种时序图谱构建方法的流程示意图，如图2所示，其中，基于每个子序列与原始序列的距离分布，确定每个子序列的信息增益，包括以下步骤：
83.步骤201，获取预设时间段内的流量数据信息。
84.步骤202，基于流量数据信息，构建原始序列。
85.在本实施例中，对流量数据信息进行解析能够获取到的信息包括但不限于：源ip地址信息、目的ip地址信息、端口信息、协议信息、流量大小信息、时间信息中的一个或多个，进而基于上述解析获得的信息构建原始序列。
86.步骤203，对原始序列进行采样处理获得多个子序列，基于子序列构建第一序列集合，计算第一序列集合到每个原始序列的第一距离分布。
87.在本实施例中，第一距离分布为包括当前处理的子序列的距离分布，第二距离分布为不包括当前处理的子序列的距离分布，因而可以根据第一距离分布与第二距离分布之间的信息量变化，确定当前处理的子序列的信息增益，具体包括：
88.在本实施例中，第一序列集合包括对各原始序列进行采样获得的子序列，通过计算该第一序列集合中的每个子序列到每个原始序列的距离，确定该第一序列集合到每个原始序列的第一距离分布。其中，第一距离分布能够反映第一序列集合中的子序列与原始序列之间的距离的分布情况。
89.一种可选的实施方式中，上述计算第一序列集合到每个原始序列的第一距离分布，具体包括：
90.步骤a1，获取对当前处理的原始序列进行采样确定的第一采样子序列。
91.在本实施例中，第一采样子序列为当前处理的原始序列所包括的子序列。一种可选的实施方式中，可以将原始序列与子序列的对应关系记录在预设列表中，根据当前处理的原始序列对该预设列表进行检索，从而确定该当前处理的原始序列对应的第一采样子序列。另一种可选的实施方式中，可以对当前处理的原始序列根据预设滑动窗口以及预设滑动距离进行采样，进而获得对应的第一采样序列。
92.步骤a2，计算每个第一采样子序列与第一序列集合中的子序列之间的第一距离，
将第一距离中的最小值作为第一序列集合中的子序列与当前处理的原始序列之间的第一目标距离。
93.在本实施例中，第一距离为：第一采样子序列与第一序列集合中的子序列之间的欧式距离。对当前处理的原始序列所包括的多个第一采样子序列进行计算，获得每个第一采样子序列对应的第一距离，将该多个第一距离中的最小值，作为当前处理的原始序列与第一序列集合中的子序列之间的第一目标距离。
94.举例而言，若存在n个源ip地址，则对于原始序列集合中存在n个元素，且原始序列集合orgs＝{orgsi,i∈[1,2,
…
n]}，若当前处理的原始序列为orgsi，第一采样子序列为subsk，则有第一采样子序列subsk∈orgsi，第一序列集合中的子序列为subsj，subsk与subsj的第一距离为d(subsk,subsj)，则：
[0095][0096]
其中subs
k,r
表示subsk的第r个值，subs
j,r
表示subsj的第r个值。orgsi与subsj的第一目标距离为d(orgsi,subsj)，则：
[0097][0098]
步骤a3，计算每个原始序列与第一序列集合中的每个子序列之间的第一目标距离，根据第一目标距离确定第一距离分布。
[0099]
一种可选的实施方式中，计算当前处理的原始序列与第一序列集合中的每个子序列的第一目标距离，并针对每个原始序列进行计算，从而获得每个原始序列与第一序列集合中的每个子序列之间的第一目标距离，从而根据该多个第一目标距离构成第一距离分布。
[0100]
步骤204，将第一序列集合中当前处理的子序列剔除，获得第二序列集合，计算第二序列集合到每个原始序列的第二距离分布。
[0101]
在本实施例中，当前处理的子序列为当前进行信息增益计算的子序列，可以将第一序列集合中剔除该当前处理的子序列，从而获得第二序列集合，并通过计算该第二序列集合中的每个子序列到每个原始序列的距离，确定该第二序列集合到每个原始序列的第二距离分布。其中，第二距离分布能够反映第二序列集合中的子序列与原始序列之间的距离的分布情况。
[0102]
一种可选的实施方式中，上述计算第二序列集合到每个原始序列的第二距离分布，具体包括：
[0103]
步骤b1，获取对当前处理的原始序列进行采样确定的第二采样子序列。
[0104]
在本实施例中，第二采样子序列为当前处理的原始序列所包括的子序列。一种可选的实施方式中，可以将原始序列与子序列的对应关系记录在预设列表中，根据当前处理的原始序列对该预设列表进行检索，从而确定该当前处理的原始序列对应的第二采样子序列。另一种可选的实施方式中，可以对当前处理的原始序列根据预设滑动窗口以及预设滑动距离进行采样，进而获得对应的第二采样序列。
[0105]
步骤b2，计算每个第二采样子序列与第二序列集合中的子序列之间的第二距离，将第二距离中的最小值作为第二序列集合中的子序列与当前处理的原始序列之间的第二目标距离。
[0106]
在本实施例中，第二距离为：第二采样子序列与第二序列集合中的子序列之间的欧式距离。对当前处理的原始序列所包括的多个第二采样子序列进行计算，获得每个第二采样子序列对应的第二距离，将该多个第二距离中的最小值，作为当前处理的原始序列与第二序列集合中的子序列之间的第二目标距离。
[0107]
举例而言，若当前处理的原始序列为orgsi′
，第二采样子序列为subsk′
，则有第二采样子序列subsk′
∈orgsi′
，第二序列集合中的子序列为subsj′
，subsk′
与subsj′
的第二距离为d(subsk′
,subsj′
)，则:
[0108][0109]
其中subs
k,r
′
表示subsk′
的第r个值，subs
j,r
′
表示subsj′
的第r个值。orgsi′
与subsj′
的第二目标距离为b(orgsi′
,subsj′
)，则：
[0110][0111]
步骤b3，计算每个原始序列与第二序列集合中的每个子序列之间的第二目标距离，根据第二目标距离确定第二距离分布。
[0112]
一种可选的实施方式中，计算当前处理的原始序列与第二序列集合中的每个子序列的第二目标距离，并针对每个原始序列进行计算，从而获得每个原始序列与第二序列集合中的每个子序列之间的第二目标距离，从而根据该多个第二目标距离构成第二距离分布。
[0113]
步骤205，根据第一距离分布和第二距离分布确定当前处理的子序列的信息增益。
[0114]
信息增益能够用来度量不同概率分布之间的差异，从而确定相应数据所含信息量的大小。在本实施例中，第一距离分布与第二距离分布不同的原因之一为：第一距离分布对应的第一序列集合中包括当前处理的子序列，而第二距离分布对应的第二序列集合中不包括当前处理的子序列，因而，可以计算第一距离分布与第二距离分布之间的信息量的变化，根据计算结果确定当前处理的子序列的信息增益。
[0115]
步骤206，将各个子序列的信息增益进行比较，并基于比较结果从多个子序列中获得目标序列。
[0116]
一种可选的实施方式中，可以预设数量阈值n，且n为正整数，将各个子序列按照信息增益的数值从大到小进行排序，取前n个子序列作为目标序列。
[0117]
另一种可选的实施方式中，可以预设数量阈值m，且m为正整数，通过对各子序列对应的信息增益进行比较，确定其中信息增益最大的为目标序列，并将该目标序列从第一序列集合中剔除，更新该第一序列集合，重新计算第一序列集合中的各子序列对应的信息增益，将其中信息增益最大的确定为目标序列，再根据最新获得的目标序列对目标序列集合进行更新，直至获取的目标序列的数目大于等于m。
[0118]
可选的，还可以对获得的目标序列通过序号进行标识。
[0119]
步骤207，获取目标序列中属于同一个原始序列的同源序列。
[0120]
在本实施例中，可以使用目标序列对原始序列进行匹配，从而从目标序列中筛选出属于同一原始序列的同源序列。
[0121]
一种可选的实施方式中，若预先记录了原始序列与子序列的对应关系，可以根据
目标序列对该对应关系中的子序列进行筛选，从而确定属于同一原始序列的同源序列。
[0122]
步骤208，在原始序列中对同源序列进行检索，获得每个同源序列对应的时序标识。
[0123]
进一步地，可以在原始序列中对同源序列进行检索，根据同源序列在原始序列中检索匹配的位置，确定每个同源序列对应的时序标识。需要说明的是，在同一原始序列中可能检索到一个同源序列多次，因而一个同源序列可以对应多个时序标识。
[0124]
步骤208，将同源序列作为时序图谱的节点，根据每个同源序列对应的时序标识确定同源序列之间的连接关系，构建时序图谱。
[0125]
每个同源序列存在对应的时序标识，因而可以根据该时序标识确定同源序列之间的连接关系，该连接关系的确认方法有多种，本实施例不作限制，例如：可以根据时序标识从先到后的顺序将同源序列两两相连。
[0126]
图3为本公开实施例提供的一种确定时序标识的方法示意图，如图3所示，原始序列为{11，2，13，5，8，6，3，10，9，4}，第一同源序列为{11，2，13，5，8，6，3}，第二同源序列为{13，5，8，6，3，10，9}，原始序列中，靠前的值对应的时序靠前，而根据时序关系第一同源序列比第二同源序列靠前，因而可以将第一同源序列的时序标识记为1，第二同源序列的时序标识记为2，其中，时序标识越大代表时序越靠后。可以将第一同源序列和第二同源序列作为时序图谱的节点，建立从第一同源序列到第二同源序列的有向连接，从而构建时序图谱。
[0127]
综上，本公开实施例的时序图谱构建方法，能够基于距离计算各子序列的信息增益，从而能够提取出有代表性的目标序列，从而提高了构建图谱的数据源的准确性，并且根据目标序列之间的时序关系构建时序图谱，使得时序图谱能够反映出目标序列之间的时序关系，增强了时序图谱所包含信息的丰富性。
[0128]
图4为本公开实施例提供的一种时序图谱构建装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图4所示，该装置包括：
[0129]
获取模块401，用于获取预设时间段内的流量数据信息；
[0130]
第一构建模块402，用于基于所述流量数据信息，构建原始序列；
[0131]
确定模块403，用于对所述原始序列进行采样处理获得多个子序列，基于每个所述子序列与所述原始序列的距离分布，确定每个所述子序列的信息增益；
[0132]
比较模块404，用于将各个所述子序列的信息增益进行比较，并基于比较结果从所述多个子序列中获得目标序列；
[0133]
第二构建模块405，用于将所述目标序列作为时序图谱的节点，以及将所述目标序列在同一所述原始序列中的时序关系作为所述时序图谱的边，构建所述时序图谱。
[0134]
可选地，所述第一构建模块402，用于：
[0135]
解析所述流量数据信息，获取预设时间段中的每个子时间段内访问端的访问次数；
[0136]
基于所述访问次数以及各所述子时间段之间的时序关系，构建每个所述访问端对应的原始序列。
[0137]
可选地，所述确定模块403，包括：
[0138]
采样单元，用于根据预设滑动窗口以及预设滑动距离对所述原始序列进行采样处理，获得所述多个子序列。
[0139]
可选地，所述确定模块403，包括：
[0140]
第一计算单元，用于基于所述子序列构建第一序列集合，计算所述第一序列集合到每个所述原始序列的第一距离分布；
[0141]
第二计算单元，用于将所述第一序列集合中当前处理的所述子序列剔除，获得第二序列集合，计算所述第二序列集合到每个所述原始序列的第二距离分布；
[0142]
确定单元，用于根据所述第一距离分布和所述第二距离分布确定当前处理的所述子序列的信息增益。
[0143]
可选地，所述第一计算单元，用于：
[0144]
获取对当前处理的所述原始序列进行采样确定的第一采样子序列；
[0145]
计算每个所述第一采样子序列与所述第一序列集合中的子序列之间的第一距离，将所述第一距离中的最小值作为所述第一序列集合中的子序列与当前处理的所述原始序列之间的第一目标距离；
[0146]
计算每个所述原始序列与所述第一序列集合中的每个所述子序列之间的所述第一目标距离，根据所述第一目标距离确定所述第一距离分布；
[0147]
所述第二计算单元，用于：
[0148]
获取对当前处理的所述原始序列进行采样确定的第二采样子序列；
[0149]
计算每个所述第二采样子序列与所述第二序列集合中的子序列之间的第二距离，将所述第二距离中的最小值作为所述第二序列集合中的子序列与当前处理的所述原始序列之间的第二目标距离；
[0150]
计算每个所述原始序列与所述第二序列集合中的每个所述子序列之间的所述第二目标距离，根据所述第二目标距离确定所述第二距离分布。
[0151]
可选地，所述第二构建模块405，用于：
[0152]
获取所述目标序列中属于同一个所述原始序列的同源序列；
[0153]
在所述原始序列中对所述同源序列进行检索，获得每个所述同源序列对应的时序标识；
[0154]
将所述同源序列作为所述时序图谱的节点，根据每个所述同源序列对应的时序标识确定所述同源序列之间的连接关系，构建所述时序图谱。
[0155]
本公开实施例所提供的时序图谱构建装置可执行本公开任意实施例所提供的时序图谱构建方法，具备执行方法相应的功能模块和有益效果。
[0156]
为了实现上述实施例，本公开还提出一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述实施例中的时序图谱构建方法
[0157]
图5为本公开实施例提供的一种电子设备的结构示意图。
[0158]
下面具体参考图5，其示出了适于用来实现本公开实施例中的电子设备500的结构示意图。本公开实施例中的电子设备500可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0159]
如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问
存储器(ram)503中的程序而执行各种适当的动作和处理。在ram 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0160]
通常，以下装置可以连接至i/o接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0161]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从rom 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的时序图谱构建方法中限定的上述功能。
[0162]
需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0163]
在一些实施方式中，客户端、服务器可以利用诸如http(hypertext transfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
[0164]
上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
[0165]
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取预设时间段内的流量数据信息；基于流量数据信息，
构建原始序列；对原始序列进行采样处理获得多个子序列，基于每个子序列与原始序列的距离分布，确定每个子序列的信息增益；将各个子序列的信息增益进行比较，并基于比较结果从多个子序列中获得目标序列；将目标序列作为时序图谱的节点，以及将目标序列在同一原始序列中的时序关系作为时序图谱的边，构建时序图谱。可见，本公开实施例能够将预设时间段内的流量数据信息进行模式抽取，并且结合时序特征，获得时序图谱，将时序的网络安全攻击或访问路径转化为了时序图谱的表现形式，在时序图谱上构建出了时序行为，能够将设备探针无法检测到的网络攻击反馈在时序图谱上，从而提高了时序图谱的准确性，并且较好的利用了流量数据信息中所包含的信息，能够较好的解决长时间周期的潜伏攻击行为。
[0166]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0167]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0168]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。
[0169]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0170]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
[0171]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0172]
此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0173]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种管片快速选型的装置及其使用方法与流程

时序图谱构建方法、装置、设备及介质与流程

相关文献

最热文献