数据查询方法、数据存储方法、装置、计算设备和介质与流程

2022-06-11 17:13:50 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，更具体地，涉及一种数据查询方法、数据存储方法、数据查询装置、数据存储装置、计算设备以及计算机可读存储介质。

背景技术：

2.面对网络中生成的大量报文数据，相关技术通常通过kafka或spark等大数据技术来存储报文数据，并为后续的查询提供支持。但是，相关技术的报文数据存储方式通常是针对报文数据进行处理后存储至数据库中，导致后续查询时无法得到报文的原始数据，难以满足报文数据的取证需求。另外，相关技术在查询所存储的报文数据时，计算资源开销较大、查询速度较慢。

技术实现要素：

3.有鉴于此，本公开提供了一种优化的数据查询方法、数据存储方法、数据查询装置、数据存储装置、计算设备和计算机可读存储介质。
4.本公开的一个方面提供了一种数据查询方法，包括：接收查询请求，所述查询请求至少包括目标报文数据的属性信息，基于所述查询请求，从多个索引数据中确定目标索引数据，其中，所述目标索引数据包括与所述目标报文数据的属性信息相关联的目标文件路径，所述多个索引数据中的每个索引数据包括历史报文数据的属性信息和所述历史报文数据所在的文件的文件路径，基于所述目标索引数据，从至少一个文件中确定出目标文件，其中，所述目标文件的文件路径为所述目标文件路径，所述至少一个文件用于存储所述历史报文数据，从所述目标文件中获取所述目标报文数据。
5.根据本公开实施例，上述多个索引数据存储于多个第一数据库，每个所述第一数据库的数据库标识和索引数据标识关联存储于第二数据库，所述索引数据标识表征了所述第一数据库存储的索引数据。其中，所述基于所述查询请求，从多个索引数据中确定目标索引数据包括：基于所述查询请求，从所述第二数据库中确定所述查询请求所指示的索引数据标识，基于所述查询请求所指示的索引数据标识，从所述第二数据库中确定出与所指示的索引数据标识相关联的至少一个数据库标识，基于所述至少一个数据库标识，确定与所述至少一个数据库标识对应的至少一个第一数据库，从所述至少一个第一数据库中所存储的索引数据中确定出属性信息与目标报文数据的属性信息匹配的索引数据作为所述目标索引数据。
6.根据本公开实施例，上述多个索引数据按照所述历史报文数据的时间戳存储于所述多个第一数据库，所述索引数据标识包括所述第一数据库所存储的索引数据的时间戳范围，所述查询请求还包括目标时间范围，所述目标报文数据的时间戳处于所述目标时间范围之内。其中，基于所述查询请求，从所述第二数据库中确定所述查询请求所指示的索引数据标识包括：基于所述查询请求中的目标时间范围，从所述第二数据库中确定所述查询请求所指示的索引数据标识，所述查询请求所指示的索引数据标识的时间戳范围包括所述目
标时间范围。
7.根据本公开实施例，上述目标文件包括多个历史报文数据。其中，所述从所述目标文件中获取所述目标报文数据包括：基于所述目标报文数据的属性信息，从所述多个历史报文数据中确定出至少一个历史报文数据作为所述目标报文数据，其中，所述至少一个历史报文数据的属性信息与所述目标报文数据的属性信息匹配。
8.根据本公开实施例，上述至少一个文件为分布式文件系统中的文件；所述至少一个文件与至少一个预设时间范围一一对应，针对所述至少一个文件中的每个文件，该文件所存储的每个历史报文数据的报文生成时间处于该文件对应的预设时间范围内。
9.根据本公开实施例，针对所述至少一个文件中的每个文件，该文件所存储的多个历史报文数据被压缩成多个子文件；针对每个子文件，该子文件中的多个历史报文数据依次被压缩。其中，所述多个历史报文数据依次被压缩包括：对已接收的至少一个历史报文数据进行压缩得到初步压缩子文件，将新接收的至少一历史报文数据压缩至所述初步压缩子文件中。其中，所述文件路径还包括子文件的文件名。
10.根据本公开实施例，上述属性信息包括以下至少一项：源ip地址、目的ip地址、源端口、目的端口、数据传输协议。
11.根据本公开实施例，上述第一数据库包括位图数据库，所述第二数据库包括位图数据库。
12.本公开的另一个方面提供了一种数据存储方法，包括：获取待存储的历史报文数据，解析所述待存储的历史报文数据中的每个历史报文数据，得到每个历史报文数据的属性信息，将所述待存储的历史报文数据存储至分布式文件系统中的至少一个文件，并记录每个所述历史报文数据所在的文件的文件路径，针对每个历史报文数据，确定所述历史报文数据的属性信息和所述历史报文数据所在的文件的文件路径作为索引信息，将所述索引信息关联存储至位图数据库。
13.根据本公开实施例，上述至少一个文件与至少一个预设时间范围一一对应；所述将所述待存储的历史报文数据存储至分布式文件系统中的至少一个文件包括，针对每个所述历史报文数据：确定所述历史报文数据的报文生成时间，基于所述报文生成时间和所述至少一个预设时间范围，将所述历史报文数据存储至所述至少一个文件中的一个，其中，所述报文生成时间处于所存储文件对应的预设时间范围内。
14.根据本公开实施例，针对所述至少一个文件中的每个文件，该文件所存储的多个历史报文数据被压缩成多个子文件；针对每个子文件：对已接收的至少一个历史报文数据进行压缩得到初步压缩子文件，将新接收的至少一历史报文数据压缩至所述初步压缩子文件中。
15.本公开的另一个方面提供了一种数据查询装置，包括：接收模块、第一确定模块、第二确定模块以及第一获取模块。其中，接收模块用于接收查询请求，所述查询请求至少包括目标报文数据的属性信息。第一确定模块用于基于所述查询请求，从多个索引数据中确定目标索引数据，其中，所述目标索引数据包括与所述目标报文数据的属性信息相关联的目标文件路径，所述多个索引数据中的每个索引数据包括历史报文数据的属性信息和所述历史报文数据所在的文件的文件路径。第二确定模块用于基于所述目标索引数据，从至少一个文件中确定出目标文件，其中，所述目标文件的文件路径为所述目标文件路径，所述至
少一个文件用于存储所述历史报文数据。第一获取模块用于从所述目标文件中获取所述目标报文数据。
16.本公开的另一个方面提供了一种数据存储装置，包括：第二获取模块、解析模块、第一存储模块、第三确定模块以及第二存储模块。其中，第二获取模块用于获取待存储的历史报文数据。解析模块用于解析所述待存储的历史报文数据中的每个历史报文数据，得到每个历史报文数据的属性信息。第一存储模块用于将所述待存储的历史报文数据存储至分布式文件系统中的至少一个文件，并记录每个所述历史报文数据所在的文件的文件路径。第三确定模块用于针对每个历史报文数据，确定所述历史报文数据的属性信息和所述历史报文数据所在的文件的文件路径作为索引信息。第二存储模块用于将所述索引信息关联存储至位图数据库。
17.本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。
18.本公开的另一方面提供了一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。
19.根据本公开的实施例，利用上述数据查询方法和数据存储方法可以至少部分地解决相关技术的报文数据存储方式难以满足报文数据的取证需求、查询计算资源开销较大、查询速度较慢的问题，并因此可以实现在查询取证时获取未经处理的原始的报文数据，并提高了查询速度，降低了数据查询的资源耗费的技术效果。
附图说明
20.通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：
21.图1示意性示出了根据本公开实施例的数据查询方法和数据存储方法的系统架构；
22.图2示意性示出了根据本公开实施例的数据查询方法和数据存储方法的原理图；
23.图3示意性示出了根据本公开实施例的数据查询方法的流程图；
24.图4示意性示出了根据本公开实施例的索引数据存储的原理图；
25.图5示意性示出了根据本公开实施例的确定目标索引数据的流程图；
26.图6示意性示出了根据本公开实施例的数据存储方法的流程图；
27.图7示意性示出了根据本公开实施例的数据查询装置的框图；
28.图8示意性示出了根据本公开实施例的数据存储装置的框图；以及
29.图9示意性示出了根据本公开实施例的适于数据查询和数据存储的计算机系统的方框图。
具体实施方式
30.以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免
不必要地混淆本公开的概念。
31.在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
32.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。
33.在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
34.本公开的实施例提供了一种数据查询方法，包括：接收查询请求，查询请求至少包括目标报文数据的属性信息，基于查询请求，从多个索引数据中确定目标索引数据，其中，目标索引数据包括与目标报文数据的属性信息相关联的目标文件路径，多个索引数据中的每个索引数据包括历史报文数据的属性信息和历史报文数据所在的文件的文件路径，基于目标索引数据，从至少一个文件中确定出目标文件，其中，目标文件的文件路径为目标文件路径，至少一个文件用于存储历史报文数据，从目标文件中获取目标报文数据。
35.本公开的实施例还提供了一种数据存储方法，用于存储历史报文数据，该方法包括：获取待存储的多个历史报文数据，解析待存储的多个历史报文数据中的每个历史报文数据，得到每个历史报文数据的属性信息，将待存储的多个历史报文数据存储至分布式文件系统中的至少一个文件，针对每个历史报文数据，将历史报文数据的属性信息和历史报文数据所在的文件的文件路径关联存储至位图数据库，以得到针对每个历史报文数据的索引数据。
36.图1示意性示出了根据本公开实施例的数据查询方法和数据存储方法的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
37.如图1所示，根据该实施例的系统架构100可以包括转发设备101、102、103，网络104和服务器105。网络104用以在转发设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
38.转发设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。转发设备101、102、103可以包括但不限于路由器、交换机、网关等等。
39.服务器105可以是提供各种服务的服务器，例如对来自转发设备101、102、103的报文数据提供存储功能(仅为示例)。服务器105可以对接收到的查询请求进行分析等处理，并获取查询请求所针对的目标报文数据。
40.需要说明的是，本公开实施例所提供的数据查询方法和数据存储方法一般可以由服务器105执行。相应地，本公开实施例所提供的数据查询装置和数据存储装置一般可以设置于服务器105中。本公开实施例所提供的数据查询方法和数据存储方法也可以由不同于服务器105且能够与转发设备101、102、103和/或服务器105通信的服务器或服务器集群执
行。相应地，本公开实施例所提供的数据查询装置和数据存储装置也可以设置于不同于服务器105且能够与转发设备101、102、103和/或服务器105通信的服务器或服务器集群中。
41.应该理解，图1中的转发设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的转发设备、网络和服务器。
42.图2示意性示出了根据本公开实施例的数据查询方法和数据存储方法的原理图。
43.如图2所示，待存储的多个历史报文数据210例如从路由器、交换机等设备中获取。以多个历史报文数据210包括包括历史报文数据211、历史报文数据212、历史报文数据213、历史报文数据214为例。
44.对每个历史报文数据进行数据解析，得到每个历史报文数据的属性信息。例如历史报文数据211的属性信息为“属性a”，历史报文数据212的属性信息为“属性b”，历史报文数据213的属性信息为“属性c”，历史报文数据214的属性信息为“属性d”。属性信息可以包括报文的四元数，四元数包括源ip地址、目的ip地址、源端口、目的端口。
45.接下来，将多个历史报文数据210存储至多个文件221、222中，多个文件221、222可以存储于分布式文件系统中。例如将历史报文数据211和历史报文数据212压缩并存储至文件221中，将历史报文数据213和历史报文数据214压缩并存储至文件222中。其中，文件221的文件路径例如为“路径a”，文件222的文件路径例如为“路径b”，通过文件路径可以找到对应的文件。
46.将每个历史报文数据的属性信息和其所存储的文件的文件路径关联存储，得到索引文件230，索引文件230例如存储在位图数据库中。该索引文件230中包括与多个历史报文数据一一对应的多个索引数据。多个索引数据例如包括“属性a”与“路径a”的关联数据、“属性b”与“路径a”的关联数据、“属性c”与“路径b”的关联数据、“属性d”与“路径b”的关联数据。
47.在将历史报文数据存储至多个文件221、222以及生成索引文件230之后，可以基于接收到的查询请求240从多个历史报文数据中获取目标报文数据260。具体地，查询请求240中例如包括所需要的目标报文数据的属性信息，例如查询请求240中包括的属性信息为“属性a”。
48.然后，基于查询请求240中的“属性a”，从索引文件230中的多个索引数据中确定出目标索引数据250，该目标索引数据250例如为“属性a”与“路径a”的关联数据。然后，基于目标索引数据250中的“路径a”，从多个文件221、222中确定出文件路径为“路径a”的文件221作为目标文件，接下来解压文件221，然后从基于查询请求240中的“属性a”从解压后的文件221中获取属性数据为“属性a”的历史报文数据211作为目标报文数据260。
49.以下结合图2的原理图来描述本公开实施例的数据查询方法和数据存储方法。
50.图3示意性示出了根据本公开实施例的数据查询方法的流程图。
51.如图3所示，该方法例如可以包括以下操作s310～操作s340。
52.在操作s310，接收查询请求，查询请求至少包括目标报文数据的属性信息。其中，查询请求例如用于从多个已存储的历史报文数据中查询目标报文数据。
53.在操作s320，基于查询请求，从多个索引数据中确定目标索引数据。
54.在本公开的实施例中，多个索引数据例如与多个历史报文数据一一对应，即每个索引数据包括其对应的历史报文数据的属性信息和历史报文数据所在的文件的文件路径。
其中，多个索引数据例如存储在位图数据库中，位图数据库在查询效率上具有优势。
55.基于查询请求中的属性信息从多个索引数据中确定出具有该属性信息的索引数据作为目标索引数据，该目标索引数据包括与该属性信息相关联的目标文件路径。
56.在操作s330，基于目标索引数据，从至少一个文件中确定出目标文件。其中，目标文件的文件路径为目标文件路径，至少一个文件用于存储历史报文数据。
57.在本公开的实施例中，至少一个文件例如存储在分布式文件系统中，每个文件均包括被压缩存储的多个历史报文数据，每个文件具有文件路径。基于目标索引数据中的目标文件路径，从至少一个文件中确定出文件路径与目标文件路径一致的文件作为目标文件。
58.在操作s340，从目标文件中获取目标报文数据。
59.在本公开的实施例中，目标文件包括多个历史报文数据。可以基于查询请求中目标报文数据的属性信息，从存储于目标文件的多个历史报文数据中确定出至少一个历史报文数据作为目标报文数据，至少一个历史报文数据的属性信息与目标报文数据的属性信息匹配。
60.例如，在确定目标文件之后，由于目标文件中存储多个历史报文数据，因此可以基于查询请求中的属性信息，从目标文件中获取属性信息与查询请求中的属性信息一致的历史报文数据作为所需的目标报文数据。
61.在本公开的实施例中，通过将历史报文数据存储至分布式文件系统中，保证了历史报文数据的原始性，以便后续进行报文的查询取证时，可以从分布式文件系统中获取未经处理的原始的报文数据。另外，在将历史报文数据存储至分布式文件系统之后，将文件路径和报文的属性信息作为索引数据关联存储至位图数据库中，便于后续基于属性信息从位图数据库中查找索引数据来得到目标报文数据存储的目标文件路径，并基于目标文件路径从文件中获取未经处理的目标报文数据，从而提高查询速度，降低数据查询的资源耗费。
62.图4示意性示出了根据本公开实施例的索引数据存储的原理图。
63.如图4所示，以多个历史报文数据410包括历史报文数据411-418为例。历史报文数据411、412例如存储在文件421中，历史报文数据413、414例如存储在文件422中，历史报文数据415、416例如存储在文件423中，历史报文数据417、418例如存储在文件424中。文件421的文件路径为“路径a”，文件422的文件路径为“路径b”，文件423的文件路径为“路径c”文件424的文件路径为“路径d”。
64.与多个历史报文数据一一对应的多个索引数据例如存储于多个第一数据库中。例如与历史报文数据411-414一一对应的多个索引数据存储在第一数据库431中，与历史报文数据415-418一一对应的多个索引数据存储在第一数据库432中，第一数据库431的数据库标识例如为“第一数据库p”，第一数据库432的数据库标识例如为“第一数据库q”。第一数据库431包括位图数据库，第二数据库432包括位图数据库。
65.其中，每个历史报文数据的属性信息例如包括源ip地址、目的ip地址、源端口、目的端口、数据传输协议中的任意一个或多个。每个历史报文数据的属性信息和其所存储的文件的文件路径关联存储在第一数据库中。
66.另外，每个历史报文数据具有时间戳，该时间戳例如表征该报文生成的时间。为了便于理解，以历史报文数据411的时间戳为“20200101”为例，表示该历史报文数据411在
2020年01月01日生成。但是，每个历史报文数据的时间戳还可以精确表示到某一时刻，例如可以表示为“20200101163020”，表示该历史报文数据在2020年01月01日16时30分20秒生成，本公开实施例对时间戳的表示形式不作具体限定。
67.其中，多个索引数据按照历史报文数据的时间戳存储于多个第一数据库中。每个索引数据例如包括该历史报文数据的时间戳、属性信息、文件路径。例如每个第一数据库可以存储4个索引数据，则多个历史报文数据411-418对应的索引数据按照时间戳从小(早)到大(晚)依次存储至第一数据库431，使得第一数据库431存储与历史报文数据411-414对应的多个索引数据。当第一数据库431存满4个索引数据后，按照时间戳将剩余的历史报文数据415-418所对应的索引数据依次存储至第二数据库432中。
68.接下来，将每个第一数据库的数据库标识和索引数据标识关联存储于第二数据库440中。其中，索引数据标识表征了第一数据库存储的索引数据，例如索引数据标识包括第一数据库所存储的索引数据的时间戳范围。时间戳范围例如由最小时间戳和最大时间戳来表征。
69.以第一数据库431为例，第一数据库431中索引数据的最小时间戳为“20200101”，最大时间戳为“20200104”。将最小时间戳“20200101”、最大时间戳“20200104”以及第一数据库431的数据库标识“第一数据库p”关联存储至第二数据库440。针对第一数据库432的过程相同或类似，在此不再赘述。
70.以下结合图4的原理图和图5的流程图来描述本公开实施例的确定目标索引数据的过程。
71.图5示意性示出了根据本公开实施例的确定目标索引数据的流程图。
72.如图5所示，上述操作s320中关于基于查询请求，从多个索引数据中确定目标索引数据包括以下操作s521～操作s524。
73.在操作s521，基于查询请求，从第二数据库中确定查询请求所指示的索引数据标识。
74.在本公开的实施例中，查询请求中还包括目标时间范围，目标报文数据的时间戳处于目标时间范围之内。例如当需要查询目标报文数据时，可以指定生成该目标报文数据的目标时间范围，例如目标时间范围为2020年01月02日至2020年01月03日，目标报文数据生成的时间在该目标时间范围之内。
75.然后，基于查询请求中的目标时间范围，从第二数据库中确定查询请求所指示的索引数据标识，所指示的索引数据标识例如为最小时间戳为“20200101”和最大时间戳为“20200104”。可知，查询请求所指示的索引数据标识的时间戳范围(2020年01月01日至2020年01月04日)包含目标时间范围(2020年01月02日至2020年01月03日)。
76.在操作s522，基于查询请求所指示的索引数据标识，从第二数据库中确定出与所指示的索引数据标识相关联的至少一个数据库标识。
77.例如，与查询请求所指示的索引数据标识“20200101”和“20200104”相关联的数据库标识为“第一数据库p”。
78.在操作s523，基于至少一个数据库标识，确定与至少一个数据库标识对应的至少一个第一数据库。例如，确定与数据库标识“第一数据库p”对应的第一数据库431。
79.在操作s524，从至少一个第一数据库中所存储的索引数据中确定出属性信息与目
标报文数据的属性信息匹配的索引数据作为目标索引数据。
80.在一示例中，当查询请求中包括的属性信息为“目的端口31”时，从第一数据库431中确定包括“目的端口31”的索引数据作为目标索引数据，该目标索引数据中例如包括文件路径“路径a”。接下来，从与“路径a”对应的文件421中获取目标报文数据，例如从文件421中获取目的端口为“31”的一个或多个历史报文数据作为目标报文数据。
81.在另一示例中，当查询请求中包括的属性信息为“telnet协议”时，从第一数据库431中确定包括“telnet协议”的多个索引数据作为目标索引数据，该目标索引数据中例如包括文件路径“路径a”和“路径b”。接下来，从与“路径a”对应的文件421和与“路径b”对应的文件422中获取目标报文数据，例如从文件421中获取数据传输协议为“telnet协议”的一个或多个历史报文数据，从文件422中获取数据传输协议为“telnet协议”的一个或多个历史报文数据，将所获取的历史报文数据作为目标报文数据。
82.在另一示例中，当查询请求中包括的属性信息为“目的端口31或32”以及“telnet协议”时，从第一数据库431中确定包括“目的端口31或32”和“te1net协议”的第一条索引数据作为目标索引数据，该目标索引数据中例如包括文件路径“路径a”。接下来，从与“路径a”对应的文件421中获取目标报文数据，例如从文件421中获取目的端口为“31或32”以及数据传输协议为“telnet协议”的一个或多个历史报文数据作为目标报文数据。
83.在另一示例中，当查询请求中的目标时间范围为2020年01月04日至2020年01月05日时，查询请求所指示的索引数据标识例如为“20200101”和“20200104”以及“20200105”和“20200108”。与索引数据标识对应的第一数据库例如包括第一数据库431和第一数据库432。接下来基于查询请求中的属性信息从第一数据库431和第一数据库432中确定出包括该属性信息的目标索引数据，并基于该目标索引数据所包括的文件路径从相应的文件中获取目标报文数据。
84.可以理解，本公开的实施例通过将历史报文数据的索引数据存储至多个第一数据库中，并建立用于索引多个第一数据库的第二数据库，便于在查询目标报文数据时，先从第二数据库中确定出相应的第一数据库，再从所确定的第一数据库中确定目标报文数据所存储的文件路径，而不需要遍历所有的第一数据库，从而提高了查询效率，降低了查询所耗费的计算资源。
85.在本公开的实施例中，至少一个文件为分布式文件系统中的文件，至少一个文件与至少一个预设时间范围一一对应，针对至少一个文件中的每个文件，该文件所存储的每个历史报文数据的报文生成时间处于该文件对应的预设时间范围内。
86.例如，至少一个文件包括文件1、文件2、文件3等等，每个文件中所存储的历史报文数据的报文生成时间例如为1个小时之内。例如，与文件1对应的预设时间范围为2020年01月01日00:00:00～2020年01月01日0:59:59。与文件2对应的预设时间范围例如为2020年01月01日01:00:00至2020年01月01日1:59:59。与文件3对应的预设时间范围例如为2020年01月01日02:00:00至2020年01月01日2:59:59。以文件1中所存储的历史报文数据为例，该文件1中所存储的每个历史报文数据的报文生成时间例如在2020年01月01日00:00:00至2020年01月01日0:59:59的时间范围之内。
87.针对至少一个文件中的每个文件，该文件所存储的多个历史报文数据被压缩成多个子文件。以文件1为例，该文件1中所存储的多个历史报文数据例如被压缩成子文件11、子
文件12、子文件13等。例如，以2020年01月01日00:00:00至2020年01月01日0:59:59的时间范围之内依次生成3000个历史报文数据为例，每个子文件例如可存储1000个历史报文数据。例如，在依次生成3000个历史报文数据的过程中，所生成的历史报文数据依次存储至子文件11中，待子文件11存满1000个历史报文数据之后，之后生成的历史报文数据再依次存储至子文件12直到子文件12存满1000个，后续生成的报文再依次存储至子文件13。
88.针对每个子文件，该子文件中的多个历史报文数据依次被压缩。以子文件11为例，该子文件11存储的1000个历史报文数据例如依次被压缩存储。
89.在一种实施例中，针对该子文件11，可以每隔预设间隔对已接收的历史报文数据进行压缩，预设间隔可以是1分钟。例如对1分钟之内已接收的200个历史报文数据进行压缩得到初步压缩子文件，然后将后续1分钟新接收的300个历史报文数据压缩至初步压缩子文件中。其中，将新接收的300个历史报文数据压缩至初步压缩子文件中，可以通过流式压缩技术进行压缩，流式压缩技术具有往压缩文件中继续压缩新文件的功能。因此，对于后续每1分钟内新接收的历史报文数据，可以将新接收的历史报文数据继续压缩至之前的压缩子文件中，直到子文件11存满1000个历史报文数据为止，最终该子文件11中所存储的1000个历史报文数据被压缩成一个文件。
90.在另一种实施例中，针对该子文件11，每次可以以预设数量的历史文件数据进行一次压缩处理，预设数量例如为200。例如对已接收的200个历史报文数据进行压缩得到初步压缩子文件，然后将后续新接收的200个历史报文数据压缩至初步压缩子文件中。其中，可以通过流式压缩技术将新接收的200个历史报文数据压缩至初步压缩子文件中。对后续每200个新接收的历史报文数据，可以将新接收的历史报文数据继续压缩至之前的压缩子文件中，直到子文件11存满1000个历史报文数据为止，最终该子文件11中所存储的1000个历史报文数据被压缩成一个文件。
91.在本公开的实施例中，通过流式压缩技术对历史报文数据进行多次压缩得到子文件，可以降低存储空间的耗费峰值。例如，当等待接收完1000个历史报文数据之后，再一次性将该1000个历史报文数据压缩至子文件11，则等待接收满1000个历史报文数据的过程中，已接收的报文数据由于没有被压缩将导致占用较大的存储空间。而通过流式压缩技术对历史报文数据进行多次压缩，可以降低历史报文数据所占用的存储空间。
92.在本公开的实施例中，由于每个文件具有多个子文件，每个子文件例如也具有文件名。针对每个文件的文件路径还可以包括子文件的文件名，便于在获取目标报文数据时，可以从目标文件中相应的子文件中获取，从而提高数据获取速度。
93.图6示意性示出了根据本公开实施例的数据存储方法的流程图。
94.如图6所示，该方法例如可以包括以下操作s610～操作s650。
95.在操作s610，获取待存储的历史报文数据。
96.在操作s620，解析待存储的历史报文数据中的每个历史报文数据，得到每个历史报文数据的属性信息。
97.其中，属性信息包括源ip地址、目的ip地址、源端口、目的端口、数据传输协议中的任意一个或多个。
98.在操作s630，将待存储的历史报文数据存储至分布式文件系统中的至少一个文件，并记录每个历史报文数据所在的文件的文件路径。
99.在操作s640，针对每个历史报文数据，确定历史报文数据的属性信息和历史报文数据所在的文件的文件路径作为索引信息。
100.在操作s650，将索引信息关联存储至位图数据库。
101.在本公开的实施例中，至少一个文件与至少一个预设时间范围一一对应。将待存储的历史报文数据存储至分布式文件系统中的至少一个文件包括：针对每个历史报文数据，确定历史报文数据的报文生成时间，基于报文生成时间和至少一个预设时间范围，将历史报文数据存储至至少一个文件中的一个，报文生成时间处于所存储文件对应的预设时间范围内。
102.在本公开的实施例中，针对至少一个文件中的每个文件，该文件所存储的多个历史报文数据被压缩成多个子文件。针对每个子文件：对已接收的至少一个历史报文数据进行压缩得到初步压缩子文件，将新接收的至少一历史报文数据压缩至初步压缩子文件中。
103.在本公开的实施例中，通过将历史报文数据存储至分布式文件系统中，保证了历史报文数据的原始性，以便后续进行报文的查询取证时，可以从分布式文件系统中获取未经处理的原始的报文数据。另外，在将历史报文数据存储至分布式文件系统之后，将文件路径和报文的属性信息作为索引数据关联存储至位图数据库中，便于后续基于属性信息从位图数据库中查找索引数据来得到目标报文数据存储的目标文件路径，并基于目标文件路径从文件中获取未经处理的目标报文数据，从而提高查询速度，降低数据查询的资源耗费。
104.图7示意性示出了根据本公开实施例的数据查询装置的框图。
105.如图7所示，数据查询装置700可以包括：接收模块710、第一确定模块720、第二确定模块730以及第一获取模块740。
106.接收模块710可以用于接收查询请求，查询请求至少包括目标报文数据的属性信息。根据本公开实施例，接收模块710例如可以执行上文参考图3描述的操作s310，在此不再赘述。
107.第一确定模块720可以用于基于查询请求，从多个索引数据中确定目标索引数据，其中，目标索引数据包括与目标报文数据的属性信息相关联的目标文件路径，多个索引数据中的每个索引数据包括历史报文数据的属性信息和历史报文数据所在的文件的文件路径。根据本公开实施例第一确定模块720例如可以执行上文参考图3描述的操作s320，在此不再赘述。
108.第二确定模块730可以用于基于目标索引数据，从至少一个文件中确定出目标文件，其中，目标文件的文件路径为目标文件路径，至少一个文件用于存储历史报文数据。根据本公开实施例，第二确定模块730例如可以执行上文参考图3描述的操作s330，在此不再赘述。
109.第一获取模块740可以用于从目标文件中获取目标报文数据。根据本公开实施例，第一获取模块740例如可以执行上文参考图3描述的操作s340，在此不再赘述。
110.图8示意性示出了根据本公开实施例的数据存储装置的框图。
111.如图8所示，数据存储装置800可以包括：第二获取模块810、解析模块820、第一存储模块830、第三确定模块840以及第二存储模块850。
112.第二获取模块810可以用于获取待存储的历史报文数据。根据本公开实施例，第二获取模块810例如可以执行上文参考图6描述的操作s610，在此不再赘述。
113.解析模块820可以用于解析待存储的历史报文数据中的每个历史报文数据，得到每个历史报文数据的属性信息。根据本公开实施例，解析模块820例如可以执行上文参考图6描述的操作s620，在此不再赘述。
114.第一存储模块830可以用于将待存储的多个历史报文数据存储至分布式文件系统中的至少一个文件，并记录每个历史报文数据所在的文件的文件路径。根据本公开实施例，第一存储模块830例如可以执行上文参考图6描述的操作s630，在此不再赘述。
115.第三确定模块840可以用于针对每个历史报文数据，确定历史报文数据的属性信息和历史报文数据所在的文件的文件路径作为索引信息。根据本公开实施例，第三确定模块840例如可以执行上文参考图6描述的操作s640，在此不再赘述。
116.第二存储模块850可以用于将索引信息关联存储至位图数据库。根据本公开实施例，第二存储模块850例如可以执行上文参考图6描述的操作s650，在此不再赘述。
117.根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
118.图9示意性示出了根据本公开实施例的适于数据查询和数据存储的计算机系统的方框图。图9示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
119.如图9所示，根据本公开实施例的计算机系统900包括处理器901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))，等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
120.在ram 903中，存储有系统900操作所需的各种程序和数据。处理器901、rom 902以及ram 903通过总线904彼此相连。处理器901通过执行rom 902和/或ram 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom 902和ram 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
121.根据本公开的实施例，系统900还可以包括输入/输出(i/o)接口905，输入/输出(i/o)接口905也连接至总线904。系统900还可以包括连接至i/o接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。
驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
122.根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
123.本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
124.根据本公开的实施例，计算机可读存储介质可以是计算机非易失性的计算机可读存储介质，例如可以可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
125.例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom 902和/或ram 903和/或rom 902和ram 903以外的一个或多个存储器。
126.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
127.以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：自由空间确定设备、自由空间确定方法和自由空间确定程序与流程

数据查询方法、数据存储方法、装置、计算设备和介质与流程

相关文献

最热文献