一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、计算机设备、存储介质和程序产品与流程

2022-11-16 15:32:51 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及一种数据处理方法、装置、计算机设备、存储介质和程序产品。


背景技术:

2.hive是基于分布式计算(hadoop)构建的一套数据仓库分析系统,它提供了丰富的结构化查询语言(structured query language,sql)查询方式来分析存储在hadoop分布式文件系统(hadoop distributed file system,hdfs)中的数据。数据备份是容灾的基础,随着数据仓库的日益广泛应用及其数据的海量增加,对hive的数据备份的完整性和时效性要求也越来越高。
3.目前对hdfs文件进行直接复制备份,然而,由于在备份过程中hive底层的hdfs文件会不断发生变更,而且拷贝底层hdfs文件的过程中也会引起读写竞争,影响线上业务。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够降低读写竞争的数据处理方法、装置、计算机设备、存储介质和程序产品。
5.第一方面,本技术提供了一种数据处理方法。所述方法包括:
6.接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识;
7.响应于上述数据备份指令,获取第一数据集标识对应的第一元数据;
8.根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息;
9.根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
10.在其中一个实施例中,根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息,包括:
11.根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
12.在其中一个实施例中,若数据备份指令为全量备份指令,则根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中,包括:
13.根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件。
14.将第一数据集标识当前次对应的各数据文件作为目标数据文件,并将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量备份。
15.在其中一个实施例中,若数据备份指令为增量数据备份指令,则根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中,包括:
16.根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文
件写入至备份集存储池中。
17.其中,上一次的快照信息为当前次的前一次对第一数据集标识对应的各数据文件进行全量备份所对应的快照信息。
18.在其中一个实施例中,根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文件写入至备份集存储池中,包括:
19.将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件。
20.将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
21.在其中一个实施例中,若数据备份指令为差异数据备份指令,根据当前次的快照信息与初始快照信息确定待备份的目标数据文件,并对目标数据文件进行备份,包括:
22.将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件。
23.将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
24.第二方面,本技术还提供了一种数据处理装置。上述装置包括:
25.接收模块,用于接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识。
26.获取模块,用于响应于数据备份指令,获取第一数据集标识对应的第一元数据。
27.建立模块,用于根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
28.确定模块,用于根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
29.第三方面,本技术还提供了一种计算机设备。上述计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
30.接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识。
31.响应于数据备份指令,获取第一数据集标识对应的第一元数据。
32.根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
33.根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
34.第四方面,本技术还提供了一种计算机可读存储介质。上述计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
35.接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识。
36.响应于数据备份指令,获取第一数据集标识对应的第一元数据。
37.根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
38.根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
39.第五方面,本技术还提供了一种计算机程序产品。上述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
40.接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识。
41.响应于数据备份指令,获取第一数据集标识对应的第一元数据。
42.根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
43.根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
44.上述数据处理方法、装置、计算机设备、存储介质和程序产品,通过接收控制端发送的当前次的包括待备份数据集的第一数据集标识的数据备份指令,并响应于数据备份指令,获取第一数据集标识对应的第一元数据,进而根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息,根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。传统技术中,采用对hdfs文件进行直接复制备份,然而,由于在备份过程中hive底层的hdfs文件会存在对文件进行读写,因此备份过程中会引起读写竞争,影响线上业务。而本技术实施例通过引入快照技术,可以最快的记录下来待备份数据集中数据文件的目录的快照信息,提高了备份数据文件的准确性,同时避免了热备份过程中对hdfs读写竞争,减少了对线上业务的影响。
附图说明
45.图1是本技术实施例中数据处理方法的应用环境图;
46.图2是本技术实施例提供的一种方法的流程示意图;
47.图3是本技术实施例提供的一种数据文件全量备份的流程示意图;
48.图4是本技术实施例提供的一种数据文件增量备份的流程示意图;
49.图5是本技术实施例提供的一种数据文件差异备份的流程示意图;
50.图6是本技术实施例提供的一种数据恢复方法的流程示意图;
51.图7是本技术实施例提供的一种数据文件全量备份的信令流程图;
52.图8是本技术实施例提供的一种数据文件增量备份的信令流程图;
53.图9是本技术实施例提供的一种数据文件差异备份的信令流程图;
54.图10是本技术实施例中数据处理装置的结构框图;
55.图11是本技术实施例中计算机设备的内部结构图。
具体实施方式
56.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
57.本技术实施例提供的数据处理方法,可以应用于如图1所示的应用环境中。图1为一个实施例中数据处理方法的应用环境图。该应用环境包括控制端、代理端,其中,hive数据仓库中存储数据文件,控制端负责用户界面(user interface,ui)交互、备份任务管理和
备份集管理等控制功能;代理端主要负责对接hive集群与系统的数据访问协议,接收来自控制端的备份和恢复任务。存储端主要负责接收来自代理端的备份数据流或向代理端输出恢复数据流,需备份的数据存储在备份集存储池中。
58.在一个实施例中,如图2所示,图2是本技术实施例提供的一种数据处理方法的流程示意图,以该方法应用于图1中的代理端为例进行说明,代理端可以部署于计算机设备上,该方法包括以下步骤:
59.s201、接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识。
60.其中,数据备份指令用于指示代理端将待备份的数据文件进行备份的指令。数据备份指令可以为全量数据备份指令、增量数据备份指令、差异数据备份指令。
61.示例性的,待备份数据集可以是hadoop分布式文件系统(hadoop distributed file system,hdfs)文件,具体地,当需要进行数据备份时,用户可以通过ui交互输入第一数据集标识,控制端获取到用户输入的第一数据集标识,并向代理端发送包括第一数据集标识的数据备份指令。
62.s202、响应于数据备份指令,获取第一数据集标识对应的第一元数据。
63.其中,第一元数据表示描述数据的数据。
64.具体地,当接收到控制端发送的数据备份指令后,获取数据备份指令中的的第一数据标识对应的第一元数据。例如,如下表1所示,表1中示出了第一元数据,第一元数据包括了数据库身份标识号(identity document,id)、数据库描述信息。
65.表1
[0066][0067]
s203、根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
[0068]
其中,快照信息表示将某个状态下的数据记录在一个文件里。
[0069]
具体地,当获取到第一元数据之后,根据第一元数据在图1所示的hive数据仓库里找到与第一数据集标识对应的数据文件,并为第一数据集标识对应的数据文件的目录建立当前次的快照信息。
[0070]
在本实施例中,可以根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
[0071]
例如,当获取到上述元数据表中的信息后,为上述元数据对应的数据文件的目录建立快照,快照名称为01,快照信息例如如下:
[0072]
/test-warehouse/store/.snapshot/01/xxx_0001
[0073]
/test-warehouse/store/.snapshot/01/xxx_0002
[0074]
/test-warehouse/store/.snapshot/01/xxx_0003
[0075]
/test-warehouse/store/.snapshot/01/xxx_0004
[0076]
s204、根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
[0077]
具体地,根据当前次所建立的快照信息,遍历读取快照信息中所包含的目标数据文件,并将目标数据文件写入至备份集存储池中。
[0078]
例如,若备份指令为全量备份,意味着要将待备份数据集中的所有数据文件进行备份。结合上述s203中的举例说明,目标数据文件包括xxx 001、xxx 002、xxx 003、xxx 004,在得到上述快照名称为01的快照信息后,基于该快照信息确定包括xxx 001、xxx 002、xxx 003、xxx 004,将以上目标数据文件写入至备份集存储池中。
[0079]
本技术实施例提供的数据处理方法,通过接收控制端发送的当前次的包括待备份数据集的第一数据集标识的数据备份指令,并响应于数据备份指令,获取第一数据集标识对应的第一元数据,进而根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息,根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。由于本技术实施例通过引入快照技术,可以最快的记录下来待备份数据集中数据文件的目录的快照信息,提高了备份数据文件的准确性,同时避免了热备份过程中对hdfs读写竞争,减少了对线上业务的影响。
[0080]
在一个实施例中,上述的s203、根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息,可以通过如下方式实现:
[0081]
根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
[0082]
在本实施例中,例如,路径信息为:hdfs://193.168.1.75:9000/
[0083]
test-warehouse根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
[0084]
本技术实施例中,通过根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息,由于利用快照技术,记录了数据文件在当前次的状态信息,与传统的备份方法相比更为节省时间,并且记录的文件信息更为准确,有效的避免了读写竞争所带来的数据信息变化。
[0085]
图3是本技术实施例提供的一种数据文件全量备份的流程示意图,本实施例涉及的是“如何根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中”的一种可能的实现方式。在上述实施例的基础上,如图3所示,上述的s204包括以下步骤:
[0086]
s302:根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件。
[0087]
具体地,根据当前次所建立的快照信息,遍历读取快照信息中所包含的目标数据文件。例如,若当前次所建立的快照信息为上述快照信息01,则遍历读取快照信息01中所包含的hdfs文件目录下的所有的数据文件。
[0088]
s304:将第一数据集标识当前次对应的各数据文件作为目标数据文件,并将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量数据备份。
[0089]
其中,全量备份表示对某个指定时间点的所有数据和对应的结构进行一个完全的
备份。
[0090]
具体地,将上述步骤获取到的数据文件作为目标数据文件,代理端经过对数据文件遍历读取后把该数据文件写入至备份集存储池中。
[0091]
例如,若目标数据文件为上述快照信息01中描述的数据文件,则代理端将该数据文件写入至备份集存储池中。
[0092]
进一步地,若数据备份指令为增量数据备份指令,则根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中,包括:
[0093]
根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文件写入至备份集存储池中;
[0094]
其中,上一次的快照信息为当前次的前一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0095]
在本技术实施例中,利用建立的快照信息将目标文件写入至备份集存储池中,保证了目标数据文件的准确性。
[0096]
图4是本技术实施例提供的一种数据文件增量备份的流程示意图;,本实施例涉及的是“如何根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中”的一种可能的实现方式,如图4所示,包括以下步骤:
[0097]
s402、将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件。
[0098]
其中,差异文件表示当前次的快照信息对应的各数据文件与上一次快照信息对应的各数据文件之间不同的数据文件。
[0099]
具体地,接收到当前次的快照信息后,将当前次的快照信息与上一次快照信息进行比对,通过遍历快照信息,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件。
[0100]
例如,当前次的快照信息的快照名称为02,当前次的快照信息包括如下数据文件:
[0101]
/test-warehouse/store/.snapshot/02/xxx_0001
[0102]
/test-warehouse/store/.snapshot/02/xxx_0002
[0103]
/test-warehouse/store/.snapshot/02/xxx_0003
[0104]
/test-warehouse/store/.snapshot/02/xxx_0004
[0105]
/test-warehouse/store/.snapshot/02/xxx_0005
[0106]
上一次快照信息是快照名称为01的快照信息,通过遍历快照名称为02的快照信息,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件为:
[0107]
/test-warehouse/store/.snapshot/02/xxx_0005
[0108]
s404、将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0109]
具体地,得到差异文件之信息后,遍历差异文件信息,将差异文件作为目标数据文件,将得到的目标数据文件写入至备份集存储池中。
[0110]
例如,上述差异文件信息为:
[0111]
/test-warehouse/store/.snapshot/02/xxx_0005
[0112]
遍历差异文件信息,将上述目录中对应的差异文件作为目标数据文件,将得到的
目标数据文件写入至备份集存储池中。
[0113]
在本技术实施例中,利用当前次的快照信息与上一次快照信息进行比对得到差异文件,保证了文件的准确性,将差异文件作为目标数据文件写入至备份集存储池中,不用备份所有文件,更加节省时间和空间。
[0114]
图5是本技术实施例提供的一种数据文件差异备份的流程示意图,本实施例涉及的是“在数据备份指令为差异数据备份指令的情况下,如何根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中”的一种可能的实现方式,如图5所示,上述的s204包括以下步骤:
[0115]
s502、将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件。
[0116]
其中,初始快照信息里包括了初始状态下所有目标数据文件的信息。
[0117]
具体地,获取到当前次的快照信息后,将当前次的快照信息和初始快照信息进行比对,遍历快照信息之后,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件。
[0118]
在此以初始快照信息为上述实施例中提到的快照名称为01的快照信息进行举例介绍,若当前次的快照信息以下述的快照名称为07的快照信息进行举例说明,快照名称为07的快照信息包括如下数据:
[0119]
/test-warehouse/store/.snapshot/07/xxx_0001
[0120]
/test-warehouse/store/.snapshot/07/xxx_0002
[0121]
/test-warehouse/store/.snapshot/07/xxx_0003
[0122]
/test-warehouse/store/.snapshot/07/xxx_0004
[0123]
/test-warehouse/store/.snapshot/07/xxx_0005
[0124]
/test-warehouse/store/.snapshot/07/xxx_0006
[0125]
/test-warehouse/store/.snapshot/07/xxx_0007
[0126]
则将当前次的快照信息和初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件为:
[0127]
/test-warehouse/store/.snapshot/07/xxx_0005
[0128]
/test-warehouse/store/.snapshot/07/xxx_0006
[0129]
/test-warehouse/store/.snapshot/07/xxx_0007
[0130]
s504,将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0131]
其中,差异文件表示当前次的快照信息中对应的数据文件和初始快照信息中对应的数据文件之间不同的文件。
[0132]
具体地,将当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件作为目标数据文件,遍历目标数据文件并将其写入至备份集存储池中。
[0133]
例如,上述当前次的快照名称07对应的数据文件和初始快照名称01对应的数据文件之间的差异文件写入至备份集存储池中。
[0134]
在本技术实施例中,在差异备份中引入了快照技术,当前次的快照信息与初始快照信息进行比对,既保留了差异备份原有优点,又利用快照技术减少了差异备份所需时间,保证了备份文件的准确性和时效性。
[0135]
图6是本技术实施例提供的一种数据恢复方法的流程示意图,本实施例中涉及的是如何将上述已经备份好的数据文件进行恢复操作,如图8所示,包括以下步骤:
[0136]
s602,接收控制端发送的数据恢复指令,其中,数据恢复指令包括待恢复数据集的第二数据集标识。
[0137]
具体地,当需要进行数据恢复的时候,控制端发送数据恢复指令,接收到数据恢复指令后准备开始数据恢复。
[0138]
s604,响应于数据恢复指令获取第二数据集标识对应的第二元数据。
[0139]
其中,第二元数据表示描述待恢复数据的数据。
[0140]
具体地,当接收到控制端发送的数据恢复指令后,根据恢复指令里描述的第二数据集标识获取与之对应的第二元数据。
[0141]
s606,根据第二元数据从备份集存储池中获取第二数据集标识对应的各数据文件,并将获取的各数据文件写入对应的目录下。
[0142]
具体地,获取到第二元数据之后,根据第二元数据里的第二数据集标识找到与之对应的数据文件,将获取到的数据文件写入对应的目录中,数据恢复完成。
[0143]
在本技术实施例中,通过根据第二元数据从备份集存储池中获取第二数据集标识对应的各数据文件,并将获取的各数据文件写入对应的目录下,能够达到准确的找到需要恢复的数据文件。
[0144]
为了对本技术实施例进行更清楚的介绍,在此结合图7对本技术实施例提供的全量备份的方法进行介绍如图7所示,图7是本技术实施例提供的一种数据文件全量备份的信令流程图。该方法包括如下步骤:
[0145]
s701、控制端向代理端发送全量数据备份备份指令。
[0146]
备份数据集可以是hdfs文件,具体地,当需要进行数据备份时,控制端发送一条描述需要备份的数据内容以及备份时间的数据备份指令。
[0147]
s702、代理端接收控制端发送的全量数据备份指令后读取hive集群中待备份数据文件的第一元数据。
[0148]
其中,第一元数据表示描述数据的数据,当代理端接收到控制端发送的数据备份指令后,通过数据备份指令中的描述信息来获取第一数据标识对应的第一元数据
[0149]
s703、代理端将获取到的第一元数据写入至存储端的备份集存储池中。
[0150]
s704、代理端根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
[0151]
其中,快照信息表示将某个状态下的数据记录在一个文件里。当代理端获取到第一元数据之后,根据第一元数据在数据仓库里找到与第一数据集标识对应的数据文件,并为第一数据集标识对应的数据文件的目录建立当前次的快照信息。
[0152]
s705、代理端根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件。
[0153]
根据当前次所建立的快照信息,遍历读取快照信息中所包含的目标数据文件,例如,若当前次所建立的快照信息为上述快照信息01,则遍历读取快照信息01中所包含的hdfs文件目录下的数据文件,
[0154]
s706、代理端将第一数据集标识当前次对应的各数据文件作为目标数据文件,并
将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量数据备份。
[0155]
将上述步骤获取到的数据文件作为目标数据文件,代理端经过对数据文件遍历读取后把该数据文件写入至备份集存储池中。例如,若目标数据文件为上述快照信息01中描述的数据文件,则代理端将该数据文件写入至备份集存储池中。
[0156]
s707、代理端删除当前次全量数据备份得到的快照信息。
[0157]
当代理端将目标数据文件写入备份集存储池后,执行删除当前次全量数据备份快照信息操作,释放快照信息占用的存储空间。
[0158]
s708、代理端向备份集存储池中写入当前次全量备份的描述信息。
[0159]
其中、当前次全量备份描述信息包括了:当前次全量备份的具体时间、备份的目标数据文件等相关信息。
[0160]
图8是本技术实施例提供的一种数据文件增量备份的信令流程图。该方法包括如下步骤:
[0161]
s801、控制端向代理端发送增量数据备份指令。
[0162]
备份数据集可以是hadoop分布式文件系统(hadoop distributed file system,hdfs)文件,具体地,当需要进行增量数据备份时,控制端发送一条描述需要备份的数据内容以及备份时间的增量数据备份指令。
[0163]
s802、代理端接收控制端发送的全量备份指令后读取hive集群中待备份数据文件的第一元数据。
[0164]
其中,第一元数据表示描述数据的数据,当代理端接收到控制端发送的数据备份指令后,通过数据备份指令中的描述信息来获取第一数据标识对应的第一元数据。
[0165]
s803、将获取到的第一元数据写入至备份集存储池中。
[0166]
s804、代理端根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
[0167]
其中,快照信息表示将某个状态下的数据记录在一个文件里。当代理端获取到第一元数据之后,根据第一元数据在数据仓库里找到与第一数据集标识对应的数据文件,并为第一数据集标识对应的数据文件的目录建立当前次的快照信息。
[0168]
s805、代理端将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件。
[0169]
其中,差异文件表示当前次的快照信息对应的各数据文件与上一次快照信息对应的各数据文件之间不同的数据文件。具体地,接收到当前次的快照信息后,将当前次的快照信息与上一次快照信息进行比对,通过遍历快照信息,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件。
[0170]
s806、将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0171]
具体地,得到差异文件之信息后,遍历差异文件信息,将差异文件作为目标数据文件,将得到的目标数据文件写入至备份集存储池中。
[0172]
s807、代理端删除上一次的快照信息。
[0173]
当代理端将目标数据文件写入备份集存储池后,执行删除上一次的快照信息操作,释放快照信息占用的存储空间。
[0174]
s808、代理端向备份集存储池中写入当前次增量备份的描述信息。
[0175]
其中、当前次增量备份描述信息包括了:当前次增量备份的具体时间、备份的目标数据文件等相关信息。
[0176]
图9是本技术实施例提供的一种数据文件差异备份的信令流程图。该方法包括如下步骤:
[0177]
s901、控制端向代理端发送差异数据备份指令。
[0178]
备份数据集可以是hadoop分布式文件系统(hadoop distributed file system,hdfs)文件,具体地,当需要进行差异数据备份时,控制端发送一条描述需要备份的数据内容以及备份时间的差异数据备份指令。
[0179]
s902、代理端接收控制端发送的差异数据备份指令后读取hive集群中待备份数据文件的第一元数据。
[0180]
其中,第一元数据表示描述数据的数据,当代理端接收到控制端发送的数据备份指令后,通过数据备份指令中的描述信息来获取第一数据标识对应的第一元数据。
[0181]
s903、将获取到的第一元数据写入至备份集存储池中。
[0182]
s904、代理端根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息。
[0183]
其中,快照信息表示将某个状态下的数据记录在一个文件里。当代理端获取到第一元数据之后,根据第一元数据在数据仓库里找到与第一数据集标识对应的数据文件,并为第一数据集标识对应的数据文件的目录建立当前次的快照信息。
[0184]
s905、将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件。
[0185]
其中,初始快照信息里包括了初始状态下所有目标数据文件的信息。
[0186]
具体地,获取到当前次的快照信息后,将当前次的快照信息和初始快照信息进行比对,遍历快照信息之后,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件。
[0187]
s906、将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0188]
具体地,得到差异文件后,遍历差异文件,将差异文件作为目标数据文件,将得到的目标数据文件写入至备份集存储池中。
[0189]
s907、代理端删除当前次的快照信息。
[0190]
当代理端将目标数据文件写入备份集存储池后,执行删除当前次的快照信息操作,释放快照信息占用的存储空间。
[0191]
s908、代理端向备份集存储池中写入当前次差异备份的描述信息。
[0192]
其中、当前次差异备份描述信息包括了:当前次差异备份的具体时间、备份的目标数据文件等相关信息。
[0193]
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或
者阶段的至少一部分轮流或者交替地执行。
[0194]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。
[0195]
在一个实施例中,如图10所示,提供了一种数据处理装置,该装置1000包括:接收模块1001、获取模块1002、建立模块1003和确定模块1004,其中:
[0196]
接收模块1001,用于接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识;
[0197]
获取模块1002,用于响应于数据备份指令,获取第一数据集标识对应的第一元数据;
[0198]
建立模块1003,用于根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息;
[0199]
确定模块1004,用于根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
[0200]
在一个实施例中,建立模块1003,具体用于根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
[0201]
在一个实施例中,若所述数据备份指令为全量数据备份指令,则确定模块1004包括:
[0202]
获取单元,用于根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件;
[0203]
第一确定单元,用于将第一数据集标识当前次对应的各数据文件作为目标数据文件,并将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量数据备份。
[0204]
在一个实施例中,若所述数据备份指令为增量数据备份指令,则确定模块1004包括:
[0205]
第二确定单元,用于根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文件写入至备份集存储池中;
[0206]
其中,上一次的快照信息为当前次的前一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0207]
在一个实施例中,第二确定单元,具体用于将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件;将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0208]
在一个实施例中,若所述数据备份指令为差异数据备份指令,则确定模块1004,包括:
[0209]
第三确定单元,用于根据当前次的快照信息与初始快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中;
[0210]
其中,初始快照信息为第一次对第一数据集标识对应的各数据文件进行全量数据
备份所对应的快照信息。
[0211]
在一个实施例中,第三确定单元,具体用于将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件;将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0212]
在一个实施例中,该装置1000还包括:
[0213]
接收模块,用于接收控制端发送的数据恢复指令,其中,数据恢复指令包括待恢复数据集的第二数据集标识;
[0214]
响应模块,用于响应于数据恢复指令获取第二数据集标识对应的第二元数据;
[0215]
写入模块,用于根据第二元数据从备份集存储池中获取第二数据集标识对应的各数据文件,并将获取的各数据文件写入对应的目录下。
[0216]
上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0217]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储xx数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0218]
本领域技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0219]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0220]
接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识;
[0221]
响应于数据备份指令,获取第一数据集标识对应的第一元数据;
[0222]
根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照
信息;
[0223]
根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
[0224]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0225]
根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
[0226]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0227]
根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件;
[0228]
将第一数据集标识当前次对应的各数据文件作为目标数据文件,并将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量数据备份。
[0229]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0230]
根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文件写入至备份集存储池中;
[0231]
其中,上一次的快照信息为当前次的前一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0232]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0233]
将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件;将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0234]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0235]
根据当前次的快照信息与初始快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中;
[0236]
其中,初始快照信息为第一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0237]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0238]
将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件;
[0239]
将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0240]
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
[0241]
接收控制端发送的数据恢复指令,其中,数据恢复指令包括待恢复数据集的第二数据集标识;
[0242]
响应于数据恢复指令获取第二数据集标识对应的第二元数据;
[0243]
根据第二元数据从备份集存储池中获取第二数据集标识对应的各数据文件,并将获取的各数据文件写入对应的目录下。
[0244]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0245]
接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识;
[0246]
响应于数据备份指令,获取第一数据集标识对应的第一元数据;
[0247]
根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息;
[0248]
根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
[0249]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0250]
根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
[0251]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0252]
根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件;
[0253]
将第一数据集标识当前次对应的各数据文件作为目标数据文件,并将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量数据备份。
[0254]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0255]
根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文件写入至备份集存储池中;
[0256]
其中,上一次的快照信息为当前次的前一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0257]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0258]
将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件;将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0259]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0260]
根据当前次的快照信息与初始快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中;
[0261]
其中,初始快照信息为第一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0262]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0263]
将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件;
[0264]
将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0265]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0266]
接收控制端发送的数据恢复指令,其中,数据恢复指令包括待恢复数据集的第二数据集标识;
[0267]
响应于数据恢复指令获取第二数据集标识对应的第二元数据;
[0268]
根据第二元数据从备份集存储池中获取第二数据集标识对应的各数据文件,并将获取的各数据文件写入对应的目录下。
[0269]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0270]
接收控制端发送的当前次的数据备份指令,其中,数据备份指令包括待备份数据集的第一数据集标识;
[0271]
响应于数据备份指令,获取第一数据集标识对应的第一元数据;
[0272]
根据第一元数据为第一数据集标识对应的各数据文件的目录建立当前次的快照信息;
[0273]
根据当前次的快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中。
[0274]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0275]
根据第一元数据中的待备份数据集的路径信息,获取第一数据集标识对应的各数据文件的目录,并为目录建立当前次的快照信息。
[0276]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0277]
根据当前次的快照信息,获取第一数据集标识当前次对应的各数据文件;
[0278]
将第一数据集标识当前次对应的各数据文件作为目标数据文件,并将目标数据文件写入至备份集存储池中,以对目标数据文件进行全量数据备份。
[0279]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0280]
根据当前次的快照信息与上一次的快照信息确定目标数据文件,并将目标数据文件写入至备份集存储池中;
[0281]
其中,上一次的快照信息为当前次的前一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0282]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0283]
将当前次的快照信息与上一次的快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与上一次对应的各数据文件之间的差异文件;将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0284]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0285]
根据当前次的快照信息与初始快照信息确定待备份的目标数据文件,并将目标数据文件写入至备份集存储池中;
[0286]
其中,初始快照信息为第一次对第一数据集标识对应的各数据文件进行全量数据备份所对应的快照信息。
[0287]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0288]
将当前次的快照信息与初始快照信息进行比对,得到第一数据集标识的当前次对应的各数据文件与第一次对应的各数据文件之间的差异文件;
[0289]
将差异文件作为目标数据文件,并将目标数据文件写入至备份集存储池中。
[0290]
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
[0291]
接收控制端发送的数据恢复指令,其中,数据恢复指令包括待恢复数据集的第二数据集标识;
[0292]
响应于数据恢复指令获取第二数据集标识对应的第二元数据;
[0293]
根据第二元数据从备份集存储池中获取第二数据集标识对应的各数据文件,并将获取的各数据文件写入对应的目录下。
[0294]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0295]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0296]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0297]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献