一种数据同步方法、装置、电子设备及存储介质与流程

2023-08-06 12:31:45 来源：中国专利 TAG：

1.本发明涉及数据同步技术领域，尤其涉及一种数据同步方法、装置、电子设备及存储介质。

背景技术：

2.hive是基于hadoop构建的一套数据仓库分析系统,可以用sql语言对大规模数据进行提取、转换、加载和分析。随着大数据技术的发展，hive在数据库架构中扮演着重要的角色。由于互联网中数据不断增大，数据的安全和业务运行的可靠性变得越来越重要，hive的数据备份需求也由此而来。
3.现有技术中，可以使用hive的导出指令,将源端表的元数据和hadoop分布式文件系统(hadoop distributed file system，hdfs)文件导出到临时目录。将临时目录复制到目的端集群hadoop中。在目的端集群hadoop创建相关目录，创建与源端一致的表结构，在目的端将数据导入到hive仓库中，操作比较繁琐复杂，需要经过大量的手动操作，且产生大量的中间文件，如hive的表结构和缓存数据等，在备份时源集群占用较大的资源。故，如何减少中间文件、降低资源消耗的数据同步方法成为目前亟待解决的问题。

技术实现要素：

4.本发明提供了一种数据同步方法、装置、电子设备及存储介质，以实现数据库在安全的条件下，减少中间文件的产生，保证在数据同步的同时不影响数据库所在集群的正常使用。
5.根据本发明的一方面，提供了一种数据同步方法，其中，该方法包括：
6.获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表；
7.根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合；
8.基于同步任务集合在源端数据库与目的端数据库进行数据同步。
9.根据本发明的另一方面，提供了一种数据同步装置，其中，该装置包括：
10.列表生成模块，用于获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表；
11.任务生成模块，用于根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合；
12.数据同步模块，用于基于同步任务集合在源端数据库与目的端数据库进行数据同步。
13.根据本发明的另一方面，提供了一种电子设备，电子设备包括：
14.至少一个处理器；
15.以及与至少一个处理器通信连接的存储器；
16.其中，存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施例的数据同步方法。
17.根据本发明的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本发明任一实施例的数据同步方法。
18.本发明实施例的技术方案，通过获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表，根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合，基于同步任务集合在源端数据库与目的端数据库进行数据同步，实现在保证数据库安全可靠的条件下，减少中间文件的产生，保证在数据同步的同时不影响数据库所在集群的正常使用，提升用户的使用体验。
19.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是根据本发明实施例一提供的一种数据同步方法的流程图；
22.图2是根据本发明实施例二提供的一种数据同步方法的流程图；
23.图3是根据本发明实施例三提供的一种数据同步方法的流程图；
24.图4是根据本发明实施例三提供的一种第一表内容和第二表内容的流程图；
25.图5是根据本发明实施例四提供的一种数据同步装置的结构示意图；
26.图6是实现本发明实施例的数据同步方法的电子设备的结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
28.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.实施例一
30.图1是根据本发明实施例一提供的一种数据同步方法的流程图，本实施例可适用于将源端数据库数据迁移的情况，该方法可以由数据同步装置来执行，该数据同步装置可以采用硬件和/或软件的形式实现，该数据同步装置可配置于电子设备中。如图1所示，该方法包括：
31.s110、获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表。
32.其中，源端数据库可以是指需要进行同步的数据库，目的端数据库可以是指目的同步的数据库。源端表可以是指源端数据库中存储的数据表，目的端表可以是指目的端数据库中存储的数据表。源端数据库可以和目的端数据库可以归属于不同的集群。在实际的操作过程中，源端数据库和目的端数据库是相同类型的数据库，示例性的，源端数据库和目的端数据库可以均为hive数据库。预期同步列表可以是预先筛选的同步列表，可以将源端表和目的端表关联存储为预期同步列表。
33.在发明实施例中，可以分别获取源端数据库中的源端表和目的端数据库中的表名，分别确定源端表的表名和目的端表的表名，根据源端表的表名和目的端表的表名将源端表和目的端表关联存储为预期同步列表。在实际的操作过程中，可以通过预设数据表读取接口分别读取源端数据库内的源端表和目的端数据库的目的端表。当源端数据库和目的端数据库均为hive数据库时，可以通过hive metastore client应用程序编程接口分别获取源端表与目的端表。
34.获取源端表和目的端表后，可以分别确定源端表的表名和目的端表的表名，确定源端表表名与目的端表名相同的源端表和目的端表，将其关联存储为预期同步列表的列表项。目的端表的表名中不存在与源端表的表名相同的表名时，可以将对应的源端表和目的端表分别存储为预期同步列表的列表项。生成预期同步列表的列表项后，可以将全部的列表项作为预期同步列表。
35.在一实施例中，在预期同步列表中，可以只存储具有关联关系的源端表与目的端表；又或者，可以将全部的源端表作为列表项，将表名相同的目的端表关联存储为列表项，也就是说，不具有关联关系的源端表也可以存储为预期同步列表，对此并不进行限制。
36.s120、根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合。
37.其中，第一表内容可以是指预期同步列表中源端表的表内容，第二表内容可以是指预期同步列表中与源端表关联存储的目的端表的表内容。在一实施例中，第一表内容和第二表内容可以包括但不限于元数据、hadoop分布式文件系统(hadoop distribute file system，hdfs)文件等。比较结果可以是指第一表内容和第二表内容的比较结果，比较结果可以包括相同和不同，可以按照比较结果生成同步任务集合。同步任务集合可以是指全部的同步任务汇总而成的集体，同步任务可以是按照比较结果进行确定。
38.在发明实施例中，可以在预期同步列表中提取关联存储的源端表和目的端表，确定关联存储的源端表和目的端表的第一表内容和第二表内容，比较第一表内容和第二表内容生成比较结果，按照比较结果生成同步任务，确定同步任务集合。
39.在实际的操作过程中，源端表和目的端表可以包括普通表和分区表，当关联存储
的源端表和目的端表为普通表时，可以分别提取关联存储的源端表和目的端表的元数据作为第一表内容和第二表内容，确定源端表的元数据与目的端表的元数据是否相同，当源端表和目的端表的元数据内容不同时，确定比较结果为不同；反之，当源端表和目的端表的元数据内容相同时，确定比较结果为相同。又或者，可以按照源端表的地址信息和目的端表的地址信息分别提取hdfs文件，确定源端表的hdfs文件与目的端表的hdfs文件是否相同，当源端表和目的端表的hdfs文件不同时，确定比较结果为不同；反之，确定比较结果为相同。当源端表和目的端表为分区表时，可以按照分区名称提取源端表和目标端表相同名称分区的内容，按照分区对第一表内容和第二表内容进行比较，确定比较结果。
40.在一实施例中，可以按照多线程并发进行关联存储的源端表的第一表内容以及目的端表的第二表内容的比较。在实际的操作过程中，可以将预期同步列表中的列表项按照线程数量划分多个切片任务，每一个线程负责一个切片任务，将各切片任务提交至线程池，以使线程池对关联存储的源端表的第一表内容以及目的端表的第二表内容进行比较，生成比较结果。
41.确定比较结果后，可以按照比较结果生成同步任务。在实际的操作过程中，同步任务可以包括源端表的地址、目的端表的地址以及同步任务类型。可以按照源端表的地址、目的端表的地址生成同步任务，并对同步任务设置同步类型。示例性的，同步任务类型可以包括但不限于拷贝普通表任务、拷贝分区表任务、拷贝分区和无操作任务等。
42.在一实施例中，当目的端数据库中不存在于源端表对应的目的端表时，可以在目的端数据可以中创建新的数据表作为源端表对应的目的端表。
43.在一实施例中，当确定比较结果为相同时，可以确定同步任务类型为无操作任务；当源端表和目的端表为普通表且比较结果为不相同时，可以确定同步任务类型为拷贝普通表任务；当源端表和目的端表为分区表且比较结果为不相同时，可以确定同步任务类型为拷贝分区任务；当源端表和目的端表对应的分区均不相同时，可以确定同步任务类型为拷贝分区表任务。在一实施例中，可以在确定同步任务类型为无操作任务时，设置同步任务的同步数据字段为不同步标记；在确定同步任务为拷贝普通表任务、拷贝分区表任务、拷贝分区等任务时设置同步任务的同步数据字段为同步标记，以在同步过程中根据同步数据字段确定是否执行该同步任务。在确定同步任务后，可以汇总全部的同步任务为同步任务集合。
44.s130、基于同步任务集合在源端数据库与目的端数据库进行数据同步。
45.在发明实施例中，可以读取同步任务集合的同步任务，确定同步任务的源端表地址、目的端表的地址和同步任务类型，生成源端表地址、目的端表地址和同步任务类型对应的拷贝项。可以将拷贝项加入预先设置的多线程同步队列，调用预设多线程同步队列按照拷贝项在源端数据库中查询源端表地址，同时在目的端数据库中查询目的端地址，按照同步任务类型将源端表地址对应的数据同步至目的端地址的存储位置。
46.在一实施例中，在生成拷贝项之前，可以提取同步任务的同步数据字段，根据同步数据字段确定该同步任务是否进行同步，当同步数据字段为同步标记时，可以将该同步任务生成拷贝项；当同步数据字段为不同步标记时，不将该同步任务生成拷贝项，以节约同步资源。
47.在一实施例中，预先设置的多线程同步队列的最大同步任务数可以是预先设置的，当多线程同步队列拷贝项数量过多时，可以暂停添加拷贝项，当存在可用线程时，可以
再次将拷贝项添加至预设多线程同步队列，以实现源端数据库与目的端数据库进行数据同步。
48.本发明实施例，通过获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表，根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合，基于同步任务集合在源端数据库与目的端数据库进行数据同步，在保证数据库安全可靠的条件下，减少中间文件的产生，降低数据同步产生的资源消耗，简化数据同步的步骤，提升用户的使用体验。
49.在一实施例中，源端表数据库与目的端数据库的同步可以处于一个复制循环周期中，可以预先设置源端数据库与目的端数据库的复制循环周期，每间隔复制循环周期对源端数据库的源端表与目的端数据库的目的端表进行全量扫描同步，即对源端数据库的源端表和目的端数据库的目的端表进行对比及同步。其中，复制循环周期可以根据用户需求进行设置，示例性的，若设置复制循环周期为1小时1次，则每小时会进行全量同步一次，实现源端数据库与目的端数据库的周期性全量同步。
50.实施例二
51.图2是根据本发明实施例二提供的一种数据同步方法的流程图，本实施例是在上述实施例的基础上对一种数据同步方法的进一步说明。如图2所示，该方法包括：
52.s2010、在源端数据库以及目的端数据库分别调用预设数据表读取接口以获取源端表以及目的端表。
53.其中，预设数据表读取接口可以是预先设置的用于调用源端表和目的端表的接口。预设数据表读取接口可以包括应用程序编程接口(application programming interface，api)。在实际的操作中，预设数据表读取接口可以包括hive metastore client api，可以通过hive metastore client api获取源端数据库的源端表和目的端数据库的目的端表。
54.在发明实施例中，可以调用预设数据表读取接口,通过预设数据表读取接口分别在源端数据库中读取源端表，在目的端数据库中读取目的端表，获取源端表和目的端表。
55.s2020、根据源端表的第一表名与目的端表的第二表名的匹配结果生成预期同步列表。
56.在发明实施例中，可以分别确定源端表的第一表名和目的端表的第二表名，将第一表名和第二表名依次匹配，根据匹配结果生成预期同步列表。在实际的操作过程中，可以按照第一表名依次在第二表名中进行匹配，将匹配成功的第一表名和第二表名关联存储为预期同步列表的列表项。当第二表名中不存在与第一表名相同的表名时，可以将第一表名单独存储为预期同步列表项。
57.在一实施例中，根据源端表的第一表名与目的端表的第二表名的匹配结果生成预期同步列表，包括以下至少之一：
58.将源端表的第一表名与目的端表的第二表名进行匹配，在第一表名与第二表名匹配时，将源端表与目的端表关联存储为预期同步列表的列表项；
59.将源端表存储为预期同步列表的第一列表项，确定具有与源端表的第一表名匹配的第二表名的目的端表，将目的端表在预期同步列表存储为与第一列表项关联的第二列表
项。
60.在发明实施例中，根据源端表的第一表名与目的端表的第二表名的匹配结果生成预期同步列表可以包括按照源端表的第一表名在目的端表的第二表名中查询，确定与源端表的第一表名匹配的目的端的第二表名，当确定第一表名与第二表名匹配时，将对应第一表名的源端表和对应第二表名的目的端表关联存储为预期同步列表的列表项。也就是说，可以将第一表名与第二表名相同的源端表和目的端表存储于预期同步列表。又或者，可以将源端表存储为预期同步列表的第一列表项，确定与源端表的第一表名匹配的第二表名对应的目的端表，将与第一表名匹配的第二表名对应的目的端表存储为与第一列表项关联的第二列表项，生成预期同步列表。
61.在一实施例中，当目的端表的第二表名不存在于源端表的第一表名时，可以生成删除表任务，将目的端数据库中的不存在于源端数据库中的目的端表删除。在一实施例中，当源端表和目的端表均为分区表时，可以根据源端表分区的名称和目的端表分区的名称进行匹配，当目的端表分区的表名不存在与源端表分区的表名时，可以生成删除分区任务，将目的端数据库中的不存在于源端数据库中的目的端表分区删除。
62.s2030、将预期同步列表中的列表项划分到预设线程数量的切片任务，其中，列表项包括关联存储的源端表和目的端表。
63.其中，切片任务可以是指将预期同步列表的列表项划分为容易执行的任务。
64.在发明实施例中，可以获取预设线程数量，根据预设线程数量将预期同步列表中的列表项划分为预设线程数量的切片任务，即，将预期同步列表中关联存储的源端表和目的端表划分为预设线程数量的切片任务。每一个线程可以负责一个切片任务。
65.s2040、提交各切片任务至预设线程池以确定各切片任务的相同列表项内源端表的第一表内容与目的端表的第二表内容的比较结果。
66.在发明实施例中，当确定切片任务后，可以将切片任务提交至预设线程池，以使预设线程池开始多线程处理。在线程池中，可以确定切片任务的相同列表项内的源端表的第一表内容与目的端表的第二表内容，确定同一列表项中第一表内容和第二表内容的比较结果。
67.在一实施例中，第一表内容与第二表内容包括以下至少之一：
68.源端表元数据以及目的端表元数据；
69.源端表分区元数据以及目的端表分区元数据；
70.源端表hadoop分布式文件系统文件以及目的端表hadoop分布式文件系统文件；
71.源端表分区hadoop分布式文件系统文件以及目的端表分区hadoop分布式文件系统文件。
72.其中，源端表和目的端表可以包括普通表和分区表，当源端表和目的端表为普通表时，源端表元数据和目的端表元数据可以直接通过预设数据表读取接口进行获取，确定源端表的元数据与目的端表的元数据是否相同。源端表hadoop分布式文件系统文件以及目的端表hadoop分布式文件系统文件可以通过确定源端表的第一地址以及目的端表的第二地址，根据对比第一地址下的hadoop分布式文件系统文件与第二地址下的hadoop分布式文件系统文件，确定源端表hadoop分布式文件系统文件以及目的端表hadoop分布式文件系统文件是否相同。
73.当源端表和目的端表为分区表时，可以按照源端表的分区名称与目的端表的分区名称匹配，比较源端表分区与关联的目的端表分区的元数据和hadoop分布式文件系统文件，确定源端表分区的元数据与目的端表分区元数据是否相同，以及确定源端表分区的hadoop分布式文件系统文件与目的端表分区的hadoop分布式文件系统文件是否相同。
74.s2050、接收线程池输出的至少一个比较结果。
75.在发明实施例中，当线程池中的切片任务执行完成后，可以接收线程池输出的比较结果。其中，比较结果的数量可以为多个，比较结果的数量与列表项的数量相同。
76.s2060、在比较结果为相同时，生成比较结果的源端表和目的端表的同步任务，其中，同步任务至少包括源端表的第一地址、目的端表的第二地址以及设置为无操作任务的同步任务类型。
77.在发明实施例中，当确定比较结果为相同时，可以确定同步任务类型为无操作任务，可以按照源端表的第一地址、目的端表的第二地址生成同步任务，并设置同步任务类型为无操作任务。
78.s2070、在比较结果为不同时，根据对应比较结果的源端表和目的端表的表结构生成同步任务，其中，同步任务至少包括源端表的第一地址、目的端表的第二地址以及同步任务类型，同步任务类型根据表结构确定，同步任务类型包括拷贝普通表任务、拷贝分区表任务、拷贝分区任务中至少之一。
79.在发明实施例中，当确定比较结果为不同时，可以确定源端表和目的端表的表结构，按照源端表和目的端表的表结构生成对应的同步任务。在实际的操作过程中，源端表和目的端表的表结构可以包括普通表和分区表。当源端表和目的端表的表结构为普通表时，可以确定同步任务类型为拷贝普通表任务。可以根据源端表的第一地址、目的端表的第二地址生成同步任务，并设置同步任务类型为拷贝普通表任务。当源端表和目的端表的表结构为分区表时，可以确定是否源端表中的全部分区比较结果均为不同，当源端表中的全部分区的比较结果均为不同时，确定同步任务类型为拷贝分区表任务，可以根据源端表的第一地址、目的端表的第二地址生成同步任务，并设置同步任务类型为拷贝分区表任务；当源端表中的部分分区的比较结果为不同时，确定对应分区的同步任务类型为拷贝分区任务，可以根据源端表比较结果为不同的分区的地址、目的端表的分区地址生成同步任务，并设置同步任务类型为拷贝分区任务。
80.在一实施例中，在生成同步任务之后，还包括：
81.在同步任务类型为无操作任务时，设置同步任务的同步数据字段为不同步标记；
82.在同步任务类型不为无操作任务时，设置同步任务的同步数据字段为同步标记。
83.其中，同步数据字段可以是指示同步任务是否执行的标记，数据同步字段可以包括不同步标记和同步标记。
84.在发明实施例中，当确定同步任务类型后，可以根据同步任务类型对同步任务设置同步数据字段。在实际的操作过程中，当确定同步任务类型为无操作任务时，可以设置同步任务的同步数据字段为不同步标记；当确定同步任务类型不为无操作任务时，即拷贝普通表任务、拷贝分区表任务、拷贝分区任务中至少之一时，可以设置同步任务的同步数据字段为同步标记。
85.s2080、汇总各比较结果对应的同步任务为同步任务集合。
86.在发明实施例中，当确定个比较结果对应的同步任务后，可以将全部的同步任务汇总为同步任务集合。
87.s2090、读取同步任务集合的同步任务。
88.在发明实施例中，可以在同步任务集合中读取同步任务，以使同步任务进行执行。
89.s2100、提取同步任务的源端表的第一地址、目的端表的第二地址和同步任务类型，并生成第一地址、第二地址和同步任务类型对应的拷贝项。
90.在发明实施例中，可以提取同步任务包含的源端表的第一地址，目的端表的第二地址和同步任务类型，生成对应第一地址、第二地址以及同步任务类型的拷贝项。
91.在一实施例中，在生成第一地址、第二地址和同步任务类型对应的拷贝项之前，可以提取同步任务的同步数据字段，当同步任务的同步数据字段为不同步标记时，取消生成拷贝项；当同步任务的同步数据字段为同步标记时，继续生成拷贝项。
92.s2110、将拷贝项加入预设多线程同步队列，调用预设多线程同步队列以按照拷贝项将源端数据库内第一地址对应的数据按照同步任务类型同步至目的端数据库的第二地址对应的存储位置。
93.在发明实施例中，拷贝项生成后，将拷贝项加入预设多线程同步队列中，可以调用预设多线程同步队列按照拷贝项建立传输路径，将源端数据内第一地址对应的数据按照同步任务类型同步中目标端数据库的第二地址对应的存储位置进行同步，完成源端数据库与目的端数据库数据的同步。
94.本发明实施例，通过在源端数据库以及目的端数据库分别调用预设数据表读取接口以获取源端表以及目的端表，根据源端表的第一表名与目的端表的第二表名的匹配结果生成预期同步列表，将预期同步列表中的列表项划分到预设线程数量的切片任务，提交各切片任务至预设线程池以确定各切片任务的相同列表项内源端表的第一表内容与目的端表的第二表内容的比较结果，实现具有关联关系的源端表与目的端表多线程比较，加快源端表与目的端表的比较进程。通过接收线程池输出的至少一个比较结果，在比较结果为相同时；生成比较结果的源端表和目的端表的同步任务，在比较结果为不同时。根据对应比较结果的源端表和目的端表的表结构生成同步任务，汇总各比较结果对应的同步任务为同步任务集合，读取同步任务集合的同步任务，提取同步任务的源端表的第一地址、目的端表的第二地址和同步任务类型，并生成第一地址、第二地址和同步任务类型对应的拷贝项，将拷贝项加入预设多线程同步队列，调用预设多线程同步队列以按照拷贝项将源端数据库内第一地址对应的数据按照同步任务类型同步至目的端数据库的第二地址对应的存储位置。实现源端数据库与目的端数据库中数据的便捷同步，减少中间文件的产生，通过多线程优化，保持了多个连接可同时进行获取源端表和目的端表数据的操作，提高数据的同步的效率。
95.实施例三
96.图3是根据本发明实施例三提供的一种数据同步方法的流程图，本实施例是在上述实施例的基础上，以源端数据库为源端hive数据库，以目的端数据库为目的端hive数据库为例，对一种数据同步方法的进一步说明。如图3所示，该方法包括：
97.s310、在扫描模块中，通过预设数据表读取接口获取源端hive数据库的源端表和目的端hive数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表。
98.其中，扫描模块用于获取hive数据库的源端表和目的端hive数据库的目的端表，
以形成预期同步列表的模块。预设数据表读取接口可以包括但不限于hive metastore client api。
99.在一实施例中，可以取源端表表名与目的端表名交集部分表名对应的源端表与目的端表关联作为列表项存储于预期同步列表；又或者，可以将源端表作为第一列表项，确定关联的目的端表作为第二列表项存储为预期同步列表。
100.s320、在比较模块中，根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果。在比较模块执行后，按照比较结果确定同步任务集合。
101.其中，比较模块是用于比较预期同步列表中关联存储的源端表的第一表内容以及目的端表的第二表内容，并生成比较结果的模块，第一表内容和第二表内容可以包括hdfs文件和元数据。
102.在实际的操作过程中，将预期同步列表按照预设线程数量拆分为多个切片任务。每一个线程负责一个切片任务,切片任务的结果为同步任务集合。将切片任务提交至线程池以确定各切片任务的相同列表项内源端表的第一表内容与目的端表的第二表内容的比较结果。示例性的，可以通过比较器对相同列表项内源端表的第一表内容与目的端表的第二表内容进行比较。等待所有切片任务执行完毕。获取比较结果，根据比较结果确定同步任务集合。
103.在一实施例中，图4是根据本发明实施例三提供的一种第一表内容和第二表内容的流程图。在一实施例中，可以通过比较器对相同列表项内源端表的第一表内容与目的端表的第二表内容进行比较。当源端表和目的端表为普通表时，则源端表和目的端表无分区。比较器中可以通过hive metastore client api去获取具有关联关系的源端表和目的端表的元数据，确定源端表和目的端表的元数据是否相同，生成比较结果。获取源端表的第一地址和目的端表的第二地址,根据对比第一地址和第二地址下的hdfs文件来判断表数据是否相同，根据比较结果形成同步任务，并将全部的同步任务汇总后为同步任务集合。当源端表和目的端表为分区表时，比较器中可以通过hive metastore client api去获取具有关联关系的源端表和目的端表的所有分区名称，遍历所有分区的名称，来进行比较分区操作，按照分区判断源端表分区与目的端表分区元数据与hdfs文件是否相同，根据比较结果形成同步任务，并将全部的同步任务汇总为同步任务集合。
104.s330、基于同步任务集合在源端数据库与目的端数据库进行数据同步。
105.在实施例中，可以通过多线程遍历同步任务集合,然后根据同步任务中同步数据字段来判断是否进行数据的同步。如果需要进行数据的同步，可以会获取源端表或分区的第一地址和目的端表或分区的第二信息，并将源端表的第一地址和第二地址构成一个拷贝项。最后将这个拷贝项加入到拷贝队列预设多线程同步队列。在后续的文件拷贝中拷贝线程会不断从该队列中取出拷贝项并进行拷贝文件处理。所有的拷贝项缓存在预设多线程同步队列中，可以不断得从队列中取出数据，这些数据由多线程来负责数据传输，完成hdfs文件和元数据的同步。
106.在一实施例中，可以通过同步任务类型来继续对应的同步操作,预设多线程同步队列可以包括拷贝普通表任务、拷贝分区表任务、拷贝分区任务、删除表任务、删除分区任务、无操作任务。在一实施例中，hdfs文件和元数据的同步可以分别由拷贝hdfs执行器和拷
贝hive metadata执行器完成。
107.在一实施例中，源端表数据库与目的端数据库的同步可以处于一个复制循环周期中，可以预先设置源端数据库与目的端数据库的复制循环周期，每间隔复制循环周期对源端数据库的源端表与目的端数据库的目的端表进行全量扫描同步，即对源端数据库的源端表和目的端数据库的目的端表进行对比及同步，其中，复制循环周期可以根据用户需求进行设置，示例性的，若设置复制循环周期为1小时1次，则一小时会进行全量同步一次，实现源端数据库与目的端数据库的周期性全量同步。
108.实施例四
109.图5是根据本发明实施例四提供的一种数据同步装置的结构示意图。如图5所示，该装置包括：列表生成模块51，任务生成模块52和数据同步模块53。
110.其中，列表生成模块51，用于获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表。
111.任务生成模块52，用于根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合。
112.数据同步模块53，用于基于同步任务集合在源端数据库与目的端数据库进行数据同步。
113.本发明实施例，通过列表生成模块获取源端数据库的源端表和目的端数据库的目的端表，根据表名将源端表与目的端表关联存储为预期同步列表，任务生成模块根据预期同步列表确定关联存储的源端表的第一表内容以及目的端表的第二表内容的比较结果，并按照比较结果确定同步任务集合，数据同步模块基于同步任务集合在源端数据库与目的端数据库进行数据同步，实现在保证数据库安全可靠的条件下，减少中间文件的产生，降低数据同步产生的资源消耗，简化数据同步的步骤，提升用户的使用体验。
114.在一实施例中，列表生成模块51，包括：
115.数据表读取模单元，用于在源端数据库以及目的端数据库分别调用预设数据表读取接口以获取源端表以及目的端表；
116.列表生成单元，用于根据源端表的第一表名与目的端表的第二表名的匹配结果生成预期同步列表。
117.在一实施例中，列表生成单元，包括以下至少之一：
118.第一列表生成单元，用于将源端表的第一表名与目的端表的第二表名进行匹配，在第一表名与第二表名匹配时，将源端表与目的端表关联存储为预期同步列表的列表项；
119.第二列表生成单元，用于将源端表存储为预期同步列表的第一列表项，确定具有与源端表的第一表名匹配的第二表名的目的端表，将目的端表在预期同步列表存储为与第一列表项关联的第二列表项。
120.在一实施例中，任务生成模块52，包括：
121.任务划分单元，用于将预期同步列表中的列表项划分到预设线程数量的切片任务，其中，列表项包括关联存储的源端表和目的端表；
122.任务提交单元，用于提交各切片任务至预设线程池以确定各切片任务的相同列表项内源端表的第一表内容与目的端表的第二表内容的比较结果；
123.结果接收单元，用于接收线程池输出的至少一个比较结果；
124.第一同步任务生成单元，用于在比较结果为相同时，生成比较结果的源端表和目的端表的同步任务，其中，同步任务至少包括源端表的第一地址、目的端表的第二地址以及设置为无操作任务的同步任务类型；
125.第二同步任务生成单元，用于在比较结果为不同时，根据对应比较结果的源端表和目的端表的表结构生成同步任务，其中，同步任务至少包括源端表的第一地址、目的端表的第二地址以及同步任务类型，同步任务类型根据表结构确定，同步任务类型包括拷贝普通表任务、拷贝分区表任务、拷贝分区任务中至少之一；
126.任务集合生成单元，用于汇总各比较结果对应的同步任务为同步任务集合。
127.在一实施例中，任务生成模块52中第一表内容与第二表内容包括以下至少之一：
128.源端表元数据以及目的端表元数据；
129.源端表分区元数据以及目的端表分区元数据；
130.源端表hadoop分布式文件系统文件以及目的端表hadoop分布式文件系统文件；
131.源端表分区hadoop分布式文件系统文件以及目的端表分区hadoop分布式文件系统文件。
132.在一实施例中，数据同步模块53，包括：
133.任务读取单元，用于读取同步任务集合的同步任务；
134.任务提取单元，用于提取同步任务的源端表的第一地址、目的端表的第二地址和同步任务类型，并生成第一地址、第二地址和同步任务类型对应的拷贝项。
135.数据同步单元，用于将拷贝项加入预设多线程同步队列，调用预设多线程同步队列以按照拷贝项将源端数据库内第一地址对应的数据按照同步任务类型同步至目的端数据库的第二地址对应的存储位置。
136.在一实施例中，数据同步装置，还包括：
137.第一标记设置模块，用于在同步任务类型为无操作任务时，设置同步任务的同步数据字段为不同步标记。
138.第二标记设置模块，用于在同步任务类型不为无操作任务时，设置同步任务的同步数据字段为同步标记。
139.本发明实施例所提供的数据同步装置可执行本发明任意实施例所提供的数据同步方法，具备执行方法相应的功能模块和有益效果。
140.实施例五
141.图6是实现本发明实施例的数据同步方法的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
142.如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(rom)12、随机访问存储器(ram)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序，来执行各种
适当的动作和处理。在ram 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
143.电子设备10中的多个部件连接至i/o接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
144.处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据同步方法。
145.在一些实施例中，数据同步方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时，可以执行上文描述的数据同步方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据同步方法。
146.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
147.用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
148.在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
149.为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子
设备具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
150.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
151.计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
152.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
153.上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：蒸汽发生器更换启动因子的评估方法、设备及存储介质与流程

一种数据同步方法、装置、电子设备及存储介质与流程

最热文献