一种数据仓库数据同步任务动态切换方法与流程

2022-02-20 00:24:49 来源：中国专利 TAG：

1.本

技术实现要素：
涉及数据处理技术领域，尤其涉及一种数据仓库数据同步任务动态切换方法。

背景技术：

2.数据库是面向事务设计的，是生产系统的数据平台，一般存储在线交易数据。
3.生产系统通过采用分布式数据库降低了对单台存储服务器的软硬件要求，但是在数据库的应用中，但是数据仓库进行数据抽取、转换和装载过程中，数据库中的数据同步到数据仓库的流程会发生巨大的变化。
4.在分布式数据库的规模较大的情况下，会使得数据仓库中同步流程中操作过程繁杂，耗费时间长，容易导致错误频发；同时目前在数据仓库抽取数据库的全量数据以及监听数据库的增量数据时,两种数据同步过程是需要各自独立启动的,使用者观察全量数据抽取完成后,再启动增量数据,由于全量数据的完成时间是未知的,则需要长时间查看任务进度，影响数据同步效率，耗费时间过长，极易出错，可靠性低。
5.由此可见，随着企业对实时数据处理的需求增加，如何提升同步效率，顺利切换工作模式，降低管理和任务时间成本，是本领域技术人员亟待解决的问题。
发明内容
6.本发明内容所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种数据仓库数据同步任务动态切换方法，自动切换工作模式，解决了数据增量和全量同步难以各自独立启动的问题，降低了管理和使用成本。
7.本发明内容的目的及解决的技术问题是采用以下技术方案来实现的：一种数据仓库数据同步任务动态切换方法，包括：s1：将数据整理形成底层源数据，接收系统发送的数据同步请求以将数据从来源库同步至目标库；s2：将分布式数据库中的增量数据导出到数据仓库的增量表中，将分布式数据库中的全量数据导出到数据仓库的全量表中；s3：执行全量数据同步任务和增量数据同步任务，将全量数据同步任务和增量数据同步任务状态记录在内存key value表中；s4：通过定时任务保存预设时间周期内增量数据同步任务读取redolog的位置；s5：根据设定时间周期，自动执行检查全量数据同步任务执行状态，记录全量数据同步任务开始时间和结束时间；s6：当全量数据同步任务结束,比对目标库和来源库的记录总数,总数相等时,检查通过，否则检查不通过；s7：检查通过后,自动关闭增量数据同步任务，查询全量数据同步任务开始时间对应的增量数据同步任务，读取redolog的位置，根据redolog的位置启动增量数据同步任务；
s8：执行增量数据同步任务，数据从来源库同步至目标库。
8.优选的，进行数据同步时，先启动增量数据同步任务时，增量数据同步任务记录redolog的偏移量,通过定时任务设置预设时间内保存,作为增量数据同步任务的回滚点。
9.优选的，所述全量数据同步任务启动后,记录全量数据同步任务的开始时间,作为查询增量数据同步任务回滚点的查询条件。
10.优选的，所述全量数据同步任务结束后,查询全量数据表中的最大主键和最小主键,比对来源库和目标库的最大主键和最小主键,选取来源库和目标库重叠的主键区间作为检查区间,比对来源库和目标库的主键区间内的数据总量,若数据总量相同,则同步总数检查通过；若数据总量不同，自动发起重新拉取全量数据,重试后,若任何一次同步总数检查均未通过,则启动失败。
11.优选的，若任何一次来源库和目标库的主键区间内的数据总量检查成功，则继续下一个数据处理流程操作。
12.优选的，所有数据表的全量数据同步任务的同步总数检查通过后,对比所有全量数据同步任务的开始时间,选取最早的开始时间为条件查询增量数据同步任务回滚点。
13.优选的，所述步骤s7中，自动关闭增量数据同步任务后,再次以增量任务回滚点启动增量任务,完成并提示启动成功。
14.优选的，所述步骤s2中包括，根据预设的分表规则将增量表中的全部增量数据合并到数据仓库的汇总表中。
15.本发明的有益效果为：该数据仓库数据同步任务动态切换方法，通过自动切换数据同步模式以及交互方式，实现了数据库数据同步自动监听，动态切换数据同步模式，抽取数据库的全量数据完成后，自动监听数据库增量数据，各自独立，无需人工观察，减少因此造成的昂贵人力成本和时间成本，提升数据同步效率和可靠性，能够为上层应用提供更为高效的数据服务，更好的发挥数据价值。
具体实施方式
16.下面对本发明内容的技术方案做进一步的详细说明。显然，所描述的实施例仅仅是本发明内容一部分实施例，而不是全部的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明内容保护的范围。
17.应当理解，尽管这里可以使用术语第一、第二、第三等描述各个元件、组件和/或部分，但这些元件、组件和/或部分不受这些术语限制。
18.在本实施例中，一种数据仓库数据同步任务动态切换方法，包括以下步骤：s1：将数据整理形成底层源数据，接收系统发送的数据同步请求以将数据从来源库同步至目标库；s2：将分布式数据库中的增量数据导出到数据仓库的增量表中，将分布式数据库中的全量数据导出到数据仓库的全量表中；根据预设的分表规则将增量表中的全部增量数据合并到数据仓库的汇总表中，将集中式数据库的大表中存储的全部数据划分到分布式数据库的多个分表中时所遵循的分表规则根据实际情况设置。
19.s3：执行全量数据同步任务和增量数据同步任务，将全量数据同步任务和增量数据同步任务状态记录在内存key value表中；s4：通过定时任务保存预设时间周期内增量数据同步任务读取redolog的位置；s5：根据设定时间周期，自动执行检查全量数据同步任务执行状态，记录全量数据同步任务开始时间和结束时间；s6：当全量数据同步任务结束,比对目标库和来源库的记录总数,总数相等时,检查通过，否则检查不通过；s7：检查通过后,自动关闭增量数据同步任务，查询全量数据同步任务开始时间对应的增量数据同步任务，读取redolog的位置，根据redolog的位置启动增量数据同步任务；s8：执行增量数据同步任务，数据从来源库同步至目标库。
20.本实施例中，将分布式数据库中的增量数据导出到数据仓库的增量表中，将分布式数据库中的全量数据导出到数据仓库的全量表中时，携带各增量数据及全量数据的全局唯一的数据标识。
21.本实施例中，进行数据同步时，先启动增量数据同步任务时，增量数据同步任务记录redolog的偏移量,通过定时任务设置预设时间内保存,作为增量数据同步任务的回滚点。
22.本实施例中，所述全量数据同步任务启动后,记录全量数据同步任务的开始时间,作为查询增量数据同步任务回滚点的查询条件。
23.本实施例中，所述全量数据同步任务结束后,查询全量数据表中的最大主键和最小主键,比对来源库和目标库的最大主键和最小主键,选取来源库和目标库重叠的主键区间作为检查区间,比对来源库和目标库的主键区间内的数据总量,若数据总量相同,则同步总数检查通过；若数据总量不同，自动发起重新拉取全量数据,重试后,若任何一次同步总数检查均未通过,则启动失败,。
24.本实施例中，若任何一次来源库和目标库的主键区间内的数据总量检查成功，则继续下一个数据处理流程操作。
25.本实施例中，所有数据表的全量数据同步任务的同步总数检查通过后,对比所有全量数据同步任务的开始时间,选取最早的开始时间为条件查询增量数据同步任务回滚点。
26.本实施例中，所述步骤s7中，自动关闭增量数据同步任务后,再次以增量任务回滚点启动增量任务,完成并提示启动成功。
27.本发明的有益效果为：该数据仓库数据同步任务动态切换方法，通过自动切换数据同步模式以及交互方式，实现了数据库数据同步自动监听，动态切换数据同步模式，抽取数据库的全量数据完成后，自动监听数据库增量数据，各自独立，无需人工观察，减少因此造成的昂贵人力成本和时间成本，提升数据同步效率和可靠性，能够为上层应用提供更为高效的数据服务，更好的发挥数据价值。
28.本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计
算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
29.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种自动化部署方法、装置及存储介质与流程

一种数据仓库数据同步任务动态切换方法与流程

相关文献

最热文献