一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据同步结果检测方法、装置、设备及可读存储介质与流程

2023-01-06 02:57:47 来源:中国专利 TAG:


1.本技术涉及数据检测技术领域,尤其涉及一种数据同步结果检测方法、装置、设备及可读存储介质。


背景技术:

2.在数据同步的场景中,当涉及到成百上千的数据表或者数据库需要进行同步时,数据同步后的数据表或者数据库的质量问题是很多大数据团队面临的痛点,即要怎么确保同步得到的数据与源数据是完全一致的。
3.而目前缺少工具可以快速方便地验证跨同步前后数据库的数据一致性,现有的检验方法主要是通过逐行比较,如根据唯一键(主键),分别从两个表或者库中查询关联数据,再将每行数据进行hash(哈希算法),比较hash后的结果,这种方法无疑会占用较高的资源消耗导致检测效率低下。
4.上述内容仅用于辅助理解本技术的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

5.本技术的主要目的在于提供一种数据同步结果检测方法、装置、设备及可读存储介质,旨在解决现有的检验方法占用较高的资源消耗导致检测效率低下的技术问题。
6.为实现上述目的,本技术提供一种数据同步结果检测方法,所述数据同步结果检测包括以下步骤:通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;若不相同,则判断所述同步数据片段是否为最小划分单元;若不是最小划分单元,则将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。
7.进一步的,所述判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同的步骤包括:基于预设校验和算法计算所述同步数据片段的校验和得到第一校验值,计算与所述同步数据片段存在同步关系的所述源数据片段的校验和得到第二校验值;判断所述第一校验值和所述第二校验值是否相同;
若所述第一校验值与所述第二校验值不同,则判定所述第一校验值对应的所述同步数据片段与所述存在同步关系的所述源数据片段不相同。
8.进一步的,所述预设校验和算法为md5算法,所述基于预设校验和算法计算所述同步数据片段的校验和得到第一校验值,计算与所述同步数据片段存在同步关系的所述源数据片段的校验和得到第二校验值的步骤包括:通过所述md5算法计算所述同步数据片段中各数据的整体校验和得到所述第一校验值;通过所述md5算法计算与所述存在同步关系的所述源数据片段中各数据的整体校验和得到所述第二校验值。
9.进一步的,所述预设划分方式为区段划分,所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤包括:将所述源数据集中处于同一个区段的源数据作为一个所述源数据片段对所述源数据集进行划分得到预设数量的所述源数据片段;将所述同步数据集中处于同一个区段的同步数据作为一个所述源数据片段对所述同步数据集进行得到预设数量的所述同步数据片段。
10.进一步的,所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤之前,所述方法包括:对所述源数据集进行预处理,以为所述源数据集中的各所述源数据标记编号;同步预处理后的所述源数据集得到所述同步数据集。
11.进一步的,所述区段为编号区段,所述将所述源数据集中处于同一个区段的源数据作为一个所述源数据片段对所述源数据集进行划分得到预设数量的所述源数据片段的步骤包括:根据各所述源数据中的最大编号和所述预设数量确定各所述编号区段;将所述源数据集中处于同一个所述编号区段的所述源数据作为一个所述源数据片段,以对所述源数据集进行划分得到所述预设数量的所述源数据片段。
12.进一步的,在所述遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同的步骤之后,所述方法包括:若均相同,则判定基于所述源数据集进行同步得到所述同步数据集无错误。
13.此外,为实现上述目的,本技术还提供一种数据同步结果检测装置,所述数据同步结果检测装置包括:划分模块,用于通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;第一判断模块,用于遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;第二判断模块,用于若不相同,则判断所述同步数据片段是否为最小划分单元;更新模块,用于若不是最小划分单元,则将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;
输出模块,用于若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。
14.此外,为实现上述目的,本技术还提供一种数据同步结果检测设备,所述数据同步结果检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据同步结果检测程序,所述数据同步结果检测程序被所述处理器执行时实现如上述的数据同步结果检测方法的步骤。
15.此外,为实现上述目的,本技术还提供一种可读存储介质,所述可读存储介质上存储有数据同步结果检测程序,所述数据同步结果检测程序被处理器执行时实现如上述的数据同步结果检测方法的步骤。
16.本技术实施例提出的一种数据同步结果检测方法、装置、设备及可读存储介质,通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;若不相同,则判断所述同步数据片段是否为最小划分单元;若不是最小划分单元,则将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。即本技术通过对源数据集以及基于源数据集同步得到的同步数据集进行划分,得到多个源数据片段和多个同步数据片段,再将每个同步数据片段与其对应的源数据片段进行比较判断两数据片是否相同。若不相同,则将源数据片段作为源数据集,同步数据片段作为同步数据集,并再次进行划分片段和比对判断的过程,直至划分得到的数据片段无法继续划分,将此时与对应源数据片段不同的同步数据片段作为检测结果输出。可以理解的,相比于现有技术无需逐行比较节约了资源的使用,同时,最终输出的结果为一条或者一行数据,故检测结果也更为准确。
附图说明
17.图1是本技术实施例方案涉及的硬件运行环境的设备结构示意图;图2为本技术数据同步结果检测方法的第一实施例的流程示意图;图3为本技术数据同步结果检测方法的第二实施例的流程示意图;图4为本技术数据同步结果检测方法的第三实施例的流程示意图;图5为本技术数据同步结果检测方法数据片段比对判断示意图。
18.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
19.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
20.如图1所示,图1是本技术实施例方案涉及的硬件运行环境的终端结构示意图。
21.本技术实施例设备可以是服务器,也可以是智能手机、pc、平板电脑、电子书阅读器、便携计算机等具有数据处理功能的电子终端设备。
22.如图1所示,该设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口
1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
23.可选地,设备还可以包括摄像头、rf(radio frequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
24.本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
25.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据同步结果检测程序。
26.在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据同步结果检测程序,并执行以下操作:通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;若不相同,则判断所述同步数据片段是否为最小划分单元;若不是最小划分单元,则将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。
27.进一步地,处理器1001可以调用存储器1005中存储的数据同步结果检测程序,还执行以下操作:所述判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同的步骤包括:基于预设校验和算法计算所述同步数据片段的校验和得到第一校验值,计算与所述同步数据片段存在同步关系的所述源数据片段的校验和得到第二校验值;判断所述第一校验值和所述第二校验值是否相同;
若所述第一校验值与所述第二校验值不同,则判定所述第一校验值对应的所述同步数据片段与所述存在同步关系的所述源数据片段不相同。
28.进一步地,处理器1001可以调用存储器1005中存储的数据同步结果检测程序,还执行以下操作:所述预设校验和算法为md5算法,所述基于预设校验和算法计算所述同步数据片段的校验和得到第一校验值,计算与所述同步数据片段存在同步关系的所述源数据片段的校验和得到第二校验值的步骤包括:通过所述md5算法计算所述同步数据片段中各数据的整体校验和得到所述第一校验值;通过所述md5算法计算与所述存在同步关系的所述源数据片段中各数据的整体校验和得到所述第二校验值。
29.进一步地,处理器1001可以调用存储器1005中存储的数据同步结果检测程序,还执行以下操作:所述预设划分方式为区段划分,所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤包括:将所述源数据集中处于同一个区段的源数据作为一个所述源数据片段对所述源数据集进行划分得到预设数量的所述源数据片段;将所述同步数据集中处于同一个区段的同步数据作为一个所述源数据片段对所述同步数据集进行得到预设数量的所述同步数据片段。
30.进一步地,处理器1001可以调用存储器1005中存储的数据同步结果检测程序,还执行以下操作:所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤之前,所述方法包括:对所述源数据集进行预处理,以为所述源数据集中的各所述源数据标记编号;同步预处理后的所述源数据集得到所述同步数据集。
31.进一步地,处理器1001可以调用存储器1005中存储的数据同步结果检测程序,还执行以下操作:所述区段为编号区段,所述将所述源数据集中处于同一个区段的源数据作为一个所述源数据片段对所述源数据集进行划分得到预设数量的所述源数据片段的步骤包括:根据各所述源数据中的最大编号和所述预设数量确定各所述编号区段;将所述源数据集中处于同一个所述编号区段的所述源数据作为一个所述源数据片段,以对所述源数据集进行划分得到所述预设数量的所述源数据片段。
32.进一步地,处理器1001可以调用存储器1005中存储的数据同步结果检测程序,还执行以下操作:在所述遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同的步骤之后,所述方法包括:若均相同,则判定基于所述源数据集进行同步得到所述同步数据集无错误。
33.参照图2,本技术数据同步结果检测方法的第一实施例,所述数据同步结果检测方法包括:
步骤s10,通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;需要说明的是,随着大数据技术的推广,原来越多的场景会涉及到数据同步的过程。即将一个数据库或者数据表中的数据同步到另一个数据库或者数据表。对应的上述源数据集和同步数据集可以是数据库中的数据也可以是数据表中的数据。其中,同步数据集为基于源数据集同步得到的,如复制源数据集得到同步数据集。
34.上述预设划分方式可以是平均换分,将源数据集平均划分得到多个源数据片段,将同步数据集平均划分得到多个的同步数据片段,且源数据片段的数量和同步数据片段的数量相同。需要说明的是由于同步数据集是基于源数据集同步得到,故每个同步数据片段均存在有一个有同步关系的源数据片段。
35.进一步的,在所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤之前,所述方法包括:在所述预设划分方式为所述平均划分时,判断所述源数据集的第一数据数量和所述同步数据集的第二数据数量是否相同;若所述第一数据数量和和所述第二数据数量相同,则执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤。
36.具体的,若预设划分方式为平均划分,在通过预设划分方式对源数据集和同步数据集进行划分之前,还将检测所述同步数据集中的数据的数据数量(第二数据数量)和源数据集中的数据的数据数量(第一数据数量)。比较第一数据数量和第二数据数量是否相同(即比较同步数据集和源数据集中数据的数量是是否相同)。当处于相同的情况下,则执行通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤。可以理解的是,在本实施例中,进行平均划分操作之前还将对源数据集和同步数据集的数据量进行检测,避免在数据数量不相同的情况下对后续检测结果造成影响。如一源数据集数据数量为100条,一同步数据集数据数量为90条,分别经过平均划分后,得到的每个同步数据片段中的数据的数量为9,而源数据片段中数据的数量为10。从而到导致后续同步数据片段和源数据片段进行比对的结果均为不同。
37.步骤s20,遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;具体的,划分得到同步数据片段均会与对应的源数据片段进行比对判断是否相同,如同步数据片段1与对应的源数据片段1比对判断、同步数据片段2与对应的源数据片段2比对判断、......、同步数据片段n与对应的源数据片段n比对判断。如参数图5所示的数据片段比对判断示意图。
38.进一步的,步骤s20包括:步骤s210,基于预设校验和算法计算所述同步数据片段的校验和得到第一校验值,计算与所述同步数据片段存在同步关系的所述源数据片段的校验和得到第二校验值;进一步的,所述预设校验和算法为md5算法,通过所述md5算法计算所述同步数据片段中各数据的整体校验和得到所述第一校验值;通过所述md5算法计算与所述存在同步关系的所述源数据片段中各数据的整体校验和得到所述第二校验值。
39.具体的,上述预设校验和算法可以是md5算法(message digest algorithm ,消息
摘要算法)。在进行一个同步数据片段与源数据片段进行比对的过程时,通过md5算法对同步数据片段所包含的数据进行计算得到第一校验值,通过md5算法对存在同步关系(或者对应关系)的源数据片段所包含的数据进行计算得到第二校验值。
40.步骤s220,判断所述第一校验值和所述第二校验值是否相同;需要说明的是,若同步数据片段所包含的数据与源数据片段所包含的数据相同,则基于md5算法对两个片段的计算结果也相同,即第一检验值与第二校验值相同。故判断第一校验值和第二校验值是否相同。
41.步骤s230,若所述第一校验值与所述第二校验值不同,则判定所述第一校验值对应的所述同步数据片段与所述存在同步关系的所述源数据片段不相同。
42.具体的,若第一校验值与第二校验值不同,则可以判定第一校验值对应的同步数据片段与该同步数据片段存在同步关系的源数据片段不相同。
43.进一步的在所述遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同的步骤之后,所述方法包括:若均相同,则判定基于所述源数据集进行同步得到所述同步数据集无错误。
44.具体的,经过比对每对存在有同步关系的同步数据片段和源数据片段均相同时,则可以判定基于源数据集同步得到同步数据集的过程无错误,同步数据集中的数据与源数据集是保持一致。
45.步骤s30,若不相同,则判断所述同步数据片段是否为最小划分单元;具体的,若一同步数据片段与存在同步关系的所述源数据片段不相同,则进一步判断同步数据片段是否为最小划分单元。当同步数据片段中的数据为最小划分单元(如仅存在一行或者一条数据),则该同步数据片段无法继续划分。同理源数据片段也无法继续划分。
46.步骤s40,若不是最小划分单元,则将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;具体的,若不是最小划分单元,则表示可以对源数据片段和同步数据片段继续划分。对应的,将与对应源数据片段不相同的同步数据片段作为同步数据集,将对应该源数据片段作为源数据片段。再执行通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤。如参照图5,若同步数据片段3与源数据片段3不同,则同步数据片段3将作为新的同步数据集,将源数据片段3作为新的源数据集。并再次对新的同步数据集和新的源数据集进行划分比较,从而进一步判断出同步后存在异常的数据的具体位置。
47.步骤s50,若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。
48.具体的,当同步数据片段为最小划分单元时(即仅包含一行数据或者一条数据),此时的同步数据片段即为存在异常的数据,将该同步数据片段作为异常检测结果输出。
49.在本实施例中,通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;若不相同,则
判断所述同步数据片段是否为最小划分单元;若不是最小划分单元,则将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。即本技术通过对源数据集以及基于源数据集同步得到的同步数据集进行划分,得到多个源数据片段和多个同步数据片段,再将每个同步数据片段与其对应的源数据片段进行比较判断两数据片是否相同。若不相同,则将源数据片段作为源数据集,同步数据片段作为同步数据集,并再次进行划分片段和比对判断的过程,直至划分得到的数据片段无法继续划分,将此时与对应源数据片段不同的同步数据片段作为检测结果输出。可以理解的,相比于现有技术无需逐行比较节约了资源的使用,同时,最终输出的结果为一条或者一行数据,故检测结果也更为准确。
50.进一步的,参照图3,基于本技术数据同步结果检测方法的第一实施例提出本技术数据同步结果检测方法的第二实施例。
51.所述预设划分方式为区段划分,所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤包括:步骤s11,将所述源数据集中处于同一个区段的源数据作为一个所述源数据片段对所述源数据集进行划分得到预设数量的所述源数据片段;步骤s12,将所述同步数据集中处于同一个区段的同步数据作为一个所述源数据片段对所述同步数据集进行得到预设数量的所述同步数据片段。
52.具体的,源数据集和同步数据集的数据包含有时间点或者编号等特征的序列数据,可通过区段划分方法进行划分,而区段划分是指,将处于同一区段的数据的划分为一个片段(源数据片段或者同步数据片段),如源数据集或者同步数据集为一24小时内的数据,区段大小为两个小时,将每两个小时内的数据划分成同一个片段(如每个区段为00:00至02:00、02:00至04:00、04:00至06:00、......、22:00至24:00),故可将源数据集或者同步数据集划分得到12个片段。同理,源数据集或者同步数据集为编号1至10000的数据,区段大小为1000,则对应的每个区段为:编号1至编号1000、编号1001至编号2000、编号2001至编号3000、......、编号9001至编号10000,对应的可得到10个片段。此外,需要说明的是,当将得到的片段作为一个新的数据集再次进行划分时,则缩小上述区段大小再次进行划分,例如基于上述数据包含有编号的例子,将区段缩小为100,对编号1至编号1000的数据集进行划分,对应的各个区段为:编号1至编号100、编号101至编号200、......、编号901至1000,以此类推完成划分。可以理解的是,通过上述划分方式进行划分,可避免采用其他方式划分且同步数据集出现数据缺失时,引起检测结果不准的问题。例如,预设每个片段中数据的数量,再按一定的顺序依次获取数据集(源数据集或者同步数据集)中的该数量数据作为一个片段,若在同步数据集中出现数据缺失或者数据多余时,则会造成出现缺失或者多余位置之后的同步数据片段的检测结果均为异常。但若采用上述区段划分则不会出现上述问题。
53.进一步的,参照图4,基于本技术数据同步结果检测方法的第二实施例提出本技术数据同步结果检测方法的第三实施例。所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤之前,所述方法包括:步骤s01,对所述源数据集进行预处理,以为所述源数据集中的各所述源数据标记
编号;步骤s02,同步预处理后的所述源数据集得到所述同步数据集。
54.进一步的,所述区段为编号区段,所述将所述源数据集中处于同一个区段的源数据作为一个所述源数据片段对所述源数据集进行划分得到预设数量的所述源数据片段的步骤包括:根据各所述源数据中的最大编号和所述预设数量确定各所述编号区段;将所述源数据集中处于同一个所述编号区段的所述源数据作为一个所述源数据片段,以对所述源数据集进行划分得到所述预设数量的所述源数据片段;将所述同步数据集中处于同一个所述编号区段的所述同步数据作为一个所述同步数据片段,以对所述同步数据集进行划分得到所述预设数量的所述同步数据片段。
55.具体的,本实施例中,为使得源数据集和同步数据集可方便的进行区段划分,在基于源数据集进行同步得到同步数据集之前,将对源数据集进行预处理,预处理是指为源数据集中每个源数据标记不同编号,其中,预处理可以是直接按一定顺序为每个源数据标记上不同编号,也可以基于源数据计算得到不同编号,各编号可以是连续的,也可以是不连续的。需要说明的是,本技术对预处理的方式并不进行限制,只需为每个源数据标记上可进行区段划分的编号即可。可以理解的是,基于经过预处理后的源数据集进行同步所得到的同步数据集中的同步数据也带有编号。进一步的,各编号区段可通过各所述源数据中的最大编号和所述预设数量确定。将最大编号与预设数量相除得到一个编号区段的跨度,基于该跨度即可确定每个编号区段的范围,如跨度为a,从编号零开始(若存在编号零),则各编号区段可以为[0,a)、[a,2a)、......、[最大编号-a,最大编号]。基于上述各编号区段,即可对所述源数据集进行划分得到所述预设数量的所述源数据片段以及对所述同步数据集进行划分得到所述预设数量的所述同步数据片段。可以理解的是,在本实施例中,在对数据同步之前可通过预处理以为需要同步的数据标记上编号,从而使得在对源数据集的同步结果同步数据集进行检测时可对其进行区段划分。
[0056]
进一步的,基于本技术数据同步结果检测方法的第三实施例提出本技术数据同步结果检测方法的第四实施例。
[0057]
在所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤之前,所述方法包括:在所述预设划分方式为所述平均划分时,判断所述源数据集的第一数据数量和所述同步数据集的第二数据数量是否相同;若所述第一数据数量和和所述第二数据数量相同,则执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤。
[0058]
具体的,若预设划分方式为平均划分,在通过预设划分方式对源数据集和同步数据集进行划分之前,还将检测所述同步数据集中的数据的数据数量(第二数据数量)和源数据集中的数据的数据数量(第一数据数量)。比较第一数据数量和第二数据数量是否相同(即比较同步数据集和源数据集中数据的数量是是否相同)。当处于相同的情况下,则执行通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤。可以理解的是,在本实施例中,进行平均划分操作之前还将对源数据集和同步数据集的数据量进行检测,避免在数据数量不相同的情况下对后续检测结果造成影响。如一源数据集数据数量为100条,一同步数据集数据数量为90条,分别经过平均划分后,得到的每个同步数据片段中的数据的数量为9,而源数据片段中数据的数量为10。从而到导致后续同步数据片段和
源数据片段进行比对的结果均为不同。
[0059]
所述预设划分方式可包括平均划分,所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤包括:所述预设划分方式可包括平均划分,所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤包括:步骤s120,基于预设排序方式分别对存在同步关系的所述源数据集和所述同步数据集进行排序;步骤s121,将经过排序后的所述源数据集平均划分为预设数量的所述源数据片段;步骤s122,将经过排序后的所述同步数据集平均划分为所述预设数量的所述同步数据片段。
[0060]
具体的,在本实施例中,上述预设划分方式的类型包括区段划分和平均划分。预设划分方式的类型的判断可以为两种划分方式设置不同标识作为判断的依据,具体过程此处不再赘述。而具体类型可以由技术人员基于源数据集和同步数据集的数据特点进行设置,当源数据集和同步数据集的数据不为上述序列数据或者数据本身不具有序列特点时,则基于预设排序方式分别对存在同步关系的所述源数据集和所述同步数据集进行排序,具体预设排序方式可以按照数据对应数值大小或者其他数据自身的特征进行排序,具体排除规则此处不做限制。再将排序后的源数据集平均划分为预设数量的源数据片段,将排序后的同步数据集平均划分为预设数量的同步数据片段。可以理解的是,在本实施例中,在进行划分前对源数据集和同步数据集进行排序,以确保源数据集和同步数据集中存在同步关系的数据在位置上可以一一对应。
[0061]
在所述判断所述源数据集的第一数据数量和所述同步数据集的第二数据数量是否相同的步骤之后,所述方法包括:步骤a01,若所述第一数据数量和所述第二数据数量不相同,则生成所述第一数据数量与所述第二数据数量的数量差;在本实例中,主要针对源数据集中的数据数量与同步数据集中的数据数量不相同的场景。具体的,若第一数据数量和第二数据数量不相同,则将第二数据数量与第一数据数量相减得到数量差。
[0062]
步骤a02,基于所述数量差在所述同步数据集的尾部进行预设数据插入操作或者预设数据删除操生成新的所述同步数据集,以使所述新的所述同步数据集的数据数量与存在同步关系的所述源数据集相同;具体的,当所述数量差小于0时,在所述同步数据集的尾部进行预设数据插入操作,如在同步数据集的尾部插入所述数量差的绝对值数量的预设数据。当所述数量差大于0时,在所述同步数据集的尾部进行预设数据删除操,如将同步数据集的尾部所述数量差的绝对值数量的数据删除。从而使得同步数据集中的数据的数量与源数据集中的数据的数量相同。需要说明的时,两数据集的数据数量不相同的情况通常会在初始时期出现。
[0063]
步骤a03,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;具体的,对源数据集和同步数据集的划分过程可以参照第一实施例,此处将不再
赘述。
[0064]
步骤a04,当所述同步数据集经过所述预设数据插入操作或者所述预设数据删除操作时,依次判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;需要说明的是,在初始时期同步数据集和源数据集的数据数量不同时,数通常是两种情况,即同步数据集存在有丢失的数据或者存在有额外的数据。而两种情况均会导致同步数据集中丢失数据的位置或者额外数据的位置之后的数据位置均发生偏移,对应的,包含有的丢失数据的位置或者额外数据的位置之后的数据的同步数据片段均会检测异常,从而导致检测结果冗余且参考价值不高。故在同步数据集经过了数据插入操作或者预设数据删除操作的情况下,不会对每个存在同步关系的同步数据片段和源数据片段进行判断是否相同的步骤。而是依次进行判断,例如参照图5,会按照同步数据片段1、同步数据片段2、同步数据片段3、......、同步数据片段n的顺序进行判断。
[0065]
步骤a05,当连续出现存在所述同步关系的所述同步数据片段和所述源数据片段不相同时,则停止所述依次判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同的步骤,执行所述判断所述同步数据片段是否为最小划分单元的步骤。
[0066]
具体的,当有连续的同步数据片段与对应的源数据片段不同时,如检测到同步数据片段2与源数据片段2不同、同步数据片段3与源数据片段3不同,则认为连续出现存在所述同步关系的所述同步数据片段和所述源数据片段不相同(判定连续出现存在所述同步关系的所述同步数据片段和所述源数据片段不相同规则,可由技术人员自行设置,如可规则可设置为连续预设数量的同步数据片段与对应的源数据片段不相同)。此时将停止依次对比判断的步骤,并执行判断所述同步数据片段是否为最小划分单元的步骤。需要说明的是,上述内容说到两数据集的数据数量不相同的情况通常会在初始时期出现,而在初始时期仅经过一次划分数据集通常不会是最小划分单元,故也可直接执行将所述同步数据片段作为所述同步数据集,将所述源数据片段作为所述源数据集的步骤。需要说明的是,此时将存有两个同步数据片段与对应的源数据集不同,对每个与对应的源数据集不同的同步数据片段执行上述划分对比判断的循环过程直至各同步数据片段为最小划分单元。同样的,上述循环过程可参照第一实施例,此处,将不再赘述。
[0067]
在本实施例中,对于源数据集和同步数据集的数据数量不同的情况下,会对同步数据集进行调整保证两数据集的数据数量相同。同时,在同步数据集经过调整的场景下,将依次对划分出的数据片段进行比较判断,并在出现连续的数据片段不同的情况下时,停止比较判断过程,避免出现冗余的检测结果也减少了计算资源。
[0068]
此外,本技术实施例还提出一种数据同步结果检测装置,所述数据同步结果检测装置包括:划分模块,用于通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分,得到多个与所述源数据集对应的源数据片段和多个与所述同步数据集对应的同步数据片段,其中,所述同步数据集为同步所述源数据集的结果;第一判断模块,用于遍历各所述同步数据片段,判断存在所述同步关系的所述同步数据片段和所述源数据片段是否相同;第二判断模块,用于若不相同,则判断所述同步数据片段是否为最小划分单元;更新模块,用于若不是最小划分单元,则将所述同步数据片段作为所述同步数据
集,将所述源数据片段作为所述源数据集,执行所述通过预设划分方式分别对存在同步关系的源数据集和同步数据集进行划分的步骤;输出模块,用于若是最小划分单元,则将与存在同步关系的所述源数据片段不相同的所述同步数据片段作为异常检测结果输出。
[0069]
此外,本技术实施例还提出一种数据同步结果检测设备,所述数据同步结果检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据同步结果检测程序,所述数据同步结果检测程序被所述处理器执行时实现如上述的数据同步结果检测方法的步骤。
[0070]
本技术数据同步结果检测设备的具体实施方式与上述数据同步结果检测新方法各实施例基本相同,在此不再赘述。
[0071]
此外,本技术实施例还提出一种可读存储介质,所述可读存储介质上存储有数据同步结果检测程序,所述数据同步结果检测程序被处理器执行时实现如上述的数据同步结果检测方法的步骤。
[0072]
本技术可读存储介质具体实施方式与上述数据同步结果检测方法各实施例基本相同,在此不再赘述。
[0073]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0074]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0075]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0076]
以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献