一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机抽样的数据同步比对方法、装置及系统与流程

2022-05-11 19:15:46 来源:中国专利 TAG:


1.本发明涉及数据检查技术领域,具体而言,涉及一种基于随机抽样的数据同步比对方法、装置及系统。


背景技术:

2.随着大数据的不断发展各种各样的数据源不断增加,为了加强数据的整合利用,数据同步已经普遍应用于各个大数据平台,但数据在同步过程中可能会存在数据出错的情况,因此保证数据同步的准确性和一致性显得尤为重要。
3.目前在数据同步的准确性检查中应用较为普遍的是检查比对数据同步前后的数据总量是否一致,但是数据的一致性检查往往被忽略,且现有数据一致性检查方法较为繁琐且不利于大量数据表同步检查。


技术实现要素:

4.本发明解决的问题是如何实现数据准确高效的一致性检查。
5.为解决上述问题,本发明提供一种基于随机抽样的数据同步比对方法,包括:根据随机抽样规则配置生成抽样比对配置表;根据所述抽样比对配置表生成抽样数据表;根据所述抽样数据表和目标端数据表生成比对验证结果表,根据所述比对验证结果表判断比对验证是否通过。
6.本发明所述的基于随机抽样的数据同步比对方法,基于随机抽样规则配置对数据同步的源端和目标端的数据一致性进行检查,将抽样数据表直接与目标端的数据表通过主键进行匹配比对,实现数据同步记录的比对验证,准确高效确保数据源端和目标端数据记录的一致性。
7.可选地,所述根据随机抽样规则配置生成抽样比对配置表包括:根据随机抽样规则配置项确定抽样数据记录样本数量、配置数据表主键以及配置数据类型字段,根据所述抽样数据记录样本数量、所述数据表主键和所述数据类型字段生成所述抽样比对配置表。
8.本发明所述的基于随机抽样的数据同步比对方法,根据随机抽样规则配置项确定抽样数据记录样本数量、配置数据表主键以及配置数据类型字段以生成抽样比对配置表,进而能够实现数据同步记录的比对验证,准确高效确保数据源端和目标端数据记录的一致性。
9.可选地,所述数据类型字段包括字符串字段、数值型字段和时间类型字段,所述配置数据类型字段包括:从所述字符串字段、所述数值型字段和所述时间类型字段中各自选取一个代表字段作为抽样比对字段。
10.本发明所述的基于随机抽样的数据同步比对方法,通过从字符串字段、数值型字段和时间类型字段中各自选取一个代表字段作为抽样比对字段,覆盖不同数据类型可能产生的差异,增大抽样字段类型覆盖率,有利于提高对比验证的准确度。
11.可选地,所述根据随机抽样规则配置生成抽样比对配置表还包括:当存在多个需
要比对的数据表时,将多个需要比对的所述数据表的配置写入所述抽样比对配置表。
12.本发明所述的基于随机抽样的数据同步比对方法,通过设置当存在多个需要比对的数据表时,将多个需要比对的数据表的配置写入所述抽样比对配置表,可实现多个数据表批量比对验证。
13.可选地,所述根据所述抽样数据表和所述目标端数据表生成比对验证结果表包括:将所述抽样数据表与所述目标端数据表进行匹配比对,根据匹配比对确定的字段类型和数值差异情况生成所述比对验证结果表。
14.本发明所述的基于随机抽样的数据同步比对方法,将抽样数据表与目标端数据表进行匹配比对,根据匹配比对确定的字段类型和数值差异情况生成比对验证结果表,进而可以根据比对验证结果表判断比对验证是否通过。
15.可选地,所述根据所述比对验证结果表判断比对验证是否通过包括:若所述比对验证结果表未出现差集结果,则比对验证通过,若所述比对验证结果表出现所述差集结果,则进行异常结果告警。
16.本发明所述的基于随机抽样的数据同步比对方法,根据比对验证结果表是否出现差集结果判断比对验证通过或进行异常结果告警,准确高效确保数据源端和目标端数据记录的一致性。
17.可选地,所述差集结果包括主键关联不匹配、数值型字段检查不通过、时间字段检查不通过以及字符型字段检查不通过。
18.本发明所述的基于随机抽样的数据同步比对方法,通过设置数据抽样一致性检查内容,实现数据源端和目标端数据记录的高效检查。
19.本发明还提供一种基于随机抽样的数据同步比对装置,包括:配置模块,用于根据随机抽样规则配置生成抽样比对配置表;数据表模块,用于根据所述抽样比对配置表生成抽样数据表;比对模块,用于根据所述抽样数据表和目标端数据表生成比对验证结果表,根据所述比对验证结果表判断比对验证是否通过。所述基于随机抽样的数据同步比对装置与上述基于随机抽样的数据同步比对方法相对于现有技术所具有的优势相同,在此不再赘述。
20.本发明还提供一种基于随机抽样的数据同步比对系统,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上基于随机抽样的数据同步比对方法。所述基于随机抽样的数据同步比对系统与上述基于随机抽样的数据同步比对方法相对于现有技术所具有的优势相同,在此不再赘述。
21.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上基于随机抽样的数据同步比对方法。所述计算机可读存储介质与上述基于随机抽样的数据同步比对方法相对于现有技术所具有的优势相同,在此不再赘述。
附图说明
22.图1为本发明实施例的基于随机抽样的数据同步比对方法的示意图。
具体实施方式
23.为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
24.如图1所示,本发明实施例提供一种基于随机抽样的数据同步比对方法,包括:根据随机抽样规则配置生成抽样比对配置表;根据所述抽样比对配置表生成抽样数据表;根据所述抽样数据表和目标端数据表生成比对验证结果表,根据所述比对验证结果表判断比对验证是否通过。
25.具体地,在本实施例中,基于随机抽样的数据同步比对方法包括:根据随机抽样规则配置生成抽样比对配置表;根据抽样比对配置表生成抽样数据表;根据抽样数据表和目标端数据表生成比对验证结果表,根据比对验证结果表判断比对验证是否通过。基于随机抽样规则配置对数据同步的源端和目标端的数据一致性进行检查,根据规则配置在源端生成的抽样数据表,然后将抽样数据表直接与目标端的数据表通过主键进行匹配比对,实现数据同步记录的比对验证,准确高效确保数据源端和目标端数据记录的一致性。以财务大数据为例,对财务大数据进行一致性检查能够减少甚至消除数据出错情况,从而提高财务安全性。
26.在本实施例中,基于随机抽样规则配置对数据同步的源端和目标端的数据一致性进行检查,将抽样数据表直接与目标端的数据表通过主键进行匹配比对,实现数据同步记录的比对验证,准确高效确保数据源端和目标端数据记录的一致性。
27.可选地,所述根据随机抽样规则配置生成抽样比对配置表包括:根据随机抽样规则配置项确定抽样数据记录样本数量、配置数据表主键以及配置数据类型字段,根据所述抽样数据记录样本数量、所述数据表主键和所述数据类型字段生成所述抽样比对配置表。
28.具体地,在本实施例中,根据随机抽样规则配置生成抽样比对配置表包括:(1)根据随机抽样规则配置项确定抽样数据记录样本数量,即随机抽样n的数量,进行配置化管理,可以设置为20、50、100等数值,代表抽样的数据记录数据为对应的n条记录;通过随机抽取具有代表性的记录,一定程度上可降低比对验证的资源消耗;(2)根据随机抽样规则配置项配置数据表主键,抽样数据表与目标端的数据表通过主键进行匹配比对,配置主键的目的是为了后面与目标端数据表进行关联匹配使用,如果数据表为增量同步表的话可以选择随机抽样增量分区的数据,配置项中额外加上分区字段即;(3)根据随机抽样规则配置项配置数据类型字段。
29.在本实施例中,根据随机抽样规则配置项确定抽样数据记录样本数量、配置数据表主键以及配置数据类型字段以生成抽样比对配置表,进而能够实现数据同步记录的比对验证,准确高效确保数据源端和目标端数据记录的一致性。
30.可选地,所述数据类型字段包括字符串字段、数值型字段和时间类型字段,所述配置数据类型字段包括:从所述字符串字段、所述数值型字段和所述时间类型字段中各自选取一个代表字段作为抽样比对字段。
31.具体地,在本实施例中,数据类型字段包括字符串字段、数值型字段和时间类型字段,对于表主键和自定义配置数据类型字段,需要预先对数据表进行分析,对数据表主键和抽样字段进行配置,不需要对于数据表全字段进行比对验证,而是从每个表三种类型的字段每种选取一个代表,也即选择除数据表主键外的三个字段,优点在于能覆盖不同数据类
型可能产生的差异,增大抽样字段类型覆盖率,从而达到对比验证的效果。
32.在本实施例中,通过从字符串字段、数值型字段和时间类型字段中各自选取一个代表字段作为抽样比对字段,覆盖不同数据类型可能产生的差异,增大抽样字段类型覆盖率,有利于提高对比验证的准确度。
33.可选地,所述根据随机抽样规则配置生成抽样比对配置表还包括:当存在多个需要比对的数据表时,将多个需要比对的所述数据表的配置写入所述抽样比对配置表。
34.具体地,在本实施例中,对于抽样比对配置表,当存在多个需要比对的数据表时,将多个需要比对的数据表的配置写入所述抽样比对配置表,可实现多个数据表批量比对验证。
35.在本实施例中,通过设置当存在多个需要比对的数据表时,将多个需要比对的数据表的配置写入所述抽样比对配置表,可实现多个数据表批量比对验证。
36.可选地,所述根据所述抽样数据表和所述目标端数据表生成比对验证结果表包括:将所述抽样数据表与所述目标端数据表进行匹配比对,根据匹配比对确定的字段类型和数值差异情况生成所述比对验证结果表。
37.具体地,在本实施例中,将抽样数据表与目标端数据表进行匹配比对,比较两者的差集,是否存在字段类型和数值差异的情况,生成相应的数据比对验证结果,进而可以根据比对验证结果表判断比对验证是否通过。
38.在本实施例中,将抽样数据表与目标端数据表进行匹配比对,根据匹配比对确定的字段类型和数值差异情况生成比对验证结果表,进而可以根据比对验证结果表判断比对验证是否通过。
39.可选地,所述根据所述比对验证结果表判断比对验证是否通过包括:若所述比对验证结果表未出现差集结果,则比对验证通过,若所述比对验证结果表出现所述差集结果,则进行异常结果告警。
40.具体地,在本实施例中,根据比对验证结果表判断比对验证是否通过包括:若比对验证结果表未出现差集结果,则比对验证通过,若比对验证结果表出现差集结果,则存在异常检查结果,需要进行异常结果告警。
41.在本实施例中,根据比对验证结果表是否出现差集结果判断比对验证通过或进行异常结果告警,准确高效确保数据源端和目标端数据记录的一致性。
42.可选地,所述差集结果包括主键关联不匹配、数值型字段检查不通过、时间字段检查不通过以及字符型字段检查不通过。
43.具体地,在本实施例中,比对验证时,当抽样数据表生成后,不需要将原表的全表记录或者全表字段进行逐一比对验证,只比较抽样数据表与目标表对应字段记录是否存在差集即可,数据抽样一致性检查重点:
44.(1)主键是否一致,主键关联匹配不上则检查不通过,能正常匹配代表检查通过任务成功;
45.(2)数值型字段,是否合法,字段值是否存在差异,存在则检查不通过任务失败,不存在则检查通过任务成功;
46.(3)时间字段,检查时间字段值是否合法,并进行字段值的比对,判断是否存在差异,存在则检查不通过任务失败,不存在则检查通过任务成功;
47.(4)字符型字段,检查字段值是否一致,记录是否存在差异,存在则检查不通过任务失败,不存在则检查通过任务成功。
48.在本实施例中,通过设置数据抽样一致性检查内容,实现数据源端和目标端数据记录的高效检查。
49.以下进行举例说明。
50.例如表tab01的主键pkey为uuid,抽样字段为:tzje,djxh,lrrq,则uuid-》pkey,tzje-》col_double,djxh-》col_string,lrrq-》timestamp(常用的数据字段类型:double、string、timestamp,选取具有代表性的3个字段,以逗号分割配置到配置表即可)。
51.随机抽样n条记录,保存到抽样数据表里。然后将抽样数据表与目标端数据表进行匹配比对,通过pkey主键进行关联,比对三种数据类型字段值是否一致,如果一致则检查通过,否则检查不通过。
52.本发明另一实施例提供一种基于随机抽样的数据同步比对装置,包括:配置模块,用于根据随机抽样规则配置生成抽样比对配置表;数据表模块,用于根据所述抽样比对配置表生成抽样数据表;比对模块,用于根据所述抽样数据表和目标端数据表生成比对验证结果表,根据所述比对验证结果表判断比对验证是否通过。
53.本发明另一实施例提供一种基于随机抽样的数据同步比对系统,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上基于随机抽样的数据同步比对方法。
54.本发明另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器读取并运行时,实现如上基于随机抽样的数据同步比对方法。
55.虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献