一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据质量检测方法、装置和设备与流程

2021-10-24 10:09:00 来源:中国专利 TAG:人工智能 说明书 检测方法 装置 特别


1.本说明书实施例涉及人工智能技术领域,特别涉及一种数据质量检测方法、装置和设备。


背景技术:

2.目前监管部门对金融机构检查呈现出了范围趋广、标准趋高、要求趋严、处罚趋重的特征,金融机构数据治理监管工作进入了“高压期”。现有技术中,由于业务部门人员编码能力不足,因此,只能靠固化发版方式进行数据治理。一般由业务部门提需求,金融科技部的开发人员进行编码,通过版本部署发布,上线后各业务部门再对产生的数据质量疑问进行分析,下达治理措施,整个过程沟通路径长,分析时效差。由此可见,采用现有技术中的技术方案无法高效地对业务数据进行质量分析。
3.针对上述问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本说明书实施例提供了一种数据质量检测方法、装置和设备,以解决现有技术中无法高效地对业务数据进行质量分析的问题。
5.本说明书实施例提供了一种数据质量检测方法,包括:基于查询条件生成数据血缘关系信息集;其中,所述数据血缘关系信息集用于表征数据之间的关系;利用所述数据血缘关系信息集,确定需要检测的数据范围;基于所述需要检测的数据范围设置质量检测参数;根据所述需要检测的数据范围和所述质量检测参数生成目标结构化查询语句;利用所述目标结构化查询语句对所述需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,所述质量检测结果用于表示数据是否通过质量检测。
6.本说明书实施例还提供了一种数据质量检测装置,包括:第一生成模块,用于基于查询条件生成数据血缘关系信息集;其中,所述数据血缘关系信息集用于表征数据之间的关系;确定模块,用于利用所述数据血缘关系信息集,确定需要检测的数据范围;设置模块,用于基于所述需要检测的数据范围设置质量检测参数;第二生成模块,用于根据所述需要检测的数据范围和所述质量检测参数生成目标结构化查询语句;处理模块,用于利用所述目标结构化查询语句对所述需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,所述质量检测结果用于表示数据是否通过质量检测。
7.本说明书实施例还提供了一种数据质量检测设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现本说明书实施例中任意一个方法实施例的步骤。
8.本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现本说明书实施例中任意一个方法实施例的步骤。
9.本说明书实施例提供了一种数据质量检测方法,可以基于查询条件生成用于表征数据之间的关系的数据血缘关系信息集,并利用所述数据血缘关系信息集,确定需要检测
的数据范围。进一步的,可以基于所述需要检测的数据范围设置质量检测参数,并根据所述需要检测的数据范围和所述质量检测参数自动生成目标结构化查询语句,可以利用所述目标结构化查询语句对所述需要检测的数据范围内的数据进行质量检测,得到质量检测结果,其中,所述质量检测结果可以用于表示数据是否通过质量检测。对于不会编程的用户可以通过设置各个质量检测参数的数值从而自动生成目标结构化查询语句,从而解决了业务人员不会编码的问题,并且有效提高了质量检测的效率,可以高效的响应业务数据治理的需求。
附图说明
10.此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,并不构成对本说明书实施例的限定。在附图中:
11.图1是根据本说明书实施例提供的数据质量检测方法的步骤示意图;
12.图2是根据本说明书实施例提供的数据血缘关系图的示意图;
13.图3是根据本说明书实施例提供的选择输出字段的界面的示意图;
14.图4是根据本说明书实施例提供的选择筛选条件的界面的示意图;
15.图5是根据本说明书实施例提供的定义排序输出的界面的示意图;
16.图6是根据本说明书实施例提供的定义分组输出的界面的示意图;
17.图7是根据本说明书实施例提供的提交sql的界面的示意图;
18.图8是根据本说明书实施例提供的数据质量检测装置的结构示意图;
19.图9是根据本说明书实施例提供的数据质量检测设备的结构示意图。
具体实施方式
20.下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例,而并非以任何方式限制本说明书实施例的范围。相反,提供这些实施方式是为了使本说明书实施例公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
21.本领域的技术人员知道,本说明书实施例的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书实施例公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
22.虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
23.请参阅图1,本实施方式可以提供一种数据质量检测方法。该数据质量检测方法可以用于通过设置各个质量检测参数的数值从而自动生成目标结构化查询语句,以解决业务人员不会编码的问题。上述数据质量检测方法可以包括以下步骤。
24.s101:基于查询条件生成数据血缘关系信息集;其中,数据血缘关系信息集用于表征数据之间的关系。
25.在本实施方式中,可以接收目标用户输入的查询条件,并基于查询条件进行查询,
生成查询的数据的数据血缘关系信息集。其中,上述数据血缘关系信息集可以用于表征数据之间的关系。
26.在本实施方式中,上述查询条件可以为待查询数据的特征信息,例如:系统名、表名、字段名、版本信息等。当然,查询条件不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
27.在本实施方式中,上述数据血缘关系信息集可以用于表征端到端数据产生和转换的全链路关系及数据处理加工的处理逻辑,上述数据血缘关系信息集可以以表格、图像等形式展示或存储。优选的,上述数据血缘关系信息集可以为svg矢量图,从而使得目标用户可以直观、清晰的了解数据之间的关系。其中,svg(可放缩的矢量图形)是国际互联网标准组织制定的一种新的二维矢量图形格式,也是规范中的网络矢量图形标准。当然,数据血缘关系信息集的形式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
28.在本实施方式中,在生成数据血缘关系信息集的同时还可以进行数据剖析,对查询的数据的现状做的全面分析和展示,以帮助目标用户发现潜在的数据质量问题。其中,上述数据剖析可以包括:数据的完整性分析、数据分类分析、数据分布分析、数据属性分析、数据格式分析等。当然可以理解的是,上述数据剖析还可以包括重复数据分析等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
29.在本实施方式中,上述数据剖析的结果可以在数据血缘关系信息集中融合展示,也可以单独展示,以便目标用户可以更准确的确定需要进行数据质量检测的数据范围。当然可以理解的是,也可以仅向目标用户展示数据血缘关系信息集,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
30.s102:利用数据血缘关系信息集,确定需要检测的数据范围。
31.在本实施方式中,由于数据血缘关系信息集可以用于表示数据之间的关系,因此,可以利用数据血缘关系信息集,确定需要检测的数据范围。在一些实施例中,可以直接在数据血缘关系信息集中选择需要检测的数据从而得到数据范围,也可以独立的输入需要检测的数据范围,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
32.在本实施方式中,上述数据范围可以为需要检测的具体数据(字段)等,也可以是需要检测的数据表(表名)等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
33.在本实施方式中,由于与其它数据存在关联的数据如果存在质量问题,则会影响到其它数据,因此,可以将与其它数据存在关联的数据作为需要检测的数据。在一些实施例中,也可以将所有的数据均作为检测的对象,或者将使用频次高的数据作为检测对象。在一些实施例中,如果同时对数据进行剖析的话,可以结合剖析的结果将可能存在质量问题的数据作为需要检测的数据。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
34.s103:基于需要检测的数据范围设置质量检测参数。
35.在本实施方式中,可以根据监管目标要求,基于需要检测的数据范围设置质量检测参数。其中,上述监管目标要求可以根据实际的业务需求确定的。
36.在本实施方式中,上述质量检测参数可以用于表征通用质量检查和业务数据质量检查需要设置的参数。其中,上述通用质量检查标识对于每种类型字段必备检查的标准,包括记录条数、主键空、重复异常、字段长度等;上述业务数据质量检查可以是根据实际需求对每个字段额外定制的质量检测标准。
37.在本实施方式中,由于通用质量检查和业务数据质量检查的需求不同,因此,可以将通用质量检查和业务数据质量检查分开进行。在一些实施例中,可以将通用质量检查规则通过统一调度,每日夜间批量进行全表扫描;业务数据质量检查规则根据目标用户设置的时间频率在不同数据存储平台(确定的数据范围)进行全表扫描。当然,数据质量检测的方式不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
38.在本实施方式中,上述质量检测参数可以包括:输出字段、筛选条件、输出排序方式、输出分组方式等。当然可以理解的是,上述质量检测参数还可以包括:检测频率、字段类型等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
39.s104:根据需要检测的数据范围和质量检测参数生成目标结构化查询语句。
40.在本实施方式中,可以在目标规则库中维护各个质量检测参数相应sql(结构化查询语言)脚本,在确定了数据范围和质量检测参数之后可以基于目标规则库中维护的sql脚本拼接生成目标结构化查询语句。
41.在本实施方式中,对于会编程的目标用户可以直接在相应界面编写目标结构化语句,对于不会编程的目标用户可以基于导航依次选择各个质量检测参数的数值从而自动生成目标结构化查询语句,从而解决了业务人员不会编码的问题。
42.s105:利用目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,质量检测结果用于表示数据是否通过质量检测。
43.在本实施方式中,可以执行目标结构化查询语句以对需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,上述质量检测结果可以用于表示单个数据是否通过质量检测。
44.在本实施方式中,可以在指定的时间点指定目标结构化查询语句以对需要检测的数据范围内的数据进行质量检测,也可以是按照一定的时间间隔重复指定目标结构化查询语句以对需要检测的数据范围内的数据进行质量检测,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
45.在本实施方式中,上述质量检测结果中可以包含每条数据是否通过质量检测的结果,可以将上述质量检测结果反馈给目标用户。如果存在质量检测不通过的数据则目标用户可以进一步结合质量检测结果进行数据治理,具体的目标用户可以确定不同的问题所对应的处理对象,并将对应的质量检测结果转发给处理对象进行问题治理,闭环问题。当然可以理解的是,还可以由目标用户直接处理,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
46.在本实施方式中,还可以基于质量检测结果针对使用频次高的,关注度高的数据,进行质量布控及评价,形成报告,从而使得质量检测的结果具有可追溯性,并且可以便于结合其它的质量检测结果进行数据库的整体治理。
47.从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:可以基于查询条件生成用于表征数据之间的关系的数据血缘关系信息集,并利用数据血缘关系信息集,确定需要检测的数据范围。进一步的,可以基于需要检测的数据范围设置质量检测参数,并根据需要检测的数据范围和质量检测参数自动生成目标结构化查询语句,可以利用目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果,其中,质量检测结果可以用于表示数据是否通过质量检测。对于不会编程的用户可以通过设置各个质量检测参数的数值从而自动生成目标结构化查询语句,从而解决了业务人员不会编码的问题,并且有效提高了质量检测的效率,可以高效的响应业务数据治理的需求。
48.在一个实施方式中,基于查询条件生成数据血缘关系信息集,可以包括:根据查询条件从目标数据库中获取端到端血缘关系明细数据,对端到端血缘关系明细数据进行转换得到节点信息;其中,节点信息用于确定字段的元数据。进一步的,可以根据端到端血缘关系明细数据和节点信息,绘制数据血缘关系图,并将数据血缘关系图作为数据血缘关系信息集。
49.在本实施方式中,可以根据查询条件对存量的结构化的字段级数据血缘关系信息进行查询,获取端到端血缘关系明细数据。可以并对端到端血缘关系明细数据进行信息转换,得到节点信息。进一步的,可以根据节点信息获取各字段的元数据信息,并将端到端血缘关系明细数据、节点信息返回给前端页面,通过javascript插件程序,循环使用端到端血缘关系明细数据,生成svg矢量图以绘制出全链路的数据血缘关系图。其中,javascript是一种高级的、多范式、解释型的编程语言,是一门基于原型、函数先行的语言,它支持面向对象编程、命令式编程以及函数式编程。
50.在本实施方式中,数据血缘关系图可以如图2中所示,其中,图中的各个标识的含义可以如表1中所示。
51.表1
52.主要字段说明系统名节点的系统名称表名节点的表名称字段名节点的字段名a数据质量检测结果,百分比数值t技术元数据,图标c业务元数据,图标p剖析结果,图标e取数规则,图标
53.在本实施方式中,图2中的数据质量检测结果a可以为历史的数据质量检测结果,如果历史没有进行过数据质量检测,可以数据质量检测结果a对应的数据可以为空,
54.在本实施方式中,点击图2中的各个图标可以跳转至对应数据的展示页面,也一些实施例中,也可以是在当前页面展示,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
55.在一个实施方式中,查询条件可以包括:系统名、表名、字段名、版本信息、表征业务含义的关键字。
56.在一个实施方式中,在基于查询条件生成数据血缘关系信息集之后,还可以包括:获取预设剖析策略,根据查询条件和预设剖析策略,生成数字类型数据的结构化查询语句和非数字类型数据的结构化查询语句。进一步的,可以执行数字类型数据的结构化查询语句和非数字类型数据的结构化查询语句,得到数字类型数据剖析报告和非数字类型数据剖析报告。
57.在本实施方式中,上述预设剖析策略可以包括:包括数据的完整性分析、数据分类分析、数据分布分析、数据属性分析、数据格式分析等的策略。当然可以理解的是,上述数据剖析策略还可以包括重复数据分析等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
58.在本实施方式中,可以对数据进行分类,分类为数字类型数据和非数字类型数据,由于两种类型的数据存在较大的差异,因此,可以分别针对这两种类型的数据进行剖析。可以针对数字类型数据和非数字类型数据生成查询条件对应的表和字段的结构化查询语句,从而可以得到数字类型数据的结构化查询语句和非数字类型数据的结构化查询语句。
59.在本实施方式中,可以定时执行数字类型数据的结构化查询语句和非数字类型数据的结构化查询语句,从而得到数字类型数据剖析报告和非数字类型数据剖析报告。
60.在本实施方式中,对于数字类型数据剖析可以包括:average(平均值)、min/max(最小/最大值)、sum(总和)、count(计数)、range(范围)、type(类型)、length(字段长度)、是否primary key(是否是主键);对于非数字类型数据剖析可以包括:type(类型)、length(字段长度)、是否primary key(是否是主键)、list of values(数据字段值的列表清单)、data dictionary(数据字典)。其中,数据字段值的列表清单可选择展示10、20、50或100个值,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
61.在本实施方式中,数字类型数据剖析报告可以如表2中所示,非数字类型数据剖析报告可以如表3中所示。其中,from表示数据的来源,to表示数据的归属。
62.表2
63.fromto表名字段名lengthaveragemaxminsumcountrange
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
64.表3
65.fromto表名字段名typelength是否primary keylist of values
ꢀꢀꢀꢀꢀꢀꢀꢀ
66.在一个实施方式中,利用数据血缘关系信息集,确定需要检测的数据范围,可以包括:根据数据血缘关系信息集、数字类型数据剖析报告和非数字类型数据剖析报告,确定需要检测的数据范围。
67.在本实施方式中,可以结合数据血缘关系信息集、数字类型数据剖析报告和非数字类型数据剖析报告,确定需要检测的数据范围。
68.在本实施方式中,由于与其它数据存在关联的数据如果存在质量问题,则会影响到其它数据,因此,可以将与其它数据存在关联的数据作为需要检测的数据。在一些实施例中,也可以将所有的数据均作为检测的对象,或者将使用频次高的数据作为检测对象。在一些实施例中,还可以将剖析报告中显示可能存在潜在质量问题的数据作为需要检测的数据。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
69.在一个实施方式中,质量检测参数包括:输出字段、筛选条件、输出排序方式、输出分组方式。
70.在本实施方式中,上述质量检测参数可以包括:输出字段、筛选条件、输出排序方式、输出分组方式等。当然可以理解的是,上述质量检测参数还可以包括:检测频率、字段类型等。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
71.在本实施方式中,可以采用可视化方式,根据导航进行质量检测参数的设置,按照导航顺序选择输出字段

〉筛选条件

〉定义排序输出

〉定义分组输出

〉提交,该处理方式可以在,目标规则库中维护相应的sql脚本,以解决业务人员不会编码的问题。
72.在本实施方式中,质量检测参数的设置可以包括以下步骤:
73.步骤一:在导航前台选择输出字段,选择输出字段的界面可以如图3中所示,可以基于数据范围展示可供选择的字段名,在相应界面上还可以包含去掉重复记录、输入别名等字段。其中,不同主要字段对应的sql语句可以如表4中所示。
74.表4
75.主要字段说明示例去掉重复记录sql语句中select去重查询。select distinct aerio输入别名sql语句中select查询字段别名select distinct aerio as a
76.步骤二:根据导航选择筛选条件,选择筛选条件的界面可以如图4中所示,相应界面中可以包含条件编辑区,筛选条件可以包括:连接词、运算符、左值区域及类型、右值区域、算数函数等。其中,各个筛选条件对应的sql语句可以如表5中所示。
77.表5
78.[0079][0080]
步骤三:根据导航定义排序输出,定义排序输出的界面可以如图5中所示。其中,排序输出可以包括:升序和降序,排序输出的sql语句可以如表6中所示。
[0081]
表6
[0082][0083]
步骤四:根据导航定义分组输出,定义分组输出的界面可以如图6中所示,可以通过选择不同的字段组合进行分组。其中,分组的sql语句可以如表7中所示。
[0084]
表7
[0085][0086]
步骤五:根据导航提交sql,会编码的用户可以直接进入这一步进行规则编写和修改。
[0087]
在本实施方式中,可以从数据血缘关系界面获取表所属数据存储平台信息,并通过javascript插件获取步骤一至步骤四的设置信息,然后根据数据存储平台的标准,进行语句拼接生成sql脚本。其中,提交sql的界面可以如图7中所示,提交sql的界面中还可以对生成的目标结构化查询语句进行修改,在确认后可以提交最终的目标结构化查询语句。
[0088]
在本实施方式中,可以将生成的目标结构化查询语句存储在目标数据库中,以便
后续进行质量检测时可以及时获取。
[0089]
在一个实施方式中,利用目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果,可以包括:将目标结构化查询语句在预设界面中展示,设置目标结构化查询语句执行的时间频率。在确定不需要修改后目标结构化查询语句的情况下,按照时间频率执行目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果。
[0090]
在本实施方式中,可以将目标结构化查询语句在预设界面中展示,以便目标用户确认是否需要修改目标结构化查询语句。其中,上述预设界面可以图7中的提交sql界面。
[0091]
在本实施方式中,可以设置目标结构化查询语句执行的时间频率,上述时间频率可以为每间隔1小时执行一次,也可以为每天执行一次或者每周执行一次等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
[0092]
在本实施方式中,可以在确定不需要修改后目标结构化查询语句的情况下,按照时间频率执行目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果,并且可以将每次的质量检测结果存储在目标数据库中,以确保数据的可追溯性。
[0093]
在一个实施方式中,在得到质量检测结果之后,还可以包括:获取预设阈值,根据质量检测结果,确定通过质量检测的数据条数和参与质量检测的数据总条数。在通过质量检测的数据条数与参与质量检测的数据总条数的比值小于预设阈值的情况下,生成质量检测提示信息,将质量检测提示信息发送给目标处理对象。
[0094]
在本实施方式中,可以预先设置阈值,该预设阈值可以用于确定整体的质量检测是否通过。上述预设阈值可以为大于0小于等于1的数值,例如:0.98、0.86、0.79等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
[0095]
在本实施方式中,可以计算通过质量检测的数据条数/参与质量检测的数据总条数的值,与预设阈值比较得出通过/不通过,预设阈值的输入值类型为百分比数字类型。通过率=通过质量检测的数据条数/参与质量检测的数据总条数,如果通过率小于预设阈值则表示本次质量检测不通过,需要生成质量检测提示信息。
[0096]
在本实施方式中,可以将质量检测提示信息发送给目标处理对象,其中,上述目标处理对象可以为目标用户,也可以是相应系统表的负责人。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
[0097]
在本实施方式中,将质量检测提示信息进行登记,并分发给相应系统表的负责人,分发的内容中可以包括3条样例数据,治理完成后关闭问题。在一些实施例中,也可以将数据质量检测出的问题,通过邮件推送给目标用户,目标用户可以填写需分发的业务人员,转交给需分发的业务人员进行问题治理,闭环问题。具体的可以根据实际情况确定,本说明书实施例对此不作限定。
[0098]
在本实施方式中,可以根据数据质量检测结果开展数据质量布控及评价,针对使用频次高的,关注度高的数据,进行质量布控及评价,形成报告,驱动问题整改,并定期生成数据质量报告发送给相关部门或负责人员。
[0099]
在一个场景示例中,可以提供一种数据质量检测系统,数据质量检测系统可以包括:
[0100]
数据质量规则管理模块,用于获取数据血缘关系图和剖析报告,确定需要治理的数据表;将生成的数据质量规则脚本信息传给数据质量存储模块;接收数据质量存储模块返回的数数据质量规则脚本执行结果信息,进行数据质量规则的查看、数据指标报告的订阅,并提交给数据质量异常处理模块进行问题闭环管理。
[0101]
数据质量规则执行模块,用于接收数据质量存储模块传输的数据质量规则脚本信息,执行数据质量规则脚本,将数据质量检测结果与预设阀值进行比对,再将质量规则检测结果与预设阀值的比对情况返回给数据质量存储模块。
[0102]
数据质量异常处理模块,用于在指标数据质量规则检测结果与预设阀值的比对结果表示不通过时,发出提醒及预警,通知数据表的所属部门进行治理,还可根据检查结果自定义快速生成数据质量报告。
[0103]
数据质量存储模块,用于存储数据血缘关系图、通用质量检查规则、业务数据质量检查规则、业务数据质量检测结果等信息。
[0104]
在一个实施例中,上述数据质量规则管理模块还可以包含:数据质量规则查询单元和数据质量指标报告订阅单元,其中,数据质量规则查询单元用于接收用户输入的查询条件(包括质量规则名),并将查询条件信息传给数据质量存储模块,从而获取对应的质量规则脚本信息。数据质量指标报告订阅单元用于利用bi(商业智能)的即时分析功能,用户可以实时、快速的进行指标报告订阅,对专业治理监测报表进行及时保鲜。
[0105]
在一个实施例中,上述数据质量规则执行模块可以包括:
[0106]
质量规则执行单元,用于接收数据质量存储模块传输的通用质量检查规则和业务数据质量检查规则,通用质量检查规则通过统一调度,每日夜间批量进行全表扫描;业务数据质量检查规则根据用户设置的时间频率在不同数据存储平台进行全表扫描。
[0107]
阀值比较单元,用于计算通过质量检测的数据条数与参与质量检测的数据总条数的比值,与预设阈值比较得出通过/不通过,阈值的输入值类型为百分比数字类型。
[0108]
基于同一发明构思,本说明书实施例中还提供了一种数据质量检测装置,如下面的实施例。由于数据质量检测装置解决问题的原理与数据质量检测方法相似,因此数据质量检测装置的实施可以参见数据质量检测方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图8是本说明书实施例的数据质量检测装置的一种结构框图,如图8所示,可以包括:第一生成模块801、确定模块802、设置模块803、第二生成模块804、处理模块805,下面对该结构进行说明。
[0109]
第一生成模块801,可以用于基于查询条件生成数据血缘关系信息集;其中,数据血缘关系信息集用于表征数据之间的关系;
[0110]
确定模块802,可以用于利用数据血缘关系信息集,确定需要检测的数据范围;
[0111]
设置模块803,可以用于基于需要检测的数据范围设置质量检测参数;
[0112]
第二生成模块804,可以用于根据需要检测的数据范围和质量检测参数生成目标结构化查询语句;
[0113]
处理模块805,可以用于利用目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,质量检测结果用于表示数据是否通过质量检
测。
[0114]
本说明书实施例实施方式还提供了一种电子设备,具体可以参阅图9所示的基于本说明书实施例提供的数据质量检测方法的电子设备组成结构示意图,电子设备具体可以包括输入设备91、处理器92、存储器93。其中,输入设备91具体可以用于输入查询条件。处理器92具体可以用于基于查询条件生成数据血缘关系信息集;其中,数据血缘关系信息集用于表征数据之间的关系;利用数据血缘关系信息集,确定需要检测的数据范围;基于需要检测的数据范围设置质量检测参数;根据需要检测的数据范围和质量检测参数生成目标结构化查询语句;利用目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,质量检测结果用于表示数据是否通过质量检测。存储器93具体可以用于存储目标结构化查询语句、质量检测结果等数据。
[0115]
在本实施方式中,输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。输入设备还可以获取接收其他模块、单元、设备传输过来的数据。处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式等等。存储器具体可以是现代信息技术中用于保存信息的记忆设备。存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如ram、fifo等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、tf卡等。
[0116]
在本实施方式中,该电子设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
[0117]
本说明书实施例实施方式中还提供了一种基于数据质量检测方法的计算机存储介质,计算机存储介质存储有计算机程序指令,在计算机程序指令被执行时可以实现:基于查询条件生成数据血缘关系信息集;其中,数据血缘关系信息集用于表征数据之间的关系;利用数据血缘关系信息集,确定需要检测的数据范围;基于需要检测的数据范围设置质量检测参数;根据需要检测的数据范围和质量检测参数生成目标结构化查询语句;利用目标结构化查询语句对需要检测的数据范围内的数据进行质量检测,得到质量检测结果;其中,质量检测结果用于表示数据是否通过质量检测。
[0118]
在本实施方式中,上述存储介质包括但不限于随机存取存储器(random access memory,ram)、只读存储器(read

only memory,rom)、缓存(cache)、硬盘(hard disk drive,hdd)或者存储卡(memory card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
[0119]
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
[0120]
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将
它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
[0121]
虽然本说明书实施例提供了如上述实施例或流程图所述的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本说明书实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
[0122]
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书实施例的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
[0123]
以上所述仅为本说明书实施例的优选实施例而已,并不用于限制本说明书实施例,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜