一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据治理中的数据血缘可视化实现方法及系统与流程

2021-11-29 13:45:00 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,具体地说是一种数据治理中的数据血缘可视化实现方法及系统。


背景技术:

2.在大数据时代,由于分散的数据源、巨大的数据量和非结构化的数据类型使组织的数据管理复杂性进一步复杂化,增加了数据治理的难度。同一行业的不同数据源,或者不同行业的数据,针对规模巨大、类型多样、高速流转、复杂多变、质量参差不齐、价值密度高低不一的大数据特性,如何做到数据治理的可视化实现,需要基于元数据及数据处理加工组件,实现数据治理过程中的数据血缘可视化展示。


技术实现要素:

3.本发明的技术任务是针对以上不足之处,提供一种数据治理中的数据血缘可视化实现方法及系统,该方法通过实现数据血缘的可视化展示,能够很清楚的了解数据是如何流转的,为数据管理提供依据。
4.本发明解决其技术问题所采用的技术方案是:
5.一种数据治理中的数据血缘可视化实现方法,该方法对数据治理流程进行可视化展示;通过完成元数据采集,并且结合平台提供的多样化数据处理加工组件,支持在画布中拖拽式增加组件节点及连线组件节点,完成数据治理流程配置,实现数据血缘关系的可视化展示。
6.数据源,即数据的来源,是提供某种所需要数据的器件或原始媒体,通过提供正确的数据源名称,可以找到相应的数据库连接;元数据,定义和描述数据的管理控制类数据;数据血缘,是指在数据产生、加工融合、流转流通到最终消亡等过程中形成的继承关系集合。
7.通过该方法支持拖拽式增加组件节点及连线信息,使治理流程配置清晰明了,能够清楚的了解数据是如何流转的,为数据管理提供依据。
8.优选的,所述数据治理流程包括数据源配置,元数据采集,数据读取,数据处理,数据分发和数据质量检验;
9.所述平台提供的多样化数据处理加工组件包括基础组件、数据读取/分发组件、数据提取、数据清洗、数据关联、数据比对、数据标识以及数据质量组件。
10.进一步的,所述数据源配置,配置来源数据库和目标数据库,来源数据库的表用于读取数据,目标数据库的表用于写数据;
11.所述元数据采集,获取到字段信息,所述字段信息用于数据处理组件的参数,贯穿整个数据治理流程;
12.所述数据读取,针对不同类型的数据源提供多种读取组件,不同数据读取组件需要配置的参数不同;
13.所述数据处理组件,一个数据处理组件,前面连线数据读取组件或处理组件时该组件作为目标节点;后面连线数据处理组件或数据分发组件时该组件作为源节点;不同数据处理组件所需的参数不同,源节点的输出结果可以作为目标节点的输入参数;
14.所述数据分发,数据处理完成后分发写入数据库,数据分发针对不同类型的数据源提供多种分发组件,不同数据分发组件需要配置的参数不同;
15.所述数据质量检验,数据分发完成写入数据库后,数据治理结果需要根据质量规则进行检验,看数据是否规范化。
16.优选的,所述数据读取支持类型包括关系型数据库、hdfs、es、kafka、hbase、ftp读取以及流读取。
17.优选的,所述数据处理组件包括基础组件、提取组件、清洗组件、关联组件、比对组件和标识组件,
18.基础组件支持选择字段、数据分流、聚合操作、union操作以及排序topn;
19.提取组件包括中文字符提取、手机号提取、车牌号提取、身份证号提取以及图片提取;
20.清洗组件支持替换字符串、身份证15位转18位、增加固定值、替换字符串、字典替换、字段加密、扩展字段、计算值、过滤数据以及去重数据;
21.关联组件包括左关联及关联;
22.比对组件包括交集、并集和差集;
23.标识组件包括偏好打标、属性打标、直接打标以及属性映射打标。
24.优选的,所述数据分发支持类型包括关系型数据库、hdfs、es、kafka、hbase、ftp写数据和hive。
25.优选的,数据质量检验组件支持类型包括身份证格式校验、电话号码格式校验、更新及时性、记录完整性、数据唯一性、属性完整性、主键唯一性以及值域有效性。
26.本发明还要求保护一种数据治理中的数据血缘可视化实现系统,包括数据采集模块、数据处理模块以及数据治理流程配置模块,通过数据采集模块完成元数据采集,通过数据治理流程配置模块结合数据处理模块提供的多样化数据处理加工组件,实现在画布中拖拽式增加组件节点及连线组件节点,实现数据血缘关系的可视化展示;
27.该系统实现上述的数据治理中的数据血缘可视化实现方法。
28.本发明还要求保护一种数据治理中的数据血缘可视化实现装置,包括:至少一个存储器和至少一个处理器;
29.所述至少一个存储器,用于存储机器可读程序;
30.所述至少一个处理器,用于调用所述机器可读程序,执行上述的数据治理中的数据血缘可视化实现方法。
31.本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的数据治理中的数据血缘可视化实现方法。
32.本发明的一种数据治理中的数据血缘可视化实现方法及系统与现有技术相比,具有以下有益效果:
33.本方法通过提供多样化的数据读写、数据处理、数据质量组件,并且支持画布中拖
拽组件及配置组件参数功能,使数据治理配置流程实现可视化,规范化效果,清晰展示数据是如何流转,达到数据血缘可视化的目标。
附图说明
34.图1是本发明一个实施例提供的数据治理流程图;
35.图2是发明一个实施例提供的数据血缘可视化示例图。
具体实施方式
36.下面结合具体实施例对本发明作进一步说明。
37.本发明实施例提供一种数据治理中的数据血缘可视化实现方法,该方法对数据治理流程进行可视化展示;通过完成元数据采集,并且结合平台提供的多样化数据处理加工组件,支持在画布中拖拽式增加组件节点及连线组件节点,完成数据治理流程配置,实现数据血缘关系的可视化展示。通过该方法支持拖拽式增加组件节点及连线信息,使治理流程配置清晰明了,能够清楚的了解数据是如何流转的,为数据管理提供依据。
38.数据源,即数据的来源,是提供某种所需要数据的器件或原始媒体,通过提供正确的数据源名称,可以找到相应的数据库连接;元数据,定义和描述数据的管理控制类数据;数据血缘,是指在数据产生、加工融合、流转流通到最终消亡等过程中形成的继承关系集合。
39.所述数据治理流程包括数据源配置,元数据采集,数据读取,数据处理,数据分发和数据质量检验;
40.所述平台提供的多样化数据处理加工组件包括基础组件、数据读取/分发组件、数据提取、数据清洗、数据关联、数据比对、数据标识以及数据质量组件。
41.具体实施如下:
42.1)、数据源配置,
43.数据源配置来源数据库和目标数据库,来源数据库的表用于读取数据,目标数据库的表用于写数据;
44.2)、元数据采集,
45.元数据采集获取到字段信息,所述字段可用于数据处理组件的参数,贯穿整个数据治理流程;
46.3)、数据读取,
47.数据读取针对不同类型的数据源提供多种读取组件,支持关系型数据库、hdfs、es、kafka、hbase、ftp读取、流读取等,不同数据读取组件需要配置的参数不同;
48.4)、数据处理,
49.数据处理组件包括基础组件、提取组件、清洗组件、关联组件、比对组件和标识组件;一个数据处理组件,前面连线数据读取组件或处理组件时该组件作为目标节点;后面连线数据处理组件或数据分发组件时该组件作为源节点;不同数据处理组件所需的参数不同,源节点的输出结果可以作为目标节点的输入参数;
50.基础组件支持选择字段、数据分流、聚合操作、union操作以及排序topn;
51.提取组件包括中文字符提取、手机号提取、车牌号提取、身份证号提取以及图片提
取等;
52.清洗组件支持替换字符串、身份证15位转18位、增加固定值、替换字符串、字典替换、字段加密、扩展字段、计算值、过滤数据以及去重数据等;
53.关联组件包括左关联及关联;
54.比对组件包括交集、并集和差集;
55.标识组件包括偏好打标、属性打标、直接打标以及属性映射打标;
56.5)、数据分发,
57.数据处理完成后分发写入数据库,数据分发针对不同类型的数据源提供多种分发组件,支持关系型数据库、hdfs、es、kafka、hbase、ftp写数据和hive等,不同数据分发组件需要配置的参数不同;
58.6)、数据质量检验,
59.数据分发完成写入数据库后,数据治理结果需要根据质量规则进行检验,看数据是否规范化;数据质量检验组件支持类型包括身份证格式校验、电话号码格式校验、更新及时性、记录完整性、数据唯一性、属性完整性、主键唯一性以及值域有效性等。
60.如图1所示为数据治理的流程图。
61.图2为本实施例中数据血缘可视化示例,其具体操作如下:
62.1、数据读取组件:
63.画布中拖拽增加数据读取下的读数据表组件,定义节点名称为【铁路乘车信息读取】,选择要读取的数据表为【治安人口库】下的【tlccxx】表。
64.2、数据处理组件:
65.1)、拖拽增加基础组件分组下的选择字段组件,连线读数据表组件和选择字段组件,新增组件参数选择【tlccxx】表的【车次cc】、【姓名xm】、【证件号码zjhm】等全部字段。
66.2)、拖拽增加数据清洗分组下的身份证15位转18位组件,连线选择字段组件和身份证15位转18位组件,新增组件参数选择字段为【证件号码zjhm】,回填字段为【证件号码zjhm】。
67.3、数据分发组件
68.画布中拖拽增加数据分发下的写数据表组件,连线身份证15位转18位组件和写数据表组件,选择要写入的数据表为【原始库】下的【tlccxx】表,插入模式为insert,原始库tlccxx表的目标字段和身份证15位转18位组件输出的源字段做字段映射。
69.本发明实施例还提供了一种数据治理中的数据血缘可视化实现系统,包括数据采集模块、数据处理模块以及数据治理流程配置模块,通过数据采集模块完成元数据采集,通过数据治理流程配置模块结合数据处理模块提供的多样化数据处理加工组件,实现在画布中拖拽式增加组件节点及连线组件节点,实现数据血缘关系的可视化展示;
70.该系统实现上述实施例描述的数据治理中的数据血缘可视化实现方法。
71.本发明实施例还提供了一种数据治理中的数据血缘可视化实现装置,包括:至少一个存储器和至少一个处理器;
72.所述至少一个存储器,用于存储机器可读程序;
73.所述至少一个处理器,用于调用所述机器可读程序,执行上述实施例描述的数据治理中的数据血缘可视化实现方法。
74.本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述实施例描述的数据治理中的数据血缘可视化实现方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
75.在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
76.用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd

rom、cd

r、cd

rw、dvd

rom、dvd

ram、dvd

rw、dvd rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上下载程序代码。
77.此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
78.此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
79.上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献