一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据血缘的数据任务分析方法、系统及介质与流程

2022-12-13 22:28:52 来源:中国专利 TAG:


1.本发明涉及计算机数据处理技术领域,具体地,涉及一种基于数据血缘的数据任务分析方法、系统及介质。


背景技术:

2.数据的产生,转移,与处理等流程使得数据之间产生一种链路关系,这种关系描述了数据的依赖关系,我们称之为数据的血缘关系。
3.血缘关系提供了一种数据来源追溯功能,依靠互联网中各类的语法树解析器,我们可以通过解析数据库操作语句的语法树实现对各类数据库的血缘解析功能,将此功能应用在数据治理平台中,通过治理平台所进行每条数据表的产生与数据的转移,我们都可以为其生成血缘关系。
4.数据治理过程涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统,数据治理的目的是要对数据的获取、处理、使用进行监管。
5.公开号为cn114116856a的发明专利,公开了一种基于数据治理全链路的字段级血缘关系分析方法,通过对数据上云、云上计算、数据下云进行字段级别的血缘关系提取,得到全链路血缘关系拓扑图,方便用户了解整体加工链路。该方法从解析语法树最内层开始,逆向模拟sql执行过程,逐步计算真实对应的字段,可提取字段间、函数间的血缘关系,同时具有更高的灵活性,能够应对复杂的业务场景。该专利可以获取到全链路的数据血缘关系,但却无法对实际生产的数据任务关联,无法根据数据血缘关系感知所影响的数据任务,当数据血缘变更时仍需要人工解析数据任务所受到的影响。


技术实现要素:

6.针对现有技术中的缺陷,本发明提供一种基于数据血缘的数据任务分析方法、系统及介质。
7.根据本发明提供的一种基于数据血缘的数据任务分析方法、系统及介质,所述方案如下:
8.第一方面,提供了一种基于数据血缘的数据任务分析方法,所述方法包括:
9.步骤s1:初始化执行数据任务时,任务分析模块分析数据任务中的数据血缘关系,同时建立数据任务血缘映射关系并保存到数据任务血缘映射库中;
10.步骤s2:映射关系展示模块从数据任务血缘映射库查询数据任务,通过数据任务血缘映射关系显示数据任务图中所有关联的数据库、表、字段,并根据数据任务血缘映射关系标记任务与血缘之间的映射情况;
11.步骤s3:当元数据信息变更,执行数据任务时,任务分析模块在数据任务血缘映射库中比对当前任务的数据任务血缘映射关系,并对变更的内容进行任务血缘变更标记;再根据数据血缘关系与数据任务血缘映射关系同步变更相关的数据任务信息,并进行任务血
缘变更标记;
12.步骤s4:映射关系展示模块根据任务血缘变更标记分类展示数据任务信息,在同一个数据任务流图中对受到影响的作业进行高亮展示。
13.优选地,所述步骤s1包括:
14.输入:数据任务信息ti;
15.输出:数据任务ti的血缘映射关系ri,数据任务ti的任务血缘变更标记;
16.步骤s1.1:任务分析模块通过数据任务信息ti读取任务中包含的所有数据操作集合tq;
17.步骤s1.2:针对tq中每一个数据操作,获取数据血缘关系,对所有数据操作源端标记ts,数据操作目标端标记td,得到数据操作源的库tsd、表tst、字段tsc集合ts={tsd,tst,tsc}以及数据目标端的库tdd、表tdt、字段tdc集合ts={tdd,tdt,tdc};
18.步骤s1.3:通过数据任务信息ti获取数据任务编号td,将ts、td关联,得到临时映射关系rt={td,ts,td};将对数据库d、表t、字段c定义标识常量s={d,t,c}展开后结合数据任务编号td建立数据任务ti的血缘映射关系ri={s,ti,td,ts};
19.步骤s1.4:任务分析模块将血缘映射关系ri保存到数据任务血缘映射库中。
20.优选地,所述步骤s3包括:
21.输入:数据任务信息ti;
22.输出:
23.数据任务ti的血缘映射关系ri;
24.数据任务ti的任务血缘变更标记集合rc;
25.步骤s3.1:任务分析模块通过数据任务信息ti获取建立数据任务ti的血缘映射关系rn={s,ti,tnd,tns},并从数据任务血缘映射库中获取已存在的数据任务血缘映射关系ri={s,ti,tid,tis};
26.步骤s3.2:针对rn中的每一个源端和目的端进行遍历,并依照判断加入任务血缘变更标记集合rc;
27.步骤s3.3:将得到的加入任务血缘变更标记集合rc保存到数据任务血缘映射库中。
28.优选地,所述步骤s3.2具体包括:
29.步骤s3.2.1:针对rn中的每一个源端和目的端进行遍历,若tnd=tid,则判断tns是否存在于ri中,若不存在,则定义目的端变更cs并新建任务血缘变更标记项ri={s,ti,tnd,tns,cs},加入任务血缘变更标记集合rc,若存在则继续;
30.步骤s3.2.2:若tns=tis,则判断tnd是否存在于ri中,若不存在,则定义源端变更cd新建任务血缘变更标记项ri={s,ti,tnd,tns,cd},加入任务血缘变更标记集合rc,若存在则继续;
31.步骤s3.2.3:若tnd!=tid并且tns!=tis,则定义新增数据任务血缘映射关系cn,新建任务血缘变更标记项ri={s,ti,tnd,tns,cn},加入任务血缘变更标记集合rc。
32.第二方面,提供了一种基于数据血缘的数据任务分析系统,所述系统包括:
33.模块m1:初始化执行数据任务时,任务分析模块分析数据任务中的数据血缘关系,同时建立数据任务血缘映射关系并保存到数据任务血缘映射库中;
34.模块m2:映射关系展示模块从数据任务血缘映射库查询数据任务,通过数据任务血缘映射关系显示数据任务图中所有关联的数据库、表、字段,并根据数据任务血缘映射关系标记任务与血缘之间的映射情况;
35.模块m3:当元数据信息变更,执行数据任务时,任务分析模块在数据任务血缘映射库中比对当前任务的数据任务血缘映射关系,并对变更的内容进行任务血缘变更标记;再根据数据血缘关系与数据任务血缘映射关系同步变更相关的数据任务信息,并进行任务血缘变更标记;
36.模块m4:映射关系展示模块根据任务血缘变更标记分类展示数据任务信息,在同一个数据任务流图中对受到影响的作业进行高亮展示。
37.优选地,所述模块m1包括:
38.输入:数据任务信息ti;
39.输出:数据任务ti的血缘映射关系ri,数据任务ti的任务血缘变更标记;
40.模块m1.1:任务分析模块通过数据任务信息ti读取任务中包含的所有数据操作集合tq;
41.模块m1.2:针对tq中每一个数据操作,获取数据血缘关系,对所有数据操作源端标记ts,数据操作目标端标记td,得到数据操作源的库tsd、表tst、字段tsc集合ts={tsd,tst,tsc}以及数据目标端的库tdd、表tdt、字段tdc集合ts={tdd,tdt,tdc};
42.模块m1.3:通过数据任务信息ti获取数据任务编号td,将ts、td关联,得到临时映射关系rt={td,ts,td};将对数据库d、表t、字段c定义标识常量s={d,t,c}展开后结合数据任务编号td建立数据任务ti的血缘映射关系ri={s,ti,td,ts};
43.模块m1.4:任务分析模块将血缘映射关系ri保存到数据任务血缘映射库中。
44.优选地,所述模块m3包括:
45.输入:数据任务信息ti;
46.输出:
47.数据任务ti的血缘映射关系ri;
48.数据任务ti的任务血缘变更标记集合rc;
49.模块m3.1:任务分析模块通过数据任务信息ti获取建立数据任务ti的血缘映射关系rn={s,ti,tnd,tns},并从数据任务血缘映射库中获取已存在的数据任务血缘映射关系ri={s,ti,tid,tis};
50.模块m3.2:针对rn中的每一个源端和目的端进行遍历,并依照判断加入任务血缘变更标记集合rc;
51.模块m3.3:将得到的加入任务血缘变更标记集合rc保存到数据任务血缘映射库中。
52.优选地,所述模块m3.2具体包括:
53.模块m3.2.1:针对rn中的每一个源端和目的端进行遍历,若tnd=tid,则判断tns是否存在于ri中,若不存在,则定义目的端变更cs并新建任务血缘变更标记项ri={s,ti,tnd,tns,cs},加入任务血缘变更标记集合rc,若存在则继续;
54.模块m3.2.2:若tns=tis,则判断tnd是否存在于ri中,若不存在,则定义源端变更cd新建任务血缘变更标记项ri={s,ti,tnd,tns,cd},加入任务血缘变更标记集合rc,若存
在则继续;
55.模块m3.2.3:若tnd!=tid并且tns!=tis,则定义新增数据任务血缘映射关系cn,新建任务血缘变更标记项ri={s,ti,tnd,tns,cn},加入任务血缘变更标记集合rc。
56.第三方面,提供了一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现所述方法中的步骤。
57.与现有技术相比,本发明具有如下的有益效果:
58.1、本发明通过采用在解耦的任务分析模块分析数据任务和数据血缘的映射关系,从而实现了数据任务分析对数据任务执行的最小化入侵,并获取到了数据血缘与数据任务之间映射;
59.2、本发明通过采用图计算自检的方式,在数据血缘变更的时候可以动态感知所影响的数据任务,从而解决了数据任务在数据血缘变更时需人工解析影响的问题。
附图说明
60.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
61.图1为本发明整体示意图;
62.图2为本发明步骤s1的具体流程图;
63.图3为本发明步骤s3的具体流程图。
具体实施方式
64.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
65.本发明实施例提供了一种基于数据血缘的数据任务分析方法,参照图1和图2所示,该方法具体包括:
66.步骤s1:初始化执行数据任务时,任务分析模块分析数据任务中的数据血缘关系,同时建立数据任务血缘映射关系并保存到数据任务血缘映射库中。
67.具体地,参照图2所示,步骤s1包括:
68.输入:数据任务信息ti;
69.输出:数据任务ti的血缘映射关系ri,数据任务ti的任务血缘变更标记;
70.步骤s1.1:任务分析模块通过数据任务信息ti读取任务中包含的所有数据操作集合tq;
71.步骤s1.2:针对tq中每一个数据操作,获取数据血缘关系,对所有数据操作源端标记ts,数据操作目标端标记td,得到数据操作源的库tsd、表tst、字段tsc集合ts={tsd,tst,tsc}以及数据目标端的库tdd、表tdt、字段tdc集合ts={tdd,tdt,tdc};
72.步骤s1.3:通过数据任务信息ti获取数据任务编号td,将ts、td关联,得到临时映射关系rt={td,ts,td};将对数据库d、表t、字段c定义标识常量s={d,t,c}展开后结合数据任务编号td建立数据任务ti的血缘映射关系ri={s,ti,td,ts}。
73.步骤s1.4:任务分析模块将血缘映射关系ri保存到数据任务血缘映射库中。
74.步骤s2:映射关系展示模块从数据任务血缘映射库查询数据任务,可通过数据任务血缘映射关系显示数据任务图中所有关联的数据库、表、字段,并根据数据任务血缘映射关系标记任务与血缘之间的映射情况。
75.步骤s3:当元数据信息变更,执行数据任务时,任务分析模块在数据任务血缘映射库中比对当前任务的数据任务血缘映射关系,并对变更的内容进行任务血缘变更标记;再根据数据血缘关系与数据任务血缘映射关系同步变更相关的数据任务信息,并进行任务血缘变更标记。
76.具体地,参照图3所示,步骤s3包括:
77.输入:数据任务信息ti;
78.输出:
79.数据任务ti的血缘映射关系ri;
80.数据任务ti的任务血缘变更标记集合rc;
81.步骤s3.1:任务分析模块通过数据任务信息ti获取建立数据任务ti的血缘映射关系rn={s,ti,tnd,tns},并从数据任务血缘映射库中获取已存在的数据任务血缘映射关系ri={s,ti,tid,tis};
82.步骤s3.2:针对rn中的每一个源端和目的端进行遍历,并依照判断加入任务血缘变更标记集合rc;
83.该步骤s3.2具体包括:
84.步骤s3.2.1:针对rn中的每一个源端和目的端进行遍历,若tnd=tid,则判断tns是否存在于ri中,若不存在,则定义目的端变更cs并新建任务血缘变更标记项ri={s,ti,tnd,tns,cs},加入任务血缘变更标记集合rc,若存在则继续。
85.步骤s3.2.2:若tns=tis,则判断tnd是否存在于ri中,若不存在,则定义源端变更cd新建任务血缘变更标记项ri={s,ti,tnd,tns,cd},加入任务血缘变更标记集合rc,若存在则继续。
86.步骤s3.2.3:若tnd!=tid并且tns!=tis,则定义新增数据任务血缘映射关系cn,新建任务血缘变更标记项ri={s,ti,tnd,tns,cn},加入任务血缘变更标记集合rc。
87.步骤s3.3:将得到的加入任务血缘变更标记集合rc保存到数据任务血缘映射库中。
88.步骤s4:映射关系展示模块根据任务血缘变更标记分类展示数据任务信息,在同一个数据任务流图中对受到影响的作业进行高亮展示。
89.本发明实施例提供了一种基于数据血缘的数据任务分析方法、系统及介质,建立数据任务与数据血缘的关系,数据血缘和数据任务之间的映射关系可双向查询。在数据任务中按层级显示数据任务之间的数据血缘关系,显示作业之间库、表、字段级的数据血缘关系,以通过任务之间依赖进一步明确数据任务血缘依赖。若数据血缘关系变更的时,可以根据数据任务血缘依赖关系明确受影响的任务,并明确所有需要变更的数据任务。
90.本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌
入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
91.以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献