基于记录级血缘关系的数据影响分析方法、存储介质及设备与流程

2022-02-22 23:14:10 来源：中国专利 TAG：

1.本发明属于数据处理技术领域，具体涉及一种基于记录级血缘关系的数据影响分析方法、存储介质及设备。

背景技术：

2.在数据治理领域中，数据通过复杂的数据流转过程，从上游表流向下游表，从上游表的数据记录经过各种复杂的规则处理输出到下游表。某个表数据的变更必定会影响其下游库表，导致下游库表需要进行同步调整，否则数据就会出现不一致性。在实施同步调整之前，我们需要先进行影响分析，评估数据变更对下游整个数据链路的影响程度，业务覆盖情况等，以辅助决策数据变更工作的开展。在实际的数据流转过程中，不同的数据流转环节即上下游，可能由不同的厂商负责，因此影响分析在数据治理领域中就变得十分必要和重要。
3.在数据处理的过程中，数据流转过程的长度深度以及数据处理规则的复杂度，直接导致影响分析的难度。数据治理人员需要做大量的数据链路跟踪工作，才能比较全面的掌握受影响的情况。在数据治理领域里，目前通常是将影响分析纳入元数据管理的范畴，通过元数据的血缘关系，进行影响分析。元数据的血缘关系，通常情况下有三个层级：数据库级、数据表级、数据字段级。通过对三个层级的对象实体进行映射关联，从而构造元数据的血缘关系。
4.虽然元数据的血缘关系可以满足一部分影响分析的场景，通过血缘关系获取到数据库表级的链路情况，能够评估出受影响的下游库表清单范围，但是仍然无法全面、准确、量化的定位受影响的对象实体，业务覆盖情况，无法做到更精细化的评估，决定后续数据变更工作开展的侧重点以及推进先后关系。

技术实现要素：

5.本发明的目的是提供一种基于记录级血缘关系的数据影响分析方法，不论数据表间是否存在相同的主键，都可以更精准地进行溯源定位。本发明由以下技术方案实现：
6.一种基于记录级血缘关系的数据影响分析方法，包括：
7.s1、构造元数据血缘关系，包括构建某数据库中库表间的映射关系及字段间的映射关系：
8.s2、选定所述数据库中上游表数据记录特征因子；
9.s3、生成上游表数据记录特征值；
10.s4、融合上游表数据记录特征值并记录至下游表记录中；
11.s5、基于所述数据记录特征值构造出数据记录级血缘关系；
12.s6、根据所述数据记录级血缘关系确定受影响的链路并找出所述链路上的各库表；
13.s7：对找出的所述链路上的各库表的对象数据进行统计分析。
14.具体地，步骤s1中，通过构建一个库表血缘关系维表记录所述库表间的映射关系；
通过构建一个字段血缘关系维表记录所述字段间的映射关系。
15.具体地，所述库表血缘关系维表包括上游表名和下游表名信息。
16.具体地，所述字段血缘关系维表包括上游表名、上游表字段名、下游表名和目标字段名信息。
17.具体地，所述数据记录特征因子为上游表增设的唯一一个记录标识字段。
18.具体地，所述数据记录特征因子为上游表记录的行号。
19.具体地，步骤s3具体为：在上游表插入记录的同时，自动将生成所述数据记录特征值并保存到上游表记录中。
20.具体地，步骤s4具体为：当所述下游表通过一个或多个所述上游表融合而成时，进行所述上游表数据记录特征值的融合并记录至下游表记录中。
21.本发明还提供一种存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的基于记录级血缘关系的数据影响分析方法。
22.本发明还提供一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上文所述的基于记录级血缘关系的数据影响分析方法。
23.本发明的有益效果在于：通过在元数据血缘关系的基础上，构建更细粒度的数据记录级血缘关系，可以弥补字段级别的元数据血缘关系的不足。在数据治理过程中的影响分析场景中，通过数据记录级的血缘关系的链路，能全面、准确定位到产生数据质量问题的记录，对数据质量问题的溯源工作，而且还可以通过量化的方式形成影响分析报告，对数据变更影响工作的决策以及上下游协同工作的开展起到重要的作用。
附图说明
24.为了更清楚地说明本发明实施例，下面将对实施例或现有技术中描述中需要使用的附图做简单说明。
25.图1是本发明提供的基于记录级血缘关系的影响分析方法的流程示意图。
26.图2是本发明中步骤s1的流程示意图。
27.图3是本发明中步骤s3的流程示意图。
28.图4为通过本发明构造表a与表b的记录及血缘关系并生成分析报告的流程图。
具体实施方式
29.为了使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知技术的描述，以避免不必要地混淆本发明的概念。
30.本发明涉及基于记录级血缘关系的影响分析方法，主要应用于评估数据变更对数据治理下游环节的影响分析场景中。在数据治理过程中，通过构造数据库表记录级血缘关系，形成受影响链路及受影响目标集，让数据治理人员可以全面、准确、量化的对下游业务进行影响分析评估，从而辅助数据变更工作的决策，有依据、有重点、有先后的开展。下面进行具体说明：
31.如图1所示，本发明提供的基于记录级血缘关系的影响分析方法，如图1所示，本发明提供了应用于数据溯源的血缘关系构造方法,主要涉及五个步骤：
32.s1、构造元数据血缘关系，包括构建某数据库中库表间的映射关系及字段间的映射关系：
33.s2、选定所述数据库中上游表数据记录特征因子；
34.s3、生成上游表数据记录特征值；
35.s4、融合上游表数据记录特征值并记录至下游表记录中；
36.s5、基于所述数据记录特征值构造出数据记录级血缘关系；
37.s6、根据所述数据记录级血缘关系确定受影响的链路并找出所述链路上的各库表。
38.s7、对找出的所述链路上的各库表的对象数据进行统计分析。
39.步骤s1中，元数据血缘关系包括数据库级、库表级和字段级三个层级；在通常数据治理、数据仓库等场景中，需要进行数据处理的库表一般都在同一个数据库中，如果不在同一个数据库中也会进行针对性的数据汇聚，抽取到相同数据库中，以提高数据处理的效率，因此数据库级的血缘关系一般不需要进行特别的构造。结合图2所示，对于数据库中库表间的映射关系及字段间的映射关系，具体包含以下步骤：
40.(1)构建“库表血缘关系维表”，用于记录库表的映射关系，形成血缘关系；
41.(2)构建“字段血缘关系维表”，用于记录字段的映射关系，形成血缘关系。
[0042]“库表血缘关系维表”主要包括上游表名，下游表名等信息；“字段血缘关系维表”主要包括上游表名，上游表字段名、下游表名、目标字段名等信息。
[0043]
完成步骤s1后，就可以进入步骤s2：选定所述数据库中上游表数据记录特征因子。例如在数据治理过程中的每个明细数据表，我们都约定要求增加一个字段“记录标识”，该字段值是唯一的，可以是库表记录的行号，以该字段作为数据记录特征因子。
[0044]
完成步骤s2后，就可以进入步骤s3：生成上游表数据记录特征值；为了实现自动化的特征值生成以及血缘关系构造，需要制作程序，实现在数据治理过程中的统一调用；结合图3所示，步骤s3具体包含以下步骤：
[0045]
(1)子程序1：用于生成上游表特征值及记录到上游表记录中；
[0046]
(2)子程序2：用于融合上游表特征值及记录到下游表记录中。
[0047]
完成步骤s3后，就可以进入步骤s4：融合上游表数据记录特征值并记录至下游表记录中。具体地，如果在数据处理过程中，是需要融合上游表数据记录特征值到下游表中，则下游表在插入记录的同时，调用子程序2进行上游表特征值融合的数据记录特征值保存到下游表中，并进入步骤s5。
[0048]
通过上述的步骤后，就可以进入步骤五构造数据记录级血缘关系，下游表就构造产生了与上游表数据记录之间的关系，实现数据记录级的血缘关系。数据治理人员可以快速的通过融合的上游表特征值串，完成上游表记录的追踪溯源定位。基于步骤s5所构造出的数据记录级血缘关系，就可以执行步骤s6：根据所述数据记录级血缘关系确定受影响的链路并找出所述链路上的各库表。进一步地，还可以通过步骤s7对找出的所述链路上的各库表的对象数据进行统计分析。图4作为示例，给出了本发明构造表a与表b的记录级血缘关系及生成量化对象的影响分析报告的流程图。
[0049]
应当理解的是，本发明的上述具体实施方式仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于文档级图卷积网络的事件检测方法和系统与流程

基于记录级血缘关系的数据影响分析方法、存储介质及设备与流程

相关文献

最热文献