一种血缘信息可视化表示方法与流程

2021-12-01 01:00:00 来源：中国专利 TAG：

1.本技术涉及可视化表示方法，尤其是一种血缘信息可视化表示方法。

背景技术：

2.可视化是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，再进行交互处理的理论、方法和技术，涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域，数据血缘属于数据治理中的一个概念，是在数据溯源的过程中找到相关数据之间的联系，它是一个逻辑概念，血缘分析是保证数据融合的一个手段，通过血缘分析实现数据融合处理的可追溯，其中大数据血缘是指数据产生的链路，具有归属性、多源性、可追溯性和层次性的特征，主要用于数据溯源、评估数据价值、数据质量评估和数据归档、销毁的参考。
3.目前许多数据血缘关系在展示时，由于其来源复杂繁多且数据流转路线不清晰，数据处理质量较低，或者是某一环节数据处理不恰当，可能会导致无法清楚明了的看出数据在流转过程中的变换。因此，针对上述问题提出一种血缘信息可视化表示方法。

技术实现要素：

4.在本实施例中提供了一种血缘信息可视化表示方法用于解决现有技术中的数据血缘关系在展示时数据在流转过程中的变换展示不清晰的问题。
5.根据本技术的一个方面，提供了一种血缘信息可视化表示方法，所述血缘信息可视化表示方法包括如下步骤：
6.(1)采集初始数据；
7.(2)对初始数据进行解析；
8.(3)对分析后的数据进行清洗；
9.(4)对清洗后的数据进行血缘关系分析；
10.(5)根据层次结构对数据血缘关系进行存储；
11.(6)构建可视化平台，进行血缘关系收集和可视化展示。
12.进一步地，所述步骤(1)中通过大数据采集相关的初始数据，根据数据来源的不同，对数据的整体进行分类，如官方数据、非官方数据、第三方交易数据、自身数据等等。
13.进一步地，所述步骤(2)中的对分类后的数据进行分类分析，依照分类的关键词中的分类，关联数据等，依次递增深入分析，且同时收集分析时的关联数据，并对分析后的数据对应分类存储，并保证不同存储模块间可以相互连通、传输和访问。
14.进一步地，所述步骤(2)中数据解析时，可以采集数据的流转线路，即可收集到数据的流转路径，从数据流入节点出来往主节点汇聚，又从主节点流出往数据流出节点扩散，表现了三个维度的信息，分别是方向、数据更新量级、数据更新频次，同时通过数据受众、更新量级和更新频次可以判断数据的价值。
15.进一步地，所述步骤(3)中数据清洗即清洗规则节点，用来表现数据流转过程中的
筛选标准，每个地方对数据质量的要求都有所不同，数据接受方会根据自己对数据的要求来过滤接入的数据，根据要求形成数据标准，并依据这些标准来做数据清洗。
16.进一步地，所述步骤(4)中血缘分析包含：任务级别、数据级别和字段级别三个级别，其中任务级别表示：大数据平台当中的数据，往往由一个个的任务生成，虽然在不同的应用系统中虽然有不同的名字，但本质上都是同一类东西，如yarn中的application、oozie中的job、spark/mr/hive中的job，通过查看任务级别的血缘关系，可以了解到更高层级的信息，如服务器、运行时长、等待时长、当前任务流状态等。
17.进一步地，所述步骤(4)中的数据级别也叫表、目录等，广义上包括hdfs、hbase、关系型数据库、kafka、ftp、本地文件等，通过查看数据级别的血缘关系，可以看到：表的依赖链条、表的重要程度(后续的使用者多少)、表的基础信息，可以进行数据质量、影响分析的工作。
18.进一步地，所述步骤(4)中的字段级别可以了解更改字段的影响有多大、字段是如何产生的等，按照hive当中的定义，分为两种：projection(投影，只影响单一输出字段)和predicate(断言，影响所有输出字段)。
19.进一步地，所述步骤(5)中数据血缘关系的数据库、表和字段不同，形成不同的类型的存储结构，存储结构不同形成不同的不同层次结构，层次不同表示数据血缘关系的信息描述程度不同。
20.进一步地，所述步骤(6)中可视化展示时，先采集展示指令，确定需要可视化的数据源节点，并根据所述数据源节点从数据对象表中确定对应的血缘数据对象，作为当前血缘数据对象，然后根据数据层次结构对数据血缘关系进行展示，或者进行归档或者销毁。
21.通过本技术上述实施例，采用了数据解析、数据清和数据分析等综合处理，可以清晰明了的采集到数据的流转过程，使得数据血缘关系在可视化展示时更加清楚，大大的提高了数据的处理质量，解决了现有的数据血缘关系在展示时数据在流转过程中的变换展示不清晰的问题，便于数据的管理和应用。
附图说明
22.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
23.图1为本技术一种实施例的流程示意图。
具体实施方式
24.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
25.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第
二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.在本技术中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本技术及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。
27.并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本技术中的具体含义。
28.此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本技术中的具体含义。
29.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
30.本实施例中的血缘信息可视化表示方法可以适用于税控停车数据采集终端，例如，在本实施例提供了如下一种税控停车数据采集终端，本实施例中的血缘信息可视化表示方法可以用于税控停车数据采集终端。
31.包括税控模块、数据处理模块、票据业务模块信息查询模块和至少两个数据接口；所述税控模块：从税控停车发票信息中心下载相应停车场经营单位发票票源号码信息；数据处理模块：处理从各停车收费子系统所采集的发票信息，并在本地存储及上传；票据业务模块：提供发票作废、红冲票据；没有验旧的发票按“作废”处理，已经验旧的发票按“红冲”处理；信息查询模块：提供发票开具信息的本地查询；所述两个数据接口，一个为与税控发票信息中心联网的数据接口，另一个为与停车收费子系统对接的数据接口；所述数据处理模块采集并存储停车发票信息、停车行为信息、收费系统状态信息，税控停车数据采集终端分别连接包月发票打印机模块和临停发票打印机模块，所述包月发票打印机模块，其流程如下：包月缴费，发卡/续卡/系统登记
→
停车收费系统向打印机发出打印指令
→
打印机向税控停车数据采集终端申请发票票源号码
→
税控停车数据采集终端向打印机下发发票票源号码
→
打印包月发票
→
发票开具信息上传，所述临停发票打印机模块，其流程如下：车辆离场、计费、付费
→
停车收费系统向打印机发出打印指令
→
打印机向税控停车数据采集终端申请发票票源号码
→
税控停车数据采集终端向打印机下发发票票源号码
→
打印临停发票
→
发票开具信息上传。
32.当然本实施例也可以用于其他数据采集终端。在此不再一一赘述，下面对本技术实施例的血缘信息可视化表示方法进行介绍。
33.请参阅图1所示，一种血缘信息可视化表示方法，所述血缘信息可视化表示方法包括如下步骤：
34.(1)采集初始数据；
35.(2)对初始数据进行解析；
36.(3)对分析后的数据进行清洗；
37.(4)对清洗后的数据进行血缘关系分析；
38.(5)根据层次结构对数据血缘关系进行存储；
39.(6)构建可视化平台，进行血缘关系收集和可视化展示。
40.所述步骤(1)中通过大数据采集相关的初始数据，所述步骤(1)中通过大数据采集相关的初始数据，根据数据来源的不同，对数据的整体进行分类，如官方数据、非官方数据、第三方交易数据、自身数据等等；
41.所述步骤(2)中的对分类后的数据进行分类分析，依照分类的关键词中的分类，关联数据等，依次递增深入分析，且同时收集分析时的关联数据，并对分析后的数据对应分类存储，并保证不同存储模块间可以相互连通、传输和访问；
42.所述步骤(2)中数据解析时，可以采集数据的流转线路，即可收集到数据的流转路径，从数据流入节点出来往主节点汇聚，又从主节点流出往数据流出节点扩散，表现了三个维度的信息，分别是方向、数据更新量级、数据更新频次，同时通过数据受众、更新量级和更新频次可以判断数据的价值；
43.所述步骤(3)中数据清洗即清洗规则节点，用来表现数据流转过程中的筛选标准，每个地方对数据质量的要求都有所不同，数据接受方会根据自己对数据的要求来过滤接入的数据，根据要求形成数据标准，并依据这些标准来做数据清洗；
44.所述步骤(4)中血缘分析包含：任务级别、数据级别和字段级别三个级别，其中任务级别表示：大数据平台当中的数据，往往由一个个的任务生成，虽然在不同的应用系统中虽然有不同的名字，但本质上都是同一类东西，如yarn中的application、oozie中的job、spark/mr/hive中的job，通过查看任务级别的血缘关系，可以了解到更高层级的信息，如服务器、运行时长、等待时长、当前任务流状态等；
45.所述步骤(4)中的数据级别也叫表、目录等，广义上包括hdfs、hbase、关系型数据库、kafka、ftp、本地文件等，通过查看数据级别的血缘关系，可以看到：表的依赖链条、表的重要程度(后续的使用者多少)、表的基础信息，可以进行数据质量、影响分析的工作；
46.所述步骤(4)中的字段级别可以了解更改字段的影响有多大、字段是如何产生的等，按照hive当中的定义，分为两种：projection(投影，只影响单一输出字段)和predicate(断言，影响所有输出字段)；
47.所述步骤(5)中数据血缘关系的数据库、表和字段不同，形成不同的类型的存储结构，存储结构不同形成不同的不同层次结构，层次不同表示数据血缘关系的信息描述程度不同；
48.所述步骤(6)中可视化展示时，先采集展示指令，确定需要可视化的数据源节点，并根据所述数据源节点从数据对象表中确定对应的血缘数据对象，作为当前血缘数据对象，然后根据数据层次结构对数据血缘关系进行展示，或者进行归档或者销毁。
49.本技术的有益之处在于：通过数据综合处理，对数据血缘关系分析、整理并储存，使得后续的数据可视化中血缘关系更加清晰，可以更加直观的展示数据，且通过提高数据处理质量，保证数据的处理效果，便于数据的溯源、评估，通过清晰的数据血缘关系，便于数
据的归档和销毁。
50.涉及到电路和电子元器件和模块均为现有技术，本领域技术人员完全可以实现，无需赘言，本技术保护的内容也不涉及对于软件和方法的改进。
51.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种血缘信息可视化表示方法与流程

相关文献

最热文献