一种基于元数据的时空大数据管理方法与流程

2022-02-22 06:58:58 来源：中国专利 TAG：

1.本发明涉及数字信息数据处理技术领域，尤其涉及一种基于元数据的时空大数据管理方法。

背景技术：

2.时空大数据是时空数据与时空数据的融合。时空大数据具有多源异构、海量、更新速度快等特点，因此对时空数据治理才能实现数据共享，数据的合理、高效利用，数据的高效存储、查询等；才能有效发挥时空大数据的真正价值。
3.传统的数据存储不足以支撑大规模的数据存储，数据管理无法实现数据之间关系的可视化，不能够满足用户索引数据的要求等问题；
4.为此传统的数据治理已经不能满足实时更新海量时空数据的要求，具有局限性。

技术实现要素：

5.本发明的目的在于提供一种基于元数据的时空大数据管理方法，旨在解决传统的数据治理已经不能满足实时更新海量时空数据的要求的问题。
6.为实现上述目的，本发明提供了一种基于元数据的时空大数据管理方法，包括：
7.建立时空数据业务元数据库；
8.基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理，并将处理后的元数据存入到数据仓库分析系统数据表中；
9.将数据仓库分析系统数据表中的数据导入至数据管理系统；
10.通过数据管理系统获取元数据之间的关联关系并进行图形可视化。
11.其中，基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理，并将处理后的元数据存入到数据仓库分析系统数据表中的具体方式为：
12.基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集；
13.基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中。
14.其中，基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的具体方式为：
15.将数据库元数据进行分块；
16.对每个分块数据进行扫描，统计局部候项集，再计算局部候选项集频数；
17.将局部候选项集中的频数相加，并根据大小进行排序得到全局候选项集后输出结果；
18.将输出结果作为输入，计算并合并满足最小支持度的局部候选项集，将不满足最小支持度的项集进行剪枝，得到全局频繁项集。
19.其中，基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中的具体方式为：
20.将数据库元数据进行切分，并以键值对的形式表示；
21.将键值对扫描后调用生成关联规则的函数，产生与频繁项集对应的规则并以键值对的形式输出结果；
22.规约输出结果，以键值对的形式储存至数据仓库分析系统数据表中。
23.其中，通过数据管理系统获取元数据之间的关联关系并进行图形可视化的具体方式为：
24.配置钩子；
25.通过钩子感知数据仓库分析系统数据表的更新数据操作；
26.将更新的数据发送至数据管理系统；
27.数据管理系统对数据进行修改，获得元数据之间的血缘关系图形。
28.本发明的一种基于元数据的时空大数据管理方法，通过建立时空数据业务元数据库；基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理，并将处理后的元数据存入到数据仓库分析系统数据表中；将数据仓库分析系统数据表中的数据导入至数据管理系统；通过数据管理系统获取元数据之间的关联关系并进行图形可视化，实现数据共享，数据高效存储、索引，元数据血缘关系可视化等功能，基于元数据的管理可以通过从元数据的解析融合、生命周期管理以及变更管理等入手，实现血缘分析、影响分析、可视化等功能，解决了传统的数据治理已经不能满足实时更新海量时空数据的要求的问题。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1是本发明提供的一种基于元数据的时空大数据管理方法的流程图；
31.图2是基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理，并将处理后的元数据存入到数据仓库分析系统数据表中的具体流程图；
32.图3是基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的具体流程图；
33.图4是；基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中的具体流程图；
34.图5是通过数据管理系统获取元数据之间的关联关系并进行图形可视化的具体流程图；
35.图6是基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的工作原理图。
具体实施方式
36.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
37.请参阅图1至图6，本发明提供一种基于元数据的时空大数据管理方法，包括：
38.s1、建立时空数据业务元数据库；
39.所述的业务元数据表结构具体包括基础字段和深度字段，所述基础字段主要包括空间数据的类别、名称等属性，所述深度字段主要包括时空数据的合集以及对应的数据字典表。
40.s2、基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理，并将处理后的元数据存入到数据仓库分析系统数据表中；
41.所述并行化计算框架为mapreduce并行化计算框架，所述关联规则挖掘算法为apriori的关联规则挖掘算法，数据仓库分析系统为hive，数据管理系统为atlas，通过改进的apriori算法抽取位置服务元数据之间的隐含关联关系，将其输出的键值对存储于所述数据仓库分析系统(hive)数据表中，由于hive是建立在hadopp之上的，所以hive的数据都是存储在hdfs中的，解决了海量时空数据的存储、索引等问题，改进的apriori算法将传统的apriori算法在mapreduce框架下进行并行化改进，改善了处理大规模时空元数据集时内存消耗大、时间消耗高的问题，所述apriori的关联规则挖掘算法的核心思想：
42.首先扫描数据集，统计数据集中事务的数量，并找出一维频繁项集，根据最小支持度(minsupport)获得所有的频繁项集，然后一直迭代，直到不能发现新的多维频繁项集为止。要求找到不小于最小支持度(minsupport)和置信度(confidence)的数据集；
43.所述置信度计算公式：其中，x，y是事件对象。
44.mapreduce是一种编程模型，用于大规模数据集的并行运算，apriori是关联规则挖掘算法，利用逐层搜索的迭代方法找出，hdfs是hadoop分布式文件系统。
45.s2的具体方式为：
46.s21、基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集；
47.具体方式为：s211、将数据库元数据进行分块；
48.s212、对每个分块数据进行扫描，统计局部候项集，再计算局部候选项集频数；
49.此步骤在所述并行化计算框架的map阶段中进行，每个mapper函数负责扫描一个分块数据，找到局部候项集，再从每个分块数据中产生局部候选项集，map为映射，用于提取数据特征；reduce为归约，用于重新排列组合，归纳数据。
50.s213、将局部候选项集中的频数相加，并根据大小进行排序得到全局候选项集后输出结果；
51.此步骤在所述并行化计算框架的shuffle&sort阶段中进行，将局部候选项集中key相同的频数进行相加，并且根据key的大小进行排序，这里的key为每一项对应的关联规则，混洗排序(shuffle&sort)是将map阶段相同的key键值对进行合并。
52.s214、将输出结果作为输入，计算并合并满足最小支持度的局部候选项集，将不满足最小支持度的项集进行剪枝，得到全局频繁项集。
53.此步骤在所述并行化计算框架的reduce阶段中进行，将输出结果作为输入，通过reducer函数计算各个value的和。此外合并满足最小支持度的局部候选项集，将不满足最
小支持度的项集进行剪枝，从而得到全局频繁项集，这里的value为该关联规则所对应的置信度大小。
54.s22、基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中。
55.具体方式为：s221、将数据库元数据进行切分，并以键值对的形式表示；
56.s222、将键值对扫描后调用生成关联规则的函数，产生与频繁项集对应的规则并以键值对的形式输出结果；
57.此步骤在所述并行化计算框架的map阶段中进行，这里的键值对中的value表示对应的关联规则。
58.s223、规约输出结果，以键值对的形式储存至数据仓库分析系统数据表中。
59.此步骤在所述并行化计算框架的reduce阶段中进行，通过其将结构化的数据文件映射成数据库表，提供类结构化查询语言(sql)查询功能，并且支持很大规模的数据。
60.s3、将数据仓库分析系统数据表中的数据导入至数据管理系统；
61.将数据仓库分析系统(hive)数据导入至数据管理系统(atlas)中，具体执行脚本import-hive.sh，atlas获取hive的库/表结构。
62.s4、通过数据管理系统获取元数据之间的关联关系并进行图形可视化。
63.s41、配置钩子；
64.钩子为hook，配置hive.exec.post.hooks，然后重新调度任务，执行insert overwrite a select*fromb。
65.s42、通过钩子感知数据仓库分析系统数据表的更新数据操作；
66.配置的hook会监听感知到hive表有更新操作。
67.s43、将更新的数据发送至数据管理系统；
68.然后通过kafka将更新的数据发送至atlas，kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。kafka的目的是通过hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。。
69.s44、数据管理系统对数据进行修改，获得元数据之间的血缘关系图形。
70.用户可以使用两种方法管理atlas中的元数据：
71.a、atlas所有的功能都可以通过restapi提供给最终用户，允许创建、更新和删除元数据类型和元数据实体，restapi是对type(类型)，entity(实体)，attribute(属性)这3个构件的增删改查操作；
72.b、用户也可以选择使用基于kafka的消息接口与atlas集成。
73.atlas使用apache kafka作为通知服务器用于钩子(hook)和元数据通知事件的下游消费者之间的通信。事件由钩子和atlas写到不同的kafka主题，kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。
74.通过以上要求可基于文本的搜索来快速和准确定位相关联的数据和审计事件；对时间数据集血缘关系可视化供用户浏览并高效利用数据。
75.本发明的一种基于元数据的时空大数据管理方法，能够实现数据共享，数据高效存储、索引，元数据血缘关系可视化等功能。而且可以基于元数据的管理可以通过从元数据的解析融合、生命周期管理以及变更管理等入手，实现血缘分析、影响分析、可视化等功能。
76.以上所揭露的仅为本发明一种基于元数据的时空大数据管理方法较佳实施例而
已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：分类标签的核心语句提取方法、系统、设备及存储介质与流程

一种基于元数据的时空大数据管理方法与流程

相关文献

最热文献