一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

图联机分析挖掘技术框架及其搭建方法与流程

2021-11-09 19:54:00 来源:中国专利 TAG:


1.本发明涉及图网络分析技术领域,特别涉及一种图联机分析挖掘技术框架及其搭建方法。


背景技术:

2.随着信息的爆炸式增长,图结构无处不在,针对图数据的分析相对传统结构化表格分析,其数据类型更加的多样,过程更加的复杂。图多维分析逐渐从理论研究走向实际应用,以graph olap(图在线分析处理技术)为核心的图分析及应用受到更多学者和工业界人士的关注。随着研究的深入,图在线分析处理技术已经从早期的简单继承于传统的联机分析处理(online analytical processing,olap)分析,发展到同时具有分析和部分挖掘能力的graph olap。然而,随着社会的发展,图数据开始变得愈发复杂,针对图数据的分析需求也在日益提高。与此同时,图的高效计算也一直是大数据技术领域关注的对象,这从不同角度和技术路线引领分布式图计算通用平台技术往前发展。尽管信息网络的在线分析与挖掘等相关主题的研究在国内外得到重视和发展,但是如何高效地在大规模信息网络的基础上实现包含graph olap技术和图挖掘技术的通用的graph olam技术框架及应用仍存在重大的挑战。
3.在传统的关系型数据库领域,在线联机分析处理技术(olap)是一种数据动态分析模型,它是由关系数据库之父——edgar frank codd在1993年提出的。联机分析处理(online analytical processing,olap)技术是对数据进行多维分析的有效工具,经过多年的olap理论研究和发展,olap能够动态合成、分析和整合大量的多维数据以支持有效的决策。但网络结构不同于传统的关系型数据,网络中除了包含维度和事实外,还包含了丰富的拓扑结构,用户所要分析的对象不只包括实体节点,还包括实体间的相互联系。因此,传统的olap技术无法直接应用于多维网络分析。直到2007年,吴巍试将传统olap分析拓展到面向连接的分析,提出了一种link olap概念,通过将面向实体的分析延伸到面向链接的分析并且提供了友好的可交互的可视化用户接口。然而link olap只是对传统olap的进一步拓展,并没有专门针对如何对多维网络数据进行olap提出系统阐述。
4.graph olap概念是由chen等人于2008年提出的,他们将olap技术引入到图数据的分析当中,并将节点与边的维度划分为信息维与拓扑维,分别设计了对应的olap操作。基于graph olap的概念,李川等人对graph olap中多维网络数据模型进行了完善,提出了双星模型。随后一些研究者对这些研究内容进行了拓展,围绕图立方体模型进行了更为深入的探讨。在这些研究中,网络数据的分析是通过对顶点和边聚合来进行的,以支持分析人员挖掘和理解网络数据中蕴藏的信息。然而上述现有的针对graph olap的研究工作,主要集中在探讨如何在网络数据上进行olap,如何构建图数据立方体模型,以及图数据立方体模型如何进行物化等,且被提出的操作大多继承自传统的olap技术,如上卷、下钻、切片、切块、top-k查询等,分析方法与分析角度较为单一,在对多维网络数据进行更深层次的分析挖掘的能力上稍显不足。随着传统的图挖掘技术经过长期的研究发展,相关理论也在不断完善。
常见的图挖掘算法例如社区检测、子图挖掘、链路预测、中心性度量、k-core分析等,这些算法大多以图论为基础,通过探究网络拓扑结构中隐藏的信息(例如网络的无标度特性、小世界效应、聚类系数等)来描述网络的特征,尽管这些分析技术能够探究网络中节点与边内在的关联关系,但相关研究也指出,应用传统图挖掘算法对网络数据进行的分析挖掘通常具有一定的局限性。在多维网络分析领域,一些研究也尝试在graph olap分析中引入部分图挖掘技术,尽管这些研究拓展了传统graph olap分析的分析角度,但仅停留在将图挖掘算法作为graph olap分析的预处理阶段,并没有针对如何将graph olap技术与图挖掘技术有效结合进行更为深入的探讨,因此提出的框架分析能力十分有限,并不能完全发挥graph olap技术与图挖掘技术的优势。
5.在并行化高效执行方面,以上工作证明了在合理设计算法的基础上,在mapreduce和spark等模型上进行大规模图联机分析是可行并高效的。除了上述围绕图立方体模型与graph olap相关技术实现多维网络分析框架的研究外,研究人员还基于并行计算平台,设计了大量通用的大规模图计算框架。这些大规模并行图计算平台大多针对图的拓扑性设计适合并行计算的计算模型。对图挖掘算法中需要大量迭代计算的部分进行分布式计算,能够有效计算图的相关结构特征,比如pagerank,介数中心性,gn、pscan、k-means社团发现算法等。现有的通用的大规模图计算框架更擅长处理具有较多迭代计算的图挖掘算法,而对于多维网络分析,节点或边的聚集会导致网络结构发生变化。王泽奥曾经基于graph olap技术设计了大规模多维网络数据分析框架,吴心宇也在分布式云平台上架构了大规模多维异质网络olap分析系统,但是现有框架对该类算法的支持并不是很好,在大规模网络的多维分析这一需求上没有提供一个较好的解决方案。
6.目前的图联机分析虽然能够加快对图数据的分析进程,但是graph olap仍旧具有一定的局限性:目前提出的graph olap中的大部分操作只是将传统的olap向图数据进行简单的概念迁移,并对实现的方法进行重新定义,研究人员并没有针对图数据自身的独特特征提出更具有融合性和广泛性的操作,没有体现出图数据中的关系度量,在图处理上缺乏延展性。同时,现有的图处理框架并不能做到将传统的graph olap和图挖掘算法整合到一个统一的框架中,并且,他们更加侧重的是通用的图计算模型的提出,用户需要根据自身的分析需求,设计对应的算法。多维网络数据不同于传统的关系型数据,网络的拓扑结构中也蕴含丰富的信息有待进一步挖掘,例如量化节点的重要性,从图中检测社区,找到图的平衡最小切割等,这些信息可以借助图挖掘算法进行深入的探究。单独依赖基于图数据立方体的graph olap操作或图挖掘算法,在现实分析场景中分析能力十分有限,往往需要将两种分析方法结合探究更深层次的信息。


技术实现要素:

7.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
8.为此,本发明的一个目的在于提出一种图联机分析挖掘技术框架,利用全新的立方体模型能高效的对多维网络进行预先挖掘,优化针对大规模网络的处理时间。
9.本发明的另一个目的在于提出一种图联机分析挖掘技术框架的搭建方法。
10.为达到上述目的,本发明一方面实施例提出了一种图联机分析挖掘技术框架,包括:
11.存储设计部分,用于存储网络数据;
12.分布式计算引擎部分,用于提供分布式图并行计算能力;
13.分析引擎部分,用于完成图在线分析处理操作,实现行化高效图挖掘算法;
14.前端可视化交互部分,用于对所述分析引擎部分的执行结果进行前端可视化展示;
15.应用接口,用于用户自行导入待分析的多维网络并使用不同的graph olam操作进行挖掘。
16.为达到上述目的,本发明另一方面实施例提出了一种图联机分析挖掘技术框架的搭建方法,包括:
17.在hdfs上搭建存储设计部分;
18.对部分维度操作进行预计算,将分区性操作物化进立方体结构;
19.在框架中融入分布式计算引擎,在物化立方体的同时进行网络表示学习算法,将对每个节点的表示向量记为节点的一个维度属性进行存储;
20.在框架中融入分析引擎部分,建立路经-维度立方体,简化存储并采用对应的并行物化策略进行立方体构建;
21.通过应用接口设计部分,导入待分析的多维网络,通过不同的graph olam操作进行挖掘,在用户执行算法的过程中,对于维度操作进行直接读取,对于基于立方体的结构操作进行立方体检索和聚集,并完成与用户的前端可视化交互。
22.本发明的有益效果为:
23.(1)优化针对大规模网络的处理时间
24.现有的graph olap研究者对多维网络的定义较为统一,但是这种统一的模型不能表示多维网络组织后的全部属性,通过设计新的多维网络信息模型,可以有效的表示组织后的多维属性网络并将该网络进行存储。针对新的多维网络信息模型,需要设计适合的中间立方体模型,利用全新的立方体模型能高效的对多维网络进行预先挖掘,从而优化针对大规模网络的处理时间。
25.(2)完善的管理体系,支持对图形数据进行更复杂的分析
26.将graph olap操作和挖掘技术进行统一,搭建出对完整的分类和管理体系。并在这基础上,正式介绍了graph olam操作的概念,并将其分为两个主要子分类:结构化olam操作和维度olam操作。针对不同的分类操作调用不同的立方体模型,从而执行不同的优化策略,从而支持对图形数据进行更复杂的分析,并便于操作的统一管理。
27.本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
28.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
29.图1为根据本发明一个实施例的图联机分析挖掘技术框架结构示意图;
30.图2为根据本发明一个实施例的图联机分析挖掘技术框架的搭建流程图;
31.图3为根据本发明一个实施例的图联机分析挖掘技术框架的搭建流程框图。
具体实施方式
32.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
33.下面参照附图描述根据本发明实施例提出的图联机分析挖掘技术框架及其搭建方法。
34.首先将参照附图描述根据本发明实施例提出的图联机分析挖掘技术框架。
35.图1为根据本发明一个实施例的图联机分析挖掘技术框架结构示意图。
36.如图1所示,该图联机分析挖掘技术框架包括:
37.存储设计部分,用于存储网络数据。
38.分布式计算引擎部分,用于提供分布式图并行计算能力。
39.分析引擎部分,用于完成图在线分析处理操作,实现行化高效图挖掘算法。
40.前端可视化交互部分,用于对分析引擎部分的执行结果进行前端可视化展示。
41.应用接口,用于用户自行导入待分析的多维网络并使用不同的graph olam操作进行挖掘。
42.具体地,图联机分析挖掘技术框架是一种graph olam多维网络分析挖掘框架,基于高效的数据管理展开,从而为整个框架的运行提供分布式存储与并行计算能力。
43.在框架的存储设计部分,分为逻辑存储和实际存储两种设计方案。逻辑存储即图数据立方体的设计,数据立方体的存在大大加快了上卷下钻操作的执行速度,通过物化可以将查询时间有效的缩短。
44.实际存储分为两种方案:hbase和alluxio的高效存储以及neo4j的最终结果存储。在集群上搭建的hdfs(hadoop distributed file system,分布式文件系统)作为框架最底层核心的存储载体,由于其具有宽表特性,每一行对应的列数不固定,因此可以良好的支持动态的增加和删减。使用hbase存储静态的网络数据,便于graph olam的众多操作的执行。同时,在针对多维网络的分析挖掘过程中,系统会产生多个临时网络片段作为后续多个操作的分析源。为了提高分析挖掘过程的io性能,本发明中将这些热数据直接存储在alluxio平台上,避免频繁读取数据产生的硬盘io消耗。
45.在框架的分布式计算引擎部分,以spark为核心,架构graphx、sparksql、tensorflowonspark等框架,这些框架一方面为将网络表示学习在内的图数据挖掘方法提供强大的分布式图并行计算能力,另一方面也为基于graph cube实现的相关操作、算法提供并行计算能力。
46.框架核心的分析引擎完成各类graph olam操作的相关实现。本发明的实施例主要设计两个引擎:立方体计算引擎和高效图计算引擎。通过立方体引擎,可以完成对图数据立方体的并行化高效构造、路由以及查询,所有的聚合网络都通过该分布式计算引擎进行构造和组织。另外,以立方体为基础的graph olam操作的核心算法通过该引擎实现,例如关联维度(部分)上卷/下钻操作、关系路径(部分)上卷/下钻操作中的各种聚合算法。这些操作在对图数据立方体上进行查询的基础上进一步计算而获得快速的响应。图计算引擎负责基于分布式计算框架并行化地实现的图挖掘算法,如网络表示学习算法、链路预测算法、子图检索操作中的核心算法实现。该引擎提供已完成内部实现的并行化高效图挖掘算法,向上
层返回算法的执行结果用于前端可视化展示,便于用户进行高效交互式分析。基于以上两个引擎,本发明的实施例将实现的核心算法进一步封装为两类graph olam操作:维度graph olam操作和结构graph olam操作,方便管理和使用。
47.框架的应用接口设计部分,用户可以自行导入待分析的多维网络并使用不同的graph olam操作进行挖掘,由于大部分的维度性操作均在立方体构建之前预执行,后续只进行结果的读取。而其他的维度性操作以及结构操作则基于分布式的高效引擎执行计算过程,因此整个过程具有较高的实时性和交互性,用户每执行一次分析都可以迅速得到可视化的分析结果,并根据分析结果确定后续执行的操作。
48.根据本发明实施例提出的图联机分析挖掘技术框架,通过设计新的多维网络信息模型,可以有效的表示组织后的多维属性网络并将该网络进行存储。针对新的多维网络信息模型,设计适合的中间立方体模型,利用全新的立方体模型能高效的对多维网络进行预先挖掘,从而优化针对大规模网络的处理时间。将graph olap操作和挖掘技术进行统一,搭建出对完整的分类和管理体系,针对不同的分类操作调用不同的立方体模型,从而执行不同的优化策略,从而支持对图形数据进行更复杂的分析,并便于操作的统一管理。
49.其次参照附图描述根据本发明实施例提出的图联机分析挖掘技术框架的搭建方法。
50.图2为根据本发明一个实施例的图联机分析挖掘技术框架的搭建流程图。
51.如图2所示,该图联机分析挖掘技术框架的搭建方法包括:
52.s1,在hdfs上搭建存储设计部分;
53.s2,对部分维度操作进行预计算,将分区性操作物化进立方体结构;
54.s3,在框架中融入分布式计算引擎,在物化立方体的同时进行网络表示学习算法,将对每个节点的表示向量记为节点的一个维度属性进行存储;
55.s4,在框架中融入分析引擎部分,建立路经-维度立方体,简化存储并采用对应的并行物化策略进行立方体构建;
56.s5,通过应用接口设计部分,导入待分析的多维网络,通过不同的graph olam操作进行挖掘,在用户执行算法的过程中,对于维度操作进行直接读取,对于基于立方体的结构操作进行立方体检索和聚集,并完成与用户的前端可视化交互。
57.具体地,通过制定操作的统一模式将graph olap操作与图挖掘技术相关算法统一到一个框架中,借鉴graph olap的数据立方体设计模式优化上卷/下钻操作执行效率,并拓展到对维度或路经的部分上卷或下钻操作,从而分析网络中不同层次节点之间的连接关系。同时,在底层存储之前,先将部分维度操作进行预计算,便于用户后续执行操作可以直接读取数据,高效交互。并且将社团发现等分区性操作物化进立方体结构,加快了对社团这一层次结构的分析与观察。同时,框架融入网络表示学习的相关方法,在物化立方体的同时进行计算,并将结果作为节点的属性进行存储,从而再后续的分析中可以直接取用,省去训练时间。针对其他非立方体优化操作,通过搭建在spark分布式平台环境上的高效并行化算法优化执行过程,以取得用户分析过程中的整体高效性,达到实时交互的目的。
58.graph olam体系执行流程如图3所示,区别于传统的graph olap数据立方体构建方式,在本发明框架中,采用预计算的方式将社区发现此类的分区性算法以及中心性这类度量性算法在立方体搭建和物化之前进行计算,并在物化的同时进行网络表示学习算法,
将对每个节点的表示向量记为节点的一个维度属性存储起来。以此减少后续算法执行的响应时间并最大程度上减少数据立方体的修改。同时,为了方便不同图挖掘技术对维度和路经信息的单独挖掘,建立路经-维度立方体,简化存储并采用对应的并行物化策略进行立方体构建。在用户执行算法的过程中,对于维度操作进行直接读取,对于基于立方体的结构操作进行高效的立方体检索和聚集,对于其他算法进行并行化高效执行,并完成与用户的前端可视化交互。
59.在高效实现方法设计方面,本发明针对路径-维度立方体的构建,拟采取的方案是:基于spark的分布式路径-维度立方体构建算法,利用spark基础结构之一的弹性分布式数据集(rdd)和sparksql的datafreams来分别构建路径立方体和维度立方体,降低物化的计算量与存储空间的占用。同时还可以实现关系路径上卷/下钻操作与关联维度上卷/下钻操作。
60.同时针对garph olam操作可能导致的中间结果的存储压力过大的问题,采取的研究方案是:结合数据立方体,研究基于hbase的图数据划分和存储系统。在系统存储部分,系统将数据划分为两种类型,一种是静态存储的网络数据存储在hbase中便于查询。另一种数据为系统在运行时产生的临时网络片段,在运行graph olam时,一个操作产生的网络片段可能会被后续多个操作使用作为输入,为了提高i/o性能,拟采用alluxio平台,这些热数据将直接存储在alluxio上,避免频繁读取数据产生的硬盘i/o消耗。
61.需要说明的是,前述对框架实施例的解释说明也适用于该实施例的搭建方法,此处不再赘述。
62.根据本发明实施例提出的图联机分析挖掘技术框架的搭建方法,通过设计新的多维网络信息模型,可以有效的表示组织后的多维属性网络并将该网络进行存储。针对新的多维网络信息模型,设计适合的中间立方体模型,利用全新的立方体模型能高效的对多维网络进行预先挖掘,从而优化针对大规模网络的处理时间。将graph olap操作和挖掘技术进行统一,搭建出对完整的分类和管理体系,针对不同的分类操作调用不同的立方体模型,从而执行不同的优化策略,从而支持对图形数据进行更复杂的分析,并便于操作的统一管理。
63.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
64.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
65.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献