运行时可插拔的异构大数据资源封装集成系统及方法与流程

2021-10-24 12:39:00 来源：中国专利 TAG：大数封装据分析插拔运行

1.本发明涉及大数据分析技术领域，具体涉及运行时可插拔的异构大数据资源封装集成系统及方法。

背景技术：

2.随着大数据技术的发展和升级，推动着与不同领域产生融合创新，在提升各领域生产效率，优化资源配置的同时，也产生了不同领域多样化的数据分析需求。面向多领域复杂多变的数据分析处理环境，传统的资源利用和组件运行技术等已经不能满足其要求，亟待从以下两方面进行提升改进：1、需要构建通用的异构资源模型，伸展大数据运行场景。传统的生产流程强调运行时的完整性和准确性，从运行过程流转、处理结果传递、运行环境和执行参数等角度构建和保证生产流程的进行；而大数据分析流程是聚焦于数据采集、治理、分析、可视化及应用的过程，由于数据来源和分析处理形式复杂多样，缺少对输入的数据源、提供计算能力的引擎、参与计算和处理的算子等不同类型的资源进行基于数据维度和关联关系的抽象与规范，会导致不能满足运行时的各类接口标准和性能要求等，使数据分析过程不能正常运转或流程编排过于繁琐，无法推进大数据的生产化应用。
3.2、需要改进资源封装方式，提升大数据运行效率。传统的资源封装方式出发点是统一的运行环境中资源的关联应用、数据传递等，资源间的耦合性较强。这样导致在面对大数据分析多领域多样化又庞大的流转场景时，提供数据访问、计算、处理等能力的资源不能灵活地融合运转，难以集中于具体的业务逻辑，数据分析效率变低；如果数据分析场景发生变更，生产流程的各个资源都要修改和重组，产生了过多额外的重复工作。
4.面临上述问题，为了处理多领域复杂多变的大数据分析需求，需要构建通用性的异构资源模型，引入相应更高效的资源封装方式，将生产流程编排的过程降耦，提升各类数据的生产保障能力。

技术实现要素：

5.有鉴于此，本发明提供了运行时可插拔的异构大数据资源封装集成系统及方法，构建了一种通用型的异构大数据资源模型，并引入相应更高效的大数据资源封装方式，以开放式组合的形式完成大数据分析过程中异构资源的融合流转，建立松耦合、通用化的大数据资源集成平台。
6.为达到上述目的，本发明的技术方案为：运行时可插拔的异构大数据资源封装集成系统，封装集成系统包括大数据资源可插拔模型以及大数据分析子系统。
7.大数据资源可插拔模型包括静态信息、交互信息、监控信息和调度信息。
8.大数据分析子系统包括异构大数据资源注册模块、大数据流程编排模块、任务调度模块以及运行时插拔重组模块。
9.异构大数据资源注册模块基于异构大数据资源模型提供资源注册的统一接口。
10.大数据流程编排模块，用于针对已注册完成的大数据资源进行大数据算子的拖拽式布局和连线式流程编排，生成大数据业务流程；大数据流程编排模块还支持执行过程中流程处理进度的展示和中间结果的输出。
11.任务调度模块基于大数据业务流程构建生产任务，按调度配置属性进行任务调度，支持对调度任务的管理、可视化监控以及控制执行操作。
12.运行时插拔重组模块，用于在数据分析场景发生变化时，基于当前的运行环境进行大数据资源的插拔调整。
13.进一步地，异构大数据资源包括数据源、计算引擎、算子以及生产任务。
14.进一步地，静态信息描述大数据资源的基础属性和静态数据。
15.交互信息用于描述资源在进行业务分析时的接口配置标准、连接情况和流转数据。
16.监控信息包括业务分析中的各类资源的状态信息、进行数据分析处理的日志信息。
17.调度信息包括各类大数据资源参与调度的级别、调度的算法信息。
18.进一步地，异构大数据资源注册模块中，包括数据源的注册应用、计算引擎的注册应用，算子的注册应用以及生产任务的注册应用。
19.计算引擎的注册应用包括基础处理引擎的注册应用、spark处理引擎的注册应用、tensorflow深度学习框架的注册和应用。
20.数据源的注册应用包括各类数据库的注册应用。
21.算子的注册应用支持数据处理算法、特征工程算法、机器学习算法的组件化封装和自定义算子的拓展。
22.生产任务注册应用提供基于流程的生产任务的注册。
23.进一步地，运行时插拔重复模块中，基于当前的运行环境进行大数据资源的插拔调整，具体包括：针对新插入的大数据资源，经过抽取大数据资源当前的状态信息以及数据信息进行当前状态的记录，针对生产任务进行存储资源和计算资源的重分配，对生产任务执行过程中产生的中间数据进行保存流转。
24.本发明还提供了运行时可插拔的异构大数据资源封装集成方法，利用上述封装集成系统，其工作流程如下：步骤一、在大数据资源可插拔模型插入所述封装集成系统后，所述异构大数据资源注册模块针对大数据资源可插拔模型进行资源注册。
25.步骤二、资源注册完成后，若大数据资源可插拔模型为数据源、计算引擎或者算子，利用大数据流程编排模块进行计算引擎、数据源、算子的拖拽式布局和连线式流程编排，构建得到生产任务；所述大数据流程编排模块还支持执行过程中流程处理进度的展示和中间结果的输出。
26.若大数据资源可插拔模型为生产任务，则直接执行步骤三。
27.步骤三、针对步骤二中的生产任务，利用任务调度模块按调度配置属性进行任务调度，支持对生产任务的管理、可视化监控以及控制执行。
28.步骤四、数据分析场景发生变化，基于当前的运行环境进行大数据资源的插拔调
整。
29.有益效果：1、本发明提供了一种支持运行时可插拔的异构大数据资源封装集成方法。异构大数据资源包括提供数据输入的数据源、提供计算能力的引擎、参与计算和处理的算子、提供多维度展示的应用等。本方法结合大数据分析的特点, 基于数据维度和关联关系的抽象与规范，抽象出包含静态信息、交互信息、监控信息等通用的异构资源模型，基于结构化模型构建了包含注册机制、调度机制、插拔重组机制的资源封装机制，以开放式组合的形式完成大数据分析过程中异构资源的融合流转，建立松耦合、通用化的大数据资源集成平台，以运行时可插拔的形式提升了大数据平台的存储能力、计算能力和算法能力。
30.2、为了完成大数据分析过程中异构大数据资源的融合流转，从资源类型、关联关系、能力范围和配置方式等，抽象出异构大数据资源模型。模型包含静态信息、交互信息、监控信息、调度信息等。在本发明中，输入数据源、计算引擎、基础和自定义算子、生产任务等资源全部遵循统一的模型进行构建，保证了资源在数据维度、调度关系、生产应用等层面的融合，最终支撑了拖拽式布局、连线式流程编排、流程处理进度监控和展示、中间结果的输出、生产任务监控和调度等大数据分析的功能。
31.3、本发明基于异构大数据资源模型构建了运行时可插拔的资源封装集成机制（以下称可插拔封装机制）。可插拔封装机制包括注册机制、调度机制、插拔重组机制。注册机制提供计算引擎、数据源、算子、任务等不同级别资源的注册，基于统一化的模型进行注册管理；调度机制引入容器隔离、yarn隔离等计算引擎的隔离机制和相应的数据卷volume和shardcachemanager资源共享机制，在运行时进行插拔操作后，系统可以按照当前配置的调度算法重新分配任务执行顺序；插拔重组机制负责在大数据分析运行时资源的添加减少后进程的流转，包括插拔操作前后状态的记录、数据源插拔后的存储资源的重分配，计算引擎插拔后计算资源的调整，算子插拔后中间数据的保存和连接等。
附图说明
32.图1为本发明的大数据资源可插拔模型；图2为本发明的基于运行时可插拔异构资源封装集成方法的大数据分析流程示意图。
具体实施方式
33.下面结合附图并举实施例，对本发明进行详细描述。
34.本发明提供了一种支持运行时可插拔的异构大数据资源封装集成系统及方法，其方案如下：构建了异构大数据资源模型：本发明将数据源、计算引擎、基础和自定义算子、生产任务等异构资源进行数据维度和关联关系的抽象与规范，构建了包括静态信息、交互信息、监控信息、调度信息的统一化模型，保证了资源在数据维度、调度关系、生产应用等层面的融合，为可插拔封装集成机制提供了结构基础。
35.图1是大数据资源可插拔模型结构。异构资源从功能和级别上分为数据源、计算引擎、基础和自定义算子、生产任务等。异构资源从关联关系、能力范围和配置方式等方面，抽
象出包括静态信息、交互信息、监控信息、调度信息的模型结构。静态信息描述了资源的基础属性和静态数据；交互信息描述了资源在进行业务分析时的接口配置标准、连接情况和流转数据等；监控信息包括业务分析中的资源的状态信息、进行数据分析处理的日志信息等；调度信息包括资源参与调度的级别、调度的算法信息等。结构化的模型设计以抽象化的形式对分析流程中的异构资源进行了规范，保证了数据信息、调度信息、分析结果、状态信息等的流转，从元素化的级别奠定了松耦合、可插拔的大数据资源封装集成方案的基础。
36.可插拔封装机制：本发明建立了运行时可插拔的资源封装集成机制，基于统一化异构模型建立了注册机制、调度机制、插拔重组机制。通过建立的通用模型管理、资源共享和任务重调度、存储和计算资源重分配、中间数据的保存传输等封装集成规则，完成了异构资源在可插拔操作下的融合流转，扩展了大数据分析处理平台的存储能力、计算能力和算法能力，形成松耦合、多场景的大数据资源集成设计方案。
37.所述大数据分析子系统包括异构大数据资源注册模块、大数据流程编排模块、任务调度模块以及运行时插拔重组模块。
38.异构大数据资源注册模块，基于异构资源模型提供资源注册的统一接口，进行输出输出、调度关系、数据格式等的统一化封装。其中，计算引擎注册进行包括基础处理引擎、spark处理引擎、tensorflow深度学习框架等主流计算引擎的注册和应用；数据源注册支持mysql、es、hdfs、hbase、mongodb、达梦、金仓等各类数据库的注册应用；算子注册支持数据处理、特征工程、机器学习等典型算法的组件化封装和自定义算子的拓展；任务注册提供基于流程的生产任务的注册。
39.大数据流程编排模块，异构资源注册完成后，进行计算引擎、数据源、算子的拖拽式布局和连线式流程编排，支持执行过程中流程处理进度的展示和中间结果的输出。
40.任务调度模块，基于大数据业务流程构建生产任务，按调度配置属性进行任务调度，支持对调度任务的管理、可视化监控、控制执行等操作。
41.运行时插拔重组模块，数据分析场景发生变化，基于当前的运行环境进行大数据资源的插拔调整。经过抽取资源当前的状态信息、数据信息等进行当前状态的记录，对处于容器隔离、yarn隔离下的任务进行存储和计算资源的重分配，保存和导出中间计算结果等步骤保证业务流程的正常运转。
42.通过对异构资源的数据维度和关联关系的抽象与规范形成了结构化模型，并以模型内一致化的数据流转和调度规则建立了包含注册机制、调度机制、插拔重组机制的资源封装集成机制，形成运行时可插拔的大数据分析流程。扩展了大数据分析平台的存储能力、计算能力和算法能力，支撑各业务场景下的大数据分析处理需求。自此，就完成了支持运行时可插拔的异构大数据资源封装集成方法。
43.图2是基于运行时可插拔异构资源封装集成方法的大数据分析流程。
44.步骤一、在大数据资源可插拔模型插入所述封装集成系统后，所述异构大数据资源注册模块针对大数据资源可插拔模型进行资源注册；步骤二、资源注册完成后，若大数据资源可插拔模型为数据源、计算引擎或者算子，利用大数据流程编排模块进行计算引擎、数据源、算子的拖拽式布局和连线式流程编排，构建得到生产任务；所述大数据流程编排模块还支持执行过程中流程处理进度的展示
和中间结果的输出；若大数据资源可插拔模型为生产任务，则直接执行步骤三；步骤三、针对步骤二中的生产任务，利用任务调度模块按调度配置属性进行任务调度，支持对生产任务的管理、可视化监控以及控制执行；步骤四、数据分析场景发生变化，基于当前的运行环境进行大数据资源的插拔调整。
45.综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：MySQL数据库系统的故障转移方法、高可用系统及电子设备与流程

运行时可插拔的异构大数据资源封装集成系统及方法与流程

相关文献

最热文献