一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向教育领域数据集成及标准管理系统的制作方法

2022-06-22 17:32:35 来源:中国专利 TAG:

1.本发明涉及数据处理技术领域,具体涉及一种面向教育领域数据集成及标准管理系统。


背景技术:

2.数据已经成为一种生产要素,其重要性正在日益凸显,科学合理的数据治理体系,是数据安全和数据价值的规范性保障,教育领域对数据的治理关注较少,目前大都处于起始阶段,学校现有的业务系统建设使用情况较为复杂,大部分业务系统内的数据完整度、准确度较差,数据治理面临诸多挑战,且无数据标准、或者业务系统自定义数据标准,维护不便。


技术实现要素:

3.本发明提出一种面向教育领域数据集成及标准管理系统用于解决上述问题。
4.为实现上述目的,本发明采用以下技术方案:
5.一种面向教育领域数据集成及标准管理系统,包括数据标准管理单元、数据源接入模块、数据集成单元及任务调度与执行单元,所述数据标准管理单元用于数据标准管理,所述数据源接入模块用于接入数据源的管理,以及对该数据源进行元数据采集,所述数据集成单元用于etl流程管理、etl任务管理及etl任务监控,所述任务调度与执行单元用于将任务的配置与调度执行分离。
6.优选地,所述数据标准管理单元包括文档上传模块、标准维护模块、标准生成模块及标准映射模块;所述文档上传模块用于上传数据的标准文档;所述标准维护模块用于查看或维护所述标准文档的内容;所述标准生成模块用于解析所述标准文档的内容,生成对应数据,并创建对应的数据库表,自动与其绑定数据标准,完成标准生成;所述标准映射模块用于手动建立数据标准与数据库表的关联。
7.优选地,所述标准生成的方法为:所述标准生成模块通过标准文档的解析器,自动解析标准文档内容包含的数据集和代码集,并递归解析的数据子集、数据类及数据子类结构,生成对应数据,存储到平台的数据库,通过数据子集可以查看生成的数据内容,基于生成的数据类和数据子类,再结合后处理阶段,同时支持直接创建对应的数据库表,自动与其绑定数据标准,完成标准生成。
8.优选地,所述元数据采集的方法为:接入选择好的数据源,配置该数据的属性信息,选择合适的采集适配器,然后配置采集任务的周期,从而对所述数据源进行元数据的采集。
9.优选地,所述数据集成单元包括etl流程管理模块、etl任务管理模块及etl任务监控模块;所述etl流程管理模块用于针对具体业务库表,创建etl流程,配置etl组件;所述etl任务管理模块用于etl任务的添加、修改、修改依赖、立即运行及启动;所述etl任务监控模块用于对etl任务进行监控,查看任务的执行状态和情况。
10.优选地,所述任务调度与执行的方法为:
11.s1、计算引擎启动后管理调度actor;
12.s2、调度actor启动并监管周期性触发器actor和一次性触发器actor,周期性触发器actor用于扫描并调度周期性任务,一次性触发器actor用于扫描并调度一次性触发任务;
13.s3、周期性触发器actor和一次性触发器actor会将即将需要执行的任务按照业务类型分配给etl任务actor(etljobactor),元数据采集任务actor(metadatajobactor),数据质量检测任务actor(dataqualityjobactor),这三个任务actor负责具体执行相应的任务。
14.s4、在执行具体的任务时,会检测该任务的依赖任务,如果需要触发依赖任务,先执行依赖任务,若某个任务被多个任务依赖,则保证只执行一次。
15.优选地,所述任务调度与执行单元采用基于actor模型的akkaactor并发框架进任务调度与执行。
16.采用上述技术方案后,本发明与背景技术相比,具有如下优点:
17.1、本发明一种面向教育领域数据集成及标准管理系统,将数据标准应用落地到学校现有的业务系统数据上,实现学校数据资产的标准化,为学校数据治理提供最广泛最通用的接入与共享协议;为学校的数据资产的高效流动,为面向上级管理部门上报基础数据和校内各业务系统共享主数据奠定坚实基础。
18.2、本发明一种面向教育领域数据集成及标准管理系统,提供多样化数据接入方式,提供丰富数据库对接组件的基础上,面向操作用户提供统一的操作体验,实施人员或者学校相关负责人可在无需编码的情况下,快速接入现有业务系统数据,避免个性化开发带来的经济成本以及时间成本。
19.3、本发明一种面向教育领域数据集成及标准管理系统,可视化配置etl流程,极大地降低etl环节的操作门槛,实施人员或者学校相关负责人可在按照使用手册的引导下,自助操作配置etl流程;基于丰富的etl组件以及etl任务管理,相关人员可快速完成常用的数据集成操作,相关人员可快速了解掌握可视化的etl流程的业务含义,方便日常维护。
20.4、本发明一种面向教育领域数据集成及标准管理系统,从技术架构层面关注并解决可扩展性与计算的高性能的要求,通过选用akkaactor框架作为任务模块的基础,实现不仅限于单机高性能处理任务,同时还可方便扩展集群节点的特性,尤其适用于学校分批次建设业务系统的场景下,会逐步提升对数据治理平台的数据吞吐要求这一现实需要。
具体实施方式
21.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
22.实施例
23.本发明公开了一种面向教育领域数据集成及标准管理系统,本系统在技术层面采用b/s架构的同时采用前后端分离架,系统包括数据标准管理单元、数据源接入模块、数据集成单元及任务调度与执行单元,所述数据标准管理单元用于数据标准管理,所述数据源
接入模块用于接入数据源的管理,以及对该数据源进行元数据采集,所述数据集成单元用于etl流程管理、etl任务管理及etl任务监控,所述任务调度与执行单元用于将任务的配置与调度执行分离。
24.数据标准管理单元包括文档上传模块、标准维护模块、标准生成模块及标准映射模块。
25.文档上传模块用于上传教育领域相关的国家标准、教育部的数据的标准文档(pdf格式)。标准维护模块用于查看或维护标准文档的内容。
26.标准生成模块通过标准文档的解析器,自动解析标准文档内容包含的数据集和代码集,并递归解析的数据子集、数据类及数据子类结构,生成对应数据,存储到平台的数据库,通过数据子集可以查看生成的数据内容,基于生成的数据类和数据子类,再结合后处理阶段,同时支持直接创建对应的数据库表,自动与其绑定数据标准,完成标准生成。标准映射模块用于手动建立数据标准与数据库表的关联。
27.元数据采集的方法为:接入数据源进行元数据采集,支持数据库、excel文件(或者csv文件)、api、kettle源形式的数据源接入,通过在平台上选择合适的数据源,配置该数据的属性信息,选择合适的采集适配器,然后配置采集任务的周期,从而对该数据源进行元数据的采集。
28.系统封装实现了mysql采集适配器、jdbc采集适配器、oracle采集适配器、sql server采集适配器、postgrsql采集适配器、csv采集适配器、excel采集适配器、excel补录适配器、etl采集适配器等等适配器可供使用,丰富的适配器组件支持各种场景的数据采集,通过接口抽象与实现分离,同时数据源接入模块支持扩展实现自定义适配器。
29.数据集成单元包括etl流程管理模块、etl任务管理模块及etl任务监控模块;etl流程管理模块用于针对具体业务库表,创建etl流程,配置etl组件;etl任务管理模块用于etl任务的添加、修改、修改依赖、立即运行及启动;etl任务监控模块用于对etl任务进行监控,查看任务的执行状态和情况。
30.etl流程管理模块:通过在平台界面的设置数据集成模块的操作界面,管理etl流程,针对具体的业务库表,可创建etl流程,进入图形化流程配置界面。通过etl流程管理模块本平台实现了在web前端界面上,拖拽平台预定义的一系列etl组件,方便直观地构建etl流程,极大地降低了管理etl流程的使用门槛,同时etl流程管理模块前端定义常用etl组件的展现与操作响应,后端定义etl组件的数据属性,在前端界面配置完成etl流程之后,系统后端将存储该etl流程的数据。
31.该etl流程的数据包括流程名称、流程详情、流程分类编码、流程状态、创建时间以及创建者。
32.该etl流程使用的每一个组件的数据包括:组件类型、组件名称、组件图标、组件种类及组件风格;其中,组件种类包括输入组件、输出组件、转换组件及脚本组件。组件类型包括开始组件、结束组件及中间组件。
33.该etl流程组件之间的关联数据包括from组件和to组件,即前端界面的箭头。
34.在前端需要展示该etl流程信息时,先查询该etl流程的开始组件,然后查询流程组件关联数据,找到开始组件的下游组件,然后继续查找组件的下游组件,一直到结束组件,组装完成,前端即可展示流程本身。其中,转换组件中的标准值域转换组件,若目标表关
联了数据标准,该表的字段存在值域的标准定义,则可以在该转换组件中,选择合适的转换值进行数据的标准化。
35.etl任务管理模块:etl任务管理,主要包含etl任务的添加、修改、修改依赖、立即运行及启动。
36.etl任务添加,可以关联上一步创建的etl流程,同时可以配置该任务的名称、调度周期、任务分组、任务描述、失败是否重试等属性,修改功能可以修改这些属性。修改依赖,可以配置etl任务之间的依赖关系,例如任务a的输入需要依赖任务b执行完成才能得到,则可以配置任务a依赖任务b,平台在执行任务a的时候,会自动检测任务b是否执行,如果未执行,将自动出发任务b的执行。
37.etl任务监控模块:对etl任务进行监控,查看任务的执行状态和情况。
38.任务调度与执行引擎模块用于将任务的配置与调度执行分离。任务调度与执行引擎模块支持分布式、集群化部署的任务调度与执行引擎,实现为不同的web服务,任务调度与执行引擎模块采用基于actor模型的akkaactor并发框架,该框架适用于构建具备伸缩性强,有弹性的响应式并发应用,本平台能够在不修改整体架构的前提下,快速进行水平扩展/收缩,提高并发处理大量调度任务的能力,同时借助于actor的supervision and monitoring特性,构建于其上的调度任务具备很好的任务失败重试能力,偶发性的任务失败,无需运维人员介入。
39.本系统需要调度任务按照业务类型分为元数据采集任务(metadatajob)、etl任务(etljob)及数据质量检测任务(dataqualityjob),所有任务均在该调度与执行引擎中执行。
40.任务调度与执行的方法为:
41.s1、计算引擎(computeengine)启动后管理调度actor(scheduleactor);
42.s2、调度actor(scheduleactor)启动并监管周期性触发器actor(peroidtickactor)和一次性触发器actor(oneshotactor),周期性触发器actor(peroidtickactor)用于扫描并调度周期性任务,一次性触发器actor(oneshotactor)用于扫描并调度一次性触发任务;
43.s3、周期性触发器actor(peroidtickactor)和一次性触发器actor(oneshotactor)会将即将需要执行的任务按照业务类型分配给etl任务actor(etljobactor),元数据采集任务actor(metadatajobactor),数据质量检测任务actor(dataqualityjobactor),这三个任务actor负责具体执行相应的任务。
44.s4、在执行具体的任务时,会检测该任务的依赖任务,如果需要触发依赖任务,先执行依赖任务,若某个任务被多个任务依赖,则保证只执行一次。
45.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献