一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据抽取和清洗方法、装置及存储介质与流程

2022-07-30 14:06:47 来源:中国专利 TAG:

技术特征:
1.一种数据抽取和清洗方法,其特征在于,包括:响应于用户的操作,从组件库中选择etl操作组件,所述etl操作组件的类型至少包括两种:源数据节和数据输出目标表,所述源数据节为各种不同类型源数据抽取配置的集合,所述源数据节的类型包括四种:库表共享源数据节、excel文件源数据节、数据接口源数据节以及网页爬取源数据节;从所述组件库中选择数据清洗模型;按照一定的顺序线性连接所述etl操作组件和所述数据清洗模型,生成一个数据抽取和清洗的任务。2.根据权利要求1所述的方法,其特征在于,还包括:调度所述任务;所述调度所述任务包括两种类型:第一种为根据时间轴配置,第二种为根据任务间的依赖配置;所述根据时间轴配置具体为:选择时间轴上的任意时刻,在所述选择的时刻自动执行所述任务;所述根据任务间的依赖配置包括两种类型,第一种为“队列”,第二种为“锁”;在依赖配置为“队列”类型时,按照任务配置的队列顺序去执行任务,如果前一个任务未执行,则下一个任务即使在时间轴中配置了也不会执行;在依赖配置为“锁”类型时,同一个锁的任务不会同时开始执行,若一个任务正在执行,同一个锁的其他任务被调度到等待区进行等待,直到所述正在执行的任务执行完毕才开始执行。3.根据权利要求2所述的方法,其特征在于,还包括:智能调优所述任务;所述智能调优所述任务,包括:对于首次执行的任务进行预分配,将任务分配至当前较为空闲的资源执行,并在执行过程中持续监控任务所耗费的资源;对于非首次执行任务,判断当前的资源使用情况是否能容纳负载所述任务执行所需的资源,若资源充足,将所述任务按依赖配置准确执行,若资源紧缺,系统会将所述任务放置在等待区,当资源足以负载所述任务时才执行所述任务。4.根据权利要求1至3任意一项所述的方法,其特征在于,所述etl操作组件的种类还包括三种类型:sql脚本、执行存储过程、表输入;所述选择所述源数据节之前,还包括:配置源数据节和对所配置的源数据节进行抽数测试;所述配置源数据节包括:在所述源数据节为库表共享源数据节时,填写所述源数据节的配置表单,内容包括:外部数据库地址、连接端口、外部数据库类型、外部数据库连接凭证、以及从外部数据库获取目标数据的sql语句;在所述源数据节为excel文件源数据节时,填写所述源数据节的配置表单,内容包括:本地excel文件路径、选择目标数据所在sheet页名称,以及表头与字段名称映射配置;在所述源数据节为数据接口源数据节时,填写所述源数据节的配置表单,内容包括:请求配置、接口请求体参数、以及结果解析;所述请求配置的数据类型包括:接口url地址、接口请求类型、接口鉴权方式配置、接口请求头配置以及待调用数据集,所述结果解析的数据类型包括:接口返回结果类型、和接口返回结果解析规则;在所述源数据节为网页爬取源数据节时,填写所述源数据节的配置表单,内容包括:目标爬取页面url、请求头配置、前置请求配置以及解析规则;
所述对所配置的源数据节进行抽数测试包括:若未获取到预期数据,将所配置的源数据节设置为禁用状态,返回重新配置所述源数据节;若获取到预期数据,则将所述源数据节设置为启用状态。5.根据权利要求1所述的方法,其特征在于,所述选择数据清洗模型之前,还包括:配置所述数据清洗模型,所述配置所述数据清洗模型包括:配置并组合字段级处理逻辑规则,形成所述数据清洗模型。6.一种数据抽取和清洗装置,其特征在于,包括:etl操作组件选择模块,用于响应于用户的操作,从组件库中选择etl操作组件,所述etl操作组件的类型至少包括两种:源数据节和数据输出目标表,所述源数据节为各种不同类型源数据抽取配置的集合,所述源数据节的类型包括四种:库表共享源数据节、excel文件源数据节、数据接口源数据节以及网页爬取源数据节;数据清洗模型选择模块,用于从所述组件库中选择数据清洗模型;数据抽取和清洗任务生成模块,用于按照一定的顺序线性连接所述etl操作组件和所述数据清洗模型,生成一个数据抽取和清洗的任务。7.根据权利要求6所述的装置,其特征在于,还包括:数据抽取和清洗任务调度模块,所述数据抽取和清洗任务调度模块包括时间轴配置单元和依赖配置单元;所述时间轴配置单元,用于选择时间轴上的任意时刻,在所述选择的时刻自动执行所述任务;所述依赖配置单元包括队列依赖配置子单元和锁依赖配置子单元;所述队列依赖配置子单元用于按照任务配置的队列顺序去执行任务,如果前一个任务未执行,则下一个任务即使在时间轴中配置了也不会执行;所述锁依赖配置子单元用于同一个锁的任务不会同时开始执行,若一个任务正在执行,同一个锁的其他任务被调度到等待区进行等待,直到所述正在执行的任务执行完毕才开始执行。8.根据权利要求7所述的装置,其特征在于,还包括:数据抽取和清洗任务调优模块,所述数据抽取和清洗任务调优模块包括任务配置单元和任务监控单元;所述任务配置单元用于对于首次执行的任务进行预分配,将任务分配至当前较为空闲的资源执行,并在执行过程中持续监控任务所耗费的资源;所述任务监控单元用于对于非首次执行任务,判断当前的资源使用情况是否能容纳负载所述任务执行所需的资源,若资源充足,将所述任务按依赖配置准确执行,若资源紧缺,系统会将所述任务放置在等待区,当资源足以负载所述任务时才执行所述任务。9.根据权利要求6至8任意一项所述的装置,其特征在于,还包括源数据节配置模块、抽数测试模块以及数据清洗模型配置模块;所述源数据节配置模块包括:库表共享源数据节配置单元,用于在所述源数据节为库表共享源数据节时,填写所述源数据节的配置表单,内容包括:外部数据库地址、连接端口、外部数据库类型、外部数据库连接凭证、以及从外部数据库获取目标数据的sql语句;excel文件源数据节配置单元,用于在所述源数据节为excel文件源数据节时,填写所述源数据节的配置表单,内容包括:本地excel文件路径、选择目标数据所在sheet页名称,以及表头与字段名称映射配置;
数据接口源数据节配置单元,用于在所述源数据节为数据接口源数据节时,填写所述源数据节的配置表单,内容包括:请求配置、接口请求体参数、以及结果解析;所述请求配置的数据类型包括:接口url地址、接口请求类型、接口鉴权方式配置、接口请求头配置以及待调用数据集,所述结果解析的数据类型包括:接口返回结果类型、和接口返回结果解析规则;网页爬取源数据节配置单元,用于在所述源数据节为网页爬取源数据节时,填写所述源数据节的配置表单,内容包括:目标爬取页面url、请求头配置、前置请求配置以及解析规则;所述抽数测试模块用于若未获取到预期数据,将所配置的源数据节设置为禁用状态,返回重新配置所述源数据节;若获取到预期数据,则将所述源数据节设置为启用状态;所述数据清洗模型配置模块,用于配置并组合字段级处理逻辑规则,形成所述数据清洗模型。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的方法。

技术总结
本发明公开了一种数据抽取和清洗方法、装置及存储介质,该方法包括:响应于用户的操作,从组件库中选择ETL操作组件,该ETL操作组件的类型至少包括两种:源数据节和数据输出目标表,该源数据节为各种不同类型源数据抽取配置的集合,该源数据节的类型包括四种:库表共享源数据节、Excel文件源数据节、数据接口源数据节以及网页爬取源数据节;从该组件库中选择数据清洗模型;按照一定的顺序线性连接该ETL操作组件和该数据清洗模型,生成一个数据抽取和清洗的任务。本发明提供一种多源数据抽取和清洗、智能调度的数据中台,能够可视化、高效、准确地实现数据抽取和清洗。确地实现数据抽取和清洗。确地实现数据抽取和清洗。


技术研发人员:夏添 刘新宇 王霏 乔胜 胡玉炜
受保护的技术使用者:深圳市信联征信有限公司
技术研发日:2022.06.24
技术公布日:2022/7/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献