一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法及装置与流程

2023-01-15 18:51:50 来源:中国专利 TAG:

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:接收待处理文件,所述待处理文件包括多行信息;对所述待处理文件进行压缩处理,得到压缩文件;读取所述压缩文件中的多行信息,得到多行数据;利用自定义hadoop inputformat对所述多行数据进行合并,得到单行完整数据;利用hive表的清洗逻辑对所述单行完整数据进行数据清洗,得到与所述单行完整数据对应的hive表记录。2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文件进行压缩处理,得到压缩文件,包括:采用不可分割格式对所述待处理文件进行压缩处理,得到压缩文件。3.根据权利要求1所述的方法,其特征在于,所述读取所述压缩文件中的多行信息,得到多行数据,包括:利用maptask按行读取所述压缩文件中的多行信息,得到多行数据。4.根据权利要求1至3任一项所述的方法,其特征在于,若所述多行数据包括两行数据,所述利用自定义hadoop inputformat对所述多行数据进行合并,得到单行完整数据,包括:读取所述多行数据中的首行数据;判断所述首行数据是否完整;若所述首行数据不完整,则输出一行空的数据,并读取所述多行数据中的第二行数据;将所述第二行数据与所述首行数据进行合并,判断合并后的数据是否完整;若所述合并后的数据完整,则将合并后的数据作为单行完整数据。5.根据权利要求4所述的方法,其特征在于,所述自定义hadoop inputformat通过以下方式得到:获取原始hadoop inputformat;自定义一个实现类继承所述原始hadoop inputformat中的fileinputformat,所述实现类的数据处理逻辑包括将多行数据合并为一行完整数据;自定义所述原始hadoop inputformat中的recordreader,得到所述自定义hadoop inputformat。6.一种数据处理装置,其特征在于,所述装置包括:接收模块,用于接收待处理文件,所述待处理文件包括多行信息;压缩模块,用于对所述待处理文件进行压缩处理,得到压缩文件;读取模块,用于读取所述压缩文件中的多行信息,得到多行数据;合并模块,用于利用自定义hadoop inputformat对所述多行数据进行合并,得到单行完整数据;清洗模块,用于利用hive表的清洗逻辑对所述单行完整数据进行数据清洗,得到与所述单行完整数据对应的hive表记录。7.根据权利要求6所述的装置,其特征在于,所述压缩模块,具体用于:采用不可分割格式对所述待处理文件进行压缩处理,得到压缩文件。8.根据权利要求6所述的装置,其特征在于,所述读取模块,具体用于:利用maptask按行读取所述压缩文件中的多行信息,得到多行数据。
9.根据权利要求6至8任一项所述的装置,其特征在于,若所述多行数据包括两行数据,所述合并模块,具体用于:读取所述多行数据中的首行数据;判断所述首行数据是否完整;若所述首行数据不完整,则输出一行空的数据,并读取所述多行数据中的第二行数据;将所述第二行数据与所述首行数据进行合并,判断合并后的数据是否完整;若所述合并后的数据完整,则将合并后的数据作为单行完整数据。10.根据权利要求9所述的装置,其特征在于,所述装置还包括自定义模块,所述自定义模块,用于:获取原始hadoop inputformat;自定义一个实现类替换所述原始hadoop inputformat中的fileinputformat,所述实现类的数据处理逻辑包括将多行数据合并为一行完整数据;自定义所述原始hadoop inputformat中的recordreader,得到所述自定义hadoop inputformat。

技术总结
本申请实施例提供了一种数据处理方法及装置,该方法包括:接收待处理文件,待处理文件包括多行信息;对待处理文件进行压缩处理,得到压缩文件;读取压缩文件中的多行信息,得到多行数据;利用自定义HadoopInputFormat对多行数据进行合并,得到单行完整数据;利用hive表的清洗逻辑对单行完整数据进行数据清洗,得到与单行完整数据对应的hive表记录。本申请实施例基于自定义HadoopInputFormat清洗异构数据,使多行数据转化为单行完整数据,再将单行完整数据使用hive表的清洗逻辑清洗为hive表的一行记录,解决了异构数据清洗的痛点,不需要对异构数据进行额外的合并处理,减少对数据的处理步骤,节约数据处理的时长。节约数据处理的时长。节约数据处理的时长。


技术研发人员:刘立力 姚智健
受保护的技术使用者:湖南快乐阳光互动娱乐传媒有限公司
技术研发日:2022.10.26
技术公布日:2022/12/30
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献