一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种通用全量数据的处理方法与流程

2022-06-11 10:32:22 来源:中国专利 TAG:


1.本发明涉及网约车领域,尤其涉及一种通用全量数据的处理方法。


背景技术:

2.大数据时代,用数据说话,不论是互联网或传统企业,都积累大量的数据,且数据主题、种类繁多。数据分析需求越来越重要,但是数据来源种类繁多,数据内容又分门别类,想要处理这些数据,获取有价值的结果,需要投入很多的人力和时间成本。
3.数据量太大时,无法处理全量数据,可能导致数据的准确性降低,影响运营和抉择;处理全量数据的硬件资源和时间成本越积越多,直接影响了数据产出时效性;没有通用性的方法处理各种不同的数据类型。


技术实现要素:

4.鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种通用全量数据的处理方法。
5.根据本发明的一个方面,提供了一种通用全量数据的处理方法包括:
6.获取用户结果数据,包括冷数据和热数据;
7.根据所述用户结果数据创建分区表;
8.首次处理初始化所述冷数据,计算所述冷数据用户的末次完成订单,获得冷数据结果,并将所述冷数据结果保存至所述分区表中,获得冷数据分区表;
9.处理所述热数据,计算所述热数据用户的末次完成订单,获得热数据结果,并保存至所述分区表中,获得热数据分区表;
10.将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据;
11.遍历所有的用户,获得最新的全量用户末次订单数据。
12.可选的,所述冷数据为封存不变的数据,所述热数据为动态变化的数据。
13.可选的,所述将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据具体包括:
14.使用fulljoin全连接冷数据分区表和热数据分区表,条件是用户,优先取b表的末次订单号,取不到时再取冷数据分区表的末次订单号,结果数据保存在所述分区表中,获得合并数据表。
15.本发明提供的一种通用全量数据的处理方法包括:获取用户结果数据,包括冷数据和热数据;根据所述用户结果数据创建分区表;首次处理初始化所述冷数据,计算所述冷数据用户的末次完成订单,获得冷数据结果,并将所述冷数据结果保存至所述分区表中,获得冷数据分区表;处理所述热数据,计算所述热数据用户的末次完成订单,获得热数据结果,并保存至所述分区表中,获得热数据分区表;将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据;遍历所有的用户,获得最新的全量用户末次订单数据。保障数据完整性的同时,有效降低数据处理的资源和时间开销。
20220301a1b00610高德 34.用户结果数据
35.用户末次订单号(统计日期最近的订单号)a1b006b1b005c1b003
36.处理过程如下:
37.步骤1:创建分区表last_order_user_day;
38.步骤2:首次处理初始化冷数据,只处理一次:计算冷数据用户的末次完成订单,结果数据保存在分区表last_order_user_day的分区dt=20220101中,标注为a表;
39.用户表
40.创建日期用户订单号订单状态编号订单来源扩展列20150101a1p00110app 20150101b1b00250高德 20160101c1b00315百度 20220101a1b00440高德 41.a表
42.用户末次订单号(统计日期最近的订单号)a1b004b1b002c1b003
43.步骤3:处理热数据,每天处理:计算热数据用户的末次完成订单,结果数据保存在last_order_user_day的分区dt=20220301中,标注为b表。
44.用户表
45.创建日期用户订单号订单状态编号订单来源扩展列20220301b1b00510百度 20220301a1b00610高德 46.b表
47.用户末次订单号(统计日期最近的订单号)a1b006b1b005
48.步骤4:合并冷热数据(每天处理):使用fulljoin全连接ab表,条件是用户,优先取b表的末次订单号,取不到时再取a表的末次订单号,结果数据保存在last_order_user_day的分区dt=20220301中(标注为c表);
49.c表
50.用户末次订单号(统计日期最近的订单号)a1b006b1b005
c1b003
51.步骤5:以后每天按照步骤3处理。
52.步骤6:以后每天按照步骤4处理后,需要把a表改为c表,即cb表按照步骤4处理得到最新的全量用户末次订单数据。
53.实施例2
54.用户和订单来源组合结果数据
55.用户订单来源末次订单号(统计日期最近的订单号)a1appp001a1高德b006b1高德b002b1百度b005c1百度b003
56.处理过程如下:
57.假设当前日期是20220301
58.步骤1:创建分区表last_order_usersource_day
59.步骤2:首次处理初始化冷数据,只处理一次:计算冷数据用户的末次完成订单,结果数据保存在last_order_usersource_day的分区dt=20220101中,标注为a表。
60.创建日期用户订单号订单状态编号订单来源扩展列20150101a1p00110app 20150101b1b00250高德 20160101c1b00315百度 20220101a1b00440高德 61.得到结果a表
62.用户订单来源末次订单号(统计日期最近的订单号)a1appp001a1高德b004b1高德b002c1百度b003
63.步骤3:处理热数据,每天处理:计算热数据用户的末次完成订单,结果数据保存在last_order_usersource_day的分区dt=20220301中,标注为b表。
64.创建日期用户订单号订单状态编号订单来源扩展列20220301b1b00510百度 20220301a1b00610高德 65.得到结果b表
66.用户订单来源末次订单号(统计日期最近的订单号)a1高德b006b1百度b005
67.步骤4:合并冷热数据,每天处理:使用fulljoin全连接ab表,条件是用户,优先取b
表的末次订单号,取不到时再取a表的末次订单号,结果数据保存在last_order_user_day的分区dt=20220301中,标注为c表。
68.得到结果c表
69.用户订单来源末次订单号(统计日期最近的订单号)a1appp001a1高德b006b1高德b002b1百度b005c1百度b003
70.步骤5:以后每天按照步骤3处理。
71.步骤6:以后每天按照步骤4处理后,需要把a表改为c表,即cb表按照步骤4处理,得到最新的全量用户末次订单数据。
72.有益效果:
73.1、保障数据结果完整性;
74.2、有效降低数据处理的资源和时间开销;
75.3、数据处理方法通用性,适用于各种类似需求。
76.以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献