一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法、装置、设备及存储介质与流程

2022-03-16 02:57:38 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。


背景技术:

2.在大数据时代,由于数据的不断的迭代更新,用户通常会根据不同的需求对以表形式存储在系统中的数据进行数据查询,通过对海量数据的查询,便于用户做出更明智的业务决策。
3.目前数据查询包括离线数据查询和实时数据查询。离线数据查询一般基于hadoop的数据仓库体系(hadoop是一个由apache基金会所开发的分布式系统基础架构),通过不同的hive(hive是一种基于hadoop的数据仓库工具)的任务调度查询不同的业务数据。但是,hadoop数据仓库体系多用于对离线数据进行数据查询。当待查询数据的数量较多时,hadoop数据仓库体系的数据查询效率较低。而实时数据查询一般基于实时数据仓库的实时计算引擎flink进行数据查询。但是,现有的实时数据仓库的实时计算引擎flink开发成本较高,数据校验过程较困难。
4.由上可知,在数据查询量较大的场景下,或者实时数据查询、计算、分析等场景下,现有的数据查询方法无法满足上述场景的需求,从而降低了数据处理的效率。


技术实现要素:

5.本公开提供一种数据处理方法、装置、设备及存储介质,可以提高数据处理的效率。
6.本公开实施例的技术方案如下:
7.根据本公开实施例的第一方面,提供一种数据处理方法,该方法可以应用于电子设备。该数据处理方法可以包括:
8.获取待处理数据,待处理数据包括第一类数据或第二类数据,第二类数据的复杂度高于第一类数据的复杂度;
9.若待处理数据为第一类数据,则将第一类数据写入点击流数据仓库;
10.若待处理数据为第二类数据,则对第二类数据执行至少一次处理操作,并将每次处理操作获得的明细数据和结果数据,写入点击流数据仓库。
11.可选的,数据处理方法还包括:
12.接收用于获取目标数据的数据查询指令;目标数据包括第一类数据或第二类数据;
13.响应于数据查询指令,从点击流数据仓库中获取目标数据;
14.输出目标数据。
15.可选的,当目标数据为第二类数据时,响应于数据查询指令,从点击流数据仓库中获取目标数据,包括:响应于数据查询指令,从点击流数据仓库中获取目标数据的明细数据
和结果数据。
16.可选的,数据处理方法还包括:
17.接收用于对目标数据执行数据校验的数据校验指令;
18.响应于数据校验指令,根据目标数据的明细数据和结果数据,对目标数据执行数据校验操作;数据校验操作用于校验目标数据的完整性。
19.可选的,当目标数据包括大于预设数量的多个第一类数据时,响应于数据查询指令,从点击流数据仓库中获取目标数据,包括:
20.响应于数据查询指令,从点击流数据仓库中获取多个第一类数据;
21.调用预先生成好的配置文件,将多个第一类数据转换为目标数据集,并将目标数据集确定为目标数据;配置文件用于将多个数据转换为数据集。
22.可选的,数据处理方法还包括:
23.获取待处理数据的数据类型标识;
24.根据数据类型标识确定待处理数据的数据类型;
25.根据数据类型确定待处理数据的复杂度。
26.根据本公开实施例的第二方面,提供一种数据处理装置,可以应用于电子设备。该数据处理装置可以包括:获取单元和处理单元;
27.获取单元,用于获取待处理数据,待处理数据包括第一类数据或第二类数据,第二类数据的复杂度高于第一类数据的复杂度;
28.处理单元,用于若待处理数据为第一类数据,则将第一类数据写入点击流数据仓库;
29.处理单元,还用于若待处理数据为第二类数据,则对第二类数据执行至少一次处理操作,并将每次处理操作获得的明细数据和结果数据,写入点击流数据仓库。
30.可选的,数据处理装置还包括:接收单元和输出单元;
31.接收单元,用于接收用于获取目标数据的数据查询指令;目标数据包括第一类数据或第二类数据;
32.获取单元,还用于响应于数据查询指令,从点击流数据仓库中获取目标数据;
33.输出单元,用于输出目标数据。
34.可选的,当目标数据为第二类数据时,获取单元,具体用于:
35.响应于数据查询指令,从点击流数据仓库中获取目标数据的明细数据和结果数据。
36.可选的,接收单元,还用于接收用于对目标数据执行数据校验的数据校验指令;
37.处理单元,还用于响应于数据校验指令,根据目标数据的明细数据和结果数据,对目标数据执行数据校验操作;数据校验操作用于校验目标数据的完整性。
38.可选的,当目标数据包括大于预设数量的多个第一类数据时,获取单元,具体用于:
39.响应于数据查询指令,从点击流数据仓库中获取多个第一类数据;
40.调用预先生成好的配置文件,将多个第一类数据转换为目标数据集,并将目标数据集确定为目标数据;配置文件用于将多个数据转换为数据集。
41.可选的,获取单元,还用于获取待处理数据的数据类型标识;
42.处理单元,还用于根据数据类型标识确定待处理数据的数据类型;
43.处理单元,还用于根据数据类型确定待处理数据的复杂度。
44.根据本公开实施例的第三方面,提供一种电子设备,可以包括:处理器和用于存储处理器可执行指令的存储器;其中,处理器被配置为执行所述指令,以实现上述第一方面中任一种可选地数据处理方法。
45.根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述第一方面中任一种可选地数据处理方法。
46.根据本公开实施例的第五方面,提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如第一方面中任一种可选地实现方式所述的数据处理方法。
47.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
48.本公开的实施例提供的技术方案至少带来以下有益效果:
49.基于上述任一方面,本公开中,电子设备在获取到待处理数据后,可以根据待处理数据的复杂度,执行不同的数据处理操作。若待处理数据为第一类数据,则将第一类数据写入点击流数据仓库clickhouse;若待处理数据为复杂度高于第一类数据的第二类数据,则对第二类数据执行至少一次处理操作,并将每次处理操作获得的明细数据和结果数据,写入点击流数据仓库。这样一来,本公开可以按照不同的复杂度对不同的数据分别进行处理。对于简单的第一类数据,直接写入clickhouse,处理流程简单,数据链路短,处理成本低,且便于后续从clickhouse中快速查询。对于第二类数据,每次计算都将明细数据和计算结果实时存入clickhouse,以便后续可以基于clickhouse中的明细数据和计算结果,分层、分别校验,且便于后续从clickhouse中快速查询,提高了数据处理的效率。
附图说明
50.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
51.图1示出了本公开实施例提供的一种数据处理方法的流程示意图;
52.图2示出了本公开实施例提供的一种数据处理系统的结构示意图;
53.图3示出了本公开实施例提供的一种数据处理方法的应用场景示意图;
54.图4示出了本公开实施例提供的又一种数据处理方法的应用场景示意图;
55.图5示出了本公开实施例提供的又一种数据处理方法的流程示意图;
56.图6示出了本公开实施例提供的又一种数据处理方法的应用场景示意图;
57.图7示出了本公开实施例提供的又一种数据处理方法的应用场景示意图;
58.图8示出了本公开实施例提供的又一种数据处理方法的应用场景示意图;
59.图9示出了本公开实施例提供的一种数据处理装置的结构示意图;
60.图10示出了本公开实施例提供的一种终端的结构示意图;
61.图11示出了本公开实施例提供的一种服务器的结构示意图。
具体实施方式
62.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
63.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
64.还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
65.本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。
66.如背景技术中所描述,目前数据查询包括离线数据查询和实时数据查询。离线数据查询一般基于hadoop的数据仓库体系(hadoop是一个由apache基金会所开发的分布式系统基础架构),通过不同的hive(hive是一种基于hadoop的数据仓库工具)的任务调度查询不同的业务数据。但是,hadoop数据仓库体系多用于对离线数据进行数据查询。当待查询数据的数量较多时,hadoop数据仓库体系的数据查询效率较低。而实时数据查询一般基于实时数据仓库的实时计算引擎flink进行数据查询。但是,现有的实时数据仓库的实时计算引擎flink开发成本较高,数据校验过程较困难。
67.由上可知,在数据查询量较大的场景下,或者实时数据查询、计算、分析等场景下,现有的数据查询方法无法满足上述场景的需求,从而降低了数据处理的效率。
68.基于此,本公开实施例提供一种数据处理方法,电子设备在获取到待处理数据后,可以根据待处理数据的复杂度,执行不同的数据处理操作。若待处理数据为第一类数据,则将第一类数据写入点击流数据仓库clickhouse;若待处理数据为复杂度高于第一类数据的第二类数据,则对第二类数据执行至少一次处理操作,并将每次处理操作获得的明细数据和结果数据,写入点击流数据仓库。这样一来,本公开可以按照不同的复杂度对不同的数据分别进行处理。对于简单的第一类数据,直接写入clickhouse,处理流程简单,数据链路短,处理成本低,且便于后续从clickhouse中快速查询。对于第二类数据,每次计算都将明细数据和计算结果实时存入clickhouse,以便后续可以基于clickhouse中的明细数据和计算结果,分层、分别校验,且便于后续从clickhouse中快速查询,提高了数据处理的效率。
69.以下对本公开实施例提供的数据处理方法进行示例性说明:
70.本公开提供的数据处理方法可以应用于电子设备。
71.一些实施例中,电子设备可以是服务器,也可以是终端,还可以是其他用于进行数据处理的电子设备,本公开对此不作限定。
72.其中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
73.终端可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本,以及蜂窝电话、个人数字
助理(personal digital assistant,pda)、增强现实(augmented reality,ar)\虚拟现实(virtual reality,vr)设备等可以安装并使用内容社区应用(如快手)的设备,本公开对该电子设备的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
74.下面结合附图对本技术实施例提供的数据处理方法进行详细介绍。
75.如图1所示,当数据处理方法应用于电子设备时,该数据处理方法可以包括:
76.s101、电子设备获取待处理数据。
77.其中,待处理数据包括第一类数据或第二类数据,第二类数据的复杂度高于第一类数据的复杂度。
78.具体的,电子设备可以从数据库中获取待处理数据。
79.一个实施例中,数据库可以作为源数据仓库,也可以不作为源数据仓库。
80.一个实施例中,如图2所示,电子设备归属于包括电子设备、存储设备和请求端的数据处理系统。
81.其中,电子设备分别与存储设备和请求端通信连接。
82.存储设备上部署有数据库,用于向请求端提供目标数据。当请求端目标数据的数据量较大时,请求端直接从存储设备上获取目标数据的效率较低。在这种情况下,电子设备上可以部署点击流数据仓库(英文全称:click stream,data warehouse,简称:clickhouse),并通过clickhouse向请求端发送目标数据。
83.可选的,电子设备可以实时从源数据仓库中获取待处理数据。
84.具体的,源数据仓库中的数据可能会实时的发生变化。例如,数据a属于垃圾数据,则需要删除数据a。数据b为新生成的数据,则需要存储数据b。数据c为新更新的数据,则需要更新数据c。在这种情况下,上述数据a、数据b和数据c为待处理数据。
85.一个实施例中,clickhouse具有实时同步源数据仓库中的数据的功能,在源数据仓库中的数据发生变化时,电子设备可以实时的获取待处理数据。
86.可选的,电子设备在获取待处理数据后,可以获取待处理数据的数据类型标识。然后根据数据类型标识确定待处理数据的数据类型,并根据数据类型确定待处理数据的复杂度。
87.具体的,不同数据类型的数据存储于不同的数据库中,或者存储于一个数据库的不同的分区中。电子设备可以通过待处理数据的获取位置的位置标识,确定待处理数据的数据类型标识,进而确定待处理数据的数据类型。
88.示例性的,数据库a中存储有视频类的待处理数据。数据库b中存储有文本类的待处理数据。当电子设备从数据库a中获取到待处理数据后,可以将数据库a的位置标识确定为待处理数据的数据类型标识。后续,电子设备根据预先建立好的数据类型标识与数据类型的对应关系,确定待处理数据为视频类的数据。
89.这样一来,电子设备可以根据待处理数据的数据类型,快速、准确的确定待处理数据的复杂度,以便于后续根据待处理数据的复杂度,确定将待处理数据写入点击流数据仓库的具体实现方式。
90.s102、若待处理数据为第一类数据,则电子设备将第一类数据写入点击流数据仓库。
91.具体的,第一类数据为源数据仓库中未经过数据处理的原始数据。第一类数据可以直接发送给请求端,以使得请求端使用第一类数据进行业务分析或者模型训练。这一类数据的数据类型比较简单,通常为一张或者简单的几张hive表。
92.电子设备在接收待处理数据,并确定待处理数据为第一类数据时,电子设备中的数据获取模块将获取到的待处理数据发送给点击流数据仓库的同步引擎。相应的,点击流数据仓库的同步引擎将待处理数据写入点击流数据仓库中。这样一来,点击流数据仓库中可以在源数据仓库中的数据发生变化时,实时同步发生变化的数据,保证了数据处理的实时性。
93.可选的,同步引擎可以是clickhouse的关系型数据库管理系统(mysql)数据库同步引擎(materializedmysql)功能。通过clickhouse的materializedmysql功能,电子设备可以实时同步mysql数据表(即源数据仓库)的数据到clickhouse。
94.示例性的,如图3所示,电子设备可以通过materializedmysql功能从存储设备上部署的mysql中获取第一类数据,并将第一类数据写入clickhouse中。后续,可以通过在电子设备上部署的具备联机分析(online analytical processing,olap)的功能模块,对clickhouse中的数据进行分析处理。
95.点击流数据仓库为列式数据库管理系统(列式数据库管理系统的数据查询速度更快),因此,相比现有技术中的hadoop的分布式系统,在接收到数据查询指令后,电子设备可以实时、快速的从点击流数据仓库中获取到目标数据,提高了数据处理的效率。
96.s103、若待处理数据为第二类数据,则电子设备对第二类数据执行至少一次处理操作,并将每次处理操作获得的明细数据和结果数据,写入点击流数据仓库。
97.其中,明细数据为电子设备对第二类数据执行每一次处理操作后得到的具体的数据,结果数据为电子设备对第二类数据执行完处理操作后,得到的最终的数据。
98.具体的,电子设备在接收待处理数据,并确定待处理数据为第二类数据时,第二类数据的数据类型或者格式不满足后续请求端的业务分析或者模型训练。在这种情况下,电子设备中的数据获取模块将获取到的待处理数据发送给部署在电子设备内的实时计算引擎。实时计算引擎对实时获取到的第二类数据执行数据处理操作,并得到每一次处理操作后得到的明显数据,以及执行完处理操作后,得到的最终的结果数据。后续,实时计算引擎可以将明细数据和结果数据,写入点击流数据仓库中,以便于后续电子设备执行数据校验时,可以获取到实时计算引擎对原始数据每次执行数据处理操作后的明细数据和结果数据,提高数据校验的准确度。
99.示例性的,如图4所示,电子设备中的数据获取模块可以从存储设备上部署的mysql-binlog的kafka消息队列中获取到待处理数据为20张hive表(待处理数据)。这20张hive表即为第二类数据。电子设备需要对20张hive表执行2次数据处理操作,才能得到满足后续请求端所需的业务分析或者模型训练的数据。
100.在这种情况下,电子设备中的数据获取模块将获取到的20张hive表发送给部署在电子设备内部的实时计算引擎flink。实时计算引擎flink在细节数据层(英文全称:data warehouse detail,简称:dwd层)对20张hive表执行第一次数据处理操作,以得到10张hive表(即明细数据)。在得到10张hive表后,电子设备中的实时计算引擎flink可以先将上述10张hive表写入(sink)到clickhouse中,以及将上述10张hive表发送给dwd层的kafka消息队
列。相应的,dwd层的kafka消息队列将上述10张hive表发送至服务数据层(英文全称:data warehouse service,简称:dws层)。
101.接着,电子设备中的实时计算引擎flink在dws层对得到的10张hive表执行第二次数据处理操作,得到目标hive表(即结果数据)。在得到目标hive表后,电子设备中的实时计算引擎flink可以将该目标hive表写入(sink)到clickhouse中。
102.可选的,在dws层对得到的10张hive表执行第二次数据处理操作,得到处理好的目标hive表后,还可以将目标hive表发送给dws层的kafka消息队列。相应的,dws层的kafka消息队列将目标hive表发送至请求端,供请求端直接使用。
103.这样一来,clickhouse中存储有实时计算引擎flink对原始数据每次执行数据处理操作后的明细数据和结果数据。后续,当运维人员发现目标hive表中的数据发生数据异常时,运维人员可以直接调用sql查询语句,查询实时计算引擎flink对原始数据每次执行数据处理操作后的明细数据和结果数据,以便于快速定位到发生数据异常的数据操作节点,及时修改发生数据异常的数据操作节点的逻辑代码,提高了数据验证的准确性。
104.点击流数据仓库为列式数据库管理系统(列式数据库管理系统的数据查询速度更快),因此,相比现有技术中的hadoop的分布式系统,在接收到数据查询指令后,电子设备可以实时、快速的从点击流数据仓库中获取到目标数据,提高了数据处理的效率。
105.上述实施例提供的技术方案至少带来以下有益效果:由s101-s103可知,电子设备在获取到待处理数据后,可以根据待处理数据的复杂度,执行不同的数据处理操作。若待处理数据为第一类数据,则将第一类数据写入点击流数据仓库;若待处理数据为复杂度高于第一类数据的第二类数据,则对第二类数据执行至少一次处理操作,并将每次处理操作获得的明细数据和结果数据,写入点击流数据仓库。这样一来,本公开可以按照不同的复杂度对不同的数据分别进行处理。对于简单的第一类数据,直接写入clickhouse,处理流程简单,数据链路短,处理成本低,且便于后续从clickhouse中快速查询。对于第二类数据,每次计算都将明细数据和计算结果实时存入clickhouse,以便后续可以基于clickhouse中的明细数据和计算结果,分层、分别校验,且便于后续从clickhouse中快速查询,提高了数据处理的效率。
106.在一种可以实现的方式中,如图5所示,该数据处理方法还包括:
107.s401、电子设备接收用于获取目标数据的数据查询指令。
108.其中,目标数据包括第一类数据或第二类数据。
109.一个实施例中,使用机器学习、深度学习解决问题的一般思路可分解为以下几个步骤:
110.获取最原始的样本数据;
111.然后对样本数据执行特征工程,以得到特征数据;
112.对特征数据进行数据处理(例如:处理正负样本比例、无效或作弊样本等),以得到用于训练、验证、测试的样本集;
113.根据样本集得到训练模型。
114.由上可知,当某个终端或者服务器需要使用机器学习、深度学习解决问题时,可以通过电子设备获取相应的原始数据或者特征数据(即目标数据)。在这种情况下,运维人员可以编写相应的数据查询脚本,以获取目标数据。相应的,电子设备接收用于获取目标数据
的数据查询指令。
115.s402、电子设备响应于数据查询指令,从点击流数据仓库中获取目标数据。
116.其中,点击流数据仓库是一个用于联机分析的列式数据库管理系统(dbms)。
117.点击流数据仓库中存储有第一类数据和第二类数据;第一类数据为源数据仓库中未经过数据处理的原始数据;第二类数据为通过实时计算引擎对实时获取到的原始数据执行数据处理操作后的明细数据和结果数据。
118.具体的,在接收用于获取目标数据的数据查询指令后,电子设备响应于数据查询指令,从点击流数据仓库中查询目标数据。
119.可选的,实时计算引擎和源数据仓库可以为集成于同一设备上的两个功能软件,也可以为独立的两个设备上的功能软件,本公开对此不作限定。
120.s403、电子设备输出目标数据。
121.具体的,在响应于数据查询指令,从点击流数据仓库中查询目标数据后,电子设备输出目标数据,以使得后续的请求端使用目标数据进行业务分析或者模型训练。
122.一般的,上述数据处理方法的流程一般应用于数据集市门户。上述实施例提供的技术方案至少带来以下有益效果:由s401-s403可知,电子设备在接收用于获取目标数据的数据查询指令后,可以响应于数据查询指令,从点击流数据仓库中查询目标数据;点击流数据仓库中存储有第一类数据和第二类数据;第一类数据为源数据仓库中未经过数据处理的原始数据;第二类数据为通过实时计算引擎对实时获取到的原始数据执行数据处理操作后的明细数据和结果数据。后续,电子设备输出目标数据。由于点击流数据仓库中存储有实时同步的数据,且点击流数据仓库为列式数据库管理系统(相比现有技术中的hadoop的分布式系统,列式数据库管理系统的数据查询速度更快),因此,在接收到数据查询指令后,电子设备可以实时、快速的从点击流数据仓库中获取到目标数据,提高了数据处理的效率。
123.在一种实施例中,结合图4,如图6所示,当目标数据为第二类数据时,上述s402中,电子设备响应于数据查询指令,从点击流数据仓库中获取目标数据的方法具体包括:
124.s601、电子设备响应于数据查询指令,从点击流数据仓库中获取目标数据的明细数据和结果数据。
125.这样一来,电子设备可以从点击流数据仓库中获取到将目标数据的明细数据和结果数据,以便后续可以基于点击流数据仓库中的明细数据和计算结果,分层、分别校验,且便于后续从clickhouse中快速查询,提高了数据处理的效率。
126.在一种实施例中,结合图6,如图7所示,在s601之后,还包括:
127.s701、电子设备接收用于对目标数据执行数据校验的数据校验指令。
128.具体的,请求端在利用目标数据进行业务分析或者模型训练时,还需要验证目标数据的准确性。在这种情况下,若目标数据发生数据异常,则需要运维人员调用数据校验脚本。相应的,电子设备接收用于对目标数据执行数据校验的数据校验指令。
129.s702、电子设备响应于数据校验指令,根据目标数据的明细数据和结果数据,对目标数据执行数据校验操作。
130.其中,数据校验操作用于校验目标数据的完整性。
131.具体的,在接收用于对目标数据执行数据校验的数据校验指令后,当目标数据为第二类数据时,电子设备可以响应于数据校验指令,获取目标数据对应的目标明细数据和
结果数据。
132.在获取目标数据对应的目标明细数据后,电子设备可以根据目标明细数据和结果数据,对目标数据执行数据校验操作。
133.数据校验操作是为保证数据的完整性进行的一种验证操作。通常为电子设备用一种指定的算法对待校验数据计算出的一个校验值,存储设备用同样的算法计算一次校验值,并发送给电子设备。电子设备确定两次计算得到的检验值相同,则说明待检验数据是完整的。
134.结合上述示例,clickhouse中存储有:实时计算引擎flink在dwd层对原始数据每次执行数据处理操作后的明细数据和结果数据,以及实时计算引擎flink在dws层对原始数据执行完数据处理操作后得到的计算好的数据。
135.在进行数据校验时,电子设备可以响应于数据校验指令,获取flink在dwd层对原始数据每次执行数据处理操作后的明细数据和结果数据,以及flink在dws层对原始数据执行完数据处理操作后得到的计算好的数据,并根据获取到的数据进行数据校验,提高了数据校验的准确性。
136.示例性的,电子设备在获取目标数据对应的目标明细数据a后,按照校验规则对目标明显数据进行计算,得到一个校验值为m。相应的,电子设备还可以向存储设备发送用于校验指令,存储设备响应于校验指令,对目标明显数据进行计算,得到一个校验值为n,并向电子设备发送该校验值n。电子设备接收到校验值n后,确定与校验值m是否一致。若一致,则说明目标明细数据是完整的。
137.上述实施例提供的技术方案至少带来以下有益效果:由s701-s702可知,电子设备在对目标数据进行数据校验时,可以接收用于对目标数据执行数据校验的数据校验指令。当目标数据为第二类数据时,由于点击流数据仓库中存储有实时计算引擎对原始数据每次执行数据处理操作后的明细数据和结果数据,以及实时计算引擎对原始数据执行完数据处理操作后得到的计算好的数据,因此,电子设备可以响应于数据校验指令,获取目标数据对应的目标明细数据和结果数据,并根据目标明细数据和结果数据,对目标数据执行数据校验操作,提高了数据校验的准确性。
138.在一种实施例中,结合图4,如图8所示,当目标数据包括大于预设数量的多个第一类数据时,上述s402中,电子设备响应于数据查询指令,从点击流数据仓库中获取目标数据的方法具体包括:
139.s801、电子设备响应于数据查询指令,从点击流数据仓库中获取多个第一类数据。
140.具体的,在获取到多个第一类数据后,若多个第一类数据无法满足后续业务分析或者模型训练的数据要求,则需要对多个第一类数据执行特征工程处理,以得到数据集。
141.一般的,对于从点击流数据仓库中获取到的可以直接使用的目标数据而言,电子设备可以将目标数据添加到消息队列中,以供后续请求端进行业务分析或者模型训练。
142.而对于从点击流数据仓库中获取到的无法直接使用的目标数据(即大于预设数量的多个第一类数据)而言,电子设备可以对目标数据执行特征工程处理,以得到数据集。
143.特征工程(extract-transform-load,etl)用于表示将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
144.s802、电子设备调用预先生成好的配置文件,将多个第一类数据转换为目标数据
集,并将目标数据集确定为目标数据。
145.具体的,电子设备响应于数据查询指令,从点击流数据仓库中获取多个第一类数据后,可以调用预先生成好的配置文件,将多个第一类数据转换为目标数据集,并将目标数据集确定为目标数据;配置文件用于将多个数据转换为数据集。
146.其中,配置文件用于将多个数据转换为数据集。配置文件为预先编写好的sql脚本。电子设备在取多个第一类数据后,可以调用电子设备中的执行程序读取该sql脚本,将多个第一类数据转换为目标数据集。
147.示例性的,当多个第一类数据为2张原始的hive数据表时,电子设备可以获取多个第一类数据,并在clickhouse上调用用于进行数据转换的sql脚本,对多个第一类数据执行物化视图处理,以得到一张宽表。该宽表即为数据集。
148.这样一来,相比在flink上对目标数据进行处理,在clickhouse上对目标数据进行数据处理的操作更加简单。对于简单的统计指标数据,只需要在点击流数据仓库调用预先编写好的sql脚本即可实现,无需开发复杂的flink脚本,提高了开发便捷性。
149.又一可选的,目标数据也可以是第二类数据。当目标数据为第二类数据时,电子设备可以从点击流数据仓库中获取通过实时计算引擎执行过一定数据处理操作后的目标数据。接着,电子设备响应于接收到的数据处理指令,对目标数据执行新的特征工程处理,以得到特征数据。
150.这样一来,复杂的统计指标数据(需要多表关联、宽表打标等操作的)可以通过flink进行初步计算后写入clickhouse后,再进行二次聚合计算。电子设备可以调用部署在电子设备内的flink流式计算引擎和部署在电子设备内的clickhouse的特征工程处理引擎,对待处理数据进行处理,提高了数据处理的效率。
151.上述实施例提供的技术方案至少带来以下有益效果:由s801-s802可知,当目标数据包括大于预设数量的多个第一类数据时,电子设备响应于数据查询指令,从点击流数据仓库中获取多个第一类数据后,可以调用预先生成好的配置文件,将多个第一类数据转换为目标数据集,并将目标数据集确定为目标数据;配置文件用于将多个数据转换为数据集,以供后续请求端进行业务分析或者模型训练,提高了数据处理的效率。
152.可以理解的,在实际实施时,本公开实施例所述的终端/服务器可以包含有用于实现前述对应数据处理方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
153.基于这样的理解,本公开实施例还对应提供一种数据处理装置,可以应用于电子设备。图9示出了本公开实施例提供的数据处理装置的结构示意图。如图9所示,该数据处理装置可以包括:获取单元901和处理单元902;
154.获取单元901,用于获取待处理数据,待处理数据包括第一类数据或第二类数据,第二类数据的复杂度高于第一类数据的复杂度;
155.处理单元902,用于若待处理数据为第一类数据,则将第一类数据写入点击流数据
localarea networks,wlan)等。作为一个示例,
177.存储器63可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
178.其中,存储器63用于存储执行本公开方案的应用程序代码,并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码,从而实现本公开方法中的功能。
179.在具体实现中,作为一种实施例,处理器61可以包括一个或多个cpu,例如图10中的cpu0和cpu1。
180.在具体实现中,作为一种实施例,终端可以包括多个处理器,例如图10中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
181.在具体实现中,作为一种实施例,终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信,可以以多种方式接受用户的输入。例如,输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信,可以以多种方式来显示信息。例如,输出设备61可以是液晶显示器(liquid crystal display,lcd),发光二级管(light emitting diode,led)显示设备等。
182.本领域技术人员可以理解,图10中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
183.本公开实施例还提供一种服务器。图11示出了本公开实施例提供的服务器的结构示意图。该服务器可以是数据处理装置。该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中,存储器72中存储有至少一条指令,至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的数据处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
184.本公开还提供了一种包括指令的计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由计算机设备的处理器执行时,使得计算机能够执行上述所示实施例提供的数据处理方法。例如,计算机可读存储介质可以为包括指令的存储器63,上述指令可由终端的处理器61执行以完成上述方法。又例如,计算机可读存储介质可以为包括指令的存储器72,上述指令可由服务器的处理器71执行以完成上述方法。可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、ram、cd-rom、磁带、软盘和光数据存储设备等。
185.本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述图1-图8任一附图所示的数据处理方法。
186.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
187.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献