一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法及装置与流程

2022-11-14 13:26:18 来源:中国专利 TAG:


1.本技术涉及数据处理领域,特别是涉及一种数据处理方法及装置。


背景技术:

2.数据湖每天可以接收上游下发的大量业务数据,业务数据可以用于对工作流进行调度。
3.目前,上游下发的业务数据,可以是联机文件,当联机文件的数量较多时,而将大量联机文件写入到数据湖中需要消耗大量的输入输出(input/output,io)资源。若联机文件出现缺失,则会导致无法正常利用该联机文件对工作流进行调度,在此情况下,写入出现缺失的联机文件所消耗的io资源实质上相当于被浪费了。
4.因此,急需一种方案,能够解决上述问题。


技术实现要素:

5.为了解决上述技术问题,本技术实施例提供了一种数据处理方法及装置。
6.第一方面,本技术实施例提供了一种数据处理方法,所述方法包括:
7.接收第一文件;
8.判断所述第一文件是否为联机文件;
9.在确定所述第一文件为联机文件的情况下,为所述第一文件添加标识信息;
10.确定包括所述标识信息的文件的总数,所述包括所述标识信息的文件,包括所述第一文件;
11.在所述总数等于上游节点下发的联机文件的总数量的情况下,将包括所述标识信息的文件写入至数据湖中,其中,所述联机文件的总数量,根据上游节点下发的联机文件清单确定。
12.可选的,所述为所述第一文件添加标识信息,包括:
13.为所述第一文件添加尾缀信息。
14.可选的,所述方法还包括:
15.在确定所述第一文件不是联机文件的情况下,将所述第一文件写入所述数据湖中,并在文件上传清单中添加所述第一文件对应的记录;
16.确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中;
17.若所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,则在文件到齐清单中添加所述第一文件所属的表的记录。
18.可选的,所述确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,包括:
19.比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,所述文件配置表中包括多个表所包括的文件清单,所述多个表包括所述第一文件所属的表。
20.可选的,所述比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,包括:
21.提取所述第一文件的索引信息,所述索引信息用于指示所述第一文件所属的表;
22.基于所述索引信息,从所述文件上传清单中确定具备所述索引信息的至少一个记录;
23.基于所述索引信息,从所述文件配置表中确定所述第一文件所属的表的文件清单;
24.比对所述至少一个记录和所述第一文件所属的表的文件清单,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
25.第二方面,本技术实施例提供了一种数据处理装置,所述装置包括:
26.接收单元,用于接收第一文件;
27.判断单元,用于判断所述第一文件是否为联机文件;
28.第一添加单元,用于在确定所述第一文件为联机文件的情况下,为所述第一文件添加标识信息;
29.第一确定单元,用于确定包括所述标识信息的文件的总数,所述包括所述标识信息的文件,包括所述第一文件;
30.第一写入单元,用于在所述总数等于上游节点下发的联机文件的总数量的情况下,将包括所述标识信息的文件写入至数据湖中,其中,所述联机文件的总数量,根据上游节点下发的联机文件清单确定。
31.可选的,所述第一添加单元,用于为所述第一文件添加尾缀信息。
32.可选的,所述装置还包括:
33.第二写入单元,用于在确定所述第一文件不是联机文件的情况下,将所述第一文件写入所述数据湖中,并在文件上传清单中添加所述第一文件对应的记录;
34.第二确定单元,用于确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中;
35.第二添加单元,用于若所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,则在文件到齐清单中添加所述第一文件所属的表的记录。
36.可选的,所述第二确定单元,用于:
37.比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,所述文件配置表中包括多个表所包括的文件清单,所述多个表包括所述第一文件所属的表。
38.可选的,所述比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,包括:
39.提取所述第一文件的索引信息,所述索引信息用于指示所述第一文件所属的表;
40.基于所述索引信息,从所述文件上传清单中确定具备所述索引信息的至少一个记录;
41.基于所述索引信息,从所述文件配置表中确定所述第一文件所属的表的文件清单;
42.比对所述至少一个记录和所述第一文件所属的表的文件清单,确定所述第一文件
所属的表中的文件是否均已经写入至所述数据湖中。
43.与现有技术相比,本技术实施例具有以下优点:
44.本技术实施例提供了一种数据处理方法,在一个示例中,所述方法包括:接收第一文件,并判断所述第一文件是否为联机文件。在确定所述第一文件为联机文件的情况下,为所述第一文件添加标识信息;进一步地,确定包括所述标识信息的文件的总数,包括所诉标识信息的文件,包括所述第一文件;在所述总数等于上游节点下发的联机文件的总数量的情况下,将包括所述标识信息的文件写入至数据湖中,其中,所述联机文件的总数量,根据上游节点下发的联机文件清单确定。由于所述总数等于上游节点下发的联机文件的总数量,说明所有联机文件均已接收完成。由此可见,利用本方案,在确定所有联机文件均已接收完成的情况下,才将联机文件写入至数据湖中,从而避免将存在缺失的联机文件写入数据湖而浪费i/o资源。
附图说明
45.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1为本技术实施例提供的一种数据处理方法的流程示意图;
47.图2为本技术实施例提供的又一种数据处理方法的流程示意图;
48.图3为本技术实施例提供的一种数据处理装置的结构示意图。
具体实施方式
49.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
50.下面结合附图,详细说明本技术的各种非限制性实施方式。
51.示例性方法
52.参见图1,该图为本技术实施例提供的一种数据处理方法的流程示意图。在本实施例中,所述方法例如可以由服务器执行,所述方法例如可以包括以下步骤:s101-s105。
53.s101:接收第一文件。
54.在一个示例中,所述第一文件可以是上游节点发送给所述服务器的文件。
55.s102:判断所述第一文件是否为联机文件。
56.在本技术实施例中,联机文件,指的是业务数据文件较大时,文件被拆分后进行压缩后的子文件。
57.在一个示例中,可以根据所述第一文件的格式,确定所述第一文件是否为联机文件。
58.s103:在确定所述第一文件为联机文件的情况下,为所述第一文件添加标识信息。
59.s104:确定包括所述标识信息的文件的总数,所述包括所述标识信息的文件,包括
所述第一文件。
60.在本技术实施例中,确定所述第一文件为联机文件之后,可以为所述第一文件添加标识信息。在一个示例中,可以利用预处理程序为所述第一文件添加标识信息。
61.本技术实施例不具体限定所述标识信息,所述标识信息,例如可以是尾缀信息,例如,为所述第一文件的文件名添加尾缀信息。
62.为所述第一文件添加标识信息之后,可以确定包括所述标识信息的文件的总数,即:确定已经接收到的、与所述第一文件属于同一业务文件的联机文件的总数。
63.s105:在所述总数等于上游节点下发的联机文件的总数量的情况下,将包括所述标识信息的文件写入至数据湖中,其中,所述联机文件的总数量,根据上游节点下发的联机文件清单确定。
64.在一个示例中,上游节点可以向所述服务器发送联机文件清单,该联机文件清单中,例如可以包括业务数据文件包括的联机文件的信息,基于所述联机文件清单,可以确定所述业务数据文件包括的联机文件的总数量。
65.若所述总数等于上游节点下发的联机文件的总数量,则所述上游节点已经将业务数据文件所包括的全部联机文件均发送给所述服务器,对于这种情况,所述服务器可以将包括所述标识信息的文件(即该业务数据文件对应的所有联机文件)写入至数据湖中。由此可见,利用本方案,在确定所有联机文件均已接收完成的情况下,才将联机文件写入至数据湖中,从而避免将存在缺失的联机文件写入数据湖而浪费i/o资源。
66.在又一个示例中,若所述第一文件不是联机文件,则所述服务器可以执行图2所示的方法,图2为本技术实施例提供的又一种数据处理方法的流程示意图。图2所示的方法,例如可以包括如下s201-s203。
67.s201:将所述第一文件写入所述数据湖中,并在文件上传清单中添加所述第一文件对应的记录。
68.对于非联机文件而言,所述服务器接收到所述第一文件之后,可以将所述第一文件写入至所述数据湖中,并在文件上传清单中添加所述第一文件对应的记录,以记录第一文件已经被写入至数据湖中。所述文件上传清单,用于记录已经被写入至数据湖中的文件的信息。其中,所述第一文件对应的记录,例如可以包括所述第一文件的标识信息,所述第一文件的标识信息,例如若可以包括所述第一文件所属的系统、所述第一文件所属的表的名称、以及所述第一文件所属的表对应的区域号等等。
69.s202:确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
70.在一个示例中,将所述第一文件写入至数据湖中之后,所述服务器可以进一步判断所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
71.在又一个示例中,所述服务器可以查询是否包括所述第一文件所属的表的文件到齐记录,从而确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
72.在一个示例中,所述服务器可以比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,所述文件配置表中包括多个表所包括的文件清单,所述多个表包括所述第一文件所属的表。为方便描述,将第一文件所属的表,称为表a,则所述文件配置表中,包括所述表a的文件清单,表a的文件清单,例如可以包括表a包括的各个文件的标识。
73.在一个示例中,“所述服务器可以比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖”在具体实现时,可以通过如下步骤a1-a4实现。
74.a1:提取所述第一文件的索引信息,所述索引信息用于指示所述第一文件所属的表。
75.此次提及的第一文件的索引信息,例如可以是前述所述第一文件所属的系统、所述第一文件所属的表的名称、以及所述第一文件所属的表对应的区域号。在本技术实施例中,可以对所述第一文件进行分析,例如,对所述第一文件的名称或者第一文件的内容进行分析,得到所述第一文件的索引信息。
76.a2:基于所述索引信息,从所述文件上传清单中确定具备所述索引信息的至少一个记录。
77.以所述索引信息为索引在所述文件上传清单中进行查询,得到具备所述索引信息的至少一个记录,不难理解的是,所述至少一个记录,对应所述表a中已经写入至数据湖中的文件。例如,查找获得3个记录,则说明表a中的3个文件已经被写入至数据湖中。
78.a3:基于所述索引信息,从所述文件配置表中确定所述第一文件所属的表的文件清单。
79.a4:比对所述至少一个记录和所述第一文件所属的表的文件清单,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
80.以所述索引信息为索引,查找所述文件配置表,可以获得表a对应的文件清单。
81.在一个示例中,基于表a对应的文件清单,可以确定表a包括的文件的数量。因此,可以比对所述至少一个记录的数量和所述表a包括的文件的数量,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
82.在又一个示例中,表a的文件清单,例如可以包括表a包括的各个文件的标识。因此,可以比对所述至少一个记录中的信息和所述表a包括的各个文件的标识,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
83.s203:若所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,则在文件到齐清单中添加所述第一文件所属的表的记录。
84.若执行s202之后,确定所述第一文件所属的表中的文件均写入至所述数据湖中,则可以在文件到齐清单中添加所述第一文件所属的表的记录,所述文件到齐清单,可以记录文件均已经写入至数据湖中的表的信息。
85.其中,在文件到齐清单中添加所述第一文件所属的表的记录,例如可以添加前述标识表a的索引信息,例如,将表a所属的系统、所述表a的名称、以及表a对应的区域号写入所述文件到齐清单中。
86.利用图2所示的方法,当所述服务器需要将表a用于工作流调度时,可以首先查询所述文件到齐清单,在确定所述文件到齐清单中包括表a的信息的情况下,再执行将表a用于工作流调度的操作。这样一来,避免由于表a中的文件未全部写入数据湖而直接将表a用于工作流调度而使得部分前述操作无效。
87.示例性设备
88.基于以上实施例提供的方法,本技术实施例还提供了一种装置,以下结合附图介
绍该装置。
89.参见图3,该图为本技术实施例提供的一种数据处理装置的结构示意图。所述装置300例如可以具体包括:接收单元301、判断单元302、第一添加单元303、第一确定单元304、以及第一写入单元305。
90.接收单元301,用于接收第一文件;
91.判断单元302,用于判断所述第一文件是否为联机文件;
92.第一添加单元303,用于在确定所述第一文件为联机文件的情况下,为所述第一文件添加标识信息;
93.第一确定单元304,用于确定包括所述标识信息的文件的总数,所述包括所述标识信息的文件,包括所述第一文件;
94.第一写入单元305,用于在所述总数等于上游节点下发的联机文件的总数量的情况下,将包括所述标识信息的文件写入至数据湖中,其中,所述联机文件的总数量,根据上游节点下发的联机文件清单确定。
95.可选的,所述第一添加单元303,用于为所述第一文件添加尾缀信息。
96.可选的,所述装置还包括:
97.第二写入单元,用于在确定所述第一文件不是联机文件的情况下,将所述第一文件写入所述数据湖中,并在文件上传清单中添加所述第一文件对应的记录;
98.第二确定单元,用于确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中;
99.第二添加单元,用于若所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,则在文件到齐清单中添加所述第一文件所属的表的记录。
100.可选的,所述第二确定单元,用于:
101.比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,所述文件配置表中包括多个表所包括的文件清单,所述多个表包括所述第一文件所属的表。
102.可选的,所述比对所述文件上传清单和文件配置表,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中,包括:
103.提取所述第一文件的索引信息,所述索引信息用于指示所述第一文件所属的表;
104.基于所述索引信息,从所述文件上传清单中确定具备所述索引信息的至少一个记录;
105.基于所述索引信息,从所述文件配置表中确定所述第一文件所属的表的文件清单;
106.比对所述至少一个记录和所述第一文件所属的表的文件清单,确定所述第一文件所属的表中的文件是否均已经写入至所述数据湖中。
107.由于所述装置300是与以上方法实施例提供的方法对应的装置,所述装置300的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置300的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。
108.需要说明的是,本发明提供的数据处理方法及装置可用于金融领域或其它领域。例如,可以应用于金融领域的工作流调度的前置处理阶段。其他领域为除金融领域之外的
任意领域,例如,数据存储领域。上述仅为示例,并不对本发明提供的数据处理方法及装置的应用领域进行限定。
109.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
110.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
111.以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献