数据划分处理方法、装置、电子设备及存储介质与流程

2021-12-17 21:05:00 来源：中国专利 TAG：

1.本发明涉及人工智能领域，涉及数据处理技术，尤其涉及一种数据划分处理方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.在保险业务系统中目前大数据的架构是将目前现有存在oracle的数据，通过数据同步的方式将所有的业务数据同步至hive数据库(hive是目前大数据存储与数据分析的类sql数据仓库工具)。开发人员需要将数据以业务为维度进行表区分，每个业务的数据应该属于该业务表的范围下，整合从保险业务系统建立起来的所有数据。
3.目前所有报表或者展示数据平台都需要通过在hive中开发进行数据分析，再将数据同步至业务系统中，一般情况下均在hive库中做好数据计算、分析等操作，将得到的结果通过查询的方式同步给业务系统，而hive提供的方案是通过类sql查询对应想要的数据，编写脚本通常以月、100w数据为维度(例：当月有500w数据，需要以100w为维度生成5个文件)，但在以100w为维度划分文件时，每次100w的数据都要重新进行全量的mapreduce(统计分析数据函数)，导致速率较低，时常较长，严重影响效率。
4.因此，亟需一种能够提高数据处理速率，减少处理时长，且节省人力的数据划分处理方法。

技术实现要素：

5.本发明提供一种数据划分处理方法，以解决目前所有报表或者展示数据平台都需要通过在hive中开发进行数据分析，再将数据同步至业务系统中，一般情况下均在hive库中做好数据计算、分析等操作，将得到的结果通过查询的方式同步给业务系统，而hive提供的方案是通过类sql查询对应想要的数据，编写脚本通常以月、100w数据为维度，但在以100w为维度划分文件时，每次100w的数据都要重新进行全量的mapreduce，导致速率较低，时常较长，严重影响效率的问题。
6.为实现上述目的，本发明提供的一种数据划分处理方法，包括：
7.按照预设维度在hive中剥离待处理数据，并对所述待处理数据进行格式转换以形成特定格式文件；
8.通过所述hive的临时目录将所述特定格式文件置于预设的文件服务器中；
9.通过预设的前置业务系统从所述文件服务器中获取所述特定格式文件，并将所述特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，所述预设的前置业务系统与所述文件服务器预连接；
10.在所述业务服务器中对所述业务文件数据进行进行拆分处理以形成文件组，并对所述文件组进行另存储以完成数据划分处理。
11.可选地，所述按照预设维度在hive中剥离待处理数据，并对所述待处理数据进行格式转换以形成特定格式文件，包括：
12.按照预设维度在所述hive中捞取待处理数据，并对所述待处理数据进行标记；
13.根据所述标记，通过预设的导出语句将所述待处理数据从所述hive中剥离导出；
14.对从所述hive中剥离导出的所述待处理数据进行特定格式的格式设置；
15.基于所述特定格式对所述待处理数据进行格式转换以形成特定格式文件。
16.可选地，所述通过所述hive的临时目录将所述特定格式文件置于预设的文件服务器中，包括：
17.将所述特定格式文件分割为预设数量个子文件；
18.将所述子文件汇总为子文件集；
19.将所述子文件集置于所述hive的临时目录下以形成hive临时文件；
20.通过发送指令将所述hive临时文件发送至与所述临时目录预连接的文件服务器中。
21.可选地，所述将所述子文件汇总为子文件集，包括：
22.获取所述子文件所属的特定格式文件；
23.为所述特定格式文件命名一级署名，并获取所述特定格式文件所分割子文件的顺序；
24.根据所述分割子文件的顺序为所述子文件命名序号，并在所述序号前添加所属特定格式文件的一级署名以形成各个子文件的标注名称；
25.按照所述标注名称对所述子文件进行排列以形成子文件列表，并将所述子文件列表移至空白文件夹中以形成子文件集。
26.可选地，所述通过预设的前置业务系统在所述文件服务器中获取所述特定格式文件，并将所述特定格式文件保存至预设的业务服务器中以形成业务文件数据，包括：
27.将提前预设的前置业务系统与所述文件服务器相连接；其中，所述前置业务系统为单独的系统，用于读取所述文件服务器中的文件；
28.通过所述前置业务系统在所述文件服务器中获取所述子文件集；
29.对所述子文件集进行重整处理以还原为特定格式文件；
30.将所述特定格式文件传输至与所述文件服务器相连接的业务服务器中。
31.可选地，还包括对所述特定格式文件进行存储处理以形成业务文件；其中，所述对所述特定格式文件进行存储处理以形成业务文件，包括：
32.使所述业务服务器外接业务数据库；
33.通过转存插件将所述特定格式文件分批次存储至所述外接业务数据库中以形成业务文件。
34.可选地，所述在所述业务服务器中对所述业务文件数据进行进行拆分处理以形成文件组，并对所述文件组进行另存储以完成数据划分处理，包括：
35.对所述业务文件进行遍历读取以形成业务数据；
36.根据在所述业务数据库中预设置的时间字段为每条业务数据添加时间标识；
37.通过预设的数据捞取程序根据所述时间标识对所述业务数据进行分类别汇总，并将每一类别的业务数据对应至与所述类别相对应的数据捞取命令中；
38.为与所述数据捞取命令相对应的业务数据生成处理文件；
39.按照预先配置的数量对所述处理文件进行拆分以形成文件组；
40.对所述文件组进行另存储以完成数据划分处理。
41.为了解决上述问题，本发明还提供一种高效的数据划分处理装置，所述装置包括：
42.格式特定单元，用于按照预设维度在hive中剥离待处理数据，并对所述待处理数据进行格式转换以形成特定格式文件；
43.文件外置单元，用于通过所述hive的临时目录将所述特定格式文件置于预设的文件服务器中；
44.业务文件单元，用于通过预设的前置业务系统从所述文件服务器中获取所述特定格式文件，并将所述特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，所述预设的前置业务系统与所述文件服务器预连接；
45.数据划分单元，用于在所述业务服务器中对所述业务文件数据进行进行拆分处理以形成文件组，并对所述文件组进行另存储以完成数据划分处理。
46.为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
47.存储器，存储至少一个指令；及
48.处理器，执行所述存储器中存储的指令以实现上述所述的数据划分处理方法中的步骤。
49.为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的数据划分处理方法。
50.本发明实施例首先按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件，再通过hive的临时目录将所述特定格式文件置于预设的文件服务器中，而后通过预设的前置业务系统从文件服务器中获取特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，该预设的前置业务系统与文件服务器预连接，再在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理，在本实施例中，通过前置业务系统与文件服务器去处理小批量的数据可以为hive减轻压力，从而让hive能够更专注的处理真正意义上的“大数据，大大提高数据处理效率，进而节省人力和时间。
附图说明
51.图1为本发明一实施例提供的数据划分处理方法的流程示意图；
52.图2为本发明一实施例提供的数据划分处理装置的模块示意图；
53.图3为本发明一实施例提供的实现数据划分处理方法的电子设备的内部结构示意图；
54.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
55.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
56.在保险业务系统中目前大数据的架构是将目前现有存在oracle的数据，往往通过数据同步的方式将所有的业务数据同步至hive数据库(hive是目前大数据存储与数据分析的类sql数据仓库工具)。开发人员需要将数据以业务为维度进行表区分，每个业务的数据
应该属于该业务表的范围下，整合从保险业务系统建立起来的所有数据。
57.开发人员在上述处理数据的过程中，存在如下数据处理需求：目前所有表报或者展示数据平台都需要通过在hive中开发进行数据分析，再将数据同步至业务系统中，一般的情况是在hive库中做好数据计算、分析等操作，再将得到的结果通过查询的方式同步给业务系统，但有些系统也需要将元数据(即未通过计算的原始数据)同步至业务系统，数据量大的时候，元数据的量将达到千万级别。
58.目前，实现上述数据处理需求所存在的问题如下：hive提供的方案是通过类sql查询对应想要的数据，编写脚本以月、预设数量数据为维度，但在实践中发现，若以100w为维度划分文件在azikaban跑任务时，每次100w的数据都要重新进行全量的mapreduce(统计分析数据函数)，导致效率特别慢，并且生成1个月的数据文件需要长达2个多小时，严重影响处理效率。
59.为解决上述问题，本发明提供一种数据划分处理方法，需要说明的是，本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
60.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
61.如图1所示，在本实施例中，数据划分处理方法包括：
62.s1：按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件；
63.s2：通过hive的临时目录将特定格式文件置于预设的文件服务器中；
64.s3：通过预设的前置业务系统从文件服务器中获取所述特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，该预设的前置业务系统与该文件服务器预连接；
65.s4：在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理。
66.在图1所示的实施例中，步骤s1为按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件的过程，包括：
67.s11：按照预设维度在所述hive中捞取待处理数据，并对所述待处理数据进行标记；该预设维度为特定期限内，比如获取hive中某一年的数据作为待处理数据；
68.s12：根据标记，通过预设的导出语句将待处理数据从所述hive中剥离导出；该步骤直接将待处理数据从hive中剥离开来，以避免如现有技术一般在hive中拆分影响数据处理效率的状况；即select user,company,license,time from dw_trans_detail；
69.s13：对从hive中剥离导出的待处理数据进行特定格式的格式设置；
70.s14：基于所述特定格式对所述待处理数据进行格式转换以形成特定格式文件。
71.其中，该预设的导出语句为sql语句；该特定格式文件可以采用任意适用于文件服务器的文件，考虑到csv文件能无限量存储数据且不丢失数据的特性，在本发明的一个具体
实施方式中，将该特定格式限定为csv格式文件。采用*.csv后缀的文件，以支持无限量的存储数据，能够有效提高数据总体存储量。
72.具体的，步骤s11为对数据进行标记的过程，具体的标记方式不作限制，在本实施例中，对捞取的数据进行加点标记，即在数据后方加一个“.”；何为待处理数据也不做具体限制，在本实施例中，对进行业务操作所需要的数据作为待处理数据；
73.步骤s12为对待处理数据进行导出的过程，即与现有技术不同，解决现有技术中直接在hive表中进行数据划分影响数据处理效率的状况；
74.步骤s13为获取预设格式的过程，在本实施例中设置好csv格式，即设置文件的内容格式，包括编码格式utf
‑
8，数据分隔符“,”，数据换行符号“\r\n”等；
75.步骤s14为将待处理数据转换为特定格式文件的过程，即将导出的待处理数据完全转换为csv格式的文件；在本实施例中，为：
76.insert overwrite local directory"/tmp/out/"
77.row format delimited fields terminated by","
78.select user,company,license,time from dw_trans_detail。
79.在图1所示的实施例中，步骤s2为通过hive的临时目录将特定格式文件置于预设的文件服务器中的过程，包括：
80.s21：将特定格式文件分割为预设数量个子文件；其为对特定格式文件进行分割的过程，如此使得拆分获取的子文件能够同时生成数据，以提高处理效率；
81.s22：将子文件汇总为子文件集；
82.s23：将子文件集置于hive的临时目录下以形成hive临时文件；即将待处理数据在hive中剥离开来后形成预设数量个子文件，且子文件为csv格式的，然后将子文件形成的子文件集置入hive的临时目录中，这里提到的临时目录为临时创建的，其在实际意义上并不属于原来的hive；
83.s24：通过发送指令将hive临时文件发送至与临时目录预连接的文件服务器中。
84.具体的，在步骤21中该预设数量不做限制，可以根据实际情况而定，在本实施例中，该预设数量为10个，即将特定格式文件分割为10个子文件；
85.步骤s22为对该子文件进行汇总的过程，具体的汇总方式不做限制，在本实施例中，将所述子文件汇总为子文件集的过程，包括：
86.s221：获取子文件所属的特定格式文件；
87.s222：为特定格式文件命名一级署名，并获取特定格式文件所分割子文件的顺序；
88.s223：根据分割子文件的顺序为所述子文件命名序号，并在序号前添加所属特定格式文件的一级署名以形成各个子文件的标注名称；
89.s224：按照标注名称对子文件进行排列以形成子文件列表，并将子文件列表移至空白文件夹中以形成子文件集；
90.步骤s23为形成hive临时文件的过程，即将子文件集放置在临时目录下，通过发送命令即可将子文件集从hive发送至文件服务器中，在本实施例中，该文件服务器为sftp文件服务器；
91.步骤s24为将hive临时文件发送至与所述临时目录预连接的文件服务器中的过程，在进行步骤s24之前还包括建立所述hive的服务器与所述文件服务器的连接的过程，二
者建立连接后方能通过该临时目录将临时文件传输至文件服务器，换句话说，子文件集放置在临时目录下只是短暂的放置，该临时目录的意义为作为hive与文件服务器的介质，将数据从hive中剥离出来，暂存一会儿之后立即将数据传入文件服务器中，以进行后续通过文件服务器对数据进行划分的过程，如此解决了传统数据划分在hive库中做好数据计算、分析等操作，再将得到的结果通过查询的方式同步给业务系统导致速率较低，时常较长，严重影响效率的问题。
92.在图1所示的实施例中，步骤s3为通过预设的前置业务系统在所述文件服务器中获取所述特定格式文件，并将所述特定格式文件保存至预设的业务服务器中以形成业务文件数据的过程，包括：
93.s31：将提前预设的前置业务系统与文件服务器相连接；其中，前置业务系统为单独的系统，用于读取文件服务器中的文件；在进行连接的过程中，在使前置业务系统相文件服务器发送连接请求，该文件服务器接收到来自前，置业务系统的请求后，首先读取该连接请求所携带的请求地址，根据该请求地址判断该连接请求是否满足连接要求，若满足连接要求，则该文件服务器向前置业务系统发送连接回执，并开放连接端口以与该前置业务系统相连接；
94.s32：通过前置业务系统在文件服务器中获取子文件集；
95.s33：对子文件集进行重整处理以还原为特定格式文件；
96.s34：将特定格式文件传输至与文件服务器相连接的业务服务器中；其中，该业务服务器用于根据该特定格式文件执行相关业务；本步骤即将需要的待处理数据与特定格式的形式传输至业务系统；
97.在将所述特定格式文件传输至与所述文件服务器相连接的业务服务器中之后，还包括：
98.对所述特定格式文件进行存储处理以形成业务文件，其中，对所述特定格式文件进行存储处理以形成业务文件的过程，包括：
99.s351：使所述业务服务器外接业务数据库；在本实施例中，该业务数据库为nas盘；
100.s352：通过转存插件将所述特定格式文件分批次存储至所述外接业务数据库中以形成业务文件。
101.具体的，步骤s31为预先将前置业务系统与文件服务器相连接的过程，在连接过程中，首先预设前置业务系统，在使前置业务系统相文件服务器发送连接请求，该文件服务器接收到来自前置业务系统的请求后，读取该连接请求所携带的请求地址，根据该请求地址判断该连接请求是否满足连接要求，若不满足连接要求，则是该文件服务器向该前置业务系统发送连接不可用回执，该前置业务系统根据该回执继续向该文件服务器发送连接请求，直至满足连接要求；
102.步骤s32为通过该前置业务系统在文件服务器中获取子文件集的过程，在获取子文件集时，首先通过前置业务系统中的读取插件基于该前置业务系统与该文件服务器形成的传输信道获取基于该子文件集的字符串，而后根据该字符串获取子文件数据，根据该子文件数据形成子文件集；
103.步骤s33为对子文件集进行重整处理以还原为特定格式文件的过程，更为详细的，子文件集为根据特定格式文件进行分割而成，故在本步骤中需要对分割的子文件集中的子
文件进行重整汇总以形成重整文件，并对该重整文件进行格式转换以还原为特定格式文件；
104.步骤s34为将该特定格式文件传输至业务服务器中的步骤，该业务服务器为在保险系统中对数据进行处理以形成各项业务数据的过程，而本步骤即将需要的待处理数据与特定格式的形式传输至业务系统；
105.其中，业务数据库多为存储量较大的数据库，在本实施例中，该业务数据库为nas盘，该nas盘为硬件设备，该硬件设备与该业务服务器相连接，如此可为该业务服务器提供足够大的容量以存储大量的特定格式文件；
106.此外，需定时清理文件服务器的文件：虽然文件服务器的容量较大，但长期积累也会导致内存不够用，需要定时清理不需要的数据来释放部分内存。
107.在图1所示的实施例中，步骤s4为在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理的过程，包括：
108.s41：对所述业务文件进行遍历读取以形成业务数据；
109.s42：根据在所述业务数据库中预设置的时间字段为每条业务数据添加时间标识；
110.s43：通过预设的数据捞取程序根据所述时间标识对所述业务数据进行分类别汇总，并将每一类别的业务数据对应至与所述类别相对应的数据捞取命令中；该时间标识包括年、月、日和时分，即可以按照同一年、同一月、同一天等维度的形式进行分类划分，从而完成数据划分的处理过程；
111.s44：为与所述数据捞取命令相对应的业务数据生成处理文件；
112.s45：按照预先配置的数量对所述处理文件进行拆分以形成文件组；该预设数量可以为任意数值，例如即为x万，即将某一月份的处理文件中包含1000万的数据，则以x万为维度将该处理文件拆分为1000
÷
x个文件组；
113.在进行拆分的过程中，通过java程序对处理文件以x万的数据量进行拆分，并且在拆分前设置有标记初始值，即标记值的最初数值，每当将需要拆分的处理文件的一行导入至新的文件组是，标记值加1，当标记值到达x万时拆分完毕，则新建另一个文件组，以此作为循环直至所有的处理文件被拆分完毕；
114.s46：对所述文件组进行另存储以完成数据划分处理；
115.具体的，步骤s41为对业务文件进行读取以形成业务数据的过程，在本过程中，首先对业务文件进行依次遍历，并在遍历的过程中对该业务文件进行数据提取以形成大数据；在对该大数据进行顺序排列以形成业务数据；
116.步骤s42首先预先在业务数据库汇总设置时间字段，而后每当有一条业务数据输入该业务数据库，则自动为该业务数据分配时间标识；
117.步骤s43为根据时间标识对业务数据进行分类汇总的过程，并且在本实施例中，该数据捞取程序以月为单位类别，即将同一月份的业务数据进行汇总，也就是说每一月份为一个类别，并将每一月的业务数据对应到与该月份对应的数据捞取命令中，该数据捞取命令也是提前预设的，用于对同一类别(同一月份)的业务数据进行汇总；
118.步骤s44为基于业务数据生成处理文件的过程，该处理文件为进行拆分处理前的最后一版本文件，即直接对该处理文件进行拆分处理、存储便完成了数据处理；
119.步骤s45为按照预设数量对该处理文件进行拆分处理以形成文件组的过程，其中，
在本实施例中，该预设数量为100万，即将某一月份的处理文件中包含800万的数据，则以100万为维度将该处理文件拆分为8个文件组；
120.在进行拆分的过程中，通过java程序对处理文件以100万的数据量进行拆分，同时在拆分前标记初始值，每当将需要拆分的处理文件的一行导入至新的文件组是，标记值加1，当标记值到达100万时拆分完毕，则新建另一个文件组，以此作为循环直至所有的处理文件被拆分完毕。
121.此外，需要说明的是，业务服务器读取千万级别文件会将数据先读至jvm的内存空间，但数据量大一般会导致jvm空间不够用，因此在本实施例中，在进行拆分时不读取所有数据，每次从文件中读一行数据，将当前这行的数据处理完毕后释放空间读取下一行的数据；其中，在本实施例中处理文件采用阿里巴巴提供的easyexcel工具高效的处理大数据文件；并且，基于可拓展的原理，需要兼容，如果以后新增一个文件的处理逻辑，不需要再重新开发一套逻辑，需要抽离出表、字段、业务类型进行配置化，这样可达到扩展要求；当某个处理文件出现异常时，不能影响其他文件的执行，并且将出现异常的文件纳入预设的异常日志，并由数据库表记录该异常日志，以便开发人员及时排查问题。
122.如上所述，本发明提供的数据划分处理方法，首先按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件，再通过hive的临时目录将所述特定格式文件置于预设的文件服务器中，而后通过预设的前置业务系统从文件服务器中获取特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，该预设的前置业务系统与文件服务器预连接，再在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理，在本实施例中，通过前置业务系统与文件服务器去处理小批量的数据可以为hive减轻压力，从而让hive能够更专注的处理真正意义上的“大数据，大大提高数据处理效率，进而节省人力和时间。
123.如上所述，在图1所示的实施例中，本发明提供的数据划分处理方法，具有如下好处：
①
在hive中执行mapreduce分析数据是非常消耗资源的事情，若果数据量较小，在多次执行mapreduce时会把资源占满，势必影响其他任务执行，而本实施例通过前置业务系统和文件服务器去处理小批量的数据可以为hive减轻压力，让hive能够更专注的处理真正意义上的“大数据”；
②
提高数据处理效率：实践表明传统技术在hive上处理1个月的数据需要花费2个多小时，而本实施例将部分逻辑下发至前置业务系统，hive处理月总数据大致在10分钟，前置业务系统内拆分文件大致为5分钟，处理效率提高了75％；
③
缩短处理时间，且节省人力。
124.如图2所示，本发明提供一种高效的数据划分处理装置100，本发明可以安装于电子设备中。根据实现的功能，该高效的数据划分处理装置100可以包括格式特定单元101、文件外置单元102、业务文件单元103、数据划分单元104。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
125.在本实施例中，关于各模块/单元的功能如下：
126.格式特定单元101，用于按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件；
127.文件外置单元102，用于通过hive的临时目录将特定格式文件置于预设的文件服务器中；
128.业务文件单元103，用于通过预设的前置业务系统从文件服务器中获取特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，预设的前置业务系统与文件服务器预连接；
129.数据划分单元104，用于在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理。
130.具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
131.如上所述，本发明提供的高效的数据划分处理装置，首先通过格式特定单元101按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件，再利用文件外置单元102通过hive的临时目录将所述特定格式文件置于预设的文件服务器中，而后利用业务文件单元103通过预设的前置业务系统从文件服务器中获取特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，该预设的前置业务系统与文件服务器预连接，再通过数据划分单元104在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理，在本实施例中，通过前置业务系统与文件服务器去处理小批量的数据可以为hive减轻压力，从而让hive能够更专注的处理真正意义上的“大数据，大大提高数据处理效率，进而节省人力和时间。
132.在图2所示的实施例中，本发明提供的高效的数据划分处理装置，具有如下好处：
①
在hive中执行mapreduce分析数据是非常消耗资源的事情，若果数据量较小，在多次执行mapreduce时会把资源占满，势必影响其他任务执行，而本实施例通过前置业务系统和文件服务器去处理小批量的数据可以为hive减轻压力，让hive能够更专注的处理真正意义上的“大数据”；
②
提高数据处理效率：实践表明传统技术在hive上处理1个月的数据需要花费2个多小时，而本实施例将部分逻辑下发至前置业务系统，hive处理月总数据大致在10分钟，前置业务系统内拆分文件大致为5分钟，处理效率提高了75％；
③
缩短处理时间，且节省人力。
133.如图3所示，本发明提供一种实现数据划分处理方法的电子设备1。
134.该电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在存储器11中并可在所述处理器10上运行的计算机程序，如高效的数据划分处理程序12。
135.其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如高效的数据划分处理的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
136.所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成
电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如高效的数据划分处理程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。
137.所述总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
138.图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
139.例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
140.进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如wi
‑
fi接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。
141.可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light
‑
emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
142.应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
143.所述电子设备1中的所述存储器11存储的高效的数据划分处理程序12是多个指令的组合，在所述处理器10中运行时，可以实现：
144.按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件；
145.通过hive的临时目录将特定格式文件置于预设的文件服务器中；
146.通过预设的前置业务系统从文件服务器中获取所述特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，该预设的前置业务系统与该文件服务器预连接；
147.在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理。
148.具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述高效的数据划分处理的私密和安全性，上述高效的数据划分处理的数据存储于本服务器集群所处区块链的节点中。
149.服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
150.进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)。
151.本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：
152.按照预设维度在hive中剥离待处理数据，并对待处理数据进行格式转换以形成特定格式文件；
153.通过hive的临时目录将特定格式文件置于预设的文件服务器中；
154.通过预设的前置业务系统从文件服务器中获取所述特定格式文件，并将特定格式文件保存至预设的业务服务器中以形成业务文件数据；其中，该预设的前置业务系统与该文件服务器预连接；
155.在业务服务器中对业务文件数据进行进行拆分处理以形成文件组，并对文件组进行另存储以完成数据划分处理。
156.具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例数据划分处理方法中相关步骤的描述，在此不赘述。
157.在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
158.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
159.另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
160.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
161.因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
162.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
163.此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
164.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

数据划分处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献