数据处理方法、装置、电子设备及存储介质与流程

2022-07-02 08:55:08 来源：中国专利 TAG：

1.本发明实施例涉及数据处理领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术：

2.自如朱墨系统是为了管理公司运营成本而生成的财务报表系统。该系统展现了公司的盈利状况。报表内容主要分成三大块，收入、成本和利润。其中成本里面有些公共成本不应该摊派到具体的某个城市或者大区的项目身上，或者不应该全部分摊到某一项目上，而是根据具体的规则分摊到全部项目上。而朱墨系统就是为了做这个事情孕育而生的。
3.朱墨系统面临的数据量非常大，随着业务线的数据不断加入，系统的性能就面临着越来越大的压力。由于成本分摊计算的数据量比较大，当前系统架构存在一些瓶颈问题，如下：
4.数据量大，计算复杂；随着各个业务线(长租、资管、曼舍、家服、家装等)的增加，数据量也越来越多，参与成本分摊计算的逻辑也越来越多，单实例单数据库及单表已经越来越不能满足系统的要求。而且每个业务线的处理维度也不相同，比如说长租是按照出房合同号进行数据管理的，而资管业务线是按照库存进行数据管理的；每个业务线的报表项的个数及内容也不相同。
5.程序执行的结构单一；执行流程是单一的串行逻辑，每执行一步都需要等上一步执行完毕才能进行下一步。具体执行步骤如图1所示，该程序处理流程为串行逻辑处理，每一步都要等待上一步执行完毕才行，其中第八步与第九步最为耗时，这两步里面存在大量的计算逻辑处理，所以执行时间比较长，等待时间就比较久。
6.成本分摊系数存在聚合函数；在计算逻辑中，需要计算分摊系数即具体的分摊占比，其中分子根据查询条件找到合同下的具体某个分摊规则的数值；分母则是根据分摊数据的查询条件汇总出来的一个总计数值，由于这个查询条件的查询项不定，并且查询只能全盘扫描，导致查询效率低下，且查询内容也不一致。所以导致很难在这个查询上加索引来提高查询效率。
7.随着报表项的增加，性能降低；由于系统目前选用的是关系型数据库mysql，且在运行过程中随着报表项的增加而进行横向扩展，单表横向扩展的列逐渐增多，读写的能力就会逐渐下降，这个是由关系型数据库的特点决定的。关系型数据库无法应对每秒上万次的读写请求，无法处理大量集中的高并发操作。

技术实现要素：

8.鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种数据处理方法、装置、电子设备及存储介质。
9.第一方面，本发明实施例提供一种数据处理方法，包括：
10.获取全部业务线的原始数据；
11.将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；
12.对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；
13.调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；
14.将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据。
15.在一个可能的实施方式中，所述方法还包括：
16.获取分布式集群中每个节点设备的数据处理能力信息；
17.基于所述数据处理能力信息为每个所述节点设备分配目标数据处理任务，以使所述分布式集群对所述原始数据进行分布式处理，并将处理完成后的原始数据存储在预设缓存区域。
18.在一个可能的实施方式中，所述方法还包括：
19.确定数据计算逻辑；
20.基于所述数据计算逻辑，调用所述预设缓存区域存储的目标原始数据，将所述目标原始数据基于所述数据计算逻辑进行计算，得到目标数据。
21.在一个可能的实施方式中，所述方法还包括：
22.获取数据调用程序中携带的数据调用指令；
23.基于所述数据调用指令，调用所述第二数据库中存储的目标数据。
24.在一个可能的实施方式中，所述方法还包括：
25.对当前登录的用户信息进行校验；
26.在所述用户信息校验通过时，接收用户端新建的数据调用程序。
27.在一个可能的实施方式中，所述方法还包括：
28.实时监测全部所述业务线的原始数据；
29.在所述原始数据发生更新时，将对应的所述第一数据库中存储的原始数据进行更新。
30.在一个可能的实施方式中，所述方法还包括：所述第一数据库为关系型数据库；
31.所述第二数据库为clickhouse数据库。
32.第二方面，本发明实施例提供一种数据处理装置，包括：
33.获取模块，用于获取全部业务线的原始数据；
34.存储模块，用于将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；
35.处理模块，用于对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；
36.所述处理模块，还用于调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；
37.所述存储模块，还用于将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据。
38.第三方面，本发明实施例提供一种电子设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的数据处理程序，以实现上述第一方面中所述的数据处理方
法。
39.第四方面，本发明实施例提供一种存储介质，包括：所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面中所述的数据处理方法。
40.本发明实施例提供的数据处理方案，通过获取全部业务线的原始数据；将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据，相比于现有系统仅使用关系型数据库且程序执行结构单一，当面临较大数据量时无法处理大量集中的高并发操作，造成数据处理效率低下并且系统不稳定的问题，由本方案，通过两种数据库共同存储数据以及应用分布式集群对数据进行分布式处理，可以处理大量集中的高并发操作，提高数据处理效率，保证系统稳定性。
附图说明
41.图1为现有的程序执行步骤示意图；
42.图2为本发明实施例提供一种数据处理方法的流程示意图；
43.图3为本发明实施例提供另一种数据处理方法的流程示意图；
44.图4为本发明实施例提供又一种数据处理方法的流程示意图；
45.图5为本发明实施例提供一种数据处理装置的结构示意图；
46.图6为本发明实施例提供一种电子设备的结构示意图。
具体实施方式
47.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
48.为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。
49.图2为本发明实施例提供一种数据处理方法的流程示意图，如图2所示，该方法具体包括：
50.s21、获取全部业务线的原始数据。
51.本发明优先适用于自如的朱墨系统，该系统用于管理公司的运营成本。
52.本发明实施例中，全部业务线可以包括但不限于：长租、资管、曼舍、家服、家装等业务；原始数据可以包括但不限于：员工工资、营销成本、职能、管财差、房租收入等数据。
53.s22、将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置。
54.本发明实施例中，第一数据库可以为关系型数据库，例如mysql数据库，预先在第一数据库中根据不同的业务线，为每个业务线划分对应的存储空间，进而将获取到的原始数据按照其对应的业务线，存储到第一数据库的对应位置。
55.s23、对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域。
56.在原始数据存储到第一数据库完成后，启动sqoop调度任务使用hive数据仓库工具将原始数据和核算数据加工处理生成中间待处理的数据存入缓存中，其中，核算数据包括但不限于项目数据、库存数据、结算数据等；缓存可以是hadoop、mongodb等；加工处理可以是分布式处理，即将原始数据按照分布式集群中每个节点设备的数据处理能力，对应分配数据处理任务，实现分布式集群对数据的加工处理。
57.s24、调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据。
58.s25、将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据。
59.待所有数据加工处理完成后，sqoop调度任务再启动spark集群离线计算分摊逻辑，即将原来在java中实现的逻辑放在大数据集群中计算，最终将计算的结果存入第二数据库，该第二数据库可以是clickhouse数据库，由于clickhouse数据库是行存储的，没有存储限制，并且查询速度快，适合做各种报表分析，各业务线服务可以通过clickhouse数据库展示各种需求报表，各个数据调用程序可以通过clickhouse数据库调用数据，完成数据分析计算。
60.需要说明的是，系统可以实时监测全部业务线的原始数据，在原始数据发生更新时，将对应的第一数据库中存储的原始数据进行更新。
61.本发明实施例提供的数据处理方案，通过获取全部业务线的原始数据；将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据，相比于现有系统仅使用关系型数据库且程序执行结构单一，当面临较大数据量时无法处理大量集中的高并发操作，造成数据处理效率低下并且系统不稳定的问题，由本方案，通过两种数据库共同存储数据以及应用分布式集群对数据进行分布式处理，可以处理大量集中的高并发操作，提高数据处理效率，保证系统稳定性。
62.图3为本发明实施例提供另一种数据处理方法的流程示意图，如图3所示，该方法具体包括：
63.s31、获取分布式集群中每个节点设备的数据处理能力信息。
64.本发明实施例中，分布式集群由多个节点设备组成，可以用于处理高并发的数据处理任务，获取分布式集群中每个节点设备的数据处理能力信息，数据处理能力可以为每个节点设备的最大一次性数据处理量等信息。
65.s32、基于所述数据处理能力信息为每个所述节点设备分配目标数据处理任务，以使所述分布式集群对所述原始数据进行分布式处理，并将处理完成后的原始数据存储在预设缓存区域。
66.基于每个节点设备的数据处理能力信息，为每个节点设备分配目标数据处理任务，实现分布式集群对数据的加工处理，生成中间待处理的数据存入预设缓存区域中。
67.s33、确定数据计算逻辑。
68.s34、基于所述数据计算逻辑，调用所述预设缓存区域存储的目标原始数据，将所述目标原始数据基于所述数据计算逻辑进行计算，得到目标数据。
69.本发明实施例中，数据计算逻辑可以是成本分摊系数的计算，成本分摊系数中使用聚合函数；利用大数据平台的分布式集群，基于数据计算逻辑，调用预设缓存区域存储的目标原始数据，将目标原始数据基于数据计算逻辑进行计算得到目标数据，目标数据可以是算好分摊的分子和分母；充分利用大数据集群计算的优势，在计算分摊系数的时候直接将分摊分子和分摊分母拿出来，进行利用计算即可，这样提高了计算的时效。
70.图4为本发明实施例提供又一种数据处理方法的流程示意图，如图4所示，该方法具体包括：
71.s41、对当前登录的用户信息进行校验。
72.s42、在所述用户信息校验通过时，接收用户端新建的数据调用程序。
73.用户通过系统的用户端输入用户信息，对用户信息进行校验，在经过授权中心身份校验成功后，接收用户端新建的数据调用程序，请求到达api网关，经过网关请求转发及分配达到各个业务线的服务。
74.s43、获取数据调用程序中携带的数据调用指令。
75.s44、基于所述数据调用指令，调用所述第二数据库中存储的目标数据。
76.获取数据调用程序中携带的数据调用指令，基于该数据调用指令可以确定数据调用程序所需的目标数据，即计算所需的目标数据，进而在第二数据库中查询所需的目标数据，进行调用。
77.图5为本发明实施例提供一种数据处理装置的结构示意图，如图5所示，具体包括：
78.获取模块501，用于获取全部业务线的原始数据；
79.存储模块502，用于将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；
80.处理模块503，用于对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；
81.所述处理模块503，还用于调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；
82.所述存储模块502，还用于将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据。
83.在一个可能的实施方式中，所述获取模块501，具体用于对当前登录的用户信息进行校验；在所述用户信息校验通过时，接收用户端新建的数据调用程序。
84.在一个可能的实施方式中，所述存储模块502，具体用于获取数据调用程序中携带的数据调用指令；基于所述数据调用指令，调用所述第二数据库中存储的目标数据。
85.在一个可能的实施方式中，所述处理模块503，具体用于获取分布式集群中每个节点设备的数据处理能力信息；基于所述数据处理能力信息为每个所述节点设备分配目标数据处理任务，以使所述分布式集群对所述原始数据进行分布式处理，并将处理完成后的原始数据存储在预设缓存区域。
86.在一个可能的实施方式中，所述处理模块503，还用于确定数据计算逻辑；基于所述数据计算逻辑，调用所述预设缓存区域存储的目标原始数据，将所述目标原始数据基于
所述数据计算逻辑进行计算，得到目标数据。
87.在一个可能的实施方式中，所述处理模块503，还用于实时监测全部所述业务线的原始数据；在所述原始数据发生更新时，将对应的所述第一数据库中存储的原始数据进行更新。
88.本实施例提供的数据处理装置可以是如图5中所示的数据处理装置，可执行如图2-4中数据处理方法的所有步骤，进而实现图2-4所示数据处理方法的技术效果，具体请参照图2-4相关描述，为简洁描述，在此不作赘述。
89.图6为本发明实施例提供的一种电子设备的结构示意图，图6所示的电子设备600包括：至少一个处理器601、存储器602、至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线系统605耦合在一起。可理解，总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统605。
90.其中，用户接口603可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。
91.可以理解，本发明实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
92.在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统6021和应用程序6022。
93.其中，操作系统6021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。
94.在本发明实施例中，通过调用存储器602存储的程序或指令，具体的，可以是应用程序6022中存储的程序或指令，处理器601用于执行各方法实施例所提供的方法步骤，例如包括：
95.获取全部业务线的原始数据；将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二
数据库中存储的目标数据。
96.在一个可能的实施方式中，获取分布式集群中每个节点设备的数据处理能力信息；基于所述数据处理能力信息为每个所述节点设备分配目标数据处理任务，以使所述分布式集群对所述原始数据进行分布式处理，并将处理完成后的原始数据存储在预设缓存区域。
97.在一个可能的实施方式中，确定数据计算逻辑；基于所述数据计算逻辑，调用所述预设缓存区域存储的目标原始数据，将所述目标原始数据基于所述数据计算逻辑进行计算，得到目标数据。
98.在一个可能的实施方式中，获取数据调用程序中携带的数据调用指令；基于所述数据调用指令，调用所述第二数据库中存储的目标数据。
99.在一个可能的实施方式中，对当前登录的用户信息进行校验；在所述用户信息校验通过时，接收用户端新建的数据调用程序。
100.在一个可能的实施方式中，实时监测全部所述业务线的原始数据；在所述原始数据发生更新时，将对应的所述第一数据库中存储的原始数据进行更新。
101.在一个可能的实施方式中，所述第一数据库为关系型数据库；所述第二数据库为clickhouse数据库。
102.上述本发明实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。
103.可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dspdevice，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
104.对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
105.本实施例提供的电子设备可以是如图6中所示的电子设备，可执行如图2-4中数据处理方法的所有步骤，进而实现图2-4所示数据处理方法的技术效果，具体请参照图2-4相关描述，为简洁描述，在此不作赘述。
106.本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。
107.当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的数据处理方法。
108.所述处理器用于执行存储器中存储的数据处理程序，以实现以下在电子设备侧执行的数据处理方法的步骤：
109.获取全部业务线的原始数据；将所述原始数据按照对应的业务线分别存储在第一数据库的对应位置；对所述第一数据库存储的原始数据进行分布式处理，将处理完成后的原始数据存储在预设缓存区域；调用所述预设缓存区域存储的处理完成后的原始数据，计算得到目标数据；将所述目标数据存储在第二数据库中，以使数据调用程序调用所述第二数据库中存储的目标数据。
110.在一个可能的实施方式中，获取分布式集群中每个节点设备的数据处理能力信息；基于所述数据处理能力信息为每个所述节点设备分配目标数据处理任务，以使所述分布式集群对所述原始数据进行分布式处理，并将处理完成后的原始数据存储在预设缓存区域。
111.在一个可能的实施方式中，确定数据计算逻辑；基于所述数据计算逻辑，调用所述预设缓存区域存储的目标原始数据，将所述目标原始数据基于所述数据计算逻辑进行计算，得到目标数据。
112.在一个可能的实施方式中，获取数据调用程序中携带的数据调用指令；基于所述数据调用指令，调用所述第二数据库中存储的目标数据。
113.在一个可能的实施方式中，对当前登录的用户信息进行校验；在所述用户信息校验通过时，接收用户端新建的数据调用程序。
114.在一个可能的实施方式中，实时监测全部所述业务线的原始数据；在所述原始数据发生更新时，将对应的所述第一数据库中存储的原始数据进行更新。
115.在一个可能的实施方式中，所述第一数据库为关系型数据库；所述第二数据库为clickhouse数据库。
116.专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
117.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
118.以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步
详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于模拟和技术发展水平的指挥控制效能提升量化方法与流程

数据处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献