一种面向企业在线教育高效MPP大数据引擎处理方法与流程

2022-10-26 02:36:42 来源：中国专利 TAG：

一种面向企业在线教育高效mpp大数据引擎处理方法
技术领域
1.本发明涉及大数据引擎技术领域，具体而言，涉及一种面向企业在线教育高效mpp大数据引擎处理方法。

背景技术：

2.企业在线教育为应对日益增长的数据分析需求，对大数据引擎有比较急迫的需求。一般采用的是部署大数据集群做离线数据分析。而这种方式目前基本现象和缺陷有：企业大多采用的是传统的大数据解决方案来实现自己的数据需求。传统的大数据解决方案中为了保证服务的高可用和数据的容灾备份，需要部署多台服务器，有较高的硬件成本；在数据采集方面种类繁多，比如datax、sqoop、kettle等，往往是多种混用，组件多且不易维护；并且其还没有针对不同企业不同系统版本的处理方案，存在重复开发、维护难的缺点；于此同时大数据技术要求高，通常一个大数据集群使用的开源组件多达几十个，这么多的组件加大了技术人员的工作负担，其主要在于需要熟悉各种中间件，并能集成到企业的系统当中；并且运维人员和技术人员均需要了解所有的组件，才能够高效维护线上系统的稳定，由此导致运维成本的增长。

技术实现要素：

3.本发明的目的在于提供一种面向企业在线教育高效mpp大数据引擎处理方法，其能够将服务器成本、技术和运维复杂度降低。将流程缩减、服务组件减少，从而降低技术门槛，降低维护成本。
4.本发明的实施例是这样实现的：
5.第一方面，本技术实施例提供一种面向企业在线教育高效mpp大数据引擎处理方法，其包括建立标准快照数据库；预设数据仓库，数据仓库内的数据通过更新时间和创建时间获取当天内的新增及变化；根据数据仓库将其中的表分为维度表和事实表；将数据仓库的线上从库作为快照库，在执行快照之前，进行延迟同步判断验证；以外部表的方式采集数据输入至数据仓库，并从快照库内预设类型数据输入至数据仓库，并进行同步；当触发计算业务后，读取对应企业的配置信息，根据不同企业预设不同的计算模板；获取计算模板后，对计算模板的参数进行动态替换，生成基于结构化查询语言的执行模板；将企业对应的执行模板和由外部表输入的匹配数据输入至数据仓库；对数据仓库收到的数据，进行清洗和拉宽，并写入维度表和事实拉宽表；将对应的事实表写入预设的聚合表进行聚合计算。
6.在本发明的一些实施例中，根据数据仓库将其中的表分为维度表和事实表的步骤还包括：维度表采用更新时间为晚于或等于前一天的数据采集的开始时刻；事实表采用创建时间晚于或等于前一天数据采集的开始时刻且早于当天数据采集的开始时刻。
7.在本发明的一些实施例中，在执行快照之前，进行延迟同步判断验证的步骤包括：当触发数据仓库的主从库延时判断时，若延时没有超过预设条件则继续下一步骤；反之则进行等待，若等待次数超过预设次数，则进行报警；反之等待预设时间后，返回重新进行主
从库延时判断。
8.在本发明的一些实施例中，并从快照库内预设类型数据输入至数据仓库，并进行同步的步骤包括：从快照库按照日期将全量、增量的数据存储至数据仓库中，并结合ods贴源层更新模式设计的表进行数据同步。
9.在本发明的一些实施例中，根据不同企业预设不同的计算模板的步骤包括：根据不同企业分别预设无定制项目的公共模板和与对应公司匹配的定制模块。
10.在本发明的一些实施例中，将对应的事实表写入预设的聚合表进行聚合计算后的步骤还包括：外部表获取数据、对数据仓库收到的数据进行清洗和拉宽以及聚合计算三个步骤中任一步骤出现执行错误，均进行报警。
11.在本发明的一些实施例中，数据仓库采用开源数据库starrocks。
12.第二方面，本技术实施例提供一种面向企业在线教育高效mpp大数据引擎处理系统，其包括前置预设模块，用于建立标准快照数据库；预设数据仓库，数据仓库内的数据通过更新时间和创建时间获取当天内的新增及变化；根据数据仓库将其中的表分为维度表和事实表；延迟判断模块，用于将数据仓库的线上从库作为快照库，在执行快照之前，进行延迟同步判断验证；数据获取模块，用于以外部表的方式采集数据输入至数据仓库，并从快照库内预设类型数据输入至数据仓库，并进行同步；模板预设模块，用于当触发计算业务后，读取对应企业的配置信息，根据不同企业预设不同的计算模板；执行模板生成模块，用于获取计算模板后，对计算模板的参数进行动态替换，生成基于结构化查询语言的执行模板；综合数据获取模块，用于将企业对应的执行模板和由外部表输入的匹配数据输入至数据仓库；数据清洗模块，用于对数据仓库收到的数据，进行清洗和拉宽，并写入维度表和事实拉宽表；结果计算模块，用于将对应的事实表写入预设的聚合表进行聚合计算。
13.第三方面，本技术实施例提供一种电子设备，包括至少一个处理器、至少一个存储器和数据总线；其中：处理器与存储器通过数据总线完成相互间的通信；存储器存储有可被处理器执行的程序指令，处理器调用程序指令以执行一种面向企业在线教育高效mpp大数据引擎处理方法。
14.第四方面，本技术实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现一种面向企业在线教育高效mpp大数据引擎处理方法。
15.相对于现有技术，本发明的实施例至少具有如下优点或有益效果：
16.本设计通过编写sql的方法来完成大数据的分析过程，简单高效。通过外部表与消息中间件作为离线和实时数据同步的方式来保证数据的采集时效性和准确性，针对不同的业务场景使用离线和实时方案。通过批流一体的计算实现对数据的清洗、加工、计算得到分析结果。从而实现技术收敛，将服务器成本、技术和运维复杂度降低。将流程缩减、服务组件减少，从而降低技术门槛，而且也只需要一种大数据引擎就能够支撑所有的大数据分析，不在需要引入其他分析引擎，降低维护成本。
附图说明
17.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这
些附图获得其他相关的附图。
18.图1为本发明中一种面向企业在线教育高效mpp大数据引擎处理方法的流程图；
19.图2为本发明中一种面向企业在线教育高效mpp大数据引擎处理方法的程序框图；
20.图3为本发明中一种面向企业在线教育高效mpp大数据引擎处理方法的另一种流程图；
21.图4为本发明中一种面向企业在线教育高效mpp大数据引擎处理系统的结构示意图；
22.图5为本发明中一种电子设备的结构示意图。
23.图标：1、前置预设模块；2、延迟判断模块；3、数据获取模块；4、模板预设模块；5、执行模板生成模块；6、综合数据获取模块；7、数据清洗模块；8、结果计算模块；9、处理器；10、存储器；11、数据总线。
具体实施方式
24.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
25.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
26.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
27.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
28.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。
29.实施例1
30.请参阅图1和图2，为本技术实施例提供的一种面向企业在线教育高效mpp大数据引擎处理方法，本设计通过编写sql的方法来完成大数据的分析过程，简单高效。通过外部表与消息中间件作为离线和实时数据同步的方式来保证数据的采集时效性和准确性，针对不同的业务场景使用离线和实时方案。通过批流一体的计算实现对数据的清洗、加工、计算得到分析结果。从而实现技术收敛，将服务器成本、技术和运维复杂度降低。将流程缩减、服务组件减少，从而降低技术门槛，而且也只需要一种大数据引擎就能够支撑所有的大数据分析，不在需要引入其他分析引擎，降低维护成本。
31.s1：建立标准快照数据库；预设数据仓库，数据仓库内的数据通过更新时间和创建
时间获取当天内的新增及变化；根据数据仓库将其中的表分为维度表和事实表；
32.本设计主要分为业务数据采集和数据仓库计算两个部分，首先业务数据采集主要的来源是业务的数据库。通过提供一套标准的快照数据库，不同的系统版本和个性化需求只要按照标准统一处理就能够兼容。数据库的数据通过更新时间和创建时间获取当天新增及变化。保证数据不重复不丢失。
33.s2：将数据仓库的线上从库作为快照库，在执行快照之前，进行延迟同步判断验证；
34.延迟的判断验证，主要是为了兼顾线上从库作为快照库的方式，在执行快照之前，每次都会去判断主从同步是否延迟。
35.s3：以外部表的方式采集数据输入至数据仓库，并从快照库内预设类型数据输入至数据仓库，并进行同步；
36.数据输入至数据仓库采用的是外部表的方式，从快照数据库按照日期将全量、增量的数据拉取到数据仓库，结合ods贴源层更新模式设计的表可以实现数据的精确同步。
37.s4：当触发计算业务后，读取对应企业的配置信息，根据不同企业预设不同的计算模板；
38.以模板的形式进行数据梳理，可以使得企业数据位置确定，从而方便后续计算时数据获取。
39.s5：获取计算模板后，对计算模板的参数进行动态替换，生成基于结构化查询语言的执行模板；
40.获取模板后，需要动态的去替换模板的参数，包含企业参数、日期参数等。替换后基于结构化查询语言(sql)的执行模板，就是可以在数据库执行的语句。且不同的企业数据写入不同的数据库，保证数据的物理隔离方便管理和迁移。
41.s6：将企业对应的执行模板和由外部表输入的匹配数据输入至数据仓库；
42.该步骤主要是对企业数据和采集数据的汇总。
43.s7：对数据仓库收到的数据，进行清洗和拉宽，并写入维度表和事实拉宽表；
44.进行数据的清洗和拉宽写入维度表和事实拉宽表，这部分包含了脏数据的清洗和事实表拉宽。
45.s8：将对应的事实表写入预设的聚合表进行聚合计算。
46.利用多个预设的公式，进行聚合计算，并将计算结果通过聚合表进行储存。
47.请参阅图3，在本发明的一些实施例中，根据数据仓库将其中的表分为维度表和事实表的步骤还包括：s11：维度表采用更新时间为晚于或等于前一天的数据采集的开始时刻；事实表采用创建时间晚于或等于前一天数据采集的开始时刻且早于当天数据采集的开始时刻。
48.根据数据仓库的设计，将表分为维度表和事实表。对于维度表为了避免数据逃逸，使用更新时间大于等于前一天的开始时间；对于事实表，它们是作为明细数据保存的，使用创建时间大于等于前一天开始时间且小于当天开始时间，旨在保证数据不重复以及不丢失。
49.在本发明的一些实施例中，在执行快照之前，进行延迟同步判断验证的步骤包括：当触发数据仓库的主从库延时判断时，若延时没有超过预设条件则继续下一步骤；反之则
进行等待，若等待次数超过预设次数，则进行报警；反之等待预设时间后，返回重新进行主从库延时判断。对于延时判断，其主要是为了保证数据的同步，使得延时不会对数据造成获取错误或数据异常。
50.在本发明的一些实施例中，并从快照库内预设类型数据输入至数据仓库，并进行同步的步骤包括：从快照库按照日期将全量、增量的数据存储至数据仓库中，并结合ods贴源层更新模式设计的表进行数据同步。
51.数据仓库接入的数据也是遵循二八原则的，即80％以上的表数据量非常小，只占用接口20％的存储空间；剩下20％的表数据量比较大，有必要并且适合花算力去做增量同步。由此仅需利用ods贴源层更新模式对数据量比较大的内容进行同步。从而使得数据处理更为合理。
52.在本发明的一些实施例中，根据不同企业预设不同的计算模板的步骤包括：根据不同企业分别预设无定制项目的公共模板和与对应公司匹配的定制模块。公用模块的采用旨在对大多数公司通用数据进行使用，从而提高效率，而对于非通用数据则进行定制化模板。
53.在本发明的一些实施例中，将对应的事实表写入预设的聚合表进行聚合计算后的步骤还包括：外部表获取数据、对数据仓库收到的数据进行清洗和拉宽以及聚合计算三个步骤中任一步骤出现执行错误，均进行报警。对于数据处理的异常报警有助于操作人员进行问题的及时发现，提高维护效率。
54.在本发明的一些实施例中，数据仓库采用开源数据库starrocks。其中starrocks是开源的新一代极速全场景mpp数据库。它采用新一代的弹性mpp架构，可以高效支持大数据量级的多维分析、实时分析、高并发分析等多种数据分析场景。starrocks性能出色，它采用了全面向量化技术，比同类产品平均快3-5倍。
55.实施例2
56.请参阅图4，为本发明提供的一种面向企业在线教育高效mpp大数据引擎处理系统，包括前置预设模块1，用于建立标准快照数据库；预设数据仓库，数据仓库内的数据通过更新时间和创建时间获取当天内的新增及变化；根据数据仓库将其中的表分为维度表和事实表；延迟判断模块2，用于将数据仓库的线上从库作为快照库，在执行快照之前，进行延迟同步判断验证；数据获取模块3，用于以外部表的方式采集数据输入至数据仓库，并从快照库内预设类型数据输入至数据仓库，并进行同步；模板预设模块4，用于当触发计算业务后，读取对应企业的配置信息，根据不同企业预设不同的计算模板；执行模板生成模块5，用于获取计算模板后，对计算模板的参数进行动态替换，生成基于结构化查询语言的执行模板；综合数据获取模块6，用于将企业对应的执行模板和由外部表输入的匹配数据输入至数据仓库；数据清洗模块7，用于对数据仓库收到的数据，进行清洗和拉宽，并写入维度表和事实拉宽表；结果计算模块8，用于将对应的事实表写入预设的聚合表进行聚合计算。
57.实施例3
58.请参阅图5，为本发明提供的一种电子设备，包括至少一个处理器9、至少一个存储器10和数据总线11；其中：处理器9与存储器10通过数据总线11完成相互间的通信；存储器10存储有可被处理器9执行的程序指令，处理器9调用程序指令以执行一种面向企业在线教育高效mpp大数据引擎处理系统。例如实现：
59.建立标准快照数据库；预设数据仓库，数据仓库内的数据通过更新时间和创建时间获取当天内的新增及变化；根据数据仓库将其中的表分为维度表和事实表；将数据仓库的线上从库作为快照库，在执行快照之前，进行延迟同步判断验证；以外部表的方式采集数据输入至数据仓库，并从快照库内预设类型数据输入至数据仓库，并进行同步；当触发计算业务后，读取对应企业的配置信息，根据不同企业预设不同的计算模板；获取计算模板后，对计算模板的参数进行动态替换，生成基于结构化查询语言的执行模板；将企业对应的执行模板和由外部表输入的匹配数据输入至数据仓库；对数据仓库收到的数据，进行清洗和拉宽，并写入维度表和事实拉宽表；将对应的事实表写入预设的聚合表进行聚合计算。
60.实施例4
61.本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器9执行时实现一种面向企业在线教育高效mpp大数据引擎处理系统。例如实现：
62.建立标准快照数据库；预设数据仓库，数据仓库内的数据通过更新时间和创建时间获取当天内的新增及变化；根据数据仓库将其中的表分为维度表和事实表；将数据仓库的线上从库作为快照库，在执行快照之前，进行延迟同步判断验证；以外部表的方式采集数据输入至数据仓库，并从快照库内预设类型数据输入至数据仓库，并进行同步；当触发计算业务后，读取对应企业的配置信息，根据不同企业预设不同的计算模板；获取计算模板后，对计算模板的参数进行动态替换，生成基于结构化查询语言的执行模板；将企业对应的执行模板和由外部表输入的匹配数据输入至数据仓库；对数据仓库收到的数据，进行清洗和拉宽，并写入维度表和事实拉宽表；将对应的事实表写入预设的聚合表进行聚合计算。
63.其中，存储器10可以是但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。
64.处理器9可以是一种集成电路芯片，具有信号处理能力。该处理器9可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processing，dsp)、专用集成电路(appl ication specific integrated circuit，asic)、现场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
65.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
66.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其它的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：能耗管控方法、装置、存储介质及电子设备与流程

一种面向企业在线教育高效MPP大数据引擎处理方法与流程

相关文献

最热文献