一种批量数据入库方法及系统与流程

2022-06-16 05:23:38 来源：中国专利 TAG：

1.本发明属于计算机技术领域，具体为一种批量数据入库方法及系统。

背景技术：

2.数据仓库是为给企业所有级别的决策制定过程，提供所有类型数据支持的战略集合，被认为是商业智能的核心组件，它是由多种多样的数据信息构成，数据仓库中的数据是对原有的分散数据进行提取整合，加工汇总得到的，并且数据量非常大。
3.在对零散信息数据输入数据仓库时，传统的方式是在离线状态下进行信息的传输，信息传输前经过整合处理，传输时所有数据直接进行传输，对服务器的压力较大，容易影响数据的传输速度并且造成服务器过载影响使用寿命，因此针对上述问题提出一种具有数据上传处理效果好的数据入库方法及系统。

技术实现要素：

4.针对现有技术的不足，本发明提供了一种批量数据入库方法及系统，具有数据上传处理效果好的优点。
5.为实现上述目的，本发明提供如下技术方案：一种批量数据入库方法及系统，该批量数据入库系统包括检测模块、数据接收模块、数据处理模块、数据引擎、数据库和数据清理模块，该批量数据入库方法包括离线数据入库和实时数据入库两种方式，具体操作步骤如下：
6.s1：离线数据入库：
7.s11：通过数据引擎对数据进行提取；
8.s12：通过数据接收模块把数据进行汇集并通过数据清理模块对数据进行清理；
9.s13：根据数据处理模块对清理后的数据配置sql脚本，并把脚本信息储存在数据处理模块的内存中；
10.s14：通过检测模块对服务器性能进行检测并设定适合的上传数据大小；
11.s15：以s14中适合的上传数据大小为标准，把所有数据按照标准进行批量转化，归类分批；
12.s16：把转化后的数据上传到数据库并通过s13中配置的sql脚本对数据进行拼接整合。
13.s2：实时数据入库：
14.s21：通过检测模块对服务器性能进行检测并设定适合的上传数据大小；
15.s22：以设定的合适的上传数据大小为标准，并通过数据引擎进行实时抽取数据；
16.s23：通过数据接收模块接收数据并通过数据清理模块对抽取的数据进行清理，通过数据处理模块对清理后的数据配置sql脚本，把脚本储存在数据处理模块的内存中，
17.s24：对清理后的数据进行上传，并且备份在服务器中作为数据样本；
18.s25：上传后的数据经过s23中配置好的sql脚本进行拼接整合；
19.s26：继续提取符合标准大小的数据，并以之前备份保存在服务器中的数据样本作为主数据，对新提取的数据进行数据清理，数据清理后同样上传并备份保存在服务器中；
20.s27：重复上述s22——s26中的操作直至数据全部上传。
21.优选的，所述s12与s23中通过数据清理模块清理后的数据需要转化为预设格式，并通过预设格式对sql脚本进行配置，所述预设格式为数据仓库中数据储存结构格式，以目标数据的名称和时间信息确定所述目标数据的主键或联合主键，通过这种方式，能够方便对sql脚本进行配置，通过预设格式的转化，能够方便数据仓库对数据的储存，并且能够提高sql脚本的准确度，便于数据的转化，也便于后期对上传数据的处理与调用。
22.优选的，针对已经入库的数据建立索引与内部表格，并把内部表格转化为外部表格，通过建立索引与表格，能够方便对数据进行查询，同时便于下游数据引擎进行查询与下载，便于数据的使用。
23.优选的，所述s26中对新提取的数据进行数据清理时，作为主数据的数据样本不进行清理，仅对新提取的数据样本进行数据清理，新提取的数据经过清理后备份保存时并入之前的数据样本，这样的设计能够保证新提取数据与已上传数据之间具有较高的准确度，不会产生重复信息，保证数据的一致性，并且仅对新提取的数据进行清理，能够保证已上传数据的准确性。
24.优选的，所述sql脚本的解析通过异步线程进行，异步线程能够多线程多文件处理，在其中一个文件处理时并不会停下等待此文件处理完，而是通过新的线程对新的文件进行处理，保证了数据处理的速度，节省时间，提高效率。
25.优选的，所述s23中经过数据清理后的数据大小小于或等于标准数据的大小，提取出的新数据经过清理后，清理掉内部的重复数据，与错误数据，其大小相对于清理之前的大小，具有一定的减小，并不会影响数据上传速度，并且对数据进行分批，能够降低数据上传太快对服务器性能的压力。
26.优选的，所述s12和s23中的数据清理分为三个步骤，第一步骤为偏差检验，第二步为数据变换，第三步骤为人为抽查，且前两个步骤迭代进行，清理时首先对冲突的拼写规则和冲突的数据等人为误差进行重新拼写，并对数据中一些对分析结果造成较大影响的特殊数值进行排除，接着对数据的逻辑一致性进行检查，排除逻辑错误，最后通过人工对数据质量进行抽查，判定错误数据对数据整体结果的影响，了解数据质量，通过数据清理的过程，既能够找出数据间的拼写错误、规则间的冲突，又能够排除对数据分析结果造成较大影响的特殊数据，保证分析数据的有效性和准确性，最后通过人工对数据质量进行抽查，能够了解数据的整体质量，提高对数据的了解程度。
27.优选的，所述s14与s21中的检测模块对服务器的检测包括硬盘储存空间、内存、cpu以及宽带，服务器的硬盘储存是数据库大小的限制因素，存储还可以采用网络储存的形式，服务器内存的大小会影响服务器处理指令的速度，处理复杂与更多的指令时，需求更高的内存，cpu是影响sql脚本解析的主要影响因素，cpu和内核的数量会影响可执行多少个并发指令，也影响执行指令的速度，宽带对数据传输具有很大限制，越高的宽带并发到服务器的数据量越大，多种硬件共同限制了数据传输的效果，针对不同的服务器配置，动态的确定适合的标准数据大小，能够有效的减少服务器压力，提高数据传输效率。
28.与现有技术相比，本发明的有益效果如下：
29.本技术通过在离线数据入库时对数据进行清理，清理后的数据用来配置sql脚本，通过检测模块对服务器性能进行检测，并对数据进行分批转化上传处理，大大减轻了服务器的压力，提高了服务器的使用寿命，提高了数据的上传效率；在实时数据上传时，对提取出的标准大小的数据进行数据清理，保证数据的一致性，并且通过后续新数据与已上传数据的对比清理，保证新数据的正确性，并且数据不会产生重复，保证了数据的一致性，提高了数据传输的效果。
附图说明
30.图1为本发明离线数据入库流程图；
31.图2为本发明实时数据入库流程图。
具体实施方式
32.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
33.如图1至图2所示，本发明提供一种技术方案：一种批量数据入库方法及系统，该批量数据入库系统包括检测模块、数据接收模块、数据处理模块、数据引擎、数据库和数据清理模块，该批量数据入库方法包括离线数据入库和实时数据入库两种方式，具体操作步骤如下：
34.s1：离线数据入库：
35.s11：通过数据引擎对数据进行提取；
36.s12：通过数据接收模块把数据进行汇集并通过数据清理模块对数据进行清理；
37.s13：根据数据处理模块对清理后的数据配置sql脚本，并把脚本信息储存在数据处理模块的内存中；
38.s14：通过检测模块对服务器性能进行检测并设定适合的上传数据大小；
39.s15：以s14中适合的上传数据大小为标准，把所有数据按照标准进行批量转化，归类分批；
40.s16：把转化后的数据上传到数据库并通过s13中配置的sql脚本对数据进行拼接整合。
41.s2：实时数据入库：
42.s21：通过检测模块对服务器性能进行检测并设定适合的上传数据大小；
43.s22：以设定的合适的上传数据大小为标准，并通过数据引擎进行实时抽取数据；
44.s23：通过数据接收模块接收数据并通过数据清理模块对抽取的数据进行清理，通过数据处理模块对清理后的数据配置sql脚本，把脚本储存在数据处理模块的内存中，
45.s24：对清理后的数据进行上传，并且备份在服务器中作为数据样本；
46.s25：上传后的数据经过s23中配置好的sql脚本进行拼接整合；
47.s26：继续提取符合标准大小的数据，并以之前备份保存在服务器中的数据样本作为主数据，对新提取的数据进行数据清理，数据清理后同样上传并备份保存在服务器中；
48.s27：重复上述s22——s26中的操作直至数据全部上传。
49.其中，所述s12与s23中通过数据清理模块清理后的数据需要转化为预设格式，并通过预设格式对sql脚本进行配置，通过此方式能够便于对sql脚本进行配置，通过预设格式的转化，能够提高sql脚本的准确度，并且能够提高转化速度，也便于对上传后的数据进行处理。
50.其中，针对已经入库的数据建立索引与内部表格，并把内部表格转化为外部表格，通过建立索引与表格，能够方便对数据进行查询，同时便于下游数据引擎进行查询与下载，便于数据的使用。
51.其中，所述s26中对新提取的数据进行数据清理时，作为主数据的数据样本不进行清理，仅对新提取的数据样本进行数据清理，新提取的数据经过清理后备份保存时并入之前的数据样本，这样的设计能够保证新提取数据与已上传数据之间具有较高的准确度，不会产生重复信息，保证数据的一致性，并且仅对新提取的数据进行清理，能够保证已上传数据的准确性。
52.其中，所述sql脚本的解析通过异步线程进行，异步线程能够多线程多文件处理，在其中一个文件处理时并不会停下等待此文件处理完，而是通过新的线程对新的文件进行处理，保证了数据处理的速度，节省时间，提高效率。
53.其中，所述s23中经过数据清理后的数据大小小于或等于标准数据的大小，提取出的新数据经过清理后，清理掉内部的重复数据，与错误数据，其大小相对于清理之前的大小，具有一定的减小，并不会影响数据上传速度，并且对数据进行分批，能够降低数据上传太快对服务器性能的压力。
54.其中，所述s12和s23中的数据清理分为三个步骤，第一步骤为偏差检验，第二步为数据变换，第三步骤为人为抽查，且前两个步骤迭代进行，清理时首先对冲突的拼写规则和冲突的数据等人为误差进行重新拼写，并对数据中一些对分析结果造成较大影响的特殊数值进行排除，接着对数据的逻辑一致性进行检查，排除逻辑错误，最后通过人工对数据质量进行抽查，判定错误数据对数据整体结果的影响，了解数据质量，通过数据清理的过程，既能够找出数据间的拼写错误、规则间的冲突，又能够排除对数据分析结果造成较大影响的特殊数据，保证分析数据的有效性和准确性，最后通过人工对数据质量进行抽查，能够了解数据的整体质量，提高对数据的了解程度。
55.其中，所述s14与s21中的检测模块对服务器的检测包括硬盘储存空间、内存、cpu以及宽带，服务器的硬盘储存是数据库大小的限制因素，存储还可以采用网络储存的形式，服务器内存的大小会影响服务器处理指令的速度，处理复杂与更多的指令时，需求更高的内存，cpu是影响sql脚本解析的主要影响因素，cpu和内核的数量会影响可执行多少个并发指令，也影响执行指令的速度，宽带对数据传输具有很大限制，越高的宽带并发到服务器的数据量越大，多种硬件共同限制了数据传输的效果，针对不同的服务器配置，动态的确定适合的标准数据大小，能够有效的减少服务器压力，提高数据传输效率。
56.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要
素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
57.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种搜索式困难样板深度学习方法与流程

一种批量数据入库方法及系统与流程

相关文献

最热文献