一种用于计算机大数据的高效批量处理方法与流程

2021-11-30 21:26:00 来源：中国专利 TAG：

1.本发明属于数据处理技术领域，特别是涉及一种用于计算机大数据的高效批量处理方法。

背景技术：

2.大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产，随着云时代的来临，大数据也吸引了越来越多的关注，大数据包括结构化、半结构化和非结构化数据，非结构化数据越来越成为数据的主要部分，在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值，批处理是目前大数据分析中对于数据处理的一种基本方法，所谓批处理也称为批处理脚本，是对某对象进行批量的处理，其目的是为了提高系统吞吐量和资源的利用率，目前的大数据批处理，是通过将大数据分批次在同一服务器上依次进行处理，当某一批次的数据处理完成后，另一批次的数据才能被处理，使得部分数据长时间处于等待处理的状态，影响了大数据的批处理进度，从而使大数据的批处理效率较低，大数据作为新的战略资源，在信息领域发挥着重要作用，大数据的检索规模往往达到十亿甚至百亿级，导致传统的查询机制效率低下成为常态，因此，提高大数据的查询效率，降低查询负担成为大数据研究的重要方面，因此有必要对现有技术进行改进，以解决上述问题。

技术实现要素：

3.本发明的目的在于提供一种用于计算机大数据的高效批量处理方法，通过多个处理器同时处理分类好的数据，且某一个处理器处理完毕后，立刻协助处理其他未完成的处理器，多个处理器相互配合，从而达到一个高效的大数据处理效果，通过系统自身不断的改进优化，得到适合该用户的最优大数据模型，大数据处理能更加精确，解决了现有的大数据批量处理效率低，且处理准确度不理想的问题。
4.为解决上述技术问题，本发明是通过以下技术方案实现的：
5.本发明为一种用于计算机大数据的高效批量处理方法，所述方法包括以下步骤：
6.步骤一：通过数据采集系统采集用户数据，将采集到的文本、音频、视频以及图片数据导入至大型的分布式数据库中并进行备份源数据，分布式存储提高存储效率，进而提高大数据的处理效率；
7.步骤二：对采集到的数据通过数据分类模块进行分类；
8.步骤三：对分类后的数据进行数据预处理，消除异常数据，并收集异常数据；
9.步骤四：通过处理模块对正常数据进行批量处理，将预处理好的数据通过各自的处理器进行处理，处理器处理时基于数据类型选择合适的大数据模型并调用，利用数据对模型进行计算，对模型参数优化和调整，优化完成后，通过优化后的若干个大数据模型对正
常数据进行处理，当某一个处理器完成数据处理后，通过进度检测模块检测其他处理器的处理进度，然后使已完成处理任务的处理器协助处理进度最慢的处理器工作，同样的，当第二个处理器完成数据处理后，通过进度检测模块检测其他处理器的处理进度，然后使已完成处理任务的处理器协助处理进度最慢的处理器，直至所有数据处理完毕；
10.步骤五：在对正常数据处理的同时对异常数据亦进行处理，处理方式同步骤四；
11.步骤六：处理好的正常数据和异常数据分布式存储在存储单元内，加密上传至云端，实现数据共享，并通过模型优化模块进一步对大数据模型进行优化，得到更加适合该用户数据的模型；
12.步骤七：对处理好的正常数据和异常数据分别进行可视化处理，得到相应的可视化的报表。
13.进一步地，所述步骤一中数据采集系统具体的采集方法包括：通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据；通过网络爬虫或网站公开api等方式从网站上获取数据；通过导入历史数据库数据或对接第三方数据库数据。
14.进一步地，所述步骤二中数据分类过程具体包括：按照类别属性将采集到的数据分成文本、音频、视频以及图片四类，然后依据数据类型选择不同的方法，如定序分类法、定距分类法或定比分类法将每一类的数据再分成若干个小类。
15.进一步地，所述步骤三中数据预处理具体包括：基于统计模型估计缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据；通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据处理的形式。
16.进一步地，所述步骤六中大数据模型优化的具体步骤包括：评估模型，通过留出法、n拆交叉验证法或过拟合法对常用指标如auc、ks、误差率、错误率等进行计算；优化模型，根据计算的常用指标数值调整模型、优化公式、优化算法，得到适合该用户的最优大数据模型。
17.进一步地，所述步骤七中数据的可视化处理具体包括：处理好的数据根据数据的类型选择合适的图表并绘制成相应的二维或三维图形，所述二维图形包括柱状图、散点图、饼图、雷达图等动态交互的图形，所述三维图形包括3d航线图、3d散点图、3d柱图等3d动态图形，且该数据可视化处理过程亦可根据用户使用需求进行定制化的服务，如语音播报功能，处理好的数据经分析后得出最后的结论，并通过语音播报单元形成语音，以便用户收听。
18.本发明具有以下有益效果：
19.1、本发明通过多个处理器同时处理分类好的数据，且某一个处理器处理完毕后，立刻协助处理其他未完成的处理器，多个处理器相互配合，从而达到一个高效的大数据处理效果，且通过数据分类模块将大数据进行分类，分成若干个小类进一步提高数据处理效率。
20.2、本发明的大数据处理能更加精确，通过系统自身不断的改进优化，得到适合该用户的最优大数据模型，且各种数据采用不同的模型进行处理，故各种数据的处理亦更加精确。
21.3、本发明通过对数据进行可视化处理，使得用户可更加方便查看正常数据，从而方便得出结论，亦可根据异常数据，对设备进行改进。
22.当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
具体实施方式
23.下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.实施例1
25.一种用于计算机大数据的高效批量处理方法在工业设备上的应用，包括以下步骤：
26.步骤一：通过数据采集系统采集工业设备的数据，如通过各个传感器监测设备的运行参数，电流、电压、温度、功率、热量、转速等，通过摄像头拍摄设备运行的图片，通过网络爬虫或网站公开api等方式从网站上获取该工业设备在其他地方的运行数据；通过导入该工业设备的历史数据库数据或对接第三方数据库数据，第三方数据库可为厂家、其他用户或同类产品等，将采集到的文本、音频、视频以及图片数据导入至大型的分布式数据库中并进行备份源数据；
27.步骤二：对采集到的数据通过数据分类模块进行分类，按照类别属性将采集到的数据分成文本、音频、视频以及图片四类，然后依据数据类型选择不同的方法，如定序分类法、定距分类法或定比分类法将每一类的数据再分成若干个小类；
28.步骤三：对分类后的数据进行数据预处理，消除异常数据，并收集异常数据，其中数据预处理包括基于统计模型估计缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据；通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据处理的形式；
29.步骤四：通过处理模块对正常数据进行批量处理，将预处理好的数据通过各自的处理器进行处理，处理器处理时基于数据类型选择合适的大数据模型并调用，利用数据对模型进行计算，对模型参数优化和调整，优化完成后，通过优化后的若干个大数据模型对正常数据进行处理，当某一个处理器完成数据处理后，通过进度检测模块检测其他处理器的处理进度，然后使已完成处理任务的处理器协助处理进度最慢的处理器工作，同样的，当第二个处理器完成数据处理后，通过进度检测模块检测其他处理器的处理进度，然后使已完成处理任务的处理器协助处理进度最慢的处理器，直至所有数据处理完毕；
30.步骤五：在对正常数据处理的同时对异常数据亦进行处理，处理方式同步骤四；
31.步骤六：处理好的正常数据和异常数据分布式存储在存储单元内，加密上传至云端，实现数据共享，并通过模型优化模块进一步对大数据模型进行优化，得到更加适合该用户数据的模型，其中，模型优化模块具体包括：评估模型，通过留出法、n拆交叉验证法或过拟合法对常用指标如auc、ks、误差率、错误率等进行计算；优化模型，根据计算的常用指标数值调整模型、优化公式、优化算法，得到适合该用户的最优大数据模型；
32.步骤七：对处理好的正常数据和异常数据分别进行可视化处理，得到相应的可视化的报表，可视化的报表包括二维或三维图形，二维图形包括柱状图、散点图、饼图、雷达图等动态交互的图形，三维图形包括3d航线图、3d散点图、3d柱图等3d动态图形，且该数据可
视化处理过程亦可根据用户使用需求进行定制化的服务，如语音播报功能，处理好的数据经分析后得出最后的结论，并通过语音播报单元形成语音，以便用户收听。
33.实施例2
34.一种用于计算机大数据的高效批量处理方法在医疗上的应用，包括以下步骤：
35.步骤一：通过数据采集系统采集医院的数据，如医院信息系统中的数据，包括门诊收费、药房药库、住院收费、人力资源、财务查询等，临床信息系统中的数据，包括门急诊和住院医生工作站系统数据、电子病历系统数据、护士工作站系统数据、护理病历系统数据、药物咨询系统数据等，通过各个传感器监测医疗设备的运行参数，电流、电压、温度、功率、热量、转速等，通过导入该医疗设备的历史数据库数据或对接第三方数据库数据，第三方数据库可为厂家、其他用户或同类产品等，将采集到的文本、音频、视频以及图片数据导入至大型的分布式数据库中并进行备份源数据；
36.步骤二：对采集到的数据通过数据分类模块进行分类，按照类别属性将采集到的数据分成文本、音频、视频以及图片四类，然后依据数据类型选择不同的方法，如定序分类法、定距分类法或定比分类法将每一类的数据再分成若干个小类；
37.步骤三：对分类后的数据进行数据预处理，消除异常数据，并收集异常数据，其中数据预处理包括基于统计模型估计缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据；通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据处理的形式；
38.步骤四：通过处理模块对正常数据进行批量处理，将预处理好的数据通过各自的处理器进行处理，处理器处理时基于数据类型选择合适的大数据模型并调用，利用数据对模型进行计算，对模型参数优化和调整，优化完成后，通过优化后的若干个大数据模型对正常数据进行处理，当某一个处理器完成数据处理后，通过进度检测模块检测其他处理器的处理进度，然后使已完成处理任务的处理器协助处理进度最慢的处理器工作，同样的，当第二个处理器完成数据处理后，通过进度检测模块检测其他处理器的处理进度，然后使已完成处理任务的处理器协助处理进度最慢的处理器，直至所有数据处理完毕；
39.步骤五：在对正常数据处理的同时对异常数据亦进行处理，处理方式同步骤四；
40.步骤六：处理好的正常数据和异常数据分布式存储在存储单元内，加密上传至云端，实现数据共享，并通过模型优化模块进一步对大数据模型进行优化，得到更加适合该用户数据的模型，其中，模型优化模块具体包括：评估模型，通过留出法、n拆交叉验证法或过拟合法对常用指标如auc、ks、误差率、错误率等进行计算；优化模型，根据计算的常用指标数值调整模型、优化公式、优化算法，得到适合该用户的最优大数据模型；
41.步骤七：对处理好的正常数据和异常数据分别进行可视化处理，得到相应的可视化的报表，可视化的报表包括二维或三维图形，二维图形包括柱状图、散点图、饼图、雷达图等动态交互的图形，三维图形包括3d航线图、3d散点图、3d柱图等3d动态图形，且该数据可视化处理过程亦可根据用户使用需求进行定制化的服务，如语音播报功能，处理好的数据经分析后得出最后的结论，并通过语音播报单元形成语音，以便用户收听。
42.在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。
而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
43.以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种用于计算机大数据的高效批量处理方法与流程

相关文献

最热文献