一种边缘计算平台上数据分析框架Spark配置参数的优化系统

2022-06-11 20:53:57 来源：中国专利 TAG：

一种边缘计算平台上数据分析框架spark配置参数的优化系统
技术领域
1.本发明涉及信息计算领域，尤其涉及一种边缘计算平台上数据分析框架spark配置参数的优化系统。

背景技术：

2.近年来，可移动的边缘计算一体机是当前计算机体系结构领域的热点。边缘计算一体机主要由硬件层面上和软件层面上组成，硬件层面上包括满足边缘计算需求的小型计算机、网络设备和其他硬件。软件层面上由边缘计算定制的资源管理系统组成。它的主要特点表现为：体积小，低功耗，轻重量，易拓展，高性能，低成本。人们可以利用边缘计算一体机的便携性和灵活性，在靠近数据输入的地方提供计算和存储服务，解决传统模式下将数据回传到云计算中央数据中心的高延迟、网络不稳定和劫持数据不安全的问题。
3.基于内存的分布式计算框架spark在工业界被广泛应用于数据分析。它使用能支持迭代计算的弹性分布式数据集rdd，显著提高了提高迭代计算和交互式数据挖掘中数据处理的速度。作为大数据计算引擎，spark程序的配置参数多达几十个。
4.当前，大数据计算引擎spark在许多行业应用广泛，被大量地部署在数据中心的云平台上。如何为spark作业配置合适的参数，一般基于工程师的实践经验。在数据中心中，由于服务器的硬件资源丰富且性能高，基于实践经验的spark调参虽不是最优，但对普通的spark作业运行速度也有显著的提升。然而，在硬件资源有限且性能较低的边缘计算平台上，由于重要参数的值范围有限，基于经验的spark调参取得的效果并不明显。
5.另一方面，在实际应用中，批处理的数据分析程序一般被定时调度触发。换言之，工程师编写好的spark程序将以一定的时间间隔重复运行。但是上述方法没有配置最优的参数，因此存在耗费的时间长，数据处理的速度慢且用户体验差的问题。

技术实现要素：

6.本发明提出一种边缘计算平台上数据分析框架spark配置参数的优化系统，以解决现有的优化系统无法显著提升spark作业的运行速度的问题。
7.本发明解决上述问题的技术方案是：一种边缘计算平台上数据分析框架spark配置参数的优化系统，包括配置参数区间输入子系统和参数优化子系统，其中
8.配置参数区间输入子系统，用于接收并保存调参范围信息和参数迭代次数；其中，所述调参范围信息为用户输入的配置参数的值域范围的信息；
9.所述参数优化子系统被配置为：
10.发送运行参数至边缘计算平台，其中所述运行参数为基于所述调参范围进行迭代计算得到的参数；
11.接收边缘计算平台反馈的spark作业的运行时长并选择运行时长最短的spark作业所对应的运行参数作为最优配置参数。
12.优选的是，所述配置参数训练子系统包括配置参数搜索模块、任务限时运行模块、运行结果收集模块和最优参数输出模块；其中
13.所述配置参数搜索模块被配置为：
14.确定预设搜索方向、预设搜索步长和初始运行参数；
15.根据运行参数初始值、预设搜索方向和预设搜索步长得到当前的运行参数，其中首轮迭代中的运行参数是利用随机算法生成的；
16.所述任务限时运行模块被配置为：每隔2-4秒监控当前spark作业的运行时长是否长于历史最短运行时长时，若是则终止并标记本次spark作业；
17.所述运行结果收集模块用于接收并保存所述边缘计算平台发送的当前spark作业的运行时长、运行参数以及是否有中断标记；
18.所述最优参数模块用于选择运行时长最短的spark作业所对应的运行参数作为最优配置参数。
19.优选的是，所述确定预设搜索方向、预设搜索步长和初始运行参数中的初始运行参数为上一轮迭代所得到的运行参数。
20.优选的是，所述参数迭代次数小于30次。
21.优选的是，所述最优参数输出模块还用于将所述最优配置参数保存至文件或后台数据库中。
22.优选的是，所述配置参数区间输入子系统包括前端优化区间填写接口和后端优化区间保存单元；
23.所述前端优化区间填写接口和后端优化区间保存单元分别用于接收和保存用户输入的调参范围信息和参数迭代次数。
24.优选的是，所述前端优化区间填写接口为网页或文本。
25.优选的是，所述配置参数区间输入子系统还用于显示保存的历史参数范围。
26.相比于现有技术，本发明的有益效果在于：在边缘计算平台上，spark参数优化系统能够为用户提交的spark作业实现自动调参，并且参数值的大小是在用户设定的阈值范围内。在得到最优的参数值和对应的spark作业后，该作业重复提交时就会以最优参数运行，数据处理速度比默认的参数值更快，大大提升了用户服务质量。
附图说明
27.图1为本发明优化系统的流程示意图。
具体实施方式
28.为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。
29.实施例1：如图1所示，一种优化系统，包括配置参数区间输入子系统、参数优化子
系统(optimization)以及边缘计算平台。
30.边缘计算平台是一个由多个小机器节点组成的集群。它上面运行的资源管理系统表现为一个master节点管理若干个slave节点。边缘计算平台向用户提供任务提交接口。
31.配置参数区间输入子系统包括前端优化区间填写接口和后端优化区间保存单元。前端优化区间填写接口和后端优化区间保存单元分别用于接收和保存用户输入的调参范围信息和参数迭代次数，调参范围信息为用户输入的配置参数值域范围的信息。
32.前端优化区间填写接口可以是网页、文本等不同的输入方式。用户可以通过该接口定义好本次spark作业的若干个参数的优化区间，如在系统网页界面上填写参数spark、executor、memory的最大值和最小值。如果用户不愿填写过多参数的值域设置，系统也提供建议的参数的值域范围。同时，配置参数区间输入子系统也保留上一次用户填写过的参数范围，供下一次填写参考。
33.前端优化区间填写接口把填写完的参数范围信息通过http协议传送到后端优化区间保存单元。后端优化区间保存单元会将这些参数范围信息保存下来，可以保存至数据库中，也可以写进到单独的文件中。本发明采取读取到单独的文件的方式，后续的参数训练过程将会从该文件中获取到spark参数的调参范围。
34.参数优化子系统(optimization)包括配置参数搜索模块、任务限时运行模块、运行结果收集模块和最优参数输出模块。
35.配置参数搜索模块被配置为：如果是首轮迭代，在用户配置的参数值域范围内，利用随机算法生成有效的spark参数初始值作为spark的运行参数。如果不是首轮迭代，则根据上一轮的运行参数、参数搜索方向和设定的搜索步长确定本轮运行参数。参数迭代次数小于30次。
36.任务限时运行模块被配置为：每隔3秒监控当前spark作业的运行时长是否长于历史最短运行时长时，若是则终止并标记本次spark作业，以避免不必要的运行时间浪费。
37.运行结果收集模块用于接收并保存所述边缘计算平台发送的当前spark作业的运行时长、运行参数以及是否有中断标记。
38.最优参数模块用于选择运行时长最短的spark作业所对应的运行参数作为最优配置参数，并将当前spark作业名和最优配置参数记录在数据库中。。
39.优化过程包括：
40.步骤1：用户向边缘计算平台提交spark作业，并在网页界面上填写本次spark作业的若干个配置参数的优化区间和参数优化迭代的最大次数，如参数spark、executor、memory的最大值和最小值、迭代次数最多为30次。
41.步骤2：通过http协议将用户设定的调参范围传递给master进程。master进程随后把调参范围信息保存至单独文件中，作为参数优化子系统的输入。然后，master进程通过linux系统调用启动参数优化子系统。
42.步骤3：首轮迭代则为无效的标志值。每轮迭代开始，先启动配置参数搜索模块，根据上一轮的运行参数、搜索方向和搜索步长确定本次spark作业的运行参数。同时，进入任务限时运行模块进行任务提交。任务限时运行模块保存有历史最短的spark作业的运行时长。其主要作用是若本次spark作业的运行时长大于历史记录最短的，则直接停止本次spark运行，避免不必要的迭代时间浪费。
43.步骤4：任务限时运行模块向master进程提交spark作业和本轮迭代的运行参数。
44.步骤5：master通过自身的资源分配算法将spark作业拆分成多个任务，分发到各个slave节点上并行执行。spark作业运行结束后，master进程将本次作业的运行时长发送至运行结果收集模块，完成一次迭代。
45.步骤6：重复步骤3-5，经过30轮迭代后，最优参数模块从所有迭代结果中选择运行时长最短的运行参数作为最优配置参数，并保存至文件或者后台数据库中。以后类似的spark作业提交时，将会自动调用该文件中的最优参数运行。
46.以上所述仅为本发明的实施例，并非以此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的系统领域，均同理包括在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用程序打包发布的方法、装置、电子设备及存储介质与流程

一种边缘计算平台上数据分析框架Spark配置参数的优化系统

相关文献

最热文献