一种用于分布式AI集群的网络仿真方法及装置

2022-06-11 06:36:23 来源：中国专利 TAG：

一种用于分布式ai集群的网络仿真方法及装置
技术领域
1.本发明涉及仿真技术领域，尤其涉及一种用于分布式ai集群的网络仿真方法及装置。

背景技术：

2.随着研究人员对大规模神经网络的训练需求不断提升，单机训练已无法满足训练需求，因此采用多机多卡分布式训练。现采用云服务商提供的大规模ai集群进行分布式神经网络训练，因此对数据中心的多租户ai集群的研究日渐受到关注。此外，随着gpu类专用设备的发展，训练的计算过程被大大提速，分布式神经网络训练的性能瓶颈已经逐渐转移到网络侧，因此对于多租户al集群的网络侧研究也受到了大量研究者的关注。目前，对于数据中心网络的研究几乎都是在网络仿真平台上进行的，并且在搭建实际系统进行验证之前，也需要通过网络仿真的验证，因此，对于分布式al集群的研究也不例外。
3.但是，目前网络仿真框架(例如omnet，ns3等)都是包级别或者流级别，均是针对通用用途的网络仿真，比如，对各种网络、各种任务的仿真。可以看出，由于包级别或者流级别的仿真粒度很细，直接仿真分布式al集群十分复杂、不便。究其本质，目前网络仿真框架只是提供了对于ai集群数据面的仿真，而未涉及对ai集群控制面(比如，ai任务生成、集群资源调度、任务流生成、任务流路由等功能)。但目前很多对于al集群的研究都需要al集群控制面的仿真功能，于是如果直接使用上述的网络仿真框架对al集群进行研究，则需要手动编写整个控制面，因此整个过程会很复杂、不便。

技术实现要素：

4.本技术实施例通过提供一种用于分布式ai集群的网络仿真方法及装置，解决了现有技术中没有专门针对ai集群任务仿真的技术方案，解决了ai集群仿真时过程复杂操作不便的技术问题，实现了简化了分布式ai集群仿真操作流程，提高了研究效率以及扩展了分布式ai集群的仿真广度的效果。
5.第一方面，本技术实施例提供了一种用于分布式ai集群的网络仿真方法，所述方法包括：
6.响应于ai集群仿真平台触发的第一目标事件，所述第一目标事件利用任务生成算法生成分布式ai仿真任务；
7.根据生成的分布式ai仿真任务，按照预设的任务分配算法，为所述分布式ai仿真任务分配包括gpu、网络链路在内的ai集群调度资源；
8.根据生成的分布式ai仿真任务，按照预先配置的任务流生成算法将所述分布式ai仿真任务解析为若干条仿真任务流，并调用所述ai集群调度资源，利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息；
9.根据路由信息执行完成每条仿真任务流后，获取分布式ai仿真任务的测试数据。
10.在一种实施例中，所述ai集群仿真平台配置有若干数据接口，通过各所述数据接
口获取包括任务生成算法、任务分配算法、任务流生成算法、任务流路由算法在内的自定义ai集群信息。
11.在一种实施例中，所述ai集群调度资源包括gpu在内的计算资源、网络链路在内的网络资源。
12.在一种实施例中，所述任务流生成算法包括但不限于ring allreduce算法、butterfly算法、double binary tree算法。
13.在一种实施例中，所述任务流路由算法包括但不限于dijkstra算法。
14.第二方面，本技术实施例提供了一种用于分布式ai集群的网络仿真装置，采用第一方面任意一项所述的方法，包括：
15.任务生成模块，配置为响应于ai集群仿真平台触发的第一目标事件，所述第一目标事件利用任务生成算法生成的分布式ai仿真任务；
16.资源调度模块，配置为根据生成的分布式ai仿真任务，获取任务资源调度信息，按照预设的任务分配算法，为所述分布式ai仿真任务分配包括gpu、网络链路在内的ai集群调度资源；
17.路由分配模块，配置为根据生成的分布式ai仿真任务，按照预先配置的任务流生成算法将所述分布式ai仿真任务解析为若干条仿真任务流，并调用所述ai集群调度资源，利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息；
18.仿真执行模块，配置根据路由信息执行完成每条仿真任务流后，获取分布式ai仿真任务的测试数据。
19.本技术实施例中提供的技术方案，至少具有如下技术效果：
20.本发明以通用网络仿真框架为基础，进行任意的ai集群仿真，采用多数据接口获取仿真配置，以实现分布式ai集群的仿真，可以确保网络仿真的准确性，提高了分布式ai集群仿真的开发和研究效率。本实施例中在ai集群仿真平台中设置若干数据接口，通过数据接口扩展自定义功能算法，使得仿真程序的灵活性大大提升，拓展了对于ai集群的研究广度。
附图说明
21.图1为本技术实施例一中用于分布式ai集群的网络仿真方法的流程图；
22.图2为本技术实施例二中用于分布式ai集群的网络仿真装置模块图。
具体实施方式
23.为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
24.实施例一
25.本技术实施例提供了一种用于分布式ai集群的网络仿真方法，该方法包括如下步骤：
26.步骤s101，响应于ai集群仿真平台触发的第一目标事件，所述第一目标事件利用任务生成算法生成分布式ai仿真任务。
27.本实施例中的ai集群仿真平台采用通用网络仿真框架人工配置ai集群仿真环境，
并获取仿真任务执行后的测试数据，比如，任务流的执行时间，执行效率等。
28.进一步地，所述ai集群仿真平台配置有若干数据接口，通过各所述数据接口获取包括任务生成算法、任务分配算法、任务流生成算法、任务流路由算法在内的自定义ai集群仿真信息。
29.步骤s102，根据生成的分布式ai仿真任务，按照预设的任务分配算法，为所述分布式ai仿真任务分配包括gpu、网络链路在内的ai集群调度资源。
30.本步骤中的所述ai集群调度资源包括gpu在内的计算资源、网络链路在内的网络资源。本实施例中的任务分配算法包括但不限于随机分配、顺序分配等算法。
31.基于ai集群仿真平台中可以通过数据接口自定义配置ai集群调度资源。
32.步骤s103，根据生成的分布式ai仿真任务，按照预先配置的任务流生成算法将所述分布式ai仿真任务解析为若干条仿真任务流，并调用所述ai集群调度资源，利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息。
33.本步骤中的所述任务流生成算法包括但不限于ring allreduce算法、butterfly算法、double binary tree算法。所述任务流路由算法包括但不限于dijkstra算法。
34.进一步说明，在执行当前的仿真任务流时，可以同时生成新的分布式ai仿真任务，可以设定仿真环境中的使用数据并行、模型并行或混合并行。本实施例中对于数据并行可以设定任意的通信模式，比如，ring allreduce、butterfly、double binary tree等算法。在不冲突的前提下，可以使用任意算法，或者使用随机生成方式生成分布式ai仿真任务。
35.本实施例中的任务分配算法、任务流生成算法可以是ai集群仿真平台预先设定的，也可以是通过数据接口自定义设定的。
36.步骤s104，根据路由信息执行完成每条仿真任务流后，获取分布式ai仿真任务的测试数据。
37.可以看出，本实施例给出的用于分布式ai集群的网络仿真方法，ai集群仿真平台以通用网络仿真框架为基础，可以进行任意的ai集群仿真，在确保网络仿真准确性以及与目标仿真环境相同的前提下，提高了分布式ai集群仿真的开发和研究效率。本实施例中在ai集群仿真平台中设置若干数据接口，通过数据接口扩展自定义功能算法，使得仿真程序的灵活性大大提升，拓展了对于ai集群的研究广度。
38.实施例二
39.本技术实施例提了一种用于分布式ai集群的网络仿真装置，采用实施例一种任意一项所述的方法步骤。其包括如下几个模块。
40.任务生成模块101，配置为响应于ai集群仿真平台触发的第一目标事件，所述第一目标事件利用任务生成算法生成分布式ai仿真任务。
41.资源调度模块102，配置为根据生成的分布式ai仿真任务，获取任务资源调度信息，按照预设的任务分配算法，为所述分布式ai仿真任务分配包括gpu、网络链路在内的ai集群调度资源。
42.路由分配模块103，配置为根据生成的分布式ai仿真任务，按照预先配置的任务流生成算法将所述分布式ai仿真任务解析为若干条仿真任务流，并调用所述ai集群调度资源，利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息。
43.仿真执行模块104，配置根据路由信息执行完成每条仿真任务流后，获取分布式ai
仿真任务的测试数据。
44.实施例三
45.本技术实施例还提供了一种电子设备，包括:一个或多个处理器；存储器；用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如实施例一或实施例二中任一的方法。
46.本实施例还提供了一种计算机可读介质,其上存储有计算机程序，计算机程序被处理器执行时实现如实施例一或实施例二中任一的方法。
47.从而使得处理器在执行方法过程中，执行实施例一中的方法时，执行如下步骤：
48.步骤s101，响应于ai集群仿真平台触发的第一目标事件，所述第一目标事件利用任务生成算法生成分布式ai仿真任务。
49.步骤s102，根据生成的分布式ai仿真任务，按照预设的任务分配算法，为所述分布式ai仿真任务分配包括gpu、网络链路在内的ai集群调度资源。
50.步骤s103，根据生成的分布式ai仿真任务，按照预先配置的任务流生成算法将所述分布式ai仿真任务解析为若干条仿真任务流，并调用所述ai集群调度资源，利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息。
51.步骤s104，根据路由信息执行完成每条仿真任务流后，获取分布式ai仿真任务的测试数据。
52.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
53.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
54.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
55.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
56.尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
57.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种用于分布式AI集群的网络仿真方法及装置

相关文献

最热文献