AI模型的训练方法、装置、计算设备和存储介质与流程

2022-03-09 02:09:20 来源：中国专利 TAG：

技术特征：
1.一种人工智能ai模型的训练方法，其特征在于，所述方法应用于ai平台，所述ai平台与计算资源池相关联，所述计算资源池包括用于模型训练的计算节点，包括：向用户提供训练配置界面，其中，所述训练配置界面包括供所述用户选择的多种训练模式，每种训练模式表示对训练初始ai模型所需的计算节点的一种分配策略；根据所述用户在所述训练配置界面的选择，生成至少一个训练任务；执行所述至少一个训练任务以对所述初始ai模型进行训练，获得ai模型，获得的所述ai模型供所述用户下载或使用。2.根据权利要求1所述的方法，其特征在于，所述多种训练模式包括第一模式和/或第二模式，所述第一模式表示对所述初始ai模型进行训练的过程中自动调整训练任务的个数，所述第二模式表示不同训练任务共享同一计算节点的资源。3.根据权利要求1或2所述的方法，其特征在于，所述至少一个训练任务运行在容器上，所述方法还包括：在对所述初始ai模型进行训练的过程中，向所述用户提供训练过程的状态信息，其中，所述状态信息包括以下信息中的至少一种信息：执行训练任务的容器个数，每个容器的资源使用量，执行训练任务的计算节点的个数，和执行训练任务的计算节点的资源使用量。4.根据权利要求2或3所述的方法，其特征在于，所述多种训练模式包括第一模式和第二模式，根据所述用户在所述训练配置界面的选择，生成至少一个训练任务，包括：根据所述用户在所述训练配置界面选择的第一模式和第二模式，生成至少一个训练任务。5.根据权利要求2-4任一项所述的方法，其特征在于，当所述用户在所述训练配置界面中选择所述第一模式时，所述训练配置界面还供所述用户输入或选择可运行训练任务的容器个数；所述根据所述用户在所述训练配置界面的选择，生成至少一个训练任务，包括：根据所述用户在所述训练配置界面选择的训练模式和所述用户输入或选择的可运行训练任务的容器个数，生成至少一个训练任务。6.根据权利要求2-5任一项所述的方法，其特征在于，当所述用户在所述训练配置界面中选择所述第二模式时，所述训练配置界面还供所述用户输入或选择运行训练任务的容器的资源使用量；所述根据所述用户在所述训练配置界面的选择，生成至少一个训练任务，包括：根据所述用户在所述训练配置界面选择的训练模式和所述用户输入或选择运行训练任务的容器的资源使用量，生成至少一个训练任务。7.根据权利要求5或6所述的方法，其特征在于，所述运行训练任务的容器的资源使用量包括小于单个图形处理器gpu的gpu资源使用量和/或小于单个显存的显存使用量。8.根据权利要求2-7任一项所述的方法，其特征在于，在选择所述第一模式的情况下，所述执行所述至少一个训练任务以对所述初始ai模型进行训练，包括：在执行所述至少一个训练任务以对所述初始ai模型进行训练的过程中，当检测到满足弹性扩缩容的条件时，获取所述计算资源池中计算资源的空闲量；根据所述计算资源池中计算资源的空闲量，调整所述至少一个训练任务的个数以及调整用于运行训练任务的容器的个数；
在调整后的容器中运行调整后的训练任务以对所述初始ai模型进行训练。9.根据权利要求8所述的方法，其特征在于，所述调整所述至少一个训练任务的个数以及调整用于运行训练任务的容器的个数，在调整后的容器中运行所述调整后的训练任务以对所述初始ai模型进行训练，包括：将所述至少一个训练任务中的部分训练任务添加到已运行所述至少一个训练任务中的训练任务的目标容器中，在所述目标容器中串行运行多个训练任务，在训练过程中，将串行运行所述多个训练任务获得的模型参数的平均值作为模型参数的更新值。10.根据权利要求2-9任一项所述的方法，其特征在于，在选择所述第二模式的情况下，所述方法包括：根据所述第二模式下所述至少一个训练任务运行的容器的资源使用量确定每个容器对应的计算节点的剩余资源；利用所述每个容器对应的计算节点的剩余资源，运行一个或多个其他训练任务。11.一种人工智能ai模型的训练装置，其特征在于，所述装置应用于ai平台，所述ai平台与计算资源池相关联，所述计算资源池包括用于模型训练的计算节点，包括：训练配置模块，用于向用户提供训练配置界面，其中，所述训练配置界面包括供所述用户选择的多种训练模式，每种训练模式表示对训练初始ai模型所需的计算节点的一种分配策略；任务管理模块，用于：根据所述用户在所述训练配置界面的选择，生成至少一个训练任务；执行所述至少一个训练任务以对所述初始ai模型进行训练，获得ai模型，获得的所述ai模型供所述用户下载或使用。12.根据权利要求11所述的装置，其特征在于，所述多种训练模式包括第一模式和/或第二模式，所述第一模式表示对所述初始ai模型进行训练的过程中自动调整训练任务的个数，所述第二模式表示不同训练任务共享同一计算节点的资源。13.根据权利要求11或12所述的装置，其特征在于，所述至少一个训练任务运行在容器上，所述装置还包括：展示模块，用于在对所述初始ai模型进行训练的过程中，向所述用户提供训练过程的状态信息，其中，所述状态信息包括以下信息中的至少一种信息：执行训练任务的容器个数，每个容器的资源使用量，执行训练任务的计算节点的个数，和执行训练任务的计算节点的资源使用量。14.根据权利要求12或13所述的装置，其特征在于，所述多种训练模式包括第一模式和第二模式，所述任务管理模块，用于：根据所述用户在所述训练配置界面选择的第一模式和第二模式，生成至少一个训练任务。15.根据权利要求12-14任一项所述的装置，其特征在于，当所述用户在所述训练配置界面中选择所述第一模式时，所述训练配置界面还供所述用户输入或选择可运行训练任务的容器个数；所述任务管理模块，用于：根据所述用户在所述训练配置界面选择的训练模式和所述用户输入或选择的可运行
训练任务的容器个数，生成至少一个训练任务。16.根据权利要求12-15任一项所述的装置，其特征在于，当所述用户在所述训练配置界面中选择所述第二模式时，所述训练配置界面还供所述用户输入或选择运行训练任务的容器的资源使用量；所述任务管理模块，用于：根据所述用户在所述训练配置界面选择的训练模式和所述用户输入或选择运行训练任务的容器的资源使用量，生成至少一个训练任务。17.根据权利要求15或16所述的装置，其特征在于，所述运行训练任务的容器的资源使用量包括小于单个图形处理器gpu的gpu资源使用量和/或小于单个显存的显存使用量。18.根据权利要求12-17任一项所述的装置，其特征在于，在选择所述第一模式的情况下，所述任务管理模块，用于：在执行所述至少一个训练任务以对所述初始ai模型进行训练的过程中，当检测到满足弹性扩缩容的条件时，获取所述计算资源池中计算资源的空闲量；根据所述计算资源池中计算资源的空闲量，调整所述至少一个训练任务的个数以及调整用于运行训练任务的容器的个数；在调整后的容器中运行调整后的训练任务以对所述初始ai模型进行训练。19.根据权利要求18所述的装置，其特征在于，所述任务管理模块，用于：将所述至少一个训练任务中的部分训练任务添加到已运行所述至少一个训练任务中的训练任务的目标容器中，在所述目标容器中串行运行多个训练任务，在训练过程中，将串行运行所述多个训练任务获得的模型参数的平均值作为模型参数的更新值。20.根据权利要求12-19任一项所述的装置，其特征在于，在选择所述第二模式的情况下，所述任务管理模块，还用于：根据所述第二模式下所述至少一个训练任务运行的容器的资源使用量确定每个容器对应的计算节点的剩余资源；利用所述每个容器对应的计算节点的剩余资源，运行一个或多个其他训练任务。21.一种计算设备，其特征在于，所述计算设备包括存储器和处理器，所述存储器用于存储计算机指令；所述处理器执行所述存储器存储的计算机指令，以执行上述权利要求1-10中任一项所述的方法。22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行上述权利要求1-10中任一项所述的方法。

技术总结
本申请提供了一种AI模型的训练方法、装置、计算设备和存储介质，属于人工智能技术领域。该方法应用于AI平台，AI平台与计算资源池相关联，计算资源池包括用于模型训练的计算节点，该方法包括：向用户提供训练配置界面，训练配置界面包括供用户选择的多种训练模式，每种训练模式表示对训练初始AI模型所需的计算节点的一种分配策略，根据用户在训练配置界面的选择，生成至少一个训练任务，执行该至少一个训练任务以对初始AI模型进行训练，获得AI模型，获得的AI模型供用户下载或使用。采用本申请，可以更灵活地执行分布式训练。可以更灵活地执行分布式训练。可以更灵活地执行分布式训练。

技术研发人员：朱疆成黄哲思吴仁科白小龙杨兵兵李亿郑华戴宗宏
受保护的技术使用者：华为云计算技术有限公司
技术研发日：2020.09.29
技术公布日：2022/3/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于层次分析及熵权法计算维度权重的企业评估方法与流程

AI模型的训练方法、装置、计算设备和存储介质与流程

相关文献

最热文献