一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种分布式通信库的性能测试方法、装置、设备及介质与流程

2021-12-14 23:22:00 来源:中国专利 TAG:

技术特征:
1.一种分布式通信库的性能测试方法,其特征在于,包括:根据预设的拓扑结构以及集群规模,构建用于对深度学习模型进行分布训练的集群环境;通过所述集群环境中包括的全部节点,根据待测通信库,完成与所述深度学习模型对应的分布训练任务;各所述节点中部署至少一块加速卡;获取所述集群环境在使用所述待测通信库下,对所述深度学习模型的训练结果数据,并根据所述训练结果数据,评估所述待测通信库针对所述集群环境,以及所述深度学习模型的通信性能。2.根据权利要求1所述的方法,其特征在于,在通过所述集群环境中包括的全部节点,根据待测通信库,完成与所述深度学习模型对应的分布训练任务之前,还包括:判断所述集群环境是否支持运行与所述待测通信库对应的目标程序;若是,则根据所述目标程序的代码文件,部署集群环境中各节点之间,以及各节点与对应的加速卡之间的通信方式,以使所述集群环境中包括的全部节点,根据所述通信方式,完成与所述深度学习模型对应的分布训练任务。3.根据权利要求2所述的方法,其特征在于,在判断所述集群环境是否支持运行与所述待测通信库对应的目标程序之后,还包括:若否,则获取所述目标程序的代码文件,并利用预设的转码工具对所述代码文件进行转换,得到转码文件;对所述转码文件进行编译,将通过编译并能够正确运行的所述转码文件迁移至所述集群环境;根据所述转码文件,部署集群环境中各节点之间,以及各节点与对应的加速卡之间的通信方式,以使所述集群环境中包括的全部节点,根据所述通信方式,完成与所述深度学习模型对应的分布训练任务。4.根据权利要求1所述的方法,其特征在于,通过所述集群环境中包括的全部节点,根据待测通信库,完成与所述深度学习模型对应的分布训练任务,包括:获取与所述深度学习模型对应的多个训练任务,根据所述集群环境的拓扑结构以及集群规模,将各所述训练任务分配至所述集群环境中对应的节点中;获取与所述深度学习模型对应的多个训练数据,根据所述集群环境的拓扑结构以及集群规模,将各所述训练数据分配至所述集群环境中对应的节点中;通过所述集群环境中的至少一个主节点,以及与所述主节点对应的至少一个从节点,根据各节点对应的训练任务、训练数据,以及待测通信库,对所述深度学习模型进行训练,以完成与所述深度学习模型对应的分布训练任务。5.根据权利要求1所述的方法,其特征在于,获取所述集群环境在使用所述待测通信库下,对所述深度学习模型的训练结果数据,包括:获取所述集群环境在使用所述待测通信库下,对所述深度学习模型的训练过程中单位时间内处理的训练数据的数量;和/或,获取所述集群环境在使用所述待测通信库下,对所述深度学习模型的训练耗时。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:部署多个不同的集群环境,每种集群环境的拓扑结构以及集群规模均不同;
通过各所述集群环境中包括的全部节点,根据不同的待测通信库,完成与多种深度学习模型对应的分布训练任务;获取各所述集群环境在使用各待测通信库下,对各深度学习模型的训练结果数据,并根据所述训练结果数据,衡量各所述待测通信库针对不同的集群环境,以及不同的深度学习模型之间的通信性能的差异。7.根据权利要求6所述的方法,其特征在于,在根据所述训练结果数据,衡量各所述待测通信库针对不同的集群环境,以及不同的深度学习模型之间的通信性能的差异之后,还包括:根据各所述待测通信库针对不同的集群环境,以及不同的深度学习模型的通信性能,构建通信库性能查询表;响应于用户对通信库的推荐请求,根据所述推荐请求以及所述通信库性能查询表向用户推荐匹配的通信库;其中,所述推荐请求中包括待训练的目标深度学习模型,以及用于对目标深度学习模型进行分布训练的目标集群环境。8.一种分布式通信库的性能测试装置,其特征在于,包括:环境部署模块,用于根据预设的拓扑结构以及集群规模,构建用于对深度学习模型进行分布训练的集群环境;训练模块,用于通过所述集群环境中包括的全部节点,根据待测通信库,完成与所述深度学习模型对应的分布训练任务;各所述节点中部署至少一块加速卡;性能评估模块,用于获取所述集群环境在使用所述待测通信库下,对所述深度学习模型的训练结果数据,并根据所述训练结果数据,评估所述待测通信库针对所述集群环境,以及所述深度学习模型的通信性能。9.一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行所述程序时实现如权利要求1

7中任一所述的分布式通信库的性能测试方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1

7中任一所述的分布式通信库的性能测试方法。

技术总结
本发明公开了一种分布式通信库的性能测试方法、装置、设备及介质,包括:根据预设的拓扑结构以及集群规模,构建用于对深度学习模型进行分布训练的集群环境;通过集群环境中包括的全部节点,根据待测通信库,完成与深度学习模型对应的分布训练任务;获取集群环境在使用待测通信库下,对深度学习模型的训练结果数据,并根据训练结果数据,评估待测通信库针对集群环境,以及深度学习模型的通信性能。本发明实施例的技术方案可以有效验证分布式通信库在异构计算环境中的适用性,便于用户根据性能测试结果选择与异构计算环境匹配的分布式通信库。通信库。通信库。


技术研发人员:艾珊珊 许涛 胡辰
受保护的技术使用者:曙光信息产业(北京)有限公司
技术研发日:2021.09.09
技术公布日:2021/12/13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献