一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种人工智能模型的快速训练系统及方法与流程

2022-03-26 06:37:05 来源:中国专利 TAG:


1.本发明涉及数据并行计算技术领域,特别是涉及一种人工智能模型的快速训练系统及方法。


背景技术:

2.本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
3.现在的人工智能技术获得了前所未有的快速发展,但是当人工智能算法与实际应用相结合时,无法避免的面临着海量数据的训练问题、以及高效性等问题。随着大规模人工智能学习模型不断人工化、智能化,多模态人工智能模型也逐渐取代了单模态成为了数据资源的重要形式,即单模态人工智能模型逐渐向多模态人工智能模型跨越。多模态是一个比较复杂的过程,通过利用多种模态(文字、声音、图像、视频等)来传递与推理信息,这也导致了多模态学习的数据量会更大,其计算量也会更多。
4.多模态人工智能模型的训练是一种计算密集型的训练过程,一般可能会需要几天到几周的时间,用来训练大规模的模型。基于数据量大、模型参数规模大等原因,多模态人工智能模型的大规模分布式并行训练应运而生。由于数据的并行执行实现较为简单,通常会采用此类并行方式,但是在gpu中需要经常性的进行权重的更新,数据并行会受到影响。


技术实现要素:

5.为了解决现有技术的不足,本发明提供了一种人工智能模型的快速训练系统及方法;通过利用数据并行训练方法使用大量数据集来训练大规模神经网络,减轻较大网络以及较多数据集训练带来的时间成本问题。与此同时,还需要采用模型并行训练,将多模态ai模型进行划分,在多个gpu上并行处理。
6.第一方面,本发明提供了一种人工智能模型的快速训练系统;
7.一种人工智能模型的快速训练系统,包括:至少一个本地计算机终端和n个边缘计算机终端;所述本地计算终端,分别与n个边缘计算终端连接;其中,n为正整数;
8.每个边缘计算终端上均设有至少一个图形处理器(graphics processing unit,gpu);每个本地计算终端上设有n个图形处理器gpu;
9.其中,所述本地计算终端的每个图形处理器上,均部署一个待训练的人工智能模型;本地计算终端的不同图形处理器分别处理不同模态的人工智能模型;
10.本地计算终端的每个图形处理器,在对自身部署的人工智能模型进行训练的过程中,除了卷积操作以外的其他操作,均由本地计算终端的图形处理器来完成;
11.对于卷积操作的处理过程为:每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,由边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端对应的图形处理器上。
12.第二方面,本发明提供了一种人工智能模型的快速训练方法;
13.一种人工智能模型的快速训练方法,包括:
14.在本地计算终端的每个图形处理器上,均部署一个待训练的人工智能模型;本地计算终端的不同图形处理器分别处理不同模态的人工智能模型;
15.本地计算终端的每个图形处理器,在对自身部署的人工智能模型进行训练的过程中,除了卷积操作以外的其他操作,均由本地计算终端的图形处理器来完成;
16.对于卷积操作的处理过程为:每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,由边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端对应的图形处理器上。
17.与现有技术相比,本发明的有益效果是:
18.该方法以实现高效的多模态分布式训练模型为出发点,采用系统性方法,研究面向复杂多模态人工智能模型的大规模分布式并行训练技术,设计高效可扩展的混合并行训练方法。该方法能够充分利用数据并行训练方法与模型并行训练方法,保证在多个节点上有效部署深度学习模型与大规模深度模型共同执行时的性能要求,同时尽可能的提升多模态人工智能模型的效率与可扩展性。
19.本发明在保证大规模多模态人工智能模型正常高效执行的同时,可以最大化的减少单个gpu的运算负载,进行分布式并行训练。
20.本发明利用数据并行训练方法以及利用模型并行训练方法,减少多模态人工智能模型的训练周期以及单个gpu无法容纳大规模模型问题。
21.本发明利用混合并行训练方法在,在一台机器的多个gpu之间切分模型,并行处理并操作程序模型,尽可能提升模型的运行效率以及程序的资源利用率。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
23.图1为实施例一的方法流程图。
具体实施方式
24.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
25.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
26.本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
27.实施例一
28.本实施例提供了一种人工智能模型的快速训练系统;
29.如图1所示,一种人工智能模型的快速训练系统,包括:至少一个本地计算机终端和n个边缘计算机终端;所述本地计算终端,分别与n个边缘计算终端连接;其中,n为正整数;
30.每个边缘计算终端上均设有至少一个图形处理器(graphics processing unit,gpu);每个本地计算终端上设有n个图形处理器gpu;
31.其中,所述本地计算终端的每个图形处理器上,均部署一个待训练的人工智能模型;本地计算终端的不同图形处理器分别处理不同模态的人工智能模型;
32.本地计算终端的每个图形处理器,在对自身部署的人工智能模型进行训练的过程中,除了卷积操作以外的其他操作,均由本地计算终端的图形处理器来完成;
33.对于卷积操作的处理过程为:每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,由边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端对应的图形处理器上。
34.上述技术方案的效果是:通过不同图形处理器分别处理不同模态的人工智能模型,能够实现多模态人工智能模型的并发训练,提升多模态人工智能模型的训练速度。
35.每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,可以实现卷积操作的转移处理,避免转移操作在本地计算终端上执行,造成的对本地计算终端运行空间的浪费。
36.进一步地,所述待训练的人工智能模型,例如是指:卷积神经网络。
37.进一步的,所述本地计算终端的不同图形处理器分别处理不同模态的人工智能模型,至少包括:
38.本地计算终端的第一个图形处理器,处理用于语音识别的卷积神经网络;
39.本地计算终端的第二个图形处理器,处理用于视频目标对象识别的卷积神经网络;
40.本地计算终端的第三个图形处理器,处理用于图像目标检测的卷积神经网络。
41.进一步地,所述本地计算终端的每个图形处理器,在对自身部署的人工智能模型进行训练的过程中,除了卷积操作以外的其他操作,均由本地计算终端的图形处理器来完成;其中,除了卷积操作以外的其他操作,至少包括:
42.输入层的操作、池化层的操作、全连接层的操作和softmax层的操作。
43.进一步地,所述对于卷积操作的处理过程为:每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,由边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端对应的图形处理器上;其中,回传的过程中,还会同步梯度。
44.进一步地,所述对于卷积操作的处理过程为:每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,由边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端对应的图形处理器上;其中,本地计算终端的图形处理器是与边缘计算终端一一对应的,也就是说,本地计算终端第i个图形处理器将卷积操作传输给对应的第i个边缘计算终端,由第i个边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端的第i个图形处理器,其中,i为正整数。
45.基于数据并行与模型并行的两种并行训练方法进行融合,实现混合并行训练方法。分别将卷积计算、特征提取模型以及softmax层划分到不同的节点、不同的gpu中,不仅能够有效的减少训练的时间,加快训练速度,还能解决单片gpu无法部署大规模模型的问题;
46.设计基于并行训练的反向传播机制,对特征提取模块进行反向传播并且更新梯度,完成基于高效可扩展的混合并行训练方法的深度神经网络训练。
47.对于具有较大规模、需要较多计算的多模态人工智能模型,对数据以及模型进行划分,采用混合并行训练方法,使其能够并行处理,提升整体的效率与可扩展性。
48.首先在节点上部署多模态人工智能模型,并确保与其他节点间的正常通信,以便于能够进行数据并行训练。在多个节点处运行程序时,需要每进行一次计算,就对梯度进行同步,以保证程序的稳定性。同时执行不同的卷积计算,达到数据并行处理的效果,能很好的提升模型的训练效率。
49.然后在数据并行的基础上,再采用模型并行训练,即在节点处部署模型到多个gpu上。将多模态模型分别送至不同的gpu上并行运行,可以减少单个gpu的计算与存储压力。利用多个gpu并行处理,以提高多模态人工智能模型的运行效率以及程序的资源利用率。
50.实施例二
51.本实施例提供了一种人工智能模型的快速训练方法;
52.一种人工智能模型的快速训练方法,包括:
53.在本地计算终端的每个图形处理器上,均部署一个待训练的人工智能模型;本地计算终端的不同图形处理器分别处理不同模态的人工智能模型;
54.本地计算终端的每个图形处理器,在对自身部署的人工智能模型进行训练的过程中,除了卷积操作以外的其他操作,均由本地计算终端的图形处理器来完成;
55.对于卷积操作的处理过程为:每次遇到卷积操作,就将卷积操作传输给对应的边缘计算终端,由边缘计算终端的图形处理器gpu完成卷积操作,并将卷积操作得到的结果回传给本地计算终端对应的图形处理器上。
56.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献