提升深度学习模型吞吐量的方法、装置、设备及可读介质与流程

2022-03-05 10:55:06 来源：中国专利 TAG：

1.本发明涉及计算机领域，并且更具体地涉及一种提升深度学习模型吞吐量的方法、装置、设备及可读介质。

背景技术：

2.深度学习在许多不同的应用领域取得了进展，从图像识别到语言建模，再到机器翻译和语音识别。两种趋势对这些结果至关重要——越来越大的训练数据集和越来越复杂的模型。例如，hannun等人(2014年)使用的语音识别模型是基于5000小时的数据进行训练的，最近的声学模型是基于近12000小时的数据进行训练的(amodei等人，2016年)，而soltau等人(2016年)使用的数据集更大，如125000小时。hannun等人(2014年)使用的神经网络有1100万个参数，双向rnn的参数增加到约6700万个，amodei等人(2016年)使用的最新前向纯递归单元(gru)模型的参数进一步增加到1.16亿个。大型模型通常需要更多的计算和内存资源进行训练。这些要求可以通过使用降低精度的表示和算法来降低。任何程序(包括神经网络训练和推理)的性能(速度)都受到三个因素之一的限制：算术带宽、内存带宽或延迟。降低精度解决了其中两个限制。通过使用更少的位来表示值，对于相同数量的数学运算可以降低内存带宽压力，读取/写入内存的字节更少。由于某些处理器提供更高的吞吐量以降低计算精度，因此计算时间也可以降低。例如，在最近的gpu中，半精度吞吐量比单精度高2到8倍。除了提高速度外，精度降低的格式还可以减少训练所需的内存量。
3.深度神经网络(dnn)在许多领域都取得了突破，包括图像处理和理解，语言建模，语言翻译，语音处理，游戏策略以及许多其他领域。为了获得这些卓越结果，dnn的复杂性一直在增加，这反过来又增加了训练这些网络所需的计算资源。
4.混合精度训练是一种重要的技术，它使我们能够减少深层神经网络的内存消耗，并利用现代处理器中更快的计算单元。在训练阶段使用半精度(fp16)的动机是为了降低内存带宽压力并提高算术吞吐量。前者可以通过使用较少的位来存储相同数量的值来实现，后者可以在提供更高的吞吐量降低了计算精度。因为在半精度训练中将导致计算的学习率超出ieee半精度格式(fp16)的动态范围，从而导致梯度消失并暂停训练过程。

技术实现要素：

5.有鉴于此，本发明实施例的目的在于提出一种提升深度学习模型吞吐量的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够有效减少内存的使用量，能够加快模型的训练效率，能够提升深度学习模型的吞吐量。
6.基于上述目的，本发明的实施例的一个方面提供了一种提升深度学习模型吞吐量的方法，包括以下步骤：
7.根据需求为深度学习模型设置分层界限阈值；
8.获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；
9.按两部分模型的顺序依次对输入参数进行训练。
10.根据本发明的一个实施例，获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分包括：
11.获取深度模型中网络结构的层数；
12.将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；
13.将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。
14.根据本发明的一个实施例，分层界限阈值为1至深度学习模型中网络结构层数之间的整数。
15.根据本发明的一个实施例，按两部分模型的顺序依次对输入参数进行训练包括：
16.使用第一部分模型对输入参数进行训练后得到训练结果；
17.使用第二部分模型对训练结果进行训练后得到最终结果。
18.本发明的实施例的另一个方面，还提供了一种提升深度学习模型吞吐量的装置，装置包括：
19.设置模块，设置模块配置为根据需求为深度学习模型设置分层界限阈值；
20.划分模块，划分模块配置为获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；
21.训练模块，训练模块配置为按两部分模型的顺序依次对输入参数进行训练。
22.根据本发明的一个实施例，划分模块还配置为：
23.获取深度模型中网络结构的层数；
24.将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；
25.将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。
26.根据本发明的一个实施例，分层界限阈值为1至深度学习模型中网络结构层数之间的整数。
27.根据本发明的一个实施例，训练模块还配置为：
28.使用第一部分模型对输入参数进行训练后得到训练结果；
29.使用第二部分模型对训练结果进行训练后得到最终结果。
30.本发明的实施例的另一个方面，还提供了一种计算机设备，该计算机设备包括：
31.至少一个处理器；以及
32.存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述任意一项方法的步骤。
33.本发明的实施例的另一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意一项方法的步骤。
34.本发明具有以下有益技术效果：本发明实施例提供的提升深度学习模型吞吐量的方法，通过根据需求为深度学习模型设置分层界限阈值；获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；按两部分模型的顺序依次对输入参数进行训练的技术方案，能够有效减少内存的使用量，能够加快模型的训练效率，能够提升深度学习模型的吞吐量。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。
36.图1为根据本发明一个实施例的提升深度学习模型吞吐量的方法的示意性流程图；
37.图2为根据本发明一个实施例的提升深度学习模型吞吐量的装置的示意图；
38.图3为根据本发明一个实施例的计算机设备的示意图；
39.图4为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
40.为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。
41.基于上述目的，本发明的实施例的第一个方面，提出了一种提升深度学习模型吞吐量的方法的一个实施例。图1示出的是该方法的示意性流程图。
42.如图1中所示，该方法可以包括以下步骤：
43.s1根据需求为深度学习模型设置分层界限阈值。
44.s2获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分。
45.s3按两部分模型的顺序依次对输入参数进行训练。
46.目前的深度学习模型都是由多层网络结构堆叠而成，比如自然语言处理中目前最广泛研究的bert模型，模型输入信息从模型最底层接入，模型输出信息从模型最顶层产出。模型的输出信息是我们关心的输出结果，对精度要求高；模型中离输出越远，对精度的容忍度就越高，也就是模型层数越低精度容忍度越高模型层数越高对精度的要求就越高。基于此我们提出了一个分层混合精度算法，我们将模型按层数分层两部分，下半部采用精度较低的半精度float16表示，上半部分采用精度较高的单精度float32表示。使用上半部分模型对输入参数进行训练后得到训练结果，使用下半部分模型对训练结果进行训练后得到最终结果。
47.通过本发明的技术方案，能够有效减少内存的使用量，能够加快模型的训练效率，能够提升深度学习模型的吞吐量。
48.在本发明的一个优选实施例中，获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分包括：
49.获取深度模型中网络结构的层数；
50.将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；
51.将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。例如，获取到的层数为k层，分层界限阈值为n，则第一部分模型为1层至n层，第二部分模型为第n 1层至k层。
52.在本发明的一个优选实施例中，分层界限阈值为1至深度学习模型中网络结构层
数之间的整数。在一些实施例中，在训练过程中将分层界限阈值作为动态的超参数m进行调整，而不是固定一个数，本分明提出的分层界限阈值m可以从1调整至最大层l，m的取值范围为[1，l)，对于每个取值m，训练方法同基本方案中的方法，如此就可以找到最优的分层界限。最不理想状态为m取值1，最离线状态为m取值l-1，即接近整个模型都采用半精度训练，存储空间和训练性能达到最优。
[0053]
在本发明的一个优选实施例中，按两部分模型的顺序依次对输入参数进行训练包括：
[0054]
使用第一部分模型对输入参数进行训练后得到训练结果；
[0055]
使用第二部分模型对训练结果进行训练后得到最终结果。原始模型公式公式为：y＝f
single
(x)，其中，f
single
表示原始的单精度模型，x为模型输入，y为模型输出。本发明采用的训练模型公式为：其中表示模型上半部分半精度模型，以原始模型的输入x为上半部分模型输入，y
1/2
表示模型上半部分的输出；表示下半部分的单精度模型，以上半部分模型的输出y
1/2
作为输入，输出为模型的最终输出y。除了模型不同部分的精度不同，其它参数配置、网络结构和训练过程与原始模型配置完全相同，因此该方法不仅可以用于bert模型，也适用于任意多层神经网络模型，如图像识别的经典神经网络模型resnet，以及自然语言生成中gpt2,gpt3模型。
[0056]
本发明的方法由于下半部分模型的精度和原始模型保持一致，因此训练收敛后，输出结果的精度基本不受影响。由于模型上半部分使用半精度模型，因此可以有效减少内存使用量，原始模型的内存使用量如公式为：由于训练过程中每个参数都需要保存参数本身、参数梯度等内容，因此一个参数需要在存储空间中保存多份，pi为模型中参数i所需的内存保存份数。由于原始模型为单精度float32类型，因此公式中的4表示每个参数没一份的内存保存都需要4个字节的空间，即32byte。公式中的n表示原始模型的参数总量，m
total
表示原始模型的存储空间总量。分层混合精度的存储空间计算公式为：
[0057][0058][0059][0060]
由此可见新模型使用的存储空间m’total
，可降为原始模型存储空间m
total
的四分之三。
[0061]
分层混合精度算法不仅可以降低内存使用量，还可以加快模型的训练效率。深度神经网络模型中最复杂的计算单元为参数的乘法计算，也是模型训练过程中占绝大多数的计算开销，参数乘法计算形式主要有wi*wj和wi*wj*wk这两种形式，第一种我们称之为一阶乘
法计算，第二种我们称之为二阶乘法计算。对于一阶乘法计算模型每个参数由单精度降低为半精度后计算量为即降为四分之一；对于二级乘法计算模型每个参数又单精度降低为半精度后计算量为即降为八分之一。由于我们分层混合精度策略将模型的一半参数从单精度降低为半精度，因此对于一阶乘法的模型，有一半模型的训练时间降低为原来的四份之一，整体降低为原来的四分之三；对于二阶乘法的模型，有一半模型的训练时间降低为原来的八份之一，整体降低为原来的八分之五。
[0062]
由于本发明只调整了一部分网络参数的精度，对于影响网络收敛速度的学习率、优化策略、损失函数以及输入输出等均未做任何变化，因此模型训练时每一步的优化方向和优化步长均不受影响，也就是模型的收敛速度也不会受到影响，因此分层混合精度对训练效率的提升，也是对模型整体收敛效率的提升。
[0063]
需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory，rom)或随机存取存储器(random access memory，ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0064]
此外，根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时，执行本发明实施例公开的方法中限定的上述功能。
[0065]
基于上述目的，本发明的实施例的第二个方面，提出了一种提升深度学习模型吞吐量的装置，如图2所示，装置200包括：
[0066]
设置模块，设置模块配置为根据需求为深度学习模型设置分层界限阈值；
[0067]
划分模块，划分模块配置为获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；
[0068]
训练模块，训练模块配置为按两部分模型的顺序依次对输入参数进行训练。
[0069]
在本发明的一个优选实施例中，划分模块还配置为：
[0070]
获取深度模型中网络结构的层数；
[0071]
将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；
[0072]
将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。
[0073]
在本发明的一个优选实施例中，分层界限阈值为1至深度学习模型中网络结构层数之间的整数。
[0074]
在本发明的一个优选实施例中，训练模块还配置为：
[0075]
使用第一部分模型对输入参数进行训练后得到训练结果；
[0076]
使用第二部分模型对训练结果进行训练后得到最终结果。
[0077]
基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示，本发明实施例包括如下装置：至少一个处理器21；以及存储器22，存储器22存储有可在处理器上运行的计算机指令23，指令由处理器执行时实现以下方法：
[0078]
根据需求为深度学习模型设置分层界限阈值；
[0079]
获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；
[0080]
按两部分模型的顺序依次对输入参数进行训练。
[0081]
在本发明的一个优选实施例中，获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分包括：
[0082]
获取深度模型中网络结构的层数；
[0083]
将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；
[0084]
将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。
[0085]
在本发明的一个优选实施例中，分层界限阈值为1至深度学习模型中网络结构层数之间的整数。
[0086]
在本发明的一个优选实施例中，按两部分模型的顺序依次对输入参数进行训练包括：
[0087]
使用第一部分模型对输入参数进行训练后得到训练结果；
[0088]
使用第二部分模型对训练结果进行训练后得到最终结果。
[0089]
基于上述目的，本发明实施例的第四个方面，提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示，计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32：
[0090]
根据需求为深度学习模型设置分层界限阈值；
[0091]
获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分；
[0092]
按两部分模型的顺序依次对输入参数进行训练。
[0093]
在本发明的一个优选实施例中，获取深度模型中网络结构的层数，并将深度学习模型根据分层界限阈值划分为两部分包括：
[0094]
获取深度模型中网络结构的层数；
[0095]
将第一层网络结构到分层界限阈值对应的网络结构划分为第一部分模型；
[0096]
将分层界限阈值对应的网络结构到最后一层网络结构划分为第二部分模型。
[0097]
在本发明的一个优选实施例中，分层界限阈值为1至深度学习模型中网络结构层数之间的整数。
[0098]
在本发明的一个优选实施例中，按两部分模型的顺序依次对输入参数进行训练包括：
[0099]
使用第一部分模型对输入参数进行训练后得到训练结果；
[0100]
使用第二部分模型对训练结果进行训练后得到最终结果。
[0101]
此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。
[0102]
此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
[0103]
本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模
块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
[0104]
在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
[0105]
以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。
[0106]
应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
[0107]
上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。
[0108]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0109]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种区块链备份系统及备份方法与流程

提升深度学习模型吞吐量的方法、装置、设备及可读介质与流程

相关文献

最热文献