模型训练方法、装置、计算机设备及存储介质与流程

2022-05-18 10:07:54 来源：中国专利 TAG：

1.本发明实施例涉及模型训练领域，尤其涉及一种模型训练方法、装置、计算机设备及存储介质。

背景技术：

2.近年来，深度学习在许多不同的应用领域取得了进展，但是，随着对模型精度的要求越来越高，模型训练的数据集越来越多，模型复杂度越来越高。大型模型通常需要更多的计算和内存资源进行训练。神经网络训练和推理都受到算术带宽、内存带宽或延迟的限制。降低训练精度可以解决其中两个限制。通过使用更少的位来表示值，对于相同数量的数学运算可以降低内存带宽压力，读取或写入内存的字节更少。由于某些处理器提供更高的吞吐量以降低计算精度，因此计算时间也可以降低，并且，除了提高速度外，精度降低的格式还可以减少训练所需的内存量。
3.目前，在模型训练阶段使用半精度的方式可以降低内存带宽压力并提高算术吞吐量。但是，模型训练全周期均采用半精度训练，当模型进入收敛阶段后，模型参数离目标值越来越接近，这时候如果仍然使用半精度的方法进行训练可能会影响模型训练精度。因此，如何在不降低模型训练精度的前提下如何减少模型训练占用的资源，成为亟待解决的问题。

技术实现要素：

4.鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种模型训练方法、装置、计算机设备及存储介质。
5.第一方面，本发明实施例提供一种模型训练方法，包括：
6.获取预设的超参数信息、基本参数信息以及训练数据信息；
7.基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；
8.在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成。
9.在一个可能的实施方式中，所述方法还包括：
10.获取所述初始模型在训练过程中输出的第一输出数据；
11.基于所述第一输出数据，对比第一预设训练周期内的第一输出数据的第一差值信息；
12.若所述第一差值信息小于或等于第一阈值，则确定调整所述超参数信息。
13.在一个可能的实施方式中，所述方法还包括：
14.若所述第一差值信息大于第一阈值，则确定对所述初始模型继续训练。
15.在一个可能的实施方式中，所述方法还包括：
16.获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数
据；
17.基于所述第二输出数据，对于第二预设训练周期内的第二输出数据的第二差值信息；
18.若所述第二差值信息小于或等于第一阈值，则确定所述初始模型训练完成。
19.在一个可能的实施方式中，所述方法还包括：
20.若所述第二差值信息大于第一阈值，则确定对所述初始模型继续训练。
21.第二方面，本发明实施例提供一种模型训练装置，包括：
22.获取模块，用于获取预设的超参数信息、基本参数信息以及训练数据信息；
23.训练模块，用于基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；
24.所述训练模块，还用于在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成。
25.在一个可能的实施方式中，所述训练模块，具体用于获取所述初始模型在训练过程中输出的第一输出数据；基于所述第一输出数据，对比第一预设训练周期内的第一输出数据的第一差值信息；若所述第一差值信息小于或等于第一阈值，则确定调整所述超参数信息。
26.在一个可能的实施方式中，所述训练模块，具体用于获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数据；基于所述第二输出数据，对于第二预设训练周期内的第二输出数据的第二差值信息；若所述第二差值信息小于或等于第一阈值，则确定所述初始模型训练完成。
27.第三方面，本发明实施例提供一种计算机设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的模型训练程序，以实现上述第一方面中所述的模型训练方法。
28.第四方面，本发明实施例提供一种存储介质，包括：所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面中所述的模型训练方法。
29.本发明实施例提供的模型训练方案，通过获取预设的超参数信息、基本参数信息以及训练数据信息；基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成，相比于现有技术中在模型训练阶段使用半精度的方式降低内存带宽压力并提高算术吞吐量，当模型进入收敛阶段后，模型参数离目标值越来越接近，这时候如果仍然使用半精度的方法进行训练可能会影响模型训练精度的问题，由本方案，采用混合精度的方式，在将模型训练分成两个阶段，不同阶段采用不同的训练精度，可以实现不降低模型训练精度的前提下减少模型训练占用的资源。
附图说明
30.图1为本发明实施例提供的一种模型训练方法的流程示意图；
31.图2为本发明实施例提供的另一种模型训练方法的流程示意图；
32.图3为本发明实施例提供的一种模型训练装置的结构示意图；
33.图4为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
34.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
35.为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。
36.图1为本发明实施例提供的一种模型训练方法的流程示意图，如图1所示，该方法具体包括：
37.s11、获取预设的超参数信息、基本参数信息以及训练数据信息。
38.本发明可以应用于任意模型的训练，本发明实施例中，分阶段对模型进行训练，可以分为两个阶段：阶段一模型使用预设参数从冷启动状态开始训练，根据预设条件自动判断是否收敛，收敛后调整预设参数进入第二阶段的训练；直到模型再次收敛，则可以确定模型训练完成。
39.具体的，首先，模型训练的超参数包括但不限于模型的学习率和单卡batch_size等，其中模型的学习率r可以设为1e-4，单卡batch_size可以设为512，其它超参数可以根据实际情况进行设置；其次，使用半精度(fp16)初始化模型其他基本参数，可以将模型的基本参数都设置为半精度，包括embedding和parameter参数；最后，获取训练初始模型的训练数据。
40.s12、基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练。
41.基于上述获取到的超参数信息、基本参数信息以及训练数据信息对初始模型进行第一阶段训练。
42.s13、在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成。
43.在第一阶段训练初始模型的过程中，每输入一个或一组训练数据，则保存初始模型输出的第一输出数据，直至第一输出数据达到第一目标条件后，表征第一阶段训练完成，可以保存第一阶段训练完成的模型，进而调整超参数信息，将第一阶段训练完成的模型进行第二阶段训练，其中，第一目标条件可以是模型收敛，判断方法可以是每隔一万次训练，获取最后一次模型输出的第一输出数据，最后两万次训练输出的两个第一输出数据的差值小于阈值(例如，0.01)，则可以确定模型收敛，第一阶段训练完成。
44.进一步的，调整超参数信息，学习率r可以设为1e-5，单卡batch_size可以设为256，将第一阶段训练完成的模型进行第二阶段训练，直至第二输出数据达到第二目标条件，则确定初始模型训练完成。其中，第二目标条件可以与第一目标条件相同，即模型收敛，
判断方法可以是每隔一万次训练，获取最后一次模型输出的第一输出数据，最后两万次训练输出的两个第一输出数据的差值小于阈值(例如，0.01)，则可以确定模型收敛，初始模型训练完成。
45.第一阶段训练全程所有基本参数使用半精度进行模型训练，可以使内存的使用率减少，第二阶段相比于第一阶段学习率减小了一个数量级，通过这一阶段对模型进行精细训练，减少学习率可以使模型训练更加稳定并且提升模型训练效率；由于第二阶段模型参数使用单精度后相同参数占用内存相比于第一阶段模型将增加1倍，所以单卡batch_size相比于第一阶段模型减少一半，减少内存占用。
46.本发明实施例提供的模型训练方法，通过获取预设的超参数信息、基本参数信息以及训练数据信息；基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成，相比于现有技术中在模型训练阶段使用半精度的方式降低内存带宽压力并提高算术吞吐量，当模型进入收敛阶段后，模型参数离目标值越来越接近，这时候如果仍然使用半精度的方法进行训练可能会影响模型训练精度的问题，由本方法，采用混合精度的方式，在将模型训练分成两个阶段，不同阶段采用不同的训练精度，可以实现不降低模型训练精度的前提下减少模型训练占用的资源。
47.图2为本发明实施例提供的另一种模型训练方法的流程示意图，如图2所示，该方法具体包括：
48.s21、获取所述初始模型在训练过程中输出的第一输出数据。
49.本发明实施例中，分阶段对模型进行训练，可以分为两个阶段：阶段一模型使用预设参数从冷启动状态开始训练，根据预设条件自动判断是否收敛，收敛后调整预设参数进入第二阶段的训练；直到模型再次收敛，则可以确定模型训练完成。
50.具体的，首先，模型训练的超参数包括但不限于模型的学习率和单卡batch_size等，其中模型的学习率r可以设为1e-4，单卡batch_size可以设为512，其它超参数可以根据实际情况进行设置；其次，使用半精度(fp16)初始化模型其他基本参数，可以将模型的基本参数都设置为半精度，包括embedding和parameter参数；最后，获取训练初始模型的训练数据，对初始模型进行第一阶段训练。
51.在第一阶段训练初始模型的过程中，每输入一个或一组训练数据，则保存初始模型输出的第一输出数据。
52.s22、基于所述第一输出数据，对比第一预设训练周期内的第一输出数据的第一差值信息。
53.本发明实施例中，可以每隔一万次训练，获取最后一次模型输出的第一输出数据，将最后两万次训练输出的两个第一输出数据进行对比，得到两个第一输出数据的第一差值信息。
54.s23、若所述第一差值信息小于或等于第一阈值，则确定调整所述超参数信息。
55.若第一差值信息小于或等于第一阈值(例如，0.01)，则可以确定模型收敛，第一阶段训练完成，调整超参数信息，学习率r可以调整为1e-5，单卡batch_size可以调整为256。继续对第一阶段训练完成的模型进行第二阶段训练。
56.可选的，若第一差值信息大于第一阈值，则确定对初始模型继续第一阶段训练，直至第一差值信息小于或等于第一阈值，模型收敛为止。
57.s24、获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数据。
58.s25、基于所述第二输出数据，对于第二预设训练周期内的第二输出数据的第二差值信息。
59.本发明实施例中，可以每隔一万次训练，获取最后一次模型输出的第二输出数据，将最后两万次训练输出的两个第二输出数据进行对比，得到两个第二输出数据的第二差值信息。
60.s26、若所述第二差值信息小于或等于第一阈值，则确定所述初始模型训练完成。
61.若第二差值信息小于或等于第一阈值(例如，0.01)，则可以确定模型收敛，第二阶段训练完成，即初始模型训练完成。
62.可选的，若第二差值信息大于第一阈值，则确定对初始模型继续第二阶段训练，直至第二差值信息小于或等于第一阈值，模型收敛为止。
63.第一阶段训练全程所有基本参数使用半精度进行模型训练，可以使内存的使用率减少，第二阶段相比于第一阶段学习率减小了一个数量级，通过这一阶段对模型进行精细训练，减少学习率可以使模型训练更加稳定并且提升模型训练效率；由于第二阶段模型参数使用单精度后相同参数占用内存相比于第一阶段模型将增加1倍，所以单卡batch_size相比于第一阶段模型减少一半，减少内存占用。
64.本发明实施例提供的模型训练方法，通过获取预设的超参数信息、基本参数信息以及训练数据信息；基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成，相比于现有技术中在模型训练阶段使用半精度的方式降低内存带宽压力并提高算术吞吐量，当模型进入收敛阶段后，模型参数离目标值越来越接近，这时候如果仍然使用半精度的方法进行训练可能会影响模型训练精度的问题，由本方法，采用混合精度的方式，在将模型训练分成两个阶段，不同阶段采用不同的训练精度，可以实现不降低模型训练精度的前提下减少模型训练占用的资源。
65.图3为本发明实施例提供的一种模型训练装置的结构示意图，具体包括：
66.获取模块301，用于获取预设的超参数信息、基本参数信息以及训练数据信息；
67.训练模块302，用于基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；
68.所述训练模块302，还用于在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成。
69.在一个可能的实施方式中，所述训练模块302，具体用于获取所述初始模型在训练过程中输出的第一输出数据；基于所述第一输出数据，对比第一预设训练周期内的第一输出数据的第一差值信息；若所述第一差值信息小于或等于第一阈值，则确定调整所述超参数信息；若所述第一差值信息大于第一阈值，则确定对所述初始模型继续训练。
70.在一个可能的实施方式中，所述训练模块302，还用于获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数据；基于所述第二输出数据，对于第二预设训练周期内的第二输出数据的第二差值信息；若所述第二差值信息小于或等于第一阈值，则确定所述初始模型训练完成；若所述第二差值信息大于第一阈值，则确定对所述初始模型继续训练。
71.本实施例提供的模型训练装置可以是如图3中所示的模型训练装置，可执行如图1-2中模型训练方法的所有步骤，进而实现图1-2所示模型训练方法的技术效果，具体请参照图1-2相关描述，为简洁描述，在此不作赘述。
72.图4为本发明实施例提供的一种计算机设备的结构示意图，图4所示的计算机设备400包括：至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。计算机设备400中的各个组件通过总线系统405耦合在一起。可理解，总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统405。
73.其中，用户接口403可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。
74.可以理解，本发明实施例中的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
75.在一些实施方式中，存储器402存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统4021和应用程序4022。
76.其中，操作系统4021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序4022，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。
77.在本发明实施例中，通过调用存储器402存储的程序或指令，具体的，可以是应用程序4022中存储的程序或指令，处理器401用于执行各方法实施例所提供的方法步骤，例如包括：
78.获取预设的超参数信息、基本参数信息以及训练数据信息；基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模
型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成。
79.在一个可能的实施方式中，获取所述初始模型在训练过程中输出的第一输出数据；基于所述第一输出数据，对比第一预设训练周期内的第一输出数据的第一差值信息；若所述第一差值信息小于或等于第一阈值，则确定调整所述超参数信息。
80.在一个可能的实施方式中，若所述第一差值信息大于第一阈值，则确定对所述初始模型继续训练。
81.在一个可能的实施方式中，获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数据；基于所述第二输出数据，对于第二预设训练周期内的第二输出数据的第二差值信息；若所述第二差值信息小于或等于第一阈值，则确定所述初始模型训练完成。
82.在一个可能的实施方式中，若所述第二差值信息大于第一阈值，则确定对所述初始模型继续训练。
83.上述本发明实施例揭示的方法可以应用于处理器401中，或者由处理器401实现。处理器401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成上述方法的步骤。
84.可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dspdevice，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
85.对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
86.本实施例提供的计算机设备可以是如图4中所示的计算机设备，可执行如图1-2中模型训练方法的所有步骤，进而实现图1-2所示模型训练方法的技术效果，具体请参照图1-2相关描述，为简洁描述，在此不作赘述。
87.本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。
88.当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在计算机设备侧执行的模型训练方法。
89.所述处理器用于执行存储器中存储的模型训练程序，以实现以下在计算机设备侧执行的模型训练方法的步骤：
90.获取预设的超参数信息、基本参数信息以及训练数据信息；基于所述超参数信息、基本参数信息以及训练数据信息对初始模型进行训练；在所述初始模型的第一输出数据达到第一目标条件后，调整所述超参数信息，继续对所述初始模型进行训练，直至所述初始模型的第二输出数据达到第二目标条件，则确定所述初始模型训练完成。
91.在一个可能的实施方式中，获取所述初始模型在训练过程中输出的第一输出数据；基于所述第一输出数据，对比第一预设训练周期内的第一输出数据的第一差值信息；若所述第一差值信息小于或等于第一阈值，则确定调整所述超参数信息。
92.在一个可能的实施方式中，若所述第一差值信息大于第一阈值，则确定对所述初始模型继续训练。
93.在一个可能的实施方式中，获取所述初始模型在调整所述超参数信息后进行训练过程中输出的第二输出数据；基于所述第二输出数据，对于第二预设训练周期内的第二输出数据的第二差值信息；若所述第二差值信息小于或等于第一阈值，则确定所述初始模型训练完成。
94.在一个可能的实施方式中，若所述第二差值信息大于第一阈值，则确定对所述初始模型继续训练。
95.专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
96.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
97.以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于机器视觉的地面损伤识别系统

模型训练方法、装置、计算机设备及存储介质与流程

相关文献

最热文献