一种用于机器学习方法的超参数推荐的方法与流程

2022-04-13 20:40:12 来源：中国专利 TAG：

一种用于机器学习方法的超参数推荐的方法

背景技术：

1.随着机器学习方法的发展，机器学习如今已被广泛应用于各种不同的应用中，包括例如社交媒体服务、垃圾邮件和恶意软件过滤、搜索引擎结果细化、产品推荐等。许多超参数需要事先定义，这些超参数通常是在开始为特定应用程序训练学习模型之前固定的参数。这些超参数影响和控制机器学习方法的行为(例如训练所需的总时间)和性能(例如学习模型的准确率)，因此对于机器学习的成功至关重要方法。如果超参数的数量较少，且超参数各自的范围有限，则可以采用穷举搜索或网格搜索来确定超参数的最优值。
2.然而，随着数据的大小和复杂性的增加，如果可能的话，寻找超参数的最优值也变得越来越耗时和资源密集。此外，机器学习方法和/或模型的日益复杂也增加需要搜索和确定的超参数组合的数量和复杂性，这进一步增加了获得对应机器学习方法的超参数最优值的难度。

技术实现要素：

3.本内容介绍了将在下面的详细描述中进一步描述的超参数推荐的简化概念。该内容不旨在确定要求保护的主题的基本特征，也不旨在用于限制要求保护的主题的范围。
4.本技术描述了用于机器学习方法的超参数推荐的示例实现。在实施中，可以启动或选择多个不同的超参数组合作为输入超参数组合集。使用训练集的子集通过机器学习方法对各个学习模型实例进行训练，每个学习模型实例对应于输入超参数组合集中的每个超参数组合。使用测试集获取各个学习模型实例的性能结果。基于所述性能结果，根据多个不同选择规则中的至少一个选择规则，选择一个或多个超参数组合，并加入到输出超参数组合集中。将选择的一个或多个超参数组合设置为输入超参数组合集合，重复上述过程，直到满足终止条件。然后将在输出超参数组合集中具有最优性能结果的超参数组合用作机器学习方法的最终或最优超参数组合。
附图说明
5.本文详细描述参照附图得以阐述。在附图中，参考编号最左边的数字表示参考编号第一次出现的图。在不同的图中使用相同的附图标记表示相似或相同的项目。
6.图1示出了可以使用超参数推荐系统的示例环境。
7.图2更详细地示出了示例超参数推荐系统。
8.图3示出了确定和推荐超参数组合的第一示例方法。
9.图4示出了确定和推荐超参数组合的第二示例方法。
具体实施方式
概述
10.如上所述，现有技术需要在开始机器学习过程之前确定多个超参数。由于训练和测试涉及的数据规模大并且复杂，机器学习方法的复杂性，以及超参数数量多、范围广，现
有技术中确定合适或最优的超参数集(或超参数组合)需要大量的数据时间、大量的计算和存储资源，由于资源有限，这会导致机器学习方法由于资源有限而获得次优的超参数组合。
11.本公开描述了示例超参数推荐系统。超参数推荐系统对训练集的一个子集进行采样，该子集在机器学习过程的每次迭代后都会发生变化(例如，该子集的大小逐渐增加等)。超参数推荐系统还采用多种不同的选择规则输出在机器学习过程的一次迭代结束时获得的一个或多个超参数组合，并将该一个或多个超参数组合作为机器学习过程下一次迭代的新输入，从而允许以平衡的方式探索和利用潜在的超参数组合。
12.具体地，给定特定的机器学习方法，超参数推荐系统可以首先获得多个不同的超参数组合(或配置)作为机器学习过程的第一次迭代的输入。超参数是在机器学习过程中固定的参数，其值用于控制机器学习过程的行为。超参数的示例包括但不限于与机器学习方法或算法相关的参数(例如学习率、批量大小等)，以及与学习模型相关的参数(例如，神经网络模型中隐藏层的数量和每个隐藏层的节点数)。在实现中，超参数不同于学习模型的模型参数(例如，神经网络模型的权重等)，这些模型参数将在训练学习模型时(即在机器学习过程中)确定。在实现中，根据超参数的类型，超参数的取值可以采用任何形式，例如实数值(例如学习率)、整数值(例如层数)、二进制值(例如，是否使用提前停止)，或分类值(例如，优化器的选择)等。
13.在机器学习过程的第一次迭代中，超参数推荐系统可以通过机器学习方法训练学习模型实例，其中多个不同超参数组合的每个超参数组合使用训练集的采样子集(或称为训练采样子集)。超参数推荐系统可以使用测试集针对多个不同的超参数组合获得和评估学习模型实例的性能结果。
14.在实施中，超参数推荐系统然后可以基于所述性能结果并通过一个或多个选择规则从多个不同的超参数组合中获得或选择一个或多个超参数组合。在实现中，可以从多个选择规则中策略性地(例如，概率地)选择一个或多个选择规则。多个选择规则可以包括第一选择规则，其从多个不同的超参数组合中选择具有最优性能结果的第一预定数量的超参数组合，和第二规则，其从多个不同的超参数组合中选择具有最优性能结果的第二预定数量的超参数组合，并且在第二预定数量的超参数组合的每一个中随机改变选定数量的超参数的值，以及第三规则，从多个不同的超参数组合中随机选择第三预定数量的超参数组合。
15.超参数推荐系统然后可以将一个或多个超参数组合添加到输出超参数组合集中。在实现中，超参数推荐系统可以确定是否满足终止条件。
16.如果不满足终止条件，超参数推荐系统可以使用一个或多个超参数组合作为机器学习过程的下一次迭代(例如，第二次迭代)的输入，并且机器学习过程的下一次迭代重复执行如上所述的过程，直到满足终止条件。
17.在实现中，在满足终止条件后，超参数推荐系统可以将输出的超参数组合集中性能结果最好的超参数组合确定为机器学习方法的最终超参数组合。
18.在本文描述的示例中，所描述的超参数推荐系统逐渐改变在机器学习过程的每次迭代中使用的训练集子集的大小，策略性地(例如，概率地)采用一个或多个不同的选择规则来输出在机器学习过程的迭代结束时获得的一个或多个超参数组合，并将一个或多个超参数组合用作机器学习过程下一次迭代的输入，从而允许以平衡的方式探索和利用潜在的超参数组合。
19.在实施中，与其他超参数优化方法(如贝叶斯优化算法)相比，所描述的超参数推荐系统大大减少了用于获得合适的或最优的超参数组合以推荐给机器学习算法和/或机器学习模型的运行时间和迭代次数，从而减少用于获得合适或最优超参数组合的计算和存储资源量。例如，当前超参数推荐系统采用的公开的方法与使用cifar-10的贝叶斯算法方法的比较如下两个表所示。以下结果是通过平均十次独立实验获得的。表1表2
20.从上表可以看出，与现有超参数优化方法相比，所公开的方法以更少的时间和更少的测试或迭代次数获得了与贝叶斯优化算法相似的准确率，从而一方面大大提高了获得用于推荐给机器学习算法和/或机器学习模型的合适的或最优超参数组合的速度，另一方面大大减少了用于获得合适或最优超参数组合的计算和存储资源。
21.此外，本文描述的由超参数推荐系统执行的功能可以由多个单独的单元或服务执行。例如，输入服务可以获得一组超参数组合作为机器学习过程迭代的输入，而训练服务可以使用在机器学习过程的每次迭代之后在大小上增加的训练采样子集，通过机器学习方法的各个实例与所述组超参数组合训练学习模型。测试服务可以使用测试集获取和评估学习模型针对该组超参数组合的性能结果，而选择服务可以基于性能结果通过一个或多个选择规则从所述组超参数组合中选择一个或多个超参数组合。在实现中，确定服务可以确定是否满足终止条件，并将一个或多个超参数组合作为机器学习过程的下一次迭代的新输入发送到输入服务，或者将最终输出超参数组合集发送到输出服务，其可以确定并输出最终输出超参数组合集中具有最优性能结果的超参数组合，作为机器学习方法使用的推荐或最优超参数组合。
22.此外，虽然在本文描述的示例中，超参数推荐系统可以实现为安装在单个设备中的软件和/或硬件，但在其他示例中，超参数推荐系统可以实现并分布在多个设备中或作为通过网络和/或云计算架构在一个或多个服务器中提供的服务。
23.本技术描述了多种不同的实施方式和实施方式。以下部分描述了一个适用于实践各种实现的示例框架。接下来，该应用程序描述了用于实现超参数推荐系统的示例系统、设
备和过程。示例环境
24.图1图示了可用于实现超参数推荐系统的示例环境100。环境100可以包括超参数推荐系统102。在该示例中，超参数推荐系统102被描述为包括一个或多个服务器104。在一些情况下，超参数推荐系统102可以是一个或多个服务器104的一部分，或者可以被包括在和/或分布在一个或多个服务器104中，这些服务器可以经由网络106彼此通信数据。另外或替代地，在一些情况下，超参数推荐系统102的功能可以被包括在和/或分布在一个或多个服务器104之间。例如，一个或多个服务器104中的第一服务器可以包括超参数推荐系统102的部分功能，而超参数推荐系统102的其他功能可以包括在一个或多个服务器104中的第二服务器。此外，在一些实现中，超参数推荐系统102的一些或全部功能可以被包括在云计算系统或架构中，并且可以被提供为用于确定或推荐合适的或最优的机器学习方法的超参数组合或配置的服务。
25.在实现中，超参数推荐系统102可以是客户端设备108的一部分，例如客户端设备108的软件和/或硬件组件。在一些情况下，超参数推荐系统102可以包括客户端设备108。在一些实施方式中，超参数推荐系统102的一些或全部功能可以包括在一个或多个服务器104、客户端设备108和/或云计算系统或架构中。
26.客户端设备108可以被实现为多种计算设备中的任一种，包括但不限于台式计算机、笔记本或便携式计算机、手持设备、上网本、互联网设备、平板电脑或平板电脑计算机、移动设备(例如，移动电话、个人数字助理、智能电话等)等，或其组合。
27.网络106可以是无线或有线网络，或其组合。网络106可以是彼此互连并用作单个大型网络(例如，因特网或内联网)的单独网络的集合。这种单独网络的示例包括但不限于电话网络、电缆网络、局域网(lan)、广域网(wan)和城域网(man)。此外，该单独网络可以是无线或有线网络，或其组合。有线网络可以包括电载体连接(例如通信电缆等)和/或光载体或连接(例如光纤连接等)。无线网络可以包括例如wifi网络、其他射频网络(例如，zigbee等)等。
28.在实现中，用户110可能想要获得一组合适的用于使用机器学习方法训练学习模型的超参数。用户110可以通过客户端设备108向超参数推荐系统102输入机器学习方法和学习模型的信息。在实施中，用户110可以通过客户端设备108向超参数推荐系统102提供机器学习方法和学习模型的各自名称，然后超参数推荐系统102将搜索详细信息，例如机器学习方法和/或学习模型存在哪些超参数、超参数的类型等。在实现中，用户110可以直接将这些详细信息提供给超参数推荐系统102。超参数推荐系统102在接收到机器学习方法和学习模型的信息后，可以确定机器学习方法和学习模型的适合的或最优的超参数组合或配置，并向客户端设备108返回或推荐这种合适的或最优的超参数组合或配置以呈现给用户110，或由客户端设备108存储。示例超参数推荐系统
29.图2更详细地示出了超参数推荐系统102。在实施中，超参数推荐系统102可以包括但不限于一个或多个处理单元202、存储器204和程序数据206。在实施中，超参数推荐系统102还可以包括网络接口208和输入/输出接口210。另外或替代地，超参数推荐系统102的一些或所有功能可以使用asic(即，专用集成电路)、fpga(即，现场可编程门阵列)或超参数推
荐系统102中提供的其他硬件。
30.在实施方式中，一个或多个处理单元202被配置为执行从网络接口208接收的指令、从输入/输出接口210接收的指令和/或存储在存储器204中的指令。在实施中，一个或多个处理单元202可以实现为一个或多个硬件处理器，包括例如微处理器、专用指令集处理器、图形处理单元、物理处理单元(ppu)、中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器等。另外或替代地，本文描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示例性类型包括现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld)等。
31.存储器204可以包括易失性存储器形式的计算机可读介质，例如随机存取存储器(ram)和/或非易失性存储器，例如只读存储器(rom)或闪存ram。存储器204是计算机可读介质的示例。
32.计算机可读介质可以包括易失性或非易失性、可移动或不可移动介质，其可以使用任何方法或技术实现信息的存储。该信息可以包括计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质的示例包括但不限于相变存储器(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦可编程只读存储器(eeprom)、快速闪存或其他内部存储技术、光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光存储器、磁带、磁盘存储或其他磁存储设备，或任何其他可用于存储可由计算设备访问的信息的非传输介质。如这里所定义的，计算机可读介质不包括诸如调制数据信号和载波之类的瞬态介质。
33.尽管在该示例中，超参数推荐系统102中仅描述了硬件组件，但是在其他情况下，超参数推荐系统102还可以包括其他硬件组件和/或其他软件组件，例如用于执行存储在存储器204中的指令以执行各种操作的程序单元。所述操作例如训练、测试、评估、选择、输出等。例如，超参数推荐系统102还可以包括超参数数据库212，超参数数据库212用于存储多种机器学习方法的识别信息(例如，名称)和相应的超参数集之间的映射关系。附加地或替代地，超参数数据库212可以存储多个学习模型的标识信息(例如，名称)与相应的超参数集合之间的映射关系。附加地或替代地，超参数数据库212可以存储与机器学习方法或学习模型相关联的每个超参数的对应类型和对应范围(或范围)。示例方法
34.图3是描述确定和推荐超参数组合的示例方法的示意图。图4是描述确定和推荐超参数组合的另一示例方法的示意图。图3和4的方法可以在图1的环境中实现和使用图2的系统，但这并非必要。为便于解释，参考图3和4描述方法300和400。然而，方法300和400可以替代地在其他环境中和/或使用其他系统来实现。
35.在计算机可执行指令的一般上下文中描述方法300和400。通常，计算机可执行指令可包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、过程、模块、功能等。此外，每个示例方法被示为表示可以在硬件、软件、固件或其组合中实现的操作序列的逻辑流程图中的框的集合。描述该方法的顺序不旨在被解释为限制，并且可以以任何顺序组合任意数量的所描述的方法的框以实现该方法或替代方法。此外，在不脱离本文所述主题的精神和范围的情况下，可以从该方法中省略单个框。在软件的上下文中，
框代表计算机指令，所述指令当由一个或多个处理器执行时，执行所述操作。在硬件的上下文中，一些或所有框可以表示专用集成电路(asic)或执行所述操作的其他物理组件。
36.返回参考图。参照图3，在框302，超参数推荐系统102可以获得机器学习方法和/或学习模型的信息。
37.在实施中，超参数推荐系统102可以通过客户端设备(例如客户端设备108)从用户(例如用户110)获取机器学习方法和/或学习模型的信息。在一种情况下，超参数推荐系统102获得的机器学习方法和/或学习模型的信息可以包括机器学习方法的名称、学习模型的名称和机器学习方法的超参数信息和/或需要确定的学习模型。
38.在实例中，由超参数推荐系统102获得的机器学习方法和/或学习模型的信息可以包括机器学习方法的名称和学习模型的名称。在这种情况下，超参数推荐系统102可以根据机器学习方法的名称和/或学习模型的名称来确定或搜索需要确定的机器学习方法和/或学习模型的超参数信息。例如，超参数推荐系统102可以在超参数数据库212中搜索需要确定的机器学习方法和/或学习模型的超参数信息。
39.在框304，超参数推荐系统102可以确定或获得用于训练的训练集和用于交叉验证的测试集。
40.在实施中，超参数推荐系统102可以通过客户端设备108以地址链接的形式从用户110接收训练集和测试集的信息。例如，用户110可以通过客户端设备108向超参数推荐系统102提供存储训练集和测试集的存储设备的地址链接。在一种情况下，存储设备可以是由用户110或第三方拥有和/或提供商维护。在这种情况下，超参数推荐系统102可以通过地址链接下载训练集和测试集。在某些情况下，用户110可能已经在超参数推荐系统102的存储器204中提供并存储了训练集和测试集。在这种情况下，地址链接可以是在超参数推荐系统102的存储器204中存储训练集和测试集的存储位置的地址信息。
41.在框306处，超参数推荐系统102可以为机器学习方法和/或学习模型确定多个不同的超参数组合，每个超参数组合包括要确定的超参数的相应初始值集。
42.在实施中，对于每个超参数组合，超参数推荐系统102可以通过根据超参数的对应类型随机选择超参数的各个允许范围(或范围)内的超参数的值来确定各个超参数组合中包含的超参数的初始值。在实施中，超参数推荐系统102可以从超参数数据库212获得超参数的类型和范围的信息。
43.附加地或替代地，超参数推荐系统102可以基于先验知识确定性地或策略性地获得机器学习方法和/或学习模型的多个不同的超参数组合。例如，用户110或另一用户之前可能已经请求对机器学习方法和/或学习模型的超参数的推荐。在这种情况下，超参数推荐系统102可以使用先前的结果作为多个不同超参数组合的初始值。
44.在框308，超参数推荐系统102可以将多个不同超参数组合的初始值设置为输入超参数组合集。
45.在框310，超参数推荐系统102可以使用训练集的采样子集(或简称为训练子集)，通过机器学习方法对输入超参数组合集中的每个超参数组合对相应的学习模型实例执行机器学习过程，在机器学习过程结束时选择并使用多个选择规则中的至少一个来选择一个或多个超参数组合。
46.在实施中，机器学习过程的迭代可以包括使用训练集的采样子集通过机器学习方
法对输入超参数组合集中的每个超参数组合的各个学习模型实例进行训练，使用测试集针对输入超参数组合集中的每个超参数组合评估学习模型实例的性能结果，选择多个选择规则中的至少一个选择规则，并根据至少一个选择规则和输入超参数组合集中每个超参数组合的性能结果，从输入超参数组合集中选择一个或多个超参数组合。
47.在实施中，给定输入超参数组合集合的每个超参数组合中的超参数值，超参数推荐系统102可以使用训练集的子集通过机器学习方法使用超参数的给定值来训练并获得相应的学习模型实例。
48.在实现中，对于机器学习过程的不同迭代，训练子集可能不同。例如，用于训练的训练子集的大小可以随着机器学习过程的迭代次数逐渐或单调增加。例如，机器学习过程的每次迭代的训练子集的大小可以被预定义并存储在诸如预定义比率数组之类的数据结构中，例如，[s1，s2，
…
，sn]，其中n是正整数，0＜si≤1，si≤sj，其中i＜j，i和j为小于等于n的整数。
48.在实现中，机器学习过程的迭代的训练子集的大小可以取决于可用的计算和存储资源、机器学习过程的先前迭代的训练子集的大小等。在实现中，取决于在采用哪种采样规则(随机采样、在现有采样子集之上的附加采样等)时，机器学习过程的一次迭代的训练子集可以完全包含、部分包含或不包含在机器学习过程的后续迭代的训练子集中。
[0050]
在实现中，超参数推荐系统102可以使用测试集和评估指标来评估每个超参数组合的学习模型实例的性能。在实施中，评估指标可以包括但不限于准确率。例如，超参数推荐系统102可以在测试集上应用超参数组合的学习模型实例，并计算测试集中被学习模型实例准确识别或确定的案例的百分比(即准确率)。该准确率然后被超参数推荐系统102视为相关联的超参数组合的学习模型实例的性能结果。
[0051]
在实施中，多个选择规则可以包括但不限于：第一规则，其从输入超参数组合集合中选择具有最优性能结果的第一预定数量的超参数组合，第二规则，其从输入超参数组合集中选择具有最优性能结果的第二预定数量的超参数组合，并且在第二预定数量的超参数组合的每一个中随机改变选定数量的超参数的值，以及第三规则，其从输入超参数组合集的组合随机选择第三预定数量的超参数。
[0052]
在实现中，超参数推荐系统102可以基于预定义的策略来选择多个选择规则中的至少一个选择规则。例如，超参数推荐系统102可以将被选择的不同选择概率分配给多个选择规则，在机器学习过程的每次迭代之后根据预定义策略改变不同选择概率中的每一个。作为示例而非限制，预定义的策略可以包括为多个选择规则分配不同的数值区间，在不同数值区间的总范围内随机选择一个数值，确定选择的数值属于不同数值区间的哪个数值区间，并从多个选择规则中选择与确定的数值区间对应的选择规则。在实施中，分配给多个选择规则的不同数值区间可以或可以不随着机器学习过程的迭代次数而改变。
[0053]
作为示例而非限制，多个选择规则包括如上所述的三个选择规则(即，第一选择规则、第二选择规则和第三选择规则)。分配给第二选择规则的数值区间的范围(即，r2)可以随着机器学习过程的迭代次数而减小(例如，线性地)，并且分配给第三选择规则的数值区间的范围(即，r3)可以随着机器学习过程的迭代次数而减少(例如，指数地)。在实现中，分配给第二选择规则的数值区间范围的减小速度可以慢于分配给第三选择规则的数值区间范围的减小速度，从而在机器学习过程的早期迭代中随机选择超参数组合的可能性相对较
高，并且随着机器学习过程迭代次数的增加而减少，以允许对机器学习方法和/或学习模型最优或适合的潜在超参数组合的探索和利用。由于分配给这些选择规则的不同数值区间的总范围是固定的(例如范围[0，1])，因此分配给第一选择规则的数值区间的范围(即r1)随着机器学习过程的迭代次数而增加。
[0054]
继上例，[0，1]的范围可以分为三个数值区间，r1、r2和r3，这三个数值区间的顺序可以是任意的，只要r1之和、r2和r3等于1。将这些数值区间排列好后，抽取一个[0，1]范围内的随机数，判断这个随机数属于哪个数值区间。然后，在框310，选择对应于该数值区间的选择规则以在机器学习过程期间选择一个或多个超参数组合。例如，如果随机数小于r3，则选择第三选择规则。如果随机数大于r3且小于r2 r3，则选择第二选择规则。否则，选择第一选择规则，即随机数大于r2 r3。
[0055]
在框312处，超参数推荐系统102可以将一个或多个选择的超参数组合添加到输出超参数组合集中。
[0056]
在实现中，超参数推荐系统102可以将在机器学习过程的每次迭代结束时选择的一个或多个超参数组合添加到输出超参数组合集中。在实现中，超参数推荐系统102可以进一步存储各个学习模型示例的信息(例如，连接权重等，在神经网络模型的情况下)，所述信息使用在机器学习过程的当前迭代结束时使用超参数推荐系统102的存储器204或外围存储设备中的一个或多个选定的超参数组合而获得。在实施中，与选定的超参数组合对应的学习模型实例的存储的信息足以构建学习模型实例而无需额外训练。
[0057]
在框314处，超参数推荐系统102可以确定是否满足一个或多个终止条件。
[0058]
在实现中，超参数推荐系统102可以基于是否满足一个或多个终止条件来确定是开始机器学习过程的新迭代还是终止机器学习过程。在实施中，一个或多个终止条件可以包括但不限于达到最大允许迭代次数、超参数组在合两次连续迭代间的差异小于或等于预定义阈值、超参数组合两次连续迭代间的性能提高结果小于或等于预定义百分比，选择第一规则的可能性大于或等于预定义值，可用资源量(例如计算和/或存储资源)少于执行机器学习过程的新迭代所需的预期资源量。执行机器学习过程的新迭代所需的预期资源量可以基于新迭代的训练子集大小和测试集大小的增加、机器学习过程的当前迭代所用的计算或测量的资源量等。
[0059]
在框316处，如果一个或多个终止条件不满足，则超参数推荐系统102可以获得新的训练子集(例如，其可以包括先前的训练子集加上如上所述的根据预定义比率数组的附加训练数据)，将上面在框310中选择的一个或多个超参数组合设置为新的输入超参数组合集，并开始重复框310-314的上述操作的机器学习过程的新迭代，直到一个或满足更多终止条件。
[0060]
在框318处，如果满足一个或多个终止条件，则超参数推荐系统102可以从输出超参数组合集中选择具有最优性能结果的超参数组合，并且将该选择的超参数组合推荐为合适的或最优的机器学习方法和/或学习模型的超参数组合。
[0061]
在实施方式中，在确定满足一个或多个终止条件时，超参数推荐系统102可以从已经添加到输出超参数组合集中的超参数组合中选择具有最优性能结果的超参数组合，并且通过客户端设备108将这个选择的超参数组合作为机器学习方法和/或学习模型的推荐或最优的超参数组合发送给用户110。
[0062]
在具体实施中，超参数推荐系统102还可以向客户端设备108提供与推荐的超参数组合相关联的对应学习模型实例的信息，从而可以在客户端设备108中直接构建该对应的学习模型实例，而无需额外的训练(例如，通过应用机器学习方法和选定的超参数组合来获得学习模型实例)。
[0063]
虽然上述方法框被描述为以特定顺序执行，但是在一些实施方式中，可以以其他顺序或并行执行一些或所有方法框。例如，超参数推荐系统102可以在框312将一个或多个选择的超参数组合添加到输出超参数组合集中之时或之前在框314确定一个或多个终止条件是否满足。此外，超参数推荐系统102在确定或预测可用计算和/或存储资源足以执行此类并行操作时，可以在框310并行地为每个超参数组合训练学习模型实例。
[0064]
参照图4，在框402，超参数推荐系统102可以接收用于确定或推荐用于机器学习方法和/或学习模型的超参数组合的请求。
[0065]
在实施中，请求可以包括但不限于机器学习方法和/或学习模型的信息。在具体实施中，该请求还可以包括要使用的训练集和测试集的存储位置信息。
[0066]
在框404处，超参数推荐系统102可以启动输入超参数组合集。
[0067]
在实施中，超参数推荐系统102可以从可能的超参数组合中随机选择多个不同的超参数组合作为输入超参数组合集合。
[0068]
在框406处，超参数推荐系统102可以通过机器学习方法对学习模型执行机器学习过程的多次迭代，其中机器学习过程的每次迭代包括对输入超参数组合集中的每个超参数组合的各个学习模型实例的训练和测试；从多个选择规则中选择至少一个选择规则；基于至少一个选择规则对进入输出超参数组合集的一个或多个超参数组合进行选择；将一个或多个选择的超参数组合添加到输出超参数组合集中；并且如果不满足一个或多个终止条件，则将一个或多个选择的超参数组合设置为机器学习过程下一次迭代的输入超参数组合集，其中在机器学习过程的大量迭代中的至少一些迭代中使用的训练集是不同的。
[0069]
在实施方式中，多个选择规则可以包括如前述实施方式中描述的第一选择规则、第二选择规则和第三选择规则。
[0070]
在框408处，超参数推荐系统102可以从输出的超参数组合集中选择具有最优性能结果的超参数组合。
[0071]
在框410，超参数推荐系统102可以返回选择的超参数组合作为为机器学习方法和/或学习模型推荐的超参数组合。
[0072]
虽然上述方法框被描述为以特定顺序执行，但是在一些实施方式中，可以以其他顺序或并行执行一些或所有方法框。
[0073]
本文描述的任何方法的任何动作可以至少部分地由处理器或其他电子设备基于存储在一个或多个计算机可读介质上的指令来实现。作为示例而非限制，这里描述的任何方法的任何动作可以在一个或多个处理器的控制下实现，该处理器配置有可执行指令，可执行指令可以存储在一个或多个计算机可读介质上。结论
[0074]
尽管已经以特定于结构特征和/或方法动作的语言描述了本公开方案的实现，但是应当理解，权利要求不必限于所描述的特定特征或动作。相反，所述特定特征和动作被公开为实现要求保护的主题的示例性形式。附加地或替代地，一些或所有操作可以由一个或
多个asics、fpga或其他硬件来实现。
[0075]
使用以下条款可以进一步理解本公开。
[0076]
条款1：一种由一个或多个计算设备实现的方法，该方法包括：确定多个不同的超参数组合作为输入超参数组合集；使用变化比率的训练集，用所述输入超参数组合集中的每个超参数组合训练机器学习方法的相应学习模型实例；使用测试集对所述输入超参数组合集中的每个超参数组合测试相应的学习模型实例，得到各自的性能结果；基于一个或多个规则从所述输入超参数组合集中获取一个或多个超参数组合，所述一个或多个规则选自多个规则，包括：第一规则，其从所述输入超参数集中选择具有最优性能的第一预定数量的超参数组合；第二规则，其从所述输入超参数组合集中选择具有最优性能结果的第二预定数量的超参数组合，并且在所述第二预定数量的超参数组合的每一中随机改变选定数量的超参数的值；以及第三规则，其从所述输入超参数组合集中随机选择第三预定数量的超参数组合；将所述一个或多个超参数组合添加到输出超参数组合集中；将所述一个或多个超参数组合设置为输入超参数组合集，递归地进行新的训练、测试、获取以及添加的迭代，直到满足终止条件；和从所述输出超参数组合集中选择具有最优性能结果的超参数组合作为所述机器学习方法的最终超参数组合，其中在训练、测试、获取和添加的每次迭代之后，增加所述变化比率和选择第一规则的可能性，并降低选择第二规则的可能性和选择第三条规则的可能性。
[0077]
条款2：根据条款1的方法，其中确定所述多个不同的超参数组合包括：从所有已知的超参数组合中随机选择多个不同的超参数组合；或基于使用不同训练集和/或不同测试集获得的先前输出超参数组合集确定性地选择多个不同的超参数组合。
[0078]
条款3：根据条款1的方法，其中所述终止条件包括以下至少之一：达到最大迭代次数；两次连续迭代的超参数组合之间的差异小于预定义的阈值；或者选择所述第一规则的可能性大于或等于预定义阈值。
[0079]
条款4：根据条款1的方法，其中每次迭代后所述变化比率的增加量取决于预定义的比率增加率、当前变化比率或可用于训练的计算资源中的至少一个。
[0080]
条款5：一种系统，包括：一个或多个处理器；存储可执行指令的存储器，当由所述一个或多个处理器执行时，这些指令使所述一个或多个处理器执行包括：接收用于推荐机器学习方法和/或学习模型的超参数组合的请求；启动输入超参数组合集；通过所述机器学习方法对学习模型执行机器学习过程的多次迭代，其中所述机器学习过程的每次迭代包括：对输入超参数组合集中的每个超参数组合的各个学习模型实例进行训练和测试；从多个选择规则中选择至少一个选择规则；基于所述至少一个选择规则对进入输出超参数组合集的一个或多个超参数组合进行选择；将选择的一个或多个超参数组合添加到所述输出超参数组合集合中；并设置如果不满足一个或多个终止条件，则将选择的一个或多个超参数组合作为所述机器学习过程的下一次迭代的输入超参数组合集，其中在所述机器学习过程的多次迭代中的至少一些迭代中使用的训练集是不同的；从所述输出超参数组合集中选择性能结果最优的超参数组合作为对所述机器学习方法和/或学习模型推荐的超参数组合。
[0081]
条款6：根据条款5的系统，其中启动所述输入超参数组合集包括：从所有已知超参数组合中随机选择输入超参数组合集；或基于使用不同训练集和/或不同测试集获得的先前输出超参数组合集确定性地选择输入超参数组合集。
[0082]
条款7：根据条款5的系统，其中所述多个选择规则包括：第一选择规则，其从所述输入超参数组合集中选择具有最优性能结果的第一预定数量的超参数组合；第二选择规则，其从所述输入超参数组合集中选择具有最优性能结果的第二预定数量的超参数组合，并且在所述第二预定数量的超参数组合的每一个中随机改变选择数量的超参数的值；第三选择规则，其从所述输入超参数组合集中随机选择第三预定数量的超参数组合。
[0083]
条款8：根据条款7的系统，其中所述一个或多个终止条件包括：达到最大迭代次数；两次连续迭代的超参数组合之间的差异小于预定义的阈值；或者选择所述第一规则的可能性大于或等于预定义阈值。
[0084]
条款9：根据条款5的系统，其中从多个选择规则中选择至少一个选择规则包括从多个选择规则中随机选择至少一个选择规则。
[0085]
条款10：根据条款5的系统，其中多个选择规则被分配有不同的选择概率，在机器学习过程的每次迭代之后，降低一个或多个选择规则的选择概率。
[0086]
条款11：根据条款5的系统，其中在所述机器学习过程的每次迭代之后训练集的大小单调增加。
[0087]
条款12：根据第5条的系统，其中在所述机器学习过程的每次迭代中训练集的大小取决于预定义的比率增加率和/或可用的计算和存储资源。
[0088]
条款13：一个或多个计算机可读介质，其上存储有可执行指令，当由一个或多个处理器执行时，这些指令使所述一个或多个处理器执行包括：接收推荐用于机器学习方法和/或学习模型的超参数组合的请求；启动输入超参数组合集；通过所述机器学习方法对所述学习模型执行机器学习过程的多次迭代，其中所述机器学习过程的每次迭代包括：对输入超参数组合集中的每个超参数组合的各个学习模型实例进行训练和测试；从多个选择规则中的选择至少一个选择规则；基于所述至少一个选择规则对进入输出超参数组合集的一个或多个超参数组合进行选择；将选择的一个或多个超参数组合添加到输出超参数组合集中；并设置如果不满足一个或多个终止条件，则将一个或多个选择的超参数组合作为所述机器学习过程的下一次迭代的输入超参数组合集，其中在所述机器学习过程的多次迭代中的至少一些迭代中使用的训练集是不同的；从所述输出超参数组合集中选择性能结果最好的超参数组合作为对所述机器学习方法和/或学习模型推荐的超参数组合。
[0089]
条款14：根据条款13的一个或多个计算机可读介质，其中启动所述输入超参数组合集包括：从所有已知超参数组合中随机选择输入超参数组合集；或基于使用不同训练集和/或不同测试集获得的先前输出超参数组合集确定性地选择输入超参数组合集。
[0090]
条款15：根据条款13所述的一个或多个计算机可读介质，其中所述多个选择规则包括：第一选择规则，其从所述输入超参数组合集中选择具有最优性能结果的第一预定数量的超参数组合；第二选择规则，其从所述输入超参数组合集中选择具有最优性能结果的第二预定数量的超参数组合，并且在所述第二预定数量的超参数组合的每一个中随机改变选择数量的超参数的值；第三选择规则，其从所述输入超参数组合集中随机选择第三预定数量的超参数组合。
[0091]
条款16：条款15所述的一个或多个计算机可读介质，其中所述一种或多种终止条件包括：达到最大迭代次数；两次连续迭代的超参数组合之间的差异小于预定义的阈值；或
者选择所述第一规则的可能性大于或等于预定义阈值。
[0092]
条款17：条款13的一个或多个计算机可读介质，其中从多个选择规则中选择至少一个选择规则包括从多个选择规则中随机选择至少一个选择规则。
[0093]
条款18：条款13的一个或多个计算机可读介质，其中多个选择规则被分配有不同的选择概率，在机器学习过程的每次迭代之后，降低一个或多个选择规则的选择概率。
[0094]
条款19条：条款13所述的一个或多个计算机可读介质，其中在所述机器学习过程的每次迭代之后训练集的大小单调增加。
[0095]
条款20：条款13所述的一个或多个计算机可读介质，其中在所述机器学习过程的每次迭代中训练集的大小取决于预定义的比率增加率和/或可用的计算和存储资源。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于特征衰减筛选的神经机器翻译方法

一种用于机器学习方法的超参数推荐的方法与流程

相关文献

最热文献