分类模型的训练方法、超参数的搜索方法以及装置与流程

2022-02-24 10:38:04 来源：中国专利 TAG：

技术特征：
1.一种分类模型的训练方法，其特征在于，包括：获取待训练分类模型的目标超参数，所述目标超参数用于控制所述待训练分类模型的梯度更新步长，所述待训练分类模型包括缩放不变性线性层，所述缩放不变性线性层使得所述待训练分类模型的权重参数乘以任意缩放系数时输出的预测分类结果保持不变；根据所述目标超参数与目标训练方式对所述待训练分类模型的权重参数进行更新，得到训练后的分类模型，所述目标训练方式使得所述待训练分类模型更新前与更新后的权重参数的模长相同。2.如权利要求1所述的训练方法，其特征在于，所述训练后的分类模型的权重参数是根据所述目标超参数和所述目标训练方式通过反向传播算法多次迭代更新得到的。3.如权利要求1或2所述的训练方法，其特征在于，所述缩放不变性线性层根据以下公式得到所述预测分类结果：其中，y
i
表示第i次迭代更新的权重参数对应的预测分类结果；w
i
表示所述第i次迭代更新的权重参数；x表示待分类特征；s表示尺度常数。4.如权利要求1至3中任一项所述的训练方法，其特征在于，所述目标训练方式包括：通过以下公式对所述更新后的权重参数进行处理，使得所述待训练分类模型更新前与更新后的权重参数的模长相同：其中，w
i 1
表示第i 1次迭代更新的权重参数；w
i
表示第i次迭代更新的权重参数；norm0表示所述待训练分类模型的初始权重模长。5.一种超参数的搜索方法，其特征在于，包括：获取目标超参数的候选值，所述目标超参数用于控制待训练分类模型的梯度更新步长，所述待训练分类模型包括缩放不变性线性层，所述缩放不变性线性层使得所述待训练分类模型的权重参数乘以任意缩放系数时输出的预测分类结果保持不变；根据所述候选值与目标训练方式，得到所述待训练分类模型的性能参数，所述目标训练方式使得所述待训练分类模型更新前与更新后的权重参数的模长相同，所述性能参数包括所述待训练分类模型的精度；根据所述性能参数从所述候选值中确定所述目标超参数的目标值。6.如权利要求5所述的搜索方法，其特征在于，所述目标值对应的所述待训练分类模型的精度大于所述候选值中其它候选值对应的所述待训练分类模型的精度。7.如权利要求5或6所述的搜索方法，其特征在于，所述获取目标超参数的候选值，包括：根据所述目标超参数的初始搜索范围进行均匀划分，得到所述目标超参数的候选值。8.如权利要求7所述的搜索方法，其特征在于，还包括：根据当前训练步数、预先配置的训练步数以及所述待训练分类模型的精度的变化趋势更新所述目标超参数的初始搜索范围。
9.如权利要求8所述的搜索方法，其特征在于，所述根据当前训练步数、预先配置的训练步数以及所述待训练分类模型的精度的变化趋势更新所述目标超参数的初始搜索范围，包括：若所述当前训练步数小于所述预先配置的训练步数，则将所述目标超参数的初始搜索范围的上边界更新为所述当前训练步数中所述待训练分类模型的最优精度对应的所述目标超参数的候选值。10.如权利要求8所述的搜索方法，其特征在于，所述根据当前训练步数、预先配置的训练步数以及所述待训练分类模型的精度的变化趋势更新所述目标超参数的初始搜索范围，包括：若所述当前训练步数等于所述预先配置的训练步数，则将所述目标超参数的初始搜索范围的上边界更新为第一候选值，所述目标超参数的搜索范围的下边界更新为第二候选值，所述第一候选值与所述第二候选值是指与所述待训练分类模型的最优精度对应的所述目标超参数的候选值相邻的候选值。11.如权利要求5至10中任一项所述的搜索方法，其特征在于，所述缩放不变性线性层根据以下公式得到所述预测分类结果：其中，y
i
表示第i次迭代更新的权重参数对应的预测分类结果；w
i
表示所述第i次迭代更新的权重参数；x表示待分类特征；s表示尺度常数。12.如权利要求5至11中任一项所述的搜索方法，其特征在于，所述目标训练方式包括：通过以下公式对所述更新后的权重参数进行处理，使得所述待训练分类模型更新前与更新后的权重参数的模长相同：其中，w
i 1
表示第i 1次迭代更新的权重参数；w
i
表示第i次迭代更新的权重参数；norm0表示所述待训练分类模型的初始权重模长。13.一种分类模型的训练装置，其特征在于，包括：获取单元，用于获取待训练分类模型的目标超参数，所述目标超参数用于控制所述待训练分类模型的梯度更新步长，所述待训练分类模型包括缩放不变性线性层，所述缩放不变性线性层使得所述待训练分类模型的权重参数乘以任意缩放系数时输出的预测分类结果保持不变；处理单元，用于根据所述目标超参数与目标训练方式对所述待训练分类模型的权重参数进行更新，得到训练后的分类模型，所述目标训练方式使得所述待训练分类模型更新前与更新后的权重参数的模长相同。14.如权利要求13所述的训练装置，其特征在于，所述训练后的分类模型的权重参数是根据所述目标超参数和所述目标训练方式通过反向传播算法多次迭代更新得到的。15.如权利要求13或14所述的训练装置，其特征在于，所述缩放不变性线性层根据以下公式得到所述预测分类结果：
其中，y
i
表示第i次迭代更新的权重参数对应的预测分类结果；w
i
表示所述第i次迭代更新的权重参数；x表示待分类特征；s表示尺度常数。16.如权利要求13至15中任一项所述的训练装置，其特征在于，所述目标训练方式包括：通过以下公式对所述更新后的权重参数进行处理，使得所述待训练分类模型更新前与更新后的权重参数的模长相同：其中，w
i 1
表示第i 1次迭代更新的权重参数；w
i
表示第i次迭代更新的权重参数；norm0表示所述待训练分类模型的初始权重模长。17.一种超参数的搜索装置，其特征在于，包括：获取单元，用于获取目标超参数的候选值，所述目标超参数用于控制待训练分类模型的梯度更新步长，所述待训练分类模型包括缩放不变性线性层，所述缩放不变性线性层使得所述待训练分类模型的权重参数乘以任意缩放系数时输出的预测分类结果保持不变；处理单元，用于根据所述候选值与目标训练方式，得到所述待训练分类模型的性能参数，所述目标训练方式使得所述待训练分类模型更新前与更新后的权重参数的模长相同，所述性能参数包括所述待训练分类模型的精度；根据所述性能参数从所述候选值中确定所述目标超参数的目标值。18.如权利要求17所述的搜索装置，其特征在于，所述目标值对应的所述待训练分类模型的精度大于所述候选值中其它候选值对应的所述待训练分类模型的精度。19.如权利要求17或18所述的搜索装置，其特征在于，所述处理单元具体用于：根据所述目标超参数的初始搜索范围进行均匀划分，得到所述目标超参数的候选值。20.如权利要求19所述的搜索装置，其特征在于，所述处理单元还用于：根据当前训练步数、预先配置的训练步数以及所述待训练分类模型的精度的变化趋势更新所述目标超参数的初始搜索范围。21.如权利要求20所述的搜索装置，其特征在于，所述处理单元具体用于：若所述当前训练步数小于所述预先配置的训练步数，则将所述目标超参数的初始搜索范围的上边界更新为所述当前训练步数中所述待训练分类模型的最优精度对应的所述目标超参数的候选值。22.如权利要求20所述的搜索装置，其特征在于，所述处理单元具体用于：若所述当前训练步数等于所述预先配置的训练步数，则将所述目标超参数的初始搜索范围的上边界更新为第一候选值，所述目标超参数的搜索范围的下边界更新为第二候选值，所述第一候选值与所述第二候选值是指与所述待训练分类模型的最优精度对应的所述目标超参数的候选值相邻的候选值。23.如权利要求17至22中任一项所述的搜索装置，其特征在于，所述缩放不变性线性层根据以下公式得到所述预测分类结果：
其中，y
i
表示第i次迭代更新的权重参数对应的预测分类结果；w
i
表示所述第i次迭代更新的权重参数；x表示待分类特征；s表示尺度常数。24.如权利要求17至23中任一项所述的搜索装置，其特征在于，所述目标训练方式包括：通过以下公式对所述更新后的权重参数进行处理，使得所述待训练分类模型更新前与更新后的权重参数的模长相同：其中，w
i 1
表示第i 1次迭代更新的权重参数；w
i
表示第i次迭代更新的权重参数；norm0表示所述待训练分类模型的初始权重模长。25.一种分类模型的训练装置，其特征在于，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于执行权利要求1至4中任一项所述的训练方法。26.一种超参数的搜索装置，其特征在于，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于执行权利要求5至12中任一项所述的搜索方法。27.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求1至4中任一项所述的训练方法。28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求5至12中任一项所述的搜索方法。

技术总结
本申请涉及人工智能技术领域公开了一种分类模型的训练方法、超参数的搜索方法以及装置，训练方法包括获取待训练分类模型的目标超参数，所述目标超参数用于控制所述待训练分类模型的梯度更新步长，所述待训练分类模型包括缩放不变性线性层，所述缩放不变性线性层使得所述待训练分类模型的权重参数乘以任意缩放系数时输出的预测分类结果保持不变；根据所述目标超参数与目标训练方式对所述待训练分类模型的权重参数进行更新，得到训练后的分类模型，所述目标训练方式使得所述待训练分类模型更新前与更新后的权重参数的模长相同。基于本申请的技术方案能够在确保分类模型的精度的情况下，降低训练分类模型所消耗的计算资源。降低训练分类模型所消耗的计算资源。降低训练分类模型所消耗的计算资源。

技术研发人员：周彧聪钟钊
受保护的技术使用者：华为技术有限公司
技术研发日：2020.08.07
技术公布日：2022/2/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种场所安全信息记录方法、装置及计算机与流程

分类模型的训练方法、超参数的搜索方法以及装置与流程

相关文献

最热文献