一种多任务模型训练方法、系统、介质及电子终端与流程

2022-03-16 16:37:16 来源：中国专利 TAG：

技术特征：
1.一种多任务模型训练方法，其特征在于，包括：获取新增任务，根据所述新增任务，在原始多任务模型中加入新增分类层，进而获取中间模型，所述中间模型包括：参数层、原始分类层和新增分类层；对所述参数层和原始分类层进行冻结；将所述新增任务中的新增训练语句输入所述中间模型进行一次预测，获取所述新增分类层输出的第一预测结果和所述原始分类层输出的第二预测结果；根据所述第一预测结果和新增任务中对应的真实分类结果，对新增分类层进行一次训练；对所述参数层和原始分类层进行解冻，将所述新增训练语句输入所述中间模型进行二次预测，获取原始分类层输出的第三预测结果；根据所述第二预测结果和第三预测结果，对所述中间模型中的所有层进行联合训练，获取最终多任务模型。2.根据权利要求1所述的多任务模型训练方法，其特征在于，对所述参数层和原始分类层进行冻结的步骤包括：根据预先设置的冻结属性，对参数层和原始分类层的可训练变量的参数属性进行一次更新；在所述中间模型的优化器中加入参数过滤器；历遍参数层和原始分类层的可训练变量一次更新后的参数属性，判断参数层和原始分类层的可训练变量的参数属性是否均为冻结属性，获取第一判断结果；根据所述第一判断结果，完成对所述参数层和原始分类层的冻结。3.根据权利要求1所述的多任务模型训练方法，其特征在于，根据所述第一预测结果和新增任务中对应的真实分类结果，对新增分类层进行一次训练的步骤包括：根据所述第一预测结果、新增任务中对应的真实分类结果和预设的第一损失函数，对所述新增分类层进行训练，所述第一损失函数的数学表达为：其中，为第一损失函数，为新增分类层输出的预测结果，y
n
为新增分类层输出的预测结果对应的真实分类结果。4.根据权利要求2所述的多任务模型训练方法，其特征在于，在所述中间模型的优化器中加入参数过滤器的步骤之后包括：当对新增分类层进行一次训练时，控制参数过滤器根据预设的过滤规则，对所述参数层和原始分类层中的可训练变量进行过滤，进而对新增分类层进行一次训练；所述过滤规则包括：判断可训练变量的参数属性是否为冻结属性，若所述可训练变量的参数属性为冻结属性，则过滤对应的可训练变量，保持对应的可训练变量不变。5.根据权利要求1所述的多任务模型训练方法，其特征在于，对所述参数层和原始分类层进行解冻的步骤包括：根据预先设置的解冻规则，对参数层和原始分类层中的可训练变量的参数属性进行二次更新；历遍所述参数层和原始分类层中可训练变量二次更新后的参数属性，判断参数层和原
始分类层中可训练变量的参数属性是否均为解冻属性，获取第二判断结果，进而完成对所述参数层和原始分类层的解冻。6.根据权利要求1所述的多任务模型训练方法，其特征在于，根据所述第二预测结果和第三预测结果，对所述中间模型中的所有层进行联合训练的步骤包括：获取二次预测过程中新增分类层输出的第四预测结果，根据所述第四预测结果、对应的真实分类结果和预设的第一损失函数，获取第一损失，并对所述新增分类层进行二次训练，获取二次训练后的新增分类层；根据所述第二预测结果、第三预测结果和预设的第二损失函数，对所述原始分类层进行蒸馏，获取第二损失，并对原始分类层进行一次训练，获取一次训练后的原始分类层；根据所述第一损失和第二损失，对所述中间模型中的参数层、二次训练后的新增分类层、一次训练后的原始分类层进行联合训练；所述第二损失函数的数学表达为：其中，为第二损失函数，y
′
o
为一次预测过程中冻结的原始分类层输出的第二预测结果，为二次预测过程中解冻后的原始分类层输出的第三预测结果,l为解冻后的原始分类层的预测次数。7.根据权利要求6所述的多任务模型训练方法，其特征在于，根据所述第一损失和第二损失，对所述中间模型中的参数层、二次训练后的新增分类层、一次训练后的原始分类层进行联合训练的步骤包括：根据所述第一损失和第二损失，利用预设的第三损失函数，对所述中间模型中的参数层、二次训练后的新增分类层、一次训练后的原始分类层进行联合训练，所述第三损失函数的数学表达为：其中，为第三损失函数，θ
s
为参数层，θ0为原始分类层，θ
n
为新增分类层，argmin表示使后面式子变成最小值的变量的取值，λ0为预设的第一权值，λ1为预设的第二权值，为第二损失，所述第二损失为蒸馏过程中原始分类层的损失，为第一损失，所述第一损失为二次预测过程中新增分类层的损失。8.一种多任务模型训练系统，其特征在于，包括：新增任务模块，用于获取新增任务，根据所述新增任务，在原始多任务模型中加入新增分类层，进而获取中间模型，所述中间模型包括：参数层、原始分类层和新增分类层；第一训练模块，用于对所述参数层和原始分类层进行冻结；将所述新增任务中的新增训练语句输入所述中间模型进行一次预测，获取所述新增分类层输出的第一预测结果和所述原始分类层输出的第二预测结果；根据所述第一预测结果和新增任务中对应的真实分类结果，对新增分类层进行一次训练；第二训练模块，用于对所述参数层和原始分类层进行解冻，将所述新增训练语句输入所述中间模型进行二次预测，获取原始分类层输出的第三预测结果；根据所述第二预测结
果和第三预测结果，对所述中间模型中的所有层进行联合训练，获取最终多任务模型；所述新增任务模块、第一训练模块和第二训练模块连接。9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法。10.一种电子终端，其特征在于，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述方法。

技术总结
本发明涉及人工智能技术领域，尤其涉及一种多任务模型训练方法、系统、介质及电子终端，方法包括：在原始多任务模型中加入新增任务对应的新增分类层，进而获取中间模型，中间模型包括：参数层、原始分类层和新增分类层；冻结参数层和原始分类层；将新增训练语句输入中间模型进行一次预测，获取新增分类层输出的第一预测结果和原始分类层输出的第二预测结果；根据第一预测结果和真实分类结果，对新增分类层进行一次训练；对参数层和原始分类层进行解冻，将新增训练语句输入中间模型进行二次预测，获取原始分类层输出的第三预测结果；根据第二预测结果和第三预测结果，对中间模型的所有层进行联合训练，获取最终多任务模型；提高模型训练效率。练效率。练效率。

技术研发人员：蒋宏达陈家豪徐亮
受保护的技术使用者：深圳壹账通智能科技有限公司
技术研发日：2021.12.13
技术公布日：2022/3/15

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种多任务模型训练方法、系统、介质及电子终端与流程

相关文献

最热文献