技术特征:
1.一种语音识别模型的训练方法,其特征在于,所述方法包括:
将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;
由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;
将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;
将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;
由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;
利用所述训练完成的编码器对所述语音识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,当所述待训练编码器包括两个以上依次相连的特征提取模块,在根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数之后,将最后一个所述特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器之前,所述方法还包括:
将最后两个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;
将所述第三训练数据输入待训练编码器,所述第三训练数据包括语音数据以及所述语音数据对应的音节标签;
由所述待训练编码器对所述语音数据的音节预测结果以及所述语音数据对应的音节标签,计算音节级别ctc损失,根据所述音节级别ctc损失,对所述最后两个特征提取模块进行训练,得到各个所述特征提取模块的模型参数。
3.根据权利要求1或2所述的方法,其特征在于,所述待训练编码器包括三个特征提取模块,第一个特征提取模块的输入为所述语音数据的声学基础特征,所述第一个特征提取模块用于提取所述语音数据的帧级别音节特征,第二个特征提取模块用于提取所述语音数据的语音路径级别音节特征。
4.根据权利要求1或2所述的方法,其特征在于,所述特征提取模块包括多个依次相连的自注意力网络;
或者,
除最后一个特征提取模块之外的特征提取模块包括多个依次相连的自注意力网络以及池化层,所述最后一个特征提取模块包括多个依次相连的自注意力网络。
5.根据权利要求4所述的方法,其特征在于,所述利用所述训练完成的编码器对所述语音识别模型进行训练,包括:
将所述训练完成的编码器中最后一个自注意力网络的模型参数进行随机初始化,生成更新后的编码器;
利用所述更新后的编码器对所述语音识别模型进行训练。
6.根据权利要求2所述的方法,其特征在于,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的学习率不随训练迭代次数的增加而改变。
7.根据权利要求2所述的方法,其特征在于,在对所述待训练编码器进行训练、对所述最后一个特征提取模块进行训练和/或对所述最后两个特征提取模块进行训练的过程中,采用的权重衰减大于权重衰减阈值。
8.根据权利要求2所述的方法,其特征在于,所述第一训练数据的数量、所述第二训练数据的数量以及所述第三训练数据的数量大于样本数量阈值。
9.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述第一训练数据、所述第二训练数据和/或所述第三训练数据中的语音数据随机进行掩码。
10.一种语音识别模型的训练装置,其特征在于,所述装置包括:
第一输入单元,用于将第一训练数据输入待训练编码器,所述待训练编码器包括多个依次相连的特征提取模块,所述第一训练数据包括语音数据以及所述语音数据中语音帧对应的音节标签;
第一计算单元,用于由所述待训练编码器对所述语音帧的音节预测结果以及所述语音帧对应的音节标签,计算音节级别交叉熵ce损失,根据所述音节级别ce损失,对所述待训练编码器进行训练,得到各个所述特征提取模块的模型参数;
第一初始化单元,用于将最后一个特征提取模块的模型参数进行随机初始化,重新得到所述待训练编码器;
第二输入单元,用于将第二训练数据输入所述待训练编码器,所述第二训练数据包括语音数据以及所述语音数据对应的字标签;
第二计算单元,用于由所述待训练编码器对所述语音数据的字预测结果以及所述语音数据对应的字标签,计算字级别联结时间分类ctc损失,根据所述字级别ctc损失,对所述最后一个特征提取模块进行训练,得到训练完成的编码器;
训练单元,用于利用所述训练完成的编码器对所述语音识别模型进行训练。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其特征在于,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
技术总结
本申请实施例公开了一种语音识别模型的训练方法、装置及设备,先通过将第一训练数据输入待训练编码器中,计算音节级别CE损失。并对待训练编码器进行训练,得到待训练编码器包括的多个依次相连的特征提取模块中各个特征提取模块的模型参数。再将最后一个特征提取模块的模型参数进行随机初始化,将包括语音数据以及语音数据对应的字标签的第二训练数据输入至待训练编码器中,计算字级别CTC损失,并对最后一个特征提取模块进行训练,得到训练完成的编码器。最后,利用训练完成的编码器对语音识别模型进行训练。如此能够提高对语音识别模型进行训练的速度,并且能够提高训练后得到的语音识别模型的性能。
技术研发人员:梁镇麟;董林昊;蔡猛;马泽君
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2021.06.30
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。