一种语音识别模型的训练方法、装置及设备与流程

2021-10-09 13:46:00 来源：中国专利 TAG：

技术特征：
1.一种语音识别模型的训练方法，其特征在于，所述方法包括：将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：重复执行所述将训练数据输入至待训练模型中以及后续步骤，直到达到预设条件，得到训练生成的语音识别模型；所述语音识别模型由所述编码器、所述cif模块和所述第一解码器构成，所述语音识别模型用于对输入的待识别语音数据进行语音识别，得到语音识别结果。3.根据权利要求1所述的方法，其特征在于，所述训练数据还包括与所述语音数据对应的字数标签，所述方法还包括：获取所述编码器输出的字数预测结果；利用所述字数预测结果和所述字数标签，计算量化损失；所述量化损失用于衡量所述字数预测结果与所述字数标签之间的差距；所述利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，包括：计算所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第一损失；利用所述第一损失调整所述待训练模型中的模型参数；所述模型参数包括所述量化损失、所述最小字错误率损失和所述交叉熵损失分别对应的权重。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取所述编码器输出的第三字预测结果；利用所述第三字预测结果和所述字标签，计算联结时间分类ctc损失；所述ctc损失用于衡量所述第三字预测结果与所述字标签之间的差距；所述利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，包括：计算所述ctc损失、所述量化损失、所述最小字错误率损失和所述交叉熵损失的加权和，得到第二损失；利用所述第二损失调整所述待训练模型中的模型参数；所述模型参数还包括所述ctc损失对应的权重。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，包括：计算所述最小字错误率损失和所述交叉熵损失的加权和，得到第三损失；
利用所述第三损失调整所述待训练模型中的模型参数；所述模型参数包括所述最小字错误率损失和所述交叉熵损失分别对应的权重。6.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述第一字预测结果包括n个最佳字预测结果，n为正整数，所述根据所述第一字预测结果和所述训练数据，计算最小字错误率损失，包括：根据目标最佳字预测结果和所述字标签，计算所述目标最佳字预测结果对应的字错误率；所述目标最佳字预测结果为所述n个最佳字预测结果中的每一个；根据所述目标最佳字预测结果对应的字错误率，计算得到所述n个最佳字预测结果对应的平均字错误率；根据所述目标最佳字预测结果和所述语音数据，计算所述目标最佳字预测结果对应于所述语音数据的后验概率；利用所述后验概率、所述目标最佳字预测结果对应的字错误率和所述平均字错误率，计算最小字错误率损失。7.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述第一字预测结果是由所述第一解码器对所述cif模块输出的声学特征向量处理得到的，所述第二字预测结果是由所述第二解码器对所述cif模块输出的所述声学特征向量处理得到的。8.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述第一解码器为基于集束搜索算法构建的解码器。9.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述cif模块为完成预训练的cif模块。10.一种语音识别模型的训练装置，其特征在于，所述装置包括：输入单元，用于将训练数据输入至待训练模型中，得到第一字预测结果和第二字预测结果；所述训练数据包括语音数据和与所述语音数据对应的字标签，所述待训练模型由编码器、连续整合发放cif模块、第一解码器和第二解码器构成；第一计算单元，用于根据所述第一字预测结果和所述训练数据，计算最小字错误率损失；所述最小字错误率损失用于衡量所述第一字预测结果与所述字标签之间的差距；第二计算单元，用于根据所述第二字预测结果和所述字标签，计算交叉熵损失；所述交叉熵损失用于衡量所述第二字预测结果与所述字标签之间的差距；调整单元，用于利用所述最小字错误率损失和所述交叉熵损失调整所述待训练模型中的模型参数，以得到训练生成的语音识别模型。11.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1
‑
9中任一所述的方法。12.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1
‑
9中任一所述的方法。

技术总结
本申请实施例公开了一种语音识别模型的训练方法、装置及设备，通过将训练数据输入待训练模型中，得到第一字预测结果和第二字预测结果；再利用第一字预测结果和训练数据计算最小字错误率损失。利用第二字预测结果和字标签计算交叉熵损失；最后，利用最小字错误率损失和交叉熵损失共同调整待训练模型中的模型参数，得到训练生成的语音识别模型。通过利用最小字错误率损失调整模型参数，能够使得训练得到的语音识别模型输出的语音识别结果更为准确，语音识别结果的字错误率较低，满足语音识别字错误率较低的需要。别字错误率较低的需要。别字错误率较低的需要。

技术研发人员：沈辰董林昊蔡猛马泽君
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：2021.06.30
技术公布日：2021/10/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：显示设备及调节蓝牙A2DP编码设置的方法与流程

一种语音识别模型的训练方法、装置及设备与流程

相关文章

最热文献