一种DNN模型训练方法及语音识别方法、装置与流程

2022-04-09 10:45:29 来源：中国专利 TAG：

技术特征：
1.一种dnn模型训练方法，其特征在于，包括：获取训练音频样本对应的语音特征数据及标签序列；将所述语音特征数据输入dnn模型进行标签预测，确定标签预测路径；基于所述标签预测路径的概率计算所述dnn模型的模型损失函数值；基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离；基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离，计算所述dnn模型的峰值损失函数值；基于所述模型损失函数值和所述峰值损失函数值，确定所述dnn模型的总损失函数；基于所述总损失函数对所述dnn模型进行训练，直至所述dnn模型满足预设训练要求。2.根据权利要求1所述的方法，其特征在于，所述基于所述标签预测路径的概率计算所述dnn模型的模型损失函数值，包括：获取当前音频帧对应的各标签预测路径的概率；基于每条标签预测路径的概率，确定所述当前音频帧对应的总路径的概率；基于每个音频帧对应的总路径的概率，计算所述dnn模型的模型损失函数值。3.根据权利要求2所述的方法，其特征在于，所述基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离，包括：基于当前音频帧的语音特征数据计算当前音频帧的峰值并获取所述峰值的位置；计算与当前音频帧对应的标签序列的中心点位置；基于所述峰值的位置和所述标签序列的中心点位置，计算所述当前音频帧对应的峰值位置与其对应的标签序列中心点的距离。4.根据权利要求1所述的方法，其特征在于，所述基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离，计算所述dnn模型的峰值损失函数值，包括：基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离，计算每条标签路径的平均距离；基于所述每条标签路径的平均距离，计算所有路径距离损失的平均值；基于所有路径距离损失的平均值确定所述dnn模型的峰值损失函数值。5.根据权利要求1所述的方法，其特征在于，所述基于所述峰值损失函数值和所述模型损失函数值确定所述dnn模型的总损失函数，包括：分别设置所述峰值损失函数和所述模型损失函数的损失影响参数；基于所述损失影响参数、所述峰值损失函数值和所述模型损失函数值确定所述dnn模型的总损失函数。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于所述语音特征数据中每个音频帧对应的第一语音特征在标签序列中对应的标签与所述dnn模型进行标签预测的预测标签的关系，计算在有空标签的情况下输出非空标签的概率；基于在有空标签的情况下输出非空标签的概率，计算所述dnn模型的交叉熵损失。7.根据权利要求6所述的方法，其特征在于，所述基于所述峰值损失函数值和所述模型损失函数值确定所述dnn模型的总损失函数，还包括：
设置所述dnn模型的交叉熵损失函数、所述峰值损失函数和所述模型损失函数的损失影响参数；基于所述损失影响参数、所述dnn模型的交叉熵损失函数值、所述峰值损失函数值和所述模型损失函数值确定所述dnn模型的总损失函数。8.一种语音识别方法，其特征在于，包括：获取待识别音频数据；采用如权利要求1-7任一项所述的dnn模型训练方法进行dnn模型训练，得到训练好的dnn模型；将所述待识别音频数据输入所述训练好的dnn模型进行识别，得到所述待识别音频数据的识别结果。9.一种dnn模型训练装置，其特征在于，包括：第一获取模块，用于获取训练音频样本对应的语音特征数据及标签序列；第一处理模块，用于将所述语音特征数据输入dnn模型进行标签预测，确定标签预测路径；第二处理模块，用于基于所述标签预测路径的概率计算所述dnn模型的模型损失函数值；第三处理模块，用于基于所述标签预测路径分别计算所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离；第四处理模块，用于基于所述训练音频样本中每个音频帧的位置与其对应的标签序列中心点的距离，计算所述dnn模型的峰值损失函数值；计算模块，用于基于所述模型损失函数值和所述峰值损失函数值，确定所述dnn模型的总损失函数；训练模块，用于基于所述总损失函数对所述dnn模型进行训练，直至所述dnn模型满足预设训练要求。10.一种语音识别装置，其特征在于，包括：第二获取模块，用于获取待识别音频数据；执行模块，用于采用如权利要求9所述的dnn模型训练装置进行dnn模型训练，得到训练好的dnn模型；识别模块，用于将所述待识别音频数据输入所述训练好的dnn模型进行识别，得到所述待识别音频数据的识别结果。11.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1-8中任一项所述的方法。12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机从而执行如权利要求1-8任一项所述的方法。

技术总结
本发明提供了一种DNN模型训练方法及语音识别方法、装置，其中，一种DNN模型训练方法包括：获取训练音频样本对应的语音特征数据及标签序列；将语音特征数据输入DNN模型进行标签预测，确定标签预测路径；计算DNN模型的模型损失函数值；计算DNN模型的峰值损失函数值；确定DNN模型的总损失函数；基于总损失函数对DNN模型进行训练，直至DNN模型满足预设训练要求。通过对DNN模型的模型损失函数、峰值损失函数以及联合得到的总损失函数进行收敛训练，最终得到训练好的DNN模型，通过解决语音识别过程中音频序列与标签序列对齐延迟的问题，大幅提高了解码速度和识别速度。了解码速度和识别速度。了解码速度和识别速度。

技术研发人员：于丽美梁微
受保护的技术使用者：镁佳(北京)科技有限公司
技术研发日：2021.12.31
技术公布日：2022/4/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于情绪评估的语言情感识别方法

一种DNN模型训练方法及语音识别方法、装置与流程

相关文献

最热文献