训练语音识别模型的方法及装置、电子设备和存储介质与流程

2022-02-19 09:09:58 来源：中国专利 TAG：

技术特征：
1.一种用于训练语音识别模型的方法，所述方法包括：基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，所述样本语音包括多个对象的对话并且具有对应的样本文本；基于与所述第一目标帧相对应的所述样本文本中的文本元素之前的相邻文本元素，生成与所述第一目标帧相对应的预测文本元素，所述文本元素和所述相邻文本元素针对所述多个对象中的目标对象；基于所述预测文本元素与所述多个特征向量中的第一特征向量，获得第一目标文本元素；以及基于所述第一目标文本元素和所述样本文本来调整所述语音识别模型以获得经训练的所述语音识别模型。2.根据权利要求1所述的方法，其中所述语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块。3.根据权利要求2所述的方法，其中基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量包括：将所述音频特征数据应用于所述混合编码块中的卷积层以及池化层以获得所述多个特征向量。4.根据权利要求2所述的方法，其中基于与所述第一目标帧相对应的所述样本文本中的文本元素之前的相邻文本元素，生成与所述第一目标帧相对应的预测文本元素包括：确定与所述第一目标帧相对应的文本元素以及与所述文本元素相对应的目标对象；从所述样本文本中确定出所述文本元素之前的、对应于所述目标对象的相邻文本元素；以及将所述相邻文本元素应用于所述多个预测模块中的第一预测模块以生成所述预测文本元素。5.根据权利要求2所述的方法，其中基于所述预测文本元素与所述多个特征向量中的第一特征向量，获得第一目标文本元素包括：将所述第一特征向量应用于所述多个语音识别模块中的第一语音识别模块中的向量映射模块以获得高维向量；将所述高维向量应用于所述第一语音识别模块的识别编码模块以用于识别出文本信息；基于所述文本信息和所述预测文本元素来生成所述第一目标文本元素。6.根据权利要求1所述的方法，其中基于所述第一目标文本元素和所述样本文本来调整所述语音识别模型包括：获取与所述样本语音中的第二目标帧相对应的第二目标文本元素；以及基于所述第一目标文本元素、所述第二目标文本元素和所述样本文本来调整所述语音识别模型。7.根据要求1所述的方法，还包括：获取目标语音；利用所述多个对象中的对象的标识来对所述目标语音进行标注；对标注的语音进行预处理以获得所述样本语音；以及
提取所述样本语音中的第一目标帧的音频特征数据。8.根据权利要求7所述的方法，还包括：确定与所述目标语音相对应的样本文本。9.一种用于处理语音数据的方法，包括：获取待识别语音；提取针对所述待识别语音中的至少一个帧的音频特征数据；以及将所述音频特征数据应用于根据权利要求1
‑
8中任一方法训练得到的语音识别模型，以确定与所述待识别语音相对应的文本。10.一种用于训练语音识别模型的装置，所述装置包括：特征向量获取模块，被配置为基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，所述样本语音包括多个对象的对话并且具有对应的样本文本；文本元素应用模块，被配置为基于与所述第一目标帧相对应的所述样本文本中的文本元素之前的相邻文本元素，生成与所述第一目标帧相对应的预测文本元素，所述文本元素和所述相邻文本元素针对所述多个对象中的目标对象；目标文本元素获取模块，被配置为基于所述预测文本元素与所述多个特征向量中的第一特征向量，获得第一目标文本元素；以及调整模块，被配置为基于所述第一目标文本元素和所述样本文本来调整所述语音识别模型以获得经训练的所述语音识别模型。11.根据权利要求10所述的装置，其中所述语音识别模型包括混合编码模块、多个语音识别模块和多个预测模块。12.根据权利要求11所述的装置，其中所述特征向量获取模块包括：音频特征数据应用模块，被配置为将所述音频特征数据应用于所述混合编码块中的卷积层以及池化层以获得所述多个特征向量。13.根据权利要求11所述的装置，其中所述文本元素应用模块包括：目标对象确定模块，被配置为确定与所述第一目标帧相对应的文本元素以及与所述文本元素相对应的目标对象；相邻文本元素确定模块，被配置为从所述样本文本中确定出所述文本元素之前的、对应于所述目标对象的相邻文本元素；以及生成模块，被配置为将所述相邻文本元素应用于所述多个预测模块中的第一预测模块以生成所述预测文本元素。14.根据权利要求11所述的装置，其中所述目标文本元素获取模块包括：高维向量获取模块，被配置为将所述第一特征向量应用于所述多个语音识别模块中的第一语音识别模块中的向量映射模块以获得高维向量；文本信息识别模块，被配置为将所述高维向量应用于所述第一语音识别模块的识别编码模块以用于识别出文本信息；以及目标文本元素生成模块，被配置为基于所述文本信息和所述预测文本元素来生成所述第一目标文本元素。15.根据权利要求10所述的装置，其中所述调整模块包括：第二文本元素获取模块，被配置为获取与所述样本语音中的第二目标帧相对应的第二
目标文本元素；以及模型调整模块，被配置为基于所述第一目标文本元素、所述第二目标文本元素和所述样本文本来调整所述语音识别模型。16.根据要求10所述的装置，还包括：语音获取模块，被配置为获取目标语音；标注模块，被配置为利用所述多个对象中的对象的标识来对所述目标语音进行标注；预处理模块，被配置为对标注的语音进行预处理以获得所述样本语音；以及提取模块，被配置为提取所述样本语音中的第一目标帧的音频特征数据。17.根据权利要求16所述的装置，还包括：样本文本确定模块，被配置为确定与所述目标语音相对应的样本文本。18.一种用于处理语音数据的装置，包括：语音获取模块，被配置为获取待识别语音；提取模块，被配置为提取针对所述待识别语音中的至少一个帧的音频特征数据；以及文本确定模块，被配置为将所述音频特征数据应用于根据权利要求10
‑
17中任一装置训练得到的语音识别模型，以确定与所述待识别语音相对应的文本。19.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1
‑
8或9中任一项所述的方法。20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1
‑
8或9中任一项所述的方法。21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1
‑
8或9中任一项所述的方法。

技术总结
本公开提供了用于训练语音识别模型的方法及装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及语音技术和深度学习领域。具体实现方案为：基于与样本语音中的第一目标帧相对应的音频特征数据，确定多个特征向量，该样本语音包括多个对象的对话并且具有对应的样本文本；基于与第一目标帧相对应的样本文本中的文本元素之前的相邻文本元素，生成与第一目标帧相对应的预测文本元素，文本元素和相邻文本元素针对多个对象中的目标对象；基于预测文本元素与多个特征向量中的第一特征向量，获得第一目标文本元素；基于第一目标文本元素和样本文本来调整语音识别模型以获得经训练的语音识别模型。通过本公开，实现了多人语音快速识别，提高了识别的精度。提高了识别的精度。提高了识别的精度。

技术研发人员：赵情恩
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.09.28
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种乐音数据的采集和特征识别方法与流程

训练语音识别模型的方法及装置、电子设备和存储介质与流程

相关文献

最热文献