农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

模型训练、语音识别方法及装置、电子设备及存储介质与流程

2021-06-11 21:44:00 来源：中国专利 TAG：电子设备装置模型语音识别训练

技术特征：

1.一种语音识别模型训练方法，其特征在于，包括：

获取语音样本，其中，所述语音样本为包括至少两个语种的音频；

将所述语音样本输入待训练的语音识别模型，获得所述语音识别模型输出的文本识别结果；

根据所述文本识别结果，确定所述语音识别模型的语种识别损失，其中，所述语种识别损失用于表征所述语音识别模型将语音识别为文本时，对语种识别的准确性；

确定所述语音识别模型的语音识别损失，其中，所述语音识别损失用于表征所述语音识别模型将语音识别为文本的准确性；

根据所述语种识别损失和所述语音识别损失，计算综合损失；

根据所述综合损失调整所述语音识别模型的参数，直至所述综合损失小于预先设定的损失阈值，停止对所述语音识别模型进行上述训练。

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本识别结果，确定所述语音识别模型的语种识别损失，包括：

根据所述文本识别结果，确定所述语音样本所对应识别文本中每个词语的语种；

获取所述语音样本所对应样本文本中每个词语的语种；

根据所述识别文本中每个词语的语种和所述样本文本中每个词语的语种，确定所述语音识别模型的语种识别损失。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本识别结果，确定所述语音样本所对应识别文本中每个词语的语种，包括：

从所述文本识别结果中获取所述语音样本中每个待识别词语对应的识别向量，其中，所述识别向量中包括相对应所述待识别词语为预设词语的概率值；

针对每个所述待识别词语，将该待识别词语对应的所述识别向量中最大概率值对应的预设词语的语种，确定为所述识别文本中与该待识别词语相对应的词语的语种。

4.根据权利要求2所述的方法，其特征在于，根据所述识别文本中每个词语的语种和所述样本文本中每个词语的语种，确定所述语音识别模型的语种识别损失，包括：

根据所述识别文本中每个词语的语种和所述样本文本中每个词语的语种，确定将所述语音样本中每个待识别词语的语种，识别为所述至少两个语种中的每个语种的后验概率；

获取将每个所述待识别词语的语种错判为不同语种时的错判代价；

根据每个所述待识别词语对应的所述后验概率和所述错判代价，计算该待识别语种的局部损失；

对所述语音样本中各所述待识别词语的所述局部损失进行求和，获得所述语音识别模型的所述语种识别损失。

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述待识别词语对应的所述后验概率和所述错判代价，计算该待识别语种的局部损失，包括：

计算将一个所述待识别词语识别为一个语种的后验概率，与将该待识别词语错判为该语种时的错判代价的乘积，获得该待识别词语在该语种上的子损失；

对一个所述待识别词语在所述至少两个语种上的所述子损失进行求和，获得该待识别词语的所述局部损失。

6.根据权利要求1所述的方法，其特征在于，所述根据所述语种识别损失和所述语音识别损失，计算综合损失，包括：

计算所述语种识别损失与所述语音识别损失的加权平均值，作为所述综合损失。

7.根据权利要求1至6中任一所述的方法，其特征在于，所述语音识别模型包括声学模型和至少两个语言模型；

所述将所述语音样本输入待训练的语音识别模型，获得所述语音识别模型输出的文本识别结果，包括：

提取所述语音样本的音频特征；

将所述音频特征输入所述声学模型，获得所述声学模型输出的声学特征；

将所述声学特征分别输入所述至少两个语言模型，获得每个所述语言模型输出的文本识别结果。

8.根据权利要求7所述的方法，其特征在于，所述语音识别模型包括两个所述语言模型；

所述声学模型为transformer模型的编码器；

所述两个语言模型分别为所述transformer模型的解码器和连接时序分类ctc模型。

9.根据权利要求8所述的方法，其特征在于，所述将所述声学特征分别输入所述至少两个语言模型，获得每个所述语言模型输出的文本识别结果，包括：

将所述语音样本中每个音频帧映射为对应的嵌入向量；

获取所述语音样本中每个音频帧对应的位置向量，其中，所述位置向量用于指示相对应音频帧在所述语音样本中的位置；

分别将所述语音样本中每个音频帧对应的所述嵌入向量和所述位置向量相加，获得该音频帧对应的加和向量；

将所述声学特征和所述语音样本中各音频帧对应的所述加和向量，输入所述transformer模型的解码器，获得所述transformer模型的解码器输出的文本识别结果；

将所述声学特征输入所述ctc模型，获得所述ctc模型输出的文本识别结果。

10.根据权利要求7所述的方法，其特征在于，所述根据所述文本识别结果，确定所述语音识别模型的语种识别损失，包括：

将所述至少两个语言模型输出的各文本识别结果，输入预设的线性分类器，通过所述线性分类器对所述至少两个语言模型输出的各文本识别结果进行拼接，并根据拼接结果进行语种分类；

根据所述线性分类器输出的语种分类结果，确定所述语音样本所对应识别文本中每个词语的语种；

获取所述语音样本所对应样本文本中每个词语的语种；

根据所述识别文本中每个词语的语种和所述样本文本中每个词语的语种，确定所述语音识别模型的语种识别损失。

11.根据权利要求7所述的方法，其特征在于，所述确定所述语音识别模型的语音识别损失，包括：

获取所述声学模型的损失和每个所述语言模型的损失；

计算所述声学模型的损失和所述至少两个语言模型的损失的加权平均值，作为所述语音识别模型的语音识别损失。

12.一种语音识别方法，其特征在于，包括：

将待识别语音输入通过如权利要求1至11中任一所述语音识别模型训练方法训练得到的语音识别模型，获得所述语音识别模型输出的文本识别结果；

根据所述文本识别结果，确定与所述待识别语音相对应的识别文本。

13.一种语音识别模型训练装置，其特征在于，包括：

一个样本获取模块，用于获取语音样本，其中，所述语音样本为包括至少两个语种的音频；

一个语音识别模块，用于将所述样本获取模块获取到的所述语音样本输入待训练的语音识别模型，获得所述语音识别模型输出的文本识别结果；

一个语种损失确定模块，用于根据所述语音识别模块获得的所述文本识别结果，确定所述语音识别模型的语种识别损失，其中，所述语种识别损失用于表征所述语音识别模型将语音识别为文本时，对语种识别的准确性；

一个语音损失确定模块，用于确定所述语音识别模型的语音识别损失，其中，所述语音识别损失用于表征所述语音识别模型将语音识别为文本的准确性；

一个综合损失计算模块，用于根据所述语种损失确定模块确定出的所述语种识别损失和所述语音识别模型确定出的所述语音识别损失，计算综合损失；

一个模型调整模块，用于根据所述综合损失计算模块计算出的所述综合损失，调整所述语音识别模型的参数，直至所述综合损失小于预先设定的损失阈值，停止对所述语音识别模型进行上述训练。

14.一种语音识别装置，其特征在于，包括：

一个语音处理模块，用于将待识别语音输入通过如权利要求1至11中任一所述语音识别模型训练方法训练得到的语音识别模型，获得所述语音识别模型输出的文本识别结果；

一个文本确定模块，用于根据所述语音处理模块获得的所述文本识别结果，确定与所述待识别语音相对应的识别文本。

15.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器和所述存储器连接，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序实现上述权利要求1-11中任一项所述的语音识别模型训练方法，或者实现上述权利要求12所述的语音识别方法。

16.一种计算机存储介质，其特征在于，包括：所述计算机存储介质存储有计算机程序，在处理器执行所述计算机程序时，实现上述权利要求1-11中任一项所述的语音识别模型训练方法，或者实现上述权利要求12所述的语音识别方法。

技术总结
本申请实施例提供了一种模型训练、语音识别方法及装置、电子设备及存储介质，该语音识别模型训练方法包括：获取包括至少两个语种的语音样本；将语音样本输入待训练的语音识别模型，获得语音识别模型的文本识别结果；根据文本识别结果确定语音识别模型的语种识别损失，其中语种识别损失用于表征语音识别模型将语音识别为文本时，对语种识别的准确性；确定语音识别模型的语音识别损失，其中语音识别损失用于表征语音识别模型将语音识别为文本的准确性；根据语种识别损失和语音识别损失计算综合损失；根据综合损失调整语音识别模型的参数，直至综合损失小于预先设定的损失阈值，停止对语音识别模型进行上述训练。本方案能够提高语音识别的准确性。

技术研发人员：李成飞;杨嵩;汪光璟
受保护的技术使用者：北京世纪好未来教育科技有限公司
技术研发日：2021.05.14
技术公布日：2021.06.11

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种远端及自主实验机器人装置、管理系统及方法与流程

模型训练、语音识别方法及装置、电子设备及存储介质与流程

相关文章

最热文献