语音识别方法及相关装置、电子设备、存储介质与流程

2022-09-07 21:16:27 来源：中国专利 TAG：

技术特征：
1.一种语音识别方法，其特征在于，包括：获取待识别语音所属的目标语种，并获取若干语系各自的语音识别模型；其中，所述若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到，所述若干归类方式至少包括对所述样本子词序列进行特征聚类，各所述语系的语音识别模型分别由各所述语系的样本语音子集合训练得到，且各所述语系的样本语音子集合由所述样本语音集合基于归类得到的若干语系划分得到；基于所述目标语种所属语系对应的语音识别模型，对所述待识别语音进行识别，得到所述待识别语音的识别文本。2.根据权利要求1所述的方法，其特征在于，所述获取若干语系各自的语音识别模型，包括：基于所述语系的样本语音子集中所述样本语音各语音帧的样本声学特征，得到所述样本语音的声学特征序列；基于所述声学特征序列进行编码，得到编码特征序列，并基于所述编码特征序列进行特征量化，得到量化特征序列，以及基于所述编码特征序列进行上下文表征，得到上下文特征序列；基于所述上下文特征序列进行解码，得到预测子词序列；基于所述量化特征序列与所述上下文特征序列之间的对比损失，以及所述预测子词序列相较于所述样本子词序列的预测损失，调整所述语系的语音识别模型的网络参数。3.根据权利要求2所述的方法，其特征在于，在训练各所述语系的语音识别模型之前，基于若干语种的语音数据预训练得到语音特征提取网络，且语音特征提取网络与解码网络组成所述语音识别模型，且所述语音特征提取网络用于执行所述编码和所述上下文表征，所述解码网络用于执行所述解码。4.根据权利要求2所述的方法，其特征在于，所述基于所述编码特征序列进行特征量化，得到量化特征序列，包括：基于预训练的码本对所述编码特征序列中所述各语音帧的样本编码特征进行特征量化，得到所述量化特征序列；其中，所述量化特征序列包含所述各语音帧的样本量化特征；在所述基于所述编码特征序列进行上下文表征，得到上下文特征序列之前，所述方法还包括：对所述编码特征序列中至少一个语音帧的样本编码特征进行遮蔽；所述基于所述编码特征序列进行上下文表征，得到上下文特征序列，包括：基于遮蔽后的编码特征序列中所述各语音帧的样本编码特征进行上下文表征，得到所述上下文特征序列；其中，所述上下文特征序列包含所述各语音帧的样本上下文特征。5.根据权利要求2所述的方法，其特征在于，所述基于所述量化特征序列与所述上下文特征序列之间的对比损失，以及所述预测子词序列相较于所述样本子词序列的预测损失，调整所述语系的语音识别模型的网络参数，包括：基于第一权重、第二权重分别对所述对比损失、所述预测损失进行加权，得到所述语系的样本语音子集合中所述样本语音在所述语音识别模型上的子损失；其中，所述第一权重不大于所述第二权重；基于所述语系的样本语音子集合中至少一个样本语音分别对应的子损失，调整所述语
系的语音识别模型的网络参数。6.根据权利要求1所述的方法，其特征在于，所述语系的语音识别模型在每轮训练过程中基于样本语音批次进行训练，所述样本语音批次从所述语系的样本语音子集合选取得到，且在每轮训练所述语系的语音识别模型过程中，所述方法还包括：基于权重预测模型预测所述样本语音批次中各所述样本语音的损失权重；基于所述样本语音批次中各所述样本语音的损失权重，对所述样本语音批次中各所述样本语音的子损失进行加权，得到本轮训练所述语音识别模型的训练损失；其中，所述语音识别模型在本轮训练，基于所述训练损失调整网络参数；获取参数调整后的语音识别模型在验证集上的验证损失；基于所述训练损失和所述验证损失之间的分布差异，调整所述权重预测模型的网络参数。7.根据权利要求1所述的方法，其特征在于，所述基于所述目标语种所属语系对应的语音识别模型，对所述待识别语音进行识别，得到所述待识别语音的识别文本，包括：基于所述目标语种所属语系对应的语音识别模型，对所述待识别语音进行识别，得到本次识别的识别结果；其中，所述识别结果包括：预设词典中各个预设子词的预测概率值，且所述预设子词标记有所述预设子词所属语种；将所属语种不同于所述目标语种的预设子词，作为目标子词，并将所述识别结果中所述目标子词的预测概率值进行抑制；基于最新所述识别结果，得到本次识别得到的子词，并基于历次识别得到的子词，得到所述识别文本。8.根据权利要求7所述的方法，其特征在于，所述样本子词序由所述样本语音对应的样本文本进行子词切分得到，所述样本子词序列中各个样本子词标记有所述样本子词所属语种，且所述所属语种属于相同所述语系的样本子词构成所述语系的预设词典。9.根据权利要求1所述的方法，其特征在于，在所述获取若干语系各自的语音识别模型之前，所述方法还包括：获取所述样本语音集合中各所述样本语音所标注的样本子词序列中各个样本子词的语义特征；基于所述样本子词的语义特征进行特征聚类，得到若干特征集合；对于各个所述特征集合，基于所述特征集合中所述语义特征所属的样本子词分别涉及的语种，确定各个所述语系。10.一种语音识别装置，其特征在于，包括：语种获取模块，用于获取待识别语音所属的目标语种；模型获取模块，用于获取若干语系各自的语音识别模型；其中，所述若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到，所述若干归类方式至少包括对所述样本子词序列进行特征聚类，各所述语系的语音识别模型分别由各所述语系的样本语音子集合训练得到，且各所述语系的样本语音子集合由所述样本语音集合基于归类得到的若干语系划分得到；识别模块，用于基于所述目标语种所属语系对应的语音识别模型，对所述待识别语音进行识别，得到所述待识别语音的识别文本。
11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至9任一项所述的语音识别方法。12.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的语音识别方法。

技术总结
本申请公开了一种语音识别方法及相关装置、电子设备、存储介质，其中，语音识别方法包括：获取待识别语音所属的目标语种，并获取若干语系各自的语音识别模型；其中，若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到，若干归类方式至少包括对样本子词序列进行特征聚类，各语系的语音识别模型分别由各语系的样本语音子集合训练得到，且各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到；基于目标语种所属语系对应的语音识别模型，对待识别语音进行识别，得到待识别语音的识别文本。上述方案，能够在降低语音识别模型的应用成本的同时，提升语音识别模型的识别性能。的识别性能。的识别性能。

技术研发人员：方昕
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2022.06.27
技术公布日：2022/9/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于人工智能的语音合成方法、装置、计算机设备及介质与流程

语音识别方法及相关装置、电子设备、存储介质与流程

相关文献

最热文献