一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别模型的训练方法、语音识别方法及装置与流程

2022-06-08 08:59:05 来源:中国专利 TAG:

技术特征:
1.一种语音识别模型的训练方法,其特征在于,包括获取混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签,其中,所述混合数据集包括第一样本普通话语音数据和样本方言语音数据;将所述混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签输入初始语音识别模型,得到所述混合数据集中的语音数据的识别结果,所述识别结果包括识别文本和识别语种;基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签,确定所述初始语音识别模型的总识别损失;基于所述总识别损失,对所述初始语音识别模型进行迭代训练,得到所述语音识别模型;其中,所述初始语音识别模型包括内容识别网络和语种分类器,所述内容识别网络用于对所述混合数据集中的语音数据进行编码以得到对应的特征向量,以及基于所述特征向量进行语音识别,得到所述识别文本;所述语种分类器用于基于所述特征向量进行语种识别,得到所述识别语种,所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的。2.根据权利要求1所述的方法,其特征在于,所述基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签,确定所述初始语音识别模型的总识别损失,包括:基于所述识别文本以及所述语音数据的标注文本,确定所述内容识别网络的第一识别损失;基于所述识别语种以及所述语音数据的语种标签,确定所述语种分类器的识别损失;对所述内容识别网络的第一识别损失和所述语种分类器的识别损失进行归一化处理,得到所述初始语音识别模型的总识别损失。3.根据权利要求2所述的方法,其特征在于,所述内容识别网络包括:编码器,用于基于所述语音数据的标注文本,对所述语音数据进行编码,得到所述特征向量,并基于连接时序分类机制和所述特征向量,对所述语音数据进行语音识别,得到所述语音数据的第一识别文本;解码器,用于基于注意力机制和所述特征向量,对所述语音数据进行语音识别,得到所述语音数据的第二识别文本。4.根据权利要求3所述的方法,其特征在于,所述基于所述识别文本以及所述语音数据的标注文本,确定所述内容识别网络的第一识别损失,包括:基于所述语音数据的第一识别文本及所述语音数据的标注文本,确定第一识别子损失,所述第一识别子损失用于表示所述编码器基于连接时序分类机制对所述混合数据集进行语音识别所引起的识别损失;基于所述语音数据的第二识别文本及所述的语音数据的标注文本,确定第二识别子损失,所述第二识别子损失用于表示所述解码器基于注意力机制对所述混合数据集进行语音识别所引起的识别损失;基于所述第一识别子损失和所述第二识别子损失,确定所述内容识别网络的第一识别损失。
5.根据权利要求4所述的方法,其特征在于,所述基于所述语音数据的第二识别文本以及所述语音数据的标注文本,确定第二识别子损失,包括:基于所述语音数据的语种数量和所述语音数据的标注文本的标注形式,对所述语音数据的标注文本进行平滑处理;基于所述语音数据的第二识别文本和所述平滑处理后的标注文本,确定所述第二识别子损失。6.根据权利要求3所述的方法,其特征在于,在将所述混合数据集以及所述语音数据的标注文本输入初始语音识别模型之前,所述方法还包括:将所述第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本输入初始内容识别网络,得到第三识别文本和第四识别文本,其中,所述第三识别文本为所述初始内容识别网络中的编码器基于连接时序分类机制和所述第二样本普通话语音数据的特征向量进行语音识别得到的,所述第四识别文本为所述初始内容识别网络中的解码器基于注意力机制和所述第二样本普通话语音数据的特征向量进行语音识别得到的;基于所述第三识别文本和所述第二样本普通话语音数据的标注文本,确定第三识别子损失,所述第三识别子损失用于表示所述初始内容识别网络中的编码器基于连接时序分类机制对所述第二样本普通话语音数据进行语音识别所引起的识别损失;基于所述第四识别文本和所述第二样本普通话语音数据的标注文本,确定第四识别子损失,所述第四识别子损失用于表示所述初始内容识别网络中的解码器基于注意力机制对所述第二样本普通话语音数据进行语音识别所引起的识别损失;基于所述第三识别子损失和所述第四识别子损失,确定所述初始内容识别网络的第二识别损失;基于所述初始内容识别网络的第二识别损失,对所述初始内容识别网络进行迭代训练,得到所述内容识别网络。7.一种语音识别方法,其特征在于,包括:对待处理语音进行特征提取,得到所述待处理语音的语音数据;通过语音识别模型的内容识别网络对所述待处理语音的语音数据进行语音识别,得到所述待处理语音的识别文本;其中,所述语音识别模型是基于混合数据集中的语音数据的标注文本及语种标签以及所述语音识别模型针对所述混合数据集输出的识别结果进行模型训练得到的,所述混合数据集包括第一样本普通话语音数据和样本方言语音数据,所述语音识别模型包括内容识别网络和语种分类器,所述识别结果包括识别文本和识别语种,所述识别文本为所述内容识别网络对所述混合数据集中的语音数据进行语音识别得到,所述识别语种为所述语种分类器对所述混合数据集中的语音数据进行语种识别得到的,所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的。8.一种语音识别模型的训练装置,其特征在于,包括:第一获取模块,用于获取混合数据集以及所述混合数据集中的语音数据的标注文本及语种标签,其中,所述混合数据集包括第一样本普通话语音数据和样本方言语音数据;第一识别模块,用于将所述混合数据集以及所述混合数据集中的语音数据的标注文本输入初始语音识别模型,得到所述混合数据集中的语音数据的识别结果,所述识别结果包
括识别文本和识别语种,其中,所述初始语音识别模型包括内容识别网络和语种分类器,所述内容识别网络用于对所述混合数据集中的语音数据进行编码以得到对应的特征向量,以及基于所述特征向量进行语音识别,得到所述识别文本;所述语种分类器用于基于所述特征向量进行语种识别,得到所述识别语种,所述内容识别网络是利用第二样本普通话语音数据和所述第二样本普通话语音数据的标注文本进行预训练得到的;第一损失确定模块,用于基于所述混合数据集中的语音数据的识别结果以及所述混合数据集中的语音数据的标注文本及语种标签,确定所述初始语音识别模型的总识别损失;第一训练模块,用于基于所述总识别损失,对所述初始语音识别模型进行迭代训练,得到所述语音识别模型。9.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的方法。

技术总结
本申请公开了一种语音识别模型的训练方法、语音识别方法及装置。所述训练方法包括:获取混合数据集及其中的语音数据的标注文本,混合数据集包括第一样本普通话语音数据和样本方言语音数据;将混合数据集及其中的语音数据的标注文本及语种标签输入初始语音识别模型,得到混合数据集中的语音数据的识别结果,内容识别网络用于对语音数据进行编码得到特征向量,以及基于语音数据的特征向量进行语音识别以得到识别文本,语种分类器用于基于语音数据的特征向量进行语音识别以得到识别语种;基于混合数据集中的语音数据的识别结果和语音数据的标注文本及语种标签,确定总识别损失;基于总识别损失,对初始语音识别模型进行迭代训练,得到语音识别模型。得到语音识别模型。得到语音识别模型。


技术研发人员:孟庆林 蒋宁 吴海英 王洪斌 刘敏 陈燕丽
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:2022.04.13
技术公布日:2022/6/7
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献