技术特征:
1.一种训练语音识别模型的方法,所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型,所述方法包括:
将第一训练音频样本的音频特征输入所述语音识别模型,其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征,并基于接收到的发言人特征和所述识别子模型的参数来识别所述音频特征,以获得识别结果,
基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息,计算针对所述识别结果的第一损失值;以及
根据所述第一损失值调整所述识别子模型的参数,直至所述第一损失值收敛为止。
2.根据权利要求1所述的方法,还包括:采用包含混叠音频的第二训练音频样本预先训练所述提取子模型,其中预先训练所述提取子模型包括:
根据所述提取子模型的参数对所述第二训练音频样本执行分析,以便获得针对不同发言人的预测识别结果;
根据所述提取子模型的损失函数和与所述第二训练音频样本相对应的标注信息,以遍历每个所述第二训练音频样本对应的标注信息的方式,计算多个损失值,并从所述多个损失值中选择最小值,作为针对所述预测识别结果的第二损失值;以及
根据针对所述预测识别结果的第二损失值,调整所述提取子模型的参数,直至第二损失值收敛为止。
3.根据权利要求1或2所述的方法,其中所述提取子模型基于双向长短期记忆blstm网络和注意力attention网络,并使用最小均方误差mse作为所述提取子模型的损失函数。
4.根据权利要求1或2所述的方法,其中所述识别子模型基于时延卷积神经网络tdnn和blstm网络,并使用连接时序分类ctc函数作为所述识别子模型的损失函数。
5.一种语音识别方法,所述方法包括:
对待测音频样本执行特征提取,以获得关于所述待测音频样本的待测音频特征,并将所述待测音频特征输入语音识别模型;
通过所述语音识别模型的提取子模型对所述待测音频特征进行分析,得到发言人特征;以及
通过所述语音识别模型的识别子模型,基于所述发言人特征来识别所述待测音频特征,以获得识别结果。
6.根据权利要求5所述的语音识别方法,所述待测音频样本为混叠音频,所述方法还包括:
通过所述提取子模型对所述待测音频特征执行分析,以获得针对不同发言人的预测识别结果;
其中,所述通过所述语音识别模型的识别子模型,基于所述发言人特征来识别所述待测音频特征,以获得识别结果,包括:
通过所述识别子模型,基于不同发言人的发言人特征和对应的预测识别结果来识别所述待测音频特征,以获得识别结果。
7.一种训练语音识别模型的装置,所述语音识别模型包括用于提取发言人特征的提取子模型和用于识别音频的识别子模型,所述装置包括:
语音识别模块,用于将第一训练音频样本的音频特征输入所述语音识别模型,其中所述识别子模型从所述提取子模型接收通过对所述音频特征分析而得到的发言人特征,并基于接收到的发言人特征和所述识别子模型的参数来识别所述音频特征,以获得识别结果,
损失计算模块,用于基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息,计算针对所述识别结果的第一损失值;以及
参数调整模块,用于根据所述第一损失值调整所述识别子模型的参数,直至所述第一损失值收敛为止。
8.根据权利要求7所述的装置,还包括:提取子模型训练模块,配置为采用包含混叠音频的第二训练音频样本预先训练所述提取子模型,
其中提取子模型训练模块进一步包括:
分析子模块,用于根据所述提取子模型的参数对所述第二训练音频样本执行分析,以便获得针对不同发言人的预测识别结果;
损失计算子模块,用于根据所述提取子模型的损失函数和与所述第二训练音频样本相对应的标注信息,以遍历每个所述第二训练音频样本对应的标注信息的方式,计算多个损失值,并从所述多个损失值中选择最小值,作为针对所述预测识别结果的第二损失值;以及
参数调整子模块,用于根据针对所述预测识别结果的第二损失值,调整所述提取子模型的参数,直至第二损失值收敛为止。
9.根据权利要求7或8所述的装置,其中所述提取子模型基于双向长短期记忆blstm网络和注意力attention网络,并使用最小均方误差mse作为所述提取子模型的损失函数。
10.根据权利要求7或8所述的装置,其中所述识别子模型基于时延卷积神经网络tdnn和blstm网络,并使用连接时序分类ctc函数作为所述识别子模型的损失函数。
11.一种语音识别装置,所述装置包括:
特征提取模块,用于对待测音频样本执行特征提取,以获得关于所述待测音频样本的待测音频特征,并将所述待测音频特征输入语音识别模型;
发言人特征提取模块,用于通过所述语音识别模型的提取子模型对所述待测音频特征进行分析,得到发言人特征;以及
音频识别模块,用于通过所述语音识别模型的识别子模型,基于所述发言人特征来识别所述待测音频特征,以获得识别结果。
12.根据权利要求11所述的语音识别装置,所述待测音频样本为混叠音频,还包括:
预测结果获取模块,用于通过所述提取子模型对所述待测音频特征执行分析,以获得针对不同发言人的预测识别结果;
其中,所述音频识别模块还用于:通过所述识别子模型,基于不同发言人的发言人特征和对应的预测识别结果来识别所述待测音频特征,以获得识别结果。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
技术总结
本公开提供了一种语音识别模型的训练方法、语音识别方法和装置,涉及深度学习和自然语音处理领域,具体涉及基于深度学习的语音识别技术。具体实现方案为:语音识别模型包括提取子模型和识别子模型。训练方法包括:将第一训练音频样本的音频特征输入所述语音识别模型,其中识别子模型从提取子模型接收发言人特征,并基于发言人特征和识别子模型的参数来识别所接收的音频特征,以获得识别结果;基于所述识别子模型的损失函数和与所述第一训练音频样本相对应的标注信息,计算针对所述识别结果的第一损失值;以及根据第一损失值调整模型参数,直至所述第一损失值收敛为止。
技术研发人员:赵情恩
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.06.17
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。