技术特征:
1.一种训练语音增广模型的方法,包括:
使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
利用训练后的所述教师模型对真实语音数据进行标注;
使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
2.根据权利要求1所述的方法,其中,所述教师模型包括三个模块:编码器、掩码估计器和解码器;
其中,所述掩码估计器学习从所述编码器生成的组合特征序列中为干净语音信号估计乘法掩码;所述解码器网络通过将所述乘法掩码表示转换回时域来重构所述干净语音信号。
3.根据权利要求2所述的方法,其中,所述编码器包括三个子模块,即音频编码器,文本编码器和特征融合模块;
其中,所述音频编码器将输入波形转换为中间特征空间中的表示形式,所述文本编码器是一个可学习的嵌入字典,可将转录转换为特征空间,基于转换器的特征融合模块通过注意力机制将编码的文本特征和音频特征结合在一起,所述特征融合模块将编码的音频特征作为查询,将编码的文本特征作为关键字和值,以生成包含嵌入的文本和音频信息的组合特征序列。
4.根据权利要求1所述的方法,其中,所述训练学生模型包括:
在模拟语音数据和真实语音数据上训练学生语音增强模型,其中,参考信号分别来自模拟的地面真实情况和教师估计;
采用增强型输出学生和参考信号之间的si-snr进行损耗计算。
5.根据权利要求4所述的方法,其中,所述采用增强型输出学生和参考信号之间的si-snr进行损耗计算的公式如下:
6.根据权利要求1所述的方法,其中,所述教师模型的训练过程表述为:
ey=featurefusion(ya,yt),
mx=maskestimator(ey),
其中,ya和yt分别表示时域音频信号及其对应的转录本的矢量表示。eya,eyt和ey分别代表编码后的音频特征,文本特征及其组合;mx代表估计的语音蒙版;参考纯净信号和增强信号分别由x和
7.一种训练语音增广模型的装置,包括:
教师模型训练程序模块,配置为使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;
标注程序模块,配置为利用训练后的所述教师模型对真实语音数据进行标注;
学生模型训练程序模块,配置为使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
技术总结
本发明公开训练语音增广模型的方法和装置,其中,一种训练语音增广模型的方法,包括:使用同时具有文本信息和噪声增广的模拟语音数据训练教师模型;利用训练后的所述教师模型对真实语音数据进行标注;以及使用所述模拟语音数据和所述教师模型标注的真实语音数据共同训练学生模型以使所述学生模型能够在真实语音数据和模拟语音数据这两种信号上不需要文本信息即能够进行语音增广。本申请实施例提供的上述方法不仅提高了对模拟数据的语音增强性能,而且降低了下游语音识别任务的单词错误率。
技术研发人员:钱彦旻;王巍;张王优;李晨达
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:2021.05.28
技术公布日:2021.08.27
本文用于企业家、创业者技术爱好者查询,结果仅供参考。