一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音增强模型的训练方法和装置及语音增强方法和装置与流程

2021-10-09 16:03:00 来源:中国专利 TAG:语音 装置 增强 方法 模型

技术特征:
1.一种语音增强模型的训练方法,其特征在于,所述语音增强模型包括第一神经网络和第二神经网络,所述训练方法包括:获取多个方位的含噪语音样本和所述多个方位的纯净语音样本,其中,所述含噪语音样本是所述纯净语音样本添加噪声数据得到的;将所述含噪语音样本转化成的频域复数信号输入所述第一神经网络,得到估计的复数特征,其中,所述估计的复数特征包含所述频域复数信号的方向信息;将所述估计的复数特征转化成的实数特征输入所述第二神经网络,得到估计的掩膜,掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值;根据所述估计的掩膜和所述频域复数信号,确定估计的增强语音,并根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数;通过根据所述损失函数调整所述第一神经网络和所述第二神经网络的参数,对所述语音增强模型进行训练。2.如权利要求1所述的训练方法,其特征在于,所述根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数,包括:根据所述估计的增强语音和所述纯净语音样本计算与尺度无关的信噪比,并取负值,得到所述损失函数。3.如权利要求1或2所述的训练方法,其特征在于,所述训练方法还包括:获取所述多个方位的真实声源方向信息,声源方向信息表示纯净语音信号的方向信息;所述将所述估计的复数特征转化成的实数特征输入所述第二神经网络,得到估计的掩膜,还包括:得到估计的声源方向信息;所述根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数,包括:根据所述估计的增强语音和所述纯净语音样本确定第一损失函数;根据所述估计的声源方向信息和所述真实声源方向信息确定第二损失函数;根据所述第一损失函数和所述第二损失函数确定所述损失函数。4.一种语音增强方法,应用于拾音设备,所述拾音设备包括麦克风阵列,其特征在于,所述语音增强方法包括:获取麦克风阵列的第一含噪语音信号;将所述第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络,得到估计的复数特征,其中,所述估计的复数特征包含所述频域复数信号的方向信息,所述语音增强模型包括所述第一神经网络和第二神经网络;将所述估计的复数特征转化成的实数特征输入所述第二神经网络,得到估计的掩膜,掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值;根据所述估计的掩膜和所述频域复数信号,得到所述第一含噪语音信号的第一增强语音。5.如权利要求4所述的语音增强方法,其特征在于,所述将所述估计的复数特征转化成的实数特征输入所述第二神经网络,得到估计的掩膜,还包括:得到估计的声源方向信息,声源方向信息表示纯净语音信号的方向信息。
6.一种语音增强模型的训练装置,其特征在于,所述语音增强模型包括第一神经网络和第二神经网络,所述训练装置包括:获取单元,被配置为:获取多个方位的含噪语音样本和所述多个方位的纯净语音样本,其中,所述含噪语音样本是所述纯净语音样本添加噪声数据得到的;第一估计单元,被配置为:将所述含噪语音样本转化成的频域复数信号输入所述第一神经网络,得到估计的复数特征,其中,所述估计的复数特征包含所述频域复数信号的方向信息;第二估计单元,被配置为:将所述估计的复数特征转化成的实数特征输入所述第二神经网络,得到估计的掩膜,掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值;计算单元,被配置为:根据所述估计的掩膜和所述频域复数信号,确定估计的增强语音,并根据所述估计的增强语音和所述纯净语音样本确定所述语音增强模型的损失函数;调参单元,被配置为:通过根据所述损失函数调整所述第一神经网络和所述第二神经网络的参数,对所述语音增强模型进行训练。7.一种语音增强装置,应用于拾音设备,所述拾音设备包括麦克风阵列,其特征在于,所述语音增强装置包括:获取单元,被配置为:获取麦克风阵列的第一含噪语音信号;第一估计单元,被配置为:将所述第一含噪语音信号转化成的频域复数信号输入语音增强模型中的第一神经网络,得到估计的复数特征,其中,所述估计的复数特征包含所述频域复数信号的方向信息,所述语音增强模型包括所述第一神经网络和第二神经网络;第二估计单元,被配置为:将所述估计的复数特征转化成的实数特征输入所述第二神经网络,得到估计的掩膜,掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值;第一增强单元,被配置为:根据所述估计的掩膜和所述频域复数信号,得到所述第一含噪语音信号的第一增强语音。8.一种电子设备,其特征在于,包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的语音增强模型的训练方法或如权利要求4或5所述的语音增强方法。9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到3中的任一权利要求所述的语音增强模型的训练方法或如权利要求4或5所述的语音增强方法。10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被至少一个处理器执行时实现如权利要求1到3中的任一权利要求所述的语音增强模型的训练方法或如权利要求4或5所述的语音增强方法。

技术总结
本公开关于一种语音增强模型的训练方法和装置及语音增强方法和装置,所述训练方法包括:获取多个方位的含噪语音样本和多个方位的纯净语音样本,其中,含噪语音样本是纯净语音样本添加噪声数据得到的;将含噪语音样本转化成的频域复数信号输入第一神经网络,得到估计的复数特征;将估计的复数特征转化成的实数特征输入第二神经网络,得到估计的掩膜,掩膜表示纯净语音信号幅度谱与含噪语音信号幅度谱的比值;根据估计的掩膜和频域复数信号,确定估计的增强语音,并根据估计的增强语音和纯净语音样本确定语音增强模型的损失函数;通过根据损失函数调整第一神经网络和第二神经网络的参数,对语音增强模型进行训练。对语音增强模型进行训练。对语音增强模型进行训练。


技术研发人员:韩润强 张晨 吕新亮 郑羲光
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2021.07.13
技术公布日:2021/10/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜