一种语音增强方法、装置、设备及存储介质与流程

2022-02-19 13:46:06 来源：中国专利 TAG：

技术特征：
1.一种语音增强方法，其特征在于，包括：将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型包含编码网络、降噪网络和解码网络；通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。2.根据权利要求1所述的方法，其特征在于，所述降噪网络包括卷积模块、双阶变压模块、密集块模块和反卷积模块；所述卷积模块用于基于所述编码网络输出的编码语音特征，输出卷积语音特征；所述双阶变压模块用于基于注意力机制对所述卷积模块输出的卷积语音特征进行特征提取，输出变压语音特征；所述密集块模块用于基于所述双阶变压模块输出的变压语音特征，输出密集语音特征；所述反卷积模块用于基于所述卷积模块输出的卷积语音特征和所述密集块输出的密集语音特征，输出降噪语音特征。3.根据权利要求2所述的方法，其特征在于，所述双阶变压模块包括局部变压模块和全局变压模块；所述局部变压模块用于基于所述卷积模块输出的卷积语音特征，输出局部语音特征；所述全局变压模块用于基于所述局部变压模块输出的局部语音特征，输出变压语音特征。4.根据权利要求2所述的方法，其特征在于，所述密集块模块包括至少两个二维卷积模块，第一个二维卷积模块基于所述双阶变压模块输出的变压语音特征，输出第一子密集语音特征；第n个二维卷积模块基于所述双阶变压模块输出的变压语音特征以及前n
‑
1个二维卷积模块分别输出的子密集语音特征，输出密集语音特征；其中，所述n表示所述密集块模块包含的二维卷积模块的数量。5.根据权利要求2所述的方法，其特征在于，所述卷积模块包括预处理模块、第一卷积模块和第二卷积模块；所述预处理模块用于基于所述编码网络输出的编码语音特征，输出预处理语音特征；所述第一卷积模块用于对所述预处理模块输出的预处理语音特征进行卷积处理，输出第一卷积语音特征；所述第二卷积模块用于对所述第一卷积模块输出的第一卷积语音特征进行卷积处理，输出卷积语音特征。6.根据权利要求5所述的方法，其特征在于，所述反卷积模块包括第一合并模块、第一反卷积模块、第二合并模块和第二反卷积模块；所述第一合并模块用于对所述第二卷积模块输出的卷积语音特征和所述密集块模块输出的密集语音特征执行合并操作并输出给第一反卷积模块；所述第二合并模块用于对所述第一卷积模块输出的第一卷积语音特征和所述第一反卷积模块输出的第一反卷积语音特征执行合并操作并输出给所述第二反卷积模块。7.根据权利要求1
‑
6任一项所述的方法，其特征在于，所述目标语音增强模型的训练方法包括：将获取到的训练语音信号输入到待训练的初始语音增强模型中，得到输出的预测语音信号；基于所述预测语音信号和与所述训练语音信号对应的标准语音信号，确定损失函数；基于所述损失函数，对所述初始语音增强模块的模型参数进行更新，直到损失函数收
敛时，得到训练完成的目标语音增强模型。8.一种语音增强装置，其特征在于，包括：带噪语音信号输入模块，用于将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型中包含编码网络、降噪网络和解码网络；语音编码模块，用于通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；语音降噪模块，用于将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；语音增强模块，用于基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。9.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1
‑
7中任一所述的语音增强方法。10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1
‑
7中任一所述的语音增强方法。

技术总结
本发明实施例公开了一种语音增强方法、装置、设备及存储介质。该方法包括：将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型包含编码网络、降噪网络和解码网络；通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。本发明实施例通过直接将带噪语音信号输入到目标语音增强模型中，解决了频域语音增强方法需要时域变换的问题，既缩短了语音增强的计算时间，又提高了语音增强的效果。又提高了语音增强的效果。又提高了语音增强的效果。

技术研发人员：姜彦吉田桂源刘海涛彭博郑四发
受保护的技术使用者：清华大学苏州汽车研究院（相城）
技术研发日：2021.11.10
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别方法、介质、装置和计算设备与流程

一种语音增强方法、装置、设备及存储介质与流程

相关文献

最热文献