技术特征:
1.一种单通道增强语音的处理方法,其特征在于,所述单通道增强语音的处理方法包括:
获取带有噪声的语音信号,并对所述带有噪声的语音信号进行分帧处理;
根据短时离散余弦变换stdct对分帧后的带有噪声的语音信号进行提取,得到第一特征;
输入所述第一特征至训练模型中以得到目标模型,所述训练模型包括卷积神经网络cnn、长短时记忆网络lstm和深度神经网络dnn;
获取待处理语音信号,并对所述待处理语音信号进行分帧处理;
根据短时离散余弦变换stdct对分帧后的待处理语音信号进行提取,得到第二特征;
输入所述第二特征至所述目标模型中以得到增强后的目标语音信号。
2.根据权利要求1所述的单通道增强语音的处理方法,其特征在于,根据短时离散余弦变换stdct对分帧后的带有噪声的语音信号进行提取,得到第一特征,包括:
其中,f(μ)表示所述短时离散余弦变换stdct;f(x)表示所述带有噪声的语音信号的时域向量,n表示所述带有噪声的语音信号的时域向量的长度;并且,
c(μ)表示所述短时离散余弦变换stdct的参数。
3.根据权利要求1所述的单通道增强语音的处理方法,其特征在于,所述输入所述第一特征至训练模型中以得到目标模型,包括:
将所述第一特征作为输入信号输入至所述训练模型中以得到第一估计掩蔽值;
根据所述第一特征和所述第一估计掩蔽值计算得到第一估计纯净语音信号;
根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型。
4.根据权利要求1所述的单通道增强语音的处理方法,其特征在于,所述根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型,包括:
根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数;
根据所述损失函数,调整所述训练模型参数以得到目标模型。
5.根据权利要求4所述的单通道增强语音的处理方法,其特征在于,所述根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数,包括:
对所述第一估计纯净语音信号进行逆短时离散余弦变换istdct得到时域上的第一估计纯净语音信号;
根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数。
6.根据权利要求5所述的单通道增强语音的处理方法,其特征在于,所述根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数,包括:
其中,s表示干净语音信号,
7.根据权利要求4所述的单通道增强语音的处理方法,其特征在于,所述根据所述损失函数,调整所述训练模型参数以得到目标模型,包括:
当所述损失函数收敛后,确定所述训练模型的参数;
根据确定参数后的训练模型得到所述目标模型。
8.根据权利要求5所述的单通道增强语音的处理方法,其特征在于,所述对所述第一估计纯净语音信号进行逆短时离散余弦变换istdct得到时域上的第一估计纯净语音信号,包括:
其中,f(μ)表示所述短时离散余弦变换stdct;f(x)表示所述带有噪声的语音信号的时域向量,n表示所述带有噪声的语音信号的时域向量的长度;并且,
c(μ)表示所述短时离散余弦变换stdct的参数。
9.根据权利要求1所述的单通道增强语音的处理方法,其特征在于,所述输入所述第二特征至所述目标模型中以得到增强后的目标语音信号,包括:
将所述第二特征作为输入信号输入至所述目标模型中以得到第二估计掩蔽值;
根据所述第二特征和所述第二估计掩蔽值计算得到第二估计纯净语音信号;
对所述第二估计纯净语音信号进行反向短时离散余弦变换istdct得到时域上的第二估计纯净语音信号,所述第二估计纯净语音信号为所述目标语音信号。
10.根据权利要求1所述的单通道增强语音的处理方法,其特征在于,所述带有噪声的语音信号包括环境噪声信号和干净语音信号。
11.一种单通道增强语音的处理装置,其特征在于,所述单通道增强语音的处理装置,包括:
获取模块,用于获取带有噪声的语音信号,并对所述带有噪声的语音信号进行分帧处理;
提取模块,用于根据短时离散余弦变换stdct对分帧后的带有噪声的语音信号进行提取,得到第一特征;
输入模块,用于输入所述第一特征至训练模型中以得到目标模型;
所述获取模块还用于获取待处理语音信号,并对所述待处理语音信号进行分帧处理;
所述提取模块还用于根据短时离散余弦变换stdct对分帧后的待处理语音信号进行提取,得到第二特征;
所述输入模块还用于输入所述第二特征至所述目标模型中以得到增强后的目标语音信号。
12.一种单通道增强语音的处理装置,其特征在于,所述单通道增强语音的处理装置包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-10中任一步骤的指令。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-10中任一项所述的单通道增强语音的处理方法。
技术总结
本发明提供一种单通道增强语音的处理方法,适用于语音增强技术领域,改方法包括:获取带有噪声的语音信号,并对所述带有噪声的语音信号进行分帧处理;根据短时离散余弦变换STDCT对分帧后的带有噪声的语音信号进行提取,得到第一特征;输入所述第一特征至训练模型中以得到目标模型,所述训练模型包括卷积神经网络CNN、长短时记忆网络LSTM和深度神经网络DNN;获取待处理语音信号,并对所述待处理语音信号进行分帧处理;根据短时离散余弦变换STDCT对分帧后的待处理语音信号进行提取,得到第二特征;输入所述第二特征至所述目标模型中以得到增强后的目标语音信号。通过上述方法能够降低噪音,得到增强后的目标语音信号。
技术研发人员:高飞;关海欣;梁家恩
受保护的技术使用者:云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
技术研发日:2021.04.28
技术公布日:2021.07.30
本文用于企业家、创业者技术爱好者查询,结果仅供参考。