一种基于声纹特征的多人语音分离方法、设备及介质与流程

2022-02-22 02:34:11 来源：中国专利 TAG：

技术特征：
1.一种基于声纹特征的多人语音分离方法，其特征在于，该方法包括以下步骤：步骤s1：声纹特征提取，包括获取目标说话人的声纹特征x
ref
以及对混合音频采用短时傅里叶变换提取其频谱特征x
mix
；步骤s2：声纹特征融合，通过拼接混合音频的频谱特征x
mix
与目标说话人的声纹特征x
ref
得到参考声纹特征的频谱特征x
′
mix
，并将频谱特征x
′
mix
输入到用于捕获低级别音频特征的扩张卷积层，得到语音分离模型的输入特征x
input
；步骤s3：语音分离，通过基于语音分离模型获取频谱掩膜，并将其与混合音频的频谱特征x
mix
相乘，得到预测出的目标说话人的纯净音频的频谱；通过参考混合音频的相位谱并结合短时傅里叶逆变换，得到预测出的目标说话人在时域上的纯净音频。2.根据权利要求1所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述步骤s1中获取目标说话人的声纹特征x
ref
具体为：将目标说话人的参考音频输入至声纹特征提取器中，获取目标说话人的梅尔频率倒谱系数mfccs，将其作为目标说话人的声纹特征x
ref
，具体包括以下步骤：步骤s11：同时对目标说话人的参考音频和混合音频进行静音段修剪；步骤s12：对去除静音段的参考音频和去除静音段的混合音频进行处理，以保证参考音频的长度与混合音频的长度一致；步骤s13：从去除静音段的参考音频中提取梅尔频率倒谱系数mfccs，取前p维作为目标说话人的声纹特征x
ref
。3.根据权利要求2所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述步骤s12为：若去除静音段的参考音频的长度小于去除静音段的混合音频的长度，则对参考音频进行循环拼接；若去除静音段的参考音频的长度大于去除静音段的混合音频的长度，则对参考音频进行修剪，以保证参考音频的长度与混合音频的长度一致；其中所述静音段为低于20db的语音段。4.根据权利要求1所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述步骤s1中对混合音频采用短时傅里叶变换提取混合音频的频谱特征x
mix
具体包括以下步骤：步骤s14：使用窗口大小为256、帧移为64对去除静音段的混合音频进行短时傅里叶变换，同时得到混合音频的幅度谱和相位谱；步骤s15：使用幅度谱作为混合音频的频谱特征x
mix
；而相位谱则用作恢复分离模型预测目标说话人纯净音频时所使用的相位谱。5.根据权利要求1所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述步骤s2中的扩张卷积层包括卷积神经网络cnn。6.根据权利要求1所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述语音模型获取频谱掩膜的过程具体为：使用深度聚类模型dpcl基于输入特征x
input
得到嵌入向量，采用k-means算法对得到的嵌入向量进行聚类获取频谱掩膜。7.根据权利要求6所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述频谱掩膜为二进制频谱掩膜，即每个频谱图中的每个时频箱仅属于一个说话人。8.根据权利要求6所述的一种基于声纹特征的多人语音分离方法，其特征在于，所述深度聚类模型dpcl包括双向长短时记忆网络bilstm。9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在
于，所述处理器执行所述程序时实现如权利要求1～8所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～8中任一项所述的方法。

技术总结
本发明涉及一种基于声纹特征的多人语音分离方法、设备及介质，该方法包括：S1：获取目标说话人的声纹特征X

技术研发人员：沈莹程诗丹周子怡张林赵生捷
受保护的技术使用者：同济大学
技术研发日：2021.08.30
技术公布日：2022/1/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音分类方法以及相关装置、设备与流程

一种基于声纹特征的多人语音分离方法、设备及介质与流程

相关文献

最热文献