音频信号处理方法及装置与流程

2022-03-19 21:22:02 来源：中国专利 TAG：

技术特征：
1.一种音频信号处理方法，其特征在于，应用于电子设备，所述方法包括：将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号和背景声信号，所述背景声信号包括左声道背景声信号和右声道背景声信号；扩展所述背景声信号的声场获得扩展背景声信号；对所述第一人声信号进行语音检测，获得目标人声信号；将所述扩展背景声信号和所述目标人声信号进行混音处理，得到目标输出音频信号。2.根据权利要求1所述的方法，其特征在于，所述人声提取模型为频域的人声提取模型；所述将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号、左声道背景声信号和右声道背景声信号，包括：将所述原始立体声信号进行时频转换获得频域立体声信号；将所述频域立体声信号输入至所述人声提取模型，提取所述频域立体声信号对应的频谱特征，并分析所述频谱特征获得所述频域立体声信号对应的人声掩码和背景声掩码，所述人声掩码表征所述频域立体声信号中每一帧声音信号是否是人声信号，所述背景声掩码表征所述频域立体声信号中每一帧声音信号是否是背景声信号；将所述频域立体声信号对应的向量与所述人声掩码进行向量乘法运算，获得所述频域立体声信号中的频域人声信号；将所述频域立体声信号与所述背景声掩码进行向量乘法运算，获得所述频域立体声信号包含的左声道频域背景声信号和右声道频域背景声信号；将所述频域人声信号进行频时转换获得时域的所述人声信号；将所述左声道频域背景声信号和所述右声道频域背景声信号进行频时转换获得时域的所述背景声信号。3.根据权利要求1所述的方法，其特征在于，所述人声提取模型能够处理时域的音频信号；所述将原始立体声信号输入基于神经网络的人声提取模型，进行人声信号识别和提取，获得第一人声信号、左声道背景声信号和右声道背景声信号，包括：将所述原始立体声信号对应的向量输入至所述人声提取模型，提取所述原始立体声信号的特征向量，并分析所述特征向量，获得所述原始立体声信号对应的人声掩码和背景声掩码，所述人声掩码表征所述立体声信号中每一帧声音信号是否是人声信号，所述背景声掩码表征频域立体声信号中每一帧声音信号是否是背景声信号；将所述原始立体声信号的特征向量与所述人声掩码进行向量乘法运算，获得所述人声信号；将所述原始立体声信号的特征向量与所述背景声掩码进行向量乘法运算，获得所述左声道背景声信号和所述右声道背景声信号。4.根据权利要求1所述的方法，其特征在于，所述人声提取模型为频域的人声提取模型；所述人声提取模型的训练过程包括：获取人声样本数据和背景声样本数据；
对所述人声样本数据进行时频变换，获得所述人声样本数据对应的真实人声频谱；将所述人声样本数据与背景声样本数据进行混音处理，获得混合音频样本；对所述混合音频样本进行时频变换，获得所述混合音频样本对应的频谱；将所述混合音频样本对应的频谱输入待训练人声提取模型，获得人声掩码，根据所述混合音频样本和所述人声掩码获得估计人声频谱；根据同一人声样本数据对应的所述真实人声频谱和所述估计人声频谱，获得损失值；如果所述损失值不满足预设收敛条件，调整所述待训练人声提取模型的模型参数，利用调整后的待训练人声提取模型获得新的估计人声频谱，并计算所述新的估计人声频谱与所述真实人声频谱的损失值，直到所述损失值满足所述预设收敛条件，获得所述人声提取模型。5.根据权利要求1所述的方法，其特征在于，所述人声提取模型为时域的人声提取模型；所述人声提取模型的训练过程包括：获取人声样本数据和背景声样本数据；获取所述人声样本数据中对应的真实人声信息；将所述人声样本数据与所述背景声样本数据进行混音处理，获得混合音频样本；将所述混合音频样本对应的向量输入待训练人声提取模型，获得时域的估计人声信息；根据同一人声样本数据对应的所述真实人声信息的样点幅值与所述估计人声信息的幅值，获得损失值；如果所述损失值不满足预设收敛条件，调整所述待训练人声提取模型的模型参数，利用调整后的待训练人声提取模型获得所述混合音频样本对应的新的估计人声信息，并获得新的损失值，直到所述新的损失值满足所述预设收敛条件，获得所述人声提取模型。6.根据权利要求1所述的方法，其特征在于，所述对所述第一人声信号进行语音检测，获得目标人声信号，包括：针对所述第一人声信号中的任一人声帧，保持所述人声帧的增益不变，所述人声帧是所述第一人声信号中仅包含人声信号的帧；针对所述第一人声信号中的任一背景声帧，降低所述背景声帧的增益，所述背景声帧是所述第一人声信号中仅包含背景声信号的帧；将所述第一人声信号中的每个人声帧和每个背景声帧，按时间顺序拼接得到所述目标人声信号。7.根据权利要求1所述的方法，其特征在于，所述对所述第一人声信号进行语音检测，获得目标人声信号，包括：针对所述第一人声信号中的任一人声帧，增大所述人声帧的增益；针对所述第一人声信号中的任一背景声帧，保持所述背景声帧的增益；将所述第一人声信号中的每个人声帧和每个背景声帧，按时间顺序拼接得到所述目标人声信号。8.根据权利要求1所述的方法，其特征在于，所述对所述第一人声信号进行语音检测，包括：
针对所述第一人声信号包含的任一帧声音信号，进行时频变换，获得第一频谱信息；对所述第一频谱信息进行对数计算获得第二频谱信息；对所述第二频谱信息进行频时变换，得到所述任一帧声音信号对应的倒谱系数；如果所述任一帧声音信号对应的倒谱系数大于预设阈值，确定所述任一帧声音信号为人声信号；如果所述任一帧声音信号对应的倒谱系数小于或等于所述预设阈值，确定所述任一帧声音信号为背景声信号。9.根据权利要求1-8任一项所述的方法，其特征在于，所述扩展背景声信号包括左声道扩展背景声信号和右声道扩展背景声信号；所述将所述扩展背景声信号和所述目标人声信号进行混音处理，得到目标输出音频信号，包括：将所述左声道扩展背景声信号与所述目标人声信号进行混音处理，得到左声道目标输出音频信号；将所述右声道扩展背景声信号与所述目标人声信号进行混音处理，得到右声道目标输出音频信号。10.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器、存储器和至少两个扬声器；所述存储器用于存储程序代码；所述处理器用于运行所述程序代码，使得所述电子设备实现如权利要求1至9任一项所述的音频信号处理方法。11.一种计算机可读存储介质，其特征在于，其上存储有指令，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1至9任一项所述的音频信号处理方法。

技术总结
本申请提供了一种音频信号处理方法及装置，该方法采用基于神经网络的人声提取模型，从原始立体声信号中提取出左、右声道背景声信号和人声信号。对左、右声道背景声信号进行声场扩展得到扩展背景声信号；进一步，对人声信号进行语音检测获得目标人声信号。最后，对扩展背景声信号和目标人声信号进行混音处理，得到目标输出音频信号。可见，基于神经网络的人声提取模型能够提取出比较纯净的人声信号，从而获得比较纯净的背景声信号，对纯净的背景声信号进行声场扩展，避免了人声变散变虚的问题，提高了声场扩展效果。而且，提高了人声清晰度和声场扩展效果，进一步提高了用户的听觉体验。验。验。

技术研发人员：胡贝贝夏日升许剑峰
受保护的技术使用者：荣耀终端有限公司
技术研发日：2022.02.16
技术公布日：2022/3/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种多状态声纹特征识别方法及装置与流程

音频信号处理方法及装置与流程

相关文献

最热文献