技术特征:
1.一种音频处理方法,其特征在于,包括:
确定目标对象的第一声纹特征;
对混合音频进行预分离处理,获得多路语音信号;
根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频,包括:
确定所述多路语音信号中各语音信号的第二声纹特征;
将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;
将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。
3.根据权利要求2所述的方法,其特征在于,所述将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频,包括:
将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;
根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。
4.根据权利要求3所述的方法,其特征在于,所述子模块包括:多层长短期记忆网络lstm和全连接层。
5.根据权利要求1所述的方法,其特征在于,所述确定目标对象的第一声纹特征,包括:
获取所述目标对象的音频信号;
根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述音频信号的频谱,提取所述目标对象的第一声纹特征,包括:
将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。
7.根据权利要求6所述的方法,其特征在于,所述声纹提取网络模型包括:
残差网络resnet;
至少一层池化层,与所述resnet连接;
全连接层,与所述池化层连接。
8.根据权利要求1所述的方法,其特征在于,所述对混合音频进行预分离处理,获得多路语音信号,包括:
对所述混合音频采用独立向量分析iva方式进行预分离处理,获得所述多路语音信号。
9.根据权利要求1至8中任一所述的方法,其特征在于,所述混合音频是语音通话过程中采集到的;
所述方法还包括:
对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。
10.一种音频处理装置,其特征在于,包括:
确定模块,配置为确定目标对象的第一声纹特征;
预分离模块,配置为对混合音频进行预分离处理,获得多路语音信号;
提取模块,配置为根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。
11.根据权利要求10所述的装置,其特征在于,
所述提取模块,还配置为确定所述多路语音信号中各语音信号的第二声纹特征;将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。
12.根据权利要求11所述的装置,其特征在于,
所述提取模块,还配置为将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。
13.根据权利要求12所述的装置,其特征在于,所述子模块包括:多层长短期记忆网络lstm和全连接层。
14.根据权利要求10所述的装置,其特征在于,
所述确定模块,还配置为获取所述目标对象的音频信号;根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。
15.根据权利要求14所述的装置,其特征在于,
所述确定模块,还配置为将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。
16.根据权利要求15所述的装置,其特征在于,所述声纹提取网络模型包括:
残差网络resnet;
至少一层池化层,与所述resnet连接;
全连接层,与所述池化层连接。
17.根据权利要求10所述的装置,其特征在于,
所述预分离模块,还配置为对所述混合音频采用独立向量分析iva方式进行预分离处理,获得所述多路语音信号。
18.根据权利要求10至17中任一所述的装置,其特征在于,所述混合音频是语音通话过程中采集到的;
所述装置还包括:
增强模块,配置为对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。
19.一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1至9中任一项所述的音频处理方法。
20.一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行如权利要求1至9中任一项所述的音频处理方法。
技术总结
本公开是关于一种音频处理方法及装置、终端及存储介质。该方法包括:确定目标对象的第一声纹特征;对混合音频进行预分离处理,获得多路语音信号;根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。通过该方法,能提升语音分离的准确度。
技术研发人员:徐娜;王林章;贾永涛
受保护的技术使用者:北京小米移动软件有限公司;昆山杜克大学
技术研发日:2021.03.23
技术公布日:2021.07.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。