技术特征:
1.一种音频信号处理方法,其特征在于,包括:
获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;
获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;
利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。
2.根据权利要求1所述的音频信号处理方法,其特征在于,所述获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型,包括:
获得所述目标设备中的滤波器参数和单位矩阵;
根据所述滤波器参数和所述单位矩阵生成分离矩阵,将所述分离矩阵作为所述音频分离模型。
3.根据权利要求2所述的音频信号处理方法,其特征在于,所述利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号,包括:将所述分离矩阵与第一音频信号矩阵相乘,生成第二音频信号矩阵。
4.根据权利要求3所述的音频信号处理方法,其特征在于,还包括:
获得所述目标设备发出的所述音频信号经过的回声路径的信息,并获得单位矩阵;
根据所述回声路径的信息和所述单位矩阵,生成混合矩阵;
获得第二模拟音频信号矩阵,所述第二模拟音频信号矩阵为针对所述第二音频信号的模拟音频信号生成的矩阵;
将所述混合矩阵和第二模拟音频信号矩阵相乘,生成所述第一音频信号矩阵。
5.根据权利要求4所述的音频信号处理方法,其特征在于,所述获得第二模拟音频信号矩阵,包括:
获得参考音频信号,所述参考音频信号为针对所述目标设备发出的用于与用户进行信息交互的音频信号的预先设置的模拟音频信号;
获得针对所述第二音频信号生成的第二模拟音频信号;
根据所述第二模拟音频信号和所述参考音频信号,获得第二模拟音频信号矩阵。
6.根据权利要求2所述的音频信号处理方法,其特征在于,所述获得所述目标设备中的滤波器参数和单位矩阵,包括:
获得第一音频分离矩阵,所述第一音频分离矩阵为与所述分离矩阵对应的单位矩阵;
将所述第一音频分离矩阵与所述第一音频信号矩阵相乘,获得第一候选音频信号矩阵;
判断所述第一候选音频信号矩阵的模是否大于所述第一音频信号矩阵的模;
若是,则将所述第一音频分离矩阵中的元素作为所述目标设备中的滤波器参数。
7.根据权利要求6所述的音频信号处理方法,其特征在于,还包括:
若所述第一候选音频信号矩阵的模不大于所述第一音频信号矩阵的模,则根据所述第一音频分离矩阵,获得第二音频分离矩阵;
将所述第二音频分离矩阵与所述第一音频信号矩阵相乘,获得第二候选音频信号矩阵;
判断所述第二候选音频信号矩阵的模是否大于所述第一音频信号矩阵的模,若所述第二候选音频信号矩阵的模大于所述第一音频信号矩阵的模,则将所述第二音频分离矩阵中的元素作为所述目标设备中的滤波器参数,若所述第二候选音频信号矩阵的模不大于所述第一音频信号矩阵的模,则重复执行上述步骤,直至候选音频信号矩阵的模大于所述第一音频信号矩阵的模。
8.根据权利要求7所述的音频信号处理方法,其特征在于,所述根据所述第一音频分离矩阵,获得第二音频分离矩阵,包括:
获得预设的第一加权相关矩阵;
根据所述预设的第一加权相关矩阵、所述第一候选音频信号矩阵以及所述第一音频信号矩阵,获得第二加权相关矩阵;
根据第二加权相关矩阵和所述第一音频分离矩阵,获得第二音频分离矩阵。
9.根据权利要求7所述的音频信号处理方法,其特征在于,所述根据所述预设的第一加权相关矩阵、所述第一候选音频信号矩阵以及所述第一音频信号矩阵,获得第二加权相关矩阵,包括:
获得预设的遗忘因子和参考音频信号;
对所述第一候选音频信号矩阵进行非线性变换;
根据所述预设的遗忘因子、所述参考音频信号以及经过非线性变换后的所述第一候选音频信号矩阵,获得所述获得第二加权相关矩阵。
10.根据权利要求8所述的音频信号处理方法,其特征在于,所述根据第二加权相关矩阵和所述第一音频分离矩阵,获得第二音频分离矩阵,包括:
根据第二加权相关矩阵,获得第一滤波器参数矩阵;
使用所述第一滤波器参数矩阵中的元素,替换所述第一音频分离矩阵中的元素,获得所述第二音频分离矩阵。
11.根据权利要求1所述的音频信号处理方法,其特征在于,还包括:输出所述第二音频信号。
12.根据权利要求1所述的音频信号处理方法,其特征在于,还包括:对所述第二音频信号进行降噪处理和音频信号分离处理,得到所述有用音频信号。
13.一种音频信号处理装置,其特征在于,包括:
第一音频信号获得单元,用于获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;
音频分离模型获得单元,用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;
第二音频信号获得单元,用于利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。
14.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储音频信号处理方法的程序,该设备通电并通过所述处理器运行所述音频信号处理方法的程序后,执行下述步骤:
获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;
获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;
利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。
15.一种存储设备,其特征在于,
存储有音频信号处理方法的程序,该程序被处理器运行,执行下述步骤:
获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;
获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;
利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。
16.一种音频信号处理系统,其特征在于,包括:线性回声消除模块,音频信号分离模块;
所述线性回声消除模块用于获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号;输出所述第二音频信号;
所述音频信号分离模块,用于获得所述线性回声消除模块输出的所述第二音频信号;对所述第二音频信号进行降噪处理和音频信号分离处理,得到所述有用音频信号;输出所述有用音频信号。
17.根据权利要求16所述的音频信号处理系统,其特征在于,还包括:目标音频信号分离模块,用于对所述有用音频信号进行语音分离,获得多个目标音频信号。
18.一种智能电视,其特征在于,包括:拾音设备以及线性回声消除设备,其中,所述线性回声消除设备包括:音频分离模型构建模块和音频分离模块;
所述拾音设备,用于获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;
所述音频分离模型构建模块,用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;
所述音频分离模块,用于利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。
19.一种车载智能语音交互装置,其特征在于,包括:拾音设备、线性回声消除设备、音频信号分离设备、目标音频信号分离设备以及执行设备,其中,所述线性回声消除设备包括:音频分离模型构建模块和第一音频分离模块;
所述拾音设备,用于获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;
所述音频分离模型构建模块,用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;
所述音频分离模块,用于利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号;
所述音频信号分离设备,用于获得所述线性回声消除模块输出的所述第二音频信号;对所述第二音频信号进行降噪处理和音频信号分离处理,得到所述有用音频信号;输出所述有用音频信号;
目标音频信号分离设备,用于对所述有用音频信号进行语音分离,获得多个目标音频信号;
所述执行设备用于对所述多个目标音频信号进行语音识别,并根据对所述多个目标音频信号的语音识别结果执行相应指令。
20.一种音频信号处理系统,其特征在于,包括:客户端以及服务端;
所述客户端,用于获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号,所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号,所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号,所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号;获得所述客户端提供的多个目标音频信号,对所述多个目标音频信号进行语音识别,并根据对所述多个目标音频信号的语音识别结果执行相应指令;
所述服务端,用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号;对所述第二音频信号进行降噪处理和音频信号分离处理,得到所述有用音频信号;对所述有用音频信号进行语音分离,获得所述多个目标音频信号;向所述客户端输出所述多个目标音频信号。
技术总结
本申请提供的一种音频信号处理方法,包括:获得第一音频信号,所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号;获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型;利用所述音频分离模型,消除所述第一音频信号中的所述线性回声音频信号,获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。本申请提供的音频信号处理方法,能够利用音频分离模型,消除设备采集到的音频信号中的线性回声音频信号,获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的音频信号,从而提高了对设备采集到的音频信号中的线性回声音频信号的消除效率。
技术研发人员:纳跃跃;刘章;李韵;王子腾;田彪;付强;杨智慧;马骁
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.01.10
技术公布日:2021.07.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。