农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种音频信号处理方法、装置、系统以及电子设备与流程

2021-07-13 16:21:00 来源：中国专利 TAG：信号处理音频申请提供电子设备

本申请涉及音频信号处理领域，具体提供了一种音频信号处理方法；本申请同时提供一种音频信号处理装置、系统、电子设备以及存储介质。

背景技术：

随着计算机技术、互联网技术等相关技术的发展，人们日常所用的智能设备大都开始朝着小型化、可穿戴的方向发展。由于智能设备的小型化、可穿戴化，单一的通过基于键盘、鼠标、遥控器等来实现的人机交互方式，往往无法满足用户与小型化的、可穿戴化的智能设备的人机交互需求，并且由于语音在人与人的交互过程中的便利性，人机语音交互也开始在人机交互中崭露头角。

在人机语音交互过程中，智能设备需要采集与用户指令相关的音频信号，并进一步根据用户指令做出相应的反馈，从而实现人机语音交互。但是，在实际的人机交互场景中，智能设备采集到的音频信号往往不仅仅是与用户指令相关的音频信号，而是包括了其它音频信号，如：第一音频信号中包括线性回声音频信号、非线性回声音频信号、噪声音频信号等，这些其它音频信号会影响人机语音交互的有效进行。

为了确保人机语音交互的有效进行，现有技术一般采用nlms(normalizedleastmeansquare，归一化最小均方自适应滤波器)方法来消除设备采集到的音频信号中的线性回声音频信号。nlms方法消除设备回声的原理为：通过调整自适应滤波器模拟线性回声路径，使模拟的线性回声路径与实际线性回声路径相逼近，从而得到线性回声的预测信号，再将线性回声的预测信号从设备采集到的音频信号中减去，即可实现对设备采集到的音频信号中的线性回声的消除。但是，现有消除音频信号中的线性回声音频信号的方法设备采集到的音频信号中一直存在有用信号时，自适应滤波器完全停止更新或持续处于慢速更新，当自适应滤波器完全停止更新或持续处于慢速更新时，无法有效的对设备采集到的音频信号中的线性回声音频信号进行有效的消除，从而导致现有消除音频信号中的线性回声音频信号的方法对设备采集到的音频信号中的线性回声音频信号的消除效率较差。

技术实现要素：

本申请提供一种音频信号处理方法，以提高对设备采集到的音频信号中的线性回声音频信号的消除效率。

本申请提供一种音频信号处理方法，其特征在于，包括：

获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

可选的，所述获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型，包括：

获得所述目标设备中的滤波器参数和单位矩阵；

根据所述滤波器参数和所述单位矩阵生成分离矩阵，将所述分离矩阵作为所述音频分离模型。

可选的，所述利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号，包括：将所述分离矩阵与第一音频信号矩阵相乘，生成第二音频信号矩阵。

可选的，还包括：

获得所述目标设备发出的所述音频信号经过的回声路径的信息，并获得单位矩阵；

根据所述回声路径的信息和所述单位矩阵，生成混合矩阵；

获得第二模拟音频信号矩阵，所述第二模拟音频信号矩阵为针对所述第二音频信号的模拟音频信号生成的矩阵；

将所述混合矩阵和第二模拟音频信号矩阵相乘，生成所述第一音频信号矩阵。

可选的，所述获得第二模拟音频信号矩阵，包括：

获得参考音频信号，所述参考音频信号为针对所述目标设备发出的用于与用户进行信息交互的音频信号的预先设置的模拟音频信号；

获得针对所述第二音频信号生成的第二模拟音频信号；

根据所述第二模拟音频信号和所述参考音频信号，获得第二模拟音频信号矩阵。

可选的，所述获得所述目标设备中的滤波器参数和单位矩阵，包括：

获得第一音频分离矩阵，所述第一音频分离矩阵为与所述分离矩阵对应的单位矩阵；

将所述第一音频分离矩阵与所述第一音频信号矩阵相乘，获得第一候选音频信号矩阵；

判断所述第一候选音频信号矩阵的模是否大于所述第一音频信号矩阵的模；

若是，则将所述第一音频分离矩阵中的元素作为所述目标设备中的滤波器参数。

可选的，还包括：

若所述第一候选音频信号矩阵的模不大于所述第一音频信号矩阵的模，则根据所述第一音频分离矩阵，获得第二音频分离矩阵；

将所述第二音频分离矩阵与所述第一音频信号矩阵相乘，获得第二候选音频信号矩阵；

判断所述第二候选音频信号矩阵的模是否大于所述第一音频信号矩阵的模，若所述第二候选音频信号矩阵的模大于所述第一音频信号矩阵的模，则将所述第二音频分离矩阵中的元素作为所述目标设备中的滤波器参数，若所述第二候选音频信号矩阵的模不大于所述第一音频信号矩阵的模，则重复执行上述步骤，直至候选音频信号矩阵的模大于所述第一音频信号矩阵的模。

可选的，所述根据所述第一音频分离矩阵，获得第二音频分离矩阵，包括：

获得预设的第一加权相关矩阵；

根据所述预设的第一加权相关矩阵、所述第一候选音频信号矩阵以及所述第一音频信号矩阵，获得第二加权相关矩阵；

根据第二加权相关矩阵和所述第一音频分离矩阵，获得第二音频分离矩阵。

可选的，所述根据所述预设的第一加权相关矩阵、所述第一候选音频信号矩阵以及所述第一音频信号矩阵，获得第二加权相关矩阵，包括：

获得预设的遗忘因子和参考音频信号；

对所述第一候选音频信号矩阵进行非线性变换；

根据所述预设的遗忘因子、所述参考音频信号以及经过非线性变换后的所述第一候选音频信号矩阵，获得所述获得第二加权相关矩阵。

可选的，所述根据第二加权相关矩阵和所述第一音频分离矩阵，获得第二音频分离矩阵，包括：

根据第二加权相关矩阵，获得第一滤波器参数矩阵；

使用所述第一滤波器参数矩阵中的元素，替换所述第一音频分离矩阵中的元素，获得所述第二音频分离矩阵。11、根据权利要求1所述的音频信号处理方法，其特征在于，还包括：输出所述第二音频信号。

可选的，还包括：对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号。

本申请另一方面，提供一种音频信号处理装置，包括：

第一音频信号获得单元，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

音频分离模型获得单元，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

第二音频信号获得单元，用于利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

本申请另一方面，提供一种电子设备，包括：

处理器；

存储器，用于存储音频信号处理方法的程序，该设备通电并通过所述处理器运行所述音频信号处理方法的程序后，执行下述步骤：

获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

本申请另一方面，提供一种存储设备，存储有音频信号处理方法的程序，该程序被处理器运行，执行下述步骤：

获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

本申请另一方面，提供一种音频信号处理系统，包括：线性回声消除模块，音频信号分离模块；

所述线性回声消除模块用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号；输出所述第二音频信号；

所述音频信号分离模块，用于获得所述线性回声消除模块输出的所述第二音频信号；对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号；输出所述有用音频信号。

可选的，还包括：目标音频信号分离模块，用于对所述有用音频信号进行语音分离，获得多个目标音频信号。

本申请另一方面，提供一种智能电视，包括：拾音设备以及线性回声消除设备，其中，所述线性回声消除设备包括：音频分离模型构建模块和音频分离模块；

所述拾音设备，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

所述音频分离模型构建模块，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

所述音频分离模块，用于利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

本申请另一方面，提供一种车载智能语音交互装置，其特征在于，包括：拾音设备、线性回声消除设备、音频信号分离设备、目标音频信号分离设备以及执行设备，其中，所述线性回声消除设备包括：音频分离模型构建模块和第一音频分离模块；

所述拾音设备，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

所述音频分离模型构建模块，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

所述音频分离模块，用于利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号；

所述音频信号分离设备，用于获得所述线性回声消除模块输出的所述第二音频信号；对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号；输出所述有用音频信号；

目标音频信号分离设备，用于对所述有用音频信号进行语音分离，获得多个目标音频信号；

所述执行设备用于对所述多个目标音频信号进行语音识别，并根据对所述多个目标音频信号的语音识别结果执行相应指令。

本申请另一方面，提供一种音频信号处理系统，包括：客户端以及服务端；

所述客户端，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；获得所述客户端提供的多个目标音频信号，对所述多个目标音频信号进行语音识别，并根据对所述多个目标音频信号的语音识别结果执行相应指令；

所述服务端，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号；对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号；对所述有用音频信号进行语音分离，获得所述多个目标音频信号；向所述客户端输出所述多个目标音频信号。

与现有技术相比，本申请具有以下优点：

本申请提供一种音频信号处理方法，在获得包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号的第一音频信号后，进一步获得用于将线性回声音频信号从第一音频信号中分离出来的音频分离模型，然后利用音频分离模型，消除第一音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的第二音频信号。本申请提供的音频信号处理方法，能够利用音频分离模型，消除设备采集到的音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的音频信号，从而提高了对设备采集到的音频信号中的线性回声音频信号的消除效率。

附图说明

图1a为本申请提供的第一应用场景实施例的示意图。

图1b为本申请提供的第二应用场景实施例的示意图。

图2为第一实施例中提供一种音频信号处理方法的流程图。

图3其为本申请第一实施例中提供的一种第二加权相关矩阵获得方法的流程图。

图4为本申请第一实施例中提供的一种第一音频信号矩阵获得方法的流程图。

图5为本申请第一实施例中提供的一种第二模拟音频信号矩阵获得方法的流程图。

图6为本申请第二实施例中提供的一种音频信号处理装置的示意图。

图7为本申请实施例中提供的一种电子设备的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

为了更清楚地展示本申请，先介绍一下本申请实施例提供的音频信号处理方法的应用场景。

本申请提供的一些实施例可以单独应用于对设备采集到的音频信号中的线性回声音频信号进行消除的场景，如图1a所示，其为本申请提供的第一应用场景实施例的示意图。

人机语音交互的基本思想是：用户在通过语音对智能设备下达指令时，智能设备先通过语音识别技术将语音指令转化为文字指令，再利用语义理解技术理解文字指令的意图，进而做出相应的反馈。本申请提供的第一应用场景实施例中，智能设备可以为智能手机、智能音箱以及智能机器人等，以下智能设备为智能音箱为例，对本申请第一场景实施例进行详细的说明。

在智能音箱101工作时，智能音箱101上的拾音设备101-1也会一直处于采集周围的音频信号的工作状态，以便能够随时获得目标用户通过语音下达的指令，由于在实际的人机语音交互场景中，拾音设备101-1采集到的音频信号，往往不仅包括目标用户发出的指令音频信号102，还会包括线性回声音频信号104、非线性回声音频信号105、非目标用户的音频信息103以及噪声音频信号106等。本申请第一场景实施例中将拾音设备101-1采集到的全部音频信号称为第一音频信号。其中，非线性回声音频信号105包括但不限于智能音箱101上的扬声器101-1播放出的声音，如扬声器101-1播放出的歌曲的回声、提示音的回声等。为了能够确保智能音箱101的音频处理系统101-3能够更好地识别出目标用户发出的指令音频信号102，音频处理系统101-3会先通过音频处理系统101-3中的线性回声消除模块101-3-1先获得拾音设备101-1采集到的全部音频信号，并在获得拾音设备101-1采集到的全部音频信号后，进一步获得用于将线性回声音频信号104从拾音设备101-1采集到的全部音频信号中分离出来的音频分离模型，再利用该音频分离模型，消除拾音设备101-1采集到的全部音频信号中的线性回声音频信号104，获得包括目标用户发出的指令音频信号102、非线性回声音频信号105、非目标用户的音频信息103以及噪声音频信号106。本申请第一场景实施例中将包括目标用户发出的指令音频信号102、非线性回声音频信号105、非目标用户的音频信息103以及噪声音频信号106的音频信号记为第二音频信号。在获得第二音频信号后，线性回声消除模块101-3-1会输出该第二音频信号，以便智能音箱101能够对该第二音频信号作进一步处理，从而获得目标用户发出的指令音频信号102。

本申请提供的一些实施例还可以应用于对设备采集到的音频信号中的线性回声音频信号以及对消除线性回声音频信号后的音频信号进行语音分离的场景，如图1b所示，其为本申请提供的第二应用场景实施例的示意图。

音频处理系统101-3通过线性回声消除模块101-3-1对拾音设备101-1采集到的包括目标用户发出的指令音频信号102、线性回声音频信号104、非线性回声音频信号105、非目标用户的音频信息103以及噪声音频信号106音频信号的第一音频信号进行线性回声消除，获得并输出包括目标用户发出的指令音频信号102、非线性回声音频信号105、非目标用户的音频信息103以及噪声音频信号106的第二音频信号。音频处理系统101-3中的音频信号分离模块101-3-2会获得线性回声消除模块101-3-1输出的第二音频信号，并对第二音频信号进行降噪处理和音频信号分离处理，获得目标用户发出的指令音频信号102，并将该目标用户发出的指令音频信号102输出，以便智能音箱获得目标用户发出的指令音频信号102，并通过语音识别技术将目标用户发出的指令音频信号102转化为文字指令，再利用语义理解技术理解文字指令的意图，进而做出相应的反馈。

需要说明的是，上述两个应用场景仅仅是本申请提供的音频信号处理方法的应用场景的两个实施例，提供这两个应用场景实施例的目的是便于理解本申请提供的音频信号处理方法，而并非用于限定本申请提供的音频信号处理方法。本申请提供的音频信号处理方法还可以应用于其它场景，在此不再一一赘述。

第一实施例

本申请第一实施例提供一种音频信号处理方法，以下结合图2-图5进行说明。

步骤s201，获得第一音频信号，第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号。

其中，线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，有用音频信号为用户发出的用于与目标设备进行信息交互的音频信号。

步骤s202，获得用于将线性回声音频信号从第一音频信号中分离出来的音频分离模型。

获得用于将线性回声音频信号从第一音频信号中分离出来的音频分离模型，包括：获得目标设备中的滤波器参数和单位矩阵；根据滤波器参数和单位矩阵生成分离矩阵，将分离矩阵作为音频分离模型。

其中，获得目标设备中的滤波器参数和单位矩阵，包括：获得第一音频分离矩阵，第一音频分离矩阵为与分离矩阵对应的单位矩阵；将第一音频分离矩阵与第一音频信号矩阵相乘，获得第一候选音频信号矩阵；判断第一候选音频信号矩阵的模是否大于第一音频信号矩阵的模；若是，则将第一音频分离矩阵中的元素作为目标设备中的滤波器参数。

若第一候选音频信号矩阵的模不大于第一音频信号矩阵的模，则根据第一音频分离矩阵，获得第二音频分离矩阵；将第二音频分离矩阵与第一音频信号矩阵相乘，获得第二候选音频信号矩阵；判断第二候选音频信号矩阵的模是否大于第一音频信号矩阵的模，若第二候选音频信号矩阵的模大于第一音频信号矩阵的模，则将第二音频分离矩阵中的元素作为目标设备中的滤波器参数，若第二候选音频信号矩阵的模不大于第一音频信号矩阵的模，则重复执行上述步骤，直至候选音频信号矩阵的模大于第一音频信号矩阵的模。

具体的，根据第一音频分离矩阵，获得第二音频分离矩阵，包括：获得预设的第一加权相关矩阵；根据预设的第一加权相关矩阵、第一候选音频信号矩阵以及第一音频信号矩阵，获得第二加权相关矩阵；根据第二加权相关矩阵和第一音频分离矩阵，获得第二音频分离矩阵。

具体的，根据预设的第一加权相关矩阵、第一候选音频信号矩阵以及第一音频信号矩阵，获得第二加权相关矩阵的具体过程如下：

请参照图3，其为本申请第一实施例中提供的一种第二加权相关矩阵获得方法的流程图。

步骤s301，获得预设的遗忘因子和参考音频信号。

步骤s302，对第一候选音频信号矩阵进行非线性变换。

步骤s303，根据预设的遗忘因子、参考音频信号以及经过非线性变换后的第一候选音频信号矩阵，获得第二加权相关矩阵。

本申请第一实施例中，获得第二加权相关矩阵过程中的非线性变换如下：将第一候选音频信号矩阵记为z，将经过非线性变换后的第一候选音频信号矩阵记为φ(z)，对

根据第二加权相关矩阵和第一音频分离矩阵，获得第二音频分离矩阵，还包括：根据第二加权相关矩阵，获得第一滤波器参数矩阵；使用第一滤波器参数矩阵中的元素，替换第一音频分离矩阵中的元素，获得第二音频分离矩阵。

本申请第一实施中用表示滤波器参数如：b1、b2...br，用加粗的英文字母或者数字代表矩阵，其中，分离矩阵用b表示，本申请第一实施例中分离矩阵b以分离矩阵为3三行三列的矩阵为例，该分离矩阵b的公式如(1)所示：

步骤s203，利用音频分离模型，消除第一音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的第二音频信号。

利用音频分离模型，消除第一音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的第二音频信号，包括：将分离矩阵与第一音频信号矩阵相乘，生成第二音频信号矩阵。其中，第一音频信号矩阵用x表示，第二音频信号矩阵用y表示，本申请第一实施例中将分离矩阵与第一音频信号矩阵相乘，生成第二音频信号矩阵对应的公式如(2)所示：

y＝bx....(2)

本申请第一实施例中，由于在利用音频分离模型获得第二音频信号时，需要首先，将分离矩阵与第一音频信号矩阵相乘，生成第二音频信号矩阵，然后，再根据第二音频信号矩阵，获得第二音频信号，所以，本申请第一实施例中的音频处理方法，还要先获得第一音频信号矩阵。其中，第二音频信号为消除第一音频信号中的线性回声音频信号后获得音频信号。本申请第一实施例中获得第一音频信号矩阵的过程如下：

请参照图4，其为本申请第一实施例中提供的一种第一音频信号矩阵获得方法的流程图。

步骤s401，获得目标设备发出的音频信号经过的回声路径的信息，并获得单位矩阵。

本申请第一实施中音频信号经过的回声路径的信息用a1、a2...ar来表示，滤波器参数的数目与回声路径的信息的数目保持一致。

步骤s402，根据回声路径的信息和单位矩阵，生成混合矩阵。

本申请第一实施例中，混合矩阵用a来表示，混合矩阵a与分离矩阵b的行列数相同，该混合矩阵a的公式如(3)所示：

步骤s403，获得第二模拟音频信号矩阵。

第二模拟音频信号矩阵为针对第二音频信号的模拟音频信号生成的矩阵。本申请第一实施例中，在对音频信号进行建模时，不是将语音信号建模为高斯信号，而是建模为非高斯信号，由于一般语音信号都可以建模为非高斯信号，所以，在本申请第一实施例中，在音频信号中包含非线性回声音频信号、有用音频信号以及噪声音频信号时也可以获得该音频信的模拟音频信号。

其中，获得第二模拟音频信号矩阵的过程如下：

请参照图5，其为本申请第一实施例中提供的一种第二模拟音频信号矩阵获得方法的流程图。

步骤s501，获得参考音频信号。

参考音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的预先设置的模拟音频信号。本申请第一实施例中参考音频信号用r1、r2...rr表示，参考音频信号的数目与滤波器参数的数目相同。

步骤s502，获得针对第二音频信号生成的第二模拟音频信号。

本申请第一实施例中第二模拟音频信号用s表示。

步骤s503，根据第二模拟音频信号和参考音频信号，获得第二模拟音频信号矩阵。

本申请第一实施例中第二模拟音频信号用s表示。第二模拟音频信号矩阵s的公式如(4)所示：

在通过步骤s403获得第二模拟音频信号矩阵后，即可进一步执行步骤s404来获得第一音频信号矩阵。

步骤s404，将混合矩阵和第二模拟音频信号矩阵相乘，生成第一音频信号矩阵。

本申请第一实施例中将混合矩阵和第二模拟音频信号矩阵相乘，生成第一音频信号矩阵对应的公式如(5)所示：

x＝as....(5)

本申请第一实施中提供的音频信号处理方法，还包括：输出第二音频信号，以及对第二音频信号进行降噪处理和音频信号分离处理，得到有用音频信号。

本申请提供一种音频信号处理方法，在获得包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号的第一音频信号后，进一步获得用于将线性回声音频信号从第一音频信号中分离出来的音频分离模型，然后利用音频分离模型，消除第一音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的第二音频信号。本申请提供的音频信号处理方法，能够利用音频分离模型，消除设备采集到的音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的音频信号，从而提高了对设备采集到的音频信号中的线性回声音频信号的消除效率。

进一步的，本申请第一实施例中提供的音频信号处理方法，音频信号处理方法，能够利用音频分离模型，消除设备采集到的音频信号中的线性回声音频信号，获得包括非线性回声音频信号、有用音频信号以及噪声音频信号的音频信号，无需对设备采集到的音频信号进行内容的判断，并根据设备采集到的音频信号的内容来调整迭代步长，以调节自适应滤波器的更新速度，来消除内容不同的设备采集到的音频信号中的线性回声，从而本申请提供的音频信号处理方法在消除设备采集到的音频信号中的线性回声的过程更为简单。

第二实施例

与本申请第一实施例提供的一种音频信号处理方法相对应的，本申请第二实施例提供了一种音频信号处理装置。由于装置实施例基本相似于方法第一实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅示意性的。

如图6所示，其为本申请第二实施例中提供的一种音频信号处理装置的示意图。

该音频信号处理装置包括：

第一音频信号获得单元601，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

音频分离模型获得单元602，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

第二音频信号获得单元603，用于利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

可选的，所述音频分离模型获得单元602，具体用于获得所述目标设备中的滤波器参数和单位矩阵；根据所述滤波器参数和所述单位矩阵生成分离矩阵，将所述分离矩阵作为所述音频分离模型。

可选的，第二音频信号获得单元603，具体用于将所述分离矩阵与第一音频信号矩阵相乘，生成第二音频信号矩阵。

可选的，还包括：

获得所述目标设备发出的所述音频信号经过的回声路径的信息，并获得单位矩阵；

根据所述回声路径的信息和所述单位矩阵，生成混合矩阵；

获得第二模拟音频信号矩阵，所述第二模拟音频信号矩阵为针对所述第二音频信号的模拟音频信号生成的矩阵；

将所述混合矩阵和第二模拟音频信号矩阵相乘，生成所述第一音频信号矩阵。

可选的，所述获得第二模拟音频信号矩阵，包括：

获得参考音频信号，所述参考音频信号为针对所述目标设备发出的用于与用户进行信息交互的音频信号的预先设置的模拟音频信号；

获得针对所述第二音频信号生成的第二模拟音频信号；

根据所述第二模拟音频信号和所述参考音频信号，获得第二模拟音频信号矩阵。

可选的，所述获得所述目标设备中的滤波器参数和单位矩阵，包括：

获得第一音频分离矩阵，所述第一音频分离矩阵为与所述分离矩阵对应的单位矩阵；

将所述第一音频分离矩阵与所述第一音频信号矩阵相乘，获得第一候选音频信号矩阵；

判断所述第一候选音频信号矩阵的模是否大于所述第一音频信号矩阵的模；

若是，则将所述第一音频分离矩阵中的元素作为所述目标设备中的滤波器参数。

可选的，还包括：

若所述第一候选音频信号矩阵的模不大于所述第一音频信号矩阵的模，则根据所述第一音频分离矩阵，获得第二音频分离矩阵；

将所述第二音频分离矩阵与所述第一音频信号矩阵相乘，获得第二候选音频信号矩阵；

判断所述第二候选音频信号矩阵的模是否大于所述第一音频信号矩阵的模，若所述第二候选音频信号矩阵的模大于所述第一音频信号矩阵的模，则将所述第二音频分离矩阵中的元素作为所述目标设备中的滤波器参数，若所述第二候选音频信号矩阵的模不大于所述第一音频信号矩阵的模，则重复执行上述步骤，直至候选音频信号矩阵的模大于所述第一音频信号矩阵的模。

可选的，所述根据所述第一音频分离矩阵，获得第二音频分离矩阵，包括：

获得预设的第一加权相关矩阵；

根据所述预设的第一加权相关矩阵、所述第一候选音频信号矩阵以及所述第一音频信号矩阵，获得第二加权相关矩阵；

根据第二加权相关矩阵和所述第一音频分离矩阵，获得第二音频分离矩阵。

可选的，所述根据所述预设的第一加权相关矩阵、所述第一候选音频信号矩阵以及所述第一音频信号矩阵，获得第二加权相关矩阵，包括：

获得预设的遗忘因子和参考音频信号；

对所述第一候选音频信号矩阵进行非线性变换；

根据所述预设的遗忘因子、所述参考音频信号以及经过非线性变换后的所述第一候选音频信号矩阵，获得所述获得第二加权相关矩阵。

可选的，所述根据第二加权相关矩阵和所述第一音频分离矩阵，获得第二音频分离矩阵，包括：

根据第二加权相关矩阵，获得第一滤波器参数矩阵；

使用所述第一滤波器参数矩阵中的元素，替换所述第一音频分离矩阵中的元素，获得所述第二音频分离矩阵。可选的，该音频信号处理装置还包括：第二音频信号输出单元，用于输出所述第二音频信号。

可选的，该音频信号处理装置还包括：第二音频信号分离单元，用于对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号。

第三实施例

与本申请第一实施例提供的音频信号处理方法相对应的，本申请第三实施例提供一种电子设备。

如图7所示，图7为本申请实施例提供的一种电子设备的示意图。所述电子设备包括：

处理器701；以及

存储器702，用于存储音频信号处理方法的程序，该设备通电并通过所述处理器运行该音频信号处理方法的程序后，执行下述步骤：

获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

需要说明的是，对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

第四实施例

与本申请第一实施例提供的图像处理方法相对应的，本申请第四实施例提供一种存储设备，存储有音频信号处理方法的程序，该程序被处理器运行，执行下述步骤：

获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

需要说明的是，对于本申请第四实施例提供的存储介质的详细描述可以参考对本申请第一实施例的相关描述，这里不再赘述。

第五实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第五实施例提供了一种音频信号处理系统。由于第五实施例中的音频信号处理系统基本相似于方法第一实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的系统实施例仅仅是示意性的。

请再参照图1b，该音频信号处理系统，包括：线性回声消除模块101-3-1，音频信号分离模块101-3-2；

所述线性回声消除模块101-3-1用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号；输出所述第二音频信号；

所述音频信号分离模块101-3-2，用于获得所述线性回声消除模块101-3-1输出的所述第二音频信号；对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号；输出所述有用音频信号。

本申请第五实施例中的音频信号处理系统，还包括：目标音频信号分离模块，该目标音频信号分离模块用于对所述有用音频信号进行语音分离，获得多个目标音频信号。具体的，在将本申请第五实施例中的音频信号处理系统应用于地铁售票机、高铁售票机以及快递群货柜时，往往这些设备所处的环境比较嘈杂，并且可能会同时存在多人同时操作多个相同设备的情景。以其中一个装载有本申请第五实施例中的音频信号处理系统的设备为例，为了能够使如与目标用户a交互的设备a能够根据当前的执行步骤，来识别用户a的音频信号，并根据对目标用户a的语音识别结果执行相应指令，此时，需要设备a上的音频信号处理系统能够先对所述有用音频信号进行语音分离，获得多个目标音频信号，并根据设备a能够根据当前的执行步骤，来获得目标用户a的音频信号。具体的，设备a为地铁售票机或高铁售票机时，能够根据对目标用户a的语音识别结果执行路线查询指令、余票查询指令以及出票指令等；设备a为快递柜或者取餐柜时可以根据对目标用户a的语音识别结果执行密码获取指令、打开柜门指令以及关闭柜门指令等。

本申请第五实施例中的音频信号处理系统还可以应用于其它音频信号处理的场景，在此不再一一赘述。

第六实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第六实施例提供了一种智能电视。

本申请第六实施例中的智能电视，包括：拾音设备以及线性回声消除设备，其中，所述线性回声消除设备包括：音频分离模型构建模块和音频分离模块；

所述拾音设备，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

所述音频分离模型构建模块，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

所述音频分离模块，用于利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号。

第七实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第七实施例提供了一种车载智能语音交互装置。

本申请第七实施例中的车载智能语音交互装置，包括：拾音设备、线性回声消除设备、音频信号分离设备、目标音频信号分离设备以及执行设备，其中，所述线性回声消除设备包括：音频分离模型构建模块和第一音频分离模块；

所述拾音设备，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；

所述音频分离模型构建模块，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；

所述音频分离模块，用于利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号；

所述音频信号分离设备，用于获得所述线性回声消除模块输出的所述第二音频信号；对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号；输出所述有用音频信号；

目标音频信号分离设备，用于对所述有用音频信号进行语音分离，获得多个目标音频信号；

所述执行设备用于对所述多个目标音频信号进行语音识别，并根据对所述多个目标音频信号的语音识别结果执行相应指令。

第八实施例

在上述第一实施例中，提供了一种音频信号处理方法，与之相对应的，本申请第八实施例提供了另一种音频信号处理系统。

本申请第八实施例中的音频信号处理系统，客户端以及服务端；

所述客户端，用于获得第一音频信号，所述第一音频信号中包括线性回声音频信号、非线性回声音频信号、有用音频信号以及噪声音频信号，所述线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的线性回声音频信号，所述非线性回声音频信号为针对目标设备发出的用于与用户进行信息交互的音频信号的非线性回声音频信号，所述有用音频信号为用户发出的用于与所述目标设备进行信息交互的音频信号；获得所述客户端提供的多个目标音频信号，对所述多个目标音频信号进行语音识别，并根据对所述多个目标音频信号的语音识别结果执行相应指令；

所述服务端，用于获得用于将所述线性回声音频信号从所述第一音频信号中分离出来的音频分离模型；利用所述音频分离模型，消除所述第一音频信号中的所述线性回声音频信号，获得包括所述非线性回声音频信号、有用音频信号以及所述噪声音频信号的第二音频信号；对所述第二音频信号进行降噪处理和音频信号分离处理，得到所述有用音频信号；对所述有用音频信号进行语音分离，获得所述多个目标音频信号；向所述客户端输出所述多个目标音频信号。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储介质或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种音频信号处理方法、装置、系统以及电子设备与流程

相关文章

最热文献