音频信号处理方法、训练方法及其装置、设备、存储介质与流程

2022-03-26 13:56:21 来源：中国专利 TAG：

技术特征：
1.一种音频信号处理方法，包括：从混合语音信号中消除至少部分的线性回声信号，得到中间处理信号；其中，所述混合语音信号是目标语音信号与回声信号混合后所得，所述回声信号是所述目标语音信号在所处环境下产生的，包括线性回声信号和非线性回声信号；利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号，得到近似目标语音信号，其中，所述目标全卷积神经网络模型包括至少两层卷积层。2.根据权利要求1所述的方法，还包括：对所述近似目标语音信号进行语音识别，得到所述目标语音信号所指示的控制指令，响应所述控制指令。3.根据权利要求1或2所述的方法，其中，所述目标全卷积神经网络模型中存在处理参数不同的至少两个卷积层；其中，所述卷积层的处理参数为以下参数中的至少一种：通道数，卷积核。4.根据权利要求3所述的方法，其中，所述目标全卷积神经网络模型所包含的卷积层的通道数具有如下之一趋势：递增趋势、递减趋势，先递增后递减的趋势。5.根据权利要求1至4任一项所述的方法，其中，所述利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号，包括：将所述中间处理信号输入至所述目标全卷积神经网络模型；或者，将所述中间处理信号的音频特征输入至所述目标全卷积神经网络模型；其中，所述目标全卷积神经网络模型中的所述卷积层能够对所述中间处理信号中的音频帧进行卷积处理，并去除所述中间处理信号中的非线性回声信号和残留的线性回声信号。6.根据权利要求5所述的方法，其中，所述卷积层在时间维度上进行卷积处理的音频帧包括：第t时刻的第t音频帧、第t-1时刻的第t-1音频帧、至第t-n时刻的第t-n音频帧；所述n与所述卷积层的卷积核在时间维度上的核特征相关，所述n为大于等于1的整数；所述t为大于等于1的整数；所述第t时刻为当前时刻。7.根据权利要求6所述的方法，其中，当t取值为1时，第1音频帧表征所述中间处理信号中的首个音频帧；第0音频帧至第1-n音频帧为预设帧；所述方法还包括：将n个预设帧设置于所述中间处理信号中首个音频帧之前，更新所述中间处理信号，使更新后的中间处理信号的前n帧为预设帧。8.根据权利要求1至7任一项所述的方法，其中，所述从混合语音信号中消除至少部分的线性回声信号，得到中间处理信号，包括：估计得到所述混合语音信号所处环境下的近似线性回声信号；从所述混合语音信号中消除估计得到的所述近似线性回声信号，得到所述中间处理信号。
9.根据权利要求8所述的方法，其中，所述估计得到所述混合语音信号所处环境下的近似线性回声信号，包括：将所述混合语音信号和用于产生所述回声信号的远端信号输入至线性回声模型中，得到近似线性回声信号。10.一种模型训练方法，包括：获取对混合语音信号中的至少部分的线性回声信号进行消除处理后所得到的中间处理信号；其中，所述混合语音信号是总样本目标语音信号与回声信号进行混合后所得；所述回声信号包括线性回声信号和非线性回声信号；至少将所述中间处理信号作为训练语音信号；将所述训练语音信号输入至预设全卷积神经网络模型进行模型训练，得到目标全卷积神经网络模型，其中，所述预设全卷积神经网络模型包括至少两个卷积层；所述目标全卷积神经网络模型能够去除所述中间处理信号中的非线性回声信号和残留的线性回声信号。11.根据权利要求10所述的方法，还包括：对多个样本目标语音信号进行拼接处理，得到总样本目标语音信号；将所述总样本目标语音信号与所述回声信号进行混合，得到所述混合语音信号。12.根据权利要求10或11所述的方法，还包括：估计得到所述混合语音信号所处环境下的近似线性回声信号；从所述混合语音信号中消除估计得到的所述近似线性回声信号，得到所述中间处理信号。13.根据权利要求12所述的方法，其中，所述估计得到所述混合语音信号所处环境下的近似线性回声信号，包括：将所述混合语音信号和用于产生所述回声信号的远端信号输入至线性回声模型中，得到近似线性回声信号。14.根据权利要求10至13任一项所述的方法，其中，所述至少将所述中间处理信号作为训练语音信号，包括：将以下之一作为训练语音信号，包括：将所述中间处理信号和所述混合语音信号作为所述训练语音信号；将所述中间处理信号的音频特征和所述混合语音信号的音频特征作为所述训练语音信号；将所述中间处理信号和远端信号作为所述训练语音信号；将所述中间处理信号的音频特征和远端信号的音频特征作为所述训练语音信号；其中，所述远端信号用于产生所述回声信号。15.根据权利要求10至14任一项所述的方法，其中，所述预设全卷积神经网络模型中存在处理参数不同的至少两个卷积层；其中，所述卷积层的处理参数为以下参数中的至少一种：通道数，卷积核。16.根据权利要求15所述的方法，其中，所述预设全卷积神经网络模型所包含的卷积层的通道数具有如下之一趋势：递增趋势、递减趋势，先递增后递减的趋势。17.根据权利要求10至16任一项所述的方法，其中，所述将所述训练语音信号输入至预
设全卷积神经网络模型进行模型训练，包括：将所述训练语音信号输入至预设全卷积神经网络模型，得到输出结果；基于输出结果与预设标签语音信号所构建的损失函数，对所述预设全卷积神经网络模型进行训练。18.根据权利要求17所述的方法，还包括：基于混合语音信号和总样本目标语音信号计算得到所述预设标签语音信号；或者，将总样本目标语音信号作为预设标签语音信号。19.根据权利要求17或18所述的方法，其中，在模型训练过程中，所述卷积层在时间维度上进行卷积处理的音频帧包括：第t时刻的第t音频帧、第t-1时刻的第t-1音频帧、至第t-n时刻的第t-n音频帧；所述n与所述卷积层的卷积核在时间维度上的核特征相关，所述n为大于等于1的整数；所述t为大于等于1的整数；所述第t时刻为当前时刻。20.根据权利要求19所述的方法，其中，当t取值为1时，第1音频帧表征所述中间处理信号中的首个音频帧；第0音频帧至第1-n音频帧为预设帧；所述方法还包括：将n个预设帧设置于所述中间处理信号中首个音频帧之前，更新所述中间处理信号，使更新后的中间处理信号的前n帧为预设帧。21.一种音频信号处理装置，包括：线性回声处理单元，用于从混合语音信号中消除至少部分的线性回声信号，得到中间处理信号；其中，所述混合语音信号是目标语音信号与回声信号混合后所得，所述回声信号是所述目标语音信号在所处环境下产生的，包括线性回声信号和非线性回声信号；神经网络处理单元，用于利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号，得到近似目标语音信号，其中，所述目标全卷积神经网络模型包括至少两层卷积层。22.根据权利要求21所述的装置，还包括：识别单元，用于对所述近似目标语音信号进行语音识别，得到所述目标语音信号所指示的控制指令，响应所述控制指令。23.根据权利要求21或22所述的装置，其中，所述目标全卷积神经网络模型中存在处理参数不同的至少两个卷积层；其中，所述卷积层的处理参数为以下参数中的至少一种：通道数，卷积核。24.根据权利要求23所述的装置，其中，所述目标全卷积神经网络模型所包含的卷积层的通道数具有如下之一趋势：递增趋势、递减趋势，先递增后递减的趋势。25.根据权利要求21至24任一项所述的装置，其中，所述神经网络处理单元，具体用于将所述中间处理信号输入至所述目标全卷积神经网络模型；或者，将所述中间处理信号的音频特征输入至所述目标全卷积神经网络模型；其中，所述目标全卷积神经网络模型中的所述卷积层能够对所述中间处理信号中的音频帧进行卷积处理，并去除所述中间处理信号中的非线性回声信号和残留的线性回声信
号。26.根据权利要求25所述的装置，其中，所述卷积层在时间维度上进行卷积处理的音频帧包括：第t时刻的第t音频帧、第t-1时刻的第t-1音频帧、至第t-n时刻的第t-n音频帧；所述n与所述卷积核在时间维度上的核特征相关，所述n为大于等于1的整数；所述t为大于等于1的整数；所述第t时刻为当前时刻。27.根据权利要求26所述的装置，其中，当t取值为1时，第1音频帧表征所述中间处理信号中的首个音频帧；第0音频帧至第1-n音频帧为预设帧；所述装置还包括：第一更新单元，用于将n个预设帧设置于所述中间处理信号中首个音频帧之前，更新所述中间处理信号，使更新后的中间处理信号的前n帧为预设帧。28.根据权利要求21至27任一项所述的装置，其中，所述线性回声处理单元，具体用于估计得到所述混合语音信号所处环境下的近似线性回声信号；从所述混合语音信号中消除估计得到的所述近似线性回声信号，得到所述中间处理信号。29.根据权利要求28所述的装置，其中，所述线性回声处理单元，具体用于将所述混合语音信号和用于产生所述回声信号的远端信号输入至线性回声模型中，得到近似线性回声信号。30.一种模型训练装置，包括：数据获取单元，用于获取对混合语音信号中的至少部分的线性回声信号进行消除处理后所得到的中间处理信号；其中，所述混合语音信号是总样本目标语音信号与回声信号进行混合后所得；所述回声信号包括线性回声信号和非线性回声信号；训练数据确定单元，用于至少将所述中间处理信号作为训练语音信号；模型优化单元，用于将所述训练语音信号输入至预设全卷积神经网络模型进行模型训练，得到目标全卷积神经网络模型，其中，所述预设全卷积神经网络模型包括至少两个卷积层；所述目标全卷积神经网络模型能够去除所述中间处理信号中的非线性回声信号和残留的线性回声信号。31.根据权利要求30所述的装置，其中，所述数据获取单元，还用于对多个样本目标语音信号进行拼接处理，得到总样本目标语音信号；将所述总样本目标语音信号与所述回声信号进行混合，得到所述混合语音信号。32.根据权利要求30或31所述的装置，其中，所述数据获取单元，还用于估计得到所述混合语音信号所处环境下的近似线性回声信号；从所述混合语音信号中消除估计得到的所述近似线性回声信号，得到所述中间处理信号。33.根据权利要求32所述的装置，其中，所述数据获取单元，具体用于将所述混合语音信号和用于产生所述回声信号的远端信号输入至线性回声模型中，得到近似线性回声信号。34.根据权利要求30至33任一项所述的装置，其中，所述训练数据确定单元，具体用于将以下之一作为训练语音信号，包括：将所述中间处理信号和所述混合语音信号作为所述训练语音信号；将所述中间处理信号的音频特征和所述混合语音信号的音频特征作为所述训练语音
信号；将所述中间处理信号和远端信号作为所述训练语音信号；将所述中间处理信号的音频特征和远端信号的音频特征作为所述训练语音信号；其中，所述远端信号用于产生所述回声信号。35.根据权利要求30至34任一项所述的装置，其中，所述预设全卷积神经网络模型中存在处理参数不同的至少两个卷积层；其中，所述卷积层的处理参数为以下参数中的至少一种：通道数，卷积核。36.根据权利要求35所述的装置，其中，所述预设全卷积神经网络模型所包含的卷积层的通道数具有如下之一趋势：递增趋势、递减趋势，先递增后递减的趋势。37.根据权利要求30至36任一项所述的装置，其中，所述模型优化单元，具体用于将所述训练语音信号输入至预设全卷积神经网络模型，得到输出结果；基于输出结果与预设标签语音信号所构建的损失函数，对所述预设全卷积神经网络模型进行训练。38.根据权利要求37所述的装置，其中，所述模型优化单元，还用于基于混合语音信号和总样本目标语音信号计算得到所述预设标签语音信号；或者，将总样本目标语音信号作为预设标签语音信号。39.根据权利要求37或38所述的装置，其中，在模型训练过程中，所述卷积层在时间维度上进行卷积处理的音频帧包括：第t时刻的第t音频帧、第t-1时刻的第t-1音频帧、至第t-n时刻的第t-n音频帧；所述n与所述卷积核在时间维度上的核特征相关，所述n为大于等于1的整数；所述t为大于等于1的整数；所述第t时刻为当前时刻。40.根据权利要求39所述的装置，其中，当t取值为1时，第1音频帧表征所述中间处理信号中的首个音频帧；第0音频帧至第1-n音频帧为预设帧；还包括：第二更新单元，用于将n个预设帧设置于所述中间处理信号中首个音频帧之前，更新所述中间处理信号，使更新后的中间处理信号的前n帧为预设帧。41.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-20中任一项所述的方法。42.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-20中任一项所述的方法。43.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-20中任一项所述的方法。

技术总结
本公开提供了音频信号处理方法、训练方法及其装置、设备、存储介质，涉及数据处理领域，尤其涉及语音领域。具体实现方案为：从混合语音信号中消除至少部分的线性回声信号，得到中间处理信号；其中，所述混合语音信号是目标语音信号与回声信号混合后所得，所述回声信号是所述目标语音信号在所处环境下产生的，包括线性回声信号和非线性回声信号；利用目标全卷积神经网络模型去除所述中间处理信号中的非线性回声信号和残留的线性回声信号，得到近似目标语音信号，其中，所述目标全卷积神经网络模型包括至少两层卷积层。如此，最大化消除回声信号。信号。信号。

技术研发人员：张文凯张策李峥贾磊
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.12.16
技术公布日：2022/3/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：输出命令词的方法、装置、存储介质及电子装置与流程

音频信号处理方法、训练方法及其装置、设备、存储介质与流程

相关文献

最热文献