一种基于神经网络的多通道语音增强方法及系统与流程

2022-10-26 06:34:49 来源：中国专利 TAG：

技术特征：
1.一种基于神经网络的多通道语音增强方法，其特征在于，包括：接收多个通道的语音信号；利用各个通道的滤波器对所述通道的语音信号进行处理，以得到各个通道对应角度的波束；根据所有所述波束确定目标波束以及波达方向；根据所述多个通道的语音信号和所述波达方向得到多个参考噪声；将所述参考噪声和目标波束输入至自适应消噪层，对所述目标波束进行增强。2.根据权利要求1所述基于神经网络的多通道语音增强方法，其特征在于，所述利用各个通道的滤波器对所述通道的语音信号进行处理，以得到各个通道对应角度的波束具体包括：选择一个所述通道作为参考通道；在每个通道中，利用所述滤波器对所述语音信号进行卷积操作，以得到每个所述通道对应角度的波束。3.根据权利要求2所述基于神经网络的多通道语音增强方法，其特征在于，所述滤波器的优化方法包括：分别计算每个所述通道得到的波束与所述参考通道得到的波束之间的余弦相似度，以得到每个通道的相似度；将所有所述通道的相似度输入至全连接网络中，以得到第一输出数据；对所有所述通道的滤波器进行仿射变换，以得到第二输出数据；将所述第一输出数据和所述第二输出数据相加后，输入至映射函数中，以得到所有通道优化后的滤波器。4.根据权利要求3所述基于神经网络的多通道语音增强方法，其特征在于，所述根据所有所述波束确定目标波束以及波达方向具体包括：为每个通道的波束分配权重；利用所有通道的所述权重对所有波束进行选择，以得到目标方向上的所述目标波束以及波达方向。5.根据权利要求4所述基于神经网络的多通道语音增强方法，其特征在于，所述权重的优化方法包括：对所有所述通道的权重进行仿射变换，以得到第三输出数据；将所述第一输出数据和所述第三输出数据相加后，输入至映射函数中，以得到所有通道优化后的权重。6.根据权利要求1所述基于神经网络的多通道语音增强方法，其特征在于，所述自适应消噪层包括编码器、1
×
1卷积层和解码器；所述编码器用于对子帧进行处理，以得到第四输出，所述子帧由所述参考噪声划分得到；所述1
×
1卷积层用于对所述第四输出进行1
×
1卷积提取特征，以得到多个噪声特征；所述解码器用于利用所述噪声特征增强所述目标波束的幅度谱。7.一种基于神经网络的多通道语音增强系统，其特征在于，包括：输入层：用于接收多个通道的语音信号；
固定波束形成层：用于利用各个通道的滤波器对所述通道的语音信号进行处理，以得到各个通道对应角度的波束；波束方向选择单元：用于根据所有所述波束确定目标波束以及波达方向；噪声阻塞层：用于根据所述多个通道的语音信号和所述波达方向得到多个参考噪声；自适应消噪层：用于接收所述参考噪声和目标波束，输出所述目标波束的增强信号。8.根据权利要求7所述基于神经网络的多通道语音增强系统，其特征在于，所述固定波束形成层具体用于：选择一个所述通道作为参考通道；在每个通道中，利用所述滤波器对所述语音信号进行卷积操作，以得到每个所述通道对应角度的波束。9.根据权利要求8所述基于神经网络的多通道语音增强系统，其特征在于，所述波束方向选择单元具体用于：为每个通道的波束分配权重；利用所有通道的所述权重对所有波束进行选择，以得到目标方向上的所述目标波束以及波达方向。10.根据权利要求7所述基于神经网络的多通道语音增强系统，其特征在于，所述自适应消噪层包括编码器、1
×
1卷积层和解码器；所述编码器用于对子帧进行处理，以得到第四输出，所述子帧由所述参考噪声划分得到；所述1
×
1卷积层用于对所述第四输出进行1
×
1卷积提取特征，以得到多个噪声特征；所述解码器用于利用所述噪声特征增强所述目标波束的幅度谱。

技术总结
本发明提供的基于神经网络的多通道语音增强方法及系统，该方法包括：接收多个通道的语音信号；利用各个通道的滤波器对所述通道的语音信号进行处理，以得到各个通道对应角度的波束；根据所有所述波束确定目标波束以及波达方向；根据所述多个通道的语音信号和所述波达方向得到多个参考噪声；将所述参考噪声和目标波束输入至自适应消噪层，对所述目标波束进行增强。该多通道语音增强方法，根据历史数据训练神经网络模型，利用训练好的神经网络模型对语音信号进行增强，准确性高，不需要进行场景假设，不依赖阵列空间信息以及参数估计等先验信息。信息。信息。

技术研发人员：张卢军
受保护的技术使用者：深圳波洛斯科技有限公司
技术研发日：2022.07.22
技术公布日：2022/10/25

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于特征融合的陆空通话说话人角色识别方法及装置

一种基于神经网络的多通道语音增强方法及系统与流程

相关文献

最热文献