实时语音去混响的混合方法及系统与流程

2022-03-30 10:34:30 来源：中国专利 TAG：

技术特征：
1.一种实时语音去混响的混合方法，其特征在于，包括以下步骤：s1：获取实时会议场景中的多个麦克风通道的语音原始信号，对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；s2：针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；s3：对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；s4：基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分，结合当前帧的中晚期混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，对混响抑制后的语音频谱进行快速傅里叶逆变换，获得去混响后的时域语音信号。2.根据权利要求1所述的实时语音去混响的混合方法，其特征在于：在s2中，针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，包括：根据波束方向以及波束形成权重对多个麦克风通道的频域信号进行求和，得到多个波束输出频域信号其中，x
m
(f)，m＝1，2，
…
，m表示每个麦克风的复数频谱，w
mb
(f)，b＝1，2，
…
，b表示波束形成复权重，y
b
(f)，＝1，2，
…
，b表示波束形成的输出频域信号。3.根据权利要求2所述的实时语音去混响的混合方法，其特征在于：在s2中，其中波束方向的划分是预先设定的，对于均匀圆形阵列来说，波束方向选择每个mic的方向，对于均匀线阵来说，将前向180
°
的水平方位角均匀划分成若干波束范围。4.根据权利要求1所述的实时语音去混响的混合方法，其特征在于：在s3中，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数，包括：所述归一化频域相干系数的计算公式如下：y
i_psd
(f)＝α2*y
i_psd
(f) (1-α2)*y
i
(f)*conj(y
i
(f))，i＝p，
…
，p-q 1q 1其中，y
i
(f)和y
i_psd
(f)分别为第i帧的频谱和自功率谱，i＝p，
…
，p-q 1，y
i_cpsd
(f)，i≠p为对第i帧和第p帧之间的互功率谱，coh
i
(f)，i≠p为第i帧和第p帧之间的归一化谱相干系数。5.根据权利要求1所述的实时语音去混响的混合方法，其特征在于：在s4中，估计当前帧的中晚期混响功率谱成分，包括：所述当前帧的中晚期混响功率谱成分的计算公式为
其中，i＝p-r 2，
…
，p-q 1，其对应用于估计中晚期混响成分的历史帧，coh
i
(f)，i≠p为第i帧和第p帧之间的归一化谱相干系数。6.根据权利要求1所述的实时语音去混响的混合方法，其特征在于：在s4中，在计算得到中晚期混响功率谱后，对所述中晚期混响功率谱施加强约束，使得估计的混响功率谱不大于当前帧的瞬时自功率谱。7.一种实时语音去混响的混合系统，其特征在于，包括：数据预处理模块，获取实时会议场景中的多个麦克风通道的语音原始信号，所述数据预处理模块用于对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；固定波束形成模块，所述固定波束形成模块用于针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；波束融合模块，所述波束融合模块用于对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；非线性去混响模块，所述非线性去混响模块用于基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分，结合当前帧的中晚期混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，对混响抑制后的语音频谱进行快速傅里叶逆变换，获得去混响后的时域语音信号。8.根据权利要求7所述的实时语音去混响的混合系统，其特征在于：所述数据预处理模块包括：傅里叶变换单元，所述傅里叶变换单元用于对加窗分帧处理后的语音原始信号进行快速傅里叶变换，将时域信号转换为频域信号。9.根据权利要求7所述的实时语音去混响的混合系统，其特征在于：所述波束融合模块包括：归一化频域相干系数计算单元，所述归一化频域相干系数计算单元用于基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数。10.根据权利要求7所述的实时语音去混响的混合系统，其特征在于：所述非线性去混响模块包括：中晚期混响功率谱计算单元，所述中晚期混响功率谱计算单元用于估计当前帧的中晚期混响功率谱成分。

技术总结
本发明涉及一种实时语音去混响的混合方法，包括获取多麦克风通道的语音原始信号，对其进行预处理，获得多麦克风通道的频域语音信号；针对多麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；对输出频域信号进行信噪比加权，获得第一级去混响后的单通道频域语音信号，基于其计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；基于频域相干系数估计当前帧的中晚期混响功率谱成分，结合混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，获得去混响后的时域语音信号。本发明达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。及降低了对硬件资源的苛刻要求。及降低了对硬件资源的苛刻要求。

技术研发人员：谢志诚辛鑫
受保护的技术使用者：苏州蛙声科技有限公司
技术研发日：2021.12.20
技术公布日：2022/3/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

实时语音去混响的混合方法及系统与流程

相关文献

最热文献