多通道语音信号增强方法和装置及计算机设备和存储介质

2022-08-11 04:26:14 来源：中国专利 TAG：

技术特征：
1.一种多通道语音信号增强方法，包括：步骤1)对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换，得到对应的时频域信号；步骤2)估计先验语音存在概率并计算噪声协方差矩阵；步骤3)利用计算得到的噪声协方差矩阵构造自适应波束形成器，并对采集的时频域多通道信号进行空间滤波，得到估计的时频域语音信号；步骤4)对估计的时频域语音信号进行短时傅里叶逆变换，得到估计的时域语音信号。2.根据权利要求1所述的多通道语音信号增强方法，其特征在于：所述步骤2)采用瞬时估计量及其频域平滑值估计先验语音存在概率并计算噪声协方差矩阵，利用概率加权的方法实现每个时频点噪声协方差矩阵的估计。3.根据权利要求1或2所述的多通道语音信号增强方法，其特征在于：所述步骤2)具体包括：步骤201)计算瞬时信噪比γ(l,k)的估计值；步骤202)利用估计的瞬时信噪比γ(l,k)来估计先验语音存在概率；步骤203)估计先验语音存在概率；步骤204)利用估计的先验语音存在概率计算后验语音存在概率，并进行噪声协方差矩阵的估计；步骤205)重复步骤201)～204)，迭代估计得到更优的噪声协方差矩阵估计值。4.根据权利要求3所述的多通道语音信号增强方法，其特征在于：所述步骤201)计算瞬时信噪比γ(l,k)的估计值方法为：其中，和分别表示语音的瞬时能量和噪声功率谱密度估计，对应的计算方式为：方式为：其中，上标h表示向量的共轭转置操作，即将向量的各个复数元素的虚部变为原来的相反数，然后将元素变换后的行向量转变为列向量；l为时频域的帧索引；k为时频域的频率索引；h(l,k)＝[h1(l,k),...,h
m
(l,k)]
t
为l时刻所使用的波束形成器；上标
t
表示向量转置操作，即将行向量转换为列向量；为l时刻的噪声平滑因子；为l时刻噪声协方差矩阵的估计值。5.根据权利要求3所述的多通道语音信号增强方法，其特征在于：所述步骤202)利用估计的瞬时信噪比γ(l,k)来估计先验语音存在概率，具体方法为：对γ(l,k)进行三组频率轴范围上的平滑操作，分别得到基于较少相邻频点的平滑、基于较多临近频点的平滑以及基于所有频率的平滑结果：
其中，w(
·
)为平滑窗，k
loc
和k
glo
表示局部平滑和宽广平滑对应的窗函数的窗长的一半。6.根据权利要求3所述的多通道语音信号增强方法，其特征在于：所述步骤203)估计先验语音存在概率，具体方法为：首先，通过对三组信噪比平滑结果进行阈值映射可得到三组先验语音存在概率，其中γ
loc
(l,k)和γ
glo
(l,k)选用相同的映射方式为：(l,k)选用相同的映射方式为：其中，a的值为316，b的值为2.5；γ
fra
(l,k)对应的阈值映射方式为：其中，&表示逻辑且运算，k1,k2和k3,k4分别是人为设定的低频与中高频频率的截止范围；然后，通过下式计算出先验语音存在概率：7.根据权利要求3所述的多通道语音信号增强方法，其特征在于：所述步骤204)利用估计的先验语音存在概率计算后验语音存在概率，并进行噪声协方差矩阵的估计，具体计算方法为：后验语音存在概率计算公式：其中，y(l,k)＝[y1(l,k),...,y
m
(l,k)]
t
,噪声协方差矩阵由下述的迭代平滑估计得到：由下述的迭代平滑估计得到：其中，为时变的平滑因子，α
v
为固定的平滑因子，语音协方差矩阵由下述计算式得到：
其中，为带噪信号的协方差矩阵，α
y
为其估计对应的固定平滑因子。8.根据权利要求3所述的多通道语音信号增强方法，其特征在于：所述步骤205)迭代估计得到更优的噪声协方差矩阵估计值，具体方法为：重复步骤201)～204)，各个公式中的统一替换为上次迭代估计得到的噪声协方差矩阵初始时刻的波束形成器h(0,k)根据期望语音信号的方向信息设置；初始时刻的噪声功率谱密度根据采集数据中刚开始的静音段直接进行估计。9.根据权利要求2所述的多通道语音信号增强方法，其特征在于：所述步骤3)具体包括：利用估计的噪声协方差矩阵构建自适应波束形成器；自适应波束形成器表示为：其中i
m
为维度为m
×
m的单位矩阵，u为i
m
的第一列；α为调节波束形成器降噪量大小的参数，取值范围为0～1；语音信号的时频域估计值为：10.一种多通道语音信号增强装置，包括：短时傅里叶变换模块，用于对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换，得到对应的时频域信号；噪声协方差矩阵估计模块，用于估计先验语音存在概率并计算噪声协方差矩阵；自适应波束形成模块，利用计算得到的噪声协方差矩阵构造自适应波束形成器，并对采集的时频域多通道信号进行空间滤波，得到估计的时频域语音信号；短时傅里叶逆变换模块，对估计的时频域语音信号进行短时傅里叶逆变换，得到估计的时域语音信号。11.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的方法。12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至9任一项所述的方法。

技术总结
本发明提供了一种多通道语音信号增强方法及系统，所述方法包括：对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换，得到对应的时频域信号；估计先验语音存在概率并计算噪声协方差矩阵；利用计算得到的噪声协方差矩阵构造自适应波束形成器，并对采集的时频域多通道信号进行空间滤波，得到估计的时频域语音信号；对估计的时频域语音信号进行短时傅里叶逆变换，得到估计的时域语音信号。本发明可以有效避免先验概率估计中出现的“拖尾效应”，可以更快速准确地估计噪声协方差矩阵，提升降噪性能。升降噪性能。升降噪性能。

技术研发人员：王劲夫杨飞然孙国华杨军
受保护的技术使用者：中国科学院声学研究所
技术研发日：2022.04.13
技术公布日：2022/8/9

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于滤波器组频率区分的深度网络波形合成方法及装置

多通道语音信号增强方法和装置及计算机设备和存储介质

相关文献

最热文献