一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多通道语音信号增强方法和装置及计算机设备和存储介质

2022-08-11 04:26:14 来源:中国专利 TAG:


1.本发明涉及语音增强领域,具体地说,涉及一种多通道语音信号增强方法和装置及计算机设备和存储介质。


背景技术:

2.多通道语音增强是指利用传声器阵列采集得到的多通道带噪信号来实现期望语音信号的提取。相比单通道语音增强,多通道语音增强可以同时利用时频空域的信息来实现期望语音的提取,且其理论上可以保证期望语音的无失真。多通道语音增强在会议系统、助听器和人机交互系统有着重要的作用。
3.多通道语音增强方法常采用的实现手段是波束形成。按照波束形成器的系数是否根据采集数据而自适应的调节,波束形成器可以分为固定波束形成和自适应波束形成。固定波束形成器一般假定噪声场服从一些特定的空间分布形式,然后设计对应噪声场的最优波束形成器。当实际的噪声场满足假定的空间分布形式时,固定波束形成器的效果较好。但是当实际的噪声场不满足假定的分布形式时(而这是实际中常遇到的情况),固定波束形成对于噪声效果的效果变差。相比于固定波束形成器,自适应保护形成器则根据环境中噪声场的变化来自动地调整其系数,理论上可以实现更好的降噪效果。很多自适应波束形成器的设计需要较为准确地估计噪声协方差矩阵,而噪声协方差矩阵的估计效果直接决定了输出信号中的残留噪声大小以及期望语音的失真程度。
4.目前关于噪声协方差矩阵的估计主要还是采用基于概率加权的迭代平滑方法,即通过语音存在概率来实时调整噪声协方差矩阵估计的平滑因子,进而实现噪声协方差矩阵的实时更新。其中语音存在概率的计算有很多的方式,比如通过对通道间的幅度差(interchannel level difference,ild)或者相位差(interchannel phase difference,ipd)进行阈值映射来直接估计语音存在概率,利用噪声场的特性(比如其空间特性服从扩散场噪声的分布形式)将噪声协方差矩阵的估计问题转变为单通道的噪声协方差的估计问题等。也有很多研究专注于二元假设模型的下的语音存在概率计算。该类方法假定某一时刻的混合信号的构成仅有两种可能,第一种可能是混合信号中仅包含噪声信号,第二种可能是混合信号中同时包含噪声信号和语音信号。通过假定采集的噪声信号和语音信号服从某些特定的概率分布,可以得到对应的后验语音存在概率的解析表达形式。但是该概率模型需要进行先验语音存在概率的估计。现有的方法直接采用平滑后的估计量进行先验语音存在概率的计算,估计的结果会出现估计的“拖尾效应”:即在语音结束后一段时间内,先验语音存在概率的计算值无法迅速的衰减为较小值。此类方法估计的结果会降低噪声协方差矩阵的更新速率,进而影响波束形成器的降噪性能。


技术实现要素:

5.本发明的目的在于,克服现有语音信号增强方法所采用的平滑后的估计量进行先验语音存在概率的计算方式,造成在语音结束后一段时间内,先验语音存在概率的计算值
无法迅速的衰减为较小值,导致估计的“拖尾效应”,无法达到最佳降噪效果的问题,从而提出一种多通道语音信号增强方法和装置及计算机设备和计算机可读存储介质。
6.为实现上述目的,本发明提供一种多通道语音信号增强方法,包括:
7.步骤1)对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换,得到对应的时频域信号;
8.步骤2)估计先验语音存在概率并计算噪声协方差矩阵;
9.步骤3)利用计算得到的噪声协方差矩阵构造自适应波束形成器,并对采集的时频域多通道信号进行空间滤波,得到估计的时频域语音信号;
10.步骤4)对估计的时频域语音信号进行短时傅里叶逆变换,得到估计的时域语音信号。
11.进一步,所述步骤2)具体为:采用瞬时估计量及其频域平滑值估计先验语音存在概率并计算噪声协方差矩阵,利用概率加权的方法实现每个时频点噪声协方差矩阵的估计。
12.所述步骤2)具体包括:
13.步骤201)计算瞬时信噪比γ(l,k)的估计值;
14.步骤202)利用估计的瞬时信噪比γ(l,k)来估计先验语音存在概率;
15.步骤203)估计先验语音存在概率;
16.步骤204)利用估计的先验语音存在概率计算后验语音存在概率,并进行噪声协方差矩阵的估计;
17.步骤205)迭代估计得到更优的噪声协方差矩阵估计值。
18.进一步,所述步骤201)计算瞬时信噪比γ(l,k)的估计值方法为:
[0019][0020]
其中和分别表示语音的瞬时能量和噪声功率谱密度估计,对应的计算方式为
[0021][0022][0023]
其中,l为时频域的帧索引,k为时频域的频率索引,h(l,k)=[h1(l,k),...,hm(l,k)]
t
为l时刻所使用的波束形成器,为l时刻的噪声平滑因子,为l时刻噪声协方差矩阵的估计值。
[0024]
所述步骤202)利用估计的瞬时信噪比γ(l,k)来估计先验语音存在概率,具体方法为:
[0025]
对γ(l,k)进行三组频率轴范围上的平滑操作,分别得到基于较少相邻频点的平滑,基于较多临近频点的平滑以及基于所有频率的平滑结果:
[0026]
[0027][0028][0029]
其中,w(
·
)为平滑窗,k
loc
和k
glo
表示局部平滑和宽广平滑对应的窗函数的窗长的一半。
[0030]
所述步骤203)估计先验语音存在概率,具体方法为:
[0031]
通过对三组信噪比平滑结果进行阈值映射可得到三组先验语音存在概率,其中γ
loc
(l,k)和γ
glo
(l,k)选用相同的映射方式为:
[0032][0033][0034]
其中,a的值为316,b的值为2.5;
[0035]
γ
fra
(l,k)对应的阈值映射方式为:
[0036][0037]
其中,&表示逻辑且运算,k1,k2和k3,k4分别是人为设定的低频与中高频频率的截止范围;
[0038]
通过下式计算出先验语音存在概率:
[0039][0040]
所述步骤204)利用估计的先验语音存在概率计算后验语音存在概率,并进行噪声协方差矩阵的估计,具体计算方法为:
[0041]
后验语音存在概率计算公式:
[0042][0043]
其中,y(l,k)=[y1(l,k),...,ym(l,k)]
t
,噪声协方差矩阵由下述的迭代平滑估计得到:
[0044][0045][0046]
其中,为时变的平滑因子,αv为固定的平滑因子,语音协方差矩阵由下述计算式得到:
[0047][0048]
[0049]
其中,为带噪信号的协方差矩阵,αy为其估计对应的固定平滑因子。
[0050]
所述步骤205)迭代估计得到更优的噪声协方差矩阵估计值,具体方法为:
[0051]
重复步骤201)~204),各个公式中的统一替换为上次迭代估计得到的噪声协方差矩阵初始时刻的波束形成器h(0,k)可根据期望语音信号的方向信息设置,比如可以设置为经典的延时求和波束形成器。初始时刻的噪声功率谱密度可以根据采集数据中刚开始的静音段(即没有语音信号的部分)直接进行估计。
[0052]
所述步骤3)具体包括:
[0053]
利用估计的噪声协方差矩阵构建自适应波束形成器;自适应波束形成器表示为:
[0054][0055]
其中,im为维度为m
×
m的单位矩阵,u为im的第一列;α为调节波束形成器降噪量大小的参数,取值范围为0~1;
[0056]
语音信号的时频域估计值为:
[0057][0058]
本发明还提供一种多通道语音信号增强装置,包括:
[0059]
短时傅里叶变换模块,用于对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换,得到对应的时频域信号;
[0060]
噪声协方差矩阵估计模块,用于估计先验语音存在概率并计算噪声协方差矩阵;
[0061]
自适应波束形成模块,利用计算得到的噪声协方差矩阵构造自适应波束形成器,并对采集的时频域多通道信号进行空间滤波,得到估计的时频域语音信号;
[0062]
短时傅里叶逆变换模块,对估计的时频域语音信号进行短时傅里叶逆变换,得到估计的时域语音信号。
[0063]
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的方法。
[0064]
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至9任一项所述的方法。
[0065]
本发明提供的多通道语音信号增强方法和装置及计算机设备和计算机可读存储介质,包括以下优点:
[0066]
1、本发明方法采用基于改进先验语音存在概率计算的方法来进行噪声协方差矩阵的估计,其估计同时利用了瞬时估计量与平滑估计量,可以有效避免先验概率估计中出现的“拖尾效应”。
[0067]
2、本发明方法采用的基于先验语音存在概率计算的噪声协方差矩阵估计方法可以更快速准确地估计噪声协方差矩阵,提升降噪性能。
附图说明
[0068]
图1所示为实际环境下用传声器阵列采集声频信号示意图;
[0069]
图2所示为多通道语音信号增强方法流程图;
[0070]
图3(a)所示为利用现有方法进行估计的先验语音存在概率计算结果图示;
[0071]
图3(b)所示为利用现有方法进行估计的后验语音存在概率计算结果图示;
[0072]
图4(a)所示为利用本发明方法进行估计的先验语音存在概率计算结果图示;
[0073]
图4(b)所示为利用本发明方法进行估计的后验语音存在概率计算结果图示;
[0074]
图5所示为多通道语音信号增强系统模块示意图。
具体实施方式
[0075]
以下结合实施例进一步说明本发明所提供的技术方案。
[0076]
本发明提供了一种多通道语音信号增强方法及系统,其中,该方法包括:
[0077]
对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换,得到对应的时频域信号;估计先验语音存在概率并计算噪声协方差矩阵;利用计算得到的噪声协方差矩阵构造自适应波束形成器,并对采集的时频域多通道信号进行空间滤波,得到估计的时频域语音信号;对估计的时频域语音信号进行短时傅里叶逆变换,得到估计的时域语音信号。
[0078]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0079]
如图1所示,在实际环境下用传声器阵列采集声频信号时,除了会采集到期望说话人的信号,还不可避免地采集到说话人声音的混响信号和噪声信号。自适应波束形成器系统通过对采集的多个通道信号线性滤波来实现期望语音信号的提取。在设计自适应波束形成器时,需要提供较为准确的噪声协方差矩阵的估计值。现有的估计方法在估计先验语音概率时会出现“拖尾效应”,这使得波束形成器输出中的残留噪声较大,影响增强后的语音质量。该现象出现的主要原因是现有方法直接依赖平滑后的估计量来计算先验语音存在概率。
[0080]
本发明提供的一种多通道语音信号增强方法,如图2所示,包括:
[0081]
101:步骤1)短时傅立叶变换:对传声器阵列所采集的多个通道的时域信号进行短时傅里叶变换,得到对应的时频域信号。
[0082]
102:步骤2)噪声协方差矩阵估计:估计先验语音存在概率并计算噪声协方差矩阵,利用概率加权的方法来实现每个时频点噪声协方差矩阵的估计。
[0083]
103:步骤3)自适应波束形成:利用估计的噪声协方差矩阵构造自适应波束形成器,并对采集的时频域多通道信号进行空间滤波,得到估计的时频域语音信号。
[0084]
104:步骤4)短时傅立叶逆变换:对估计的时频域语音信号进行短时傅里叶逆变换,得到估计的时域语音信号。
[0085]
其中,101步骤1)短时傅立叶变换具体方法包括:
[0086]
对传声器采集的m个通道的时域信号进行短时傅里叶变换,得到对应的m个通道时频域信号。令第m通道在时刻n采集的信号为ym(n),其时频域对应的信号为ym(l,k),其中l为
时频域的帧索引,k为时频域的频率索引,且有1≤k≤k,1≤l≤l。k对应着短时傅里叶变换的点数,l对应着短时傅里叶变换后的帧数。假定采样率为16000hz,傅里叶变换点数为512点,采集信号的长度为1s,短时傅里叶变换的帧间重叠率为75%,则k=512,l=(16000hz*1s-512)/(512*(1-0.75)) 1=122。
[0087]
由于ym(n)为实数信号,其短时傅里叶变换得到的时频域信息在频率轴范围上具有冗余性,处理时仅取一半的频率索引值即可,即其中算符表示向下取整。在进行短时傅里叶变换时,需要选取每一帧的信号长度。依据经验,信号帧长一般取在32ms到64ms之间。
[0088]
102步骤2)噪声协方差矩阵估计具体方法包括:
[0089]
步骤2)估计先验语音存在概率并计算噪声协方差矩阵,利用概率加权的方法来实现每个时频点噪声协方差矩阵的估计
[0090]
步骤201)计算瞬时信噪比γ(l,k)的估计值,即
[0091][0092]
其中和分别表示语音的瞬时能量和噪声功率谱密度估计,对应的计算方式为
[0093][0094][0095]
其中h(l,k)=[h1(l,k),...,hm(l,k)]
t
为l时刻所使用的波束形成器,为l时刻的噪声平滑因子,为l时刻噪声协方差矩阵的估计值,三者的具体计算方式参见后续步骤301)、步骤204)与步骤205)的说明。
[0096]
步骤202)利用估计的瞬时信噪比γ(l,k)来计算先验语音存在概率。具体地说,首先对瞬时信噪比进行三组频率轴范围上的平滑操作,分别得到基于较少相邻频点的平滑,基于较多临近频点的平滑以及基于所有频率的平滑结果。平滑的目的是为了利用时频域信号在不用频率范围内的相关性来实现更准确的先验语音存在概率的估计。这三组平滑的计算方法为:
[0097][0098][0099][0100]
其中w(
·
)为平滑窗,可选取归一化后的汉明(hamming)窗或者凯泽(kaiser)窗。k
loc
和k
glo
表示局部平滑和宽广平滑对应的窗函数的窗长的一半。k
loc
一般取1,k
glo
一般取大于3的常数。
[0101]
步骤203)估计先验语音存在概率。通过对三组信噪比平滑结果进行阈值映射可得
到三组先验语音存在概率,其中γ
loc
(l,k)和γ
glo
(l,k)选用相同的映射方式,即
[0102][0103][0104]
其中,a实际中可取为316,b可取为2.5。
[0105]
γ
fra
(l,k)对应的阈值映射方式为:
[0106][0107]
其中,&表示逻辑且运算,k1,k2和k3,k4分别是人为设定的低频与中高频频率的截止范围。当信号的采样率为16000hz时,低频截止的频率范围可设置为500hz~2000hz,高频截止的频率范围可设置为4000hz~8000hz,th1和th2分别对应着这两个频段范围内的阈值,分别设置为2和4。先验语音存在概率可计算为:
[0108][0109]
步骤204)利用估计的先验语音存在概率计算后验语音存在概率,并进行噪声协方差矩阵的估计。通常情况下,假定采集的多通道语音信号和噪声信号服从独立的多元高斯分布,计算出后验语音存在概率具有良好的效果。对应的后验语音存在概率可以表示为:
[0110][0111]
其中y(l,k)=[y1(l,k),...,ym(l,k)]
t
,得到某一时频点(l,k)对应的后验语音存在概率p
x
(l,k)后,噪声协方差矩阵可以由下述的迭代平滑估计得到
[0112][0113][0114]
其中,为时变的平滑因子,而αv为一固定的平滑因子,决定了期望语音不存在时噪声协方差矩阵的更新速率。αv一般取值范围在0.9到1之间。
[0115]
带噪信号协方差矩阵采用下式计算:
[0116][0117]
其中,αy为一固定的平滑因子,一般取值范围在0.9到1之间。对应的语音信号的协方差矩阵可以表示为
[0118]
步骤205)迭代估计得到更优的噪声协方差矩阵估计值。重复步骤201)~204),但此时各个公式中的统一替换为上一次迭代估计得到的噪声协方差矩阵初始时刻的波束形成器h(0,k)可根据期望语音信号的方向信息设置,比如可以设置为经典的延时求和波束形成器。初始时刻的噪声功率谱密度可以根据采集数据
中刚开始的静音段(即没有语音信号的部分)直接进行估计。理论上该迭代计算的过程可以重复多次,以提高噪声协方差矩阵估计的准确性。但实际计算表明,迭代1次就可较为准确地估计出噪声协方差矩阵。
[0119]
103步骤3)自适应波束形成具体方法包括:
[0120]
首先利用估计的噪声协方差矩阵构建自适应波束形成器。常用的自适应波束形成器包括多通道维纳滤波(multichannel wiener filtering,mwf)与最小方差无失真(minimum variance distortionless response,mvdr)波束形成器等。它们可以统一的表示为:
[0121][0122]
其中im为维度为m
×
m的单位矩阵,u为im的第一列,α为一加权因子,决定了波束形成器的降噪性能。当α=0时对应着mvdr波束形成器,当α=1时对应着标准的mwf,当α>1对应着降噪效果更强的mwf。α的取值大小可根据降噪量和语音失真大小的实际需要选取:如果更希望期望语音失真小,则令α=0,而如果更希望降噪量大一些,则令α取大于1的值。
[0123]
利用上述公式求解得到波束形成器后,语音信号的时频域估计值可以表示为:
[0124][0125]
104步骤4)短时傅立叶逆变换具体方法包括:
[0126]
对步骤3)中得到的时频域语音信号进行短时傅里叶逆变换,得到期望语音的时域信号。
[0127]
考虑到实数信号短时傅里叶变换具有共轭对称性的特点,首先利用恢复整个频率范围内的时频域语音信号,然后对其进行逆傅里叶变换和加窗合成的操作,便可得到对应的时域语音信号的估计
[0128]
图3(a)和图3(b)分别给出了一段利用现有方法进行估计的先验语音存在概率和后验语音存在概率,由图3(a)和图3(b)可以很明显的看到此类方法的存在“拖尾效应”。相较现有的先验语音概率计算方法,本发明所提出的计算方法用到了在频域进行平滑后的瞬时信噪比的估计,可以避免仅仅使用平滑估计量对于噪声协方差矩阵更新速度的影响。图4(a)和图4(b)给出了采用本发明提出的先验语音存在概率和后验语音存在概率的计算结果,可以发现本发明公布的方法明显改善了“拖尾效应”。
[0129]
最后我们进一步地解释本发明提出的基于改进先验语音存在概率计算的多通道语音增强方法能够实现更好的增强效果的原因。现有的噪声协方差矩阵估计方法在计算先验概率时往往是仅仅依赖于平滑后的统计量,这会造成估计的先后验语音存在概率无法在语音结束后较快的衰减为较小值,进而影响噪声协方差矩阵的更新速率。针对这一问题,本发明则采用瞬时估计量及其频域平滑值来实现更优的先验语音存在概率的估计。由于在语音结束后,估计的瞬时信噪比一般会较低,所以采用本发明提出的估计方法可以有效的消除传统方法中遇到频率估计的“拖尾效应”,进而保证噪声协方差矩阵的更新速率。
[0130]
如图5所示,本发明还提供了一种多通道语音信号增强系统,该系统包括:
[0131]
短时傅里叶变换模块301,该模块用于将采集的多通道时域信号变换到时频域,包
array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0143]
可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0144]
对于软件实现,可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0145]
本发明还提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法中的各个步骤。
[0146]
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献