实时语音去混响的混合方法及系统与流程

2022-03-30 10:34:30 来源：中国专利 TAG：

1.本发明涉及语音处理技术领域，尤其是指一种实时语音去混响的混合方法及系统。

背景技术：

2.近年来，用户对实时会议中的语音质量提出了更多的要求。混响是影响语音清晰度、可懂度的关键因素，用户参会时所处环境的混响程度差异很大，有些做过良好声学处理的会议室的混响程度很低，但是另一些四面玻璃、未做特定声学处理的会议室的混响很重，给语音处理带来了极大挑战。目前去混响方法主要包括解卷积方法、加权线性预测滤波器方法、类似降噪原理的混响抑制方法以及基于深度学习的语音去混响方法等。以上方法中，解卷积方法、加权线性预测滤波器方法以及基于深度学习的语音去混响方法，三者均会由于计算量较大的问题，导致难以实时运行，尤其是在主芯片计算能力偏弱、资源紧张的会议拾音器设备中。相对而言，采用类似降噪原理的混响抑制方法计算量较小，其难点在于如何合理地构建模型，较为准确地估计并抑制语音中的混响成分。值得一提的是，市面上的会议拾音器设备一般采用麦克风阵列配置，阵列信号处理中的波束形成模块天然具备一定的混响抑制能力。
3.现有技术中专利号为cn201210201879.7的一种单通道语音去混响的方法和装置使用ar(自回归)模型或者ma(滑动平均)模型或者arma(自回归滑动平均)模型，从先前的若干帧信号中估计当前帧的中晚期混响成分的功率谱，然后通过谱减法加以去除。虽然模型中的系数可以通过yule-walker方程或者burg算法求解，相比于其他类型的去混响方法，计算复杂度有一定下降，但是在强混响环境下，随着模型系数的增加，计算复杂度会不断上升，也难以应用到计算资源匮乏的会议硬件拾音器设备中。
4.现有技术中专利号为cn201510401640.8的一种语音数据的去混响方法及装置相当于是上述发明专利的简化版本，其仅使用当前帧之前的某一帧估计当前帧的中晚期混响成分，然后估计当前时刻的谱减增益系数，最后再对一定时间窗口内的谱减增益系数进行平均加权，得到最终的谱减增益系数。该方法与前一种方法相比做了很大的简化，计算复杂度显著下降，但是仅使用当前帧之前的单帧进行中晚期混响成分估计显然是不够的，对一定时间窗口内的谱减增益系数进行平均加权的处理方式也略显粗略。
5.因此，迫切需要提供一种能够在计算复杂度和去混响性能之间取得比较好的折中效果以及降低对硬件资源苛刻要求的去混响方法。

技术实现要素：

6.为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种实时语音去混响的混合方法及系统，其既显著降低了直接求解arma(自回归滑动平均)类似模型带来的计算量，又改善了中晚期混响成分估计的准确度，在计算复杂度和去混响性能之间取得了比较好的折中效果，从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资
源的苛刻要求。
7.为解决上述技术问题，本发明提供一种实时语音去混响的混合方法，包括以下步骤：
8.s1：获取实时会议场景中的多个麦克风通道的语音原始信号，对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；
9.s2：针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；
10.s3：对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；
11.s4：基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分，结合当前帧的中晚期混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，对混响抑制后的语音频谱进行快速傅里叶逆变换，获得去混响后的时域语音信号。
12.在本发明的一个实施例中，针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，包括：
13.根据波束方向以及波束形成权重对多个麦克风通道的频域信号进行求和，得到多个波束输出频域信号其中，xm(f)，m＝1，2，
…
，m表示每个麦克风的复数频谱，w
mb
(f)，b＝1，2，
…
，b表示波束形成复权重，yb(f)，b＝1，2，
…
，b表示波束形成的输出频域信号。
14.在本发明的一个实施例中，在s2中，其中波束方向的划分是预先设定的，对于均匀圆形阵列来说，波束方向选择每个mic的方向，对于均匀线阵来说，将前向180
°
的水平方位角均匀划分成若干波束范围。
15.在本发明的一个实施例中，在s3中，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数，包括：
16.所述归一化频域相干系数的计算公式如下：
17.y
ipsd
(f)＝α2*y
ipsd
(f) (1-α2)*yi(f)*conj(yi(f))，i＝p，
…
，p-q 1
18.y
icpsd
(f)＝α2*y
icpsd
(f) (1-α2)*yi(f)*conj(y
p
(f))，i＝p-1，
…
，p-q 1
[0019][0020]
其中，yi(f)和y
ipsd
(f)分别为第i帧的频谱和自功率谱，i＝p，
…
，p-q 1，y
icpsd
(f)，i≠p为对第i帧和第p帧之间的互功率谱，cohi(f)，i≠p为第i帧和第p帧之间的归一化谱相干系数。
[0021]
在本发明的一个实施例中，在s4中，估计当前帧的中晚期混响功率谱成分，包括：
[0022]
所述当前帧的中晚期混响功率谱成分的计算公式为
其中，i＝p-r 2，
…
，p-q 1，其对应用于估计中晚期混响成分的历史帧，cohi(f)，i≠p为第i帧和第p帧之间的归一化谱相干系数。
[0023]
在本发明的一个实施例中，在s4中，在计算得到中晚期混响功率谱后，对所述中晚期混响功率谱施加强约束，使得估计的混响功率谱不大于当前帧的瞬时自功率谱。
[0024]
此外，本发明还提供一种实时语音去混响的混合系统，包括：
[0025]
数据预处理模块，获取实时会议场景中的多个麦克风通道的语音原始信号，所述数据预处理模块用于对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；
[0026]
固定波束形成模块，所述固定波束形成模块用于针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；
[0027]
波束融合模块，所述波束融合模块用于对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；
[0028]
非线性去混响模块，所述非线性去混响模块用于基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分，结合当前帧的中晚期混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，对混响抑制后的语音频谱进行快速傅里叶逆变换，获得去混响后的时域语音信号。
[0029]
在本发明的一个实施例中，所述数据预处理模块包括：
[0030]
傅里叶变换单元，所述傅里叶变换单元用于对加窗分帧处理后的语音原始信号进行快速傅里叶变换，将时域信号转换为频域信号。
[0031]
在本发明的一个实施例中，所述波束融合模块包括：
[0032]
归一化频域相干系数计算单元，所述归一化频域相干系数计算单元用于基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数。
[0033]
在本发明的一个实施例中，所述非线性去混响模块包括：
[0034]
中晚期混响功率谱计算单元，所述中晚期混响功率谱计算单元用于估计当前帧的中晚期混响功率谱成分。
[0035]
本发明的上述技术方案相比现有技术具有以下优点：
[0036]
本发明针对麦克风阵列会议拾音器设备，提供了一种实时语音去混响的混合方法，该混合方法首先在多个特定方向进行波束形成处理，获得第一级去混响后的多波束信号，然后对上述不同方向的输出进行信噪比加权，得到第一级去混响后的单通道信号，接着，利用当前帧之前一段时间窗口内的若干帧，估计当前帧的中晚期混响成分，最后进行谱减法或者维纳滤波处理，得到第二级去混响后的语音信号；其中第一级去混响处理后，中高频可以获得比较明显的去混响效果，在第二级单通道去混响阶段，通过计算当前帧与之前一段窗口内若干帧的频域归一化相干系数，并估计当前帧之前的某一帧对当前帧中晚期混响分量的贡献，既显著降低了直接求解arma(自回归滑动平均)类似模型带来的计算量，又
改善了中晚期混响成分估计的准确度，在计算复杂度和去混响性能之间取得了比较好的折中效果，从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。
附图说明
[0037]
为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。
[0038]
图1是本发明实时语音去混响的混合方法的流程示意图。
[0039]
图2是本发明固定波束形成示意图。
[0040]
图3是本发明多波束信噪比融合加权示意图。
[0041]
图4是本发明混响成分估计示意图。
[0042]
图5是本发明归一化频域相干系数计算示意图。
[0043]
图6是本发明中晚期混响成分功率谱估计示意图。
[0044]
图7是本发明实时语音去混响的混合系统的硬件结构示意图。
[0045]
图8是本发明去混响前的语音频谱图。
[0046]
图9是本发明去混响后的语音频谱图。
[0047]
其中，附图标记说明如下：10、数据预处理模块；20、固定波束形成模块；30、波束融合模块；40、非线性去混响模块。
具体实施方式
[0048]
下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。
[0049]
实施例一
[0050]
请参阅图1所示，本实施例提供一种实时语音去混响的混合方法，包括以下步骤：
[0051]
s1：获取实时会议场景中的多个麦克风通道的语音原始信号，对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；
[0052]
s2：针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；
[0053]
s3：对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；
[0054]
s4：基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分，结合当前帧的中晚期混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，对混响抑制后的语音频谱进行快速傅里叶逆变换，获得去混响后的时域语音信号。
[0055]
在本发明公开的一种实时语音去混响的混合方法中，本发明针对麦克风阵列会议拾音器设备，提供了一种实时语音去混响的混合方法，该混合方法首先在多个特定方向进行波束形成处理，获得第一级去混响后的多波束信号，然后对上述不同方向的输出进行信噪比加权，得到第一级去混响后的单通道信号，接着，利用当前帧之前一段时间窗口内的若干帧，估计当前帧的中晚期混响成分，最后进行谱减法或者维纳滤波处理，得到第二级去混响后的语音信号；其中第一级去混响处理后，中高频可以获得比较明显的去混响效果，在第
二级单通道去混响阶段，通过计算当前帧与之前一段窗口内若干帧的频域归一化相干系数，并估计当前帧之前的某一帧对当前帧中晚期混响分量的贡献，既显著降低了直接求解arma(自回归滑动平均)类似模型带来的计算量，又改善了中晚期混响成分估计的准确度，在计算复杂度和去混响性能之间取得了比较好的折中效果，从而达到了兼顾计算复杂度和去混响效果以及降低了对硬件资源的苛刻要求。
[0056]
在本发明公开的一种实时语音去混响的混合方法中，对于上述实施方式的s1，在对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理时，首先采用的窗函数可以选择汉明窗、汉宁窗、布莱克曼窗等，语音帧的范围一般为10～30毫秒，例如每帧时长可以采用10ms，16ms，20ms，30ms等，然后对每个麦克风通道的语音原始信号进行快速傅里叶变换，将时域信号转换为频域信号。
[0057]
具体地，假定m元麦克风阵列，以第m号麦克风为例，其采集到的数字信号为xm(n)。窗函数序列定义为h(n)，加窗、分帧，得到的时域数据为x
wm
(n)＝xm(n)*h(n)，对x
wm
(n)进行快速傅里叶变换，得到对应的复数频谱为xm(f)＝fft(x
wm
(n))，m＝1,2，
…
，m。
[0058]
在本发明公开的一种实时语音去混响的混合方法中，对于上述实施方式的s2，可以参阅图2所示，图中，根据波束方向以及波束形成权重对多个麦克风通道的频域信号进行求和，得到多个波束输出频域信号其中，xm(f)，m＝1，2，
…
，m表示每个麦克风的复数频谱，w
mb
(f)，b＝1，2，
…
，b表示波束形成复权重，yb(f)，b＝1，2，
…
，b表示波束形成的输出频域信号。
[0059]
其中，上述波束方向的划分是预先设定的，对于均匀圆形阵列来说，波束方向可以选择每个mic的方向，对于均匀线阵来说，可以将前向180
°
的水平方位角均匀划分成若干波束范围。对于其他不规则阵列，可以根据应用场景需求指定特定的波束方向。另外，上述波束形成权重设计方法可以采用cbf(常规波束形成)、mvdr(最小方差无失真响应)、lcmv(线性约束最小方差)、sd(超指向性)以及差分波束形成等多种设计方案，例如波束形成采用下式计算：基于信噪比加权的多波束输出语音频谱的计算采用或者采用其中，φ(f)为任意麦克风通道原始输入信号频谱xm(f)的相位谱。
[0060]
在本发明公开的一种实时语音去混响的混合方法中，对于上述实施方式的s4，可以参阅图3所示，yb(f)，b＝1，2，
…
，b表示每个波束方向的输出频谱，yc(f)表示多波束融合后的输出频谱。波束融合可以采用以下两种方式实现，方式1：其中，|yb(f)|表示yb(f)的幅度谱，φ(f)表示任意麦克风通道原始输入信号频谱xm(f)的相
位谱；方式2：上述背景噪声功率谱和信噪比估计可以采用现有技术的mcra(minimum controlled recursive averaging)方法，关于mcra方法的具体内容，本发明在这里不做赘述。
[0061]
上述假定估计的背景噪声功率谱为λb(f)，语音功率谱为yb(f)，全带信噪比为gb，归一化后的信噪比为为了突出主要语音方向的波束信号，需要对nb进行如下处理：加权因子wb初始化为更新方式为wb＝α1*wb (1-α1)*qb，
[0062]
在本发明公开的一种实时语音去混响的混合方法中，对于上述实施方式的s4，可以参阅图4所示，以此图为例阐述估计当前帧的中晚期混响成分所需的历史帧信息。假定t
p
为当前帧，t
p-1
，t
p-2
，
…
，t
p-r 1
为早期混响所涉及的历史帧，t
p-r 2
，
…
，t
p-q 1
为中晚期混响估计所涉及的历史帧。为了保持语音的饱满、充实，同时尽可能减少对语音清晰度的影响，一般将100ms以后的混响成分作为中晚期混响成分进行抑制。假定使用r帧覆盖直达声和早期混响成分，利用q帧覆盖中晚期混响成分，通过调整r和q值即可直接影响混响抑制的效果。
[0063]
图5为归一化频域相干系数计算示意图。当前帧为第p帧，第p-1，p-2，
…
，p-q 1帧是估计混响所需的历史帧，yi(f)和y
ipsd
(f)分别为第i帧的频谱和自功率谱，i＝p，
…
，p-q 1，y
icpsd
(f)，i≠p为对第i帧和第p帧之间的互功率谱，cohi(f)，i≠p为第i帧和第p帧之间的归一化谱相干系数，以上统计量的计算方式如下：
[0064]yipsd
(f)＝α2*y
ipsd
(f) (1-α2)*yi(f)*conj(yi(f))，i＝p，
…
，p-q 1
[0065]yicpsd
(f)＝α2*y
icpsd
(f) (1-α2)*yi(f)*conj(y
p
(f))，i＝p-1，
…
，p-q 1
[0066][0067]
cohi(f)，i≠p在一定程度上衡量了历史帧和当前帧的频域相关性，基于语音的短时相关性假设，可以认为，归一化相关系数取值越大，对当前帧的混响成分贡献越大。
[0068]
在本发明公开的一种实时语音去混响的混合方法中，对于上述实施方式的s4，图6为中晚期混响成分功率谱估计示意图。混响衰减因子decay factor简写为df，采用如下经验公式计算：相关系数(coherent coefficient)即计算得到的cohi(f)，i≠p。
[0069]
当前帧的中晚期混响功率谱成分计算如下：
[0070][0071]
上式中，i＝p-r 2，
…
，p-q 1，对应图4中用于估计中晚期混响成分的历史帧。
[0072]
对r
p
(f)施加强约束，使得估计的混响功率谱不大于当前帧的瞬时自功率谱，即
[0073]
yp(f)＝real(y
p
(f)*conj(y
p
(f)))
[0074][0075]
在本发明公开的一种实时语音去混响的混合方法中，对于上述实施方式的s4，后验和先验信号-混响比采用以下公式计算：η(f)＝α4*η(f) (1-α4)*max(ξ(f)-1，0))，其中，δ为避免“除零”的常数因子。
[0076]
在进行去混响时，去混响增益为去混响后的语音复数频谱为y
dr
(f)＝g(f)*yc(f)。
[0077]
对y
dr
(f)进行快速傅里叶逆变换，结合重叠相加法/重叠保留法即可获得去混响后的语音输出y
dr
(n)。
[0078]
估计出中晚期混响功率谱之后，很多谱减法降噪或者维纳滤波降噪的技术方案均可以应用于计算去混响增益。
[0079]
本发明针对麦克风阵列拾音器设备，采用了两级去混响措施，包括第一级的阵列波束形成去混响，第二级的单通道去混响。其中，第一级去混响得到的多波束融合输出信号，对中高频混响成分的抑制作用相对较强，对低频混响成分的抑制作用相对稍弱。第二级单通道去混响通过结合当前帧和先前若干帧之间的归一化频域相干系数以及混响衰减经验公式，简单有效地估计当前帧的中晚期混响功率谱成分并通过维纳滤波方式加以抑制，相比于其他技术方案，譬如加权预测误差方案、逆滤波方案等，在显著降低计算复杂度的同时，在不同的混响环境下可以取得相对较好混响抑制效果，而且不至于因为混响程度的增加使得计算复杂度呈指数上升趋势，从而便于落地到硬件计算资源相对匮乏的麦克风阵列会议拾音器设备。具体对比详见图8和图9。
[0080]
实施例二
[0081]
下面对本发明实施例二公开的一种实时语音去混响的混合系统进行介绍，下文描述的一种实时语音去混响的混合系统与上文描述的一种实时语音去混响的混合方法可相互对应参照。
[0082]
请参阅图7所示，本发明实施例二公开了一种实时语音去混响的混合系统，包括：
[0083]
数据预处理模块10，获取实时会议场景中的多个麦克风通道的语音原始信号，所述数据预处理模块10用于对所述语音原始信号进行加窗分帧和快速傅里叶变换预处理，获得多个麦克风通道的频域语音信号；
[0084]
固定波束形成模块20，所述固定波束形成模块20用于针对多个麦克风通道的频域语音信号在多个波束方向进行固定波束形成，得到多个波束输出频域信号；
[0085]
波束融合模块30，所述波束融合模块30用于对多个波束输出频域信号进行基于信噪比加权的波束融合处理，获得第一级去混响后的单通道频域语音信号，基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数；
[0086]
非线性去混响模块40，所述非线性去混响模块40用于基于所述归一化频域相干系数估计当前帧的中晚期混响功率谱成分，结合当前帧的中晚期混响功率谱成分，对中晚期混响成分进行抑制，获得混响抑制后的语音频谱，对混响抑制后的语音频谱进行快速傅里叶逆变换，获得去混响后的时域语音信号。
[0087]
在本发明公开的一种实时语音去混响的混合系统中，所述数据预处理模块10包括：
[0088]
傅里叶变换单元，所述傅里叶变换单元用于对加窗分帧处理后的语音原始信号进行快速傅里叶变换，将时域信号转换为频域信号。
[0089]
在本发明公开的一种实时语音去混响的混合系统中，所述波束融合模块30包括：
[0090]
归一化频域相干系数计算单元，所述归一化频域相干系数计算单元用于基于第一级去混响后的单通道频域语音信号计算当前帧和先前一段时间内若干帧信号的归一化频域相干系数。
[0091]
在本发明公开的一种实时语音去混响的混合系统中，所述非线性去混响模块40包括：
[0092]
中晚期混响功率谱计算单元，所述中晚期混响功率谱计算单元用于估计当前帧的中晚期混响功率谱成分。
[0093]
本实施例的实时语音去混响的混合系统用于实现前述的实时语音去混响的混合方法，因此该系统的具体实施方式可见前文中的实时语音去混响的混合方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。
[0094]
另外，由于本实施例的实时语音去混响的混合系统用于实现前述的实时语音去混响的混合方法，因此其作用与上述方法的作用相对应，这里不再赘述。
[0095]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0096]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0097]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。
[0098]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0099]
显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

实时语音去混响的混合方法及系统与流程

相关文献

最热文献