一种基于深度学习的闭环系统声反馈抑制方法

2022-10-26 03:25:01 来源：中国专利 TAG：

1.本发明涉及闭环系统的声反馈抑制领域，本发明提及的闭环系统为系统输入又受系统输出影响的一类系统，包括如助听器系统和现场扩声系统等，具体涉及一种基于深度学习的闭环系统声反馈抑制方法。

背景技术：

2.扩声系统广泛应用于多媒体电教室、本地会议系统和助听器以及人工耳蜗等设备，该电声系统至少包括一个传声器、一个放大器和一个发声单元如扬声器等。声反馈指当传声器与扬声器处于同一个声学环境当中时，距离较近存在声学耦合，即传声器拾取外部音频信号，该音频信号经过放大器后被扬声器重放，再经过反馈路径之后被传声器采集并再次被放大器放大，并再次被扬声器播放，不断循环形成正反馈，当频点满足奈奎斯特不稳定性条件时则会使得信号幅度不断增加并引发啸叫，信号的幅值过大甚至会对音频设备造成严重的破坏。因此，对声反馈进行抑制既能提高系统的扩声性能，又能保证扩声系统的稳定性和安全性。

技术实现要素：

3.本发明的目的在于克服现有技术中信号的幅值过大以及会对音频设备造成严重破坏的问题。
4.为达到上述目的，本发明通过下述技术方案实现。
5.本发明提出了一种基于深度学习的闭环系统声反馈抑制方法，该方法包括：
6.将离线训练好的闭环系统抑制模型应用在闭环系统中，对输入闭环系统的音频信号进行处理，再馈给闭环系统的发声单元重放，实现声反馈抑制；所述闭环系统抑制模型基于深度学习建立；
7.对闭环系统进行建模，通过模拟生成声反馈路径单位脉冲响应，并根据单位脉冲响应计算最大稳定增益，以最大稳定增益为依据生成闭环信号；将输入闭环系统的音频信号在开环条件下生成开环目标信号；闭环信号与开环目标信号一起构成模型的平行训练数据，并利用平行训练数据对模型进行训练。
8.作为上述技术方案的改进之一，所述方法采用离线训练模式对模型进行训练，训练时，包括以下步骤：
9.步骤一：对声反馈的闭环系统进行建模，根据应用场景模拟生成声学反馈路径单位脉冲响应；
10.步骤二：基于深度学习建立训练开环系统；根据声学反馈路径单位脉冲响应计算最大稳定增益，以最大稳定增益为依据确定开环系统前馈通道增益，输入音频信号生成开环信号作为训练的目标音频，并在闭环系统中，输入带噪音频信号生成带反馈的带噪带反馈的闭环信号；闭环信号与开环信号一起构成模型的平行训练数据；
11.步骤三：训练数据的特征提取和深度学习神经网络的目标映射；
12.步骤四：设计深度学习神经网络结构及超参数；
13.步骤五：选取合适的损失函数训练模型，得到训练好的闭环系统抑制模型。
14.作为上述技术方案的改进之一，所述闭环系统包括：正向通路放大模块和时延模块；对声反馈的闭环系统进行建模的表达式为：
15.y(t)＝v(t) u(t)*f(t)
16.其中，t为采样时刻，*为卷积运算，v(t)为外部音频信号，u(t)＝y(t)*g(t)，u(t)为馈给扬声器的时域信号，g(t)为闭环系统前馈通道单位脉冲响应，y(t)为拾取信号，f(t)为声学反馈路径的单位脉冲响应。
17.作为上述技术方案的改进之一，所述模拟生成声学反馈路径单位脉冲响应，包括：
18.所述时延模块对闭环系统中的信号作傅里叶变换，表达式为：
19.y(ω)＝v(ω) u(ω)f(ω)
20.u(ω)＝y(ω)g(ω)
21.其中，ω为角频率，y(ω)为y(t)的傅里叶变换，f(ω)为f(t)的傅里叶变换，v(ω)为v(t)的傅里叶变换，u(ω)为u(t)的傅里叶变换，g(ω)为g(t)的傅里叶变换，前馈通道中与频率相关的增益统一进反馈通道f(ω)。
22.作为上述技术方案的改进之一，所述g(ω)设定为常数g，且当g与角频率相关时，闭环系统中的传递函数为：
[0023][0024]
根据nyquist系统不稳定判决条件，当回路增益函数满足以下条件时：
[0025][0026]
其中，∠
·
表示取相位，|∠
·
|表示取模值；即在角频率为ω的位置，当回路增益函数模值大于等于1时，且回路增益函数相位角为2π的整数n倍时，扩声系统产生震荡形成啸叫，由此得到闭环系统的最大稳定增益g
max
，表达式为：
[0027][0028]
ω＝{ω|∠(f(ω)exp(-jωτfs))＝2nπ}
[0029]
其中，ω为满足nyquist系统不稳定判决相位条件的频点组合，τ为扩声系统中所有信号处理系统延时和自身系统延时，fs为采样频率，j为虚数符号。
[0030]
作为上述技术方案的改进之一，当所述闭环系统中还包括自适应滤波器模块和后处理模块时，闭环系统中的传递函数表达式为：
[0031][0032]
其中，为的傅里叶变换，为自适应滤波模块辨识的反馈通道单位脉冲响应；h(ω)为h(t)的傅里叶变换，h(t)为后处理模块的单位脉冲响应；
[0033]
当环路增益函数满足以下条件时，带有自适应反馈抵消的闭环系统出现不稳定，即：
[0034][0035]
此时，闭环系统的最大稳定增益表达式为：
[0036][0037]
作为上述技术方案的改进之一，所述声学反馈路径模拟生成单位脉冲相应的表达式为：
[0038][0039][0040]
其中，f
env
为调制频率，为随机相位，r(t)为零均值高斯过程，σ为衰减函数，σ≥0，tf表示传递函数进行指数衰减的开启时刻；
[0041]
在闭环系统中，正向通路放大模块表示为：
[0042]
g(t)＝gδ(t-τfs)
[0043]
其中，δ(
·
)表示狄拉克函数，g的取值范围为：g∈[0.5g
max
,0.999g
max
]；
[0044]
由f(t)、g(t)和v(t)得到未经反馈抑制处理的馈给扬声器的信号u(t)和传声器拾取信号y(t)。
[0045]
作为上述技术方案的改进之一，所述深度学习神经网络的目标映射包括：
[0046]
将v(t)和噪声信号n(t)根据一定的信噪比进行混合得到混合后的带噪音频输入信号z(t)：
[0047]
z(t)＝v(t) αn(t)
[0048]
其中，α为根据信噪比计算得到的注入噪声量；
[0049]
将z(t)作为闭环系统的输入，得到带噪带反馈信号的信号u(t)；将u(t)作为神经网络的输入信号，且映射目标信号s(t)的表达式为：
[0050]
s(t)＝gv(t-τfs)
[0051]
分别对u(t)和s(t)作k点短时傅里叶变换，得到二者在时间帧l和频带k处的复数谱u(k,l)和s(k,l)，表示式为：
[0052][0053][0054]
其中，w(t)为窗函数,r为帧移距离；μ为求和变量；
[0055]
将s(k,l)和u(k,l)表示为实部和虚部的形式：
[0056]
s(k,l)＝sr(k,l) isi(k,l)
[0057]
u(k,l)＝ur(k,l) iui(k,l)
[0058]
其中，sr(k,l)、si(k,l)分别为s(k,l)的实部和虚部，ur(k,l)、ui(k,l)分别为u(k,
l)的实部和虚部；
[0059]
采用复数谱映射的学习方式，训练神经网络学习每一个时频单元{ur(k,l),ui(k,l)}到{sr(k,l),si(k,l)}的映射，该过程表示为：
[0060][0061][0062]
其中，为深度学习神经网络的映射函数，φ为网络参数，(
·
)c表示作压缩操作函数，s为作压缩操作函数的自变量，βc∈[0,1]，βc为压缩系数；和分别为估计信号的压缩复数谱的实部和虚部，和分别为输入特征信号的压缩复数谱的实部和虚部。
[0063]
作为上述技术方案的改进之一，所述损失函数直接选择估计结果与训练目标之间的均方误差，并在损失函数上对复数谱和幅度谱做限制；
[0064]
幅度谱和复数谱混合损失函数幅度谱损失函数和复数谱损失函数的表达式分别为：
[0065][0066][0067][0068]
其中，λ为取值在0至1之间的权重系数，||
·
||f表示frobenius范数，简称f-范数。
[0069]
作为上述技术方案的改进之一，所述将训练好的模型应用在闭环系统中时，模型输出为估计信号的压缩复数谱将解压恢复为复数谱表达式为：
[0070][0071]
其中，βc为压缩系数；j为虚数符号，∠
·
表示取相位；
[0072]
对复数谱做反傅里叶变换，并进行重叠相加，得到估计信号的时域形式
[0073]
本发明与现有技术相比优点在于：
[0074]
该方法首先通过模拟反馈路径得到闭环信号，并与开环信号一起构成深度学习的平行训练数据，建立训练数据集；接着采用离线训练模式，利用构建的训练数据集来训练深度学习模型；将训练好的模型应用于闭环系统后，能够有效抑制反馈信号，提高语音质量和可懂度，并显著提升扩声系统增益。
[0075]
优点一：通过模拟生成声反馈路径单位脉冲响应，无需测量大量的声反馈传输通道；这在助听器应用中有重要意义，这是由于测量大量的声反馈路径单位脉冲响应难度高，工作量大，且难以遍历各种复杂的情况；
[0076]
优点二：实现了首个基于深度学习的临界稳定系统抑制系统，可同时解决因反馈造成的临界啸叫问题，梳状滤波效应问题以及染色效应问题，实现高质量的音频信号输出；
[0077]
优点三：同时实现了去噪去反馈，通过闭环生成数据方式，采用离线模型训练，实现了在线闭环系统的去噪去反馈目标，相比于深度去噪方法仅能抑制噪声而无法抑制闭环
系统音频段的反馈成分，本方法有明显优势。
附图说明
[0078]
图1是本发明实施例的算法流程图；
[0079]
图2是闭环系统的示意图；
[0080]
图3是加入自适应滤波器模块和后处理模块的闭环系统示意图；
[0081]
图4是本发明实施例的深度网络模型结构图，以gccrn为例；
[0082]
图5是本发明实施例的深度网络模块抑制啸叫的示意图；
[0083]
图6是在加入自适应滤波器模块和后处理模块的闭环系统后，利用深度网络模块抑制啸叫示意图；
[0084]
图7是采用本发明方法进行声反馈抑制效果图以及采用其他方法的效果图，其中，图7(a)为目标语音信号频谱图；图7(b)为未有任何反馈抑制的时域信号u(t)频谱图；图7(c)采用自适应反馈抵消方法后的时域信号u(t)频谱图；图7(d)采用频移法后的时域信号u(t)频谱图；图7(e)采用深度降噪方法后的时域信号u(t)频谱图；图7(f)采用本发明方法后的时域信号u(t)频谱图。
具体实施方式
[0085]
本发明针对扩声系统的声反馈现象，提出基于深度学习的声反馈抑制方法。首先是构造训练集，先模拟生成大量的声学反馈路径单位脉冲响应，以语音和音频信号作为外部音频输入，在开环条件下生成目标音频信号，并在闭环临界稳定条件下生成带反馈的音频信号，再与噪声叠加生成带噪带反馈的音频信号；接着，对带噪带反馈的音频信号进行分帧和特征提取，根据目标音频信号与带噪带反馈的音频信号逐帧逐频点提取学习目标，搭建深度神经网络模型，并采用离线方式训练网络，直至误差收敛到一定的范围，完成模型训练；最后，在实际系统测试及应用阶段，对闭环系统中的带噪带反馈音频信号进行分帧和特征提取，采用已训练的深度神经网络模型对其进行处理，得到目标音频信号时频谱，并重建时域目标音频信号。
[0086]
本发明提供一种基于深度学习的声反馈抑制方法，该方法针对助听器或者现场扩声等声反馈系统可能存在的啸叫问题，以离线训练方式训练深度神经网络模型，再将模型置于闭环的实际系统中对信号进行反馈抑制，具体步骤包括：
[0087]
步骤一：对声反馈的闭环系统进行建模，根据应用场景模拟生成声学反馈路径单位脉冲响应；
[0088]
步骤二：根据声学反馈路径单位脉冲响应计算最大稳定增益，以此为依据生成开环目标音频信号，并在闭环系统中，生成带反馈的音频信号，在音频信号中注入噪声，在闭环系统中同样生成带噪带反馈的音频信号；
[0089]
步骤三：数据的特征提取和网络的目标映射；
[0090]
步骤四：设计深度学习网络结构及超参数；
[0091]
步骤五：选取损失函数，并训练网络；
[0092]
步骤六：将训练好的模型加入闭环系统中进行声反馈抑制，并重建时域信号。
[0093]
以下结合实施例进一步说明本发明所提供的技术方案。
[0094]
实施例1
[0095]
本发明实施例1的基于深度学习的闭环系统声反馈抑制方法流程图如图1所示，具体实施方式如下：
[0096]
步骤一：如图2所示，v(t)为外部输入信号，假定为外部音频信号，u(t)为馈给扬声器信号，y(t)为传声器拾取信号，f(t)为声学反馈路径的单位脉冲响应，由此得到：
[0097]
y(t)＝v(t) u(t)*f(t)
ꢀꢀ
(1)
[0098]
其中t为采样时刻，*为卷积运算，对时域信号作傅里叶变换，有：
[0099][0100]
其中，ω为角频率。不失一般性，我们假设正向通路增益为全带增益，即g(ω)＝g为常数；如果g(ω)＝g与频率相关，可将频率相关的部分并入声学反馈路径的频率响应。由此可得到扬声器到传声器的闭环传递函数：
[0101][0102]
根据nyquist系统不稳定判决条件，当回路益满足以下条件时：
[0103][0104]
其中∠
·
表示取相位，|
·
|表示取模值。在角频率ω位置，当系统回路增益函数模值大于等于1时，且回路增益函数相位角为2π整数倍时，扩声系统就会在该频率产生震荡，形成啸叫。由此得到闭环系统的临界稳定增益：
[0105][0106]
其中，τ为扩声系统中所有信号处理系统延时和自身系统延时，单位为秒(s)，fs为采样频率，单位为赫兹(hz)。
[0107]
当系统中存在自适应滤波器模块和后处理模块h(t)(如相位调制模块和增益控制模块等)时，如图3所示，则式(3)-式(5)修改为：
[0108][0109][0110][0111]
步骤二：以助听器为例，测量的公开可用的助听器声学反馈路径较少，而深度学习模型需要大量的数据进行训练。为了产生大量的声学反馈路径，本文提出了一种模拟生成
的方式，即：
[0112][0113]
其中，f
env
为调制频率，为随机相位，r(t)为零均值高斯过程，σ≥0为衰减函数，引入tf表示从该时刻起传递函数进行指数衰减。
[0114]
在闭环系统中，正向通路放大模块表示为：
[0115]
g(t)＝gδ(t-τfs)
ꢀꢀ
(10)
[0116]
其中，δ表示狄拉克(dirac)函数。在本方法中，为了保证构建的数据不至于无穷大，也不至于全是无反馈的音频信号，g的取值范围为g∈[0.5g
max
,0.999g
max
]。
[0117]
由式(9)、式(10)和目标信号源v(t)便可以得到未经反馈抑制处理的馈给扬声器的信号u(t)和传声器拾取信号y(t)。
[0118]
步骤三：将音频信号v(t)和噪声信号n(t)根据一定的信噪比进行混合：
[0119]
z(t)＝v(t) αn(t)
ꢀꢀ
(11)
[0120]
其中，α为根据信噪比计算得到的注入噪声量。将得到的信号z(t)作为闭环系统的输入，得到带噪带反馈信号的信号u(t)，将其作为深度神经网络的输入信号，且映射目标信号为：
[0121]
s(t)＝gv(t-τfs)
ꢀꢀ
(12)
[0122]
分别对时域信号u(t)和s(t)作k点短时傅里叶变换，得到二者在时间帧l和频带k处的复数谱表示：
[0123][0124]
其中，w(t)为窗函数,r为帧移距离。将式(13)表示为实部和虚部的形式：
[0125][0126]
其中，sr(k,l)、si(k,l)分别为s(k,l)的实部和虚部，ur(k,l)、ui(k,l)分别为u(k,l)的实部和虚部。
[0127]
在本方法中，我们采用的是复数谱映射的学习方式，即训练神经网络学习每一个时频单元{ur(k,l),ui(k,l)}到{sr(k,l),si(k,l)}的映射。该过程可表示为：
[0128][0129]
其中，为神经网络映射函数，φ为网络参数。(
·
)c表示对语谱作压缩操作，βc∈[0,1]为压缩系数。和分别为估计信号的压缩复数谱的实部和虚部，和分别为输入特征信号的压缩复数谱的实部和虚部。
[0130]
步骤四：深度神经网络框架的设计。本步骤可以采用卷积循环网络(rnn)及其变体
(lstm,gru等)以及卷积循环网络(crn)等网络框架。在本方法中采用的是gccrn网络，该网络由三部分构成，分别为卷积编码器(encoder block)、分组长短时记忆模块(glstm)和两个卷积解码器(decoder block)，如图4所示。编码器一共包括5个卷积模块，每一个卷积模块包括二维卷积层(conv)、批归一化层(bn)和指数线性激活(elu)单元。在解码器端，本发明采用与编码部分相似的卷积模块。解码部分为两个解码器，每个解码器包括5个反卷积块，每个卷积块包括反卷积层(conv-trans)、批归一化层和指数线性激活单元。为了补充编码部分由于特征维压缩引起的信息损失，本发明引入跳跃连接(skip connection)，将解码块的特征与对应编码端的特征在通道维度上堆叠并送入下一个反卷积块。在反馈系统中，上下帧的信号之间均存在因果关系，为了保证系统的正常运行，我们采用了因果卷积，确保当前帧的计算只与过去时刻帧的计算有关，而不涉及到未来帧的信息。在fs＝16000hz，k＝320情况下，具体的网络参数设置与维度变化如表1所示。表1是具体的网络参数设置和维度变化。
[0131]
表1
[0132][0133]
其中，卷积层的参数以卷积核，通道数、跳跃值形式表示，输入和输出尺寸以通道数、时间维、特征维的形式表示。此外，设置网络的训练批次为16，迭代次数为30次，使用学习率为1.0
×
10-3
和衰减率为1.0
×
10-7
的adam优化器对网络训练进行优化，并开始训练。这里的深度神经网络可采用其他网络形式，如基于幅度映射的深度神经网络，基于实或者复掩膜映射的深度神经网络；采用浅层神经网络也可实现该目标，依然是本发明的简单延申。采用本发明提出的平行数据构造方法，以及离线训练，在线应用模式，即便采用时域深度神经网络模型，也是本发明的简单延申。本实施案例采用的是基于深度学习建立网络模型，实际上，基于其他机器学习的方法也可以，采用其他机器学习方法也受本发明保护。
[0134]
步骤五：损失函数可以直接选择估计结果与训练目标之间的均方误差(mean squared error，mse)。研究表明，在损失函数上同时对复数谱和幅度谱做限制可以有效地提升语音或音频的质量，即：
[0135][0136]
其中，λ为取值在0至1之间的权重系数，通常取0.5，在低信噪比场景，λ应趋近于0，高信噪比场景，λ应趋近于1.0。当采用幅度谱映射网络时，λ取值为0；采用其他损失函数，如si-sdr等，依然是本发明的简单延申。
[0137]
步骤六：将训练好的神经网络加入闭环系统中抑制声反馈，如图5和图6所示。神经网络的输出为估计信号的压缩复数谱需要对其解压缩恢复为复数谱：
[0138][0139]
对复数谱做反傅里叶变换和重叠相加便可得到估计信号的时域形式
[0140]
本发明涉及闭环系统如助听器系统和现场扩声系统的声反馈抑制，生成专用训练数据集并设计深度神经网络架构以实现闭环系统临界稳定状态下的声反馈抑制。该方法通过模拟生成大量的声学反馈路径单位脉冲响应来生成闭环反馈信号，同时结合噪声数据生成大量的训练数据集并完成模型训练，该模型应用于闭环系统能够有效抑制反馈信号，提高语音质量和可懂度，并显著提升扩声系统增益。该方法的创新之处是首先通过模拟反馈路径得到闭环信号，并与开环信号一起构成深度学习的平行训练数据，建立训练数据集；接着采用离线训练模式，利用构建的训练数据集来训练深度学习模型；最后将其应用在闭环系统中实现声反馈抑制。
[0141]
如图7所示，为采用本方法进行声反馈抑制效果图以及采用其他方法的效果图，具体地：图7(a)为目标语音信号频谱图；图7(b)为未有任何反馈抑制的时域信号u(t)频谱图；图7(c)采用自适应反馈抵消方法后的时域信号u(t)频谱图；图7(d)采用频移法后的时域信号u(t)频谱图；图7(e)采用深度降噪方法后的时域信号u(t)频谱图；图7(f)采用本专利提出的方法后的时域信号u(t)频谱图。
[0142]
从上述对本发明的具体描述可以看出，本发明将训练好的闭环系统生反馈抑制模型应用于闭环系统后，能够有效抑制反馈信号，提高语音质量和可懂度，并显著提升扩声系统增益。
[0143]
最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种在超算互联网中超算中心数据备份的方法及装置与流程

一种基于深度学习的闭环系统声反馈抑制方法

相关文献

最热文献