一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度神经网络的残余回声消除方法及系统与流程

2022-06-04 00:13:59 来源:中国专利 TAG:


1.本发明涉及语音处理技术领域,尤其是指一种基于深度神经网络的残余回声消除方法及系统。


背景技术:

2.声学回声消除(aec)或抑制(aes)是一种减少源自扬声器和麦克风之间声学耦合的回声的技术。尽管已经有许多技术被证明可以成功地抑制回声,但在这些方法的输出中仍然存在一定量的残余回声。aec或aes受到影响的原因之一是即使回声路径是完美的线性,回声信号也不是远端数字信号的线性函数。功率放大器和扬声器,特别是便宜的和小型的功率放大器和扬声器,可能是这种非线性的来源。为了克服这个问题,目前已经有残余回声抑制(res)滤波器应用于aec或aes的输出以抑制剩余回声。方案[1]和方案[2]中的作者提出了res方法来估计信号回波比(ser),然后在频域中应用维纳滤波器或频谱减法。在方案[3]中将基于谱减法的子带滤波与声学回声路径的截断泰勒级数展开相结合,用于估计回声的功率谱密度。方案[4]提出了基于远端和回波信号的频率间相关性建模的残余回波幅度回归模型。然而,上述方案没有考虑所有频率区间内残余回声和远端信号之间的非线性特性,导致残余回声没法完全消除。
[0003]
[1]v.turbin,a.gilloire,and p.scalart,“comparison of three post-filtering algorithms for residual acoustic echo reduction”,in proc.ieee int.conf.acoust.,speech,signal process.,1997,pp.307

310.
[0004]
[2]s.y.lee and n.s.kim,“a statistical model based residual echo suppression,”ieee signal process.lett.,vol.14,no.10,pp.758-761,oct.2007.
[0005]
[3]f.kuech and w.kellermann,“nonlinear residual echo suppres-sion using a power filter model of the acoustic echo path,”in proc.ieee int.conf.acoust.,speech,signal process.,apr.2007,pp.73

76.
[0006]
[4]d.bendersky,j.stokes,and h.malvar,“nonlinear residual acoustic echo suppression for high levels of harmonic distortion,”in proc.ieee int.conf.acoust.,speech,signal process.,mar.2008,pp.261

264.
[0007]
因此,迫切需要提供一种能够去除传统回声消除系统无法消除的非线性回声的残余回声消除方法。


技术实现要素:

[0008]
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于深度神经网络的残余回声消除方法及系统,其可以在没有任何双端通话检测器的情况下抑制残留分量,回声耦合损耗可以达到70db,能够消除传统回声消除系统无法消除的非线性回声,极大的提升会议双方的通话质量。
[0009]
为解决上述技术问题,本发明提供一种基于深度神经网络的残余回声消除方法,
包括以下步骤:
[0010]
s1:获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;
[0011]
s2:提取能够表征滤波处理后的残差信号和远端信号的高维特征;
[0012]
s3:将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布和信号相关性,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于u-net的编码器和解码器,以及基于长短时时间记忆神经网络层lstm的时间序列建模单元;
[0013]
s4:对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。
[0014]
在本发明的一个实施例中,在s2中,提取能够表征滤波处理后的残差信号和远端信号的高维特征的方法包括:
[0015]
利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;
[0016]
对增强后的残差信号和远端信号进行加窗处理;
[0017]
对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频域信息,得到残差信号和远端信号的频域表示;
[0018]
对残差信号和远端信号的频域表示进行短时归一化处理。
[0019]
在本发明的一个实施例中,在s2中,短时归一化处理的计算公式包括:
[0020][0021][0022][0023][0024]
其中,x表示每帧语音,m表示每帧语音的长度,表示每帧语音的均值,表示每帧语音的方差,表示标准化后的每帧数据,yi代表最终短时归一化的输出,α和β表示在深度神经网络中可学习的参数。
[0025]
在本发明的一个实施例中,在s3中,所述基于u-net的编码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由512,256,128实现编码降维,每个卷积层后添加relu作为激活函数。
[0026]
在本发明的一个实施例中,在s3中,所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。
[0027]
在本发明的一个实施例中,在s4中,对残差信号的各个子带进行后处理的方法包括:
[0028]
对帧内子带间进行平滑处理,将子带增益应用到残差信号幅度上,得到估计的幅
度谱;
[0029]
将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,得到对应的时域信号;
[0030]
将当前帧的时域信号与前一帧的时域信号重叠相加进行信号重建,得到完整的无回声的近端语音信号。
[0031]
此外,本发明还提供一种基于深度神经网络的残余回声消除系统,包括:
[0032]
数据获取模块,所述数据获取模块用于获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;
[0033]
特征提取模块,所述特征提取模块用于提取能够表征滤波处理后的残差信号和远端信号的高维特征;
[0034]
神经网络模块,所述神经网络模块用于将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布以及信号相关性,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于u-net的编码器和解码器,以及对时间序列建模的基于长短时时间记忆神经网络层lstm;
[0035]
后处理模块,所述后处理模块用于对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。
[0036]
在本发明的一个实施例中,所述特征提取模块包括:
[0037]
预加重子模块,所述预加重子模块用于利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;
[0038]
加窗子模块,所述加窗子模块用于对增强后的残差信号和远端信号进行加窗处理;
[0039]
傅里叶变换子模块,所述傅里叶变换子模块用于对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频域信息,得到残差信号和远端信号的频域表示;
[0040]
短时归一化子模块,所述短时归一化子模块用于对残差信号和远端信号的频域表示进行短时归一化处理。
[0041]
在本发明的一个实施例中,所述基于u-net的编码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由512,256,128实现编码降维,每个卷积层后添加relu作为激活函数;所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。
[0042]
在本发明的一个实施例中,所述后处理模块包括:
[0043]
子带增益处理子模块,所述子带增益处理子模块用于对帧内子带间进行平滑处理,将子带增益应用到残差信号幅度上,得到估计的幅度谱;
[0044]
逆傅里叶变换子模块,所述逆傅里叶变换子模块用于将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,得到对应的时域信号;
[0045]
信号重建子模块,所述信号重建子模块用于将当前帧的时域信号与前一帧的时域信号重叠相加进行信号重建,得到完整的无回声的近端语音信号。
[0046]
本发明的上述技术方案相比现有技术具有以下优点:
[0047]
本发明基于消除线性回声后的残差信号和远端信号来估计最佳残余回声res增益,适合对复杂非线性的回声进行建模处理,其可以在没有任何双端通话检测器的情况下抑制残留分量,回声耦合损耗可以达到70db,能够消除传统回声消除系统无法消除的非线性回声,极大的提升会议双方的通话质量。
附图说明
[0048]
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
[0049]
图1是本发明基于深度神经网络的残余回声消除方法的流程示意图。
[0050]
图2是本发明提供的神经网络模块的整体架构示意图。
[0051]
图3是本发明基于深度神经网络的残余回声消除系统的结构示意图。
[0052]
其中,附图标记说明如下:10、数据获取模块;20、特征提取模块;30、神经网络模块;40、后处理模块。
具体实施方式
[0053]
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0054]
实施例一
[0055]
请参阅图1所示,本发明实施例提供一种基于深度神经网络的残余回声消除方法,包括以下步骤:
[0056]
s1:获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;
[0057]
s2:提取能够表征滤波处理后的残差信号和远端信号的高维特征;
[0058]
s3:将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布和信号相关性,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于u-net的编码器和解码器,以及基于长短时时间记忆神经网络层lstm的时间序列建模单元;
[0059]
s4:对残差信号的各个子带进行后处理,最终得到无残余回声的估计信号。
[0060]
在本发明实施例公开的一种基于深度神经网络的残余回声消除方法中,本发明基于消除线性回声后的残差信号和远端信号来估计最佳残余回声res增益,适合对复杂非线性的回声进行建模处理,其可以在没有任何双端通话检测器的情况下抑制残留分量,回声耦合损耗可以达到70db,能够消除传统回声消除系统无法消除的非线性回声,极大的提升会议双方的通话质量。
[0061]
在本发明实施例公开的一种基于深度神经网络的残余回声消除方法中,对于实施方式s2,提取能够表征滤波处理后的残差信号和远端信号的高维特征的方法包括:
[0062]
利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;
[0063]
对增强后的残差信号和远端信号进行加窗处理;
[0064]
对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频
normalization(批次归一化)实现每个卷积层输出的分布标准化。所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。本发明使用的lstm是128个神经元,激活函数为tanh,递归激活函数为sigmoid,随机神经元连接关闭概率dropout为20%。最终,解码器的输出经过神经元数目256、激活函数为sigmoid的全连接层fc的处理,得到估计的残差信号每个子带上的增益。
[0082]
在本发明实施例公开的一种基于深度神经网络的残余回声消除方法中,对于实施方式s4,对残差信号的各个子带进行后处理的方法包括:
[0083]
对帧内子带间进行平滑处理,平滑因子为0.56,将子带增益应用到残差信号幅度上,得到估计的幅度谱;
[0084]
将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,得到对应的时域信号;
[0085]
将当前帧的时域信号与前一帧的时域信号重叠相加进行信号重建,得到完整的无回声的近端语音信号。
[0086]
在本发明实施例公开的一种基于深度神经网络的残余回声消除方法中,本发明主要应用在实时会议场景中,通过对近端残差混合信号进行实时处理,去除传统回声消除系统无法消除的非线性回声,为通话双方构建一个清晰干净的通话环境。
[0087]
实施例二
[0088]
下面对本发明实施例二公开的一种基于深度神经网络的残余回声消除系统进行介绍,下文描述的一种基于深度神经网络的残余回声消除系统与上文描述的一种基于深度神经网络的残余回声消除方法可相互对应参照。
[0089]
请参阅图3所示,本发明实施例二公开了一种基于深度神经网络的残余回声消除系统,包括:
[0090]
数据获取模块10,所述数据获取模块10用于获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;
[0091]
特征提取模块20,所述特征提取模块20用于提取能够表征滤波处理后的残差信号和远端信号的高维特征;
[0092]
神经网络模块30,所述神经网络模块30用于将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于u-net的编码器和基于长短时时间记忆神经网络层l stm的解码器;
[0093]
后处理模块40,所述后处理模块40用于对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。
[0094]
在本发明实施例公开的一种基于深度神经网络的残余回声消除系统中,本发明基于消除线性回声后的残差信号和远端信号来估计最佳残余回声res增益,适合对复杂非线性的回声进行建模处理,其可以在没有任何双端通话检测器的情况下抑制残留分量,回声耦合损耗可以达到70db,能够消除传统回声消除系统无法消除的非线性回声,极大的提升会议双方的通话质量。
[0095]
在本发明实施例公开的一种基于深度神经网络的残余回声消除系统中,所述特征
提取模块20包括:
[0096]
预加重子模块,所述预加重子模块用于利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;
[0097]
加窗子模块,所述加窗子模块用于对增强后的残差信号和远端信号进行加窗处理;
[0098]
傅里叶变换子模块,所述傅里叶变换子模块用于对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频域信息,得到残差信号和远端信号的频域表示;
[0099]
短时归一化子模块,所述短时归一化子模块用于对残差信号和远端信号的频域表示进行短时归一化处理。
[0100]
在本发明实施例公开的一种基于深度神经网络的残余回声消除系统中,所述基于u-net的编码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由512,256,128实现编码降维,每个卷积层后添加relu作为激活函数;所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。
[0101]
在本发明实施例公开的一种基于深度神经网络的残余回声消除系统中,所述后处理模块40包括:
[0102]
子带增益处理子模块,所述子带增益处理子模块用于对帧内子带间进行平滑处理,将子带增益应用到残差信号幅度上,得到估计的幅度谱;
[0103]
逆傅里叶变换子模块,所述逆傅里叶变换子模块用于将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,得到对应的时域信号;
[0104]
信号重建子模块,所述信号重建子模块用于将当前帧的时域信号与前一帧的时域信号重叠相加进行信号重建,得到完整的无回声的近端语音信号。
[0105]
本实施例的基于深度神经网络的残余回声消除系统用于实现前述的基于深度神经网络的残余回声消除方法,因此该系统的具体实施方式可见前文中的基于深度神经网络的残余回声消除方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
[0106]
另外,由于本实施例的基于深度神经网络的残余回声消除系统用于实现前述的基于深度神经网络的残余回声消除方法,因此其作用与上述方法的作用相对应,这里不再赘述。
[0107]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0108]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0109]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0110]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0111]
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献