一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度神经网络的残余回声消除方法及系统与流程

2022-06-04 00:13:59 来源:中国专利 TAG:

技术特征:
1.一种基于深度神经网络的残余回声消除方法,其特征在于,包括以下步骤:s1:获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;s2:提取能够表征滤波处理后的残差信号和远端信号的高维特征;s3:将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布和信号相关性,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于u-net的编码器和解码器,以及基于长短时时间记忆神经网络层lstm的时间序列建模单元;s4:对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。2.根据权利要求1所述的基于深度神经网络的残余回声消除方法,其特征在于:在s2中,提取能够表征滤波处理后的残差信号和远端信号的高维特征的方法包括:利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;对增强后的残差信号和远端信号进行加窗处理;对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频域信息,得到残差信号和远端信号的频域表示;对残差信号和远端信号的频域表示进行短时归一化处理。3.根据权利要求2所述的基于深度神经网络的残余回声消除方法,其特征在于:在s2中,短时归一化处理的计算公式包括:中,短时归一化处理的计算公式包括:中,短时归一化处理的计算公式包括:中,短时归一化处理的计算公式包括:其中,x表示每帧语音,m表示每帧语音的长度,表示每帧语音的均值,表示每帧语音的方差,表示标准化后的每帧数据,y
i
代表最终短时归一化的输出,α和β表示在深度神经网络中可学习的参数。4.根据权利要求1所述的基于深度神经网络的残余回声消除方法,其特征在于:在s3中,所述基于u-net的编码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由512,256,128实现编码降维,每个卷积层后添加relu作为激活函数。5.根据权利要求1或4所述的基于深度神经网络的残余回声消除方法,其特征在于:在s3中,所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。6.根据权利要求1所述的基于深度神经网络的残余回声消除方法,其特征在于:在s4中,对残差信号的各个子带进行后处理的方法包括:
对帧内子带间进行平滑处理,将子带增益应用到残差信号幅度上,得到估计的幅度谱;将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,得到对应的时域信号;将当前帧的时域信号与前一帧的时域信号重叠相加进行信号重建,得到完整的无回声的近端语音信号。7.一种基于深度神经网络的残余回声消除系统,其特征在于,包括:数据获取模块,所述数据获取模块用于获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;特征提取模块,所述特征提取模块用于提取能够表征滤波处理后的残差信号和远端信号的高维特征;神经网络模块,所述神经网络模块用于将所述残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布以及信号相关性,预测得到残差信号每个子带上的增益,其中所述神经网络模块包括基于u-net的编码器和解码器,以及对时间序列建模的基于长短时时间记忆神经网络层lstm;后处理模块,所述后处理模块用于对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。8.根据权利要求7所述的基于深度神经网络的残余回声消除系统,其特征在于:所述特征提取模块包括:预加重子模块,所述预加重子模块用于利用高通滤波器对残差信号和远端信号的高频部分进行增强,得到增强后的残差信号和远端信号;加窗子模块,所述加窗子模块用于对增强后的残差信号和远端信号进行加窗处理;傅里叶变换子模块,所述傅里叶变换子模块用于对加窗后的残差信号和远端信号进行短时快速傅里叶变换,将时域信息转换为频域信息,得到残差信号和远端信号的频域表示;短时归一化子模块,所述短时归一化子模块用于对残差信号和远端信号的频域表示进行短时归一化处理。9.根据权利要求7所述的基于深度神经网络的残余回声消除系统,其特征在于:所述基于u-net的编码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由512,256,128实现编码降维,每个卷积层后添加relu作为激活函数;所述基于长短时时间记忆神经网络层lstm对长时间序列进行建模,解码器通过多层二维卷积conv2d级联实现,卷积核大小是1*1,卷积核数由128,256,512实现解码升维,每个卷积层后添加relu作为激活函数。10.根据权利要求7所述的基于深度神经网络的残余回声消除系统,其特征在于:所述后处理模块包括:子带增益处理子模块,所述子带增益处理子模块用于对帧内子带间进行平滑处理,将子带增益应用到残差信号幅度上,得到估计的幅度谱;逆傅里叶变换子模块,所述逆傅里叶变换子模块用于将估计的幅度谱结合残差信号的相位谱进行傅里叶逆变换,得到对应的时域信号;信号重建子模块,所述信号重建子模块用于将当前帧的时域信号与前一帧的时域信号重叠相加进行信号重建,得到完整的无回声的近端语音信号。

技术总结
本发明涉及一种基于深度神经网络的残余回声消除方法,包括获取近端麦克风混合信号和远端信号,对近端麦克风混合信号进行线性滤波处理得到近端残差信号;提取能够表征残差信号和远端信号的高维特征;将残差信号的高维特征和远端信号的高维特征输入至神经网络模块,学习残差信号和远端信号的高维特征分布和信号相关性,预测得到残差信号每个子带上的增益,其中神经网络模块包括基于U-NET的编码器和解码器,以及基于长短时时间记忆神经网络层lstm的时间序列建模单元;对残差信号的各个子带进行后处理,最终得到无残余回声的干净近端语音信号。本发明能够消除传统回声消除系统无法处理的非线性回声,极大的提升会议双方的通话质量。量。量。


技术研发人员:李平平 辛鑫
受保护的技术使用者:苏州蛙声科技有限公司
技术研发日:2022.02.23
技术公布日:2022/6/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献