一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于MCLP的语音去混响方法及系统与流程

2021-07-23 21:35:00 来源:中国专利 TAG:语音 混响 信号处理 方法 系统
一种基于MCLP的语音去混响方法及系统与流程

本发明涉及语音信号处理技术领域,具体涉及一种基于mclp的语音去混响方法及系统。



背景技术:

在日常生活中,室内录音的场景需求越来越广泛,常见于室内会议、礼堂演讲、网络直播、智能语音助手等等,而在这些场景中,麦克风采集到的语音信号往往会夹杂着严重的混响分量。混响是一种在密闭的空间内产生的声学现象,由于声音的多径传播效应,在墙体和物体表面产生反射,使得采集到的语音信号因时延差而模糊不清,严重污染语音频谱的清晰度。研究表明,50毫秒以内的早期混响声有助于提高语音的清晰度、可懂度和饱满度,但过量的后期混响则会严重影响语音信号质量。

发明人在实践中,发现上述现有技术存在以下缺陷:

对于语音去混响领域中的多通道线性预测(multi-channellinearprediction,mclp)算法,由于将纯净语音信号建模为时变高斯模型,算法性能严重依赖于对纯净语音信号功率谱密度(powerspectraldensity,psd)估计的准确性,而原始在线mclp算法中直接使用观测到的混响信号代替纯净语音估计psd,精度较差,影响去混响效果。在部分对算法的改进研究成果中,使用了后期混响分量psd估计算法,然后利用谱减法减去混响psd得到估计的纯净语音psd。但由于混响psd估计是不准确的,当估计值幅度偏大时,直接谱减会出现过减问题,使频谱出现过多零点,导致频谱失真和音乐噪声的问题。



技术实现要素:

为了解决上述技术问题,本发明的目的在于提供一种基于mclp的语音去混响方法及系统,所采用的技术方案具体如下:

第一方面,本发明一个实施例提供了一种基于mclp的语音去混响方法,该方法包括以下步骤:

通过对采集的混响环境的混响语音进行分帧数据处理,获得当前帧的期望信号;

获取所述期望信号的语音混响能量比和信噪估计值,代入几何谱减公式对混响语音进行谱减得到期望信号的第一功率谱密度;所述语音混响能量比与第一能量比值呈正相关关系,所述信噪估计值与第二能量比值呈正相关关系;所述第一能量比值为混响语音和混响分量的能量比值;所述第二能量比值为期望语音和所述混响分量的能量比值;

根据所述第一功率谱密度获取去混响后的语音信号;

存储当前帧的所述第一功率谱密度,并将其作为下一帧的历史第一功率谱密度,对下一帧的第一功率谱密度进行更新,直至获得所有去混响语音信号。

优选的,所述期望信号的获取步骤包括:

通过混响信号在时频域的数学表示计算出预测系数;

根据所述预测系数获得第一预测系数矩阵,利用所述第一预测系数矩阵和经过分帧处理后的混响语音计算出所述期望信号。

优选的,所述语音混响能量比的计算方法为:

通过对所述第一能量比值和历史语音混响能量比进行平滑计算,获得当前帧的所述语音混响能量比。

优选的,所述信噪估计值的计算方法为:

其中,rd/r表示信噪估计值;表示所述第二能量比值,d′t,l表示估计的期望信号频点幅值,|d′t,l|2表示期望信号的能量,表示所述混响分量的第二功率谱密度;β2表示第二平滑因子;rx/r表示语音混响能量比。

优选的,所述去混响后的语音信号的获取步骤包括:

根据所述第一功率谱密度利用加权递归最小二乘公式获得当前帧各通道处的期望信号频点;

对所述期望信号频点进行短时傅里叶逆变换,获得所述去混响后的语音信号。

第二方面,本发明另一个实施例提供了一种基于mclp的语音去混响系统,该系统包括以下模块:

混响语音预处理模块,用于通过对采集的混响环境的混响语音进行分帧数据处理,获得当前帧的期望信号;

第一功率谱密度获取模块,用于获取所述期望信号的语音混响能量比和信噪估计值,代入几何谱减公式对混响语音进行谱减得到期望信号的第一功率谱密度;所述语音混响能量比与第一能量比值呈正相关关系,所述信噪估计值与第二能量比值呈正相关关系;所述第一能量比值为混响语音和混响分量的能量比值;所述第二能量比值为期望语音和所述混响分量的能量比值;

语音去混响模块,用于根据所述第一功率谱密度获取去混响后的语音信号;

第一功率谱密度更新模块,用于存储当前帧的所述第一功率谱密度,并将其作为下一帧的历史第一功率谱密度,对下一帧的第一功率谱密度进行更新,直至获得所有去混响语音信号。

优选的,所述混响语音预处理模块包括:

预测系数计算模块,用于通过混响信号在时频域的数学表示计算出预测系数;

期望信号计算模块,用于根据所述预测系数获得第一预测系数矩阵,利用所述第一预测系数矩阵和经过分帧处理后的混响语音计算出所述期望信号。

优选的,所述第一功率谱密度获取模块包括:

语音混响能量比获取模块,用于通过对所述第一能量比值和历史语音混响能量比进行平滑计算,获得当前帧的所述语音混响能量比。

优选的,所述第一功率谱密度获取模块包括:

信噪估计值计算模块,用于计算所述信噪估计值:

其中,rd/r表示信噪估计值;表示所述第二能量比值,d′t,l表示估计的期望信号频点幅值,|d′t,l|2表示期望信号的能量,表示所述混响分量的第二功率谱密度;β2表示第二平滑因子;rx/r表示语音混响能量比。

优选的,所述语音去混响模块包括:

期望信号频点获取模块,用于根据所述第一功率谱密度利用加权递归最小二乘公式获得当前帧各通道处的期望信号频点;

去混响语音信号计算模块,用于对所述期望信号频点进行短时傅里叶逆变换,获得所述去混响后的语音信号。

本发明实施例具有如下有益效果:

通过结合几何谱减和mclp算法,解决了在使用谱减法时导致的频谱过减的问题,提高了mclp算法的去混响性能,能够得到更为优质的去混响语音。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于mclp的语音去混响方法的流程图;

图2为本发明一个实施例所提供的原始语音在混响时间为0.8s,通道数为4时的语音时域波形图;

图3为本发明一个实施例所提供的mclp算法处理后的语音在混响时间为0.8s,通道数为4时的语音时域波形图;

图4为本发明一个实施例所提供的基于mclp的语音去混响方法处理后的语音在混响时间为0.8s,通道数为4时的语音时域波形图;

图5为本发明一个实施例所提供的原始语音在混响时间为0.8s,通道数为4时的语音频谱图;

图6为本发明一个实施例所提供的mclp算法处理后的语音在混响时间为0.8s,通道数为4时的语音频谱图;

图7为本发明一个实施例所提供的基于mclp的语音去混响方法处理后的语音在混响时间为0.8s,通道数为4时的语音频谱图;

图8为本发明一个实施例所提供的在不同混响时间下采用主观语音质量评估对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图9为本发明一个实施例所提供的在不同混响时间下采用语音混响模型能量比对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图10为本发明一个实施例所提供的在不同混响时间下采用加权分段直达混响能量比对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图11为本发明一个实施例所提供的在不同混响时间下采用倒谱距离对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图12为本发明一个实施例所提供的在不同语音通道数下采用主观语音质量评估对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图13为本发明一个实施例所提供的在不同语音通道数下采用语音混响模型能量比对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图14为本发明一个实施例所提供的在不同语音通道数下采用加权分段直达混响能量比对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图15为本发明一个实施例所提供的在不同语音通道数下采用倒谱距离对原始混响语音、mclp算法处理后的语音以及基于mclp的语音去混响方法处理后的语音的质量评测折线图;

图16为本发明一个实施例所提供的一种基于mclp的语音去混响系统的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于mclp的语音去混响方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于mclp的语音去混响方法及系统的具体方案。

请参阅图1,其示出了本发明一个实施例提供的一种基于mclp的语音去混响方法的流程图,该方法包括以下步骤:

步骤s001,通过对采集的混响环境的混响语音进行分帧数据处理,获得当前帧的期望信号。

具体的步骤包括:

1)通过混响信号在时频域的数学表示计算出预测系数

在封闭的声学空间内,设立单个语音信源和由m个全向麦克风组成的麦克风阵列,阵列形状不做要求,对麦克风阵列接收到的多通道语音信号进行逐帧的加窗、以帧长为l分帧和l点短时傅里叶变换(shorttimefouriertransform,stft),由于混响语音在时域是混响房间冲击响应和语音卷积的结果,在频域是两者相乘之后的结果,则第m个通道麦克风接收到的混响信号在时频域可以表示为:

其中,t表示语音帧的时域序号;l表示每帧处的频域频点序号,l∈{1,2,…,l};τ表示线性预测延迟;表示在第t帧第l个频点处的混响语音的频点分量;st,l表示在第t帧第l个频点处的纯净语音的频点分量;表示第m个麦克风对第n个麦克风接收信号的预测系数,也可以称为信源到第m个麦克风的混响房间冲击响应,各通道预测系数的长度设为常数k;k表示预测系数序号,k∈{1,2,…,k}。

需要说明的是,预测延迟τ通常取非负整数0到3,预测系数长度k通常取为5到20之间的正整数;x,s和μ均为复数形式。

2)根据预测系数获得第一预测系数矩阵,利用第一预测系数矩阵和经过分帧处理后的混响语音计算出期望信号。

将上述(1)式利用矩阵形式重新简写为:

其中有:

表示第m个麦克风的预测系数矩阵,xt-τ,l表示在当前帧下预测后期混响所需要的信号观测序列,本发明实施例中假设期望信号st,l为零均值的时变高斯模型,与后期混响分量部分相互独立,利用mclp算法估计得到预测系数之后,求得当前帧的期望信号:

需要说明的是,在本发明实施例中,对本发明的方法进行上机实验仿真,具体的:

仿真环境为在大小为7.0×3.5×2.4(m)的封闭房间内,放置八个全向麦克风组成的均匀线阵,即m=8,麦克风间隔均为10cm,麦克风坐标为[6.0,1.35~2.05,1.0],信源坐标为[1.0,1.7,1.0]。利用镜像源模型法生成不同混响时间下的多通道混响语音,时长为8s,采样频率fs=16000hz。加窗分帧时,帧长设定为l=512样点,窗函数为长度为512的汉明窗,预测系数长度k=10,预测延迟τ=3。

步骤s002,获取期望信号的语音混响能量比和信噪估计值,代入几何谱减公式对混响语音进行谱减得到期望信号的第一功率谱密度;语音混响能量比与第一能量比值呈正相关关系,信噪估计值与第二能量比值呈正相关关系;第一能量比值为混响语音和混响分量的能量比值;第二能量比值为期望语音和混响分量的能量比值。

具体的步骤包括:

1)估计后期混响分量的第二功率谱密度。

基于混响时间建模为指数衰减模型,并采用平滑计算的方式逐帧估计,用符号表示后期混响的第二功率谱密度为:

其中,r表示语音帧在时域的离散帧移长度,通常设定为帧长l的二分之一或四分之一,在本发明实施例中,帧移r=128样点;∈为常数,表示估计第二功率谱密度的最小值,通常取0.0001;表示混响语音信号在第t-τ帧处的第三功率谱密度,本发明实施例通过麦克风所有通道接收信号的前δ帧信号的平均计算求得:

其中,τ表示预测的延迟帧数,第t帧前的τ帧不参与预测,δ表示在第t-τ帧前后涵盖到的参与计算的帧数,δ取常数6到10,一般要求δ大于等于2τ。

作为一个示例,在本发明实施例中,δ取10。

α(t,l)定义为与混响时间相关的变量:

其中,fs表示语音采样率,单位为hz;rt60(t,l)表示当前语音帧频点处估计的混响时间,单位为秒,通过各类混响时间估计算法求得。

作为一个示例,本发明实施例中通过最大似然估计法计算求得混响时间rt60:

其中,常数ρ表示声波衰减速率,可利用似然函数通过最大似然法则求解得到。似然函数中,l表示帧长,a和d(i)分别为:

其中,表示ar表示当前语音信号的原始幅值,v(i)表示均值为0,方差为1的离散正态分布的第i样点处的值,有i∈{0,…,n-1},rt(i)表示设定的混响时间搜索序列,rt=[0.1,0.2,…,1.2]。

2)利用几何谱减估计期望信号的第一功率谱密度。

具体的步骤包括:

a)计算语音混响能量比。

通过对第一能量比值和历史语音混响能量比进行平滑计算,获得当前帧的语音混响能量比。

具体计算公式为:

其中,rx/r表示语音混响能量比;β1表示第一平滑因子,0<β1<1;表示第一能量比值,形式为一个常数。

作为一个示例,本发明实施例中,β1取0.9。

b)计算信噪估计值。

具体计算公式为:

其中,rd/r表示信噪估计值;表示第二能量比值,d′t,l表示估计的期望信号频点幅值,|d′t,l|2表示期望信号的能量;β2表示第二平滑因子,0<β2<1。

需要说明的是,得到d′t,l之后,将其带入到公式(2)中计算下一帧的rd/r;在计算第一帧时,采用|xt,l|来替代d′t,l,将rx/r初始化为1.0。

作为一个示例,本发明实施例中β2取0.9。

c)根据期望信号频点幅值获得期望信号的第一功率谱密度。

其中,d′t,l为估计的期望信号频点幅值,β3为第三平滑因子,0<β3<1,在处理第一帧时,用代替进行计算。

作为一个示例,在本发明实施例中,β3取0.9。

步骤s003,根据第一功率谱密度获取去混响后的语音信号。

具体的步骤包括:

1)根据第一功率谱密度利用加权递归最小二乘公式获得当前帧各通道处的期望信号频点。

dt,l=xt,l-gl(t-1)hxt-τ,l

其中有:

其中,dt,l表示当前帧各通道处的期望信号频点,gl(t)表示第二预测系数矩阵,kl(t)表示更新预测系数的增益向量,矩阵尺寸为(mk×1),φl(t)用于存储空间相关矩阵的逆矩阵,矩阵尺寸为(mk×mk);α为常数,表示第四平滑因子。

作为一个示例,本发明实施例中,α取0.9999。

需要说明的是,在计算第一帧之前,将gl(t)初始化为全零矩阵,φl(t)初始化为单位对角矩阵。

2)对期望信号频点进行短时傅里叶逆变换,获得去混响后的语音信号。

对dt,l其进行短时傅里叶逆变换后,算法输出为去混响语音信号帧。

步骤s004,存储当前帧的第一功率谱密度,并将其作为下一帧的历史第一功率谱密度,对下一帧的第一功率谱密度进行更新,直至获得所有去混响语音信号。

具体的步骤包括:

由于期望信号建模为零均值的时变高斯模型,故将第一功率谱密度作为方差,存储当前求得的语音帧第一功率谱密度,并将其作为代入下一帧的计算公式(3),修正第一功率谱密度的估计过程:

判断是否处理完所有语音帧,若还有剩余语音帧,继续进行下一帧数据的去混响计算,直至处理完所有语音帧。

综上所述,本发明实施例通过对采集的混响环境的混响语音进行分帧数据处理,获得当前帧的期望信号;获取期望信号的语音混响能量比和信噪估计值,代入几何谱减公式对混响语音进行谱减得到期望信号的第一功率谱密度;语音混响能量比与混响语音和混响分量的第一能量比值呈正相关关系,信噪估计值与期望语音和混响分量的第二能量比值呈正相关关系;根据第一功率谱密度获取去混响后的语音信号;存储当前帧的第一功率谱密度,并将其作为下一帧的历史第一功率谱密度,对下一帧的第一功率谱密度进行更新,直至获得所有去混响语音信号。

通过上机实验仿真,本发明实施例对基于mclp的语音去混响方法进行了性能测评,如图2--图15所示,图中的改进mclp算法即为本发明实施例所提供的一种基于mclp的语音去混响方法,通过观察图2-图4的时域波形、图5-图7的频谱波形可以发现,本发明实施例相比mclp算法的处理语音,在时域波形的包络和语谱图波纹上显得更加清晰干净,减少了拖尾模糊的效应,尤其是在语音开始段,时域和频域波形的清晰度相比mclp算法都有非常明显的提升,不再臃肿和模糊,说明混响成分的去除更加彻底,算法的整体稳定性更高。

在四种语音质量评价标准中,主观语音质量评估方法(perceptualevaluationofspeechquality,pesq)、语音混响模型能量比(speech-to-reverberationmodulationenergyratio,srmr)以及加权分段直达混响能量比(frequencyweightedsnrseg,fwsegsnr)的评分越高,倒谱距离(cepstrumdistance,cd)的评分越低,代表语音质量越好。通过观察图8-图11的折线图可以发现,本发明实施例在0.2s至1.2s的不同的混响时间下,四种评价指标的评分均明显优于mclp算法,且性能提升量都保持稳定,证明了本发明实施例的优越性。通过观察图12-图15的折线图可以发现,本发明实施例在2、4、6、8不同的语音通道数情况下,四种评价指标相比于mclp算法也有明显的提升,且语音通道数越高,性能提升幅度越大。

通过对比表明,基于mclp的语音去混响方法处理的语音质量明显优于原始mclp算法,本发明实施例可以在一定程度上进一步提升去混响性能。

基于与上述方法相同的发明构思,本发明另一个实施例提供了一种基于mclp的语音去混响系统,请参阅图16,该系统包括以下模块:

混响语音预处理模块1001、第一功率谱密度获取模块1002、语音去混响模块1003以及第一功率谱密度更新模块1004。

混响语音预处理模块1001用于通过对采集的混响环境的混响语音进行分帧数据处理,获得当前帧的期望信号;第一功率谱密度获取模块1002用于获取期望信号的语音混响能量比和信噪估计值,代入几何谱减公式对混响语音进行谱减得到期望信号的第一功率谱密度;语音混响能量比与第一能量比值呈正相关关系,信噪估计值与第二能量比值呈正相关关系;第一能量比值为混响语音和混响分量的能量比值;第二能量比值为期望语音和混响分量的能量比值;语音去混响模块1003用于根据第一功率谱密度获取去混响后的语音信号;第一功率谱密度更新模块1004用于存储当前帧的第一功率谱密度,并将其作为下一帧的历史第一功率谱密度,对下一帧的第一功率谱密度进行更新,直至获得所有去混响语音信号。

优选的,混响语音预处理模块包括:

预测系数计算模块,用于通过混响信号在时频域的数学表示计算出预测系数;

期望信号计算模块,用于根据预测系数获得第一预测系数矩阵,利用第一预测系数矩阵和经过分帧处理后的混响语音计算出期望信号。

优选的,第一功率谱密度获取模块包括:

语音混响能量比获取模块,用于通过对第一能量比值和历史语音混响能量比进行平滑计算,获得当前帧的语音混响能量比。

优选的,第一功率谱密度获取模块包括:

信噪估计值计算模块,用于计算信噪估计值:

其中,rd/r表示信噪估计值;表示第二能量比值,d′t,l表示估计的期望信号频点幅值,|d′t,l|2表示期望信号的能量,表示混响分量的第二功率谱密度;β2表示第二平滑因子;rx/r表示语音混响能量比。

优选的,语音去混响模块包括:

期望信号频点获取模块,用于根据第一功率谱密度利用加权递归最小二乘公式获得当前帧各通道处的期望信号频点;

去混响语音信号计算模块,用于对期望信号频点进行短时傅里叶逆变换,获得去混响后的语音信号。

综上所述,本发明实施例利用混响语音预处理模块1001通过对采集的混响环境的混响语音进行分帧数据处理,获得当前帧的期望信号;通过第一功率谱密度获取模块1002获取期望信号的语音混响能量比和信噪估计值,代入几何谱减公式对混响语音进行谱减得到期望信号的第一功率谱密度;通过语音去混响模块1003根据第一功率谱密度获取去混响后的语音信号;通过第一功率谱密度更新模块1004存储当前帧的第一功率谱密度,并将其作为下一帧的历史第一功率谱密度,对下一帧的第一功率谱密度进行更新,直至获得所有去混响语音信号。本发明实施例可以在一定程度上进一步提升mclp算法去混响性能,获得更优质的去混响语音。

需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜