一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音增强方法、装置、电子设备及存储介质与流程

2021-08-24 16:08:00 来源:中国专利 TAG:语音 电子设备 及非 装置 可读
一种语音增强方法、装置、电子设备及存储介质与流程

本公开实施例涉及语音处理技术领域,具体涉及一种语音增强方法、装置、电子设备及非暂态计算机可读存储介质。



背景技术:

随着电商直播行业的发展和移动端设备的普及,直播场景也逐渐多样化,不再限于传统的直播间,在户外、商场和市场等开阔喧嚷的场景均可以使用移动端设备进行直播。

影响直播观感的两个主要因素是画面和声音,而直播场景的多样化对主播实时声音信号的处理带来了新的挑战,例如直播场景声音混杂,导致主播的声音不清晰。

现有技术中采用语音增强方案从混杂的声音中提取出主播的声音。但是,目前的语音增强方案对非平稳突发性噪声抑制能力差,增强后的语音中存在残留噪声,残留噪声会导致主观听感差,甚至影响语音信息传达的可懂度。另外,目前的语音增强方案求得解析解的过程中存在很多假设,难以适应复杂多变的实际场景。上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种语音增强方法、装置、电子设备及存储介质。

第一方面,本公开实施例提出一种语音增强方法,所述方法包括:

获取带噪语音信号;

将所述带噪语音信号的全频带划分为第一频宽和第二频宽;

对所述第一频宽对应的带噪语音信号进行降噪处理,得到所述第一频宽对应的第一增益;

基于所述第一增益预测所述第二频宽对应的第二增益;

基于所述第一增益和所述第二增益,确定所述带噪语音信号在所述全频带下的增强语音信号。

第二方面,本公开实施例还提出一种语音增强装置,所述装置包括:

获取单元,用于获取带噪语音信号;将所述带噪语音信号的全频带划分为第一频宽和第二频宽;

降噪单元,用于对所述第一频宽对应的带噪语音信号进行降噪处理,得到所述第一频宽对应的第一增益;

预测单元,用于基于所述第一增益预测所述第二频宽对应的第二增益;

确定单元,用于基于所述第一增益和所述第二增益,确定所述带噪语音信号在所述全频带下的增强语音信号。

第三方面,本公开实施例还提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面所述语音增强方法的步骤。

第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面所述语音增强方法的步骤。

可见,本公开的至少一个实施例中,通过将带噪语音信号的全频带划分为低频带(第一频宽)和中高频带(第二频宽),仅对低频带进行降噪处理,而对中高频带进行增益预测,无需对全频带进行降噪处理,即可实现全频带语音增强。相比现有对全频带进行降噪处理的方案,本公开可减少处理的数据量和复杂度,提升了处理的效率和速度,适合在移动端设备部署,实现流式全频带语音增强。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种语音增强的示例性应用场景图;

图2是本公开实施例提供的一种语音增强装置的示例性框图;

图3是本公开实施例提供的一种电子设备的示例性框图;

图4是本公开实施例提供的一种语音增强方法的示例性流程图;

图5是本公开实施例提供的另一种语音增强方法的示例性流程图;

图6是本公开实施例提供的一种确定第一增益的示例性流程图;

图7是本公开实施例提供的一种时间卷积网络的示例性架构图;

图8是本公开实施例提供的一种确定第一频宽的增强语音信号的示例性流程图;

图9是一种带噪语音的示例性波形图及对应的语谱图;

图10是图9所示的带噪语音经过omlsa处理后得到的波形图及对应的语谱图;

图11是图9所示的带噪语音经过本公开实施例提供的语音增强方法处理后得到的波形图及对应的语谱图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

为了便于理解本公开实施例的方案,对本公开实施例涉及的名词进行如下解释:

语音增强:在现实环境中,语音可能会被非平稳或嘈杂的背景噪声所干扰,例如火车,汽车,工厂和街道的噪音。背景噪声干扰会严重影响语音处理系统的性能,因此,可以通过预先对背景噪声所干扰的语音进行增强来提升语音处理系统的鲁棒性。语音增强的主要目的是抑制噪声并提高带噪语音的整体感知质量和清晰度。

全频带:语音信号的频宽决定了频率成分的丰富度,频率成分越多,语音信号的音质越高,越接近真实模拟采样声音。不同场景下全频带的定义略有不同,一般认为实时互动场景类的语音信号全频带指48khz采样率。

流式处理:指语音处理系统可以固定延时或低延时输出处理后的数据流。

tcn(temporalconvolutionalnetwork,时间卷积网络)网络结构:mlp(multi-layerperceptions)多层感知机模型缺少获取长期(longterm)信息的能力,rnn(recurrentneuralnetwork,循环神经网络)如lstm(longshort-termmemory,长短期记忆)等网络结构则具有获取长期信息时序依赖关系的能力,但具有高延时、训练复杂度高等缺陷。为了解决这些缺陷,在各种序列建模任务中出现了tcn网络结构来代替rnn类网络结构,tcn网络结构是在传统的cnn(convolutionalneuralnetworks,卷积神经网络)网络结构中引入因果卷积(causalconvolutions)和空洞卷积(dilatedconvolutions)获得指数级增大的感受野,同时融合稠密连接网络(densenet)和残差网络(resnet)使得tcn网络结构可以设计的很深并能得到有效的长期历史信息。

单通道语音增强

omlsa(optimally-modifiedlog-spectralamplitude,最优改进对数谱幅度估计)是一种单通道语音增强(single-channelspeechenhancement)方案。omlsa存在多种假设,难以适应复杂多变的实际场景。

1、假设噪声是加性噪声

噪声和语音的关系比较复杂,一般认为存在两种关系:加性关系和卷积关系,生活中常见的噪声为加性噪声,基于最小均方误差准则的幅度谱和对数谱估计降噪算法主要也是针对加性噪声进行抑制,此时带噪语音时域信号y(t)可看作是语音时域信号x(t)与噪声时域信号n(t)的加和,对信号两边进行短时傅里叶变换stft(short-timefouriertransform),就可以得到频域的表现形式,在假定是加性噪声的条件下,频域满足相加的关系。

2、假设语音和噪声间相互独立,以及假设带噪语音、干净语音和噪声信号的分布都满足高斯分布

同时假设语音和噪声间相互独立,对两边取期望,再假设带噪语音、干净语音和噪声信号的分布都满足高斯分布,则可以得到语音和噪声之间方差的关系。

3、二元假设模型

通过vad(voiceactivitydetection,语音活动检测)将帧分为两种状态(语音帧和非语音帧),得到二元假设模型,进而可以进行噪声方差的迭代更新估计,一般来说,只会在假设检验的h0状态下更新噪声的方差,来最大程度的保证语音的不失真。

4、假设当前帧的语音幅度只和当前帧的带噪语音信号相关,和其他帧不相关

将整个推导过程纳入概率框架下,首先可以得到带噪语音的概率密度函数,在语音存在的情况下,可以得到对语音幅度谱的估计。

由于对语音幅度谱的估计没有考虑到人耳对声音的压缩特性,因此,提出了对对数谱的估计。但是对语音幅度谱的估计和对对数谱的估计都忽略了在非语音帧时对干净语音的估计,尤其在低信噪比情况下,vad的判断很容易出错,进而造成语音的损伤,因此,进一步引入了语音存在概率,尽可能避免语音的损伤,同时引入了一个最小增益,表示在非语音帧的情况下,尽可能避免语音失真。

可见,omlsa存在如下问题:

(1)无法对非平稳突发性噪声进行有效抑制,噪声的功率谱密度(psd,powerspectraldensity)估计有较大的跟踪延迟,并需要偏置补偿。

(2)存在残留噪声,影响主观听感。

(3)需要假设语音信号和噪声信号的分布模型,与实际场景存在出入。

因此,为解决omlsa存在的至少一个问题,本公开实施例提供一种语音增强方法、装置、电子设备及非暂态计算机可读存储介质,将全频带语音划分为低频语音和中高频语音,通过对低频语音进行降噪处理,预测低频语音的时频增益,得到频域幅度谱,并结合低频语音的相位谱,合成低频语音增强后的时域数据;进而利用低频语音的时频增益,预测中高频语音的时域增益,并将该时域增益作用于中高频语音;最后将低频语音增强后的时域数据和中高频语音增强后的时域数据合成全频带下的增强语音信号,实现对全频带语音进行增强。本公开实施例对待处理的语音和噪声信号不做任何分布假设,可适应复杂多变的实际场景。

图1为本公开实施例提供的一种语音增强的示例性应用场景图。如图1所示,将带噪语音信号输入语音增强装置10,由语音增强装置10对带噪语音信号进行降噪,输出带噪语音信号在全频带下的增强语音信号。

在图1中,语音增强装置10包括但不限于:低频语音降噪单元11和中高频语音预测单元12。

低频语音降噪单元11,用于从带噪语音信号中提取出低频语音,通过对低频语音进行降噪处理,得到低频语音的时频增益,进而基于低频语音的时频增益得到低频语音的频域幅度谱,并结合低频语音的相位谱,合成低频语音增强后的时域数据。

中高频语音预测单元12,用于利用低频语音降噪单元11得到的低频语音的时频增益,预测中高频语音的时域增益,并将该时域增益作用于中高频语音,例如,将该时域增益与中高频语音相乘运算,得到中高频语音增强后的时域数据。

在一些实施例中,中高频语音预测单元12可基于低频语音的时频增益估计出高频成分中的先验信噪比及后验信噪比,进而基于高频成分中的先验信噪比及后验信噪比,得到语音存在概率,并基于平滑后的后验信噪比和语音存在概率,得到中高频语音的时域增益。

在一些实施例中,语音增强装置10还可包括:增强语音信号输出单元,用于将低频语音降噪单元11得到的低频语音增强后的时域数据和中高频语音预测单元12得到的高频语音增强后的时域数据,合成全频带下的增强语音信号,实现对全频带语音进行增强。

在一些实施例中,语音增强装置10中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如低频语音降噪单元11或中高频语音预测单元12可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图2为本公开实施例提供的一种语音增强装置20的示例性框图。在一些实施例中,语音增强装置20可以实现为图1中的语音增强装置10或者语音增强装置10的一部分,用于实现对全频带语音进行增强。

在图2中,语音增强装置20可包括但不限于:获取单元21、降噪单元22、预测单元23和确定单元24。

获取单元21

获取单元21,用于获取带噪语音信号,并将带噪语音信号的全频带划分为第一频宽和第二频宽,第一频宽和第二频宽构成带噪语音信号的全频带。其中,第一频宽的上限(最大频率)小于或等于第二频宽的下限(最小频率)。在一些实施例中,第一频宽为带噪语音信号的低频段,例如0至16khz;第二频宽为带噪语音信号的中高频段,例如16khz至48khz。

在一些实施例中,获取单元21可基于移动端设备的语音处理能力信息,确定第一频宽,进而基于第一频宽,将带噪语音信号的全频带划分为第一频宽和第二频宽。

在一些实施例中,移动端设备的语音处理能力信息可通过多种方式确定,例如,可以通过语音测试数据,测试移动端设备的处理速度,在满足流式处理的前提下,将移动端设备能够处理的最大频率作为该移动端设备的语音处理能力信息。

举例说明:在满足流式处理的前提下,移动端设备能够处理的最大频率为24khz,那么,可确定第一频宽为0至24khz;相应地,第二频宽为24khz至48khz。

在一些实施例中,获取单元21可确定第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱。在一些实施例中,获取单元21获取的带噪语音信号是全频带的信号,也即带噪语音信号为0至48khz,因此,可以得到全频带所对应的幅度谱和相位谱,将带噪语音信号的全频带划分为第一频宽和第二频宽后,可从全频带所对应的幅度谱和相位谱中确定出第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱。关于幅度谱和相位谱的获取属于本领域的成熟技术,在此不再赘述。

在一些实施例中,获取单元21可对获取的带噪语音信号进行低频采样和时频变换,得到第一频宽的幅度谱和相位谱。例如,获取单元21对一帧语音信号进行16khz采样,由于一帧语音信号持续10ms,因此采样后得到160个采样点。获取单元21对这160个采样点进行时频变换,例如512点fft(fastfouriertransform,快速傅立叶变换),得到第一频宽的幅度谱和相位谱。需要说明的是,考虑到512点fft的对称性,因此,可由(512÷2 1=257)点,作为降噪单元22的输入。

降噪单元22

降噪单元22,用于对第一频宽对应的带噪语音信号进行降噪处理,得到第一频宽对应的第一增益。在一些实施例中,降噪单元22对第一频宽的幅度谱进行降噪处理,得到第一频宽对应的第一增益。其中,第一增益为低频带噪语音信号幅度谱的增益,且第一增益为时频域增益(简称时频增益)。例如,降噪单元22可对获取单元21输出的257点数据进行降噪处理。

在一些实施例中,降噪单元22可基于第一频宽的幅度谱,确定第一频宽对应的第一信号能量比。其中,第一信号能量比例如为以下任意一种但不限于:语音与噪声的信噪比、语音与噪声的功率比、语音与噪声的幅度比、噪声与语音的功率比、噪声与语音的幅度比等,其中,所述语音可以为干净语音,也即不带噪声的语音,也可以为带有噪声的语音。

在一些实施例中,降噪单元22可基于第一频宽的幅度谱,确定第一频宽的语谱图,进而基于第一频宽的语谱图确定第一频宽对应的第一信号能量比。

在一些实施例中,降噪单元22可对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,其中,第一提取用于对第一频宽的幅度谱进行降维处理,将奇数维数据降维成偶数维数据,便于后续对偶数维数据进行特征第二提取。可见,特征第一提取并没有进行实质性地特征提取,因此,特征第一提取可以理解特征预提取或表层特征提取,是为后续实质性地特征提取而做的准备工作。举例说明:降噪单元22可对获取单元21输出的257点数据(可以理解为257维数据)进行降维处理,得到256点数据(可以理解为256维数据)。

在一些实施例中,降噪单元22可在进行特征第一提取后,对第一提取得到的特征(例如偶数维数据)进行特征第二提取,其中,第二提取用于对具有时序的输入进行特征提取。相比特征第一提取,特征第二提取属于实质性地特征提取,因此,特征第二提取也可以理解为抽象特征提取。降噪单元22在进行特征第二提取后,可基于第二提取得到的特征,输出第一频宽对应的第一信号能量比。

在一些实施例中,降噪单元22可通过时间卷积网络(tcn)对第一频宽的幅度谱(或第一频宽的语谱图)进行降噪处理,得到第一频宽对应的先验信号能量比。其中,tcn网络能够实现对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,实现对第一频宽的幅度谱(或第一频宽的语谱图)进行降维处理。tcn网络还能够对第一提取得到的特征进行特征第二提取,实现对具有时序的输入进行特征提取。tcn网络还能够基于第二提取得到的特征,输出第一频宽对应的先验信号能量比。

在一些实施例中,tcn网络包括第一全连接层、串联的多个空洞因果卷积层和第二全连接层。其中,第一全连接层对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,实现对第一频宽的幅度谱(或第一频宽的语谱图)进行降维处理,例如,将257维数据降维得到256维数据。串联的多个空洞因果卷积层对第一提取得到的特征进行特征第二提取,其中,空洞因果卷积层可提升tcn网络的整体感受野。第二全连接层基于第二提取得到的特征,输出第一频宽对应的第一信号能量比,另外,与第一全连接层的功能相反,第二全连接层还进行增维处理,例如,将256维数据增维得到257维数据。

需要说明的是,上述实施例中,考虑到语音信号时序序列的特点及资源受限的应用场景,并没有采用常规的rnn类结构捕获长期上下文信息,而是采用串联的多个空洞因果卷积层对第一提取得到的特征进行特征第二提取,提升tcn网络的整体感受野,另外,空洞因果卷积层从当前时间步推断时,不会用到未来时间步获取到的信息,同时将归一化(norm)的方式由现有的layernorm改进为framenorm,具体地,现有的layernorm对每一层的所有神经元进行归一化,也即对每个深度上的输入进行归一化,主要对rnn作用明显;而上述实施例中,framenorm的归一化仅依赖于前后帧的结果,相比现有技术,归一化范围缩小,效率更高。

在一些实施例中,降噪单元22可对第一信号能量比进行增益处理,得到第一频宽对应的第一增益。其中,增益处理可包括但不限于:平滑处理和增益补偿。所述平滑处理可以提升语音听感。所述增益补偿可以保证语音的保真度。

在一些实施例中,降噪单元22可基于第一信号能力比,确定初始增益,进而对初始增益进行平滑处理;其中,确定初始增益的过程可沿用现有成熟技术,在此不再赘述。在一些实施例中,所述平滑处理包括但不限于去除初始增益中的异常突变点,进而达到较好的连续的增强后语音听感。

在一些实施例中,降噪单元22可对平滑处理得到的结果进行增益补偿,得到第一频宽对应的第一增益。在一些实施例中,所述增益补偿是针对语音的增益补偿,包括但不限于对平滑处理得到的结果做统计分布特性分析,识别出语音并做相应的补偿,进而得到第一频宽对应的第一增益。在一些实施例中,所述增益补偿的具体方式也可以沿用现有成熟技术,在此不再赘述。

在一些实施例中,降噪单元22得到的第一增益的函数形式由假设的干净语音和噪声的统计模型及优化的准则共同决定。综合考虑采用了基于最小均方误差mmse和干净语音及噪声的高斯分布假设的mmse-stsa增益函数。

在一些实施例中,降噪单元22可调节第一增益的大小。例如,在对第一信号能量比进行增益处理,得到第一频宽对应的第一增益后,将第一增益与降噪权重相乘,实现调节第一增益的大小,其中,降噪权重可基于用户信息预先确定。

例如,对于付费用户的降噪权重较高,而非付费用户的降噪权重较低,实现对于不同用户给出不同的降噪效果。又例如,对于付费商家(直播商家)的降噪权重较高,而非付费商家的降噪权重较低,实现对于不同直播商家给出不同的降噪效果。

预测单元23

预测单元23,用于基于降噪单元22得到的第一频宽对应的第一增益预测第二频宽对应的第二增益。其中,第二增益为中高频带噪语音信号的时域增益,也称为时域降噪增益。在一些实施例中,第一频宽为带噪语音信号的低频段,例如0至16khz;第二频宽为带噪语音信号的中高频段,例如16khz至48khz。

在一些实施例中,预测单元23可基于第一频宽对应的第一增益,确定第二频宽对应的语音存在概率。在一些实施例中,预测单元23可基于第一频宽对应的第一增益或第一频宽对应的第一信号能量比,估计出高频成分中的先验信噪比及后验信噪比,进而基于高频成分中的先验信噪比及后验信噪比,得到第二频宽对应的语音存在概率。

在一些实施例中,预测单元23可基于第一频宽对应的第一增益和第二频宽对应的语音存在概率,确定第二频宽对应的第二增益。在一些实施例中,预测单元23基于平滑后的高频成分的后验信噪比和第二频宽对应的语音存在概率,得到第二频宽对应的第二增益。

确定单元24

确定单元24,用于基于第一增益和第二增益,确定带噪语音信号在全频带下的增强语音信号。在一些实施例中,确定单元24基于第一频宽对应的第一增益、第二频宽对应的第二增益、第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱,得到带噪语音信号在全频带下的增强语音信号。

在一些实施例中,确定单元24可基于第一频宽对应的第一增益以及第一频宽的幅度谱和相位谱,得到第一频宽的增强语音信号。例如,确定单元24可将第一频宽对应的第一增益作用于第一频宽的语谱图,例如相乘运算,得到增加第一增益的语谱图;进而将增加第一增益的语谱图与第一频宽的相位谱进行语音合成,得到第一频宽的增强语音信号。

在一些实施例中,确定单元24可基于第二频宽对应的第二增益以及第二频宽的幅度谱和相位谱,得到第二频宽的增强语音信号。例如,确定单元24可将第二频宽对应的第二增益作用于第二频宽的时域信号(也即中高频带噪语音信号),得到第二频宽的增强语音信号。其中,第二频宽的时域信号可由第二频宽的幅度谱和相位谱得到。

在一些实施例中,确定单元24可基于第一频宽的增强语音信号和第二频宽的增强语音信号,得到带噪语音信号在全频带下的增强语音信号。

可见,本公开的至少一个实施例中,通过将带噪语音信号的全频带划分为低频带(第一频宽)和中高频带(第二频宽),仅对低频带进行降噪处理,而对中高频带进行增益预测,无需对全频带进行降噪处理,即可实现全频带语音增强。相比现有对全频带进行降噪处理的方案,本公开可减少处理的数据量和复杂度,提升了处理的效率和速度,适合在移动端设备部署,实现流式全频带语音增强。其中,移动端设备可以为智能手机、平板电脑、智能音响等可移动的电子设备。在一些实施例中,在视频会议、电话会议等场景中用于播放和/或采集音频的设备也可采用本公开实施例的方案。

可见,本公开的至少一个实施例中,结合数据驱动的监督学习思想设计tcn网络,对待处理的语音和噪声信号不做任何分布假设,同时通过构建以真实场景噪声为主的噪声数据集来“人为”的让tcn网络记住一些突发噪声,并从提高泛化能力的角度更改降噪策略进行语音反向降噪来使得tcn网络可以应对未见过的突发噪声,解决了omlsa算法存在的第(1)和第(3)点问题。

可见,本公开的至少一个实施例中,采用可以捕获长期上下文关键信息的tcn网络(空洞因果卷积)来提高tcn网络的表征能力,使得训练误差降低,显著减少残留噪声。

可见,本公开的至少一个实施例中,提出了一种基于tcn网络结构的适用于移动端设备的流式全频带语音增强方法,兼具低功耗和流式处理特点,适合云会议、直播、连麦、噪音较大的智能音响等业务的移动端场景部署。

在一些实施例中,语音增强装置20中各单元的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如获取单元21、降噪单元22、预测单元23和确定单元24中的至少两个单元可以实现为一个单元;获取单元21、降噪单元22、预测单元23或确定单元24也可以划分为多个子单元。可以理解的是,各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图3是本公开实施例提供的一种电子设备的结构示意图。如图3所示,电子设备包括:至少一个处理器31、至少一个存储器32和至少一个通信接口33。电子设备中的各个组件通过总线系统34耦合在一起。通信接口33,用于与外部设备之间的信息传输。可理解地,总线系统34用于实现这些组件之间的连接通信。总线系统34除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图3中将各种总线都标为总线系统34。

可以理解,本实施例中的存储器32可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。

在一些实施方式中,存储器32存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。

其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用任务。实现本公开实施例提供的语音增强方法的程序可以包含在应用程序中。

在本公开实施例中,处理器31通过调用存储器32存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器31用于执行本公开实施例提供的语音增强方法各实施例的步骤。

本公开实施例提供的语音增强方法可以应用于处理器31中,或者由处理器31实现。处理器31可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器31中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器31可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的语音增强方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器32,处理器31读取存储器32中的信息,结合其硬件完成方法的步骤。

图4为本公开实施例提供的一种语音增强方法的示例性流程图。该方法的执行主体为电子设备,在一些实施例中,电子设备为移动端设备,例如,智能手机、平板电脑、智能音响等可移动的电子设备。在一些实施例中,在视频会议、电话会议等场景中用于播放和/或采集音频的设备也可采用本公开实施例的方案。为便于描述,以下实施例中以电子设备为执行主体说明语音增强方法的流程。

如图4所示,在步骤401中,电子设备获取带噪语音信号,并将带噪语音信号的全频带划分为第一频宽和第二频宽,第一频宽和第二频宽构成带噪语音信号的全频带。其中,第一频宽的上限(最大频率)小于或等于第二频宽的下限(最小频率)。

在一些实施例中,第一频宽为带噪语音信号的低频段,例如0至16khz;第二频宽为带噪语音信号的中高频段,例如16khz至48khz。

在一些实施例中,电子设备可基于语音处理能力信息,确定第一频宽,进而基于第一频宽,将带噪语音信号的全频带划分为第一频宽和第二频宽。

在一些实施例中,电子设备的语音处理能力信息可通过多种方式确定,例如,可以通过语音测试数据,测试电子设备的处理速度,在满足流式处理的前提下,将电子设备能够处理的最大频率作为语音处理能力信息。

举例说明:在满足流式处理的前提下,电子设备能够处理的最大频率为24khz,那么,可确定第一频宽为0至24khz;相应地,第二频宽为24khz至48khz。

在一些实施例中,电子设备可确定第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱。在一些实施例中,电子设备获取的带噪语音信号是全频带的信号,也即带噪语音信号为0至48khz,因此,可以得到全频带所对应的幅度谱和相位谱,将带噪语音信号的全频带划分为第一频宽和第二频宽后,可从全频带所对应的幅度谱和相位谱中确定出第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱。关于幅度谱和相位谱的获取属于本领域的成熟技术,在此不再赘述。

在一些实施例中,电子设备可对获取的带噪语音信号进行低频采样和时频变换,得到第一频宽的幅度谱和相位谱。例如,电子设备对一帧语音信号进行16khz采样,由于一帧语音信号持续10ms,因此采样后得到160个采样点。电子设备对这160个采样点进行时频变换,例如512点fft(fastfouriertransform,快速傅立叶变换),得到第一频宽的幅度谱和相位谱。需要说明的是,考虑到512点fft的对称性,因此,电子设备可对(512÷2 1=257)点进行降噪处理。

在步骤402中,电子设备对第一频宽对应的带噪语音信号进行降噪处理,得到第一频宽对应的第一增益。在一些实施例中,电子设备可对第一频宽的幅度谱进行降噪处理,得到第一频宽对应的第一增益。其中,第一增益为低频带噪语音信号幅度谱的增益,且第一增益为时频域增益(简称时频增益)。例如,电子设备可对257点数据进行降噪处理。

在一些实施例中,电子设备可基于第一频宽的幅度谱,确定第一频宽对应的第一信号能量比;进而对第一信号能量比进行增益处理,得到第一频宽对应的第一增益。其中,增益处理可包括但不限于:平滑处理和增益补偿。所述平滑处理可以提升语音听感。所述增益补偿可以保证语音的保真度。

在一些实施例中,电子设备可基于第一频宽的幅度谱,确定第一频宽的语谱图,进而基于第一频宽的语谱图确定第一频宽对应的第一信号能量比。

在一些实施例中,第一信号能量比例如为以下任意一种但不限于:语音与噪声的信噪比、语音与噪声的功率比、语音与噪声的幅度比、噪声与语音的功率比、噪声与语音的幅度比等,其中,所述语音可以为干净语音,也即不带噪声的语音,也可以为带有噪声的语音。

在一些实施例中,电子设备可对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,第一提取用于对第一频宽的幅度谱进行降维处理;进而对第一提取得到的特征进行特征第二提取,第二提取用于对具有时序的输入进行特征提取;从而基于第二提取得到的特征,输出第一频宽对应的第一信号能量比。

特征第一提取可将奇数维数据降维成偶数维数据,便于后续对偶数维数据进行特征第二提取。可见,特征第一提取并没有进行实质性地特征提取,因此,特征第一提取可以理解特征预提取或表层特征提取,是为后续实质性地特征提取而做的准备工作。举例说明:降噪单元22可对获取单元21输出的257点数据(可以理解为257维数据)进行降维处理,得到256点数据(可以理解为256维数据)。

相比特征第一提取,特征第二提取属于实质性地特征提取,因此,特征第二提取也可以理解为抽象特征提取。

在一些实施例中,电子设备可通过时间卷积网络(tcn)对第一频宽的幅度谱(或第一频宽的语谱图)进行降噪处理,得到第一频宽对应的先验信号能量比。其中,tcn网络能够实现对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,实现对第一频宽的幅度谱(或第一频宽的语谱图)进行降维处理。tcn网络还能够对第一提取得到的特征进行特征第二提取,实现对具有时序的输入进行特征提取。tcn网络还能够基于第二提取得到的特征,输出第一频宽对应的先验信号能量比。

在一些实施例中,tcn网络包括第一全连接层、串联的多个空洞因果卷积层和第二全连接层。其中,第一全连接层对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,实现对第一频宽的幅度谱(或第一频宽的语谱图)进行降维处理,例如,将257维数据降维得到256维数据。串联的多个空洞因果卷积层对第一提取得到的特征进行特征第二提取,其中,空洞因果卷积层可提升tcn网络的整体感受野。第二全连接层基于第二提取得到的特征,输出第一频宽对应的第一信号能量比,另外,与第一全连接层的功能相反,第二全连接层还进行增维处理,例如,将256维数据增维得到257维数据。

需要说明的是,上述实施例中,考虑到语音信号时序序列的特点及资源受限的应用场景,并没有采用常规的rnn类结构捕获长期上下文信息,而是采用串联的多个空洞因果卷积层对第一提取得到的特征进行特征第二提取,提升tcn网络的整体感受野,另外,空洞因果卷积层从当前时间步推断时,不会用到未来时间步获取到的信息,同时将归一化(norm)的方式由现有的layernorm改进为framenorm,具体地,现有的layernorm对每一层的所有神经元进行归一化,也即对每个深度上的输入进行归一化,主要对rnn作用明显;而上述实施例中,framenorm的归一化仅依赖于前后帧的结果,相比现有技术,归一化范围缩小,效率更高。

在一些实施例中,电子设备可基于第一信号能力比,确定初始增益,进而对初始增益进行平滑处理;从而对平滑处理得到的结果进行增益补偿,得到第一频宽对应的第一增益。

在一些实施例中,平滑处理包括但不限于去除初始增益中的异常突变点,进而达到较好的连续的增强后语音听感。在一些实施例中,增益补偿是针对语音的增益补偿,包括但不限于对平滑处理得到的结果做统计分布特性分析,识别出语音并做相应的补偿,进而得到第一频宽对应的第一增益。

在一些实施例中,电子设备得到的第一增益的函数形式由假设的干净语音和噪声的统计模型及优化的准则共同决定。综合考虑采用了基于最小均方误差mmse和干净语音及噪声的高斯分布假设的mmse-stsa增益函数。

在一些实施例中,电子设备可调节第一增益的大小。例如,在对第一信号能量比进行增益处理,得到第一频宽对应的第一增益后,将第一增益与降噪权重相乘,实现调节第一增益的大小,其中,降噪权重可基于用户信息预先确定。

例如,对于付费用户的降噪权重较高,而非付费用户的降噪权重较低,实现对于不同用户给出不同的降噪效果。又例如,对于付费商家(直播商家)的降噪权重较高,而非付费商家的降噪权重较低,实现对于不同直播商家给出不同的降噪效果。

在步骤403中,电子设备基于第一频宽对应的第一增益预测第二频宽对应的第二增益。其中,第二增益为中高频带噪语音信号的时域增益,也称为时域降噪增益。

在一些实施例中,电子设备基于第一频宽对应的第一增益,确定第二频宽对应的语音存在概率;进而基于第一增益和语音存在概率,确定第二频宽对应的第二增益。

在一些实施例中,电子设备可基于第一频宽对应的第一增益或第一频宽对应的第一信号能量比,估计出高频成分中的先验信噪比及后验信噪比,进而基于高频成分中的先验信噪比及后验信噪比,得到第二频宽对应的语音存在概率。

在一些实施例中,电子设备可基于平滑后的高频成分的后验信噪比和第二频宽对应的语音存在概率,得到第二频宽对应的第二增益。

在步骤404中,电子设备基于第一增益和第二增益,确定带噪语音信号在全频带下的增强语音信号。在一些实施例中,电子设备可基于第一频宽对应的第一增益、第二频宽对应的第二增益、第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱,得到带噪语音信号在全频带下的增强语音信号。

在一些实施例中,电子设备可基于第一频宽对应的第一增益以及第一频宽的幅度谱和相位谱,得到第一频宽的增强语音信号;并基于第二频宽对应的第二增益以及第二频宽的幅度谱和相位谱,得到第二频宽的增强语音信号;进而基于第一频宽的增强语音信号和第二频宽的增强语音信号,得到带噪语音信号在全频带下的增强语音信号。

可见,本公开的至少一个实施例中,通过将带噪语音信号的全频带划分为低频带(第一频宽)和中高频带(第二频宽),仅对低频带进行降噪处理,而对中高频带进行增益预测,无需对全频带进行降噪处理,即可实现全频带语音增强。相比现有对全频带进行降噪处理的方案,本公开可减少处理的数据量和复杂度,提升了处理的效率和速度,适合在移动端设备部署,实现流式全频带语音增强。

可见,本公开的至少一个实施例中,结合数据驱动的监督学习思想,提出了一种基于tcn网络结构的适用于移动端的流式全频带语音增强方法,兼具低功耗和流式处理特点,适合云会议、直播、连麦等业务的移动端场景部署。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。

本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如语音增强方法各实施例的步骤,为避免重复描述,在此不再赘述。

图5是本公开实施例提供的一种语音增强方法的示例性流程图,该方法的执行主体为电子设备,为便于描述,以下实施例中省略执行主体进行语音增强方法流程的说明。

如图5所示,在步骤501中,带噪语音信号经过时域采样和频域变换,可得到第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱。其中,第一频宽和第二频宽构成带噪语音信号的全频带。在一些实施例中,第一频宽为带噪语音信号的低频段,例如0至16khz;第二频宽为带噪语音信号的中高频段,例如16khz至48khz。

在步骤502中,基于第一频宽的幅度谱,可确定第一频宽的语谱图,第一频宽的语谱图经过降噪处理,可得到第一频宽对应的第一增益。其中,第一增益为低频带噪语音信号幅度谱的增益,且第一增益为时频域增益(简称时频增益)。

在步骤503中,基于第一频宽对应的第一增益预测第二频宽对应的第二增益。其中,第二增益为中高频带噪语音信号的时域增益,也称为时域降噪增益。

在步骤504中,基于第一频宽对应的第一增益、第二频宽对应的第二增益、第一频宽的幅度谱和相位谱,以及第二频宽的幅度谱和相位谱,合成带噪语音信号在全频带下的增强语音信号。

在一些实施例中,基于第一频宽对应的第一增益以及第一频宽的幅度谱和相位谱,得到第一频宽的增强语音信号;基于第二频宽对应的第二增益以及第二频宽的幅度谱和相位谱,得到第二频宽的增强语音信号;基于第一频宽的增强语音信号和第二频宽的增强语音信号,合成带噪语音信号在全频带下的增强语音信号。

图6是本公开实施例提供的一种确定第一增益的示例性流程图,该流程适用于图5中确定第一增益的步骤502,也即,图6所示的流程为步骤502的一种实施方式。

如图6所示,将第一频宽的幅度谱输入时间卷积网络(tcn),由tcn网络进行降噪处理后输出第一频宽对应的第一信号能量比,本实施例中,第一信号能量比为先验信号能量比。

在一些实施例中,基于第一频宽的幅度谱,可确定第一频宽的语谱图,并将第一频宽的语谱图输入时间卷积网络(tcn),由tcn网络进行降噪处理后输出第一频宽对应的第一信号能量比。

在一些实施例中,tcn网络能够实现对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,实现对第一频宽的幅度谱(或第一频宽的语谱图)进行降维处理。tcn网络还能够对第一提取得到的特征进行特征第二提取,实现对具有时序的输入进行特征提取。tcn网络还能够基于第二提取得到的特征,输出第一频宽对应的先验信号能量比。

在步骤601中,第一信号能量比经过增益处理得到第一频宽对应的第一增益。其中,增益处理可包括但不限于:平滑处理和增益补偿。所述平滑处理可以提升语音听感。所述增益补偿可以保证语音的保真度。

在一些实施例中,基于第一信号能力比,确定初始增益,进而对初始增益进行平滑处理;从而对平滑处理得到的结果进行增益补偿,得到第一频宽对应的第一增益。

在一些实施例中,平滑处理包括但不限于去除初始增益中的异常突变点,进而达到较好的连续的增强后语音听感。在一些实施例中,增益补偿是针对语音的增益补偿,包括但不限于对平滑处理得到的结果做统计分布特性分析,识别出语音并做相应的补偿,进而得到第一频宽对应的第一增益。

图7是本公开实施例提供的一种时间卷积网络(tcn)的示例性架构图。在一些实施例中,图7所示的时间卷积网络可实现为图6中所示的时间卷积网络或其一部分。

如图7所示,时间卷积网络包括第一全连接层、串联的多个空洞因果卷积层和第二全连接层。其中,第一全连接层对第一频宽的幅度谱(或第一频宽的语谱图)进行特征第一提取,实现对第一频宽的幅度谱(或第一频宽的语谱图)进行降维处理,例如,将257维数据降维得到256维数据。串联的多个空洞因果卷积层对第一提取得到的特征进行特征第二提取,其中,空洞因果卷积层可提升tcn网络的整体感受野。第二全连接层基于第二提取得到的特征,输出第一频宽对应的第一信号能量比,另外,与第一全连接层的功能相反,第二全连接层还进行增维处理,例如,将256维数据增维得到257维数据。

图8是本公开实施例提供的一种确定第一频宽的增强语音信号的示例性流程图。第一频宽为带噪语音信号的低频段,例如0至16khz。

如图8所示,在确定带噪语音信号801第一频宽的幅度谱和相位谱后,基于第一频宽的幅度谱得到带噪语音信号801第一频宽的语谱图802。

将第一频宽的语谱图802作为残差卷积网络(resnetconvnetwork)803的输入,resnetconvnetwork803可以实现为tcn网络结构,包括第一全连接层(fc)8031、串联的多个空洞因果卷积层(convblocks)8032和第二全连接层(fc)8033。

resnetconvnetwork803的输出为第一频宽对应的第一信号能量比,本实施例中,第一信号能量比为先验信号能量比,例如,先验信噪比。

将resnetconvnetwork803输出的先验信号能量比由增益后处理(gainpostprocessing)804进行增益处理,增益处理可包括但不限于:平滑处理和增益补偿。所述平滑处理可以提升语音听感。所述增益补偿可以保证语音的保真度。

gainpostprocessing804的输出即为第一频宽对应的第一增益。第一增益为低频带噪语音信号幅度谱的增益,且第一增益为时频域增益(简称时频增益),因此,可将第一增益作用于第一频宽的语谱图802,例如相乘运算,得到增加第一增益的语谱图805。

将增加第一增益的语谱图805和第一频宽对应的相位谱进行语音合成(audiosynthesis)806,可得到第一频宽的增强语音信号807。

基于图8所示的实施例,预测第二频宽对应的第二增益的过程描述如下(1)至(6):

(1)对第一增益分段,默认分为4段,每段长度为deltabwehb。

(2)第一频宽对应的第一信号能量比为先验信噪比snrlocprior;相应地,后验信噪比记为snrlocpost。

snrlocpost(i)=snrlocprior(i) 1.0(i=0,1,…binnum)

其中,i代表频率维的索引,范围为0至binnum,binnum为最大频率维索引,一般为257。

其中,loglrttimeavg(i,t)代表第i个频点第t帧的语音状态似然因子,lrt_tavg为时间域上的平滑因子。其中,lrt_tavg可以为0.5。

其中,loglrttimeavgksum为所有频率点上的平均语音状态似然因子。

(3)widthprior为先验tcn网络中sigmoid映射的参数,作用为对非语音段做值域范围伸缩。widthprior的默认值为widthprior0。如果loglrttimeavgksum<threshprior0,则widthprior的默认值为widthprior1。其中,widthprior0可以为4,widthprior1=2×widthprior0。

(4)进行tanh映射

indprior=weightindprior0×(0.5×(tanh(widthprior×(loglrttimeavgksum-threshprior0)) 1.0))

priorspeechprob(t)=priorspeechprob(t-1) priorupdate×(indprior-priorspeechprob(t-1))

其中,weightindprior0可以为1,threshprior0可以为0.5,priorupdate可以为0.1,priorspeechprob(t)为t时刻先验语音存在概率,indprior为频谱平坦度特征。

(5)对priorspeechprob(t)做(0.01,1.0)范围的限幅,并求固定频段范围内的平均值,最终得到第二频宽对应的语音存在概率avgprobspeechhb。

(6)caledgain为第一频宽对应的第一增益。

gainmodhb=0.5×(1.0 tanh(gainmapparhb×(2.0×avgprobspeechhb-1.0)))

gaintimedomainhb=0.5×gainmodhb 0.5×avgfiltergainhb

其中,avgfiltergainhb为第一增益在特定频段的平均值,gaintimedomainhb为第二频宽对应的第二增益。gainmapparhb可以为1。如果gaintimedomainhb≥0.5,可调整gainmodhb系数为0.25,调整avgfiltergainhb系数为0.75,同时限幅。

技术效果

基于以上各实施例的描述,对本公开实施例的技术效果进行说明:

1、客观指标:

本公开实施例的方案在语音质量pesq上较omlsa算法提升约11.8%,在语音可懂度stoi上较omlsa算法提升约17.0%;同时在移动端消耗上满足实时流式处理的要求,可覆盖绝大部分移动端设备。表1为本公开实施例的方案与omlsa算法的效果对比。

表1为本公开实施例的方案与omlsa算法的效果对比

2、主观听感:

图9是真实环境下的带噪语音的示例性波形图及对应的语谱图;图10是图9所示的带噪语音经过omlsa处理后得到的波形图及对应的语谱图;图11是图9所示的带噪语音经过本公开实施例提供的语音增强方法处理后得到的波形图及对应的语谱图。

可见,本公开实施例的方案对非平稳突发噪声的抑制能力明显优于omlsa算法。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜