农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

基于噪声背景分类的语音增强方法及系统与流程

2021-07-23 21:35:00 来源：中国专利 TAG：语音噪声信号处理增强背景

本发明涉及语音信号处理技术领域，特别是涉及基于噪声背景分类的语音增强方法及系统。

背景技术：

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

语音是人与人之间进行信息交换最直接、最有效的工具，同时也是人与机器进行通信的工具。但是，当人与人之间进行信息交换、人与机器之间进行通信时，总是会受到噪声的影响，而且在不同的场景下，噪声的类型也是不同的，不同的噪声对有效的语音信息的影响也是不同的。例如人们在汽车内进行交谈，其噪声多为引擎噪声、喇叭声等等；在咖啡馆内噪声多为客人交谈声；在计算机机房噪声多为计算机运行的风扇声。因此同一方法在多场景进行语音增强效果往往可能不佳。因此，如何使用一种语音增强方法在不同场景时都能达到不错的效果成为了领域技术人员亟待解决的技术问题。

目前各类语音增强方法大多都针对某一特定的背景噪声进行语音增强，在遇到其他类型噪声背景时，其增强效果大都一般，所以急需一种针对多种噪声场景的语音增强方法。

技术实现要素：

为了解决现有技术的不足，本发明提供了基于噪声背景分类的语音增强方法及系统；对不同的噪声场景进行区分，来达到针对某一种场景使用同一个模型内的某一特定的网络进行语音增强，来实现更好的语音增强效果。

第一方面，本发明提供了基于噪声背景分类的语音增强方法；

基于噪声背景分类的语音增强方法，包括：

获取待处理语音信号；

对待处理语音信号进行特征提取；

将提取的特征，输入到训练后的分类器中，得到待处理语音的噪声背景标签；

根据噪声背景标签，选择对应标签的训练后的生成器；

将待处理的语音信号，输入到被选中的训练后的生成器中，得到增强后的语音信号。

第二方面，本发明提供了基于噪声背景分类的语音增强系统；

基于噪声背景分类的语音增强系统，包括：

获取模块，其被配置为：获取待处理语音信号；

特征提取模块，其被配置为：对待处理语音信号进行特征提取；

分类模块，其被配置为：将提取的特征，输入到训练后的分类器中，得到待处理语音的噪声背景标签；

选择模块，其被配置为：根据噪声背景标签，选择对应标签的训练后的生成器；

增强模块，其被配置为：将待处理的语音信号，输入到被选中的训练后的生成器中，得到增强后的语音信号。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

本发明充分考虑了语音增强领域中大多数语音增强方法在多场景下进行语音增强时无法获得良好的效果的问题，本方法选择了提取带噪语音的梅尔频率倒谱系数输入分类器对噪声背景进行分类，对分类好的语音使用同一个模型内针对此类噪声背景的生成对抗网络来实现语音增强，此方法在面对多场景下的语音增强都有较好的效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

梅尔频率倒谱系数(melfrequencycepstralcoefficient,mfcc)；

生成对抗网络(generativeadversarialnetworks)。

实施例一

本实施例提供了基于噪声背景分类的语音增强方法；

如图1所示，基于噪声背景分类的语音增强方法，包括：

s101：获取待处理语音信号；

s102：对待处理语音信号进行特征提取；

s103：将提取的特征，输入到训练后的分类器中，得到待处理语音的噪声背景标签；

s104：根据噪声背景标签，选择对应标签的训练后的生成器；

s105：将待处理的语音信号，输入到被选中的训练后的生成器中，得到增强后的语音信号。

进一步地，所述s102：对待处理语音信号进行特征提取；具体包括：

对待处理语音信号，提取梅尔频率倒谱系数特征。

进一步地，所述s103：将提取的特征，输入到训练后的分类器中，得到待处理语音的噪声背景标签；其中，训练后的分类器，训练步骤包括：

构建第一训练集，所述第一训练集为已知噪声背景标签的语音信号特征；

将训练集输入到分类器中，对分类器进行训练；

当分类器的损失函数得到最小值或者训练达到迭代次数时，停止训练，得到训练后的分类器。

示例性的，构建数据集的构建步骤包括：

对于纯净的语音数据集，选择使用thchs30，thchs30是由清华大学语音与语言技术中心(cslt)出版的开放式中文语音数据库。

噪声背景选择在咖啡厅、行驶的汽车内、在运行的地铁上、服务器运行的机房内和自助餐厅内五种场景下录制的噪声。

将数据集thchs30均分为六份，每份时长为5小时，利用程序将五份纯净语音数据分别与五个不同场景的噪声合成为不同信噪比的带噪语音作为训练集，再将剩下的一份纯净语音分为五份，再与五个噪声场景的噪声合成不同信噪比的带噪语音作为测试集。

在合成带噪语音文件时，每个训练集文件会根据当前的噪声背景类型在文件名称最后添加该类型的代码，本发明将咖啡厅内噪声代码设置为a，行驶的汽车内代码设置为b，在运行的地铁上代码设置为c，服务器运行的机房内代码设置为d，自助餐厅内代码设置为e，测试集文件名称最后不设置添加噪声背景代码。

提取带噪语音的信息：

对各个场景下的带噪语音进行mfcc特征提取，读取其噪声类型的标签代码，将每个mfcc特征与标签对应存储在一个数组a中，并将数组a的顺序打乱。

进一步地，所述分类器为卷积神经网络。

或者，

进一步地，所述分类器具体结构包括：

依次连接的第一卷积层、第一激活函数层、第一最大池化层、第二卷积层、第二激活函数层和第二最大池化层。

其中，第一卷积层和第二卷积层的卷积核数量相同，第一卷积层设有32个卷积核，每个卷积核有5*5的采样窗口。

示例性的：分类器由第一层由卷积层构成，该卷积层有32个卷积核，每个卷积核有5*5的采样窗口，卷积层后使用relu激活函数，并施加max-pooling池化层，而后添加第二个卷积层其配置与第一个卷积层相同，同样使用relu激活函数，并施加max-pooling池化层，第二个max-pooling池化层的输出扁平化为1维，输入全连接层，经过全连接层后得到分类器预测结果。

进一步地，所述已知噪声背景标签，例如包括：咖啡厅、行驶的汽车内、运行的地铁上、服务器运行的机房内和/或自主餐厅内。

示例性的，分类器训练：将打乱后的带噪语音数组a输入到分类器，分类器在得到预测噪声背景类型标签后会与数组a中的标签进行验证，由于大批量的文件不断的比较，如果误差大，模型会使用adamoptimizer优化器进行优化反向传输调整这些层的参数来降低误差，经过150次迭代训练会自己学会预测噪声背景标签，准确率在98％以上。

进一步地，所述s104：根据噪声背景标签，选择对应标签的训练后的生成器；其中，训练后的生成器，具体训练步骤包括：

s1041：构建第二训练集；所述第二训练集，包括：无噪声语音信号和已知噪声背景标签的带噪声语音信号；其中，已知噪声背景标签的带噪声语音信号，是通过对无噪声语音信号添加对应标签的背景噪声得到的；

s1042：重复鉴别器初始化步骤、生成器初始化步骤和优化权值步骤三个步骤；

首次执行时，鉴别器初始化步骤和生成器初始化步骤，均使用正态分布的随机数对权值进行赋值；

非首次执行时，鉴别器初始化步骤和生成器初始化步骤，使用上一次优化权值步骤中的优化器优化后的权重；

s1043：判断当前已训练数据个数是否大于设定值，重复进行训练，直到达到设定的训练个数；训练完成后保存优化权值步骤中最后一层权重；得到训练后的生成器。

进一步地，所述鉴别器初始化步骤；具体包括：

首次执行时，使用正态分布的随机数对权值进行赋值；将预处理后的无噪声语音输入鉴别器，鉴别器将输出为1，表示此类输入为无噪声语音；

非首次执行时，使用上一次优化权值步骤中的优化器优化后的权重；将无噪声语音和生成器处理后的带噪声语音输入到鉴别器中，鉴别器输出鉴别结果。

进一步地，所述生成器初始化步骤；具体包括：

首次执行时，使用正态分布的随机数对权值进行赋值；将预处理后的带噪声语音输入生成器，编码结构将预处理后的带噪声语音进行压缩，再由解码结构进行反压缩，并通过跳跃连接将带噪声语音中语音特征从编码结构送入解码结构内来指导解码结构生成增强语音；

非首次执行时，使用上一次优化权值步骤中的优化器优化后的权重；将预处理后的带噪语音输入生成器，编码结构首先会将预处理后的带噪语音进行压缩，再由解码结构进行反压缩，并通过跳跃连接将带噪语音中语音特征从编码结构送入解码结构内来指导解码结构生成增强语音。

进一步地，所述优化权值步骤；具体包括：

生成对抗网络内的adamoptimizer优化器根据由增强语音与无噪声语音求取的生成器的损失值和鉴别器的损失值，通过梯度下降来对生成器内各个编码结构与解码结构的卷积核的权重进行更新，从而生成与无噪声语音相比更加相似的增强语音；同时优化器也更新鉴别器内的权重，来增强鉴别器识别增强语音的能力。

进一步地，所述构建第二训练集，是选择合适的语音数据集、多种噪声背景，利用纯净语音和不同噪声合成不同信噪比的带噪声类型标签的训练数据。

示例性的，生成器由多层卷积层和多层反卷积层构成，卷积层可称为编码结构，反卷积层称为解码结构，卷积层与反卷积层呈镜面对称的结构，并且在卷积层与反卷积层间添加跳跃连接结构。

鉴别器由多层卷积层构成，其结构与生成器中的卷积层结构相同。

进一步地，所述s105：将待处理的语音信号，输入到被选中的训练后的生成器中，得到增强后的语音信号；具体包括：

将待处理的语音信号，输入到被选中的训练后的生成器中，依次进行编码和解码处理，得到增强后的语音信号。

本发明通过提取带噪语音的梅尔频率倒谱系数(melfrequencycepstralcoefficient,mfcc)输入到卷积神经网络对噪声背景进行分类，对分类好的语音使用同一个模型内针对此类噪声背景的生成对抗网络(generativeadversarialnetworks)模型实现语音增强。

构建多个语音增强网络，语音增强网络的数量与噪声背景的数量相同，并对每个语音增强网络的输入噪声类型进行划分，划分后的语音增强网络将只接受对应带噪语言的输入。

将未知场景的带噪语音输入模型，分类器会对带噪语音进行分类并通过该类的语音增强网络得到增强后的语音。

示例性的，语音增强模型选择多个生成对抗网络(generativeadversarialnetwork，gan)，一共构建五个相同的生成对抗网络，每个生成对抗网络选择相同的结构，每个gan网络由一个生成器与一个鉴别器组成。

示例性的，训练阶段生成对抗网络输入数据处理：

将五种噪声背景对应的带噪语音、无噪声语音、带噪语音的场景类型标签存储为一个tfrecord文件。

在tfrecord文件内，带噪语音被标记为noise，无噪声语音被标记为clean，带噪语音的场景类型标签标记为label，根据label的类型将此类带噪语音与无噪声语音输入对应的生成对抗网络内。

带噪语音与无噪声语音输入之前还会对其进行预处理的操作，预处理后将带噪语音与无噪声语音分为多个批次，一个批次为150个一秒的采样点数。

五个生成对抗网络在进行语音增强操作时相同，仅输入的带噪语音与无噪声语音不同，下面取噪声代码设置为a的咖啡厅内噪声背景的生成对抗网络举例。

示例性的，训练阶段生成对抗网络内的鉴别器初始化：

鉴别器内卷积层的卷积核的权重，使用生成正态分布的随机数进行的初始化，将预处理后的无噪声语音输入鉴别器，鉴别器将输出为1，表示此类输入为无噪声语音。

示例性的，训练阶段生成对抗网络内的生成器初始化：

生成器内编码结构与解码结构的卷积核的权重，使用生成正态分布的随机数进行的初始化。将预处理后的带噪语音输入生成器，编码结构首先会将预处理后的带噪语音进行压缩，再由解码结构进行反压缩，并通过跳跃连接将带噪语音中语音特征从编码结构送入解码结构内来指导解码结构生成增强语音。

示例性的，训练阶段优化权值阶段：

鉴别器初始化、生成器初始化两个阶段完成后，将生成器生成的增强语音输入鉴别器内，因为在初始化阶段鉴别器输入的为无噪声语音，此时的增强语音与无噪声语音有较大的差别，所以鉴别器会输出0，代表此次输入为增强语音。

生成对抗网络内的adamoptimizer优化器根据由增强语音与无噪声语音求取的生成器的损失值和鉴别器的损失值，来指导生成器内各个编码结构与解码结构的卷积核的权重进行更新，从而生成与无噪声语音相比更加相似的增强语音；同时优化器也更新鉴别器内的权重，来增强鉴别器识别增强语音的能力。

将测试集的文件输入分类器，分类器将自动将测试集内文件自动分类并标注噪声背景标签，将按照分类器标注的标签将该带噪语音输入到处理该类带噪语音的gan网络内，gan网络将以1秒为间隔对带噪语音进行降噪处理，将所有带噪语音处理完毕后，将所处理的文件进行连接，得到增强语音。

本发明的创新点在于：提取带噪语音的梅尔频率倒谱系数输入分类器对噪声背景进行分类，对分类好的语音使用模型内针对此类噪声背景的生成对抗网络来实现语音增强。

本发明给出一种基于噪声背景分类的语音增强方法，通过取带噪语音的梅尔频率倒谱系数输入分类器对噪声背景进行分类，对分类好的语音使用模型内针对此类噪声背景的生成对抗网络来实现语音增强。该发明与其他语音增强方法相比具有更好的泛化性，在不同的噪声场景下都具有较好的效果。

实施例二

本实施例提供了基于噪声背景分类的语音增强系统；

基于噪声背景分类的语音增强系统，包括：

获取模块，其被配置为：获取待处理语音信号；

特征提取模块，其被配置为：对待处理语音信号进行特征提取；

分类模块，其被配置为：将提取的特征，输入到训练后的分类器中，得到待处理语音的噪声背景标签；

选择模块，其被配置为：根据噪声背景标签，选择对应标签的训练后的生成器；

增强模块，其被配置为：将待处理的语音信号，输入到被选中的训练后的生成器中，得到增强后的语音信号。

此处需要说明的是，上述获取模块、特征提取模块、分类模块、选择模块和增强模块对应于实施例一中的步骤s101至s105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：混合语音的识别方法及装置、存储介质、电子装置与流程

基于噪声背景分类的语音增强方法及系统与流程

相关文章

最热文献