基于掩码时域解码器的实时语音降噪方法和装置与流程

2021-07-09 10:07:00 来源：中国专利 TAG：语音时域解码器实时掩码

1.本发明涉及语音处理技术领域，尤其涉及一种基于掩码时域解码器的实时语音降噪方法和装置。

背景技术：

2.语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术，简单来说，就是从含噪语音中提取尽可能纯净的原始语音。语音增强应用范围很广，对于处于特殊环境的语音系统，一般都要在不同程度上采取一些增强措施。例如直升机机舱内的通信语音处理、舰艇机舱内的通话系统等都需要用语音增强技术。经典的语音增强方法是频谱减法、维纳滤波、基于统计模型的方法、mcra最小值递归平均方法、直方图方法等。
3.传统经典语音增强的方法往往有一定的先验假设，比如频谱减法中假设噪声是加性的，但真实情况中经常难以满足这些假设，就造成实际效果不如预期。而且，经典语音增强方法对于平稳噪声可以取得一定的效果，但在面临非平稳噪声和低信噪比等复杂场景却差强人意。
4.近年来，深度学习通过提高掩模估计的准确性，极大地提高了时频掩模方法的性能，每个声源的波形都是使用每个声源的估计幅谱图的逆短时傅立叶逆变换(istft)以及混合声的原始相位或修改相位来计算的。首先，stft/istft准确地重建干净源的相位是一个不小的问题，并且相位的错误估计会在重建音频的准确性上引入上限。即使将理想的干净幅度谱图应用于混合物，也无法从源重构精度上看出这一问题。尽管可以应用相位重建方法来缓解此问题，但该方法的性能仍然欠佳。其次，从混合信号分解出干净信号，这需要较长的时间窗来计算istft，增加了系统的最小延迟，限制了其在实时、低延迟应用中的通用性，例如在电信和可听设备中。

技术实现要素：

5.针对现有技术中的问题，本发明提供一种基于掩码时域解码器的实时语音降噪方法和装置、电子设备以及计算机可读存储介质，能够至少部分地解决现有技术中存在的问题。
6.为了实现上述目的，本发明采用如下技术方案：
7.第一方面，提供一种基于掩码时域解码器的实时语音降噪方法，包括：
8.将带噪语音通过stft提取特征；
9.将提取的特征输入预训练的神经网络得到掩码；
10.将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音。
11.进一步地，所述将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音，包括：
12.将所述掩码以及所述带噪语音输入时域解码器；
13.利用所述时域解码器对所述带噪语音在不同子带上用所述掩码进行滤波得到增强后的语音。
14.进一步地，所述掩码为代表各子带增益的多维的掩码。
15.进一步地，所述将带噪语音通过stft提取特征，包括：
16.对所述带噪语音进行预加重、分帧、加窗以及傅里叶变换得到所述带噪语音的特征。
17.进一步地，所述将带噪语音通过stft提取特征，还包括：
18.将所述带噪语音的频域划分为多个子带。
19.进一步地，所述神经网络的结构为[gru(48),gru(96),gru(128),fc(512),fc(40)]。
[0020]
进一步地，所述时域解码器为iir带通滤波器或fir滤波器。
[0021]
第二方面，提供一种基于掩码时域解码器的实时语音降噪装置，包括：
[0022]
特征提取模块，将带噪语音通过stft提取特征；
[0023]
推理模块，将提取的特征输入预训练的神经网络得到掩码；
[0024]
时域解码模块，将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音。
[0025]
第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于掩码时域解码器的实时语音降噪方法的步骤。
[0026]
第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于掩码时域解码器的实时语音降噪方法的步骤。
[0027]
本发明提供的基于掩码时域解码器的实时语音降噪方法和装置，该方法包括：将带噪语音通过stft提取特征；将提取的特征输入预训练的神经网络得到掩码mask；将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音，其中，通过将一组加权函数(掩码)应用于时域解码器来处理带噪语音实现基于时域后处理的实时神经网络降噪，具有显着较小的模型尺寸和更短的最小等待时间，使其成为边缘设备实时降噪的合适解决方案。
[0028]
为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。
附图说明
[0029]
为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：
[0030]
图1为本发明实施例中的服务器s1与客户端设备b1之间的架构示意图；
[0031]
图2为本发明实施例中的服务器s1、客户端设备b1及数据库服务器s2之间的架构示意图；
[0032]
图3示出了本发明实施例中基于掩码时域解码器的实时语音降噪技术的流程；
[0033]
图4是本发明实施例中的基于掩码时域解码器的实时语音降噪方法的流程示意图一；
[0034]
图5示出了本发明实施例中步骤s300的具体步骤；
[0035]
图6示出了本发明实施例中步骤s100的具体步骤；
[0036]
图7是本发明实施例中的基于掩码时域解码器的实时语音降噪装置的结构框图；
[0037]
图8为本发明实施例电子设备的结构图。
具体实施方式
[0038]
为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。
[0039]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0040]
需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0041]
需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0042]
本发明实施例提供的基于掩码时域解码器的实时语音降噪技术，可以在电子设备上实施，也可以在服务器上实施，电子设备包括但不限于智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(pda)、车载设备、智能穿戴设备、电动玩具、智能家居设备等等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
[0043]
当本发明实施例提供的基于掩码时域解码器的实时语音降噪技术在服务器上实施时参见图1，该服务器s1可以与至少一个客户端设备b1通信连接，所述客户端设备b1可以将带噪语音发送至所述服务器s1，所述服务器s1可以在线接收所述带噪语音。所述服务器s1可以在线或者离线对获取的带噪语音进行预处理，将带噪语音通过stft提取特征；将提取的特征输入预训练的神经网络得到掩码；将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音。而后，所述服务器s1可以将增强后的语音在线发送至所述客户端设备b1，或者，利用增强后的语音进行语音识别、语义识别等后续处理。
[0044]
该客户端设备b1包括但不限于智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(pda)、车载设备、智能穿戴设备、电动玩具、智能家居设备等等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等
[0045]
另外，参见图2，所述服务器s1还可以与至少一个数据库服务器s2通信连接，所述
数据库服务器s2用于存储预训练的神经网络供服务器s1调用，或者，存储历史语音数据。所述数据库服务器s2在线将所述历史语音数据发送至所述服务器s1，所述服务器s1可以在线接收所述历史语音数据，而后根据多个历史语音数据获取该神经网络的训练样本集，应用所述训练样本集对所述神经网络进行训练。
[0046]
基于上述内容，所述数据库服务器s2还可以用于存储测试用历史语音数据。所述数据库服务器s2在线将所述测试用历史语音数据发送至所述服务器s1，所述服务器s1可以在线接收所述测试用历史语音数据，而后根据至少一个测试用历史语音数据得到测试样本，并应用所述测试样本对所述模型进行模型测试，并将该模型的输出作为测试结果，再基于所述测试结果及至少一个测试用历史xx数据的已知评价结果，判断当前模型是否符合预设要求，若是，则将当前模型作为用于掩膜提取的目标模型；若当前模型不符合所述预设要求，则对当前模型进行优化和/或应用更新后的训练样本集重新对该模型进行模型训练。
[0047]
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括tcp/ip协议、udp/ip协议、http协议、https协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的rpc协议(remote procedure call protocol，远程过程调用协议)、rest协议(representational state transfer，表述性状态转移协议)等。
[0048]
结合图3和图4，对本发明提供的基于掩码时域解码器的实时语音降噪方法进行说明，该基于掩码时域解码器的实时语音降噪方法可以包括：
[0049]
步骤s100：将带噪语音通过stft提取特征；
[0050]
具体地，将带噪语音进行一定的预处理后进行stft特征提取，其中，该预处理包括：解析、校验等，
[0051]
步骤s200：将提取的特征输入预训练的神经网络得到掩码；
[0052]
具体地，网络结构为[gru(48),gru(96),gru(128),fc(512),fc(40)]，其中，gru为门控循环神经网络，fc为全连接层，反向传播更新学习参数，最后一层全连接的激活函数为sigmoid，将隐层空间信息映射到实数空间。
[0053]
步骤s300：将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音。
[0054]
通过采用上述技术方案，神经网络掩码方式降噪中，通过时域解码器来代替istft，减少系统延迟，破除istft带来的信号解耦上限。
[0055]
在一个可选的实施例中，参见图5，该步骤s300可以包括以下内容：
[0056]
步骤s310：将所述掩码以及所述带噪语音输入时域解码器；
[0057]
步骤s320：利用所述时域解码器对所述带噪语音在不同子带上用所述掩码进行滤波得到增强后的语音。
[0058]
其中，掩码是代表各子带增益的多维的掩码。
[0059]
在一个可选的实施例中，时域解码器为iir带通滤波器或fir滤波器等。
[0060]
在一个可选的实施例中，参见图6，该步骤s100可以包括以下内容：
[0061]
步骤s110：将所述带噪语音的频域划分为多个子带。
[0062]
步骤s120：对所述带噪语音进行预加重、分帧、加窗以及傅里叶变换得到所述带噪语音的特征。
[0063]
具体地，对带噪语音进行预加重以增强高频信息，而后进行分帧加窗处理，之后进行傅里叶变换得到带噪语音的幅度谱和相位谱。
[0064]
值得说明的是，对带噪语音的多个子带分别提取特征。
[0065]
为了使本领域技术人员更好地理解本申请，下面举例对本发明的实现进行说明：
[0066]
首先将带噪信号频域划分为40个子带，带噪语音通过stft提取40维子带特征，送入神经网络，网络结构为[gru(48),gru(96),gru(128),fc(512),fc(40)]，反向传播更新学习参数，最后一层全连接的激活函数为sigmoid，将隐层空间信息映射到实数空间，得到代表各子带增益的40维的掩码mask；然后送入一阶的带通iir时间域解码器进行解码，针对带噪语音在不同子带上利用mask进行滤波，最终得到增强后的语音。
[0067]
通过采用上述技术方案，能够降低计算量，减少系统延迟，破除istft带来的信号解耦上限，减少边缘计算设备功耗，避免了isftf模块带来的高计算量和重建瓶颈。
[0068]
基于同一发明构思，本申请实施例还提供了一种基于掩码时域解码器的实时语音降噪装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于基于掩码时域解码器的实时语音降噪装置解决问题的原理与上述方法相似，因此基于掩码时域解码器的实时语音降噪装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
[0069]
图7是本发明实施例中的基于掩码时域解码器的实时语音降噪装置的结构框图一。如图7所示，该基于掩码时域解码器的实时语音降噪装置具体包括：特征提取模块10、推理模块20以及时域解码模块30。
[0070]
特征提取模块10将带噪语音通过stft提取特征；
[0071]
推理模块20将提取的特征输入预训练的神经网络得到掩码；
[0072]
时域解码模块30将所述掩码以及所述带噪语音输入时域解码器进行解码得到增强后的语音。
[0073]
通过采用上述技术方案，神经网络掩码方式降噪中，通过时域解码器来代替istft，减少系统延迟，破除istft带来的信号解耦上限。
[0074]
上述实施例阐明的装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备，具体的，电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0075]
在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于掩码时域解码器的实时语音降噪方法的步骤。
[0076]
下面参考图8，其示出了适于用来实现本申请实施例的电子设备600的结构示意图。
[0077]
如图8所示，电子设备600包括中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram))603中的程序而
执行各种适当的工作和处理。在ram603中，还存储有系统600操作所需的各种程序和数据。cpu601、rom602、以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0078]
以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。
[0079]
特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于掩码时域解码器的实时语音降噪方法的步骤。
[0080]
在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。
[0081]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0082]
为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0083]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0084]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0085]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0086]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0087]
本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0088]
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0089]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0090]
以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种双层碳纤维吉他面板及其吉他的制作方法

基于掩码时域解码器的实时语音降噪方法和装置与流程

相关文章

最热文献