多通道语音增强方法、系统、电子设备和存储介质与流程

2022-11-30 09:54:55 来源：中国专利 TAG：

1.本发明涉及智能语音领域，尤其涉及一种多通道语音增强方法、系统、电子设备和存储介质。

背景技术：

2.由于语音的音频质量影响着语音识别结果，为了进一步提升语音识别的准确性，会对采集的音频进行降噪，实现语音增强。由于智能设备搭载的麦克风不同采集的音频也会不同，例如，单麦克风可以采集到单通道语音，而多麦克风阵列可以采集到多通道语音。
3.对于单通道语音可以使用单通道传统降噪方法，其基本思路是利用各种各样的方法估计噪声的功率谱，然后利用噪声功率谱估计出滤波器，实现降噪的语音增强目的；
4.对于多通道语音可以使用多通道波束形成，依据不同方向到麦克风阵列处的相位差不同，设计滤波器实现方向性降噪；多通道盲源分离利用声源的独立性，推导出使得代价函数最小的滤波器，进行声源分离；神经网络方法通过构造输入和标准答案，让模型自动学习语音内在的联系，达到降噪的目的。
5.在实现本发明过程中，发明人发现相关技术中至少存在如下问题：
6.单通道传统降噪方法无法消除人声干扰，音乐，键盘敲桌子等非稳态噪声，神经网络方法可以通过同类训练消除音乐，键盘敲桌子等声音，但是依旧解决不了人声干扰；多通道传统信号处理可以解决人声干扰，但是传统信号处理方法存在噪声抑制不干净问题，低信噪比性能下降明显，且欠定条件下算法失效，欠定问题即声源数大于麦克风数目，神经网络方法存在相位重建困难，模型输出信号失真大问题。

技术实现要素：

7.为了至少解决现有技术中的降噪方法存在着各自的缺陷，对于非稳态噪声、人声干扰、欠定、信号失真时语音增强效果较差的问题。第一方面，本发明实施例提供一种多通道语音增强方法，包括：
8.采集多通道语音信号；
9.将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值；
10.将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块，重建所述多通道语音信号的相位信息，得到第一增强语音；
11.基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理，得到减小失真的第二增强语音。
12.第二方面，本发明实施例提供一种多通道语音增强系统，包括：
13.语音信号采集程序模块，用于采集多通道语音信号；
14.神经网络处理程序模块，用于将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向
的频点级的时频掩蔽值；
15.信号处理程序模块，用于将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块，重建所述多通道语音信号的相位信息，得到第一增强语音；
16.语音增强程序模块，用于基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理，得到减小失真的第二增强语音。
17.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多通道语音增强方法的步骤。
18.第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的多通道语音增强方法的步骤。
19.本发明实施例的有益效果在于：神经网络模块在低信噪比情况下，能够更准确地估计掩蔽值，甚至可以非常好地解决欠定条件下的信号处理问题；传统信号处理模块利用自身强大的原理基础，稳定性更高，更好地实现相位重建；将传统信号处理和神经网络结合，二者结合相辅相成，神经网络估计的掩蔽值能够更精细地控制传统信号处理滤波器的更新，整个系统相比任一单个系统都能获得更好的降噪水平。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是本发明一实施例提供的一种多通道语音增强方法的流程图；
22.图2是本发明一实施例提供的一种多通道语音增强方法的双通道结构示意图；
23.图3是本发明一实施例提供的一种多通道语音增强系统的结构示意图；
24.图4为本发明一实施例提供的一种多通道语音增强的电子设备的实施例的结构示意图。
具体实施方式
25.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.如图1所示为本发明一实施例提供的一种多通道语音增强方法的流程图，包括如下步骤：
27.s11：采集多通道语音信号；
28.s12：将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值；
29.s13：将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理
模块，重建所述多通道语音信号的相位信息，得到第一增强语音；
30.s14：基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理，得到减小失真的第二增强语音。
31.在本实施方式中，考虑到现有技术通常为了解决噪声抑制不干净问题，通常会加入后处理模块，进行进一步降噪，但是后处理通常只能抑制稳态噪声，对类似人声的非稳态没有很好的效果。本方法考虑到单纯的后处理，对于语音增强效果不佳，进而将多通道神经网络与多通道传统信号处理相结合，利用神经网络的输出控制传统信号处理滤波器的更新。本方法的结构如图2所示，包括神经网络模块、传统信号处理模块、结合模块。
32.对于步骤s11，可以将本方法应用于智能音箱、会议记录笔等智能设备中，这些设备通常安装有麦克风，通过麦克风来采集语音信号。也可以使用模拟或者数字麦克风。为了采集最佳语音，进一步提升语音识别效果，可以采用麦克风阵列，利用麦克风阵列可以采集各个方向的多通道语音，例如有4麦克、6麦克、8麦克阵列来采集不同方向的语音源信号。
33.对于步骤s12，以4麦克的会议记录笔为例，在会议场景中，有多个会议主讲人，将会议记录笔放在场景中央，来记录多个会议主讲人的语音。由于多个会议主讲人所坐的位置不同，每个会议主讲人相对于会议记录笔都有着各自的音源方向。例如，有6个会议主讲人分别坐在不同的方向，也就是说，声源数量大于麦克风数量，采集到了语音欠定的多通道语音信号。
34.将多通道语音信号输入至第一信号处理模块，作为一种实施方式，所述第一信号处理模块由深度神经网络、循环神经网络、卷积神经网络中之一或多个神经网络组合构建，其中，所述第一信号处理模块输出的声源方向的频点级的时频掩蔽值与和所述声源方向相对应的干扰方向的噪声频点成反比。
35.在本实施方式中，利用多通道神经网络学习特定方向的声源信息，得到多通道语音信号的时频掩蔽值，即每个频点的时频掩蔽值。这一方法的好处是，在低信噪比或者欠定情况下时频掩蔽值都能估得很准，多通道语音信号的目标方向的语音频点时频掩蔽值越大，目标方向外的干扰方向语音或噪声频点时频掩蔽值也就越小。
36.对于步骤s13，将多通道语音信号和步骤s12中确定的频点级的时频掩蔽值输入至第二信号处理模块。作为一种实施方式，第二信号处理模块由多通道的波束形成模型和/或盲源分离模型构建。
37.当所述第二信号处理模块由多通道的波束形成模型构建时，基于所述频点级的时频掩蔽值的大小控制波束形成滤波器的更新速率，其中，所述频点级的时频掩蔽值的大小与所述滤波器的更新速率成反比，以降低滤波处理的失真。
38.在本实施方式中，对于第二信号处理模块选用了传统信号处理模块，例如，常见的有波束形成模型、盲源分离模型。而频点级的时频掩蔽值可以协助传统信号处理进一步精细地增强目标语音，且利用传统信号处理方法完成相位的重建。例如使用波束形成自适应滤波器的对多通道语音信号更新。当频点级的时频掩蔽值越大，说明此频点语音存在的概率越大，那么滤波器更新需要慢一点，反之，频点级的时频掩蔽值越小，说明此频点语音存在的概率越小，噪声频点的概率大，那么滤波器更新快一点。这一方法使系统更好降噪的同时，保证语音频点的不失真，得到第一增强语音。
39.对于步骤s14，通过第一信号处理模块的输出和第二信号处理模块的输出。例如利
用频点级的时频掩蔽值对降噪后的多通道语音进行处理，其处理的措施包括但不限于，掩蔽值的整体偏移，设置最小或者最大值等。这一步骤是为了进一步得到减小失真的第二增强语音。
40.通过该实施方式可以看出，神经网络模块在低信噪比情况下，能够更准确地估计掩蔽值，甚至可以非常好地解决欠定条件下的信号处理问题；传统信号处理模块利用自身强大的原理基础，稳定性更高，更好地实现相位重建；将传统信号处理和神经网络结合，二者结合相辅相成，神经网络估计的掩蔽值能够更精细地控制传统信号处理滤波器的更新，整个系统相比任一单个系统都能获得更好的降噪水平。
41.如图3所示为本发明一实施例提供的一种多通道语音增强系统的结构示意图，该系统可执行上述任意实施例所述的多通道语音增强方法，并配置在终端中。
42.本实施例提供的一种多通道语音增强系统10包括：语音信号采集程序模块11，神经网络处理程序模块12，信号处理程序模块13和语音增强程序模块14。
43.其中，语音信号采集程序模块11用于采集多通道语音信号；神经网络处理程序模块12用于将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值；信号处理程序模块13用于将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块，重建所述多通道语音信号的相位信息，得到第一增强语音；语音增强程序模块14用于基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理，得到减小失真的第二增强语音。
44.本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的多通道语音增强方法；
45.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
46.采集多通道语音信号；
47.将所述多通道语音信号输入至第一信号处理模块，进行声源方向信号增强处理，得到在信噪比低于预设阈值或语音欠定情况下所述声源方向的频点级的时频掩蔽值；
48.将所述多通道语音信号以及所述频点级的时频掩蔽值输入至第二信号处理模块，重建所述多通道语音信号的相位信息，得到第一增强语音；
49.基于所述频点级的时频掩蔽值以及所述第一增强语音增强处理，得到减小失真的第二增强语音。
50.作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的多通道语音增强方法。
51.图4是本技术另一实施例提供的多通道语音增强方法的电子设备的硬件结构示意图，如图4所示，该设备包括：
52.一个或多个处理器410以及存储器420，图4中以一个处理器410为例。多通道语音增强方法的设备还可以包括：输入装置430和输出装置440。
53.处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。
54.存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本技术实施例中的多通道语音增强方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例多通道语音增强方法。
55.存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
56.输入装置430可接收输入的数字或字符信息。输出装置440可包括显示屏等显示设备。
57.所述一个或者多个模块存储在所述存储器420中，当被所述一个或者多个处理器410执行时，执行上述任意方法实施例中的多通道语音增强方法。
58.上述产品可执行本技术实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术实施例所提供的方法。
59.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
60.本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的多通道语音增强方法的步骤。
61.本技术实施例的电子设备以多种形式存在，包括但不限于：
62.(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。
63.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如平板电脑。
64.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
65.(4)其他具有数据处理功能的电子装置。
66.在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另
一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
67.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
68.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
69.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种细粒度韵律可控的情感语音合成方法、系统及存储介质与流程

多通道语音增强方法、系统、电子设备和存储介质与流程

相关文献

最热文献