一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于端到端时域声源分离系统的参数化听觉滤波器组的制作方法

2021-09-14 22:05:00 来源:中国专利 TAG:声源 分离 时域 滤波器 听觉


1.本发明属于声源分离领域,具体涉及一种用于提高端到端时域声源分离系统性能的参数化听觉滤波器组。


背景技术:

2.在真实声场景中,通常存在多个声源的同时发声,声源分离一直是计算听觉场景分析的重要方面。随着深度学习的飞速发展,声源分离系统已取得突破性进展。如图1所示,现阶段大多数端到端时域声源分离系统都遵循编码器

分离器

解码器的框架。编码器将时域混合声转换为中间表达,分离器用来估计声源的加权函数(掩模),然后将掩模和混合声源的中间表达相乘并通过解码器获得分离后的声源。
3.编码器是指对时域信号进行卷积的一组滤波器,可以是固定的(本发明中称为固定式滤波器组),例如短时傅立叶变换(stft),恒定q变换或具有固定值的听觉滤波器组。另一方面,滤波器组也可以是一组具有任意初始化值的一维卷积层,其参数在网络训练过程中自发学习得到,在本发明中称为自由式滤波器组。
4.固定式滤波器组具有直观的解释,包含先验知识,不易引起网络的过度拟合,但性能难以提高。相反,自由式滤波器组具有高自由度,性能通常更优,但在训练中容易受到含噪数据影响。


技术实现要素:

5.要解决的技术问题
6.本发明主要针对现有声源分离系统中编码器采用固定式滤波器组性能难以提高,而自由式滤波器组训练中容易受到含噪数据影响的问题,在灵活性和先验信息之间折衷,提出了一种用于端到端时域声源分离系统的参数化听觉滤波器组,通过对编码器的改进来提升网络的分离性能。
7.人耳在听觉场景分析中的出色表现启发我们将具有生理和心理声学合理性的听觉滤波器组引入到声源分离系统中。对于听觉模型,耳蜗的频谱分析通常由gammatone滤波器组进行模拟。本发明中提出的参数化听觉滤波器组是指一组具有gammatone函数形式,且其参数是通过网络学习得到的,其相比固定式滤波器组具有更好的分离性能,而相比自由式滤波器组具有更好的听觉合理性和可解释性。
8.本发明的技术方案为:
9.所述一种用于端到端时域声源分离系统的参数化听觉滤波器组,采用gammatone滤波器,滤波器的数量n不小于32;滤波器时域脉冲响应由gamma分布调制的纯音:
10.g(t)=at
p
‑1e

2πbt
cos(2πf
c
t φ)
11.其中p为阶数,f
c
为中心频率,b为带宽,φ为相位,a为幅度,通过阶数p与带宽b确定。
12.进一步的,幅度取值为
13.利用参数化听觉滤波器组构建端到端时域声源分离系统的方法为:
14.步骤1:依据编码器

分离器

解码器的框架创建时域分离网络;其中编码器通过一维卷积层实现,其滤波器组的形式采用参数化听觉滤波器组;分离器用于估计声源的掩模;解码器为一维反卷积层;来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘,之后能够通过解码器合成分离声源的时域信号;
15.步骤2:根据人耳听觉系统的先验知识对各个滤波器的参数集进行初始化,参数化听觉滤波器组中的参数集在网络训练过程中可变:
16.(1)各滤波器的阶数p
i
都初始化设定为4,对应人耳听觉系统中滤波器阶数的平均拟合值;
17.(2)各滤波器的中心频率初始化均匀分布在等效矩形带宽erb尺度上,其中从线性频率到erb尺度的映射为
[0018][0019]
(3)各滤波器的初始化带宽b
i
由和阶数p
i
决定
[0020][0021]
(4)各滤波器的初始化相位φ
i
设定为以对齐音调的峰值与gamma包络的峰值;
[0022]
步骤3:根据分离任务选择不同声源创建数据集,并利用数据集训练时域分离网络,获得端到端时域声源分离系统。
[0023]
进一步的,所述分离器采用基于深度卷积的网络结构,包含多个具有不同扩张因子的带洞卷积模块,每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。
[0024]
进一步的,训练时域分离网络时,以最小化真实声源和估计声源之间的尺度不变信号失真比作为训练目标,通过adam优化器训练网络,直到分离性能不再提高,获得端到端时域声源分离系统。
[0025]
有益效果
[0026]
本发明在端到端时域分离系统中引入了参数化听觉滤波器组,建立了更具听觉合理性的分离模型,提高了网络的分离性能。相比于固定式滤波器组,参数化听觉滤波器组的参数是通过网络训练得到的,具有更好的灵活性,能够根据网络和数据的特性进行自发的调整,以获得更优的分离性能。而相比于自由式滤波器组,参数化听觉滤波器组通过给定gammatone滤波器的形式,提供给网络听觉系统的先验信息,使得网络能够更好的模拟人耳听觉系统以提高实际场景中网络的分离能力,也使得网络具有更好的可解释性。此外,每个滤波器只有4个参数需要训练,相比所有参数都需要训练的自由式滤波器,其显著降低了网络的参数数量。
[0027]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变
得明显,或通过本发明的实践了解到。
附图说明
[0028]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0029]
图1声源分离系统通用框架;
[0030]
图2端到端时域卷积分离网络结构图;
[0031]
图3(a)参数化gammatone滤波器组的频率响应,其按照中心频率排列;(b)中心频率为1.125khz的4个gammatone滤波器的频率响应。
具体实施方式
[0032]
本发明提供一种用于改善端到端时域声源分离网络性能的参数化听觉滤波器组,作为端到端时域声源分离网络的编码器,并基于编码器

分离器

解码器的框架创建更具听觉合理性的端到端时域声源分离网络。编码器的形式为一组gammatone听觉滤波器,其参数在网络训练中学习得到,使得分离网络的性能得到提高,为机器的选择性听音在真实场景中的应用奠定基础。
[0033]
本实施例中训练一个用于分离任意声源的端到端时域分离网络,其中编码器由一组gammatone滤波器构成,其参数集通过网络学习得到,包括以下步骤:
[0034]
步骤1:搭建端到端时域卷积网络。依据编码器

分离器

解码器的框架搭建网络。编码器通过一维卷积层实现,其滤波器组的形式在步骤2中给定。分离器用来估计声源的掩模,可以具有多种网络形式。本发明提供一种基于深度卷积的网络结构,如图2所示,其包含多个具有不同扩张因子的带洞卷积模块,每个模块中又包含卷积层、整流层、归一化层、深度卷积层以及留数和跳跃结构。本实施例中分离器由3个卷积模块构成,每个卷积模块由8个扩张因子为2的指数的带洞卷积分块实现。将来自分离器的每个声源的掩模估计值与来自编码器的混合声的二维表达相乘。最后通过解码器(一维转置卷积层)合成分离声源的时域信号。
[0035]
步骤2:创建和初始化gammatone滤波器组。
[0036]
gammatone滤波器是对听觉系统具有较好模拟效果的滤波器,其时域脉冲响应可以表达为由gamma分布调制的纯音:
[0037]
g(t)=at
p
‑1e

2πbt
cos(2πf
c
t φ)
[0038]
其中p为阶数,f
c
为中心频率,b为带宽,φ为相位,a为幅度
[0039]
本发明中的编码器为一组gammatone滤波器,其滤波器的数量n不小于32。滤波器的参数集在网络训练过程中可变。
[0040]
合适的初值有助于网络训练,为此根据人耳听觉系统的先验知识对各个滤波器的参数集进行初始化。
[0041]
(1)各滤波器的阶数p
i
都初始化设定为4,对应人耳听觉系统中滤波器阶数的平均拟合值。
[0042]
(2)各滤波器的中心频率初始化均匀分布在等效矩形带宽(erb)尺度上,其中从线性频率到erb尺度的映射为
[0043][0044]
(3)各滤波器的初始化带宽b
i
由和阶数p
i
决定
[0045][0046]
(4)各滤波器的初始化相位φ
i
设定为以对齐音调的峰值与gamma包络的峰值。
[0047]
本实施例中编码器由512个长度为2ms的gammatone滤波器构成,每一个滤波器的参数集的初始化值为:阶数p
i
=4,中心频率为均匀分布在erb尺度上的512个频率点之一,带宽b
i
和相位φ
i
由相应的和p
i
计算得到。
[0048]
步骤3:创建数据集并训练网络。根据分离任务选择不同声源创建数据集。以最小化真实声源和估计声源之间的尺度不变信号失真比(scale

invariant source

to

distortion ratio,si

sdr)作为训练目标,通过adam优化器训练网络,直到分离性能不再提高,获得声源分离模型。
[0049]
为模拟真实声场景中对任意声源的分离,本实施例创建包含环境声、语音和乐音的多类别大数据集。选取来自bbc effects数据集的环境声(包括交通噪声、警报声、狗叫声等)、来自librispeech数据集的语音以及来自musan数据集的乐音。将每个声源下采样至16khz。从上述数据集中随机选择两个不同声源,以

5db~5db之间的随机信噪比进行混合。该数据集共包含37.5小时的声样本,其中70%用于训练,20%用于交叉验证,10%用于测试。
[0050]
以最小化真实声源和估计声源之间的尺度不变信号失真比(scale

invariant source

to

distortion ratio,si

sdr)作为训练目标,通过adam优化器训练网络,直到分离性能不再提高,获得声源分离模型。
[0051]
网络在测试集上si

sdr改善值(db)如表1所示。参数式gammatone滤波器组相对于固定式gammatone滤波器组分离性能提高了2.31db,证明网络能够学习到更适用于该分离系统的参数集,相比于固定式滤波器组具有更高的灵活性和更好的分离性能。而相对于自由式滤波器组而言,参数式gammatone滤波器组不仅具有更好的可解释性,同时也获得了性能上的提升,证明具有听觉合理性的gammatone滤波器组能够引入有益于分离网络的先验信息。
[0052]
表1.具有不同编码器的声源分离网络在测试集中si

sdr改善值(db)
[0053][0054]
图3(a)表示经过网络训练之后得到的512个滤波器响应,其按照中心频率排列。(b)表示4个中心频率为1.125khz的gammatone滤波器的频率响应。结果表明网络学习到的中心频率依然按照erb尺度分布,但会学习到更为丰富的阶数p和带宽b,表明网络对于滤波器的参数敏感。对于滤波器组很难人为确定合适的固定参数值,而通过网络训练自发学习参数值是改善性能的更优方式。
[0055]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜