农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种端到端时域多尺度卷积神经网络的音源分离算法的制作方法

2021-08-27 13:36:00 来源：中国专利 TAG：门控卷积分离神经网络音源

本发明属于音频信号处理技术，涉及一种具有实时功能的卷积神经网络多尺度含有门控机制的音源分离算法，目的在于将人声与乐器演奏分离开来。

背景技术：

音乐作为一种艺术，从古到今有着的长足的发展，不断涌现出许多优秀的音乐家，产生了许多脍炙人口艺术作品。传统音乐都是以乐谱和演奏的形式流传下来。而多种乐器演奏的音频使得混合乐器音频应运而生。混合音频不仅仅是多种乐器，音乐作品中更多的是歌声与乐器音频混合的混合语音音频，传统领域对语音和乐器音频的研究也只是依据其不同的声学原理。

随着计算机技术的发展，传统的音频处理技术随之引入计算机领域，应用现代科技对音乐音频的研究，使得人们对音乐的理解和应用更加熟练，比如出现了电子音乐等。而电子音乐对于音乐的创作和传播都起到了关键作用，计算机技术的发展使得音频处理技术也得到迅速提高。在日常生活中，人们听到的几乎所有的声音都是许多人的声音的组合。例如可以是人的窃窃私语声音、其他乐器歌曲、来自设备产生的噪音、大自然的声音如风声或者是噪声如汽车的鸣笛声。这些声源是由较简单的音调组合而成的，同一媒体中可能同时存在多于一个的声音。在此环境下，听众可能会对现有声音中的单一来源感兴趣。因此聆听者面临将混合物中的兴趣源分离或提取出来的任务。人类听觉系统的认知能力使人们能够在嘈杂的环境中跟随说话人的位移而声音质量不受影响。这种能力使用了与源分离算法相似的技术。因此，音源分离是一个人们并不完全陌生的概念。声源分离任务的正式定义是以合理的模型来识别和分离不同的声源。这个任务对于人类来说是自然而且容易的，但是计算机设备具有挑战性的。

音乐信号中的人声伴奏分离是当下音乐信号处理技术中的一个难点及热点问题，虽然语音分离已经得到了广泛地研究也取得了较好的成果，但是将一首音乐的人声伴奏分开的研究却较少。从分离的观点看，人声伴奏分离与语音分离有着本质上的区别：伴奏由多种乐器混合演奏而成，其声源大多都是谐波、带宽的，与人体发声器官产生的声源组成一个统一整体，即人声与伴奏是相关的，当两个声源通过同一介质时，混合物是正弦分量的叠加。源的相似性影响源如何叠加。当两个信号相似时，它们将共享一些它们的频率分量。两个声源越相似频率分量越多。而语音跟噪声是统计独立或不相关。人声与伴奏相互关联使得人声与伴奏的分离要难于语音分离，故适合语音分离的算法不一定能有效地将人声与伴奏分离，这就需要结合更多的音乐特性来研究出合适的人声伴奏分离方法。

一个良好的人声乐器音频分离系统能为后期音乐处理带来便捷以及提供良好的性能保障，其可应用在许多领域，如对音乐作品的深刻理解，自动音乐转录，降噪和缺失数据插补等。因此具有重要的研究价值。

目前的音源分离网络，都是基于所需目标音频为语音进行的音源分离，音频处理算法大多借助于音频信号的谱图表示，将波形文件转到频域进行建模。这些时频表示是信号经过短时傅立叶变换stft后从波形中估计出来的。利用非线性回归方法将混合频谱包含的各个源频谱直接近似地表示出来，将干净频谱作为训练目标。同时也可以估计每个源信号在混频中的加权函数也称掩码，然后将得到的掩码和混合频谱的每个时频点相乘，从而将各个源来恢复出来。近年来研究人员通过提高掩码估计的准确性，时频掩蔽方法的性能得到了提升。但应用短时傅里叶变换(stft)将音频的波形文件进行频域变换会有以下几个缺点：。

第一由于stft模型没有对源相位进行估计，因此常常假设相位是混合相，相位的错误估计会导致干净声源的相位精确重建产生错误，导致重建音频的上限被拉低。

第二若想成功从时频表示的混频中分离出目标声源，要求对混合音频进行高分辨率的频率分解，次频率分解需要较长的时间窗函数来计算stft。其过程这限制了其在低延迟、实时应用中的适用性，增加了模型的最小延迟。

综上所述，本发明要解决的技术问题是将乐器音频信号与人声实时并准确的分离开来。且模型具有较强的泛化能力，具有较好的鲁棒性，系统能够在不同水平的情况下具有相对稳定的正确率。同时本发明所提出的算法使系统不再仅仅针对某一指定乐器的分离，而是对分离具有普遍性。并提高音源分离的准确性。

技术实现要素：

本发明提供了一种端到端时域多尺度卷积神经网络的音源分离方法。

实现本发明目的的技术解决方案以端到端多尺度神经网络及门控机制音源分离为技术背景。为了实现上述目的，本发明采取如下的技术解决方案：

步骤1、将纯净音频与噪声数据集按不同信噪比进行混合，制作所需的数据集。

步骤2、设计多尺度编码器模块将混合信号短片段转换为时域特征空间中的相应表示。

步骤3、设计含有门控线性单元、因果膨胀卷积、残差模块与深度可分离卷积的分离模块，来估计每个源的掩码。

步骤4、解码器模块通过得到掩蔽系数，利用编码器提取的特征来重建源波形。

与现有技术相比，本发明的显著优点为：该方法以多尺度神经网络及端到端音源分离技术背景。首先用卷积模块直接对波形文件做特征提取的方式，代替了传统短时傅里叶变换(stft)将波形文件转换到频域对频谱图进行操作的方法。将音频相位信息考虑进来，同时提高处理速度。分离模块中在tcn网络中引入全卷积门控线性单元，与深度可分离卷积模块，在保证实时的前提下，大幅度提升分离准确率。同时本发明所提出的算法使系统不再仅仅针对某一指定乐器的人声乐器声音分离分离，而是具有普遍性。在分离模块中采用多尺度卷积编码解码模块提取特征，大幅度提高了分离准确率。本发明的模型具有较强的泛化能力与精准度，且直接在时域对音频进行处理，具有实时性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明描述中需要使用的附图做简单介绍，以便更好地了解本发明的发明内容；

图1为本发明基于多尺度卷积神经网络的音源分离算法总流程图；

图2为本发明的音源分离总框架图；

图3为本发明的一维卷积与多尺度卷积特征提取对比图；

图4为音源分离时序卷积神经网络(tcn)模块图；

图5为深度可分离卷积逐通道卷积与逐点卷积计算流程示意图；

图6为全卷积门控线性单元(glu)计算流程示意图；

图7为音源分离时序卷积神经网络(tcn)总流程图；

图8为音源分离时序卷积神经网络(tcn)每个一维卷积块的设计框架图；

具体实施方式

端到端时域多尺度卷积神经网络的音源分离算法方法，以卷积神经网络、门控线性单元、因果膨胀卷积、残差模块与深度可分离卷积网络技术背景搭建模型，具体的音源分离技术方案流程图见附图说明图1。

本发明将选取两种乐器音频与人声音频数据集作为实验对象，选取开源钢琴音频(maps)数据集，小提琴数据集(bash10)，与人声音频数据集(mir-1k)由于模型具有较强的泛化能力，不仅仅是针对某一指定乐器的音源分离，因此可将数据集替换成所需分离的目标数据集。所选取的钢琴音频(maps)数据集中包含钢琴音频文件、相关的midi文件和标注的txt文件。根据钢琴类型和录制条件，该数据集被分成9个目录，每个目录下包含独立音调，和弦和完整的钢琴曲。其中每个目录下都有30首完整钢琴曲，合集270首，总时长约有18小时。小提琴的数据集选取了bash10数据集里面的小提琴部分。人声音频使用hsu等人提出的数据集mir-1k，该数据集包含1000首音乐片段，由业余爱好者演唱，音乐片段采样频率为16khz。

在音源分离的阶段对混合信号进行人声与乐器演奏分离。输入的混合音频信号经过多尺度卷积神经网络编码器进行特征提取；提取出来的特征向量经过多组时序卷积神经网络(tcn)进行建模；最后输入到多尺度卷积神经网络解码器得到分离开的音频波形，从而实现端到端时域音源分离算法的精准分离，见附图说明图2。

为很好地解决了现有音源分离忽略相位分离精度不高、不能实时分离的问题。基于多尺度卷积神经网络的音源分离方法步骤如下：

步骤一、混合音频数据集的建立及处理。在该部分将本发明选用的纯净钢琴音频maps数据集，纯净小提琴bash10数据集，人声音频mir-1k数据集。首先将三种数据集音频采样率调整到相同的44100hz。再三种音频与噪音进行批量混叠，模拟出混合音频数据集y。不同信噪比数据集生成：

snr表示信噪比，其单位为db；∑tx²(t)表示纯净人声音频能量；∑tn²(t)表示钢琴与小提琴叠加声音的音频能量。为了制作不同的特定信噪比的混合音频数据集，对噪声能量进行调整，如需q(db)的混合音频，将噪声能量大小调整为原来α倍，即

根据上式可推出：

混合音频的公式为：

式中x(t)为纯净人声音频信号；αni(t)为叠加的音乐音频信号；t为信号的脉冲宽度。

将音频数据集y中各环境下的音频数据分成训练集、验证集和测试集。分配比例为训练集音频条数∶验证集音频条数∶测试集音频条数＝3∶2∶2。

步骤二、搭建端到端特征提取模型。本专利算法将采用多尺度卷积神经网络编码器进行时域特征提取

音频特征提取部分采用了多尺度音频编码器，主要为解决频域方法的相位估计问题，本发明选择了时域方法，即使用卷积网络将时域混合信号直接转换为特征表示。在频域方法中，通过应用傅立叶变换，音频信号被分解为一个交替的表示，其特征是正弦和余弦。因此在时域方法中，可以类似的将卷积层中的滤波器视为基本函数，相当于将频域中的正弦和余弦特征表示视为嵌入系数。但是时域编码与傅里叶变换的不同之处在于：

特征表示不能单独处理实部和虚部；

基函数不是预先定义为正弦或余弦，而是可以从数据中训练得到的。

输入混合音频信号y(t)可以用卷积神经网络编码成嵌入系数，利用多个并行的一维卷积神经网络，每个卷积神经网络cnn模块具有不同的时间分辨率，将纯混合音频信号编码成多尺度音频嵌入。

多个尺度的数目可以变化，且系统具有一般性，可根据所需分离的音频信号类别改变时间尺度个数。

本发明中只针对三个不同的时间尺度进行研究。

是由于乐器钢琴与小提琴的频率分布在27.5hz～4186.0hz，分为低频(27.5hz～123.47hz)、中频(130.81hz～739.99hz)、高频(783.99hz～4186.00hz)三个频率段平行一维卷积神经网络(cnn)的滤波器长度不同，分为l1(短)、l2(中)、l3(长)样本，以覆盖不同的窗口大小。

多尺度编码器运算表达式如下：

式中上标s表示不同卷积核大小。

为最大池化以提高网络对时域音频信号表征能力与降低网络计算量。同单尺度编码器相同，输入的混合音频信号y(t)被分为k帧，卷积核宽度为n，卷积核滑动步长取编码器个数为p。

本发明中针对三个不同的时间尺度进行研究，即参数p＝3。

时域音频信号经过3个时域卷积核处理，得到的输出特征维度为：

即每帧音频信号与3个滤波器进行卷积，可理解为音频信号y(t)经过有限冲激响应(fir)滤波器组得到3通道的时域信号，且每通道对应不同频率的信号。

由于不同的尺度意味着不同的时间窗口，用长尺度的一维卷积模块卷积在低频处具有良好的分辨率，而短窗口在高频频段具有较好的分辨率可以提取出高频特征的细节。将并行的三种不同尺度的一维卷积所提出的特征进行全连接，达到了多尺度学习。使得卷积层从多个尺度学习音频信号的特征，能更完整的将目标钢琴音频从复杂混合信号中提取出来，见附图说明图3。

步骤三、设计含有深度可分离卷积与门控线性单元(glu)的分离模块模块。

本发明使用一个由堆叠的一维膨胀卷积块组成的全卷积分离模块。在各种序列建模任务中使用时序卷积神经网络(tcn)替代循环神经网络(rnn)。tcn模型中包含三个核心模块：因果卷积模块(causalconvolution)、空洞卷积模块(扩张因果卷积模块)(dilatedconvolution)、残差模块(residualconnection)，如图4所示。当处理时序任务时，tcn的输出长度应与输入长度相同，因此因果卷积采用一维卷积形式。

因果卷积中全部数据根据时间顺序具有一一对应的因果关系，即一种单向的结构。与传统卷积神经网络cnn不同，tcn模型对于t时刻的输出只依赖于t时刻前的信息，即只能由t时刻和之前的输入进行卷积得到。

tcn中的每一层都由膨胀因子逐渐增加的一维卷积块组成。膨胀因子呈指数增长，以确保能包含足够大的时间窗口。其中m个膨胀因子分别为1，2，4...2^m-1的卷积块被重复r次。

每个块的输入都进行零填充，以确保输出长度与输入相同。tcn的输出将被馈送到核大小为1的卷积块以估计掩码。1×1卷积块与非线性激活函数一起为c个目标源估计c个掩码矢量。

每个一维卷积块的设计。这里面应用了残差路径和一种跳跃式路径传递：一个块的残差路径作为下一个块的输入，而所有块的跳跃式路径的总和作为时序卷积神经网络(tcn)的输出。

与单尺度编码器相比提取出的特征较多，网络存在计算量大和参数冗余的问题，因此对传统tcn网络进行改进。

步骤四、为了进一步减少参数量，使用深度可分离卷积(s_conv)替代每个卷积块中的标准卷积。采用深度可分离卷积代替tcn中的普通卷积，先通过通道卷积对普通卷积在空间维度上进行分离，以增加网络宽度并扩大特征提取范围，再利用逐点卷积降低普通卷积操作的计算复杂度。

深度可分离卷积是普通卷积在通道上的分解，将一个卷积核分裂为独立的深度卷积(depthwiseconvolution，dw)和点向卷积(pointwiseconvolution，pw)。每个卷积核仅与一个通道卷积，实现特征提取，再通过点向卷积，将所有的通道特征进行连接。所有通道特征通过点对点卷积连接在一起，深度分离卷积将特征的抽取和合并分开。在不影响精度的前提，可以有效的减少卷积运算参数数量，运算成本和模型大小，用于构建轻量级网络。

如图5所示

其中z是s_conv(·)的输入，k是大小为p的卷积核zj和kj分别是矩阵z和k的行，l是大小为1的卷积核，表示卷积操作。

在第一个1×1conv(·)和d_conv(·)块之后分别添加了非线性激活函数和归一化操作。非线性激活函数是参数整流线性单位(prelu)：

网络中归一化方法使用全局层归一化(gln)。在gln中特征会在通道和时间维度上进行归一化：

其中f是特征，γ与β是可训练的参数，∈是一个为了数值稳定的小常量。

提取模块的开始处添加了一个线性一维卷积块作为瓶颈层(bottlenecklayer)。这个块确定了随后卷积块的输入路径和残差路径的通道数。该线性瓶颈层(bottlenecklayer)具有b个通道，则对于通道数为h且核大小为p的一维卷积块，第一个1×1卷积块和第一个深度卷积d_conv块中的核大小应分别为和并且残差路径中的核大小应为下一模块输入残差连接(skip-connectionpath)中的输出通道数可以不同于b，将该路径中的核大小表示为lsc，见附图说明图6。

步骤五、在tcn中引入卷积门控线性单元。由于分离模块中的一维卷积堆叠层tcn对频率跨度较大的钢琴音频信号与环境背景信号分离处理效果不佳，因此本发明将引入一种选通门控机制处理特征信息流。

在传统研究序列问题时，一般采用循环神经网络中(rnn)中的选通门控机制来处理时间序列信息，如长短时记忆网络(lstm)和门控循环单元(gru)，但其模型结构中的下一时刻的信息输出完全依赖于前一时刻中隐藏状态的信息，因此存在着计算量大和无法实现并行计算的问题。

针对上述问题本发明将引入全卷积门控线性单元(gatedlinearunits，glu)，见附图说明图7，模型计算公式如下：

其中其中xl与xl 1分别是第l层与l 1层的输出，wl与vl是l层的权重，bl与cl是为l层的偏差，σ是sigmoid激活函数，*是卷积运算，是矩阵之间暗元素相乘

这种包含激活函数的卷积模块的部分被称为门控机制。sigmoid激活函数可以维持网络的非线性特征，其取值在0到1间，其通过控制l层中哪些特征信息可以传入至下一层。将此模型块进行堆叠后可以处理序列长时间依赖问题。

全卷积门控线性单元(glu)是卷积神经网络(cnn)中的一种选通门控机制，与rnn不同，glu更容易扩展梯度，不容易消除梯度或引起差异，且大大缩短计算时间。

针对本发明主要工作与分离模块中tcn框架，本发明在tcn中引入全卷积门控线性单元(glu)。将两个门控线性单元添加到深度可分离卷积tcn中。

其中第一个门应用于卷积块的第一个1×1卷积层中，目的在于控制流入的特征信息。

第二个门应用于从深度可分离卷积层到输出1×1卷积层之间的所有层中，目的在于控制信息的处理与流出，见附图说明图8。

步骤六、估计提取掩码通过估计c个向量(掩码)实现每帧的分离，mi∈r^1×n，其中c是混合信号中噪音的数量且mi∈[0，1]。将mi应用到混合表示w上得到相应的源表示：

di＝w⊙mi

其中⊙表示对应点相乘。估计的目标钢琴音频波形信号通过解码器重建出来：

步骤五、多尺度解码器使用一维转置卷积运算从该表示形式重建出波形，可以将其用矩阵乘法表示为：

其中是重建的x，v∈r^n×l的行是解码器的基函数，每个长为l。将重叠的重构段相加在一起以生成最终的波形。具体的音频数据提取流程框架图见附图说明图1。

实验配置：网络在5秒长的段上训练了150个epochs。初始学习率设置为0.0001。如果在3个连续的epochs内，验证集的准确性没有提高，则学习率将减半。优化器使用adam。卷积自动编码器使用50％的stridesize(即连续帧之间有50％的重叠)。训练期间应用最大l2范数为5的裁剪。

训练目标训练端到端系统的目的是最大化尺度不变的信噪比(si-snr)。si-snr定义为：

至此对音符信号训练集中一条混合音频的分离处理完毕，接下依次按照如上步骤处理训练集、验证集和测试集。

步骤七、用训练好的基于时域的端到端多尺度卷积神经网络的音源分离系统对混合音频信号进行分离测试，统计分离出的音频与原纯净音频的相似度与传统频域音源分离系统的性能进行对比分析。

统计完成后发现，本发明提出的基于端到端时域多尺度卷积神经网络的音源分离方法对不同音源有很高的准确率，且与传统传统频域音源分离算法相比，本发明算法可以实现实时的音源分离。传统算法表现很差，而本发明算法表现优异，性能较好。

由此可见，本发明的端到端时域多尺度卷积神经网络的音源分离方法，很好地解决了现有音源分离别算法对音源频率分布要求高、可应用场景单一的问题，实现了多音源的实时分离。

本发明优点

一种端到端时域多尺度卷积神经网络的音源分离方法。

本发明以深度学习卷积神经网络以及音源分离音频时域分析为技术背景搭建模型。首先制作混合音频数据集。用卷积模块直接对波形文件做特征提取的方式，代替了传统短时傅里叶变换(stft)将波形文件转换到频域对频谱图进行操作的方法。将音频相位信息考虑进来，同时提高处理速度。根据乐器音频信号频率特征与人声特征设计多尺度卷积神经网络提取模块，使得卷积层从多个尺度学习音频信号的特征，能更完整的将音频从混合信号中分离开来来。在分离模块中采用深度可分离卷积代替tcn中的普通卷积，先通过通道卷积对普通卷积在空间维度上进行分离，以增加网络宽度并扩大特征提取范围，再利用逐点卷积降低普通卷积操作的计算复杂度。在不影响精度的前提，可以有效的减少卷积运算参数数量，运算成本和模型大小，用于构建轻量级网络。最后在tcn中加入全卷积门控线性单元(glu)，不仅有效的解决了梯度弥散的问题，且保留了模型非线性能力，提高了分离的准确度。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于语音数据的情绪识别方法、装置及存储介质与流程

一种端到端时域多尺度卷积神经网络的音源分离算法的制作方法

相关文章

最热文献