一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声音分离的增强方法及系统与流程

2021-08-10 16:37:00 来源:中国专利 TAG:语音 分离 增强 声音 智能
声音分离的增强方法及系统与流程

本发明涉及智能语音领域,尤其涉及一种声音分离的增强方法及系统。



背景技术:

声音增强研究目前主要集中在语音上,语音增强的目的是过滤或抑制不想要的成分,如抑制给定音频信号中的背景噪声。这么做是因为传统的增强训练目标需要先验的信号质量知识(即干净的信号),以便在干净的语音情况下工作。

为了实现声音分离获得干净的语音,通常会使用传统滤波器,也是比较广泛的方法,通常有lms(leastmeansquare,最小均方)自适应滤波、维尔纳滤波、基本谱减法等纯数学方法,特点是计算方便,且使用无需额外的数据,并且使用成本较低。或者使用监督的神经网络方法,通常是采用干净的人声或其他目标声音与人造的杂音混合,输入神经网络,训练得到干净的目标声音。

在实现本发明过程中,发明人发现相关技术中至少存在如下问题:传统滤波器虽然计算速度快,且无需额外数据,但这轻量级的方法通常只能应对比较普通的场景,并且大部分时间效果比较一般,不够显著。传统的使用监督的神经网络方法通常较为依赖干净的强标签数据,并且鲁棒性不足,难以应对大自然中真实存在的不同类型噪声。



技术实现要素:

为了至少解决滤波器效果不佳、不够显著,监督的神经网络方法依赖干净的强标签数据,难以应对真实存在的不同类型噪声的问题。

第一方面,本发明实施例提供一种声音分离的增强方法,包括:

从给定数量的各类别的弱标签音频数据集中,利用第一限制条件,确定各类别的第一有效音频片段;

利用所述各类别的第一有效片段,训练通用声音分离系统;

针对选定的类别的弱标签音频数据集,利用第二限制条件,确定所述选定的类别的第二有效音频片段,其中,所述第二限制条件高于所述第一限制条件;

利所述选定的类别的所述第二有效片段以及其他类别的第一有效片段,训练类别适应增强系统;

利用所述类别适应增强系统对所述选定的类别进行声音分离。

第二方面,本发明实施例提供一种声音分离的增强系统,包括:

第一有效音频片段确定程序模块,用于从给定数量的各类别的弱标签音频数据集中,利用第一限制条件,确定各类别的第一有效音频片段;

通用声音分离系统训练程序模块,用于利用所述各类别的第一有效片段,训练通用声音分离系统;

第二有效音频片段确定程序模块,用于针对选定的类别的弱标签音频数据集,利用第二限制条件,确定所述选定的类别的第二有效音频片段,其中,所述第二限制条件高于所述第一限制条件;

类别适应增强系统训练程序模块,用于利所述选定的类别的所述第二有效片段以及其他类别的第一有效片段,训练类别适应增强系统;

声音分离程序模块,用于利用所述类别适应增强系统对所述选定的类别进行声音分离。

第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的声音分离的增强方法的步骤。

第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的声音分离的增强方法的步骤。

本发明实施例的有益效果在于:在对通用声音分离系统进行训练后,采用分段重新选择的方法将系统学习所有指定的特定类别的增强系统。进一步消除对应类别中不必要的声音,提升了模型的鲁棒性,在对强噪声环境下表现较好。并且摆脱了对强标签数据的依赖。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种声音分离的增强方法的流程图;

图2是本发明一实施例提供的一种声音分离的增强方法的类别适应增强系统体系结构图;

图3是本发明一实施例提供的一种声音分离的增强方法的目标波段的重选流程图;

图4是本发明一实施例提供的一种声音分离的增强方法的在0dbsnr噪声下,不同配置的语音增强性能数据图;

图5是本发明一实施例提供的一种声音分离的增强方法的不同条件下相对语音增强的语音自适应数据图;

图6是本发明一实施例提供的一种声音分离的增强方法的在不同snr下的音乐增强性能数据图;

图7是本发明一实施例提供的一种声音分离的增强方法的混合、增强和干净的话语和音乐的功率谱图;

图8是本发明一实施例提供的一种声音分离的增强系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种声音分离的增强方法的流程图,包括如下步骤:

s11:从给定数量的各类别的弱标签音频数据集中,利用第一限制条件,确定各类别的第一有效音频片段;

s12:利用所述各类别的第一有效片段,训练通用声音分离系统;

s13:针对选定的类别的弱标签音频数据集,利用第二限制条件,确定所述选定的类别的第二有效音频片段,其中,所述第二限制条件高于所述第一限制条件;

s14:利所述选定的类别的所述第二有效片段以及其他类别的第一有效片段,训练类别适应增强系统;

s15:利用所述类别适应增强系统对所述选定的类别进行声音分离。

在本实施方式中,弱标签音频数据相较于强标签音频数据容易获得。例如,声音分类问题,一个数据集里面包含若干个音频,每个音频里包含了不同的声音,如果把每个音频都进行一一标注,这样数据标注工作费时费力。如果数据量很大,对训练的数据完全进行强标注肯定是难以实现的。如果音频数据集中的数据出现只标注部分类别没有被完全标注的情况,也算一种弱标签,还有一种情况是指提供音频的所有类别标签,没有提供各音频的具体属性信息,也就是缺乏详细的音频属性信息,也是一种弱标签音频。这样的音频在获取中较为容易获得,从而使用基于弱监督的方式进行训练。

对于步骤s11,由于帧级别标注在弱标签音频数据集中是不可用的,需要使用限制条件来获得帧级别的预测,在此基础上,可以选择音频片段进行有效的训练。

作为一种实施方式,所述第一限制条件通过基于声音事件种类的声音事件检测模型确定;所述确定各类别的第一有效音频片段包括:

将所述弱标签音频数据集输入至所述声音事件检测模型;

在所述声音事件检测模型中,截取所述弱标签音频数据集内各音频数据中声音事件最高值的前后预设时间段的音频,确定为第一有效音频片段。具体表现在,“第一限制条件”针对所有种类(声音时间种类)音频,且限制较弱(但是相对的,经过该约束后取得的片段数量较多)。

在本实施方式中,可以使用sed(sound-event-detection,声音事件检测模型),sed模型是一个卷积递归神经网络(crnn),首先根据帧级sed输出的最大概率选择片段。即对于特定的音频剪辑wk,在提供声音事件标签k的情况下,将声音类k的期望存在概率记为ok(t)∈[0,1],t=1,2,…,t。其中t为sed模型的最大输出长度。

声音类别为k的概率最大的时间步长τ用于选择持续时间为τ0的锚点片段sk:

这样,这样可以确保在弱标签音频数据集中确定所有可用的有效音频片段。

对于步骤s12,本方法中题述的通用声音分离系统是基于u-net结构,该结构被馈入混合源的频谱图并输出分离的光谱。可以使用527个类的片段来训练这种广义的分离系统。其中,527类是现实中常见的类型,例如,类别有无伴奏类、音乐类、演讲类、齐特琴类。更细分的,流行音乐类,古典音乐类、小提琴类、二胡类这些常见的类型,总共确定有527个类别,在此不再一一赘述。这样由于类别足够充足,基本上涵盖了所有可能的语音类别,所训练的声音分离系统可以通用于各种类型的声音。

作为一种实施方式,所述利用所述各类别的第一有效片段,训练通用声音分离系统包括:

将所述各类别的第一有效片段中不同类别的第一有效片段两两组合,对所述通用声音分离系统进行训练。

在本实施方式中,从上述确定的527个类别中,随机选取两个类别i和j中选择两个片段si和sj(例如,音乐类型和演讲类型)。通常只使用一种干净的声音类别来训练分离系统,而由于数据限制,选择的片段通常包含多个声音类别。因此,条件向量ck用于控制要分离的源。分离系统可以描述为:

f(si sj,ck)→sk

其中,k=i,j。设ck∈[0,1]k表示所有声音类别k的存在概率。ck是使用线性softmax从sed模型ok(t)的帧级输出计算得出的。

当选择用于训练的波对时,前提是这两个部分包括不同的声音课程。

ci·cj>=η

给定相似阈值η,如果条件向量ci和cj的点积满足给定阈值,则拒绝两个段si,k的任何组合。换句话说,确保在各种声音事件对上训练分离系统,从而实现通用声音分离,具体步骤,如图2所示。

对于步骤s13,在对广义(通用)分离系统进行训练后,采用分段重新选择的方法将系统适应于特定类别的增强系统。与一开始训练增强系统相比,本方法的分离增强适应性使模型能够学习所有可用的声音类的特征,从而识别和消除不必要的声音类。

在训练分离系统时,涉及所有声音类别的锚点段旨在增强模型的泛化能力。在适应类别的增强阶段中,需要一种不同的片段选择策略来实现更加明确的,有针对性的声音类别增强。

选定的类别是由用户自行定义,例如从通用的527个类别中,选择针对性的一个类别,例如音乐类。针对选定的音乐类别的弱标签音频数据集,使用更强的限制条件使得声音更为纯净。

作为一种实施方式,所述第二限制条件通过基于双阈值分割的声音事件检测模型确定。

在本实施方式中,将音频片段重新分类,并使用更严格的规则选择锚定片段(也就是选定类别的音频片段)。对于带有参考语音标签的音频片段,可以使用double-threshold双阈值分割算法的方法找到包含语音的连续音频块(长于2s),因此可能导致选取后的片段较少。如图3所示。三个10秒的音频剪辑以及选定的2秒语音片段。使用双阈值方法,第一段的修订较小,而第三段的时移较大,第二段被丢弃。本方法与现有技术不同,在320ms的窗口内验证了声音事件的有效性。目标声音类别(也就是选定类别)的高质量片段将改善要训练的增强系统的性能。

对于步骤s14,使用所提出的类别适应程序来训练任何给定类的增强系统。假设训练一个t类声音(例如t指代音乐类别)的增强系统,加入分离模型和重新选择的t类波段(音乐类别的第二有效音频片段)。将t段与另一个其他的类别混合,用ci·cj>=η进行筛选,以确保这两个类别是不同的。训练是通过同时优化下述三个目标方程来增强声音类t。

f(st si,ct)→st

f(st,ct)→st

f(si,ct)→0

上式的输入源信号si,t被变换成表示为|s|的频谱图。使用短时傅立叶变换(stft)s=|s|ej∠s。模型的输出输入源∠s的相位用于恢复估计的输出结果

训练源分离模型,使输入谱图|s|与估计谱图之间的均方误差(mse)最小,如上述公式所示。从而训练得到选定类别的类别适应增强系统。

对于步骤s15,使用训练好的类别适应增强系统来对选定类别的音频进行声音分离,可以得到该类别分离后的音频。

通过该实施方式可以看出,在对通用声音分离系统进行训练后,采用分段重新选择的方法将系统学习所有指定的特定类别的增强系统。进一步消除对应类别中不必要的声音,提升了模型的鲁棒性,在对强噪声环境下表现较好。并且摆脱了对强标签数据的依赖。

对本方法进行具体实验,虽然本方法可以增强audioset中的任何类,其中,audioset是google发行的声音版imagenet。audioset提供了两种格式:csv文件和128维的特征,采样率为1hz,也就是把音频按秒提取为128维特征。但这项工作着重于验证对通用语音和音乐类的方法的有效性。此外,将系统评估为asr中的预处理步骤,这是在下游任务中首次验证这种弱标签增强方法。

增强数据预处理使用audioset中的平衡训练子集(21,155个音频剪辑)(包括527个声音事件类)来训练和评估本方法的分离和增强系统。每个音频剪辑的标记都不够强(其具体表现在声音数据集的weakly-labelled的音频标签不够强,例如,没有时间尺度具体某种类别出现在几分几秒,持续多久,而只是这段音频有什么声音种类),并且包含一个或多个声音类别。针对三种常见的声音类型(语音,音乐和噪音)评估本方法。语音来自librispeech的干净测试集,包含2620干净的语音说话。音乐来自musan数据集(总时长≈42小时),而噪声来自musan噪声数据集中的自由声音类别(≈6小时)。

随机选取1000对语音(librispeech) 噪声(musan)和音乐(musan) 噪声(musan)对,在不同信噪比下混合清洁源和噪声源来测试本方法的增强能力。还在librispeech的测试干净集上添加噪声,并使用espnet中kamo-naoyuki训练的asr模型对输入语音源的质量进行评分。这表明了本方法提出的下游语音识别增强系统的实用性和有效性。

实验设置使用sed模型来预测开始和偏移,并给出音频片段中给定声音类别的预期期望。sed模型是在audioset的不平衡(≈5000h)子集上训练的,该子集包含527个声音事件。sed模型是一个卷积递归神经网络(crnn),名为l-cdur,其具有八个卷积块。每个块包含一个卷积层,一个批处理归一化层和一个relu激活。该体系结构使用均值最大池作为其二次采样策略,并且在卷积块之间利用了丢包。输入是片段的对数梅尔频谱图(lms),以20毫秒的分辨率输出每个声音类别k的相应期望ok(t)。选择所述段对当相似性阈值η被设定为0.4。

在之前的工作的基础上,采用了u-net作为广义分离和适应性增强系统。输入段的长度为2秒,采样率为16000hz。stft特征每16ms提取一次,窗口大小为64ms。u-net结构有4个编码器和4个解码器,而条件向量ci在每个卷积层之后通过一个可学习的线性层添加。adam优化器用于训练分离和增强系统,起始学习率为0.001。

在预测和测试阶段,将条件向量设置为一个单热向量。用逆stft(istft)从输出谱图中恢复估计的源。利用pytorch(开源的python机器学习库)实现了神经网络。

度量标准应用了常见的增强度量标准:声音失真率(sdr),语音质量的感知评估(pesq)和短时客观清晰度(stoi)。字错误率(wer)用作下游asr任务的评估指标。

语音适应增强结果,如图4显示了完整的语音自适应增强结果。提出的广义自适应增强系统在sdr、pesq和stoi中分别获得了8.537、2.317、0.825,提高了0.8%。通过与传统的、最先进的增强方法和先前使用类似的弱监督管道的工作进行分析。

与其他增强方法的比较以snr=0db将噪声注入数据会导致wer和语音清晰度方面的性能显着下降。维纳滤波是通常在去噪中部署的传统信号处理方法。将维纳滤波器应用于测试集(语音 噪声)会对清晰度和语音识别性能产生不利影响,从而导致较低的pseq和stoi得分以及较高的wer,如图4中的第(3)行。

现代神经网络方法,例如tasnet,目前最先进的语音增强技术,需要干净的标记数据。使用wsj0和wham培训的tasnet作为背线比较。尽管在增强指标上有显著的增加,asr的性能下降(增加1.4%的wer)可以观察到如图4中的第(4)行。结论是与传统的维纳滤波和现代的全监督tasnet方法相比,本方法提出的弱标记方法在强噪声的asr场景中表现出色。

与其他弱监督方法的比较。提出了一种基于声音事件检测的弱标记语音增强系统。当比较两种研究的弱监督方法时,注意到所使用的不同声音事件检测模型起着重要作用。提议的l-cdur模型以20ms的时间分辨率工作输出,并在audioset上获得33.5%的map分数。与其他基于scn的sed方法相比,基于cnn的模型即预训练音频神经网络(pann),提出的模型在帧级预测中效果很好,这应该有利于目标片段的重新选择,而pann的分辨率为320ms和更高的map是43%,在音频标记方面表现出色。

比较广义适应增强系统与其他等方法。如图4中(5)代替与pannslcdur消融(6),并与语音适应二进制培训培训(7),增强适应训练从100k的广义分离步骤(8)和(9)200k比对。

200k自适应方法可以实现最好的观察结果。结果表明,最重要的是,尽管所有其他方法都无法降低wer,但在librispeech干净测试集上,在0dbsnr下,所提出的方法将wer降低了0.8%绝对值。

进一步分析了本方法的模型的噪声鲁棒性,如图5所示。本方法使sdr、pesq和stoi分别平均增加了6.864、0.337和0.022,而在-5、0、5、10db信噪比下,wer平均减少了0.55%。可以看出,随着信噪比的降低,sdr、pesq、stoi的增加和wer的减少更为显著。这表明本方法的语音适应增强在强噪声场景下更有效。

如图6中进一步提供了音乐增强结果,以表明可以使用适应类别的方法来增强任何类别。类别自适应方法在snr-5、0、5、10db噪声下的sdr(软件无线电)平均值为5.743。与语音增强的结果一致,随着噪声的增加,这种增加更为显着。还提供了语音和音乐增强的可视化示例(请参见图7所示),这表明了本方法的自适应增强范例的普遍有效性。

总的来说,本方法提出了一个具有弱标记数据的分类自适应增强系统。在不同信噪比下,语音增强系统的sdr、pesq和stoi平均分别提高了6.864db、0.337和0.022;在后续的asr任务中,wer平均降低了0.55%。音乐增强系统达到平均5.743分贝。结果表明,本方法在强噪声场景下的性能更显著。

如图8所示为本发明一实施例提供的一种声音分离的增强系统示意图,该系统可执行上述任意实施例所述的声音分离的增强方法,并配置在终端中。

本实施例提供的一种声音分离的增强系统10包括:第一有效音频片段确定程序模块11,通用声音分离系统训练程序模块12,第二有效音频片段确定程序模块13,类别适应增强系统训练程序模块14和声音分离程序模块15。

其中,第一有效音频片段确定程序模块11用于从给定数量的各类别的弱标签音频数据集中,利用第一限制条件,确定各类别的第一有效音频片段;通用声音分离系统训练程序模块12用于利用所述各类别的第一有效片段,训练通用声音分离系统;第二有效音频片段确定程序模块13用于针对选定的类别的弱标签音频数据集,利用第二限制条件,确定所述选定的类别的第二有效音频片段,其中,所述第二限制条件高于所述第一限制条件;类别适应增强系统训练程序模块14用于利所述选定的类别的所述第二有效片段以及其他类别的第一有效片段,训练类别适应增强系统;声音分离程序模块15用于利用所述类别适应增强系统对所述选定的类别进行声音分离。

本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的声音分离的增强方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

从给定数量的各类别的弱标签音频数据集中,利用第一限制条件,确定各类别的第一有效音频片段;

利用所述各类别的第一有效片段,训练通用声音分离系统;

针对选定的类别的弱标签音频数据集,利用第二限制条件,确定所述选定的类别的第二有效音频片段,其中,所述第二限制条件高于所述第一限制条件;

利所述选定的类别的所述第二有效片段以及其他类别的第一有效片段,训练类别适应增强系统;

利用所述类别适应增强系统对所述选定的类别进行声音分离。

作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的声音分离的增强方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的声音分离的增强方法的步骤。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜