一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频解码器、用于确定定义滤波器的特征的值的集合的装置、用于提供解码音频表示的方法、用于确定定义滤波器的特征的值的集合的方法、以及计算机程序与流程

2022-03-26 10:01:40 来源:中国专利 TAG:


1.根据本发明的实施例涉及音频解码器。
2.根据本发明的另外实施例涉及用于确定定义滤波器的特征的值的集合的装置。
3.根据本发明的另外实施例涉及一种用于提供解码音频表示的方法。
4.根据本发明的另外实施例涉及一种用于确定定义滤波器的特征的值的集合的方法。
5.根据本发明的另外实施例涉及相应的计算机程序。
6.根据本发明的实施例涉及用于提高编码语音顾量的基于实值掩码的后置滤波器。
7.根据本发明的实施例通常涉及用于增强音频解码器的解码音频、基于解码音频表示确定定义滤波器的特征的值的集合的后置滤波器。


背景技术:

8.下面将介绍一些传统的解决方案。
9.鉴于这种情况,需要一种在对音频内容进行解码时在比特率、音频质量和复杂性之间提供改善的折衷的概念。


技术实现要素:

10.根据本发明的实施例创建用于基于编码音频表示提供解码音频表示的音频解码器(例如语音解码器、或通用音频解码器、或在语音解码模式(例如基于线性预测的解码模式)和通用音频解码模式(例如使用缩放因子来缩放解码的频谱值的基于频谱域表示的解码模式)之间进行切换的音频解码器)。
11.音频解码器包括滤波器(或“后置滤波器”),所述滤波器用于提供解码音频表示(例如))的增强音频表示(例如其中由滤波器使用的输入音频表示可以例如由音频解码器的解码器核心提供。
12.滤波器(或后置滤波器)被配置为基于解码音频表示的与不同的频率段或频率范围(例如具有频率段索引或频率范围索引k)相关联的频谱值来获得多个缩放值(例如掩码值,例如m(k,n)),缩放值可以例如是实值,并且例如可以是非负,并且例如可以限于预定范围,并且与不同频率段或频率范围相关联。
13.滤波器(或后置滤波器)被配置为使用缩放值(例如m(k,n))来对解码音频信号表示(例如)的频谱值或其预处理版本进行缩放,以获得增强音频表示(例如)。
14.该实施例基于可以使用解码音频信号表示的频谱值的缩放来有效地改善音频质量的思想,其中缩放值基于解码音频表示的频谱值来导出。已经发现,受频谱值的缩放影响的滤波可以基于解码音频表示的频谱值有效地适应于信号特征,并且可以提高解码音频表
示的质量。例如,基于解码音频表示的频谱值,可以以减少量化噪声的影响的方式来调整滤波器设置(其可以由缩放值定义)。例如,基于解码音频表示的频谱值来调整缩放值可以使用机器学习结构或神经网络,机器学习结构或神经网络可以以计算高效的方式提供缩放值。
15.具体地,已经发现,即使量化噪声通常与信号相关,从解码音频表示的频谱值导出缩放值也仍然是有利的并且可能具有良好的结果。因此,在这种情况下可以应用该概念并获得特别好的结果。
16.总之,上述音频编码器允许使用滤波器来提高可实现的音频质量,滤波器的特征基于解码音频表示的频谱值来进行调整,其中滤波操作可以例如通过使用缩放值对频谱值进行缩放来以有效的方式来执行。因此,可以改善听觉印象,其中不必依赖于任何附加的辅助信息来控制滤波器的调整。相反,滤波器的调整可以仅基于当前处理帧的解码频谱值,而不管用于产生音频信号的编码表示和解码表示的编码方案,以及一个或多个先前解码的帧和/或一个或多个随后解码的帧的可能解码的频谱值。
17.在音频解码器的优选实施例中,滤波器适于使用可配置的处理结构(例如“机器学习”结构,如神经网络),以便提供缩放值,所述处理结构的配置基于机器学习算法。
18.通过使用可配置的处理结构(如机器学习结构或神经网络),滤波器的特征可以基于定义可配置处理结构的功能的系数来轻松地调整。因此,通常可以根据解码音频表示的频谱值在宽范围内调整滤波器的特征。因此,可以在许多不同情况下获得改善的音频质量。
19.在音频解码器的优选实施例中,滤波器被配置为仅基于多个频率段或频率范围中的解码音频表示的频谱值来确定缩放值(例如,在从频谱值导出缩放值时不使用任何附加信令信息)。
20.使用这样的概念,可以独立于辅助信息的存在来改善音频质量。
21.由于使用了解码音频信号(解码音频表示的频谱值)的连贯的并且通用的表示,因此计算复杂度和结构复杂度可以保持在合理的低水平,其中解码音频信号的表示与用于获得编码表示和解码表示的编码技术无关。在这种情况下,避免了对特定辅助信息值的复杂且特定的操作。此外,通常可以使用通用处理结构(例如神经网络)基于解码音频表示的频谱值导出缩放值,该通用处理结构使用有限数量的不同计算功能(例如缩放的求和、以及激活函数的评估)。
22.在音频解码器的优选实施例中,滤波器被配置为根据以下公式获得增强音频表示的幅度值(其可以例如描述绝对值或振幅或范数)
[0023][0024]
其中m(k,n)是缩放值,其中k是频率索引(例如指定不同的频率段或频率范围),其中n是时间索引(其例如指定不同的重叠或非重叠帧),以及其中是解码音频表示的频谱值的幅度值。幅度值可以是通过将时频变换(如stft(短时傅立叶变换)、fft或mdct)应用到解码音频信号而获得的频谱值的幅度、绝对值、或任何范数。
[0025]
备选地,滤波器可以被配置为根据以下公式来获得增强音频表示的值
[0026][0027]
其中m(k,n)是缩放值,其中k是频率索引(例如指定不同的频率段或频率范围),其中n是时间索引(例如指定不同的重叠或非重叠帧),以及其中是解码音频表示的频谱值。
[0028]
已经发现,增强音频表示的幅度值或增强音频表示的(通常为复值)值的这种简单导出可以以良好的效率执行,并且仍然导致音频质量的显著改善。
[0029]
在音频解码器的优选实施例中,滤波器被配置为获得缩放值,使得缩放值导致针对解码音频信号表示的一个或多个频谱值、或者针对基于解码音频信号表示的频谱值的一个或多个预处理频谱值的缩放(或在某些情况下的放大)。
[0030]
通过执行这样的缩放,可以优选地但不是必须地导致至少一个频谱值的放大或衰减(并且通常也可以导致至少一个频谱值的衰减),解码音频表示的频谱可以以有效的方式进行塑造。例如,通过允许通过缩放进行放大和衰减二者,在某些情况下还可以减少可能由数字表示的有限精度导致的伪影。此外,通过避免将缩放值限制为小于一的值,缩放值的调整可选地包括附加的自由度。因此,可以实现音频质量的良好提高。
[0031]
在音频解码器的优选实施例中,滤波器包括神经网络或机器学习结构,所述神经网络或机器学习结构被配置为基于描述解码音频表示(例如描述解码音频表示的变换表示的幅度)的多个频谱值来提供缩放值,其中频谱值与不同的频率段或频率范围相关联。
[0032]
已经发现,在这种滤波器中使用神经网络或机器学习结构带来了相对较高的效率。也已经发现在输入到神经网络或机器学习结构的频谱值的数量相对较大的情况下,神经网络或机器学习结构可以轻松处理输入量的解码音频表示的频谱值。已经发现,神经网络或机器学习结构可以很好地处理如此大量的输入信号或输入量,并且它还可以提供大量不同的缩放值作为输出量。换言之,已经发现,神经网络或机器学习结构非常适合基于相对较大数量的频谱值导出相对较大数量的缩放值,而不需要过多的计算资源。因此,可以以非常精确的方式针对解码音频表示的频谱值调整缩放值,而无需过度的计算负荷,其中在调整滤波特征时可以考虑解码音频表示的频谱的细节。此外,已经发现,可以通过合理的努力来确定提供缩放值的神经网络或机器学习结构的系数,并且神经网络或机器学习结构提供足够的自由度以实现缩放值的精确确定。
[0033]
在音频解码器的优选实施例中,神经网络或机器学习结构的输入信号表示解码音频表示的频谱值的对数幅度、振幅或范数,其中频谱值与不同的频率段或频率范围相关联。
[0034]
已经发现,提供频谱值的对数幅度、频谱值的振幅或频谱值的范数作为神经网络或机器学习结构的输入信号是有利的。已经发现,频谱值的符号或相位对于滤波器的调整(即,对于缩放值的确定)是次要的。具体地,已经发现,由于可以减小动态范围,将解码音频表示的频谱值的幅度对数化是特别有利的。已经发现,由于频谱值通常具有大动态范围,当与频谱值本身相比时,神经网络或机器学习结构通常可以更好地处理频谱值的对数幅度。由于通常不需要使用浮点数表示,通过使用对数值,还可以在(人工)神经网络或机器学习结构中使用简化的数字表示。相反,可以使用定点数字表示来设计神经网络或机器学习结
构,这显著地减少了实现工作量。
[0035]
在音频解码器的优选实施例中,神经网络或机器学习结构的输出信号表示缩放值(例如掩码值)。
[0036]
通过提供缩放值作为神经网络或机器学习结构的输出信号(或输出量),实现工作量可以保持在合理低的水平。例如,提供相对较大数量缩放值的神经网络或机器学习结构容易实现。例如,可以使用同质结构,这减少了实施工作量。
[0037]
在音频解码器的优选实施例中,训练神经网络或机器学习结构以限制、减少或最小化多个目标缩放值(例如irm(k,n))和使用神经网络或使用机器学习结构而获得的多个缩放值(例如m(k,n))之间的偏差(例如均方误差;例如mse
ma
)。
[0038]
通过以这种方式训练神经网络或机器学习结构,可以实现增强音频表示(通过使用缩放值对解码音频信号表示的频谱值(或其预处理版本)进行缩放而获得)提供良好的听觉印象。例如,可以例如基于编码器侧有损处理的知识来轻松地确定目标缩放值。因此,可以以很少的工作量确定哪些缩放值最好地使解码音频表示的频谱值接近理想的增强音频表示(例如可以等于音频编码器的输入音频表示)。换言之,通过训练神经网络或机器学习结构以限制、减少或最小化多个目标缩放值与使用神经网络或使用机器学习结构而获得的多个缩放值之间的偏差,例如,对于多个不同的音频内容或不同类型的音频内容,即使对于不同的音频内容或不同类型的音频内容,也可以实现神经网络或机器学习结构提供适当的缩放值。此外,通过使用目标缩放值与使用神经网络或使用机器学习结构而获得的缩放值之间的偏差作为优化量,训练过程的复杂度可以保持很小并且可以避免数值问题。
[0039]
在音频解码器的优选实施例中,训练神经网络或机器学习结构以限制、减少或最小化目标幅度频谱、目标振幅频谱、目标绝对频谱或目标范数频谱(例如|x(k,n)|,例如训练音频信号的原始频谱)与使用已处理(例如已解码的、例如已量化的、已编码并已解码的)频谱的缩放(例如频率相关缩放)而获得的(增强的)幅度频谱、振幅频谱、绝对频谱或范数频谱之间的偏差(例如mse
sa
),该已处理频谱(例如基于目标幅度频谱和/或基于训练音频信号)的缩放使用由神经网络或由机器学习结构提供的缩放值(其中神经网络的输入信号例如基于解码的频谱)。
[0040]
通过使用这种训练方法,通常可以确保增强音频表示的良好质量。具体地,已经发现,如果与用于训练的音频内容相比,解码音频表示表示不同的音频内容,则神经网络或机器学习结构还提供适当的缩放系数。此外,已经发现,如果幅度频谱或振幅频谱或绝对频谱或范数频谱与期望的(目标)幅度频谱或(目标)振幅频谱或(目标)绝对频谱或(目标)范数频谱具有足够好的一致性,则增强音频表示被认为具有良好质量。
[0041]
在音频的优选实施例中,训练神经网络或机器学习结构,使得针对解码音频信号表示的频谱分解的一个或多个频谱值、或者针对基于解码音频信号表示的频谱分解的频谱值的一个或多个预处理频谱值的缩放位于0和预定最大值之间的范围内。
[0042]
已经发现,缩放(或缩放值)的限制有助于避免频谱值的过度放大。已经发现,一个或多个频谱值的非常大的放大(或缩放)可以导致可听到的伪影。此外,已经发现,例如如果解码音频表示的频谱值非常小、甚至等于零,可能在训练期间达到过大的缩放值。因此,可以通过使用这种限制方法来提高增强音频表示的质量。
[0043]
在音频解码器的优选实施例中,最大值大于1(并且可以例如是2、5或10)。
[0044]
已经发现,这种对缩放(或缩放值)的限制带来了特别好的结果。例如,通过允许放大(例如,通过允许缩放或缩放值大于1),还可以部分地补偿由“频谱空洞”导致的伪影。同时,过大的噪声可以通过衰减(例如,使用小于1的缩放或缩放值)来限制。因此,可以通过缩放获得非常灵活的信号改善。
[0045]
在音频解码器的优选实施例中,训练神经网络或机器学习结构,使得针对解码音频信号表示的频谱分解的一个或多个频谱值、或者针对基于解码音频信号表示的频谱分解的频谱值的一个或多个预处理频谱值的缩放(或缩放值)限制为2,或限制为5,或限制为10,或限制为大于1的预定值。
[0046]
通过使用这种方法,可以将伪像保持在合理小的范围内,同时允许放大(例如,这可以有助于避免“频谱空洞”)。因此,可以获得良好的听觉印象。
[0047]
在音频解码器的优选实施例中,训练神经网络或机器学习结构,使得缩放值限制为2,或限制为5,或限制为10,或限制为大于1的预定值。
[0048]
通过将缩放值限制在这样的范围内,可以实现增强音频表示的特别好的质量。
[0049]
在音频解码器的优选实施例中,神经网络或机器学习结构的输入特征的数量(例如516或903)是神经网络或机器学习结构的输出值的数量(例如129)的至少2倍大。
[0050]
已经发现,使用神经网络或机器学习结构的相对较大数量(大于神经网络或机器学习结构的输出值(或输出信号)的数量)的输入特征导致特别可靠的缩放值。具体地,通过选择神经网络的相对较大数量的输入特征,可以考虑来自先前帧和/或来自后续帧的信息,其中已经发现对此类附加输入特征的考虑通常改善了缩放值的质量,从而改善了增强音频表示的质量。
[0051]
在音频解码器的优选实施例中,滤波器被配置为将神经网络或机器学习结构的输入特征(例如由输入信号表示)(例如,使用短时傅立叶变换获得的频谱值的幅度)归一化为预定平均值(例如零的平均值)和/或预定方差(例如单位方差)或标准偏差。
[0052]
已经发现,神经网络或机器学习结构的输入特征的归一化使得缩放值的提供独立于解码音频表示的音量或响度或强度。因此,神经网络或机器学习结构可以“关注”解码音频表示的频谱的结构特征,并且不受音量变化的影响(或不受显著影响)。此外,通过执行这样的归一化,可以避免神经网络的节点过度饱和。此外,减小了动态范围,这有助于保持神经网络或机器学习结构中使用的数字表示有效。
[0053]
在音频解码器的优选实施例中,神经网络包括输入层、一个或多个隐藏层和输出层。
[0054]
神经网络的这种结构已被证明有利于本技术。
[0055]
在音频解码器的优选实施例中,一个或多个隐藏层使用整流线性单元作为激活函数。
[0056]
已经发现,使用整流线性单元作为激活函数允许基于解码音频表示的频谱值以良好的可靠性提供缩放向量。
[0057]
在音频解码器的优选实施例中,输出层使用(未绑定的)整流线性单元或绑定的整流线性单元或sigmoid函数(例如,缩放的sigmoid函数)作为激活函数。
[0058]
通过在输出层中使用整流线性单元或绑定的整流线性单元或sigmoid函数作为激活函数,可以以可靠的方式获得缩放值。具体地,如上所述,使用绑定的整流线性单元或
sigmoid函数允许将缩放值限制到期望的范围。因此,可以以有效且可靠的方式获得缩放值。
[0059]
在音频解码器的优选实施例中,滤波器被配置为获得表示解码音频表示的与不同的频率段或频率范围相关联的频谱值的短时傅立叶变换系数(例如)。
[0060]
已经发现,短时傅立叶变换系数构成解码音频表示的特别有意义的表示。例如,已经认识到,在某些情况(即使音频解码器可以使用mdct系数来重建解码频谱表示)下,神经网络或机器学习结构可以更好地使用短时傅立叶变换系数,而不是mdct系数。
[0061]
在音频解码器的优选实施例中,滤波器被配置为(例如基于短时傅立叶变换系数)导出对数幅度、振幅、绝对值或范数值,并基于对数幅度、振幅、绝对值或范数值来确定缩放值。
[0062]
已经发现,由于对相位的考虑将显著增加计算需求,而没有带来缩放值的任何实质性改善,因此基于非负值(例如,对数幅度值、振幅值、绝对值或范数值)导出缩放值是有效的。因此,去除符号并且通常还去除频谱值(例如,通过短时傅立叶变换获得)的相位带来复杂性和音频质量之间的良好折衷。
[0063]
在音频解码器的优选实施例中,滤波器被配置为基于当前帧(例如,解码音频表示的当前帧、或短时傅立叶变换的当前帧)的解码音频表示的与不同频率段或频率范围相关联的的频谱值,并且基于当前帧之前的一个或多个帧(例如,过去上下文帧)的解码音频表示的与不同频率段或频率范围相关联的频谱值,确定与当前帧相关联的多个缩放值。
[0064]
然而,已经发现,考虑当前帧之前的一个或多个帧的频谱值有助于改善缩放向量。这是由于许多类型的音频内容包括后续帧之间的时间相关性。因此,神经网络或机器学习结构可以例如在确定缩放值时考虑频谱值的时间演变。例如,神经网络或机器学习结构可以调整缩放值以避免(或抵消)(例如,在增强音频表示中的)缩放的频谱值随时间的过度变化。
[0065]
在音频解码器的优选实施例中,滤波器被配置为基于当前帧(例如,解码音频表示的当前帧、或短时傅立叶变换的当前帧)之后的一个或多个帧(例如,未来上下文帧)的解码音频表示的与不同频率段或频率范围相关联的频谱值,确定与当前帧相关联的多个缩放值。
[0066]
通过考虑当前帧之后的一个或多个帧的解码音频表示的频谱值,还可以利用后续帧之间的相关性,并且通常可以改善缩放值的质量。
[0067]
根据本发明的实施例创建用于确定定义滤波器(例如,基于神经网络的滤波器、或基于另一机器学习结构的滤波器)的特征的值的集合(例如,神经网络的系数、或另一机器学习结构的系数)的装置,所述滤波器用于基于解码音频表示(例如,可以由音频解码提供)提供增强音频表示(例如)。
[0068]
该装置被配置为获得解码音频表示的与不同的频率段或频率范围相关联的频谱值(例如,由幅度值(例如)表示的幅度或相位或mdct系数)。
[0069]
该装置被配置为确定定义滤波器的特征的值的集合,使得由滤波器基于解码音频表示的与不同频率段或频率范围相关联的频谱值而提供的缩放值接近目标缩放值(可以基
于期望的增强音频表示和解码音频表示的比较来计算)。
[0070]
备选地,该装置被配置为确定定义滤波器的特征的值的集合,使得由滤波器基于解码音频表示的与不同的频率段或频率范围相关联的频谱值并使用基于解码音频表示获得的缩放值而获得的频谱接近目标频谱(其可以对应于期望的增强音频表示,并且可以等于处理链中的音频编码器的输入信号,该处理链包括音频编码器和包括滤波器的音频解码器)。
[0071]
使用这样的装置,可以以适度的工作量获得定义滤波器(在上述音频解码器中使用)的特征的值的集合。具体地,可以确定定义滤波器的特征的值的集合(可以是神经网络的系数或另一机器学习结构的系数),使得滤波器使用缩放值产生良好的音频质量,并导致增强音频表示相对于解码音频表示的改善。例如,可以基于多个训练音频内容或参考音频内容来确定定义滤波器的特征的值的集合,其中目标缩放值或目标频谱可以从参考音频内容中导出。然而,已经发现,定义滤波器的特征的值的集合通常也非常适合与参考音频内容不同的音频内容,前提是参考音频内容至少在某种程度上代表了上面提到的音频解码器要解码的音频内容。此外,已经发现,使用由滤波器提供的缩放值或使用由滤波器获得的频谱作为优化量导致定义滤波器的特征的值的可靠集合。
[0072]
在该装置的优选实施例中,该装置被配置为训练机器学习结构(例如,神经网络)(作为滤波器的一部分并且提供用于对解码音频信号的幅度值、或解码音频信号的频谱值进行缩放的缩放值),以减少或最小化多个目标缩放值(例如irm(k,n))和使用神经网络基于解码音频表示的与不同的频率段或频率范围相关联的频谱值而获得的多个缩放值(例如m(k,n))之间的偏差(例如均方误差;例如mse
ma
)。
[0073]
通过使用目标缩放值训练机器学习结构,可以设计(或配置)机器学习结构以至少部分地补偿处理链中的信号恶化,该目标缩放值可以例如基于原始音频内容导出,该原始音频内容在包括音频解码器(其导出解码音频表示)的处理链中被编码并被解码。例如,可以确定目标缩放值,使得目标缩放值以解码音频表示接近输入到处理链中(例如,输入到音频编码器中)的(原始)音频表示的方式来对解码音频表示进行缩放。因此,由机器学习结构提供的缩放值可以具有高度的可靠性,并且可以适应于改善经历处理链的音频内容的重构。
[0074]
在优选实施例中,该装置被配置为训练机器学习结构(例如,神经网络)以减少或最小化目标(幅度)频谱(例如|x(k,n)|,例如训练音频信号的原始频谱)与使用已处理(例如已解码的、例如已量化的、已编码并已解码的)频谱的缩放(例如,频率相关缩放)而获得的(增强的)频谱(或幅度频谱)之间的偏差(例如,mse
sa
),该已处理频谱(例如基于目标幅度频谱和/或基于训练音频信号)的缩放使用由机器学习结构(例如,神经网络)提供的缩放值。例如,机器学习结构或神经网络的输入信号基于解码的频谱。
[0075]
已经发现,机器学习结构的这种训练还导致允许补偿信号处理链(可以包括音频编码和音频解码)中的信号恶化的缩放值。例如,目标频谱可以是在包括(有损)音频编码器和音频解码器(提供解码音频表示)的处理链中输入的参考音频内容或训练音频内容的频谱。因此,可以训练机器学习结构,使得缩放值缩放解码音频表示以接近输入到音频编码器的参考音频内容。因此,可以训练机器学习结构以提供有助于克服(有损)处理链中的恶化的缩放值。
[0076]
在优选实施例中,该装置被配置为训练机器学习结构(例如,神经网络),使得针对解码音频信号表示的频谱值、或者针对基于解码音频信号表示的频谱值的一个或多个预处理频谱值的缩放位于0至2之间的范围内、或位于0至5之间的范围内、或位于0至10之间的范围内、或位于0至最大值(例如,可以大于1)之间的范围内。
[0077]
通过将缩放限制在预定范围(例如,在零和预定值之间,该预定值通常可以大于1)内,可以避免可能由例如过大的缩放值导致的伪影。此外,应当注意,缩放值(其可以作为神经网络或机器学习结构的输出信号提供)的限制允许相对简单地实现神经网络或机器学习结构的输出级(例如,输出节点)。
[0078]
在该装置的优选实施例中,该装置被配置为训练机器学习结构(例如,神经网络),使得针对解码音频信号表示的频谱值、或者针对基于解码音频信号表示的频谱值的一个或多个预处理频谱值的幅度缩放被限制为位于0至预定最大值之间的范围内。
[0079]
通过将幅度缩放(或缩放值)限制为位于零和预定最大值之间的范围内,避免了由过强的幅度缩放导致的恶化切换。
[0080]
在音频解码器的优选实施例中,最大值大于1(并且可以例如是2、5或10)。
[0081]
通过允许幅度缩放的最大值大于1,可以通过使用缩放值的缩放来实现衰减和放大二者。已经表明,这样的概念特别灵活并且带来特别好的听觉印象。
[0082]
本发明的一个实施例创建了一种用于基于编码音频表示提供解码音频表示的方法。
[0083]
该方法包括提供解码音频表示(例如)的增强音频表示(例如),其中由提供增强音频表示的滤波器使用的输入音频表示可以例如由音频解码器的解码器核心提供。
[0084]
该方法包括基于解码音频表示的与不同的频率段或频率范围(例如,具有频率段索引或频率范围索引k)相关联的频谱值来获得多个缩放值(例如,掩码值,例如m(k,n)),缩放值可以例如是实值,并且例如可以是非负,并且例如可以被限制于预定范围,并且与不同频率段或频率范围(例如,具有频率段索引或频率范围索引k)相关联。
[0085]
该方法包括使用缩放值(例如,m(k,n))来对解码音频信号表示的频谱值(例如)或其预处理版本进行缩放,以获得增强音频表示(例如)。
[0086]
该方法基于与上述装置相同的考虑因素。此外,应当注意,该方法还可以通过本文中关于装置所述的任何特征、功能和细节来补充。此外,应当注意,该方法可以通过这些特征、功能和细节中的任何一个来单独和组合地补充。
[0087]
实施例创建用于确定定义滤波器(例如,基于神经网络的滤波器、或基于另一机器学习结构的滤波器)的特征的值的集合(例如,神经网络的系数、或另一机器学习结构的系数)的方法,所述滤波器用于基于解码音频表示(例如,可以由音频解码提供)提供增强音频表示(例如)。
[0088]
该方法包括获得解码音频表示的与不同的频率段或频率范围相关联的频谱值(由幅度值(例如)表示的幅度或相位或mdct系数)。
[0089]
该方法包括确定定义滤波器的特征的值的集合,使得由滤波器基于解码音频表示的与不同频率段或频率范围相关联的频谱值而提供的缩放值接近目标缩放值(可以基于期望的增强音频表示和解码音频表示的比较来计算)。
[0090]
备选地,该方法包括确定定义滤波器的特征的值的集合,使得由滤波器基于解码音频表示的与不同的频率段或频率范围相关联的频谱值并使用基于解码音频表示获得的缩放值而获得的频谱接近目标频谱(其可以对应于期望的增强音频表示,并且可以等于处理链中的音频编码器的输入信号,该处理链包括音频编码器和包括滤波器的音频解码器)。
[0091]
该方法基于与上述装置相同的考虑因素。然而,应当注意,该方法还可以通过本文中关于装置所述的任何特征、功能和细节补充。此外,该方法可以由特征、功能和细节单独地和组合地补充。
[0092]
根据本发明的实施例创建了当在计算机上运行计算机程序时用于执行本文描述的方法的计算机程序。
附图说明
[0093]
下面将参考附图来描述根据本发明的实施例,在附图中:
[0094]
图1示出了根据本发明的实施例的音频解码器的示意性框图;
[0095]
图2示出了根据本发明的实施例的用于确定定义滤波器的特征的值的集合的装置的示意性框图。
[0096]
图3示出了根据本发明的实施例的音频解码器的示意性框图。
[0097]
图4示出了根据本发明的实施例的用于确定定义滤波器的特征的值的集合的装置的示意性框图。
[0098]
图5示出了根据本发明的实施例的用于确定定义滤波器的特征的值的集合的装置的示意性框图。
[0099]
表1示出了针对不同信噪比(snr)的位于区间(0,1)内的掩码值的百分比的表示;
[0100]
表2示出了在amr-wb的最低的三个比特率下测量的不同阈值区域中掩码值的百分比的表示;
[0101]
图6示出了将对数幅度映射到实值掩码的全连接神经网络(fcnn)的示意性表示;
[0102]
图7示出了在6.65kbps下评估具有不同掩码绑定值的oracle实验的平均pesq和polqa分数的图形表示;
[0103]
图8示出了评估所提出方法和evs后置处理器的性能的平均pesq和polqa分数的图形表示;
[0104]
图9示出了根据本发明的实施例的方法的流程图;以及
[0105]
图10示出了根据本发明的实施例的方法的流程图。
具体实施方式
[0106]
1)根据图1的音频解码器
[0107]
图1示出了根据本发明的实施例的音频解码器100的示意性框图。音频解码器100被配置为接收编码音频表示110并且基于编码音频表示110提供增强音频表示112,增强音频表示112可以是解码音频表示的增强形式。
[0108]
音频解码器100可选地包括解码器核心120,解码器核心120可以接收编码音频表示110并基于编码音频表示110提供解码音频表示122。音频解码器还包括滤波器130,滤波器130被配置为基于解码音频表示122提供增强音频表示112。可以被视为后置滤波器的滤波器130被配置为基于解码音频表示的与不同频率段或频率范围相关联的频谱值132,获得也与不同频率段或频率范围相关联的多个缩放值136。例如,滤波器130可以包括缩放值确定或缩放值确定器134,缩放值确定或缩放值确定器134接收解码音频表示的频谱值132并且提供缩放值136。滤波器130还被配置为使用缩放值136来对解码音频信号表示的频谱值或其预处理版本进行缩放,以获得增强音频表示112。
[0109]
应当注意,用于获得缩放值的解码音频表示的频谱值可以与(例如,通过缩放或缩放器138)实际被缩放的频谱值相同,或者可以与实际被缩放的频谱值不同。例如,解码音频表示的频谱值的第一子集可以用于缩放值的确定,并且频谱或幅度频谱或绝对频谱或范数频谱的频谱值的第二子集可以被实际缩放。第一子集和第二子集可以相等,或者可以部分重叠,或者甚至可以完全不同(没有任何共同的频谱值)。
[0110]
关于音频解码器100的功能,可以说,音频解码器100基于编码音频表示提供解码音频表示122。由于编码(即,提供编码音频表示)通常是有损的,例如由解码器核心提供的解码音频表示122与原始音频内容(其可以被馈送到提供编码音频表示110的音频编码器中)相比可能包括一些恶化。应当注意,例如由解码器核心提供的解码音频表示122可以采用任何形式,并且可以例如由解码器核心以时域表示的形式或以频谱域表示的形式提供。频谱域表示可以例如包括(离散)傅立叶变换系数或(离散)mdct系数等。
[0111]
滤波器130可以例如获得(或接收)表示解码音频表示的频谱值。然而,由滤波器130使用的频谱值可以例如是与由解码器核心提供的频谱值不同类型的。例如,滤波器130可以使用傅立叶系数作为频谱值,而解码器核心120最初只提供mdct系数。此外,滤波器130可以例如通过傅立叶变换或mdct变换等(例如,短时傅立叶变换stft)可选地从解码音频表示120的时域表示中导出频谱值。
[0112]
缩放值确定134从解码音频表示的多个频谱值(例如从解码音频表示导出)导出缩放值136。例如,缩放值确定134可以包括神经网络或机器学习结构,神经网络或机器学习结构接收频谱值132并导出缩放值136。此外,增强音频表示112的频谱值可以通过根据缩放值136对解码音频表示的频谱值(可以与由缩放值确定134使用的频谱值相等或不同)进行缩放来获得。例如,缩放值136可以定义不同频率段或频率范围中的频谱值的缩放。此外,应当注意,缩放136可以对复值频谱值或实值频谱值(例如,幅度值或振幅值或范数值)进行操作。
[0113]
因此,当基于解码音频表示的频谱值132使用缩放值136的适当确定时,缩放138可以抵消由有损编码(用于提供编码音频表示110)导致的音频质量的恶化。
[0114]
例如,缩放138可以例如通过选择性地衰减包括高量化噪声的频谱段或频谱范围来减少量化噪声。备选地或另外,缩放138还可以导致频谱随时间和/或随频率的平滑,这也可以有助于减少量化噪声并且/或者改善感知印象。
[0115]
然而,应当注意,根据图1的音频解码器100可以可选地由本文公开的任何特征、功能和细节单独地和组合地补充。
[0116]
2)根据图2的装置
[0117]
图2示出了用于确定定义滤波器(例如,基于神经网络的滤波器、或基于另一机器学习结构的滤波器)的特征的值的集合(例如,神经网络的系数、或另一机器学习结构的系数)的装置200的示意性框图。
[0118]
根据图2的装置200被配置为接收解码音频表示210,并基于解码音频表示210提供定义滤波器的值的集合212,其中定义滤波器的值的集合212可以例如包括神经网络的系数或另一个机器学习结构的系数。可选地,装置200可以接收目标缩放值214和/或目标频谱信息216。然而,装置200可以可选地自己产生目标缩放值和/或目标频谱信息216。
[0119]
应当注意,目标缩放值可以例如描述使解码音频表示210接近(或更接近)理想(未失真)状态的缩放值。例如,目标缩放值可以基于参考音频表示的知识来确定,解码音频表示210通过编码和解码从该参考音频表示中导出。例如,它可以从参考音频表示的频谱值的知识和解码音频表示的频谱值的知识中导出,其中缩放使增强音频表示(使用缩放基于解码音频表示的频谱值而获得)接近参考音频表示。
[0120]
此外,目标频谱信息216可以例如基于参考音频表示的知识,解码音频表示通过编码和解码从该知识中导出。例如,目标频谱信息可以采用参考音频表示的频谱值的形式。
[0121]
如图2中可以看出,装置200可以可选地包括频谱值确定,其中解码音频表示210的频谱值从解码音频表示210中导出。频谱值确定被指定为220,而解码音频表示的频谱值被指定为222。然而,应当注意,由于可以以频谱值的形式直接提供解码音频表示210,频谱值确定220应当被认为是可选的。
[0122]
装置200还包括定义滤波器的值的集合的确定230。确定230可以接收或获得解码音频表示的频谱值222,并且基于频谱值222提供定义滤波器的值的集合212。确定230可以可选地使用目标缩放值214和/或目标频谱信息216。
[0123]
关于装置200的功能,应当注意,装置200被配置为获得解码音频表示的与不同频率段或频率范围相关联的频谱值222。此外,确定230可以被配置为确定定义滤波器的特征的值的集合212,使得由滤波器基于解码音频表示的与不同频率段或频率范围相关联的频谱值222而提供的缩放值接近目标缩放值(例如,目标缩放值214)。如上所述,目标缩放值可以基于期望的增强音频表示和解码音频表示的比较来计算,其中期望的增强音频表示可以对应于前述参考音频表示。换言之,确定230可以确定和/或优化定义滤波器(例如,基于神经网络的滤波器,或基于另一机器学习结构的滤波器)的特征的值的集合(例如,神经网络的系数的集合、或另一机器学习结构的系数的集合),使得该滤波器基于解码音频表示的频谱值提供接近目标缩放值214的缩放值。定义滤波器的值的集合214的确定可以使用单程前向计算来完成,但通常可以使用迭代优化来执行。然而,可以使用用于神经网络或用于计算机学习结构的任何已知的训练过程。
[0124]
备选地,定义滤波器的值的集合212的确定230可以被配置为确定定义滤波器的特征的值的集合212,使得由滤波器基于解码音频表示的与不同的频率段或频率范围相关联的频谱值并使用基于解码音频表示获得的缩放值而获得的频谱接近目标频谱(其可以例如由目标频谱信息216描述)。换言之,确定230可以选择定义滤波器的值的集合212,使得解码音频表示210的频谱值的滤波版本接近由目标频谱信息216描述的频谱值。总之,装置200可以确定定义滤波器的值的集合212,使得滤波器至少部分地使解码音频表示的频谱值接近“理想”或“参考”或“目标”频谱值。为此目的,该装置通常使用表示不同音频内容的解码音
频表示。通过基于不同的音频内容(或不同类型的音频内容)确定定义滤波器的值的集合212,可以选择定义滤波器的值的集合212,使得滤波器对于与用于训练定义滤波器的值的集合212的参考音频内容不同的音频内容(表现得相当好。
[0125]
因此,可以实现,定义滤波器的值的集合212非常适合于增强在音频解码器中(例如,在根据图1的音频解码器100中)获得的解码音频表示。换言之,定义滤波器的值的集合212可以例如在音频解码器100中用于定义缩放值确定134的操作(并且因此定义滤波器130的操作)。
[0126]
然而,应当注意,根据图2的装置200可以可选地由本文描述的任何特征、功能和细节单独地和组合地补充。
[0127]
3)根据图3的音频解码器300
[0128]
图3示出了根据本发明的另一实施例的音频解码器300的示意性框图。音频解码器300被配置为接收编码音频表示310(可以对应于编码音频表示110),并且基于编码音频表示310提供可以对应于增强音频表示112的增强音频表示312。音频解码器300包括解码器核心320,解码器核心320可以对应于解码器核心120。解码器核心320基于编码音频表示310提供解码音频表示322,解码音频表示322可以对应于解码音频表示122。解码音频表示可以在时域表示中,但也可以在频谱域表示中。
[0129]
可选地,音频解码器300可以包括转换324,转换324可以接收解码音频表示322并且基于解码音频表示322提供频谱域表示326。例如,如果解码音频表示不采用与不同频率段或频率范围相关联的频谱值的形式,则该转换324可以是有用的。例如,如果解码音频表示322在时域表示中,则转换324可以将解码音频表示322转换为多个频谱值。然而,在解码器核心320不提供可由后续处理阶段使用的频谱值的情况下,转换324还可以执行从第一类型的频谱域表示到第二类型的频谱域表示的转换。频谱域表示326可以例如包括如图1的音频解码器100中所示的频谱值132。
[0130]
此外,音频解码器300包括缩放值确定334,其例如包括绝对值确定360、对数计算370、以及神经网络或机器学习结构380。缩放值确定334基于频谱值326提供缩放值336,该频谱值326可以对应于频谱值132。
[0131]
音频解码器300还包括缩放338,其可以对应于缩放138。在缩放中,解码音频表示的频谱值或其预处理版本根据由神经网络/机器学习结构380提供的缩放值336进行缩放。因此,缩放338提供增强音频表示。
[0132]
缩放值确定334和缩放338可以被认为是滤波器或“后置滤波器”。
[0133]
在下文中,将描述一些另外的细节。
[0134]
缩放值确定334包括绝对值确定360。绝对值确定360可以接收解码音频表示的频谱域表示326,例如绝对值确定360然后可以提供解码音频表示的频谱域表示326的绝对值362。绝对值362可以例如被指定为
[0135]
缩放值确定还包括对数计算370,对数计算370接收解码音频表示的频谱域表示的绝对值362(例如,频谱值的多个绝对值)并基于绝对值362提供解码音频表示的频谱域表示
的对数化绝对值372。例如,对数化绝对值372可以指定为
[0136]
应当注意,绝对值确定360可以例如确定频谱域表示326的多个频谱值的绝对值或幅度值或范数值,使得例如频谱值的符号或相位被去除。对数计算例如计算常用对数(以10为底)或自然对数、或任何其他可能合适的对数。此外,应当注意,对数计算可以可选地被任何其他减少频谱值362的动态范围的计算替换。此外,应当知道,对数计算370可以包括负值和/或正值的限制,使得对数化绝对值372可以被限制在合理的值范围内。
[0137]
缩放值确定334还包括神经网络或机器学习结构380,其接收对数化绝对值372并基于对数化绝对值372提供缩放值332。神经网络或机器学习结构380可以例如由定义滤波器的特征的值的集合382进行参数化。例如,该值的集合可以包括机器学习结构的系数或神经网络的系数。例如,值的集合382可以包括神经网络的分支权重,并且可选地还包括激活函数的参数。值的集合382可以例如由装置200确定,并且值的集合382可以例如对应于值的集合212。
[0138]
此外,神经网络或机器学习结构380还可以可选地包括当前帧之前的一个或多个帧和/或当前帧之后的一个或多个帧的解码音频表示的频谱域表示的对数化绝对值。换言之,神经网络或机器学习结构380不仅可以使用与当前处理帧(对其应用缩放值)相关联的频谱值的对数化绝对值,而且还可以考虑一个或多个先前帧和/或一个或多个后续帧的频谱值的对数化绝对值。因此,与给定(当前处理的)帧相关联的缩放值可以基于给定(当前处理的)帧的频谱值,并且还基于一个或多个先前帧和/或一个或多个后续帧的频谱值。
[0139]
例如,解码音频表示的频谱域表示的对数化绝对值(指定为372)可以应用于神经网络或机器学习结构380的输入(例如,输入神经元)。缩放值336可由神经网络或机器学习结构380的输出(例如,由输出神经元)提供。此外,神经网络或机器学习结构可以根据定义滤波器的特征的值的集合382来执行处理。
[0140]
缩放338可以接收缩放值336(也可以被指定为“掩蔽值”并且可以例如被指定为m(k,n))并且还接收解码音频表示的频谱值、或解码音频表示的频谱域表示的预处理频谱值。例如,输入到缩放338并且根据缩放值336进行缩放的频谱值可以基于频谱域表示326或者可以基于绝对值362,其中可选地,可以在执行缩放338之前应用预处理。预处理可以例如包括例如以固定缩放的形式或由编码音频信息的辅助信息确定的缩放的形式的滤波。然而,预处理也可以是固定的并且可以独立于编码音频表示的辅助信息。此外,应当注意,输入到缩放338并且使用缩放值336进行缩放的频谱值不一定需要与用于导出缩放值336的频谱值相同。
[0141]
因此,缩放338可以例如将输入到缩放338中的频谱值与缩放值相乘,其中不同的缩放值与不同的频率段或频率范围相关联。因此,获得了增强音频表示312,其中增强音频表示可以例如包括缩放的频谱域表示(例如,或这种频谱域表示的缩放的绝对值(例如因此,缩放338可以例如使用与解码音频表示322相关联的频谱值和由神经网络或机器学习结构380提供的相关联缩放值之间的简单乘法来执行。
[0142]
总之,装置300基于编码音频表示310来提供增强音频表示312,其中缩放338被应
用于基于由解码器核心320提供的解码音频表示322的频谱值。缩放338中使用的缩放值336由神经网络或由机器学习结构提供,其中神经网络或机器学习结构380的输入信号优选地通过对基于解码音频表示322的频谱值的绝对值进行对数化来获得。然而,通过对定义滤波器的特征的值的集合382的合适选择,神经网络或机器学习结构可以以如下方式提供缩放值:当与解码音频表示相比时,缩放338改善增强音频表示的听觉印象。
[0143]
此外,应当注意,音频解码器300可以可选地由本文描述的任何特征、功能和细节来补充。
[0144]
4)根据图4的装置
[0145]
图4示出了用于确定定义滤波器的特征的值的集合(例如,神经网络的系数、或另一机器学习结构的系数)的装置400的示意性框图。装置400被配置为接收训练音频表示410并基于训练音频表示410提供定义滤波器的特征的值的集合412。应当注意,训练音频表示410可以例如包括用于确定值的集合412的不同音频内容。
[0146]
装置400包括音频编码器420,音频编码器420被配置为对训练音频表示410进行编码,从而获得编码训练音频表示422。装置400还包括解码器核心430,解码器核心430接收编码训练音频表示422,并基于训练音频表示422提供解码音频表示432。应当注意,解码器核心420可以例如与解码器核心320和解码器核心120相同。解码音频表示432也可以对应于解码音频表示210。
[0147]
装置400还可选地包括转换442,转换442将基于训练音频表示410的解码音频表示432转换为频谱域表示446。转换442可以例如对应于转换324,并且频谱域表示446可以例如对应于频谱域表示326。装置400还包括绝对值确定460,绝对值确定460接收频谱域表示446并基于频谱域表示446提供频谱域表示的绝对值462。绝对值确定460可以例如对应于绝对值确定360。装置400还包括对数计算470,对数计算470接收频谱域表示的绝对值462并基于绝对值462提供解码音频表示的频谱域表示的对数化绝对值472。对数计算470可以对应于对数计算370。
[0148]
此外,装置400还包括与神经网络或机器学习结构380相对应的神经网络或机器学习结构480。然而,被指定为482的机器学习结构或神经网络480的系数由神经网络训练/机器学习训练490提供。这里应当注意,神经网络/机器学习结构480向神经网络训练/机器学习训练490提供缩放值,神经网络/机器学习结构基于对数化绝对值372导出该缩放值。
[0149]
装置400还包括目标缩放值计算492,其也被指定为“比率掩码计算”。例如,目标缩放值计算492接收训练音频表示410和解码音频表示432的频谱域表示的绝对值462。因此,目标缩放值计算492提供目标缩放值信息494,目标缩放值信息494描述应当由神经网络/机器学习结构480提供的期望的缩放值。因此,神经网络训练/机器学习训练490将神经网络/机器学习结构480提供的缩放值484与由目标缩放值计算492提供的目标缩放值494进行比较,并且调整值482(即,机器学习结构或神经网络的系数)以减少(或最小化)缩放值484和目标缩放值494之间的偏差。
[0150]
在下文中,将提供装置400的功能的概述。通过在音频编码器420和音频解码器430中对训练音频表示(可以例如包括不同的音频内容)进行编码和解码,获得解码音频表示432,其通常包括由有损编码中的损失引起的一些恶化(与训练音频表示相比)。目标缩放值计算492确定应当将哪个缩放(例如,哪些缩放值)应用于解码音频表示432的频谱值,使得
解码音频表示432的缩放的频谱值非常接近训练音频表示的频谱值。假设,通过对解码音频表示432的频谱值应用缩放可以至少部分地补偿由有损编码引入的伪影。因此,神经网络或机器学习结构480由神经网络训练/机器学习训练来训练,使得由神经网络/机器学习结构480基于解码音频表示432提供的缩放值482接近目标缩放值494。可选的转换442、绝对值确定460和对数计算470仅构成(可选的)预处理步骤以导出用于神经网络或机器学习结构480的输入值472(其是解码音频表示的频谱值的对数化绝对值)。
[0151]
神经网络训练/机器学习训练490可以使用适当的学习机制(例如,优化过程)以调整机器学习结构或神经网络的系数482,使得缩放值484和目标缩放值494之间差值(例如,加权差值)被最小化或低于阈值或至少减小。
[0152]
因此,机器学习结构或神经网络的系数482(或通常来说,定义滤波器的特征的值的集合)由装置400提供。这些值可以用在滤波器130中(以调整缩放值确定134)或装置300中(以调整神经网络/机器学习结构380)。
[0153]
然而,应当注意,装置400可以可选地由本文描述的任何特征、功能和细节来补充。
[0154]
5.根据图5的装置
[0155]
图5示出了用于确定定义滤波器的值的集合512的装置500的示意性框图,其中值512可以是例如机器学习结构或神经网络的系数。
[0156]
应当注意,装置500与装置400相似,因此将不再概述相同的特征、功能和细节。相反,参考上述说明。
[0157]
装置500接收训练音频表示510,训练音频表示510可以例如对应于训练音频表示410。装置500包括音频编码器520,音频编码器520对应于音频编码器420并提供对应于编码训练音频表示422的编码训练音频表示522。装置500还包括解码器核心530,解码器核心530对应于解码器核心430并提供解码音频表示532。
[0158]
装置500可选地包括转换542,转换542对应于转换442并且提供解码音频表示552的(例如,以频谱值的形式)频谱域表示。频谱域表示被指定为546并对应于频谱域表示446。此外,装置500包括与绝对值确定460相对应的绝对值确定560。装置500还包括与对数计算470相对应的对数计算570。此外,装置500包括与机器学习结构480相对应的神经网络或机器学习结构580。然而,装置500还包括缩放590,缩放590被配置为接收解码音频表示的频谱值546或解码音频表示的频谱值的绝对值562。缩放还接收由神经网络580提供的缩放值584。因此,缩放590对解码音频表示的频谱值或音频表示的频谱值的绝对值进行缩放,从而获得增强音频表示592。增强音频表示592可以例如包括缩放的频谱值(例如)或频谱值的缩放的绝对值(例如)。原则上,增强音频表示592可以与由装置100提供的增强音频表示112和由装置300提供的增强音频表示312相对应。就此而言,除了神经网络或机器学习结构580的系数(被指定为594)由神经网络训练/机器学习训练596调整之外,装置500的功能可以与装置100的功能和/或装置300的功能相对应。例如,神经网络训练/机器学习训练596可以接收训练音频表示510并且还可以接收增强音频表示592,并且可以调整系数594使得增强音频表示592接近训练音频表示。
[0159]
这里应当注意,如果增强音频表示592以良好的准确度接近训练音频表示510,则
由有损编码导致的信号恶化至少部分地由缩放590来补偿。换言之,神经网络训练596可以例如确定训练音频表示510和增强音频表示592之间的(加权的)差异,并且调整机器学习结构或神经网络580的系数594以减少或最小化这种差异。系数594的调整可以例如在迭代过程中执行。
[0160]
因此,可以达到,神经网络或机器学习结构580的系数594被适配,使得在正常操作中,使用确定的系数594的机器学习结构或神经网络380可以提供缩放值336,缩放值336导致良好质量的增强音频表示312。
[0161]
换言之,神经网络或机器学习结构480或者神经网络或机器学习结构580的系数482、594可以用在装置300的神经网络380中,并且在这种情况下,可以预期装置300提供高质量的增强音频表示312。当然,该功能基于假设:神经网络/机器学习结构380与神经网络/机器学习结构480或神经网络/机器学习结构580相似或完全相同。
[0162]
此外,应注意,系数482、412或系数594、512也可以用在音频解码器100的缩放值确定134中。
[0163]
此外,应当注意,装置500可以可选地由本文描述的任何特征、功能和细节单独地和组合地补充。
[0164]
6).细节和实施例
[0165]
在下文中,将讨论作为本发明基础的一些考虑因素并且将描述几个解决方案。具体地,将公开多个细节,这些细节可以可选地引入到本文公开的任何实施例中。
[0166]
6.1问题公式
[0167]
6.1.1理想比率掩码(irm)
[0168]
从非常简单的数学角度来看,可以将编码的语音(例如,由解码器核心(例如,解码器核心120或解码器核心320或解码器核心430或解码器核心530)提供的解码语音)描述为:
[0169][0170]
其中,x(n)是编码器的输入(例如,音频编码器410、510的输入),并且δ(n)是量化噪声。由于acelp在量化过程期间使用感知模型,量化噪声δ(n)与输入语音相关。量化噪声的这种相关特性使后置滤波问题对于语音增强问题(其假设噪声是不相关的)是独特的。为了减少量化噪声,估计每个时频段的实值掩码,并将该掩码与该时频段的编码语音的幅度相乘。
[0171][0172]
其中m(k,n)是实值掩码,是编码语音的幅度,是增强语音的幅度,k是频率索引,以及n是时间索引。如果掩码是理想的(例如,如果缩放值m(k,n)是理想的),则可以从编码语音中重建干净语音。
[0173][0174]
其中,|x(k,n)|是干净语音的幅度。
[0175]
比较公式2和公式3,获得理想比率掩码(irm)(例如,缩放值m(k,n)的理想值)并且由以下公式给出
[0176][0177]
其中,γ是非常小的常数因子,以防止被零除。由于幅度值位于范围[0,∞]内,所以irm的值也位于范围[0,∞]内。
[0178]
换言之,例如,增强音频表示可以基于解码音频使用缩放来导出,其中缩放因子可以由m(k,n)来描述。此外,例如,缩放因子m(k,n)可以从解码音频表示中导出,因为在噪声(通过使用缩放因子m(k,n)进行缩放而至少部分地被补偿)和解码音频表示之间通常存在相关性。例如,公式(2)中给出的缩放可以由缩放138执行,其中缩放值确定134可以例如提供缩放值m(k,n),其将接近如公式(4)所述的理想的缩放向量irm(k,n)。
[0179]
因此,期望缩放值确定134确定接近irm(k,n)的缩放值。
[0180]
这可以例如通过对缩放值确定134或缩放值确定334的适当设计来实现,其中例如用于实现块380的机器学习结构或神经网络的系数可以如下文中所概述的来确定。
[0181]
6.1.2 mmse优化
[0182]
例如,可以使用两种不同类型的最小均方误差(mmse)优化来训练神经网络(例如,神经网络380):掩码接近(ma)(例如,如图4所示)和信号接近(sa)[10](例如,如图5所示)。ma优化方法试图最小化目标掩码(例如,目标缩放值)和估计掩码(例如,由神经网络提供的缩放值484)之间的均方误差(mse)。
[0183][0184]
其中,irm(k,n)是目标掩码,m(k,n)是估计掩码。
[0185]
sa优化方法试图最小化目标幅度频谱|x(k,n|(例如,训练音频表示510的幅度频谱)和增强幅度频谱(例如,增强音频表示592的幅度频谱)之间的均方误差(mse)。
[0186][0187]
其中,增强幅度频谱由公式2给出。
[0188]
换言之,例如如图4和5所示,在缩放值确定134或缩放值确定334中使用的神经网络可以被训练。从图4可以看出,神经网络训练/机器学习训练490根据公式(5)中定义的标准来优化神经网络系数或机器学习结构系数482。
[0189]
如图5所示,神经网络训练/机器学习训练596根据公式(6)中所示的标准来优化神经网络系数/机器学习结构系数594。
[0190]
6.1.3掩码值的分析
[0191]
在大多数提出的基于掩码的语音增强和去混响方法中,掩码值被绑定到1[9][10]。这是因为,通常,如果掩码值不被绑定到1,则估计错误可能会导致噪声或音调的放大
[15]。因此,这些方法使用sigmoid作为输出激活以便将掩码值绑定到1。
[0192]
表1示出了针对不同信噪比(snr)的位于区间(0,1)内的掩码值的百分比。这些掩码值通过将不同snr的白噪声添加到干净语音中来计算。我们可以从表1中推断出,大多数掩码值位于区间[0,1]内,因此将掩码值绑定到1对基于神经网络的语音增强系统没有不利影响。
[0193]
然后我们计算在amr-wb的较低的三个比特率(6.65kbps、8.85kbps和12.65kbps)下掩码值的分布。表2示出了计算的分布。与表1的一个主要区别是位于[0,1]范围内的掩码值的百分比。虽然39%的值在6.65kbps下位于该范围内,但在12.65kbps下该值增加到44%。几乎30%-36%的掩码值位于[1,2]范围内。几乎95%的掩码值位于[0,5]范围内。因此,对于后置滤波问题,我们不能简单地将掩码值绑定到1。这防止了我们在输出层使用sigmoid激活(或简单的非缩放的sigmoid激活)。
[0194]
换言之,已经发现,在根据本发明的实施例中使用大于1的掩码值(也被指定为缩放值)是有利的。此外,已经发现,将掩码值或缩放值限制为预定值是有利的,该预定值应当大于1并且可以例如在1和10之间的区域中或在1.5和10之间的区域中。通过对掩码值或缩放值进行限制,可以避免可能导致伪影的过度缩放。例如,可以通过在神经网络的输出层中使用缩放的sigmoid激活,或者通过使用(例如,整流的)有限线性激活函数作为神经网络的输出层来实现适当范围的缩放值。
[0195]
6.2实验设置
[0196]
在下文中,将描述有关实验设置的一些细节。然而,应当注意,本文描述的特征功能和细节可以可选地被采用到本文公开的任何实施例中。
[0197]
我们提出的后置滤波器计算(例如,在块324中)在16khz采样率下、重叠率为50%(8ms)、长度为16ms的帧的短时傅立叶变换(stft)。在计算长度为256的快速傅立叶变换(fft)产生129个频率段(例如,空间域表示326)之前,时间帧用汉宁(hanning)窗口加窗。根据fft,计算对数幅度值以压缩幅度值的非常大的动态范围(例如,对数化绝对值372)。由于语音具有时间依赖性,因此我们使用在处理的时间帧(例如,被指定为373)周围的上下文帧。我们在两种情况下测试了我们提出的模型:a)仅使用了过去上下文帧,以及b)使用了过去上下文帧和未来上下文帧两者。这样做是因为未来上下文帧会增加所提出的后置滤波器的延迟,并且我们想测试使用未来上下文帧的好处。当仅考虑过去上下文帧时,我们的实验选择上下文窗口为3,导致延迟仅一帧(16毫秒)。当考虑过去和未来上下文帧两者时,所提出的后置滤波器的延迟为4帧(64毫秒)。
[0198]
当仅使用过去3个上下文帧和当前处理帧进行测试时,我们所提出的神经网络的输入特征维度(例如,值373和373)为516(4*129)。当使用过去和未来上下文帧进行测试时,输入特征维度为903(7*129)。输入特征(例如,值372和值373)被归一化为零均值和单位方差。然而,无论是目标实值掩码(例如,值494)还是未编码语音的目标幅度频谱(例如,幅度值410)都没有被归一化。
[0199]
图6示出了fcnn 600,其被训练以学习对数幅度和实值掩码之间的映射函数f
θ

[0200][0201]
fcnn是一种简单的神经网络,其具有输入层610、一个或多个隐藏层612a至612d、
以及输出层614。我们使用keras[16]在python中实现了fcnn,并且使用tensorflow[17]作为后端。在我们的实验中,我们已经使用了4个具有2048个单元的隐藏层。所有4个隐藏层都使用整流线性单元(relu)作为激活函数[18]。隐藏层的输出使用批量归一化进行归一化[19]。为了防止过度拟合,我们将丢包[20]设置为0.2。为了训练我们的fcnn,我们使用了学习率为0.01的adam优化器[21],并且所使用的批大小为32。
[0202]
输出层614的维度为129。由于我们的fcnn估计相对值(或实值)掩码,并且这些掩码可以是[0,∞]之间的任何值,因此我们使用绑定掩码值和不绑定掩码值都进行了测试。当掩码值未被绑定时,我们在输出层中使用relu激活。当掩码值被绑定时,我们使用绑定的relu激活函数或使用sigmoid函数,并且通过某个缩放因子n对sigmoid激活函数的输出进行缩放。
[0203]
为了训练我们的fcnn,我们使用了如第6.1.2节中所定义的两个损失函数(mse
ma
和mse
sa
)。当绑定的relu或未绑定的relu用作输出层激活时,使用剪切(clip)范数以确保模型的收敛性。
[0204]
当使用绑定的或未绑定的relu时,输出层的梯度为:
[0205][0206]
其中,tar是幅度频谱(例如,音频表示510的幅度)或irm(例如,值494),out是增强幅度(例如,值542)或估计掩码(例如,值484)(采用0和阈值之间的任何值),以及h是隐藏单元的输出(作为输出单元的输入)。当使用绑定的relu时,公式8在绑定的值之外为零。
[0207]
当使用缩放的sigmoid时,输出层的梯度为:
[0208][0209]
其中,tar是幅度频谱或irm(例如,值494),out是增强幅度或估计掩码mest(采用0到1之间的任何值),以及h是隐藏单元的输出(作为输出单元的输入)。
[0210]
对于我们的训练、验证和测试,我们使用了ntt数据库[22]。我们还对timit数据库[23]执行了跨数据库测试,以确认模型对训练数据库的独立性。ntt和timit数据库两者都是干净语音数据库。timit数据库由16khz采样率的单声道语音文件组成。ntt数据库由以48khz采样的立体声语音文件组成。为了获得16khz的单声道语音文件,我们对ntt数据库进行了被动降混和重采样。ntt数据库由3960个文件组成,其中,3612个文件用于训练,198个文件用于验证,以及150个文件用于测试。nt数据库由男性和女性说话者两者组成,并且还包括诸如美式和英式英语、德语、中文、法语和日语的语言。
[0211]
时域增强语音使用逆短时傅立叶变换(istft)来获得。istft使用了编码语音的相位而不进行任何处理。
[0212]
总之,在根据本发明的实施例中使用如图6所示的全连接神经网络600来实现缩放值确定134或神经网络380。此外,神经网络600可以由装置200或装置400或装置500来训练。
[0213]
可以看出,神经网络600在其输入层610中接收对数化的幅度值(例如,频谱值的对数化绝对值132、372、472、572)。例如,可以在输入层610接收当前处理帧和一个或多个先前帧以及一个或多个后续帧的频谱值的对数化绝对值。输入层可以例如接收频谱值的对数化绝对值。由输入层接收的值然后可以以缩放的方式被转发到第一隐藏层612a的人工神经
元。输入层612的输入值的缩放可以例如由定义滤波器的特征的值的集合来定义。随后,第一隐藏层612的人工神经元(其可以使用非线性函数来实现)提供第一隐藏层612a的输出值。第一隐藏层612a的输出值然后可以以缩放的方式被提供给后续(第二)隐藏层612b的人工神经元的输入。同样,缩放由定义滤波器的特征的值的集合来定义。可以包括附加隐藏层(其包括类似功能)。最后,最后隐藏层(例如,第四隐藏层612d)的输出信号以缩放的方式被提供给输出层614的人工神经元的输入。输出层614的人工神经元的功能可以例如由输出层激活函数来定义。因此,可以使用输出层激活函数的评估来确定神经网络的输出值。
[0214]
此外,应当注意,神经网络可以是“全连接的”,其意味着,例如神经网络的所有输入信号都可以对第一隐藏层的所有人工神经元的输入信号有贡献,并且给定隐藏层的所有人工神经元的输出信号都可以对后续隐藏层的所有人工神经元的输入信号有贡献。然而,实际贡献可以由定义滤波器的特征的值的集合来确定,其通常由神经网络训练490、596确定。
[0215]
此外,应当注意,当确定神经网络的系数时,神经网络训练490、596可以例如使用如公式(8)和(9)中所提供的梯度。
[0216]
应当注意,本节中描述的任何特征、功能和细节可以可选地单独地和组合地引入到本文公开的任何实施例中。
[0217]
6.3实验和结果
[0218]
为了估计掩码值的绑定值,我们进行了一个oracle实验。在该实验中,如图7所示,我们估计了irm并将irm绑定到不同的阈值。我们使用诸如语音质量感知评估(pesq)[24][25][26]和感知客观听觉质量评估(polqa)[27]等客观测量来进行我们的评估。从图7可以推断,将阈值设置为1不如将阈值设置为2、4或10。阈值2、4和10之间存在非常细微的差异。因此,我们在另外的实验中选择将我们的掩码值绑定到2。
[0219]
此外,图8示出了评估所提出方法和evs后置处理器的性能的平均pesq和polqa分数。可以看出,对于使用信号接近(例如,如图5所示)和掩码接近(例如,如图4所示)来训练人工神经网络的情况,本文描述的概念的应用导致语音质量的提高改善。
[0220]
7.结论
[0221]
已经发现,由于高量化噪声,在较低比特率下编码语音的质量受到很大影响。后置滤波器通常在低比特率下采用,以减轻量化噪声的影响。在本公开中,我们提出了一种基于实值掩码的后置滤波器,以在较低比特率下提高解码语音的质量。为了估计这个实值掩码,我们采用例如全连接神经网络,其在归一化的对数幅度上运行。我们在较低的3种模式(6.65kbps、8.85kbps和12.65kbps)下测试了我们关于自适应多速率宽带(amr-wb)编解码器的建议。我们的实验表明了pesq、polqa和主观听力测试有所改善。
[0222]
换言之,根据本发明的实施例涉及在语音编码和/或语音解码的上下文中使用全连接网络的概念。根据本发明的实施例涉及编码语音增强。根据本发明的实施例涉及后置滤波。根据本发明的实施例涉及处理量化噪声(或更准确地,降低量化噪声)的概念。
[0223]
在根据本发明的实施例中,cnn(卷积神经网络)用作倒谱域中的映射函数。[14]提出了一种在对数幅度域中的基于统计上下文的后置滤波器。
[0224]
在这个贡献中,我们将增强编码语音的问题表述为回归问题。训练全连接神经网络(fcnn)以学习输入(对数幅度)和输出(实值掩码)之间的映射函数f
θ
。然后将估计的实值
掩码与输入幅度相乘以增强编码语音。我们在6.65kbps、8.85kbps和12.65kbps的比特率下评估了我们对amr-wb编解码器的贡献。在实施例中,后置滤波器可以在evs[4][3]中用作我们的参考后置滤波器。更详细的内容参考6.1和6.2节。可以看出,提供了口头听力测试结果。例如,可以使用根据本发明的实施例来获得有利的pesq和polqa分数。
[0225]
在下文中,将描述一些附加要点。
[0226]
根据第一方面,在根据本发明的实施例中使用基于掩码的后置滤波器以提高编码语音的质量。
[0227]
a.掩码是实值的(或缩放值是实值的)。对于每个频率段,通过机器学习算法(或神经网络)从输入特征中估计它
[0228]
b.
[0229]
c.其中,m
est
(k,n)是估计的掩码,是编码语音的幅度值,以及是在频率段为k并且时间索引为n时的后处理语音
[0230]
d.当前使用的输入特征是对数幅度频谱,但也可以是幅度频谱的任何导数。
[0231]
根据第二方面,可以可选地存在对掩码值或缩放值的限制。
[0232]
估计的掩码值位于例如[0,∞]范围内。为了防止这么大的范围,可以选择地设置一个阈值。在传统的语音增强算法中,掩码被绑定到1。相反,我们将其绑定到一个大于1的阈值。该阈值通过分析掩码分布来确定。有用的阈值可以例如位于2到10之间。
[0233]
a.由于估计的掩码值例如被绑定到阈值,并且由于阈值大于1,因此输出层可以是绑定的整流线性单元relu或缩放的sigmoid。
[0234]
b.当使用掩码接近mmse(最小均方估计优化)方法来优化机器学习算法时,可以通过将目标掩码中高于阈值的掩码值(例如目标缩放值)设置为1或可以设置为阈值来可选地修改目标掩码(例如目标缩放值)。
[0235]
根据第三方面,机器学习算法可以用作完全连接神经网络。长短期记忆(lstm)也可以用作备选方案。
[0236]
a.全连接神经网络例如由4个隐藏层组成。每个隐藏层例如由2048或2500个整流线性单元(relu)激活组成。
[0237]
b.全连接神经网络的输入维度取决于上下文帧和fft大小。系统的延迟也取决于上下文帧和帧大小。
[0238]
c.上下文帧的大小可以例如是3至5之间的任意值。对于我们的实验,我们使用例如256(16ms@16khz)作为帧大小和fft大小。上下文帧的大小设置为3,因为超过3时收益非常小。我们还对未来 过去上下文帧和仅过去上下文帧进行了测试。
[0239]
根据第四方面,全连接网络使用以下mmse(最小均方估计优化)进行训练:掩码接近和信号接近。
[0240]
a.在掩码接近中,目标掩码(例如,目标缩放值)和估计掩码(例如,使用神经网络确定的缩放值)之间的均方误差被最小化。例如,目标掩码被修改,如(2.b)中所示(例如,在第二方面的小节b中)。
[0241]
b.在信号接近中,增强幅度(例如,增强幅度频谱592)和目标幅度(例如,音频表示
510的幅度频谱)之间的均方误差被最小化。增强幅度通过将从dnn(例如,从神经网络)估计的掩码与编码幅度相乘来获得。目标幅度是未编码语音幅度。
[0242]
总之,本文描述的实施例可以可选地由这里描述的任何要点或方面来补充。然而,应当注意,这里描述的要点和方面可以单独地使用或组合地使用,并且可以单独地和组合地引入到本文描述的任何实施例中。
[0243]
8.根据图9的方法
[0244]
图9示出了根据本发明的实施例的用于基于编码音频表示来提供增强音频表示的方法900的示意性框图。
[0245]
该方法包括提供910解码音频表示
[0246]
此外,该方法包括920基于解码音频表示的与不同频率段或频率范围相关联的频谱值来获得与不同频率段或频率范围相关联的多个缩放值(m(k,n)),并且该方法包括使用缩放值(m(k,n))对解码音频信号表示的频谱值或其预处理版本进行缩放930,以获得增强音频表示
[0247]
该方法900可以任选地由本文描述的任何特征、功能和细节单独地和组合地补充。
[0248]
9.根据图10的方法
[0249]
图10示出了根据本发明的实施例的用于确定定义滤波器的特征的值的集合的方法1000的示意性框图,所述滤波器用于基于解码音频表示来提供增强音频表示)。
[0250]
该方法包括获得1010解码音频表示的与不同频率段或频率范围相关联的频谱值
[0251]
该方法还包括确定1020定义滤波器的特征的值的集合,使得由滤波器基于解码音频表示的与不同频率段或频率范围相关联的频谱值提供的缩放值接近目标缩放值。
[0252]
备选地,该方法包括确定1030定义滤波器的特征的值的集合,使得由滤波器基于解码音频表示的与不同的频率段或频率范围相关联的频谱值并使用基于解码音频表示获得的缩放值而获得的频谱接近目标频谱。
[0253]
10.备选方案实现
[0254]
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
[0255]
本发明的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
[0256]
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、dvd、蓝光、cd、rom、prom、eprom、eeprom或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能
够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
[0257]
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作以便执行本文所述的方法之一。
[0258]
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
[0259]
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
[0260]
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
[0261]
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
[0262]
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
[0263]
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
[0264]
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
[0265]
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传送计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储器设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。
[0266]
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
[0267]
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
[0268]
本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。
[0269]
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
[0270]
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。
[0271]
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
[0272]
11.参考文献
[0273]
[1]3gpp,“speech codec speech processingfunctions;adaptive multi-rate-wideband(amr-wb)speech codec;transcoding functions,”3rd generation partnership project(3gpp),ts 26.190,12 2009.[线上]网址:http://www.3gpp.org/ftp/specs/html-info/26190.htm
[0274]
[2]m.dietz,m.multrus,v.eksler,v.malenovsky,e.norvell,h.pobloth,l.miao,z.wang,l.laaksonen,a.vasilache,y.ka-mamoto,k.kikuiri,s.ragot,j.faure,h.ehara,v.rajendran,v.atti,h.sung,e.oh,h.yuan,and c.zhu,“overview of the evs codec architecture.”ieee,2015,pp.5698-5702.
[0275]
[3]3gpp,“ts 26.445,evs codec detailed algorithmic description;3gpp technical specification(release 12),”3rd generation partnership project(3gpp),ts 26.445,122014.[线上]地址:http://www.3gpp.org/ftp/specs/html-info/26445.htm
[0276]
[4]t.vaillancourt,r.salami,and m.jelnek,“new post-processing techniques for low bit rate celp codecs,”inicassp,2015.
[0277]
[5]j.-h.chen and a.gersho,“adaptive postfiltering for quality en-hancement of coded speech,”vol.3,no.1,pp.59-71,1995.
[0278]
[6]t.speech coding with code-excited linear prediction.springer,2017.[线上]地址:http://www.springer.com/gp/book/9783319502021
[0279]
[7]k.han,y.wang,d.wang,w.s.woods,i.merks,and t.zhang,“learning spectral mapping for speech dereverberation and de-noising.”[0280]
[8]y.zhao,d.wang,i.merks,and t.zhang,“dnn-based enhance-ment of noisy and reverberant speech,”in 2016 ieee international conference on acoustics,speech and signal processing(icassp),2016.
[0281]
[9]y.wang,a.narayanan,and d.wang,“on training targets for supervised speech separation,”ieee/acm transactiohs on au-dio,speech,and language processing,vol.22,pp.1849-1858,2014.
[0282]
[10]f.weninger,j.r.hershey,j.l.roux,and b.schuller,“dis-criminatively trained recurrent neural networks for single-channel speech separation,”in ieee global conference on signal and information processing(globalsip),2014.
[0283]
[11]d.s.williamson and d.wang,“time-frequency masking in the complex domain for speech dereverberation and denoising.”[0284]
[12]z.zhao,s.elshamy,h.liu,and t.fingscheidt,“a cnn postpro-cessor to enhance coded speech,”in 16th international workshop on acoustic signal enhancement(iwaenc),2018.
[0285]
[13]z.zhao,h.liu,and t.fingscheidt,“convolutional neural net-works to enhance coded speech,”ieee/acm transactions on au-dio,speech,and language processlng,vol.27,no.4,pp.663-678,april2019.
[0286]
[14]s.das and t.“postfiltering using log-magnitude spectrum for speech and audio coding,”in proc.inter-speech 2018,2018,pp.3543-3547.[线上]地址:http://dx.doi.org/10.21437/interspeech.2018-1027
[0287]
[15]wmack,s.chakrabarty,f.-r.s.braun,b.edler,and e.habets,“single-channel dereverberation using direct mmse optimization and bidirectional lstm networks,”in proc.interspeech 2018,2018,pp.1314-1318.[线上]地址:http://dx.doi.org/10.21437/interspeech.2018-1296
[0288]
[16]f.chollet et al.,“keras,”https://keras.io,2015.
[0289]
[17]m.abadi,a.agarwal,p.barham,e.brevdo,z.chen,c.citro,g.s.corrado,a.davis,j.dean,m.devin,s.ghemawat,i.goodfellow,a.harp,g.irving,m.isard,y.jia,r.jozefowicz,l.kaiser,m.kudlur,j.levenberg,d.mane

,r.monga,s.moore,d.murray,c.olah,m.schuster,j.shlens,b.steiner,i.sutskever,k.talwar,p.tucker,v.vanhoucke,v.vasudevan,f.vie

gas,o.vinyals,p.warden,m.wattenberg,m.wicke,y.yu,and x.zheng,“tensorflow:large-scale machine learning on heterogeneous systems,”2015,软件可获得自:tensorflow.org.[线上]地址:http://tensorflow.org/
[0290]
[18]x.glorot,a.bordes,and y.bengio,“deep sparse rectifier neural networks,”in^international conference on artificial intelligence and statistics,2011,p.315323.
[0291]
[19]s.ioffe and c.szegedy,“batch normalization:accelerating deep network training by reducing internal covariate shift,”in international conference on machine learning,vol.37,2015,pp.448-456.
[0292]
[20]n.srivastava,g.hinton,a.krizhevsky,i.sutskever,and r.salakhutdinov,“dropout:a simple way to prevent neural networks from overfitting,”j.mach.learn.res.,vol.15,no.1,pp.1929-1958,jan.2014.[线上]地址:http://dl.acm.org/citation.cfm?id=2627435.2670313
[0293]
[21]d.kingma and j.ba,“adam:a method for stochastic optimiza-tion,”in arxivpreprmt arxiv:1412.6980,2014.
[0294]
[22]ntt-at,“super wideband stereo speech database,”http://www.ntt-at.com/product/widebandspeech,accessed:09.09.2014.[线上]地址:http://www.ntt-at.com/product/widebandspeech
[0295]
[23]j.s.garofolo,l.d.consortium et al.,timit:acoustic-phonetic continuous speech corpus.linguistic data consortium,1993.
[0296]
[24]a.rix,j.beerends,m.hollier,and a.hekstra,“perceptual eval-uation of speech quality(pesq)-a new method for speech quality assessment of telephone networks and codecs,”in 2001 ieee international conference on acoustics,speech and signal process-ing(icassp),2001.
[0297]
[25]itu-t,“p.862.1:mapping functionfor transforming p.862 raw result scores to mos-lqo,”(international telecommunication union),tech.rep.p.862.1,nov.2003.
[0298]
[26]——,“p.862.2:wideband extension to recommendation p.862 for the assessment of wideband telephone networks and speech codecs,”(international telecommunication union),tech.rep.p.862.2,nov.2005.
[0299]
[27]perceptual objective listening quality assessment(polq4),itu-t recommendation p.863,2011.[线上]地址:http://www.1tu.int/rec/t-rec-p.863/en
[0300]
[28]recommendation bs.1534,method for the subjective assessment of intermediate quality levels of coding systems,itu-r,2003。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献