音频解码器、用于确定定义滤波器的特征的值的集合的装置、用于提供解码音频表示的方法、用于确定定义滤波器的特征的值的集合的方法、以及计算机程序与流程

2022-03-26 10:01:40 来源：中国专利 TAG：

技术特征：
1.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示2.根据权利要求1所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)适用于使用可配置的处理结构，以便提供所述缩放值(136；336；m(k，n))，所述处理结构的配置基于机器学习算法。3.根据权利要求1或权利要求2所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为仅基于多个频率段或频率范围内的所述解码音频表示的所述频谱值来确定所述缩放值(136；336；m(k，n))。4.根据权利要求1至3之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为根据以下公式来获得所述增强音频表示的幅度值频表示的幅度值其中，m(k，n)是缩放值，其中，k是频率索引，其中，n是时间索引，其中，是解码音频表示的频谱值的幅度值；或其中，所述滤波器被配置为根据以下公式来获得所述增强音频表示的值所述滤波器被配置为根据以下公式来获得所述增强音频表示的值其中，m(k，n)是缩放值，其中，k是频率索引，其中，n是时间索引，
其中，是所述解码音频表示的频谱值。5.根据权利要求1至4之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为获得所述缩放值(136；336；m(k，n))，使得所述缩放值导致针对所述解码音频信号表示的一个或多个频谱值多个频谱值或者针对基于解码音频信号表示的所述频谱值的一个或多个预处理频谱值的缩放或放大。6.根据权利要求1至5之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联。7.根据权利要求6所述的音频解码器(100；300)，其中，所述神经网络(380；600)或所述机器学习结构的输入信号(372)表示所述解码音频表示的频谱值的对数幅度、振幅或范数，所述频谱值与不同频率段或频率范围相关联。8.根据权利要求6至7之一所述的音频解码器(100；300)，其中，所述神经网络(380；600)或所述机器学习结构的输出信号(336)表示所述缩放值(136；336；m(k，n))。9.根据权利要求6至8之一所述的音频解码器(100；300)，其中，训练所述神经网络(380；600)或所述机器学习结构以限制、减少或最小化多个目标缩放值(494，irm(k，n))和使用所述神经网络(380；580；600)或使用所述机器学习结构而获得的多个缩放值(484，m(k，n))之间的偏差(mse
ma
)。10.根据权利要求6至9之一所述的音频解码器(100；300)，其中，训练所述神经网络(380；600)或所述机器学习结构以限制、减少或最小化目标幅度频谱(510)、目标振幅频谱、目标绝对频谱或目标范数频谱(|x(k，n)|)与使用已处理频谱的缩放而获得的幅度频谱(592)、振幅频谱、绝对频谱或范数频谱之间的偏差(mse
sa
)，所述已处理频谱的缩放使用由所述神经网络(380；580；600)或由所述机器学习结构提供的缩放值(584)。11.根据权利要求6至10之一所述的音频解码器(100；300)，其中，训练所述神经网络(380；600)或所述机器学习结构，使得针对所述解码音频信号表示的频谱分解的一个或多个频谱值或者针对基于所述解码音频信号表示的频谱分解的频谱值的一个或多个预处理频谱值的缩放位于0和预定最大值之间的范围内。12.根据权利要求11所述的音频解码器(100；300)，其中，所述最大值大于1。
13.根据权利要求6至12之一所述的音频解码器(100；300)，其中，训练所述神经网络(380；600)或所述机器学习结构，使得针对所述解码音频信号表示的频谱分解的一个或多个频谱值、或者针对基于所述解码音频信号表示的频谱分解的频谱值的一个或多个预处理频谱值的所述缩放限制为2，或限制为5，或限制为10，或限制为大于1的预定值。14.根据权利要求6至13之一所述的音频解码器(100；300)，其中，训练所述神经网络(380；600)或所述机器学习结构，使得所述缩放值限制为2，或限制为5，或限制为10，或限制为大于1的预定值。15.根据权利要求6至14之一所述的音频解码器(100；300)，其中，所述神经网络(380；600)或所述机器学习结构的输入特征的数量是所述神经网络或所述机器学习结构的输出值的数量的至少2倍大。16.根据权利要求6至15之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为将所述神经网络或所述机器学习结构的输入特征归一化为预定平均值和/或预定方差或标准偏差。17.根据权利要求1至16之一所述的音频解码器(100；300)，其中，神经网络(380；600)包括输入层(610)、一个或多个隐藏层(612a-612d)和输出层(614)。18.根据权利要求17所述的音频解码器(100；300)，其中，所述一个或多个隐藏层(612a-612d)使用整流线性单元作为激活函数。19.根据权利要求17至18之一所述的音频解码器(100；300)，其中，所述输出层(614)使用整流线性单元或绑定的整流线性单元或sigmoid函数作为激活函数。20.根据权利要求1至19之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为获得表示所述解码音频表示的频谱值的短时傅立叶变换系数所述频谱值与不同的频率段或频率范围相关联。21.根据权利要求1至19之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为导出对数幅度、振幅、绝对值或范数值(372)并基于所述对数幅度、振幅、绝对值或范数值来确定所述缩放值(136；336；m(k，n))。22.根据权利要求1至20之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为基于当前帧的解码音频表示的与不同频率段或频率范围相关联的频谱值并且基于所述当前帧之前的一个或多个帧的解码音频表示的与不同频率段或频率范围相关联的频谱值确定与所述当前帧相关联的多个缩放值(136；336；m(k，
n))。23.根据权利要求1至22之一所述的音频解码器(100；300)，其中，所述滤波器(130；360，370，380，338)被配置为基于当前帧之后的一个或多个帧的解码音频表示的与不同频率段或频率范围相关联的频谱值确定与所述当前帧相关联的多个缩放值。24.一种装置(200；400；500)，用于确定定义滤波器(130；360，370，380，338)的特征的值的集合，所述滤波器用于基于解码音频表示(122；322)提供增强音频表示其中，所述装置被配置为获得所述解码音频表示(122；322)的与不同的频率段或频率范围相关联的频谱值并且其中，所述装置被配置为确定定义所述滤波器(130；360，370，380，338)的特征的值的集合(382；412；512)，使得由所述滤波器基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值提供的缩放值(136；336；484；584)接近目标缩放值(494)，或者其中，所述装置被配置为确定定义所述滤波器(130；360，370，380，338)的特征的值的集合(382；412；512)，使得由所述滤波器基于所述解码音频表示(122；322)的与不同频率段或频率范围相关联的频谱值并使用基于所述解码音频表示(122；322)获得的缩放值(136；336；484；584)而获得的频谱接近目标频谱(510)。25.根据权利要求24所述的装置(200；400)，其中，所述装置被配置为训练机器学习结构(380；480；580)，以减少或最小化多个目标缩放值(494；irm(k，n))和使用神经网络基于所述解码音频表示的与不同的频率段或频率范围相关联的频谱值(326；446；546)而获得的多个缩放值(136；336；484；584；m(k，n))之间的偏差(mse
ma
)，所述机器学习结构(380；480；580)是所述滤波器(130；360，370，380，338)的一部分，并且提供用于对所述解码音频信号(122；322；432；532)的幅度值(362，372；462，472；562)或所述解码音频信号的频谱值(326；446；546)进行缩放的缩放值(136；336；484；584；m(k，n))。26.根据权利要求24所述的装置(200；500)，其中，所述装置被配置为训练机器学习结构(380；480；580)以减少或最小化目标频谱(510；|x(k，n)|)和使用已处理频谱(532；546)的缩放而获得的频谱之间的偏差(mse
ma
)，所述已处理频谱(532；546)的缩放使用由所述机器学习结构提供的缩放值(584)。27.根据权利要求24至26之一所述的装置(200；400；500)，其中，所述装置被配置为训练所述机器学习结构(380；480；580)，使得针对所述解码音频信号表示的频谱值、或者针对基于所述解码音频信号表示的预处理频谱值的缩放位于0至2之间的范围内、或位于0至5之间的范围内、或位于0至10之间的范围内。
28.根据权利要求24至27之一所述的装置(200；400；500)，其中，所述装置被配置为训练所述机器学习结构(380；480；580)，使得针对所述解码音频信号表示的频谱值、或者针对基于所述解码音频信号表示的预处理频谱值的幅度缩放被限制为位于0至预定最大值之间的范围内。29.根据权利要求28所述的音频解码器(400；500)，其中，所述最大值大于1。30.一种用于基于编码音频表示提供增强音频表示的方法(900)，其中，所述方法包括提供(910)所述编码音频表示的解码音频表示其中，所述方法包括基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值，获得(920)与不同频率段或频率范围相关联的多个缩放值(m(k，n))，并且其中，所述方法包括使用所述缩放值(m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放(930)，以获得所述增强音频表示31.一种方法(1000)，用于确定定义滤波器的特征的值的集合，所述滤波器用于基于解码音频表示提供增强音频表示其中，所述方法包括获得(1010)所述解码音频表示的与不同频率段或频率范围相关联的频谱值并且其中，所述方法包括确定(1020)定义所述滤波器的特征的值的集合，使得由所述滤波器基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值提供的缩放值接近目标缩放值，或者其中，所述方法包括确定(1030)定义所述滤波器的特征的值的集合，使得由所述滤波器基于所述解码音频表示的频谱值并使用基于所述解码音频表示获得的缩放值而获得的频谱接近目标频谱，所述频谱值与不同的频率段或频率范围相关联。32.一种计算机程序，用于当所述计算机程序在计算机上运行时执行权利要求30或31所述的方法。33.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示
其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，训练所述神经网络(380；600)或所述机器学习结构，使得针对所述解码音频信号表示的频谱分解的一个或多个频谱值或者针对基于所述解码音频信号表示的频谱分解的频谱值的一个或多个预处理频谱值的缩放位于0和预定最大值之间的范围内，其中，所述最大值大于1。34.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，训练所述神经网络(380；600)或所述机器学习结构，使得针对所述解码音频信号表示的频谱分解的一个或多个频谱值、或者针对基于所述解码音频信号表示的频谱分解的频谱值的一个或多个预处理频谱值的所述缩放限制为2，或限制为5，或限制为10，或限制为大于1的预定值。35.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述
解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，训练所述神经网络(380；600)或所述机器学习结构，使得所述缩放值限制为2，或限制为5，或限制为10，或限制为大于1的预定值。36.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，所述滤波器(130；360，370，380，338)被配置为将所述神经网络或所述机器学习结构的输入特征归一化为预定平均值和/或预定方差或标准偏差。37.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表
示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，所述神经网络(380；600)或所述机器学习结构的输入信号(372)表示所述解码音频表示的频谱值的对数幅度，所述频谱值与不同频率段或频率范围相关联。38.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，所述神经网络(380；600)包括输入层(610)、一个或多个隐藏层(612a-612d)和输
出层(614)；其中，所述一个或多个隐藏层(612a-612d)使用整流线性单元作为激活函数。39.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)包括神经网络(380；600)或机器学习结构，所述神经网络或机器学习结构被配置为基于描述所述解码音频表示的多个频谱值的多个频谱值来提供所述缩放值(136；336；m(k，n))，所述频谱值与不同频率段或频率范围相关联；其中，所述神经网络(380；600)包括输入层(610)、一个或多个隐藏层(612a-612d)和输出层(614)；其中，所述输出层(614)使用整流线性单元或绑定的整流线性单元或sigmoid函数作为激活函数。40.一种音频解码器(100；300)，用于基于编码音频表示(110；310)来提供解码音频表示其中，所述音频解码器包括滤波器(130；360，370，380，338)，所述滤波器用于提供所述解码音频表示的增强音频表示其中，所述滤波器被配置为基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值获得与不同频率段或频率范围相关联的多个缩放值(136；336；m(k，n))，并且其中，所述滤波器被配置为使用所述缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述滤波器(130；360，370，380，338)被配置为导出对数幅度值(372)并基于所述
对数幅度值来确定所述缩放值(136；336；m(k，n))。41.一种装置(200；400；500)，用于确定定义滤波器(130；360，370，380，338)的特征的值的集合，所述滤波器用于基于解码音频表示(122；322)提供增强音频表示其中，所述滤波器被配置为使用缩放值(136；336；m(k，n))来对所述解码音频信号表示的频谱值或其预处理版本进行缩放，以获得所述增强音频表示其中，所述装置被配置为获得所述解码音频表示(122；322)的与不同的频率段或频率范围相关联的频谱值并且其中，所述装置被配置为确定定义所述滤波器(130；360，370，380，338)的特征的值的集合(382；412；512)，使得由所述滤波器基于所述解码音频表示的与不同频率段或频率范围相关联的频谱值提供并与不同频率段或频率范围相关联的缩放值(136；336；484；584)接近目标缩放值(494)，或者其中，所述装置被配置为确定定义所述滤波器(130；360，370，380，338)的特征的值的集合(382；412；512)，使得由所述滤波器基于所述解码音频表示(122；322)的与不同频率段或频率范围相关联的频谱值并使用基于所述解码音频表示(122；322)获得的缩放值(136；336；484；584)而获得的频谱接近目标频谱(510)。

技术总结
一种用于基于编码音频表示来提供解码音频表示的音频解码器包括用于提供解码音频表示的增强音频表示的滤波器。该滤波器被配置为基于解码音频表示的与不同频率段或频率范围相关联的频谱值来获得与不同频率段或频率范围相关联的多个缩放值，并且滤波器被配置为使用缩放值对解码音频信号表示的频谱值或其预处理版本进行缩放，以获得增强音频表示。还描述了一种用于基于解码音频表示(122；322)来确定定义滤波器的特征的值的集合的装置，该滤波器用于提供增强音频表示。器用于提供增强音频表示。器用于提供增强音频表示。

技术研发人员：吉洛姆
受保护的技术使用者：弗劳恩霍夫应用研究促进协会
技术研发日：2020.04.09
技术公布日：2022/3/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种低频耐压水下隔声声学结构的制作方法

音频解码器、用于确定定义滤波器的特征的值的集合的装置、用于提供解码音频表示的方法、用于确定定义滤波器的特征的值的集合的方法、以及计算机程序与流程

相关文献

最热文献