一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

参数编码与解码的制作方法

2022-04-01 10:03:51 来源:中国专利 TAG:
参数编码与解码的制作方法

1.简介

在此,公开了编码和解码技术的几个示例。特别地,一种发明针对在低位速率编码和解码多声道音频内容,例如使用DirAC框架。这种方法可以在使用低位速率的同时获得高质量的输出。这可以被用于许多应用,包括艺术作品、通信和虚拟现实。

背景技术

1.1现有技术

本节简要地描述现有技术。

1.1.1多声道内容的离散编码

编码和传输多声道内容的最直接方法是直接量化和编码多声道音频信号的波形,而无需任何事先处理或者假设。尽管所述方法在理论上可以完美地工作,但存在一个主要缺点,即编码所述多声道内容所需的位消耗。因此,将被描述的其他方法(以及所提出的发明)是所谓的“参数方法”,因为它们使用元参数(meta-parameters)以描述和发送所述多声道音频信号而不是原始音频多声道信号本身。

1.1.2MPEG环绕

MPEG环绕是在2006年被完成的ISO/MPEG标准,用于多声道声音的参数编码[1]。此方法主要依赖于两个参数集:

-声道间相干(Interchannel coherences,ICC),它描述在给定多声道音频信号的每个声道之间的相干。

-声道电平差(Channel Level Difference,CLD),对应于多声道音频信号的两个输入声道之间的电平差。

MPEG环绕的一种特殊性是使用所谓的“树结构”,这些结构允许“通过单个输出声道描述两个输入声道”(引用自[1])。

作为示例,以下可以找到使用MPEG环绕的5.1多声道音频信号的编码器方案。在此图上,六个输入声道(在图上被标记为“L”,“LS”,“R”,“RS”,“C”和“LFE”)通过树结构元素(在图上被标记为“R_OTT”)被依次处理。这些树结构元件中的每一个将产生参数集如前面提到的ICC和CLD和残余信号,所述残余信号将通过另一树结构被再次处理并产生另一参数集。一旦到达所述树的末端,先前被计算的不同参数被传输到所述解码器,像降混信号一样。这些元素由所述解码器使用以产生输出多声道信号,所述解码器处理基本上是由所述编码器使用的逆树结构。

MPEG环绕的主要优点取决于此结构和在前面被提到的参数的使用。然而,MPEG环绕的缺点之一是由于所述树结构缺乏灵活性。同样由于处理的特殊性,在某些特定项目上可能会发生质量恶化。

除了其他之外,参见图7,示出从[1]抽取的用于5.1信号的MPEG环绕编码器的概览。

1.2定向音频编码

定向音频编码(Directional Audio Coding,缩写为“DirAC”)[2]也是一种再现空间音频的参数方法,它是由在芬兰的阿尔托(Aalto)大学的维尔·普尔基(Ville Pulkki)开发的。DirAC依靠频带处理,所述频带处理使用两个参数集来描述空间声音:

-到达方向(DOA),这是一个角度,以度为单位,描述在音频信号中占主导地位的声音(predominant sound)的到达方向。

-扩散度,这是介于0与1之间的值,用于描述所述声音有多“扩散”。如果所述值为0,则所述声音是非扩散的,并且可以被同化为来自精确角度的点状源;如果所述值为1,则所述声音是完全扩散的,并且被假设为来自“每一个”角度。

为了合成所述输出信号,DirAC假设其被分解为扩散和非扩散部分,所述扩散声音合成旨在产生对一周围声音的感知,而直接声音合成则旨在产生占主导地位的声音。

鉴于DirAC提供高质量的输出,但它有一个主要缺点:它不适用于多声道音频信号。因此,所述DOA和扩散参数不太适合描述多声道音频输入,因此,输出质量受到影响。

1.3双耳提示编码

双耳提示编码(Binaural Cue Coding,BCC)[3]是由克里斯托夫·法尔(Christof Faller)开发的一种参数化方法。此方法依赖于类似的参数集如同那些被描述用于MPEG环绕(请参见1.1.2),即:

-声道间电平差(ICLD),其是在多声道输入信号的两个声道之间的能量比的测量。

-声道间时间差(ICTD),其是在多声道输入信号的两个声道之间的延迟的测量。

-声道间相关度(ICC),其是在多声道输入信号的两个声道之间的关联的测量。

与稍后将被描述的新颖发明相比,所述BCC方法就发送的参数的计算而言具有非常相似的特性,但是它缺乏被发送的参数的灵活性和可以缩放性。

1.4MPEG空间音频对象编码

空间音频对象编码(Spatial Audio Object Coding)[4]将在此被简单提及。这是用于对所谓的音频对象进行编码的MPEG标准,这在一定程度上与多声道信号有关。它使用与MPEG环绕类似的参数。



技术实现要素:

1.5现有技术的诱因/缺点

1.5.1诱因

1.5.1.1使用DirAC框架

本发明必须被提到的一个方面是当前发明必须适合于所述DirAC框架。尽管如此,之前也提到过DirAC的参数不适用于多声道音频信号。有关此主题应给予更多解释。

所述原始的DirAC处理使用麦克风信号或者歧义信号(ambisonics signals)。从这些信号,计算参数,即到达方向(DOA)和扩散度。

为了将DirAC与多声道音频信号一起使用,被尝试的第一种方法是使用一种由维尔·普尔基(Ville Pulkki)提出的方法,将所述多声道信号转换为歧义内容,如在[5]所述。然后,一旦这些歧义信号从所述多声道音频信号中被导出,就可以使用DOA和扩散进行常规的DirAC处理。首次尝试的结果是被输出的多声道信号的质量和空间特征恶化,并且无法满足目的应用程序的要求。

因此,本新颖发明背后的主动机是使用参数集,所述参数集有效地描述所述多声道信号,并且还使用所述DirAC框架,进一步的解释将在1.1.2节中给出。

1.5.1.2提供在低位速率操作的系统

本发明的目的和目标之一是提出一种允许低位速率应用的方法。这需要找到最佳数据集以描述在编码器与解码器之间的多声道内容。这还需要就传输参数的数量和输出质量而言找到最佳的权衡。

1.5.1.3提供灵活的系统

本发明的另一个重要目的是提出一种灵活的系统,所述系统可以接受旨在任何扬声器设置上被再现的任何多声道音频格式。取决于输入设置,输出质量不应受到损害。

1.5.2现有技术的缺点

在前面提到的现有技术的几个缺点在下表中被列出。

2.发明描述

2.1发明概述

根据一个方面,提供一种音频合成器(编码器),用于从降混信号产生合成信号,所述合成信号具有多个合成声道,所述音频合成器包括:

输入接口,被配置用于接收所述降混信号,所述降混信号具有多个降混声道和侧信息,所述侧信息包括原始信号的声道电平和相关信息,所述原始信号具有多个原始声道;和

合成处理器,被配置用于根据至少一个混合规则,使用以下来产生所述合成信号:

所述原始信号的声道电平和相关信息;和

与所述降混信号相关联的协方差信息。

所述音频合成器可以包括:

原型信号计算器,被配置用于从所述降混信号计算原型信号,所述原型信号具有所述多个合成声道;

混合规则计算器,被配置用于使用以下来计算至少一个混合规则:

所述原始信号的所述声道电平和相关信息;和

与所述降混信号相关联的所述协方差信息;

其中所述合成处理器被配置用于使用所述原型信号和所述至少一个混合规则产生所述合成信号。

所述音频合成器可以被配置为重构所述原始信号的目标协方差信息。

所述音频合成器可以被配置为重构适应于所述合成信号的声道数量的所述目标协方差信息。

所述音频合成器可以被配置为通过将原始声道组分配至单个合成声道,重构适应于所述合成信号的所述声道数量的所述协方差信息,或者反之亦然,以使得经重构的目标协方差信息被报告给所述合成信号的所述多个声道。

所述音频合成器可以被配置为通过产生针对所述原始声道的数量的目标协方差信息并且随后应用降混规则或升混规则以及能量补偿以得出针对所述合成声道的所述目标协方差,重构适应于所述合成信号的所述声道数量的所述协方差信息。

所述音频合成器可以被配置为基于所述原始协方差信息的估计版本重构所述协方差信息的目标版本,其中所述原始协方差信息的所述估计版本被报告给所述多个合成声道或者所述多个原始声道。

所述音频合成器可以被配置为从与所述降混信号相关联的协方差信息获得所述原始协方差信息的所述估计版本。

所述音频合成器可以被配置为通过将估计规则应用于与所述降混信号相关联的所述协方差信息,获得所述原始协方差信息的所述估计版本,所述估计规则是用于计算所述原型信号的原型规则与用于计算所述原型信号的原型规则相关联。

所述音频合成器可以被配置为针对至少一个声道对,将所述原始协方差信息(Cy)的所述估计版本标准化到所述声道对中的声道的电平的平方根上。

所述音频合成器可以被配置为利用经标准化的所述原始协方差信息的估计版本来构造矩阵。

所述音频合成器可以被配置为通过插入在所述位流的所述侧信息中获得的项来完成所述矩阵。

所述音频合成器可以被配置为通过按形成所述声道对的声道的电平的所述平方根来缩放所述原始协方差信息的所述估计版本,将所述矩阵进行去标准化。

所述音频合成器可以被配置为在所述降混信号的所述侧信息之中检索声道电平和相关信息,所述音频合成器还被配置为通过来自以下两者的所述原始声道电平和相关信息的估计版本重构所述协方差信息的所述目标版本:

用于至少一个第一声道或者声道对的协方差信息;和

用于至少一个第二声道或者声道对的声道电平和相关信息。

所述音频合成器可以被配置为优选从所述位流的所述侧信息获得的描述所述声道或者声道对的所述声道电平和相关信息,而不是针对相同声道或者声道对从所述降混信号重构的所述协方差信息。

所述原始协方差信息的经重构的目标版本可以被理解为描述在一对声道之间的能量关系,或者是至少部分地基于与所述一对声道中的每个声道相关联的电平。

所述音频合成器可以被配置为获得所述降混信号的频域FD版本,所述降混信号的所述频域版本被划分为频带或者频带组,其中不同声道电平和相关信息与不同频带或者频带组相关联,

其中所述音频合成器被配置为针对不同频带或者频带组而不同地操作,以获得针对不同频带或者频带组的不同混合规则。

所述降混信号被划分为时隙,其中不同的声道电平和相关信息与不同时隙相关联,并且所述音频合成器被配置为针对不同时隙而不同地操作,以获得针对不同时隙的不同混合规则。

所述降混信号被划分为帧,并且每个帧被划分为时隙,其中当一个帧中的瞬态的存在和位置被用信号通知(signaled)为处于一个瞬态时隙中时,所述音频合成器被配置为:

将当前的声道电平和相关信息与瞬态时隙和/或帧的瞬态时隙后续的时隙相关联;和

将所述帧的所述瞬态时隙以前的时隙与所述以前的时隙的所述声道电平和相关信息相关联。

所述音频合成器可以被配置为选择原型规则,所述原型规则被配置用于在所述多个合成声道的基础上计算原型信号。

所述音频合成器可以被配置为在多个预存储的原型规则之中选择所述原型规则。

所述音频合成器可以被配置为在手动选择的基础上定义原型规则。

所述原型规则可以基于或者包括矩阵,所述矩阵具有第一维度和第二维度,其中所述第一维度与所述降混声道的数量相关联,并且所述第二维度与所述合成声道的数量相关联。

所述音频合成器可以被配置为在等于或者低于160kbit/s的位速率操作。

所述音频合成器还可以包括熵解码器,用于获得具有所述侧信息的所述降混信号。

所述音频合成器还包括去相关模块,以减少不同声道之间的相关量。

所述原型信号可以在不执行去相关的情况下被直接提供给所述合成处理器。

所述原始信号的所述声道电平和相关信息、所述至少一个混合规则和与所述降混信号相关联的所述协方差信息中的至少一个为矩阵形式。

所述侧信息包括所述原始声道的标识;

其中所述音频合成器还可以被配置用于使用所述原始信号的所述声道电平和相关信息、与所述降混信号相关联的协方差信息,所述原始声道的所述标识,和所述合成声道的标识中的至少一个来计算所述至少一个混合规则。

所述音频合成器可以被配置为通过奇异值分解SVD来计算至少一个混合规则。

所述降混信号可以被划分为帧,所述音频合成器被配置为使用与针对先前帧获得的参数、经估计或者经重构的值或者混合矩阵的线性组合来平滑所接收的参数、经估计或者经重构的值或者混合矩阵。

所述音频合成器可以被配置为当一个帧中的瞬态的存在和/或位置被用信号通知时,停用所述所接收的参数、所述经估计或者经重构的值或者所述混合矩阵的所述平滑。

所述降混信号可以被划分为帧,并且所述帧被划分为时隙,其中所述原始信号的所述声道电平和相关信息是以逐帧方式从位流的侧信息获得的,所述音频合成器被配置为针对当前帧使用混合矩阵(或者混合规则),所述音频合成器被配置为针对当前帧使用混合规则,所述混合规则是通过按沿着所述当前帧的后续时隙增加的系数对针对当前帧计算的混合矩阵(或者混合规则)进行缩放、并且通过以按沿着所述当前帧的所述后续时隙减少的系数缩放后的版本添加用于先前帧的混合矩阵(或者混合规则)而获得的。

所述合成声道的数量可以大于所述原始声道的数量。所述合成声道的数量可以小于所述原始声道的数量。所述合成声道的数量和所述原始声道的数量可以大于所述降混声道的数量。

所述合成声道的数量、所述原始声道的数量和所述降混声道的数量中的至少一个数量或者数量全部为多个(a plural number)。

所述至少一个混合规则可以包括第一混合矩阵和第二混合矩阵,所述音频合成器包括:

第一路径,包括:

第一混合矩阵块,被配置用于根据从以下计算出的所述第一混合矩阵来合成所述合成信号的第一分量:

与所述合成信号相关联的协方差矩阵,所述协方差矩阵是从所述声道电平和相关信息被重构;和

与所述降混信号相关联的协方差矩阵,

第二路径,用于合成所述合成信号的第二分量,所述第二分量是残余分量,所述第二路径包括:

原型信号块,被配置用于将所述降混信号从所述降混声道的数量升混到所述合成声道的数量;

去相关器,被配置用于对经升混的原型信号进行去相关;

第二混合矩阵块,被配置用于根据第二混合矩阵从所述降混信号的去相关版本合成所述合成信号的所述第二分量,所述第二混合矩阵为残余混合矩阵,

其中所述音频合成器被配置为从以下估计所述第二混合矩阵:

由所述第一混合矩阵块提供的残余协方差矩阵;和

从与所述降混信号相关联的所述协方差矩阵获得的经去相关的原型信号的协方差矩阵的估计,

其中所述音频合成器还包括加法器块,用于将所述合成信号的所述第一分量与所述合成信号的所述第二分量进行求和。

根据一个方面,提供一种音频合成器,用于从具有多个降混声道的降混信号产生合成信号,所述合成信号具有多个合成声道,所述降混信号是具有多个原始声道的原始信号的降混版本,所述音频合成器包括:

第一路径,包括:

第一混合矩阵块,被配置用于根据从以下计算出的第一混合矩阵以合成所述合成信号的第一分量:

与所述合成信号相关联的协方差矩阵;和

与所述降混信号相关联的协方差矩阵;

第二路径,用于合成所述合成信号的第二分量,其中所述第二分量是残余分量,所述第二路径包括:

原型信号块,被配置用于将所述降混信号从所述降混声道的数量升混到所述合成声道的数量;

去相关器,被配置用于对经升混的原型信号(613c)进行去相关;

第二混合矩阵块,被配置用于根据第二混合矩阵从所述降混信号的去相关版本合成所述合成信号的第二分量,所述第二混合矩阵是残余混合矩阵,

其中所述音频合成器被配置为从以下计算所述第二混合矩阵:

由所述第一混合矩阵块提供的所述残余协方差矩阵;和

从与所述降混信号相关联的所述协方差矩阵获得的所述经去相关的原型信号的所述协方差矩阵的估计,

其中所述音频合成器还包括加法器块,用于将所述合成信号的所述第一分量与所述合成信号的所述第二分量进行求和。

通过从与所述合成信号相关联的所述协方差矩阵减去通过将所述第一混合矩阵应用于与所述降混信号相关联的所述协方差矩阵所获得的矩阵,来获得所述残余协方差矩阵。

所述音频合成器可以被配置为从以下定义所述第二混合矩阵:

第二矩阵,其通过分解与所述合成信号相关联的所述残余协方差矩阵而被获得;

第一矩阵,其是从所述经去相关的原型信号的所述协方差矩阵的所述估计被获得的对角矩阵的逆矩阵或者经正则化的逆矩阵。

可以通过将所述平方根函数应用于所述经去相关的原型信号的所述协方差矩阵的主对角元素,来获得所述对角矩阵。

可以通过将奇异值分解应用于与所述合成信号相关联的所述残余协方差矩阵,来获得所述第二矩阵。

所述音频合成器可以被配置为通过将所述第二矩阵与从所述经去相关的原型信号的所述协方差矩阵的所述估计获得的所述对角矩阵的逆矩阵或者经正则化的逆矩阵和第三矩阵进行相乘,来定义所述第二混合矩阵。

所述音频合成器可以被配置为通过将奇异值分解应用于从所述经去相关的原型信号的所述协方差矩阵的经标准化的(normalized)版本获得的矩阵,来获得所述第三矩阵,其中所述标准化是相对于所述残余协方差矩阵和所述对角矩阵和所述第二矩阵的主对角线进行的。

所述音频合成器可以被配置为从第二矩阵和所述第二矩阵的逆矩阵或者经正则化的逆矩阵来定义所述第一混合矩阵,

其中通过分解与所述降混信号相关联的所述协方差矩阵来获得所述第二矩阵,和通过分解与所述降混信号相关联的经重构的目标协方差矩阵来获得所述第二矩阵。

所述音频合成器可以被配置为从矩阵的所述对角项估计所述经去相关的原型信号的所述协方差矩阵,所述矩阵是通过将在所述原型块处使用的用于将所述降混信号从所述降混声道的数量升混到所述合成声道的数量的原型规则应用于与所述降混信号相关联的所述协方差矩阵而获得的。

所述频带被彼此聚合为聚合频带组,其中关于所述聚合频带组的信息在所述位流的侧信息中提供,其中所述原始信号的所述声道电平和相关信息按每个频带组被提供,以针对相同聚合频带组的不同频带计算相同的至少一个混合矩阵。

根据一个方面,提供一种音频编码器,用于从原始信号产生降混信号,所述原始信号具有多个原始声道,所述降混信号具有多个降混声道,所述音频编码器包括:

参数估计器,被配置为估计所述原始信号的声道电平和相关信息,和

位流写入器,用于将所述降混信号编码至位流中,使得所述降混信号被编码在所述位流中,以具有侧信息,所述侧信息包括所述原始信号的声道电平和相关信息。

所述音频编码器可以被配置为作为标准化值提供所述原始信号的所述声道电平和相关信息。

被编码在所述侧信息中的所述原始信号的所述声道电平和相关信息至少表示与所述原始声道的总数量相关联的声道电平信息。

被编码在所述侧信息中的所述原始信号的所述声道电平和相关信息至少表示相关信息,所述相关信息描述描述在至少一对、但少于所述原始声道的总数量的不同原始声道之间的能量关系。

所述原始信号的所述声道电平和相关信息包括至少一个相干值,所述相干值描述在一对原始声道中的两个声道之间的相干。

所述相干值可以被标准化。所述相干值可以是

其中Cyi,j是声道i和j之间的协方差,Cyi,i与Cyj,j分别是与声道i和j相关联的电平。

所述原始信号的所述声道电平和相关信息包括至少一个声道间电平差(ICLD)。

所述至少一个ICLD可以作为对数值提供的。所述至少一个ICLD被标准化。所述至少一个ICLD可以是

其中

-χi是针对声道i的声道间电平差,

-Pi是当前声道i的功率,

-Pdmx,i是所述降混信号的所述协方差信息的值的线性组合。

所述音频编码器可以被配置为在状态信息的基础上选择是否对所述原始信号的所述声道电平和相关信息的至少一部分进行编码或者不对其进行编码,以在有效载荷相对较低的情况下,在所述侧信息中包括增加数量的声道电平和相关信息。

所述音频编码器可以被配置为在关于声道的量度的基础上选择要将所述原始信号的所述声道电平和相关信息的哪一部分编码在所述侧信息中,以在所述侧信息中包括与更敏感的量度相关联的声道电平和相关信息。

所述原始信号的所述声道电平和相关信息可以为矩阵的项的形式。

所述矩阵可以是对称矩阵或者厄米特矩阵,其中所述声道电平和相关信息的项是针对所述矩阵的对角线中的全部项或者少于总数量的项和/或针对少于所述矩阵的非对角元素的一半提供的。

所述位流写入器被配置为对至少一个声道的标识进行编码。

所述原始信号或者其经处理的版本可以被划分为多个具有相等时间长度的后续帧。

所述音频编码器可以被配置为将针对每个帧特定的所述原始信号的声道电平和相关信息编码在所述侧信息中。

所述音频编码器可以被配置为将共同地与多个连续帧相关联的所述原始信号的相同声道电平和相关信息编码在所述侧信息中。

所述音频编码器可以被配置为选择为其选择了所述原始信号的相同声道电平和相关信息的连续帧的数量,使得:

相对较高的位速率或者较高的有效载荷隐含表明所述原始信号的相同声道电平和相关信息所关联的所述连续帧的数量的增加,反之亦然。

所述音频编码器可以被配置为在检测到瞬态时减少所述原始信号的相同声道电平和相关信息所关联的所述连续帧的数量。

每个帧可以被细分为整数数量的连续时隙。

所述音频编码器可以被配置为针对每个时隙估计所述声道电平和相关信息,并且将针对不同时隙估计的所述声道电平和相关信息的总和或者平均值或者另一预定线性组合编码在所述侧信息中。

所述音频编码器可以被配置为对所述帧的时域版本执行瞬态分析,以确定在所述帧内的瞬态的发生。

所述音频编码器可以被配置为确定所述瞬态已经发生在所述帧的哪个时隙中,和:

将与其中所述瞬态已经发生的时隙和/或在所述帧中的后续时隙相关联的所述原始信号的所述声道电平和相关信息进行编码,

不对与在所述瞬态以前的时隙相关联的所述原始信号的所述声道电平和相关信息进行编码。

所述音频编码器可以被配置为在所述侧信息中用信号通知所述瞬态的发生是发生在所述帧的一个时隙中。

所述音频编码器可以被配置为在所述侧信息中用信号通知所述瞬态已经发生在所述帧的哪个时隙中。

所述音频编码器可以被配置为估计与所述帧的多个时隙相关联的所述原始信号的声道电平和相关信息,并对它们求和或者对它们取平均或者将它们线性地组合,以获得与所述帧相关联的声道电平和相关信息。

所述原始信号可以被转换为频域信号,其中所述音频编码器被配置为以逐频带的方式将所述原始信号的所述声道电平和相关信息编码在所述侧信息中。

所述音频编码器可以被配置为将所述原始信号的多个频带聚合为数量更为减少的频带,以便以逐聚合频带的方式将所述原始信号的所述声道电平和相关信息编码在所述侧信息中。

所述音频编码器可以被配置在检测到所述帧中的瞬态的情况下进一步聚合所述频带,使得:

所述频带数被减少;和/或

至少一个频带的宽度通过与另一频带聚合而被增加。

所述音频编码器还可以被配置为将一个频带的至少一个声道电平和相关信息作为相对于先前编码的声道电平和相关信息的增量编码在位流中。

所述音频编码器可以被配置为将相对于由所述估计器估计的所述声道电平和相关信息的所述声道电平和相关信息的不完整版本编码在所述位流的所述侧信息中。

所述音频编码器可以被配置为在由所述估计器估计的整体的声道电平和相关信息之中适应性地选择要被编码在所述位流的所述侧信息中的所选择信息,使得不对由所述估计器估计的声道电平和/或相关信息的剩余未选择信息进行编码。

所述音频编码器可以被配置为从所选择的声道电平和相关信息重构所述声道电平和相关信息,由此模拟在所述解码器处的未选择的声道电平和相关信息的估计,并且计算在以下之间的误差信息:

由所述编码器估计的所述未选择的声道电平和相关信息;与

通过模拟在所述解码器处的未编码的声道电平和相关信息的估计而被重构的所述未选择的声道电平和相关信息;和

使得在所述被计算的误差信息的基础上进行区分:

可正确重构的声道电平和相关信息;与

不可正确重构的声道电平和相关信息,

以确定:

选择要被编码在所述位流的所述侧信息中的所述不可正确重构的声道电平和相关信息;和

不选择所述可正确重构的声道电平和相关信息,由此避免将所述可正确重构的声道电平和相关信息编码在所述位流的所述侧信息中。

可以根据预定排序对所述声道电平和相关信息进行索引,其中所述编码器被配置为在所述位流的所述侧信息中用信号通知与所述预定排序相关联的索引,所述索引指示所述声道电平和相关信息中的哪一个被编码。所述索引通过位图被提供。所述索引根据将一维索引与矩阵的项相关联的组合编号系统而被定义。

所述音频编码器可以被配置为在以下之间进行选择:

所述声道电平和相关信息的适应性提供,其中与所述预定排序相关联的索引被编码在所述位流的所述侧信息中;与

所述声道电平和相关信息的固定提供,使得经编码的声道电平和相关信息被预先确定,并且根据预定的固定顺序被排序,而不提供索引。

所述音频编码器可以被配置为在所述位流的所述侧信息中用信号通知是否根据适应性提供或者根据固定提供来提供所述声道电平和相关信息。

所述音频编码器还可以被配置为将当前的声道电平和相关信息作为相对于先前的声道电平和相关信息的增量编码在所述位流中。

所述音频编码器还可以被配置为根据静态降混产生所述降混信号。

根据一个方面,提供一种用于从降混信号产生合成信号的方法,所述合成信号具有多个合成声道,所述方法包括:

接收降混信号和侧信息,所述降混信号具有多个降混声道,所述侧信息包括:

原始信号的声道电平和相关信息,所述原始信号具有多个原始声道;

使用所述原始信号的声道电平和相关信息以及与所述信号相关联的协方差信息产生所述合成信号。

所述方法可以包括:

从所述降混信号计算原型信号,所述原型信号具有所述多个合成声道;

使用所述原始信号的声道电平和相关信息以及与所述降混信号相关联的协方差信息计算混合规则;和

使用所述原型信号和所述混合规则产生所述合成信号。

根据一个方面,提供一种用于从原始信号产生降混信号的方法,所述原始信号具有多个原始声道,所述降混信号具有多个降混声道,所述方法包括:

估计所述原始信号的声道电平和相关信息,

将所述降混信号编码至位流中,使得所述降混信号被编码在所述位流中,以具有侧信息,所述侧信息包括所述原始信号的声道电平和相关信息。

根据一个方面,提供一种用于从具有多个降混声道的降混信号产生合成信号的方法,所述合成信号具有多个合成声道,所述降混信号是具有多个原始声道的原始信号的降混版本,所述方法包括以下阶段:

第一阶段,包括:

根据从以下计算出的第一混合矩阵合成所述合成信号的第一分量:

与所述合成信号相关联的协方差矩阵;和

与所述降混信号相关联的协方差矩阵,

第二阶段,用于合成所述合成信号的第二分量,其中所述第二分量是残余分量,所述第二阶段包括:

原型信号步骤,将所述降混信号从所述降混声道的数量升混到所述合成声道的数量;

去相关器步骤,对经升混的原型信号进行去相关化;

第二混合矩阵步骤,根据第二混合矩阵从所述降混信号的去相关版本合成所述合成信号的所述第二分量,所述第二混合矩阵是残余混合矩阵,

其中所述方法从以下计算所述第二混合矩阵:

由所述第一混合矩阵步骤提供的残余协方差矩阵;和

从与所述降混信号相关联的所述协方差矩阵获得的经去相关的原型信号的所述协方差矩阵的估计,

其中所述方法还包括加法器步骤,将所述合成信号的所述第一分量与所述合成信号的所述第二分量求和,由此获得所述合成信号。

根据一个方面,提供一种用于从降混信号产生合成信号的音频合成器,所述合成信号具有合成通道数,所述合成通道数大于一或者大于二,所述音频合成器包括:以下中的至少一个:

输入接口,被配置用于接收所述降混信号,所述降混信号具有至少一个缩混声道和侧信息,所述侧信息包括以下中的至少一个:

原始信号的声道电平和相关信息,所述原始信号具有多个原始声道,所述原始声道的数量大于一或者大于二;

部件,诸如原型信号计算器[例如“原型信号计算”],被配置用于从所述降混信号计算原型信号,所述原型信号具有所述合成通道数;

部件,诸如混合规则计算器[例如“参数重构”],被配置用于使用所述原始信号的声道电平和相关信息,与所述降混信号相关联的协方差信息计算一个(或者多个)混合规则;和

部件,诸如合成处理器[例如“合成引擎”],被配置用于使用所述原型信号和所述混合规则产生所述合成信号。

所述合成声道的数量可以大于所述原始声道的数量。替代地,所述合成声道的数量可以小于所述原始声道的数量。

所述音频合成器(特别是,在某些方面,所述混合规则计算器)可以被配置为重构所述原始声道电平和相关信息的目标版本。

所述音频合成器(特别是,在某些方面,所述混合规则计算器)可以被配置为重构所述原始声道电平和相关信息的目标版本,所述相关信息适应于所述合成信号的所述多个声道。

所述音频合成器(特别是,在某些方面,所述混合规则计算器)可以被配置为重构所述原始声道电平和相关信息的目标版本,所述相关信息基于所述原始声道电平和相关信息的估计版本。

所述音频合成器(特别是,在某些方面,所述混合规则计算器)可以被配置为从与所述降混信号相关联的协方差信息获得所述原始声道电平和相关信息的所述估计版本。

所述音频合成器(特别是,在某些方面,所述混合规则计算器)可以被配置为针对所述原型信号,通过将与所述原型信号计算器所使用的原型规则相关联的估计规则应用于与所述降混信号相关联的所述协方差信息,获得所述原始声道电平和相关信息的所述估计版本。

所述音频合成器(尤其是,在某些方面,所述混合规则计算器)可以被配置为在所述降混信号的侧信息之中检索以下两者:

与所述降混信号相关联的协方差信息,描述在所述降混信号中的第一声道的电平或者在声道对之间的能量关系;和

所述原始信号的声道电平和相关信息,描述在所述原始信号中的第一声道的电平或者在声道对之间的能量关系,

以使得通过使用以下中的至少一个来重构所述原始声道电平和相关信息的所述目标版本:

针对至少一个第一声道或者声道对的所述原始声道的协方差信息;和

描述所述至少一个第一声道或者声道对的所述声道电平和相关信息。

所述音频合成器(尤其是,在某些方面,所述混合规则计算器)可以被配置为优选所述声道电平和相关信息描述所述声道或者声道对,而不是针对相同声道或者声道对的所述原始声道的所述协方差信息。

所述原始声道电平和相关信息的所述重构目标版本描述在声道对之间的能量关系至少部分地是基于与所述声道对中的每个声道相关联的电平。

所述降混信号可以被划分为频带或者频带组:不同声道电平和相关信息可以与不同频带或者频带组相关联;所述音频合成器(所述原型信号计算器,尤其是,在某些方面,所述混合规则计算器和所述合成处理器中的至少一个)被配置为针对不同频带或者频带组而不同地操作,以获得针对不同频带或者频带组的不同混合规则。

所述降混信号可以被划分为时隙,其中不同的声道电平和相关信息与不同时隙相关联,并且所述音频合成器的至少一个构件(例如所述原型信号计算器,所述混合规则计算器,所述合成处理器或者所述合成器的其他元件)被配置为针对不同时隙而不同地操作,以获得针对不同时隙的不同混合规则。

所述音频合成器(例如所述原型信号计算器)可以被配置为选择原型规则,所述原型规则被配置用于在所述合成声道的数量的基础上计算原型信号。

所述音频合成器(例如所述原型信号计算器)可以被配置为在预存储的原型规则之中选择所述原型规则。

所述音频合成器(例如所述原型信号计算器)可以被配置为在手动选择的基础上定义原型规则。

所述原型规则(例如所述原型信号计算器)可以包括矩阵,所述矩阵具有第一维度和第二维度,其中所述第一维度与所述降混声道的数量相关联,并且所述第二维度与所述合成声道的数量相关联。

所述音频合成器(例如所述原型信号计算器)可以被配置为操作在等于或者低于160kbit/s的位速率。

所述侧信息可以包括所述原始声道的标识[例如L,R,C等]。

所述音频合成器(尤其是,在某些方面,所述混合规则计算器)可以被配置用于使用所述原始信号的所述声道电平和相关信息,与所述降混信号相关联的协方差信息,和所述原始声道的所述标识,和所述合成声道的标识来计算[例如“参数重构”]混合规则[例如混合矩阵]。

所述音频合成器可以针对所述合成信号选择[例如通过选择诸如手动选择,或者通过预选择,或者自动地例如通过识别扬声器数]声道数量,声道数量无关于在所述侧信息中的所述原始声道的所述声道电平和相关信息中的至少一个。

在一些示例中,所述音频合成器可以针对不同的选择来选择不同的原型规则。所述混合规则计算器可以被配置为计算所述混合规则。

根据一个方面,提供一种用于从降混信号产生合成信号的方法,所述合成信号具有多个合成声道,所述合成声道的数量大于一或者大于二,所述方法包括:

接收所述降混信号,所述降混信号具有至少一个降混声道和侧信息,所述侧信息包括:

原始信号的声道电平和相关信息,所述原始信号具有多个原始声道,所述原始声道的数量大于一或者大于二;

从所述降混信号计算原型信号,所述原型信号具有所述合成信号数;

使用所述原始信号的所述声道电平和相关信息,与所述降混信号相关联的协方差信息来计算混合规则;和

使用所述原型信号和所述混合规则[例如规则]产生所述合成信号。

根据一个方面,提供一种音频编码器,用于从原始信号[例如y]产生降混信号,所述原始信号具有至少两个声道,所述降混信号具有至少一个降混声道,所述音频编码器包括以下的至少一个:

参数估计器,被配置用于估计所述原始信号的声道电平和相关信息,

位流写入器,用于将所述降混信号编码至位流中,使得所述降混信号被编码在所述位流中,以使得具有侧信息,所述侧信息包括所述原始信号的声道电平和相关信息。

被编码在所述侧信息中的所述原始信号的所述声道电平和相关信息表示与小于所述原始信号的声道的总数量相关联的声道电平信息。

被编码在所述侧信息中的所述原始信号的所述声道电平和相关信息表示相关信息,所述相关信息描述在所述原始声道中的至少一个不同声道对之间的能量关系,但小于所述原始信号的声道的总数量。

所述原始信号的声道电平和相关信息可以包括至少一个相干值,所述相干值描述声道对中的两个声道之间的相干。

所述原始信号的声道电平和相关信息可以包括在声道对的两个声道之间的至少一个声道间电平差(ICLD)。

所述音频编码器可以被配置为在状态信息的基础上选择是否编码或者不编码所述原始信号的所述声道电平和相关信息的至少一部分,以在有效载荷相对较低的情况下,在所述侧信息中包括增加数量的声道电平和相关信息。

所述音频编码器可以被配置为在关于声道的量度的基础上选择所述原始信号的所述声道电平和相关信息的哪一部分要被编码在所述侧信息中,以在所述侧信息中包括与更敏感的量度相关联的声道电平和相关信息[例如与感知上更显著的协方差相关联量度]。

所述原始信号的所述声道电平和相关信息可以为矩阵的形式。

所述位流写入器被配置为对至少一个声道的标识进行编码。

根据一个方面,提供一种从原始信号产生降混信号的方法,所述原始信号具有至少两个声道,所述降混信号具有至少一个降混声道。

所述方法可以包括:

估计所述原始信号的声道电平和相关信息,

将所述降混信号编码至位流中,使得所述降混信号被编码在所述位流中,以具有侧信息,所述侧信息包括原始信号的声道电平和相关信息。

所述音频编码器可以与解码器无关(agnostic to the decoder)。所述音频合成器可以与所述解码器无关。

根据一个方面,提供一种系统,包括如上或者以下的所述音频合成器和如上或者以下之一音频编码器。

根据一个方面,提供一种存储指令的非暂时性存储单元,当所述指令由处理器执行时致使所述处理器进行一种如上或者如下的方法。

附图说明

3.示例

3.1附图

图1示出根据本发明的处理的简化概览。

图2a示出根据本发明的音频编码器。

图2b示出根据本发明的音频编码器的另一视图。

图2c示出根据本发明的音频编码器的另一视图。

图2d示出根据本发明的音频编码器的另一视图。

图3a示出根据本发明的音频合成器(解码器)。

图3b示出根据本发明的音频合成器(解码器)的另一视图。

图3c示出根据本发明的音频合成器(解码器)的另一视图。

图4a-4d示出协方差合成的示例。

图5示出根据本发明的用于音频编码器的滤波器组的示例。

图6a-6c示出根据本发明的音频编码器的操作的示例。

图7示出现有技术的示例。

图8a-8c示出根据本发明的如何获得协方差信息的示例。

图9a-9d示出声道间同调矩阵的示例。

图10a-10b示出帧的示例。

图11示出由所述解码器使用于获得混合矩阵的方案。

具体实施方式

3.2关于本发明的概念

将被示出的是,示例是基于编码器对信号212进行降混(downmixing)并对所述解码器提供声道电平和相关信息(channel level and correlation information)220。解码器可以从声道电平和相关信息220产生混合规则(mixing rule)(例如混合矩阵)。对于产生混合规则很重要的信息可以包括原始信号212的协方差信息(covariance information)(例如协方差矩阵Cy)和降混信号的协方差信息(例如协方差矩阵Cx)。虽然协方差矩阵Cx可以由解码器通过分析降混信号直接估计,但是原始信号212的协方差矩阵Cy容易由解码器估计。原始信号212的协方差矩阵Cy通常是对称矩阵(例如在5声道原始信号212的情况下为5x5矩阵):虽然矩阵在对角处示出每个声道的电平,但它在非对角项(non-diagonal entries)处的声道之间呈现协方差。矩阵是对角矩阵,因为在通用声道i和j之间的协方差与在j与i之间的协方差相同。因此,为了对解码器提供整个协方差信息,有必要向解码器用信号通知在对角项处的5个电平和在非对角项处的10个协方差。然而,将被示出的是,减少待编码的信息量是可行的。

此外,将被示出的是,在某些情况下,可以不提供电平和协方差,而代之以提供标准化的值。例如,可以提供指示能量值的声道间相干值(ICC,inter channel coherence,也以ξi,j指示)和声道间电平差(ICLD,inter channel level difference,也以χi指示)。ICC可以是例如提供相关值,而不是矩阵Cy的非对角项的协方差。相关信息的示例可以是的形式。在某些示例中,仅对ξi,j的一部分实际进行编码。

以此方式,产生ICC矩阵。ICC矩阵的对角项原理上将等于1,因此不必将它们编码在位流中。然而,已被理解的是,编码器向解码器提供ICLD是可行的,例如以的形式(也参见下文)。在某些示例中,所有χi都实际被编码。

图9a至9d示出ICC矩阵900的示例,其中对角线值“d”可以是ICLDχi,而非对角线值以902,904,905,906,907(请参见下文)指示,这可以是ICCξi,j。

在本文档中,矩阵之间的乘积通过不带符号的方式指示。例如矩阵A与矩阵B之间的乘积通过AB指示。矩阵的共轭转置以星号(*)指示。

当提及对角线时,它是指主对角线(main diagonal)。

3.3本发明

图1示出具有编码器侧和解码器侧的音频系统100。编码器侧可以通过编码器200实施,并且可以获得音频信号212,例如从音频传感器单元(例如麦克风),或者可以从存储单元或者从远程单元(例如经由无线电传输)获得。解码器侧可以通过音频解码器(音频合成器)300实施,其可以将音频内容提供给音频再现单元(例如扬声器)。编码器200和解码器300可以彼此通信,例如通过通信信道,其可以是有线的或者无线的(例如通过射频波,光或者超音波等)。编码器和/或解码器因此可以包括或者被连接到通信单元(例如天线,收发器等),用于将经编码的位流248从编码器200传输到解码器300。在一些情况下,编码器200可以将经编码的位流248存储在存储单元(例如RAM内存,FLASH内存等)中,以供将来使用。类似地,解码器300可读取存储在存储单元中的位流248。在某些示例中,编码器200和解码器300可以是相同的装置:在已经对位流248进行编码和存储后,所述装置可能需要读取它以回放音频内容。

图2a,2b,2c和2d示出编码器200的示例。在某些示例中,图2a和2b和2c和2d的编码器可以相同,并且仅因一个和/或另一幅图中缺少某些要素而彼此不同。

音频编码器200可以被配置用于从原始信号212(具有至少两个(例如三个或者更多个)声道的原始信号212和具有至少一个降混声道的降混信号246)产生降混信号246。

音频编码器200可以包括参数估计器218,参数估计器218被配置为估计原始信号212的声道电平和相关信息220。音频编码器200可以包括位流写入器226,用于将降混信号246编码至位流中248。因此,以使其具有包括原始信号212的声道电平和相关信息的侧信息228的方式将降混信号246编码在位流248中,。

特别地,在某些示例中,输入信号212可以被理解为时域音频信号,诸如例如音频样本的时间序列。原始信号212具有至少两个声道,至少两个声道可以例如对应于不同的麦克风(例如用于立体声音频位置,或者是然而,多声道音频位置),或者例如对应于音频再现单元的不同扬声器位置。输入信号212可以在降混器计算块244处被降混以获得原始信号212的降混版本246(也表示为x)。原始信号212的此降混版本也被称为降混信号246。降混信号246具有至少一个降混声道。降混信号246具有少于原始信号212的声道。降混信号212可以是在时域中。

通过位流写入器226(例如包括熵编码器,或者多路复用器,或者核心编码器)将降混信号246编码在位流248中,用于将位流存储或者传输到(例如与解码器侧相关联的)接收器。编码器200可以包括参数估计器(或者参数估计块)218。参数估计器218可以估计与原始信号212相关联的声道电平和相关信息220。可以将声道电平和相关信息220编码在位流248中作为侧信息228。在示例中,声道电平和相关信息220由位流写入器226编码。在示例中,即使图2b未在降混计算块235的下游示出位流写入器226,位流写入器226仍可能存在。在图2c中,示出位流写入器226可以包括核心编码器247,以对降混信号246进行编码,以获得降混信号246的编码版本。图2c还示出的是,位流写入器226可以包括多路复用器249,多路复用器249在位流228中对经编码的降混信号246和在侧信息228中的声道电平和相关信息220(例如作为经编码的参数)两者进行编码。

如图2b所示(在图2a和2c中缺少的),原始信号212可以被处理(例如通过滤波器组214,见下文),以获得原始信号212的频域版本216。

参数估计的示例被示出在图6c中,其中参数估计器218定义参数ξi,j和χi(例如标准化的参数),以后续被编码在位流中。协方差估计器502和504分别对于待编码的降混信号246和输入信号212估计协方差Cx和Cy。然后,在ICLD块506,ICLD参数χi被计算并被提供到位流写入器246。在协方差对相干块(covariance-to-coherence block)510处,ICCξi,j(412)被获得。在块250处,仅一些ICC被选择要被编码。

参数量化块222(图2b)可以允许获得处于量化版本224的声道电平和相关信息220。

原始信号212的声道电平和相关信息220通常可以包括关于原始信号212的声道的能量(或者电平)的信息。附加地或者替代地,原始信号212的声道电平和相关信息220可以包括在声道对之间的相关信息,诸如在两个不同声道之间的相关。声道电平和相关信息可以包括与协方差矩阵Cy相关联的信息(例如以其标准化的形式,诸如相关或者ICC),其中每一列和每一行都与原始信号212的特定声道相关联,并且通过矩阵Cy的对角元素和相关信息以描述声道电平,并且通过矩阵Cy的非对角元素以描述相关信息。矩阵Cy可以是对称矩阵(即它等于其转置矩阵)或者厄米特矩阵(Hermitian matrix)(即它等于其共轭转置)。Cy通常是正半定的(positive semidefinite)。在某些示例中,相关可以由协方差替代(并且由协方差信息替代相关信息)。已被理解的是,在位流248的侧信息228中编码与少于原始信号212的声道的总数量相关联的信息是可行的。例如,不必提供关于所有声道或者所有声道对的声道电平和相关信息。例如,可以仅在位流248中编码关于在降混信号212的声道对之间的相关的减少的信息集,而剩余信息可以在解码器侧估计。通常,对比Cy的对角元素少的元素进行编码是可行的,并且对比Cy对角线外部的元素少的元素进行编码是可行的。

例如,声道电平和相关信息可以包括原始信号212的协方差矩阵Cy(原始信号的声道电平和相关信息220)和/或降混信号246的协方差矩阵Cx(降混信号的协方差信息)的项,例如以标准化的形式。例如,协方差矩阵可以将每一行和每一列与每个声道相关联,以表示不同声道之间的协方差,并且在矩阵的对角线表示每个声道的电平。在某些示例中,作为编码在侧信息228中的原始信号212的声道电平和相关信息220可以仅包括声道电平信息(例如仅相关矩阵Cy的对角线的值)或者仅包括相关信息(例如仅相关矩阵Cy的对角线外部的值)。同样应用于降混信号的协方差信息。

如后续将被示出的,声道电平和相关信息220可以包括至少一个相干值(ξi,j),描述在声道对i,j中的两个声道i和j之间的相干。附加地或者替代地,声道电平和相关信息220可以包括至少一个声道间电平差ICLD(χi)。特别地,定义具有ICLD值或者ICC值的矩阵是可行的。因此,以上关于矩阵Cy和Cx的元素的传输的示例可以被一般化,用于要被编码(例如被传输)的其他值,用于实施声道电平和相关信息220和/或降混声道的相干信息。

输入信号212可以被细分为多个帧。不同的帧可以具有例如相同的时间长度(例如每个帧可以在经过一帧的时间期间由在时域中的相同数量的样本构建)。因此,不同的帧通常具有相等的时间长度。在位流248中,降混信号246(其可以是时域信号)可用逐帧的方式(或者在任何情况下,可以由解码器确定将其细分为帧)被编码。如在位流248中被编码作为侧信息228那样,声道电平和相关信息220可以与每个帧相关联(例如可以为每个帧或者为多个连续帧提供声道电平和相关信息220的参数)。据此,对于降混信号246的每个帧,相关联的侧信息228(例如参数)可以被编码在位流248的侧信息228中。在一些情况下,多个连续帧可以与如在位流248的侧信息228中编码的相同的声道电平和相关信息220(例如与相同的参数)相关联。据此,一个参数可以导致被共同地与多个连续帧相关联。在某些示例中,当两个连续帧具有相似的属性时,或者当位速率需要被降低(例如由于减少有效载荷的必要性)时,这可能发生。例如:

在高有效载荷的情况下,增加与相同特定参数相关联的连续帧的数量,以减少被写入位流的位数量;

在有效载荷较低的情况下,减少与相同特定参数相关联的连续帧的数量,以提高混合质量。

在其他情况下,当位速率被减少时,增加与相同特定参数相关联的连续帧的数量,以减少被写入位流的位数量,反之亦然。

在某些情况下,可行的是使用与当前帧以前的参数(或者重构的或者估计的值,诸如协方差)的线性组合,例如通过相加、平均等,以平滑参数(或者重构的或者估计的值,诸如协方差)。

在某些示例中,帧可以在多个后续时隙之间被划分。图10a示出帧920(被细分为四个连续的时隙921至924),图10b示出帧930(被细分为四个连续的时隙931至934)。不同时隙的时间长度可以相同。如果帧的长度是20ms和1.25ms的时隙大小,则在一个帧中有16个时隙(20/1.25=16)。

时隙细分可以在滤波器组(例如214)中执行,如下所讨论的。

在示例中,滤波器组是经复调制的低延迟滤波器组(CLDFB),帧的大小为20ms,时隙的大小为1.25ms,导致每帧16个滤波器组以及每个时隙的频带的数量取决于输入采样频率,并且其中频带具有的宽度为400赫兹(Hz)。因此,例如对于48千赫(kHz)的输入采样频率,样本中的帧的长度为960,时隙长度为60个样本,每时隙的滤波器组样本的数量也是60。

即使每个帧(以及每个时隙)可以在时域中被编码,也可以执行逐频带的分析。在示例中,针对每个帧(或者时隙)分析多个频带。例如,滤波器组可以被应用于时间信号,并且所得的子频带信号可以被分析。在某些示例中,声道电平和相关信息220也以逐频带的方式被提供。例如,对于输入信号212或者降混信号246的每个频带,相关联的声道电平和相关信息220(例如Cy或者ICC矩阵)可以被提供。在某些示例中,频带的数量可以基于所述信号的属性和/或被请求的位速率的属性、或者当前有效载荷上的测量的属性而被修改。在某些示例中,需要的时隙越多,则使用的频带越少,以维持相似的位速率。

由于时隙的大小小于帧的大小(在时间长度上),因此在一帧内检测到原始信号212中的瞬态的情况下,可以适时地使用时隙:编码器(尤其是滤波器组214)可以识别瞬态的存在,用信号通知其在位流中的存在,并且在位流248的侧信息228中指示在帧的哪个时隙中已经发生瞬态。此外,被编码在位流248的侧信息228中的声道电平和相关信息220的参数可以因而仅与瞬态后续的时隙和/或瞬态已经发生的时隙相关联。因此,解码器将确定瞬态的存在,并且将声道电平和相关信息220仅与瞬态后续的时隙和/或瞬态已经发生的时隙相关联(对于瞬态以前的时隙,解码器将使用先前帧的声道电平和相关信息220)。在图10a中,没有瞬态已经发生,并且编码在侧信息228中的参数220因此可以被理解为与整个帧920相关联。在图10b中,瞬态已经发生在时隙932处:因此,编码在侧信息228中的参数220将引用时隙932,933和934,而与时隙931相关联的参数将被假设为与在帧930之前的帧的参数相同。

鉴于以上内容,对于每个帧(或者时隙)和每个频带,可以定义与原始信号212有关的特定声道电平和相关信息220。例如,可以针对每个频带估计协方差矩阵Cy的元素(例如协方差和/或电平)。

如果在多个帧共同地与相同参数相关联的同时发生瞬态的检测,则减少共同地与相同参数相关联的帧的数量是可行的,从而增加混合质量。

图10a示出帧920(在此指示为“正常帧”),在原始信号212中为其定义八个频带(在纵坐标示出八个频带1…8,而在横坐标示出时隙921至924)。声道电平和相关信息220的参数可以在理论上以逐频带的方式(例如对于每个原始频带将存在一个协方差矩阵)在位流248的侧信息228中被编码。然而,为了减少侧信息228的数量,编码器可以聚合多个原始频带(例如连续频带),以获得由多个原始频带形成的至少一个聚合频带(aggregated band)。例如,在图10a中,八个原始频带被分组以获得四个聚合频带(聚合频带1与原始频带1相关联;聚合频带2与原始频带2相关联;聚合频带3将原始频带3和5分组;聚合频带4将原始频带5…8分组)。协方差、相关、ICC等的矩阵可以与聚合频带中的每一个相关联。在某些示例中,编码在位流248的侧信息228中的是从与每个聚合频带相关联的参数的总和(或者平均值或者另一线性组合)获得的参数。因此,位流248的侧信息228的大小被进一步降低。在下文中,“聚合频带(aggregated band)”也被称为“参数频带(parameter band)”,因为它意指被用于确定参数220的那些频带。

图10b示出其中发生瞬态的帧931(被细分为四个连续的时隙931至934,或者为另一个整数)。在此,瞬态发生在第二时隙932(“瞬态时隙(transient slot)”)中。在这种情况下,解码器可以确定仅将声道电平和相关信息220的参数指向瞬态时隙932和/或后续时隙933和934。将不提供先前时隙931的声道电平和相关信息220:已被理解的是,时隙931的声道电平和相关信息在原理上将与时隙的声道电平和相关信息特别不同,但是可能会更类似在帧930之前的帧的声道电平和相关信息。因此,解码器将在帧930之前的帧的声道电平和相关信息应用于时隙931,并且帧930的声道电平和相关信息仅应用于时隙932,933和934。

由于可以在位流248的侧信息228中用信号通知(例如在261中,如稍后所示)具有瞬态的时隙931的存在和位置,因此一种技术已被开发以避免或者减小侧信息228的大小增加:可以更改聚合频带之间的分组:例如,聚合频带1将原始频带1和2分组,聚合频带2将原始频带3…8分组。因此,相对于图10a的情况,频带的数量被进一步降低,并且将仅为两个聚合频带提供参数。

图6a示出参数估计块(参数估计器)218能够检索一定数量的声道电平和相关信息220。

图6a示出参数估计器218能够检索一定数量的参数(声道电平和相关信息220),其可以是图9a至9d的矩阵900的ICC。

但是,实际上仅有一部分估计参数被提交到位流写入器226,以对侧信息228进行编码。这是因为编码器200可以被配置为选择(在图1至5中未被示出的确定块250处)是否对原始信号212的声道电平和相关信息220的至少一部分进行编码。

这在图6a中被图解说明作为多个开关254s,这些开关受控于来自确定块250的选择(命令)254。如果块参数估计218的输出220中的每一个是图9c的矩阵900的ICC,则不是由参数估计块218估计的全部参数实际被编码在位流248的侧信息228中:特别是,虽然项908(声道之间的ICC:R与L;C与L;C与R;RS与CS)实际被编码,但项907不被编码(即,确定块250,可以与图6c的相同,可以被视为已经打开用于未编码的项907的开关254s,但是已经关闭用于要被编码在位流248的侧信息228中的项908的开关254s。要被注意的是,关于哪些参数已被选择要被编码的信息254’(项908)可以被编码(例如作为关于哪些项908被编码的位图其他信息)。实际上,信息254’(例如可以是ICC图(ICC map))可以包括经编码的项908的索引(在图9d中示意)。信息254’可以是以位图的形式:例如信息254’可以由固定长度的字段构成,每个位置根据预定排序与一索引相关联,每个位的值提供关于与该索引相关联的参数是否被实际提供的信息。

通常,确定块250例如可以选择是否对声道电平和相关信息220的至少一部分进行编码(即,决定矩阵900的项是否要被编码),例如,在状态信息252的基础上。状态信息252可以是基于有效载荷状态:例如,在传输为高度负载的情况下,将有可能减少要在位流248中编码的侧信息228的数量。例如,并且参考图9c:

在高有效载荷的情况下,减少被实际写入位流248的侧信息228中的矩阵900的项908的数量;

在有效载荷较低的情况下,减少被实际写入位流248的侧信息228中的矩阵900的项908的数量。

替代地或者附加地,量度252可以被评估以确定哪些参数220要被编码在侧信息228中(例如矩阵900的哪些项被指定为经编码的项908,以及哪些项要被丢弃)。在这种情况下,可能仅在位流中编码参数220(与更敏感的量度相关联,例如与感知上更重要的协方差相关联的量度可以与要被选择作为经编码的项908的项相关联)。

要被注意的是,可以针对每个帧(或者在下采样的情况下针对多个帧)和针对每个频带重复此过程。

因此,除了状态量度等之外,确定块250还可以由参数估计器218通过图6a中的命令251来控制。

在某些示例中(例如图6b),音频编码器可以进一步被配置为在位流248中将当前的声道电平和相关信息220t编码作为相对于先前的声道电平和相关信息220(t-1)的增量220k。由此位流写入器226在侧信息228中编码的内容可以是与相对于先前帧的当前帧(或者时隙)相关联的增量220k。这在图6b中示出。当前的声道电平和相关信息220t被提供到存储元件270,使得存储元件270存储用于后续帧的当前的声道电平和相关信息220t的值。同时,可以将当前的声道电平和相关信息220t与先前获得的声道电平和相关信息220(t-1)进行比较。(这在图6b中被示出为减法器273)。因此,可以由减法器273获得减法结果220Δ。差220Δ可以在缩放器220s处被使用,以获得在先前的声道电平和相关信息220(t-1)与当前的声道电平和相关信息220t之间的相对增量220k。例如,如果当前的声道电平和相关信息220t比先前的声道电平和相关信息220(t-1)大10%,则由位流写入器226编码在侧信息228中的增量220将指示10%的增量的信息。在某些示例中,代替提供相对增量220k,可以简单地对差220Δ进行编码。

在如上和如下所讨论的诸如ICC和ICLD的参数之中,要实际被编码的参数的选择可以被适配于特定情况。例如,在某些示例中:

针对一个第一帧,仅选择图9c的ICC 908要被编码在位流248的侧信息228中,而ICC 907不被编码在位流248的侧信息228中;

针对第二帧,选择不同的ICC要被编码,而不同的未选择的ICC不被编码。

针对时隙和频带(以及针对不同的参数,诸如ICLD),可能同样是有效的。因此,编码器(特别是块250)可以确定哪个参数要被编码和哪个参数不被编码,因而使得待编码的参数的选择被适配于特定情况(例如状态,选择…)。因此可以分析“重要性特征(feature for importance)”,以选择哪个参数要被编码和哪个参数不被编码。重要性特征可以是例如与由解码器执行的操作的模拟中获得的结果相关联的量度。例如,编码器可以模拟解码器对未编码的协方差参数907的重构,并且重要性的特征可以是指示在未编码的协方差参数907与推测由解码器重构的相同参数之间的绝对误差的量度。通过测量不同模拟场景中的误差(例如每个模拟场景与某些经编码的协方差参数908的传输和影响未编码的协方差参数907的重构的误差的测量相关联),确定受到误差影响最小的模拟场景(例如模拟场景中有关重构中的所有误差的量度)是可行的,以基于受影响最小的模拟场景将待编码的协方差参数908与未编码的协方差参数907区分开。在受影响最小的场景的情况下,未选择的参数907是最易于重构的参数,而所选择的参数908倾向于与误差相关联的量度最大的参数。

相同的内容可以被进行,通过模拟解码器的重构或者估计协方差,或者通过模拟混合特性或者混合结果,而不是模拟如ICC和ICLD的参数。值得注意的是,模拟可以针对每个帧或者每个时隙进行,并且可以针对每个频带或者聚合频带进行。

一个示例可以是从编码在位流248的侧信息228中的参数开始,使用公式(4)或者(6)(请参见下文)模拟协方差的重构。

更一般而言,从所选择的声道电平和相关信息重构声道电平和相关信息是可行的,从而模拟在解码器(300)处未选择的声道电平和相关信息(220,Cy)的估计,并且计算在以下之间的误差信息:

由编码器估计的未选择的声道电平和相关信息(220);与

通过模拟在解码器(300)处未编码的声道电平和相关信息(220)的估计而被重构的未选择的声道电平和相关信息;和

使得在被计算出的误差信息的基础上区分:

可正确重构的声道电平和相关信息;与

不可正确重构的声道电平和相关信息,

以决定:

选择要被编码在位流(248)的侧信息(228)中的不可正确重构的声道电平和相关信息;和

不选择可正确重构的声道电平和相关信息,从而避免将可正确重构的声道电平和相关信息编码在位流(248)的侧信息(228)中。

一般而言,编码器可以模拟解码器的任何操作,并根据模拟结果评估误差量度。

在某些示例中,重要性特征可以不同于(或者可以包括其他量度,所述量度不同于)与所述误差相关联的量度的评估。在某些情况下,重要性的特征可以与手动选择相关联,或者基于以心理声学标准为基础的重要性。例如,可以选择最重要的声道对要被编码(908),即使在没有模拟的情况下。

现在,提供一些额外的讨论用于解释编码器如何用信号通知在位流248的侧信息220中实际编码哪些参数908。

参考图9d,在ICC矩阵900的对角线的参数与有序索引1...10(所述顺序是预定的且所述解码器已知)相关联。在图9c中,示出所选择的待编码的参数908是用于分别由索引1,2,5,10进行索引的对L-R,L-C,R-C,LS-RS的ICC。因此,在位流248的侧信息228中,还将提供索引1,2,5,10的指示(例如在图6a的信息254’中)。据此,借助于由编码器在侧信息228中提供的关于索引1,2,5,10的信息,解码器将理解的是,在位流248的侧信息228中提供的四个ICC是L-R,L-C,R-C,LS-RS。可以例如通过将位图中的每个位的位置与预定的位置相关联来提供索引。例如,为了用信号通知索引1,2,5,10,可以写入“1100100001”(在侧信息228的字段254’中),因为第一,第二,第五和第十位是指索引1,2,5,10(其他可能性可以由技术人员支配)。这是所谓的一维索引,但是其他索引策略也是可能的。例如,一种组合数技术,根据所述组合数技术(在侧信息228的字段254’中)对数字N进行编码,所述数字N明确地与特定的声道对相关联(另请参见https://en.wikipedia.org/wiki/Combinatorial_number_system)。当位图指向ICC时,也可以称为ICC图。

要被注意的是,在某些情况下,使用非适应性(固定)的参数提供。这意味着,在图6a的示例中,在待编码的参数的中的选择254是固定的,并且不需要在字段254’中指示所所选择的参数。图9b示出参数的固定提供的示例:所选择的ICC为L-C,L-LS,R-C,C-RS,并且无需进行用信号通知它们的索引,因为解码器已经知道在位流248的侧信息228中编码哪些ICC。

然而,在某些情况下,编码器可以在参数的固定提供与参数的适应性提供(adaptive provision)之间进行选择。编码器可以在位流248的侧信息228中用信号通知所述选择,以使得解码器可以知道哪些参数实际被编码。

在某些情况下,至少一些参数可以被提供而不进行修改:例如:

ICDL可以在任何情况下被编码,而无需在位图中指示它们;和

ICC可能要接受适应性提供(adaptive provision)。

解释涉及每个帧,或者时隙,或者频带。针对后续帧、时隙或者频带,不同的参数908被提供给解码器,将不同的索引与所述后续帧、时隙或者频带相关联;并且可以进行不同的选择(例如固定的和适应性的)。图5示出编码器200的滤波器组214的示例,其可以用于处理原始信号212,以获得频域信号216。从图5可以看出,时域(TD)信号212可以由瞬态分析块258(瞬态检测器)分析。此外,由滤波器263(可以实现例如傅立叶滤波器,短傅立叶滤波器,正交镜等)提供在多个频带中的输入信号212的频域(FD)版本264的转换。输入信号212的频域版本264可以被分析,例如在频带分析块267处,频带分析块267可以决定(命令268)要在分区分组块265处执行的特定频带组。此后,FD信号216将是聚合频带数量减少的信号。频带的聚合已经如上关于图10a和图10b进行说明。分区分组块267还可以通过由瞬态分析块258执行的瞬态分析来调节。如上所述,在瞬态的情况下,有可能进一步减少聚合频带的数量:因此,关于瞬态的信息260可以调节分区分组。附加地或者替代地,关于瞬态的信息261被编码在位流248的侧信息228中。当信息261被编码在侧信息228中,信息261可以包括例如指示瞬态是否已经发生的标志(flag)(诸如:“1”,意味着“在帧中存在瞬态”,以及“0”意味着:“在帧中没有瞬态”)和/或瞬态在帧中的位置的指示(诸如指示瞬态在哪个时隙中已被观察到的字段)。在某些示例中,当信息261指示在帧中没有瞬态(“0”)时,没有瞬态的位置的指示被编码在侧信息228中,以减小位流248的大小。信息261也被称为“瞬态参数”,并且如图2d和6b所示,被编码在位流246的侧信息228中。

在某些示例中,在块265处的分区分组还可以通过外部信息260’调节,诸如关于传输的状态的信息(例如与传输相关联的测量,错误率等)。例如,有效载荷越高(或者错误率越大),聚合就越大(倾向较少的聚合频带是较宽的),从而使得较少量的侧信息228要被编码在位流248中。在某些示例中,信息260’可以类似于图6a的信息或者量度252。

通常针对每个频带/时隙组合发送参数是不可行的,但是滤波器组样本在多个时隙和多个频带两者上都被分组,以减少每帧发送的参数集的数量。沿着频率轴,将频带分组为参数频带会在参数频带中使用非恒定的划分,其中参数频带中的频带数量不是恒定的,而是尝试遵循心理听觉激励的参数频带分辨率(a psychoacoustically motivated parameter band resolution),即,在较低频带处,参数频带仅包括一个或者少量的滤波器组频带,并且针对较高的参数频带,将较大(且稳定增加的)数量的滤波器组频带分组为一个参数频带。

因此,例如对于输入采样率为48kHz且参数频带的数量设为14的情况,下文的向量grp14描述滤波器组索引,所述滤波器组索引给出用于参数频带的频带边界(索引从0开始):

grp14=[0,1,2,3,4,5,6,8,10,13,16,20,28,40,60]

参数频带j包括滤波器组频带[grp14[j],grp14[j 1][

注意的是,通过将频带简单截断,以48kHz进行分组的频带也可以被直接用于其他可能的采样率,因为所述分组都遵循心理听觉激励的频率尺度(psychoacoustically motivated frequency scale),并且具有与每个采样频率的频带数量相对应的某些频带边界(表1)。

如果帧是非瞬态的,或者没有瞬态处理被实现,则沿时间轴的分组将遍历在帧中的所有时隙,以使得每参数频带可用一个参数集。

尽管如此,参数集的数量还是很大,但是时间分辨率可以低于20ms的帧(平均40ms)。因此,为了进一步减少每帧发送的参数集的数量,仅参数频带的子集被使用于确定和编码用于在位流中发送给解码器的参数。子集是固定的,并且对于编码器和解码器都是已知的。通过所述位流中的字段用信号通知在位流中发送的特定子集,以指示解码器传输的参数属于参数频带的哪个子集,并且解码器然后将用于此子集的参数替换为所传输的参数(ICC,ICLD),并且针对不在当前子集中的所有参数频带保持来自先前帧的参数(ICC,ICLD)。

在一示例中,参数频带可以被分为两个子集,所述两个子集大致包括全部参数频带的一半以及针对较低参数频带的连续子集和针对较高参数频带的一个连续子集。由于我们有两个子集,因此用于用信号通知子集的位流字段是单个位,并且用于48kHz和14个参数频带的子集的示例是:

s14=[1,1,1,1,1,1,1,0,0,0,0,0,0,0]

其中s14[j]指示属于参数频带j的哪个子集。

要被注意的是,降混信号246可以在时域中的信号实际被编码在位流248中:简单地,后续的参数估计器218将在频域中估计参数220(例如ξi,j和/或χi)(并且解码器300将使用参数220用于准备混合规则(例如混合矩阵)403,这将在下文解释。

图2d示出编码器200的示例,编码器200可以是前述编码器中的一个或者可以包括先前讨论的编码器的元素。TD输入信号212被输入到编码器,并且输出位流248,位流248包括降混信号246(例如被核心编码器247编码的)和编码在侧信息228中的相关和电平信息220。

从图2d可以看出,可以包括滤波器组214(在图5中提供滤波器组的示例)。在块263中提供频域(FD)转换(频域DMX),以获得FD信号264,FD信号264为输入信号212的FD版本。获得多个频带中的FD信号264(也用X表示)。可以提供频带/时隙分组块265(其可以实施为图5的分组块265),以获得在聚合频带中的FD信号216。在某些示例中,FD信号216可以是在较少的频带中的FD信号264的版本。接下来,信号216可以被提供给参数估计器218,其包括协方差估计块502,504(在此被示出为一个单一的块),以及在下游的参数估计和编码块506,510(元件502,504,506和510的实施例在图6c中被示出)。参数估计编码块506,510还可以提供要被编码在位流248的侧信息228中的参数220。瞬态检测器258(其可以实施为图5的瞬态分析块258)可以找出瞬态和/或瞬态在一帧内的的位置(例如在哪个时隙中已经识别出瞬态)。因此,关于瞬态的信息261(例如瞬态参数)可以被提供给参数估计器218(例如决定哪些参数要被编码)。瞬态检测器258还可以将信息或者命令(268)提供给所述块265,以通过考虑瞬态在帧中的存在和/或位置来执行分组。

图3a,3b,3c示出音频解码器300(也称为音频合成器)的示例。在示例中,图3a,3b,3c的解码器可以是相同的解码器,只是为了避免不同的要素而具有一些差异。在示例中,解码器300可以与图1和4的解码器相同。在示例中,解码器300也可以是与编码器200相同的装置。

解码器300可以被配置用于从TD(246)或者FD(314)中的降混信号x产生合成信号(336,340,yR)。音频合成器300可以包括输入接口312,所述输入接口被配置用于接收降混信号246(例如被编码器200编码的相同降混信号)和侧信息228(例如编码在位流248中的)。如上文所解释的,侧信息228可以包括原始信号(其可以是在编码器侧的原始输入信号212,y)的声道电平和相关信息(220,314),诸如ξ,χ等或者其元素中的至少一个(如下文将解释的)。在某些示例中,由解码器300获得ICC矩阵900的对角线外部的所有ICLD(χ)和一些项(但非全部)906或者908(ICC或者ξ值)。

解码器300可以被配置(例如通过原型信号计算器或者原型信号计算模块326),用于从降混信号(324,246,x)计算原型信号328,原型信号328具有合成信号336的多个声道(大于一个)。

解码器300可以被配置(例如通过混合规则计算器402),用于使用以下的至少一个计算混合规则403:

原始信号(212,y)的声道电平和相关信息(例如314,Cy,ξ,χ或者其元素);和

与降混信号(324,246,x)相关联的协方差信息(例如Cx或者其元素)。

解码器300可以包括合成处理器404,合成处理器404被配置用于使用原型信号328和混合规则403以产生合成信号(336,340,yR)。

合成处理器404和混合规则计算器402可以被收集在一个合成引擎334中。在某些示例中,混合规则计算器402可以在合成引擎334的外部。在某些示例中,图3a的混合规则计算器402与图3b的参数重构模块316可以被整合。

合成信号(336,340,yR)的合成声道的数量大于1(在某些情况下大于2或者大于3),并且可以大于、小于或者等于原始信号(212,y)的原始声道的数量,所述原始声道的数量也大于1(在某些情况下大于2或者大于3)。降混信号(246,216,x)的声道数量至少为一或者两个,并且小于原始信号(212,y)的原始声道的数量和合成信号(336,340,yR)的合成声道的数量。

输入接口312可读取经编码的位流248(例如由编码器200编码的相同位流248)。输入接口312可以是或者包括位流读取器和/或熵解码器。如上所述,位流248可以如上所述对降混信号(246,x)和侧信息228进行编码。侧信息228可以例如包括原始声道电平和相关信息220,以被参数估计器218或者参数估计器218下游的任何元件(例如参数量化块222等)输出的形式。侧信息228可以包括经编码值或者经索引值或者两者。即使在图3b中未针对降混信号(346,x)示出输入接口312,输入接口312也可以如图3a所示被应用于降混信号。在某些示例中,输入接口312可以量化从位流248获得的参数。

因此,解码器300可以获得降混信号(246,x),降混信号(246,x)可以是在时域中。如上所述,降混信号246可以被划分为帧和/或时隙(请参见上文)。在示例中,滤波器组320可以转换在时域中的降混信号246以获得在频域中的降混信号246的版本324。如上所述,降混信号246的频域版本324的频带可以被分组为频带组。在示例中,可以执行针对在滤波器组214处被进行的相同分组(请参见上文)。用于分组的参数(例如哪些频带和/或多少频带要被分组…)可以例如基于分区分组器265或者频带分析块267的信号通知,所述信号通知被编码在侧信息228中。

解码器300可以包括原型信号计算器326。原型信号计算器326可以从降混信号(例如版本324,246,x中的一个)计算原型信号328,例如通过应用原型规则(例如矩阵Q)。原型规则可以通过具有第一维度和第二维度的原型矩阵(Q)来实施,其中第一维度与降混声道的数量相关联,第二维度与合成声道的数量相关联。因此,原型信号具有最终要产生的合成信号340的多个声道。

原型信号计算器326可以将所谓的升混(upmix)应用于降混信号(324,246,x),因为它简单地以增加的声道数量(要产生的合成信号的声道数量)来产生降混信号(324,246,x)的版本,但无需施加过多的“智能(intelligence)”。在示例中,原型信号计算器326可以简单地将固定的预定原型矩阵(在本文档中被标识为“Q”)应用于降混信号246的FD版本324。在示例中,原型信号计算器326可以将不同的原型矩阵应用于不同的频带。例如在特定的降混声道的数量和特定的合成声道的数量的基础上,可以在多个预存储的原型规则中选择原型规则(Q)。

原型信号328可以在去相关模块330处去相关化,以获得原型信号328的去相关版本332。然而,在某些示例中,有利地,去相关模块330是不存在的,因为本发明已被证明是足够有效以允许其回避。

原型信号(以其版本328,332中的任何一个)可以被输入到合成引擎334(并且特别是合成处理器404)。在此,对原型信号(328,332)进行处理以获得合成信号(336,yR)。合成引擎334(并且特别是合成处理器404)可以应用混合规则403(在某些示例中,讨论如下,混合规则是两个,例如一个用于合成信号的主分量,一个用于残余分量)。混合规则403可以例如通过矩阵来实施。矩阵403可以例如由混合规则计算器402基于原始信号(212,y)的声道电平和相关信息(314,诸如ξ,χ或者其元素)来产生。

由合成引擎334(特别是由合成处理器404)输出的合成信号336可以是可选地在滤波器组338处被滤波。附加地或者替代地,合成信号336可以在滤波器组338处被转换成时域。因此,合成信号336的版本340(在时域中或者在滤波后)可用于音频再现(例如通过扬声器)。

为了获得混合规则(例如混合矩阵)403,原始信号的声道电平和相关信息(例如Cy,等)和与降混信号相关联的协方差信息(例如Cx)可以被提供给混合规则计算器402。为了这个目的,利用编码器200在侧信息228中编码声道电平和相关信息220是可行的。

然而,在某些情况下,为了减少编码在位流248中的信息的数量,不是所有参数都由编码器200编码(例如不是原始信号212的整个声道电平和相关信息和/或不是降混信号246的整个协方差信息)。因此,一些参数318将在参数重构模块316处被估计。

参数重构模块316可以例如被馈送以下中的至少一个:

降混信号246(x)的一本322,其可以是例如降混信号246的经滤波版本或者FD版本;和

侧信息228(包括声道电平和相关信息228)。

侧信息228可以包括与原始信号(212,y)的关联矩阵Cy相关联的信息(作为输入信号的电平和相关信息):然而,在某些情况下,并非相关矩阵Cy的所有元素都实际被编码。因此,估计和重构技术已被开发用于重构相关矩阵Cy的版本(例如通过获得的估计版本的中间步骤)。

提供给模块316的参数314可以由熵解码器312(输入接口)获得并且可以例如被量化。

图3c示出解码器300的示例,解码器可以是图1至3b的解码器中的一个的实施例。在此,解码器300包括由解多路复用器表示的输入接口312。解码器300输出合成信号340,合成信号例如可以在TD中(信号340),要被扬声器回放或者在FD中(信号336)。图3c的解码器300可以包括核心解码器347,核心解码器347也可以是输入接口312的一部分。核心解码器347因此可以提供降混信号x,246。滤波器组320可以将降混信号246从TD转换为FD。降混信号x,246的FD版本以324指示。FD降混信号324可以被提供给协方差合成块388。协方差合成块388可以在FD中提供合成信号336(Y)。逆滤波器组338可以转换在其TD版本340的音频信号314。FD降混信号324可以被提供给频带/时隙分组块380。频带/时隙分组块380可以执行在编码器中由图5和2d的分区分组块265已经执行的相同操作。在编码器中,作为图5和2d的降混信号216的频带已经在少数频带(具有较宽的宽度)中被分组或者被聚合,并且参数220(ICC,ICLD)已与聚合频带组相关联,现在有必要以相同的方式聚合经解码的降混信号,将每个聚合频带给相关参数。因此,标号385意指已被聚合后的降混信号XB。要被注意的是,滤波器提供未聚合的FD表示,以便能够如在编码器中的相同方式在解码器(380)中对频带/时隙进行分组以处理参数,进行作为编码器在频带/时隙上的相同聚合,以提供被聚合的降混XB。

频带/时隙分组块380还可以在帧中的不同时隙上聚合,使得信号385也以类似于编码器的时隙尺寸被聚合。频带/时隙分组块380还可以接收编码在位流248的侧信息228中的信息261,信息261指示瞬态的存在,并且视情况还指示瞬态在帧内的位置。

在协方差估计块384处,估计降混信号246(324)的协方差Cx。在协方差计算块386处,获得协方差Cy,例如通过利用公式(4)至(8)可用于此目的。图3c示出“多声道参数”,其可以是例如参数220(ICC和ICLD)。然后将协方差Cy和Cx提供给协方差合成块388,以合成合成信号388。在某些示例中,块384,386和388在一起实施时,参数重构316和混合两者都将被计算402,并且合成处理器404将如上文和下文所讨论的。

4讨论(Discussion)

4.1概述(Overview)

本示例的新颖方法尤其旨在以低位速率(意味着等于或者低于160kbits/sec)进行多声道内容的编码和解码,同时保持音质尽可能接近原始信号并保存多声道信号的空间特性。所述新颖方法的一种功能还在于适合前面提到的DirAC框架。输出信号可以在与输入212相同的扬声器设置上被渲染,也可以在不同的扬声器设置上被渲染(就扬声器而言,可以更大或者更小)。同样,输出信号可以使用双耳渲染(binaural rendering)在扬声器上被渲染。

当前部分将提供对本发明以及组成本发明的不同模块的深入描述。

所提议的系统由两个主要部分组成:

1.编码器200,其从输入信号212中导出必要参数220,对它们进行量化(在222处)并对它们进行编码(在226处)。编码器200还可以计算将编码在位流248中的降混信号246(并且可以被发送到解码器300)。

2.解码器300,其使用经编码的(例如被发送的)参数和降混信号246,以产生质量尽可能接近原始信号212的多声道输出。

图1示出根据示例提议的新颖方法的概述。请注意,某些示例将仅使用在总体附图中所示的构造块的子集,并取决于应用场景舍弃某些处理块。

本发明的输入212(y)是在时域或者时频域中的多声道音频信号212(也被称为“多声道流”)(例如信号216),例如,一组音频信号由一组扬声器产生或者意味着要被播放。

所述处理的第一部分是编码部分;从多声道音频信号,将计算出所谓的“降混”信号246(请参见4.2.6)连同参数集或者侧信息228(请参见4.2.24.2.3),其是从在时域或者频域中的输入信号212导出的。这些参数将被编码(请参见4.2.5),并视情况被发送到解码器300。

然后可以将降混信号246和编码参数228发送到核心编码器和传输渠道(transmission canal),所述传输渠道链接该处理的编码器侧与解码器侧。

在解码器侧,降混信号被处理(4.3.3和4.3.4),且所传输的参数被解码(请参见4.3.2)经解码的参数将被用于使用协方差合成(请参见4.3.5)进行输出信号的合成,这将导致在时域中最终的多声道输出信号。

在详细介绍之前,需要建立一些一般特征,所述一般特征中的至少一个是有效的:

-所述处理可以与任何扬声器设置一起使用。请记住,当增加扬声器的数量时,所述处理的复杂性以及对所传输的参数进行编码所需的位也会增加。

-整个处理可以在帧的基础上完成,即,输入信号212可以被划分成被独立处理的帧。在编码器侧,每个帧将产生一参数集,这些参数将被传输到解码器侧以被处理。

-一帧也可以被划分为时隙;这些时隙然后呈现出无法以帧尺度获得的统计属性。一帧可以被划分为例如八个时隙,并且每个时隙的长度将等于帧长度的1/8。

4.2编码器

编码器的目的是抽取适当的参数220以描述多声道信号212,对它们进行量化(在222处),将它们编码作为侧信息228(在226处),然后视情况将它们发送到解码器侧。在此,将详细描述参数220以及如何计算它们。

编码器200的更详细的方案可以在图2a至2d中找到。此概述突显出编码器的两个主要输出228和246。

编码器200的第一输出是从多声道音频输入212计算出的降混信号228;降混信号228是在比原始内容(212)少的声道上的原始多声道流(信号)的表示。有关它的计算的更多信息,请参见第4.2.6节。

编码器200的第二输出是被表示为位流248中的侧信息228的经编码的参数220;这些参数220是本示例的关键点:它们是将被用于在解码器侧有效描述多声道信号的参数。这些参数220提供在位流248中对它们进行编码所需的质量和位数量之间的良好权衡。在编码器侧,参数计算可以被分成几个步骤完成;所述过程将在频域中描述,但也可以在时域中进行。参数220首先从多声道输入信号212被估计,然后它们在量化器222处被量化,然后它们可以被转换为数字位流248作为侧信息228。有关这些步骤的更多信息,请参见第4.2.2,4.2.3和4.2.5节。

4.2.1滤波器组和分区分组

针对编码器侧(例如滤波器组214)或者解码器侧(例如滤波器组320和/或338)讨论滤波器组。

本发明可以在处理期间的各个点处使用滤波器组。这些滤波器组可以将信号从时域转换到频域(所谓的聚合频带或者参数频带),在这种情况下称为“分析滤波器组”,也可以从频率转换到时域(例如338),在这种情况下称为“合成滤波器组”。

滤波器组的选择必须符合所需的性能和优化要求,但是其余的处理可以独立于特定选择的滤波器组而被进行。例如,使用基于正交镜滤波器的滤波器组或者基于短时傅立叶变换的滤波器组。

参照图5,编码器200的滤波器组214的输出将是在一定数量的频带(266相对于264)上表示的在频域中的信号216。针对所有频带(264)进行其余处理可以被理解为提供更好的质量和更好的频率分辨率,但是还需要更重要的位速率以传输所有信息。因此,连同滤波器组处理一起执行所谓的“分区分组”(265),其对应于将某些频率分组在一起,以便在较小的频带组上表示信息266。

例如,滤波器263的输出264(图5)可以在128个频带上表示,并且在265处的分区分组可以导致信号266(216)仅具有20个频带。有几种将频带分组在一起的方法,一种有意义的方法可以是例如尝试近似成等效矩形带宽。所述等效矩形带宽是一种心理听觉激励的频带划分,其试图对人类听觉系统如何处理音频事件建模,即,目的是以适合人类听觉的方式对滤波器组进行分组。

4.2.2参数估计(例如估计器218)

方面1:使用协方差矩阵描述和合成多声道内容

在218处的参数估计是本发明的要点之一;它们在解码器侧被用于合成输出的多声道音频信号。那些参数220(被编码为侧信息228)已被选择,因为它们有效地描述多声道输入流(信号)212,并且它们不需要传输大量数据。这些参数220在编码器侧被计算,并且稍后与在解码器侧的合成引擎被共同使用以计算输出信号。

在此,可以在多声道音频信号与降混信号的声道之间计算协方差矩阵。意即:

-Cy:多声道流(信号)的协方差矩阵,和/或

-Cx:降混流(信号)246的协方差矩阵

所述处理可以在参数频带的基础上进行,因此,一个参数频带与另一个参数频带无关,并且可以在不损失一般性的情况下针对给定的参数频带描述公式。

对于给定的参数频带,协方差矩阵被定义如下:

其中

-表示实部运算符。

-代替实部,它可以是产生实数值的任何其他运算,所述实数值与从中导出该实数值的复数值有关(例如绝对值)。

-*表示共轭转置运算符。

-B表示在原始多个频带与经分组的频带之间的关系(有关分区分组,请参见4.2.1)。

-Y和X分别是在频域中的原始多声道信号212和降混信号246。

Cy(或者其元素,或者从Cy或者从其元素获得的值)也被指示为原始信号212的声道电平和相关信息。Cx(或者其元素,或者从Cy或者从其元素获得的值),也被指示为与降混信号212相关联的协方差信息。

对于给定的帧(和频带),仅一个或者两个协方差矩阵Cy和/或Cx,可以例如被估计器块218输出。所述过程是基于时隙而不是基于帧的,关于在给定时隙与对于整个帧的矩阵之间的关系,可以采用不同的实现方式。作为示例,可以针对一帧内的每个时隙计算协方差矩阵并对它们求和,以便为一个帧输出所述矩阵。注意的是,用于计算协方差矩阵的定义是数学上的定义,但是如果希望获得具有特定特性的输出信号,则事先计算或者至少修改那些矩阵也是可行的。

如上所述,所述矩阵Cy和/或Cx的所有元素不必实际被编码在位流248的侧信息228中。对于Cx,简单地从通过应用公式(1)编码的降混信号246估计它是可行的,并且因此编码器200可以容易简单地避免对Cx(或者更一般而言,与降混信号相关联的协方差信息)的任何元素进行编码。对于Cy(或者对于与原始信号相关联的声道电平和相关信息),使用以下讨论的技术在解码器侧估计Cy的元素中的至少一个是可行的。

方面2a:传输协方差矩阵和/或能量以描述和重构多声道音频信号

如前所述,协方差矩阵被用于合成。将那些协方差矩阵(或者它的子集)从编码器直接传输到解码器是可行的。

在某些示例中,矩阵Cx不一定必需被传输,由于可以使用降混信号246在解码器侧再次计算矩阵,但是取决于应用情景,可能需要此矩阵作为被发送的参数。

从实施的观点来看,那些矩阵Cx,Cy中的所有值并非必须被编码或者被传输,例如为了满足关于位速率的某些特定要求。未被传输的值可以在解码器侧被估计(请参见4.3.2)。

方面2b:传输声道间相干和声道间电平差以描述和重构多声道信号

可以从协方差矩阵Cx,Cy定义备用参数集,并将其用于在解码器侧重构多声道信号212。这些参数可以是,例如,声道间相干(ICC)和/或声道间电平差(ICLD)。

声道间相干描述在多声道流的每个声道之间的相干。参数可以从协方差矩阵Cy导出,并按以下方式计算(对于给定的参数频带和对于两个给定的声道i和j):

其中

-ξi,j在输入信号212的声道i和j之间的ICC

-Cyi,j在输入信号212的声道i和j之间的多声道信号的-先前在公式(1)中定义的-协方差矩阵中的值

ICC值可以在多声道信号的每个声道之间被计算,随着多声道信号大小的增长,这可能导致大量数据。实际上,一组被减少的ICC可以被编码和/或被发送。在某些示例中,必须根据性能要求来定义被编码和/或被传输的值。

作为示例,当处理通过如由ITU建议“ITU-R BS.2159-4”定义的扬声器设置所定义的5.1(或者5.0)产生的信号时,选择仅发送四个ICC是可行的。这四个ICC可以是在以下之间的一个:

-中央和右声道

-中央和左声道

-左与左环绕道

-右与右环绕道

通常,从ICC矩阵中选择的ICC的索引由ICC图描述。

通常,对于每个扬声器设置,可以选择对最佳质量进行平均的ICC的固定集,以被编码和/或被传输到解码器。ICC的数量以及哪些ICC要被传输可以取决于扬声器设置和/或可用的总位速率,并且在编码器和解码器上均可用,而无需在位流248中传输ICC图。换句话说,例如取决于扬声器设置和/或总位速率,ICC的固定集和/或对应的固定ICC图可以被使用。

此固定集可能不适用于特定材料,并且在某些情况下,使用ICC的固定集产生比所有材料的平均质量明显差的质量。为了在另一个示例中针对每个帧(或者时隙)克服这一点,可以基于某个ICC的重要性特征来估计ICC的最佳集和对应的ICC图。然后,将用于当前帧的ICC图与经量化的ICC一起在位流248中显式地编码和/或传输。

例如,类似于使用来自4.3.2的公式(4)和(6)的解码器,可以通过使用来自公式(1)的降混协方差Cx产生协方差的估计或者ICC矩阵的估计,来确定ICC的重要性特征。取决于所选择的特征,针对每个ICC或者在协方差矩阵中的对应项,针对每个频带,针对哪些参数将在当前帧中被发送并针对所有频带被组合,来计算所述特征。然后,经组合的特征矩阵被用于确定最重要的ICC,从而确定要被使用的ICC集和要被发送的ICC图。

例如,ICC的重要性特征是在所估计的协方差与实际的协方差Cy的项之间的绝对误差,而经组合的特征矩阵是在当前帧中要在所有频带上被传输的每个ICC的绝对误差的总和。从经组合的特征矩阵中,选择n个项,其中所述经求和的绝对误差是最高的,n是针对扬声器/位速率组合要被传输的ICC的数量,并从这些项构建ICC图。

此外,在如图6b所示的另一个示例中,为了避免ICC图在帧之间改变太多,可以针对前一个参数帧的所选的ICC图中的每个项来强调特征矩阵,例如,在协方差的绝对误差的情况,通过将系数>1(220k)应用于先前帧的ICC图的项。

此外,在另一示例中,在位流248的侧信息228中被传输的标志可以指示在当前帧中是否使用固定的ICC图或者最佳ICC图,并且如果标志指示固定的组,则不在位流248中传输ICC图。

最佳ICC图例如被编码和/或被发送作为位图(例如ICC图可以实施图6a的信息254’)。

用于传输ICC图的另一个示例是将索引传输到所有可能的ICC图的表中,其中索引本身是例如被附加地熵编码的。例如,所有可能的ICC图的表没有被存储在内存中,但是由索引指示的ICC图从索引被直接计算。

可以与ICC共同地(或者单独地)传输的第二参数是ICLD。“ICLD”代表声道间电平差,并且它描述在输入的多声道信号212的每个声道之间的能量关系。没有ICLD的唯一的定义;此值的重要方面是它描述在多声道流内的能量比。

作为示例,从Cy至ICLD的转换可以如下获得:

其中:

-χi用于声道i的ICLD。

-Pi当前声道i,的功率,可以从Cy的对角线:Pi=Cyi,i抽取。

-Pdmx,i取决于声道i,但将始终是在Cx中的值的线性组合,它还取决于原始扬声器设置。

在示例中,Pdmx,i并非对于每个声道都相同,而是取决于与降混矩阵(也是用于解码器的原型矩阵)相关的映射,这通常在公式(3)下的要点中的一个被提到。取决于是否仅将声道i降混到降混声道中的一个或者在它们中的多于一个。换句话说,在降混矩阵中存在非零元素的情况下,Pdmx,i可能是或者包括Cx的所有对角元素的总和,因此公式(3)可以重写为:

Pi=Cyi,i

其中,αi是与声道对于降混的预期能量贡献有关的加权因子,此加权因子对于特定的输入扬声器配置是固定的,并且在编码器和解码器处都是已知的。矩阵Q的概念将在下面被提供。在文件的最后部分还提供αi和矩阵Q的一些值。

在为每个输入声道i定义映射的实施的情况下,其中映射索引是降混的声道j,输入声道i仅被混到其中,或者如果映射索引大于降混声道的数量。因此,我们具有映射索引mICLD,i,其用于以如下方式确定Pdmx,i:

4.2.3参数量化

为了获得量化参数224,参数220的量化的示例可以例如由图2b和4的参数量化模块222进行。

一旦参数集220被计算出,意味着协方差矩阵{Cx,Cy}或者ICC和ICLD{ξ,χ},它们被量化。量化器的选择可以在质量与要被传输的数据量之间进行权衡,但涉及被使用的量化器是没有限制的。

作为示例,在使用ICC和ICLD的情况下;可以提供针对ICC的以间隔[-1,1]包括10个量化步长的非线性量化器,以及针对ICLD的以间隔[-30,30]包括20个量化步长的另一个非线性量化器。

同样,作为实现优化方案,选择对要被传输的参数进行下采样是可行的,意味着被量化参数224被一行中的两个或者更多个帧使用。

在一方面,通过位流中的参数帧索引用信号通知在当前帧中传输的参数的子集。

4.2.4瞬态处理,下采样参数

下文讨论的某些示例可以理解,如在图5中示出,其又可以是图1和2d的块214的示例。

在下采样的参数集的情况下(例如在图5中的块265处获得的),即,用于参数频带的子集的参数集220可以被用于一个以上的被处理的帧,出现在一个以上的子集中的瞬态就局部化和相干而言是无法被保留的。因此,在这样的帧中发送所有频带的参数可能是有利的。这种特殊类型的参数帧可以例如通过在位流中的标志用信号通知。

在一方面,在258处的瞬态检测被用于检测在信号212中的这样的瞬态。瞬态在当前帧中的位置也可以被检测。时间粒度可以有利地链接到所使用的滤波器组214的时间粒度,从而每个瞬态位置可以对应于滤波器组214的时隙或者一组时隙。然后,基于瞬态位置来选择用于计算协方差矩阵Cy和Cx的时隙,例如仅使用从包括瞬态的时隙到当前帧结束。

瞬态检测器(或者瞬态分析块258)可以是还被用于降混信号212的编码的瞬态检测器,例如,IVAS核心编码器的时域瞬态检测器。因此,图5的示例还可以在降混计算块244的上游被应用。

在一个示例中,使用一个位对瞬态的发生进行编码(诸如:“1”,意味着“在帧中存在瞬态”,以及“0”,意味着“在帧中没有瞬态”),如果检测到瞬态,则额外地瞬态的位置被编码和/或作为在位流248中的经编码的字段261(关于瞬态的信息)被发送,以允许在解码器300中进行类似的处理。

如果检测到瞬态并且进行所有频带的传输(例如用信号通知),则使用正常的分区分组发送参数220可能会导致传输参数220作为在位流248中的侧信息228所需的数据速率的尖峰。此外,时间分辨率比频率分辨率更重要。因此,在块265处,将用于这样的帧的分区分组改变为具有更少的频带以发送(例如从在所述信号版本264中的许多频带到在所述信号版本266中的较少频带)可能是有利的。一个示例采用这种不同的分区分组,例如通过将所有频带上的两个相邻频带组合为参数的正常的下采样因子为2。一般而言,瞬态的发生暗示协方差矩阵本身可以被预期为在瞬态之前和之后有极大的不同。为了避免在瞬态以前的时隙出现伪影,可以仅考虑瞬态时隙本身以及后续的所有时隙,直到帧结束为止。这也基于假设,即,信号事先足够稳定,并且有可能使用信息和混合规则,这些信息和混合规则是针对先前帧导出的,也适用于瞬态以前的时隙。

总而言的,编码器可以被配置为确定瞬态已经发生在帧的哪个时隙中,并且对与瞬态已经发生的时隙和/或在帧中的后续时隙相关联的原始信号(212,y)的声道电平和相关信息(220)进行编码,而无需对与瞬态以前的时隙相关联的原始信号(212,y)的声道电平和相关信息(220)进行编码。

类似地,当一个帧中的瞬态的存在和位置被用信号通知(261)时,解码器可以(例如在块380处):

将当前的声道电平和相关信息(220)与已经发生瞬态的时隙和/或在帧中的后续时隙相关联;和

将在已经发生瞬态的时隙先前的帧的时隙与先前时隙的声道电平和相关信息(220)相关联。

瞬态的另一个重要方面是,在确定当前帧中存在瞬态的情况下,不再对当前帧执行平滑操作。在瞬态的情况下,不对Cy和Cx进行平滑,但是来自当前帧的CyR和Cx被用于混合矩阵的计算。

4.2.5熵编码

熵编码模块(位流写入器)226可以是最后的编码器的模块;它的目的是将先前获得的量化值转换为二进制位流,其也将被称为“侧信息”。

用于对值进行编码的方法可以例如是霍夫曼编码[6]或者差量编码(delta coding)。编码方法不是至关重要的,将只会影响最终的位速率。一个人员应该取决于他想要达到的位速率来适配编码方法。

几种实现优化方案可以被执行以减小位流248的大小。作为示例,切换机制可以被实现,所述切换机制取决于从位流大小的观点来看哪个更有效以从一编码方案切换到另一编码方案。

例如,这些参数可以沿一个帧的频率轴被进行差量编码,并且由范围编码器对所得的增量索引熵的序列进行编码。

同样,在参数下采样的情况下,也作为示例,一种机制可以被实现,以每个帧仅发送参数频带的子集,以便连续发送数据。

这两个示例需要信号化位,以在编码器侧用信号通知解码器的特定处理方面。

4.2.6降混计算

处理的降混部分244可以是简单的,但是在某些示例中是至关重要的。在本发明中被使用的降混可以是被动降混,这意味着在处理期间它的计算方式保持相同,并且在给定时间与信号或者其特征无关。然而,已经理解的是,在244处的降混计算可以被扩展到主动降混计算(例如在[7]中所描述的)。

降混信号246可以在两个不同的位置被计算:

-第一次在编码器侧进行参数估计(请参阅4.2.2),因为它可能需要(在某些示例中)计算协方差矩阵Cx。

-第二次在编码器侧,在编码器200与解码器300之间(在时域中),降混信号246被编码和/或被传输到解码器300,并且被用于模块334处的合成的基础。

作为示例,对于5.1输入的立体声降混,降混信号可以如以下方式计算:

-降混的左声道是左声道、左环绕道和中央声道的总和。

降混的右声道是右声道、所环绕道和中央声道的总和。或者,在5.1输入为单音降混的情况下,降混信号被计算为多声道流中的每个声道的总和。

在示例中,降混信号246的每个声道可以被获得而作为原始信号212的声道的线性组合,例如具有常数参数,从而实现被动降混。

根据处理的需要,降混信号的计算可以被扩展并被适用于其他扬声器设置。

方面3:使用被动降混和低延迟滤波器组的低延迟处理

本发明可以通过使用被动降混例如先前针对5.1输入所描述的降混和低延迟滤波器组来提供低延迟处理。使用这两个元素,有可能在编码器200与解码器300之间实现低于5毫秒的延迟。

4.3解码器

解码器的目的是通过使用经编码的(例如被传输的)降混信号(246,324)和经编码的侧信息228,在给定的扬声器设置上合成音频输出信号(336,340,yR)。解码器300可以在如被用于输入(212,y)的扬声器设置的相同扬声器设置上或者在不同的扬声器设置上渲染被输出的音频信号(334,240,yR)。在不失一般性的前提下,将假设输入和输出扬声器设置是相同(但在示例中,它们可能不同)。在此部分中,将描述可以构成解码器300的不同模块。

图3a和3b描绘可能的解码器处理的详细概述。重要而要注意的是,取决于给定应用的需要和要求,在图3b中的模块中的至少一些(特别是具有虚线边框的模块,例如320,330,338)可以被丢弃。解码器300可以输入(例如接收)来自编码器200的两组数据:

-具有经编码的参数的侧信息228(如4.2.2中所述)

-降混信号(246,y)可以是在时域中(如4.2.6中所述)。

经编码的参数228可能需要首先被解码(例如通过输入单元312),例如以先前被使用的逆编码方法。一旦完成此步骤,就可以重构用于合成的相关参数,例如协方差矩阵。并列地,可以通过几个模块处理降混信号(246,x):首先可以使用分析滤波器组320(请参见4.2.1)以获得降混信号246的频域版本324。然后,可以计算原型信号328(请参见4.3.3),并且可以执行附加的去相关步骤(在330处)(请参见4.3.4)。合成的关键点是合成引擎334,其使用协方差矩阵(例如在块316处被重构)和原型信号(328或者332)作为输入,并且产生最终信号336作为输出(参见4.3.5)。最终,在合成滤波器组338处的最后步骤可以被完成(例如如果分析滤波器组320先前被使用),则在时域中产生输出信号340。

4.3.1熵解码(例如块312)

在块312(输入接口)处的所述熵解码可以允许获得先前在4中获得的量化参数314。位流248的解码可以被理解为一直截了当的操作;可以根据在4.2.5中使用的编码方法读取位流248,然后对它进行解码。

从实现方案的观点来看,位流248可以包括信令位,信令位不是数据,但信令位是指示在编码器侧的进行处理的某些特殊性。

例如,在编码器200具有在几种编码方法之间切换的可能性的情况下,所使用的两个第一位可以指示已经使用哪种编码方法。接下来的位也可以被用来描述当前正在传输哪些参数频带。

可以被编码在位流248的侧信息中的其他信息可以包括标志,所述标志指示瞬态和指示在帧的哪个时隙中已经发生瞬态的字段261。

4.3.2参数重构

参数重构可以例如由块316和/或混合规则计算器402进行。

此参数重构的目的是从降混信号246和/或从侧信息228(或者以它被量化参数314表示的版本)重构协方差矩阵Cx和Cy(或者更一般而言,与降混信号246相关联的协方差信息和原始信号的电平和相关信息)。这些协方差矩阵Cx和Cy对于合成可能是必需的,因为它们是有效描述多声道信号246的矩阵。

在模块316处的参数重构可以是两步骤过程:

首先,矩阵Cx(或者更一般而言,与降混信号246相关联的协方差信息)是从降混信号246被重新计算(在与降混信号246相关联的协方差信息实际被编码在位流248的侧信息228中的情况下,可以避免此步骤);和

然后,矩阵Cy(或者更一般而言,原始信号212的电平和相关信息)可以被恢复,例如至少部分地使用被传输的参数和Cx或者更一般而言与降混信号246相关联的协方差信息(在原始信号212的电平和相关信息实际被编码在位流248的侧信息228中的情况下,可以避免此步骤)。

注意的是,在某些示例中,对于每个帧,使用具有当前帧以前的被重构的协方差矩阵的线性组合是可行的,例如通过加法,平均等,以平滑当前帧的协方差矩阵Cx。例如,在第t帧,要被用于公式(4)的最终协方差可以考虑为先前帧重构的目标协方差,例如

Cx,t=Cx,t Cx,t-1.

然而,在确定当前帧中的瞬态存在的情况下,不再对当前帧执行平滑操作。在瞬态的情况下,不使用当前帧进行任何平滑Cx。

过程的概述可以在下面被找到。

注意:至于编码器,在此的处理可以针对每个频带在参数频带的基础上被独立完成,为了清楚起见,将仅针对一个特定频带描述处理,并对表示法进行相应适配。

方面4a:在协方差矩阵被传输的情况下重构参数

对于此方面,假设在侧信息228(与降混信号246相关联的协方差矩阵和原始信号212的声道电平和相关信息)中的被编码(例如被传输)的参数是协方差矩阵(或者它的子集),如在方面2a中所定义。然而,在某些示例中,与降混信号246相关联的协方差矩阵和/或原始信号212的声道电平和相关信息可以由其他信息来实施。

如果完整的协方差矩阵Cx和Cy被编码(例如被传输),则在块318处没有进一步的处理要做(因此在这样的示例中块318可以被避免)。如果仅那些矩阵中的至少一个矩阵的一子集被编码(例如被传输),则必须估计所述缺失值。如在所述合成引擎334中(或者更具体地在所述合成处理器404中)被使用的最终协方差矩阵将在所述解码器侧由经编码的(例如被传输的)值228和被估计的值组成。例如,如果仅矩阵Cy的一些元素被编码在位流248的侧信息228中,则Cy的剩余元素在此被估计。

对于降混信号246的协方差矩阵Cx,通过在解码器侧使用降混信号246以计算缺失值并应用公式(1)是可行的。

在一方面,其中瞬态的发生和位置被传输或者被编码,如同在编码器侧使用相同的时隙用于计算降混信号246的协方差矩阵Cx。

对于协方差矩阵Cy,可以按以下方式以第一估计计算缺失值:

其中:

-原始信号212的协方差矩阵的估计(这是原始声道电平和相关信息的估计版本的示例)

-Q所谓的原型矩阵(原型规则,估计规则),它描述在降混信号与原始信号之间的关系(请参见4.3.3)(这是原型规则的示例)

-Cx降混信号的协方差矩阵(这是降混信号212的协方差信息的示例)

-*标示共轭转置

一旦这些步骤被完成后,协方差矩阵将再次被获得,并可以被用于最终合成。

方面4b:在ICC和ICLD被传输的情况下重构参数

对于此方面,可以假设在侧信息228中的经编码的(例如被传输的)参数是在方面2b中被定义的ICC和ICLD(或者它们的一子集)。

在此情况下,可能首先需要重新计算协方差矩阵Cx。这可以使用在解码器侧的降混信号212并应用公式(1)来完成。

在一方面,其中瞬态的发生和位置被传输,如同编码器中使用相同时隙用于计算降混信号的协方差矩阵Cx。然后,协方差矩阵Cy可以从ICC和ICLD被重新计算;此操作可以被进行如下:

多声道输入的每个声道的能量(也被称为电平)可以被获得。使用传输的声道间电平差和以下公式得出这些能量

其中

Pi=Cyi,i

其中,涉及声道对降混的预期能量贡献的加权因子,此加权因子对于某些输入的扬声器配置是固定的,并且在编码器和解码器处均为已知。在一实现为对于每个输入的声道i定义一映射的情况下,其中映射索引是降混的声道j,仅将输入声道i混到其中,或者如果映射索引大于降混声道的数量。因此,我们具有映射索引mICLD,i其被用于利用以下方式确定Pdmx,i:

这些符号与4.2.3中的参数估计中被使用的符号相同。

这些能量可以被用来标准化被估计的Cy。在不是所有的ICC都从编码器侧被传输的情况下,可以针对未被传输的值计算Cy的估计。被估计的协方差矩阵可以使用公式(4)以原型矩阵Q和协方差矩阵Cx获得。

协方差矩阵的此估计导致ICC矩阵的估计,为此,索引(i,j)的项可以由下式给出:

因此,“重构”矩阵可以被定义如下:

其中:

-下标R指示重构矩阵(其是原始电平和相关信息的重构版本的示例)

-集合体(ensemble){transmitted indices}对应于在侧信息228中已被解码(例如从编码器被传输到解码器)的所有(i,j)对。

在示例中,由于不如经编码的值ξi,j准确的,因此ξi,j可能比更可取。

最后,由此被重构的ICC矩阵,被重构的协方差矩阵可以被推论此矩阵可以通过将公式(5)中获得的能量应用于被重构的ICC矩阵而被获得,因此针对指标(i,j):

在完整的ICC矩阵被传输的情况下,仅需要公式(5)和(8)。前面的段落描述一种重构缺失参数的方法,其他方法可以被使用,并且所提出的方法不是唯一的。

从使用5.1信号的方面1b的示例中,可以被注意的是,未被传输的值是在解码器侧需要被估计的值。

现在可以得到协方差矩阵Cx和重要的是要诠释重构矩阵可以是输入信号212的协方差矩阵Cy的估计。本发明的权衡可以是使在解码器侧的协方差矩阵的估计与原始的足够接近,但也要传输尽可能少的参数。这些矩阵对于4.3.5中描述的最终合成可能是必备的。

注意的是,在某些示例中,对于每个帧,可以使用与在当前帧以前的被重构的协方差矩阵的线性组合以平滑当前帧的被重构的协方差矩阵,例如通过加法,平均等。例如,在第t帧,要用于合成的最终协方差可以考虑为先前帧重构的目标协方差,例如

然而,在瞬态的情况下,没有平滑被完成,并且用于当前帧的CyR被用于混合矩阵的计算。

还应注意的是,在某些示例中,对于每个帧,降混声道Cx的未平滑的协方差矩阵用被于参数重构,而如第4.2.3节的平滑的协方差矩阵Cx,t被用于所述合成。

图8a在解码器300处恢复用于获得协方差矩阵Cx和的操作(例如在块386或者316…处执行的)。在图8a的块中,还在括号之间指示特定的块所采用的公式。可以看出,通过公式(1),协方差估计器384允许达成降混信号324(或者它的降频版本385)的协方差Cx。通过使用公式(4)和适当类型的规则Q,第一协方差估计器块384’允许达成协方差Cy的第一估计随后,通过应用公式(6),协方差对相干块390获得相干随后,ICC替换块392通过采用公式(7),在被估计的ICC和在位流348的侧信息228中用信号通知的ICC之间进行选择。然后将所选择的相干ξR输入到能量施加块394,能量施加块394根据ICLD(χi)施加能量。然后,目标协方差矩阵被提供给图3a的混合器规则计算器402或者协方差合成块388,或者图3c的混合器规则计算器或者图3b的合成引擎344。

4.3.3原型信号计算(块326)

原型信号模块326的目的是以能够被合成引擎334使用的方式成形降混信号212(或者它的频域版本324)(请参见4.3.5)。原型信号模块326可以进行降混信号的升混。原型信号模块326可以通过将降混信号212(或者324)乘以所谓的原型矩阵Q以完成原型信号328的计算:

Yp=XQ (9)

其中

-Q为原型矩阵(其是原型规则的示例)

-X为降混信号(212或者324)

-Yp为原型信号(328)。

建立原型矩阵的方式可能是与处理相依的,并且可以被定义为满足应用程序的要求。唯一的限制可能是原型信号328的声道数量必须与期望的输出声道数量相同;这直接限制原型矩阵的大小。例如,Q可以是矩阵,矩阵具有的行数是降混信号(212,324)的声道数量,以及列数是最终合成输出信号(332,340)的声道数量。

作为示例,在5.1或者5.0信号的情况下,原型矩阵可以被建立如下:

注意的是,原型矩阵可以是预定的并且是固定的。例如,对于所有帧,Q可以是相同的,但是对于不同的频带可以不同。此外,对于在降混信号的声道数量与合成信号的声道数量之间的不同关系,存在不同的Q。例如,在特定的降混声道的数量和特定的合成声道的数量的基础上,Q可以从多个预存储的的Q中被选择。

方面5:在输出扬声器设置与输入扬声器设置不同的情况下重个参数:

被提出的发明的一种应用是在扬声器设置上产生与原始信号212不同的输出信号336或者340(例如意味着具有更多或者更少数量的扬声器)。

为此,必须相应地修改原型矩阵。在这种情况下,通过公式(9)获得的原型信号将包括如同输出扬声器设置的多个声道。例如,如果我们有5个声道的信号作为输入(在信号212侧),并且想要获得7声道的信号作为输出(在信号336侧),则原型信号将已经包括7各声道。

这样一来,在公式(4)中的协方差矩阵的估计仍然成立,并且仍将被用于估计在输入信号212中不存在的声道的协方差参数。

在编码器与解码器之间的被传输的参数228仍然是相关的,并且公式(7)仍然可以被使用。更精确地,被编码(例如被传输)的参数必须被分配至在几何学上尽可能接近原始设置的声道对。基本上,需要进行适配操。

例如,如果在编码器侧估计在右侧的一个扬声器与左侧的一个扬声器之间的ICC值,则可以将此值分配至具有相同左与右位置的输出设置的声道对;在几何形状不同的情况下,此值可以被分配至位置与原始扬声器尽可能接近的扬声器对。

然后,一旦获得用于新输出设置的目标协方差矩阵Cy,其余的处理就保持不变。

因此,为了使目标协方差矩阵适应于所成声道数量,可行的是:

使用原型矩阵Q,其从降混声道的数量转换为合成声道的数量;这可以通过

适配公式(9),使原型信号具有合成声道的数量;

适配公式(4),从而以合成声道的数量估计

保持公式(5)至(8),其可以因此获得原始声道的数量;

但将原始声道组(例如原始声道对)分配到单个合成声道上(例如根据几何形状选择分配),反之亦然。

在图8b中提供一个示例,其是图8a的其中指示一些矩阵和向量的声道数量的版本。当在392处将ICC(从位流348的侧信息228获得)应用于ICC矩阵时,将原始声道组(例如数对原始声道)移到单个合成声道上(就几何形状来选择分配),反之亦然。

针对不同于输入声道数量的输出声道数量产生目标协方差矩阵的另一种可能性是,首先对于输入声道数量(例如输入信号212的原始声道的数量)产生目标协方差矩阵,然后使此第一目标协方差矩阵适应于合成声道的数量,获得与输出声道数量对应的第二目标协方差矩阵。这可以通过应用升混规则或者降混规则被完成,例如将包括用于对输出声道的某些输入(原始)声道的组合的因子的矩阵应用于第一目标协方差矩阵然后在第二步骤中将此矩阵应用于被传输的输入声道功率(ICLD)并取得用于输出(合成)声道数量的声道功率向量,并根据向量调整第一目标协方差矩阵,以获得具有所需合成声道的数量的第二目标协方差矩阵。被调整的第二目标协方差矩阵现在可以被使用在合成中。在图8c中提供其示例,图8c是图8a的其中块390至394操作进行重构目标协方差矩阵以具有原始信号212的原始声道的数量的版本。在那之后,在块395处,原型信号QN(以转换为合成声道的数量)和向量ICLD可以被施加。值得注意的是,图8c的块386与图8a的块386相同,除了以下事实:在图8c中,重构目标协方差的声道数量与输入信号212的原始声道的数量完全相同(且在图8a中,为了一般性,重构目标协方差具有合成声道的数量)。

4.3.4去相关

去相关模块330的目的是减少在原型信号的每个声道之间的相关性的数量。高度相关的扬声器信号可能会导致幻觉源(phantom sources),并降级输出多声道信号的质量和空间特性。此步骤是可选的,并且可以根据应用程序需求而被执行或者不执行。在本发明中,去相关在合成引擎之前被使用。作为示例,全通频率去相关器可以被使用。

关于MPEG环绕的注意事项:

在根据现有技术的MPEG环绕中,使用所谓的“混合矩阵”(在标准中被标示M1和M2)。矩阵M1控制如何将可用的降混信号输入到去相关器。M2矩阵描述直接的信号和去相关的信号应如何被组合以产生输出信号。

尽管可能与在4.3.3中被定义的原型矩阵以及在本节中被描述的去相关器的用法相似,但重要的是要注意:

-原型矩阵Q的功能与在MPEG环绕中被使用的矩阵完全不同,此矩阵的要点是产生原型信号。原型信号的目的是要被输入到合成引擎中。

-原型矩阵无意为去相关器准备降混信号,并且可以取决于需求和目的应用进行适配。例如原型矩阵可以对于输出扬声器设置大于输入扬声器设置产生原型信号。

-在所提出的发明中,去相关器的使用不是强制性的;处理过程依赖在合成引擎内的协方差矩阵的使用(请参见5.1)。

-所提出的发明没有通过组合直接信号和去相关信号来产生输出信号。

-M1和M2的计算高度取决于树结构,从结构的观点来看,这些矩阵的不同系数视情况而定。在所提出的发明中不是这种情况,处理与降混计算无关(请参见5.2),并且在概念上,所提出的处理旨在考虑在每个声道之间的关系,而不是仅考虑声道对,因为可以使用树结构被完成。

因此,本发明不同于根据现有技术的MPEG环绕。

4.3.5合成引擎,矩阵计算

解码器的最后步骤包括合成引擎334或者合成处理器402(如果需要,还包括合成滤波器组338)。合成引擎334的目的是相对于某些约束产生最终的输出信号336。合成引擎334可以计算输出信号336,输出信号336的特性受到输入参数的约束。在本发明中,除了原型信号328(或者332)之外,合成引擎338的输入参数318是协方差矩阵Cx和Cy。由于输出信号的特性应尽可能接近于由Cy定义的目标协方差矩阵,因此尤其被称为目标协方差矩阵(将示出的是,讨论目标协方差矩阵的估计版本和预建版本)。

可以使用的合成引擎334不是唯一的,作为示例,现有技术的协方差合成可以被使用[8],其通过引用并入本文。可以被使用的另一种合成引擎333将是在[2]的DirAC处理中被描述的合成引擎。

合成引擎334的输出信号可能需要通过合成滤波器组338进行其他处理。

作为最终结果,输出多声道信号340在时域中被获得。

方面6:使用“协方差合成”的高质量输出信号

如上所述,所使用的合成引擎334不是唯一的,并且使用被传输的参数或者它的子集的任何引擎可以被使用。然而,本发明的一方面可以提供高质量的输出信号336,例如通过使用协方差合成[8]。

此合成方法旨在计算输出信号336,输出信号336的特性由协方差矩阵定义。为此,计算所谓的最佳混合矩阵,这些矩阵会将原型信号328混合到最终输出信号336中,从数学观点来看,在给定目标协方差矩阵的情况下提供最佳结果。

混合矩阵M是将经由关系yR=MxP将原型信号xP变换为输出信号yR(336)的矩阵。

混合矩阵也可以是将经由关系yR=Mx将降混信号x变换为输出信号的矩阵。从此关系,我们还可以推论

在被呈现的处理和Cx中,并且在某些示例中可能是已知的(因为它们分别是降混信号246的目标协方差矩阵和协方差矩阵Cx)。

从数学观点来看,一种解决方案是通过给定的,其中Ky和是通过对Cx和进行奇异值分解所获得的所有矩阵。对于P而言,它在这是开放参数,但是相对于由原型矩阵Q所支配的约束,可以找到最佳解决方案(从倾听者的感知角度来看)。在此说明的数学证明可以在[8]中被找到。

合成引擎334提供高质量的输出336,因为所述方法被设计为提供对输出信号问题的重构的最佳数学解决方案。

用较少的数学术语,对了解协方差矩阵表示在多声道音频信号的不同声道之间的能量关系非常重要。用于原始多声道信号212的矩阵Cy和用于降混多声道信号246的矩阵Cx。这些矩阵的每个值都反映多声道流的两个声道之间的能量关系。

因此,协方差合成背后的哲理是产生信号,信号的特性由目标协方差矩阵驱动。此矩阵被计算的方式是描述原始输入信号212(或者在不同于输入信号的情况下,我们想要获得输出信号)。然后,具有这些元素,协方差合成将最佳地混合原型信号,以产生最终的输出信号。

在另一方面,用于时隙的合成的混合矩阵是当前帧的混合矩阵M与先前帧的混合矩阵Mp的组合,以确保平滑的合成,例如基于当前帧内的时隙索引的线性内插。

在另一方面,其中瞬态的发生和位置被传输,在瞬态位置之前,将先前的混合矩阵Mp用于所有时隙,并且将混合矩阵M用于包括瞬态位置的时隙和在当前帧中的所有后续时隙。注意的是,在某些示例中,对于每个帧或者时隙,可以使用具有用于先前帧或者时隙的混合矩阵的线性组合以平滑当前帧或者时隙的混合矩阵,例如通过加法,平均等。让我们假设,对于当前帧t,输出信号的时隙s频带i通过Ys,i=Ms,iXs,i获得,其中Ms,i是用于先前帧的混合矩阵Mt-1,i的组合,并且Mt,i是针对当前帧计算的混合矩阵,例如在它们之间的线性插值:

其中,ns是在帧中的时隙数(例如16),并且t-1和t指示先前帧和当前帧。更通常地,通过沿着当前帧t的后续时隙以增加系数来缩放如针对当前帧所计算的混合矩阵Mt,i,且通过沿着当前帧t的后续时隙加上以减少系数缩放后的混合矩阵Mt-1,i可以获得与每个时隙相关的混合矩阵Ms,i。所述系数可以是线性的。

可以提供的是,在瞬态(例如在信息261中用信号通知)的情况下当前混合矩阵和过去混合矩阵不被组合,而是先前的直到包括瞬态的时隙以及当前的用于包括所述瞬态的时隙和所有后续的时隙,直到所述帧结束为止。

其中s是时隙索引,i是频带索引,t和t-1指示当前帧和先前帧,并且sy是包括瞬态的时隙。

与现有技术文件[8]的差异

同样重要的是要注意,所提出的发明超出在[8]中提出的方法的范围。显著的差异尤其是:

-目标协方差矩阵是在所提出的处理的编码器侧被计算。

-目标协方差矩阵也可用不同的方式被计算(在所提出的发明中,协方差矩阵不是扩散直接的部分的和)。

-处理不是针对每个频带单独进行,而是针对参数频带进行分组(如在0中所述)。

-从更全局的看法:协方差合成在此只是整个过程的一个块,并且必须与在解码器侧的所有其他元件一起使用。

4.3作为列表的优选方面

以下方面中的至少一个可以表征本发明:

1.在编码器侧

a.输入多声道音频信号246。

b.使用滤波器组214将信号212从时域转换到频域(216)

c.在块244处计算降混信号246

d.从原始信号212和/或降混信号246,估计第一参数集以描述多声道流(信号)

246:协方差矩阵Cx和/或Cy

e.传输和/或编码协方差矩阵Cx和/或Cy直接或者计算所述ICC和/或ICLD并传输它们

f.使用适当的编码方案在位流248中编码被传输的参数228

g.在时域中计算降混信号246

h.在时域中传输侧信息(即参数)和降混信号246

2.在解码器侧

a.对包括侧信息228和降混信号246的位流248进行解码

b.(可选的)将滤波器组320应用于降混信号246,以获得在频域中的降混信号246的版本324

c.从先前被解码的参数228和降混信号246重构协方差矩阵Cx和

d.从降混信号246计算原型信号328(324)

e.(可选的)将原型信号进行去相关(在块330处)

f.使用作为被重构的Cx和将合成引擎334应用于原型信号

g.(可选的)将合成滤波器组338应用于协方差合成334的输出336

h.获得输出多声道信号340

4.5协方差合成

在本节中,讨论可以在图1至3d的系统中被实现的一些技术。然而,这些技术也可以被独立实现:例如,在某些示例中,不需要如针对图8a至8c和公式(1)至(8)中所实行的协方差计算。因此,在某些示例中,当提及(重构目标协方差)时,也可以由Cy替代(其也可以被直接提供,而无需重构)。尽管如此,此节的技术可以有利地与上述技术一起使用。

现在参考图4a至4d。在此,讨论协方差合成块388a至388d的示例。块388至388d可以实施为例如图3c的块388,以进行协方差合成。块388a至388d可以例如是图3a的合成引擎334的合成处理器404和混合规则计算器402和/或参数重构块316的合成处理器404和混合规则计算器402中的一部分。在图4a至4d中,降混信号324在频域FD中(即,在滤波器组320的下游),并且用X指示,而合成信号336也在FD中,并且用Y指示,然而,在时域中概括这些结果是可行的。注意的是,图4a至4d的协方差合成块388a至388d中的每一个可以被称为一个单一频带(例如在380中被分解一次),并且协方差矩阵Cx和(或者其他被重构的信息)因此可以与一个特定的频带相关联。例如,协方差合成可以以逐帧的方式被进行,并且在那种情况下,协方差矩阵Cx和(或者其他被重构的信息)是与一个单一帧(或者与多个连续帧)相关联:因此,协方差合成可以以逐个帧的方式或者以逐个多帧(multiple-frame-by-multiple-frame)的方式进行。

在图4a中,协方差合成块388a可以由一个能量补偿的最佳混合块600a和缺少相关器块构成。基本上,一个单一混合矩阵M被找到,并且被附加执行的唯一重要操作是能量补偿混合矩阵M’的计算。

图4b示出受[8]启发的协方差合成块388b。协方差合成块388b可以允许获得合成信号336作为具有第一主分量336M和第二残余分量336R的合成信号。尽管主分量336M可以在最佳的主分量混合矩阵600b处被获得,例如通过从协方差矩阵Cx和中找出混合矩阵MM,并且不使用去相关器,但是残余分量336R可用另一种方式获得。MR原理上应满足关系通常,所获得的混合矩阵不能完全满足所述要求,并且可用找到残余目标协方差。可以看出,降混信号324可以被导出到路径610b上(路径610b可以被称为第二路径,第二路径与第一路径610b’平行,第一路径610b’包括块600b)。降混信号324的原型版本613b(用YpR表示)可以在原型信号块(升混块)612b处被获得。例如,可以使用诸如公式(9)的公式,即

YpR=XQ

在本文档中提供Q(原型矩阵或者升混矩阵)的示例。在块612b的下游,提供去相关器614b,以使得对原型信号613b进行去相关,以获得去相关信号615b(也用指示)。在块616b处,从去相关信号615b,估计去相关信号(615b)的协方差矩阵通过使用作为主分量混合的Cx的等效值是去相关信号的协方差矩阵以及作为另一个最佳混合块中的目标协方差的Cr,可以在最佳残余分量混合矩阵块618b处获得合成信号336的残余分量336R。最佳残余分量混合矩阵块618b可用这样的方式被实现:产生混合矩阵MR,以混合去相关信号615b,并获得合成信号336的残余分量336R(针对特定频带)。在加法器块620b处,残余分量336R被加到主分量336M上(因此路径610b和610b’在加法器块620b处被联结在一起)。

图4c示出替代图4b的协方差合成388b的协方差合成388c的示例。协方差合成块388c允许获得合成信号336作为具有第一主分量336M’和第二残余分量336R’的一信号Y。尽管主分量336M’可以在最佳主分量混合矩阵600c处被获得,例如通过从协方差矩阵Cx和(或者Cy其他信息220)中找出混合矩阵MM,并且不使用相关器,但是可用另一种方式得到残余分量336R’。降混信号324可以被导出到路径610c上(路径610c可以被称为第二路径,第二路径与第一路径610c’平行,第一路径610c’包括块600c)。通过应用原型矩阵Q(例如以声道数量即合成声道的数量将降混信号234升混到降混信号234的版本613c上的矩阵),降混信号324的原型版本613c可以在降混块(升混块)612c处被获得。例如,可以使用诸如公式(9)的公式。本文档提供Q的示例。在块612c的下游,可以提供去相关器614c。在某些示例中,第一路径没有去相关器,而第二路径具有去相关器。

去相关器614c可以提供去相关信号615c(也用指示)。然而,与在图4b的协方差合成块388b中被使用的技术相反,在图4c的协方差合成块388c中,不从去相关信号615c估计去相关信号615c的协方差矩阵相反,去相关信号615c的协方差矩阵是从以下位置所获得的(在块616c处):

降混信号324的协方差矩阵Cx(例如如在图3c的块384处和/或使用公式(1)被估计的);和

原型矩阵Q。

通过使用从降混信号324的协方差矩阵Cx估计出的协方差矩阵作为主分量混合矩阵的Cx和Cr作为目标协方差矩阵的等效物,在最佳残余分量混合矩阵块618c处获得合成信号336的残余分量336R’。最佳残余分量混合矩阵块618c可用产生残余分量混合矩阵MR的方式被实现,以通过根据残余分量混合矩阵MR混合去相关信号615c以获得残余分量336R’。在加法器块620c处,残余分量336R’被加到主分量336M’,以获得合成信号336(路径610c和610c’因此在加法器块620c处被联接在一起)。

在某些示例中,残余分量336R或者336R’不总是或者不需被计算(并且路径610b或者610c不总是被使用)。在某些示例中,虽然对于某些频带执行协方差合成而不计算残余信号336R或者336R’,但是对于相同帧的其他频带,还考虑残余信号336R或者336R’以处理协方差合成。图4d示出协方差合成块388d的示例,其可以是协方差合成块388b或者388c的特定情况:在此,频带选择器630可以选择或者取消选择(以开关631表示的方式)残余信号336R或者336R’的计算。例如,路径610b或者610c可以由选择器630针对某些频带选择性地启用,而对于其他频带停用。特别地,路径610b或者610c可以针对超过预定阈值(例如固定阈值)的频带而被停用,预定阈值(例如最大值)可以是区分人耳对相位不敏感的频带(频率高于阈值的频带)和人耳对相位敏感的频带(频率低于阈值的频带),因此不会为频率低于阈值的频带计算残余分量336R或者336R’,并针对频率高于阈值的频带计算残余分量336R或者336R’。

图4d的示例还可以通过用图4a的块600a替换块600b或者600c,并且用图4b的协方差合成块388b或者图4c的协方差合成块388c替换块610b或者610c来获得。

在此提供关于如何在块338,402(或者404),600a,600b,600c等处获得混合规则(矩阵)的一些指示。如上所述,有许多获得混合矩阵的方法,但是这里将更详细地讨论其中一些。

特别地,首先,参考图4b的协方差合成块388b。在最佳主分量混合矩阵块600c处,例如,可以从以下公式获得合成信号336的主分量336M的混合矩阵M:

原始信号212的协方差矩阵Cy(Cy可以使用上面讨论的公式(6)至(8)中的至少一些被估计,例如参见图8;它可以是所谓的“目标版本”形式例如根据公式(8)估计的值);和

降混信号246,324的协方差矩阵Cx(Cy可以使用例如使用公式(1)被估计)。

例如,如[8]所提议的,根据以下的因式分解,它被承认以分解协方差矩阵Cx和Cy,它们是厄米特矩阵和正半定矩阵:

Kx和Ky可以例如通过从Cx和Cy应用两次奇异值分解(SVD)而获得。例如:

Cx的SVD可以提供奇异向量(例如左奇异向量)的矩阵UCx;和

奇异值的对角矩阵SCx;

因此,Kx可以通过将UCx乘以对角矩阵而获得,对角矩阵在它的项中具有SCx的对应的项中的值的平方根。

此外,关于Cy的SVD可以提供:

奇异向量(例如右奇异向量)的矩阵VCy;和

奇异值的对角矩阵SCy

因此,Ky可以通过将UCy乘以对角矩阵被获得,对角矩阵在它的项中具有SCy的对应的项中的值的平方根。

然后,获得主分量混合矩阵M_M是可行的,当将其应用于降混信号324时,将允许获得合成信号336的主分量336M。主分量混合矩阵MM可以被获得如下:

如果Kx是不可逆矩阵,则可用已知技术获得经正则化的逆矩阵,并被替代而不是

参数P通常是开放的(free),但是它可以被优化。为了得出P,可以将SVD应用于:

Cx(降混信号324的协方差矩阵);和

(原型信号613b的协方差矩阵)。

一旦执行SVD,就有可能获得P,如

P=VΛU*

Λ是矩阵,其具有的行数与合成声道的数量相同,而列数与降混声道的数量相同。Λ是在它的第一正方形块中的标识,并在其余的项中以零完成。现在说明V和U如何从Cx和获得。V和U是从SVD获得的奇异向量的矩阵:

S是通常通过SVD获得的奇异值的对角矩阵。是对角矩阵,其将原型信号(615b)的每声道能量标准化到合成信号y的能量上。为了获得首先需要计算即原型信号的协方差矩阵(614b)。然后,为了从得出将的对角线值标准化到Cy的对应的对角的值上,从而提供一个示例是的对角项被计算为其中cyii是Cy的对角项的值,且是的对角项的值。

一旦获得残余分量的协方差矩阵Cr可以从

一旦获得Cr,就有可能获得用于混合去相关信号615b以获得残余信号336R的混合矩阵,其中在相同最佳混合Cr具有与主最佳混合的相同的作用的情况,去相关原型的协方差的作用为输入信号协方差Cx具有主最佳混合。

然而,已被理解的是,与图4b的技术相比,图4c的技术具有一些优点。在某些示例中,图4c的技术与图4c的技术相同,至少用于计算主矩阵并用于产生合成信号的主分量。相反,图4c的技术与图4b的技术的区别在于残余混合矩阵的计算,并且更一般而言,用于产生合成信号的残余分量。现在参考图11结合图4c用于计算残余混合矩阵。在图4c的示例中,在频域中的去相关器614c被使用,其确保原型信号613c的去相关,但是保留原型信号613b本身的能量。

此外,在图4c的示例中,我们可以假设(至少通过近似)去相关信号615c的去相关声道是互不同调的,因此去相关信号的所述协方差矩阵的所有非对角元素都是零。通过这两个假设,我们可以简单通过在Cx上应用Q以估计去相关原型的协方差,而仅采用协方差的主对角线(即原型信号的能量)。从去相关信号615b着手,图4c的技术要比图4b的示例进行估计的效率更高,其中我们需要进行与已经对Cx进行的相同的频带/时隙聚合。因此,在图4c的示例中,我们可以简单地应用已经聚合的Cx的矩阵乘法。因此,对于相同的聚合频带组的所有频带计算相同的混合矩阵。

因此,可以在710处使用以下估计去相关信号的协方差711

Pdecorr=diag(QCxQ*)

作为具有所有非对角元素被设置为零的矩阵的主对角线,其被用于作为输入信号协方差在示例中Cx被平滑以用于执行合成信号的主分量336M’的合成,所述技术可以被使用根据Cx被用于计算Pdecorr为非平滑的Cx。

现在,原型矩阵QR应该被使用。然而,已被注意到的是,对于残余信号,QR是单位矩阵(identity matrix)。获知(对角矩阵)和QR(恒等矩阵)的属性可以进一步简化混合矩阵的计算(至少可以省略一个SVD),请参见以下技术和Matlab列表。

首先,类似于图4b的示例,输入信号212的残余目标协方差矩阵Cr(厄米特,正半定的)可以被分解为可以通过SVD(702)获得矩阵Kr:SVD 702用于C_r产生:

奇异向量(例如左奇异向量)的矩阵UCr;

奇异值的对角矩阵SCr;

因此Kr通过在对角矩阵中将UCr乘以对角矩阵被获得(在706中),所述对角矩阵在它的项中具有在SCr的对应的元中的值的平方根(后者已在704处被获得)。

在此点上,从理论上讲,这次可以将另一个SVD应用于去相关原型的协方差

然而,在此示例中(图4c),为了减少计算量,已选择不同的路径。从Pdecorr=diag(QCxQ*)估计的是对角矩阵,因此不需要SVD(对角矩阵的SVD给出奇异值作为对角元素的排序向量,而左与右奇异向量仅指示排序的索引)。通过计算(在712处)在的对角线的项处的每个值的平方根,获得对角矩阵对角矩阵是使得具有优点是为了获得不需要SVD。从去相关信号的对角协方差,计算去相关信号615c的估计协方差矩阵但是由于原型矩阵是Qr(即同构型矩阵),因此可以直接使用以将)公式化为其中是Cr的对角项的值,以及是的对角项的值。是对角矩阵(在722处获得),其将去相关信号(615b)的每声道能量标准化到合成信号y的期望能量上。

此时,有可能(在734处)将乘以)(也称为乘法734的结果735)。然后(736),将Kr乘以得到K′y(即)。从K′y,可以执行SVD(738),以获得左奇异向量矩阵U和右奇异向量矩阵V。通过将V和U*相乘(740),获得矩阵P(P=VUH)。最后(742),可以通过应用以下获得残余信号的混合矩阵MR:

其中(在745处获得)可以替代为则化逆。MR因此可以在块618c处使用以进行残余混合。

这里提供用于执行如上所述的协方差合成的Matlab代码。注意的是,代码中的星号(*)表示乘法,而顶点(‘)表示厄米特矩阵。

%计算残余混合矩阵

function[M]=

ComputeMixingMatrixResidual(C_hat_y,Cr,reg_sx,reg_ghat)

EPS_=single(1e-15);%Epsilon以避免零除

num_outputs=size(Cr,1);

%Cy的分解

[U_Cr,S_Cr]=svd(Cr);

Kr=U_Cr*sqrt(S_Cr);

%对角矩阵的奇异值分解是排序的对角元素,

%我们可以跳过排序,直接从Cx获得Kx

K_hat_y=sqrt(diag(C_haty));

limit=max(K_hat_y)*reg_sx EPS_;

S_hat_y_reg_diag=max(K_hat_y,limit);

%公式化经正则化的Kx

K_hat_y_reg_inverse=1./S_hat_y_reg_diag;

%公式化标准化矩阵G_hat

%Q is the identity matrix in case of the residual/diffuse part so

%Q*Cx*Q'=Cx

Cy_hat_diag=diag(C_hat_y);

limit=max(Cy_hat_diag)*reg_ghat EPS_;

Cy_hat_diag=max(Cy_hat_diag,limit);

G_hat=sqrt(diag(Cr)./Cy_hat_diag);

%公式化最佳P

%公式化M

在此提供关于图4b和4c的协方差合成的讨论。在某些示例中,对于每个频带可以考虑两种合成方式,对于某些频带通常使用高于人耳对相位不敏感的一特定频率的频带包括来自图4b的剩余路径的完全合成,以达到将能量补偿应用在声道中的所需能量。

因此,同样在图4b的示例中,对于低于某个(固定的,解码器已知的)频带边界(阈值)的频带,可以执行根据图4b的完全合成(例如在图4d的情况下)。在图4b的示例中,去相关信号615b的协方差是从去相关信号615b本身导出的。相反,在图4c的示例中,在频域中的去相关器614c被使用,其确保原型信号613c的去相关,但是保留原型信号613b本身的能量。

进一步的考虑:

·在图4b和4c两者的示例中:在第一路径(610b’,610c’)处,通过依赖原始信号212的协方差Cy和降混信号324的协方差Cx以产生混合矩阵MM(在块600b,600c处);

·在图4b和4c两者的示例中:在第二路径(610b,610c)处,有去相关器(614b,614c),并且产生混合矩阵MR(在块618b,618c处),这应当考虑去相关信号(616b,616c)的协方差但是

o在图4b的示例中,使用去相关信号(616b,616c)作为直观地计算去相关信号(616b,616c)的协方差并且在原始声道y的能量中被加权。

o在图4c的示例中,通过从矩阵Cx估计并以直观的方式反算去相关信号(616b,616c)的协方差,并且在原始声道y的能量中被加权。

注意的是,协方差矩阵可以是上面讨论的重构目标矩阵(例如从写在位流248的侧信息228中的声道电平和相关信息220所获得),并且因此可以被认为与原始信号212的协方差相关联。无论如何,因为它将被用于合成信号336,所以协方差矩阵也可以被认为是与合成信号相关联的协方差。同样应用于残余协方差矩阵Cr,其也可以被理解为与合成信号相关联的残余协方差矩阵(Cr),而主协方差矩阵也可以被理解为与合成信号相关联的主协方差矩阵。

5.优点

5.1减少对去相关的使用和合成引擎的优化使用

给定所提出的技术,以及被用于处理的参数以及这些参数与合成引擎334组合的方式,说明对音频信号的强烈去相关的需求(例如在它的版本328中)被降低,甚至在缺乏去相关模块330的情况下,如果未被去除,也可以减小经去相关的影响(例如空间特性的伪影或者劣化或者信号质量的劣化)。

更精确地,如前所述,所述处理的去相关部分330是可选的。实际上,合成引擎334通过使用目标协方差矩阵Cy(或者它的子集)以对信号328进行去相关,并确保构成输出信号336的声道在它们之间被适当地去相关。Cy在协方差矩阵中的值表示我们的多声道音频信号的不同声道之间的能量关系,这就是为什么它用作合成的目标的原因。

此外,与合成引擎334组合的被编码(例如被传输的)参数228(例如在它们的版本314或者318中)可以确保高质量输出336,其给定的事实为合成引擎334使用目标协方差矩阵Cy,以使得重现输出多声道信号336,输出多声道信号336的空间特性和声音质量与输入信号212尽可能接近。

5.2降混不可知处理

给定所提出的技术,以及原型信号328被计算的方式和它们如何与合成引擎334一起使用,在此说明的是,所提出的解码器与在编码器处被计算的降混信号212的方式无关。

这意味着,所提出的发明在解码器300处可以独立于在编码器处计算降混信号246的方式被执行,并且信号336(或者340)的输出质量不依赖于一特定的降混方法。

5.3参数的可缩放性

给定所提出的技术,以及参数(28,314,318)被计算的方式和它们与所述合成引擎334一起使用的方式,以及它们在解码器侧被估计的方式,这说明的是被用于描述所述多声道音频信号的参数在数量和用途上都是可缩放的。

通常,仅在编码器侧被估计的参数的子集(例如Cy和/或Cx的子集,例如其元素)被编码(例如被传输):这允许减少由所述处理所使用的位速率。因此,给定未被传输的参数在解码器侧被重构的事实,被编码(例如被传输)的参数(例如Cy和/或Cx的元素)的数量可以是可缩放的。这给出机会就输出质量和位速率以缩放整个处理过程,被传输的参数越多,输出质量越好,反之亦然。

而且,那些参数(例如Cy和/或Cx或者其元素)在目的上是可缩放的,这意味着它们可以由用户输入而被控制,以修改输出多声道信号的特性。此外,可以针对每个频带计算那些参数,并且因此允许可缩放的频率分辨率。

例如可以决定要以输出信号(336,340)取消一个扬声器,因此可以直接在解码器侧操纵参数,以实现这样的变换。

5.4输出设置的灵活性

给定所提出的技术,以及所使用的合成引擎334和参数(例如Cy和/或Cx或者其元素)的灵活性,在此说明的是,所提出的发明允许涉及输出设置的广泛的渲染可能性。

更准确地说,输出设置不必与输入设置相同。操纵被馈入合成引擎的经重构的目标协方差矩阵是可行的,以在扬声器设置上产生输出信号340,扬声器设置大于或者小于或者仅具有几何形状不同于原始的扬声器设置。这是可能的,因为要被传输的参数以及所提出的系统与降混信号无关(请参见5.2)。

由于这些原因,从输出扬声器设置的观点解释所提出的发明是灵活的。

5.原型矩阵的某些示例

在此,下面的表已经针对5.1,但是LFE被排除在外,此后我们也将LFE包括在处理中(只有用于关系LFE/C的一个ICC和用于LFE的ICLD仅在最低参数频带中被发送并且对于在解码器侧处的合成中所有其他频带分别设定为1和0)。声道命名和顺序遵循ISO/IEC23091-3“信息技术–编码独立代码点–第3部分:音频”中的CICP,Q始终被用于作为在解码器中的原型矩阵和在编码器中的降混矩阵。5.1(CICP6)。αi要被用于计算ICLD。

αi=[0.4444 0.4444 0.2 0.2 0.4444 0.4444]

7.1(CICP12)

αi=[0.2857 0.2857 0.5714 0.5714 0.2857 0.2857 0.2857 0.2857]

5.1 4(CICP16)

αi=[0.1818 0.1818 0.3636 0.3636 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818]

7.1 4(CICP19)

αi=[0.1538 0.1538 0.3077 0.3077 0.1538 0.1538 0.1538 0.1538 0.1538 0.1538 0.1538

6.方法

尽管以上技术主被讨论为构件或者功能装置,但是本发明也可以被实现为方法。以上讨论的块和元件也可以被理解为方法的步骤和/或阶段。

例如,提供一种用于从降混信号产生合成信号的解码方法,所述合成信号具有多个合成声道,所述方法包括:

接收降混信号(246,x),所述降混信号(246,x)具有多个降混声道,和侧信息(228),所述侧信息(228)包括:

原始信号(212,y)的声道电平和相关信息(220),所述原始信号(212,y)具有多个原始声道;

使用所述原始信号(212,y)的所述声道电平和相关信息(220)以及与所述信号(246,x)相关联的协方差信息(Cx)来产生所述合成信号。

所述解码方法可以包括以下步骤中的至少一个:

从所述降混信号(246,x)计算原型信号,所述原型信号具有所述合成声道的数量;

使用所述原始信号的所述声道电平和相关信息(212,y)以及与所述降混信号(246,x)相关联的协方差信息来计算混合规则;和

使用所述原型信号和所述混合规则来产生所述合成信号。

还提供一种解码方法,用于从具有多个降混声道的降混信号(324,x)产生合成信号(336),所述降混信号(336)具有多个合成声道,所述降混信号(324,x)为具有多个原始声道的原始信号(212)的降混版本,所述方法包括以下阶段:

第一阶段(610c’),包括:

根据从以下计算出的第一混合矩阵(MM)合成所述合成信号的第一分量(336M’):

与所述合成信号相关联的协方差矩阵(例如所述原始信号的所述协方差的所述重构目标版本);和

与所述降混信号(324)相关联的协方差矩阵(Cx)。

第二阶段(610c),用于合成所述合成信号的第二分量(336R’),其中所述第二分量(336R’)是残余分量,所述第二阶段(610c)包括:

原型信号步骤(612c),将所述降混信号(324)从所述降混声道的数量升混到所述合成声道的数量;

去相关器步骤(614c),对所述经升混的原型信号(613c)进行去相关;

第二混合矩阵步骤(618c),根据来自所述降混信号(324)的所述去相关版本(615c)的第二混合矩阵(MR)合成所述合成信号的所述第二分量(336R’),所述第二混合矩阵(MR)是残余混合矩阵,

其中,所述方法从以下计算所述第二混合矩阵(MR):

由所述第一混合矩阵步骤(600c)提供的所述残余协方差矩阵(Cr);和

从与所述降混信号(324)相关联的所述协方差矩阵(Cx)获得的所述被去相关的原型信号的所述协方差矩阵的估计,

其中所述方法还包括加法器步骤(620c),将所述合成信号的所述第一分量(336M’)

与所述合成信号的所述第二分量(336R’)相加,从而获得所述合成信号(336)。

此外,提供一种编码方法,用于从原始信号(212,y)产生降混信号(246,x),所述原始信号(212,y)具有多个原始声道,所述降混信号(246,x)具有多个降混声道,所述方法包括:

估计(218)所述原始信号(212,y)的声道电平和相关信息(220),

将所述降混信号(246,x)编码(226)成位流(248),使得所述降混信号(246,x)在所述位流(248)中被编码,以使得具有侧信息(228),所述侧信息(228)包括所述原始信号(12,y)的声道电平和相关信息(220)。

这些方法可以在以上讨论的任何编码器和解码器中被实现。

7.存储单元

此外,本发明可以在存储指令的非暂时性存储单元中被实现,所述指令在由处理器执行时致使处理器执行如上所述的方法。

此外,本发明可以在存储指令的一非暂时性存储单元中被实现,所述指令在由所述处理器执行时致使所述处理器控制所述编码器或者所述解码器的所述功能中的至少一个。

所述存储单元可以例如是编码器200或者解码器300的一部分。

8.其他方面

尽管一些方面已经在装置的上下文中被描述,但是明显的是,这些方面也代表所述对应方法的描述,其中块或者装置对应于方法步骤或者方法步骤的特征。类似地,在方法步骤的上下文中被描述的方面也表示对应装置的相应块或者项目或者特征的描述。方法步骤中的一些或者全部可以由(或者使用)硬件装置像是例如微处理器,可以编程计算机或者电子电路执行。在一些方面,这样的一种装置可以执行一些最重要的方法步骤中的一个或者多个。

取决于某些实现需求,本发明的方面可用硬件或者软件来实施。所述实现可以使用数字存储介质被进行,例如软性磁盘,DVD,CD,ROM,PROM,EPROM,EEPROM或者FLASH内存,其上存储电子可读控制信号,这些信号与可编程计算机系统协作(或者能够协作,使得相应的方法被进行。因此,数字存储介质可以是计算机可读的。

根据本发明的一些方面包括数据载体,所述数据载体具有电子可读控制信号,这些信号能够与可编程计算机系统协作,使得本文所述的方法的一被进行。

一般而言,本发明的方面可以被实现为具有程序代码的计算机程序产品,当所述计算机程序产品在计算机上运行时,所述程序代码可操作以执行方法之一。所述程序代码可以例如被存储在机器可读载体上。

其他方面包括被存储在机器可读载体上的用于执行本文描述的方法之一的计算机程序。

换句话说,因此,本发明方法的一方面是一种计算机程序,所述计算机程序具有程序代码,当所述计算机程序在计算机上运行时,所述程序代码用于进行本文描述的方法之一。

因此,本发明方法的另一方面是一种数据载体(或者一种数字存储介质或者一种计算机可读介质),包括被记录在其上的所述计算机程序,所述计算机程序用于进行本文描述的方法之一。所述数据载体,所述数字存储介质或者所述记录介质通常是有形的和/或非暂时性的。

因此,本发明方法的另一方面是数据流或者信号序列,代表用于执行本文描述的方法之一的所述计算机程序。所述数据流或者所述信号序列可以例如被配置为经由数据通信连接,例如经由因特网。

另一方面包括处理装置,例如计算机或者可编程逻辑器件,被配置为或者适应进行本文描述的方法之一。

另一方面包括一种计算机,所述计算机上已安装所述计算机程序,用于进行本文描述的方法之一。

根据本发明的另一方面包括一种装置或者一种系统,所述装置或者系统被配置为将用于进行本文描述的方法之一的计算机程序(例如电子地或者光学地)转移到接收器。所述接收器可以是例如计算机,移动设备,存储设备或者类似物。所述装置或者系统可以例如包括文件服务器,用于将所述计算机程序转移到所述接收器。

在一些方面,可编程逻辑器件(例如可编程逻辑阵列)可以被用于进行本文描述的方法的功能中的一些或者全部。在一些方面,可编程逻辑阵列可以与微处理器协作,以执行本文描述的方法之一。通常,所述方法优选地由任何硬件装置进行。

本文描述的装置可以使用硬件设备或者使用计算机,或者使用硬件设备和计算机的组合来实现。

本文描述的方法可以使用硬件设备或者使用计算机,或者使用硬件设备和计算机的组合来执行。

如上所述的方面仅是对本发明的原理的说明。应当理解的是,本文描述的布置和细节的修改和变化对于所属技术领域中普通技术人员将是显而易见的。因此,本发明的意向仅由所附专利权利要求的范围限制,而不受本文的各方面的描述和解释所呈现的具体细节的限制。

9.参考书目

[1]J.Herre,K.J.Breebart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.Linzmeier and K.S.Chong,“MPEG Surround—The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding,”Audio English Society,vol.56,no.11,pp.932-955,2008.

[2]V.Pulkki,“Spatial Sound Reproduction with Directional Audio Coding,”Audio English Society,vol.55,no.6,pp.503-516,2007.

[3]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part II:Schemes and Applications,”IEEE Transactions on Speech and Audio Processing,vol.11,no.6,pp.520-531,2003.

[4]O.Hellmuth,H.Purnhagen,J.Koppens,J.Herre,J.J.Hilpert,L.Villemoes,L.Terentiv,C.Falch,A.M.L.Valero,B.Resch,H.Mundt and H.-O.Oh,“MPEG Spatial Audio Object Coding–The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes,”in AES,San Fransisco,2010.

[5]L.Mikko-Ville and V.Pulkki,“Converting 5.1.Audio Recordings to B-Format for Directional Audio Coding Reproduction,”in ICASSP,Prague,2011.

[6]D.A.Huffman,“A Method for the Construction of Minimum-Redundancy Codes,”Proceedings of the IRE,vol.40,no.9,pp.1098-1101,1952.

[7]A.Karapetyan,F.Fleischmann and J.Plogsties,“Active Multichannel Audio Downmix,”in 145th Audio Engineering Society,New York,2018.

[8]J.Vilkamo,T.and A.Kuntz,“Optimized Covariance Domain Framework for Time-Frequency Processing of Spatial Audio,”Journal of the Audio Engineering Society,vol.61,no.6,pp.403-411,2013.

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献