一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用方向性元数据的多通道音频编码和解码的制作方法

2022-06-16 13:13:49 来源:中国专利 TAG:

使用方向性元数据的多通道音频编码和解码
1.相关申请的交叉引用
2.本技术要求2019年10月30日提交的美国临时专利申请号62/927,790和2020年10月1日提交的美国临时专利申请号63/086,465的优先权,每个申请据此全文以引用方式并入。
技术领域
3.本公开总体上涉及音频信号处理。具体地,本公开涉及处理空间音频信号(空间音频场景)以生成该空间音频信号的压缩表示的方法和处理空间音频信号的压缩表示以生成该空间音频信号的重构表示的方法。


背景技术:

4.人类听觉使听众能够以空间音频场景的形式感知其环境,其中术语“空间音频场景”在此用于指代听众周围的声学环境或听众心理中感知的声学环境。
5.尽管人类体验与空间音频场景相关,但音频记录和再现技术涉及音频信号或音频通道的捕获、操纵、传输及回放。术语“音频流”用于指代一个或多个音频信号的集合,尤其在音频流旨在表示空间音频场景时。
6.可经由电-声变换器或通过其他设备向听众回放音频流来以空间音频场景的形式向一个或多个听众提供收听体验。通常,录音师和音频艺术家的目标是创造旨在向听众提供特定空间音频场景的体验的音频流。
7.音频流可伴随有助于回放过程的相关联的数据(称为元数据)。伴随的元数据可包括可用于影响在回放过程期间应用的处理的修改的时变信息。
8.在下文中,术语“捕获音频体验”可用于指代音频流加上任何相关联的元数据。
9.在一些应用中,元数据仅由指示用于回放的预期扬声器布置的数据组成。通常,该元数据被省略,假设回放扬声器布置是标准化的。在该情况中,捕获音频体验仅由音频流组成。一个这样的捕获音频体验的示例是被记录在光盘上的2通道音频流,其中假定预期回放系统是以被配置在听众前面的两个扬声器的形式。
10.替代地,基于场景的多通道音频信号形式的捕获音频体验可意图通过经由混合矩阵处理音频信号来向听众呈现,以便生成一组扬声器信号,该一组扬声器信号中的每一个随后可被回放至相应扬声器,其中扬声器可在空间上围绕听众任意布置。在该示例中,可根据基于场景的格式及回放扬声器布置的先前知识来生成混合矩阵。
11.基于场景的格式的一个示例是高阶多声道模拟立体声(higher order ambisonics,hoa),在franz zotter及matthias frank的“ambisonics”(isbn:978-3-030-17206-0,第3章,其以引用的方式并入本文中)中给出用于运算适合的混合矩阵的示例方法。
12.通常,这样的基于场景的格式包括大量通道或音频对象,其导致以这些格式传输或储存空间音频信号时相对较高的带宽或储存要求。
13.因此,需要表示空间音频场景的空间音频信号的紧凑表示。其应用于基于通道和基于对象的空间音频信号两者。


技术实现要素:

14.本公开提出处理空间音频信号以生成该空间音频信号的压缩表示的方法、处理空间音频信号的压缩表示以生成该空间音频信号的重构表示的方法、对应的设备、程序以及计算机可读储存介质。
15.本公开的一方面涉及一种处理空间音频信号以生成该空间音频信号的压缩表示的方法。例如,该空间音频信号可以是多通道信号或基于对象的信号。该压缩表示可以是紧凑表示或大小减小的表示。该方法可包括分析该空间音频信号以确定由该空间音频信号表示的音频场景(空间音频场景)中的一个或多个音频元素的到达方向。该音频元素可以是主要音频元素。例如,该(主要)音频元素可以与该音频场景中的(主要)声学对象、(主要)声源或(主要)声学分量有关。例如,该一个或多个音频元素可以包括1个至10个之间音频元素,诸如4个音频元素。该到达方向可以对应于单位球面上指示该音频元素的感知位置的位置。该方法可以进一步包括针对空间音频信号的至少一个频率子带(例如,针对所有频率子带),确定与该确定的到达方向相关联的信号功率的相应指示。该方法可进一步包括生成包括方向信息和能量信息的元数据,其中该方向信息包括一个或多个音频元素的确定的到达方向的指示,并且能量信息包括与确定的到达方向相关联的信号功率的相应指示。该方法可进一步包括基于空间音频信号生成具有预定义数量的通道的基于通道的音频信号。该基于通道的音频信号可指代音频混合信号或音频混合流。应理解的是,基于通道的音频信号的通道数量可小于空间音频信号的通道数量或对象数量。该方法可又进一步包括输出基于通道的音频信号和元数据作为空间音频信号的压缩表示。该元数据可与元数据流有关。
16.由此,可生成仅包括有限数量通道的空间音频信号的压缩表示。尽管如此,通过适当使用方向信息和能量信息,解码器可生成原始空间音频信号的重建版本,就原始空间音频场景的表示而言,该重建版本是原始空间音频信号的非常好的近似。
17.在一些实施例中,分析空间音频信号可基于空间音频信号的多个频率子带。例如,该分析可基于空间音频信号的全频率范围(即,全信号)。即,该分析可基于所有频率子带。
18.在一些实施例中,分析空间音频信号可涉及将场景分析应用于空间音频信号。由此,可由可靠且高效的方式确定音频场景中的主要音频元素(的方向)。
19.在一些实施例中,空间音频信号可以是多通道音频信号。替代地,空间音频信号可以是基于对象的音频信号。在这种情况下,该方法可进一步包括在应用场景分析之前将基于对象的音频信号转换成多通道音频信号。这允许将场景分析工具有意图地应用于音频信号。
20.在一些实施例中,与给定到达方向相关联的信号功率的指示可以与给定到达方向的频率子带中的信号功率相对于该频率子带中的总信号功率的分数有关。
21.在一些实施例中,可针对多个频率子带中的每一个来确定信号功率的指示。在这种情况下,它们可以针对给定到达方向和给定频率子带与给定到达方向的给定频率子带中的信号功率相对于该给定频率子带中的总信号功率的分数有关。显然,可以以逐子带的方式确定信号功率的指示,而可对全信号(即,基于所有频率子带)执行(主要)到达方向的确
定。
22.在一些实施例中,可以在逐时段的基础上执行分析空间音频信号、确定信号功率的相应指示及生成该基于通道的音频信号。因此,可针对多个时段中的每一个生成并输出具有针对每个时段的降混音频信号和元数据(元数据块)的压缩表示。替代地或另外地,可基于空间音频信号的时频表示来执行分析空间音频信号、确定信号功率的相应指示以及生成基于通道的音频信号。例如,可基于空间音频信号的离散傅立叶变换(诸如(例如)stft)来执行上述步骤。即,针对每个时段(时间块),可基于空间音频信号的时频仓(time-frequency bin)(fft仓)(即,基于空间音频信号的傅立叶系数)来执行上述步骤。
23.在一些实施例中,空间音频信号可以是包括多个音频对象和相关联的方向向量的基于对象的音频信号。接着,该方法可进一步包括通过将音频对象移动至预定义组音频通道来生成多通道音频信号。其中,可根据其方向向量将每个音频对象移动至预定义组音频通道。进一步地,基于通道的音频信号可以是通过将降混操作应用于多通道音频信号而生成的降混信号。例如,多通道音频信号可以是高阶多声道模拟立体声信号。
24.在一些实施例中,空间音频信号可以是多通道音频信号。接着,基于通道的音频信号可以是通过将降混操作应用于多通道音频信号而生成的降混信号。
25.本公开的另一方面涉及一种处理空间音频信号的压缩表示以生成空间音频信号的重建表示的方法。压缩表示可包括具有预定义数量的通道的基于通道的音频信号和元数据。元数据可包括方向信息和能量信息。方向信息可包括音频场景(空间音频场景)中的一个或多个音频元素的到达方向的指示。能量信息可针对至少一个频率子带包括与到达方向相关联的信号功率的相应指示。该方法可包括根据基于通道的音频信号、方向信息和能量信息生成一个或多个音频元素的音频信号。该方法可进一步包括基于基于通道的音频信号、方向信息及能量信息生成实质上不存在一个或多个音频元素的残差音频信号。残差信号可以以与基于通道的音频信号相同的音频格式表示,例如,可具有相同数量的通道。
26.在一些实施例中,与给定到达方向相关联的信号功率的指示可以与给定到达方向的频率子带中的信号功率相对于频率子带中的总信号功率的分数有关。
27.在一些实施例中,能量信息可包括针对多个频率子带中的每一个的信号功率的指示。接着,信号功率的指示可针对给定到达方向和给定频率子带与给定到达方向的给定频率子带中的信号功率相对于给定频率子带中的总信号功率的分数有关。
28.在一些实施例中,该方法可进一步包括将一个或多个音频元素的音频信号移动至输出音频格式的一组通道。该方法可又进一步包括基于移动的一个或多个音频元素和残差信号来以输出音频格式生成重建多通道音频信号。输出音频格式可以与输出表示有关(例如,诸如hoa或任何其他适合的多通道格式)。生成重建的多通道音频信号可以包括将残差信号升混至输出音频格式的一组通道。生成重建多通道音频信号可进一步包括使移动的一个或多个音频元素与升混残差信号相加。
29.在一些实施例中,生成一个或多个音频元素的音频信号可包括基于方向信息和能量信息确定逆混合矩阵m的系数,以用于将基于通道的音频信号映射到包括残差音频信号和一个或多个音频元素的音频信号的中间表示。中间表示也可以指代分离或能够分离的表示或混合表示。
30.在一些实施例中,确定逆混合矩阵m的系数可包括针对一个或多个音频元素中的
每一个,基于音频元素的到达方向dir确定用于将音频元素移动至基于通道的音频信号的通道的移动向量pan
down
(dir)。所述确定逆混合矩阵m的系数可进一步包括基于确定的移动向量来确定将用于将残差音频信号和一个或多个音频元素的音频信号映射到基于通道的音频信号的通道的混合矩阵e。所述确定逆混合矩阵m的系数可进一步包括基于能量信息确定中间表示的协方差矩阵s。确定协方差矩阵s可进一步基于确定的移动向量pan
down
。所述确定逆混合矩阵m的系数可又进一步包括基于混合矩阵e和协方差矩阵s确定逆混合矩阵m的系数。
31.在一些实施例中,可根据e=(in|pan
down
(dir1)|

|pan
down
(dir
p
))确定混合矩阵e。此处,in可以是n
×
n单位矩阵,其中n指示基于通道的信号的通道数量,pan
down
(dir
p
)可以是具有相关联的到达方向dir
p
的第p个音频元素的移动向量,其将第p个音频元素移动(例如映射)到基于通道的信号的n个通道,其中p=1,

,p指示一个或多个音频元素中的相应一个并且p指示一个或多个音频元素的总数量。因此,矩阵e可以是n
×
p矩阵。可针对多个时段k中的每一个确定矩阵e。在该情况中,该矩阵e和到达方向dir
p
将具有指示时段的指数k,例如ek=(in|pan
down
(dir
k,1
)|

|pan
down
(dir
k,p
))。即使所提出的方法可以以逐频带(band-wise)的方式操作,但所有频率子带的矩阵e可以是相同的。
32.在一些实施例中,可根据(其中1≤n≤n)和{s}
n p,n p
=e
p
(其中1≤p≤p)来将协方差矩阵s确定为对角矩阵。此处,e
p
可以是与第p个音频元素的到达方向相关联的信号功率。可针对多个时段k中的每一个和/或针对多个频率子带b中的每一个确定矩阵s。在该情况中,矩阵s和信号功率e
p
将具有指示时段的指数k和/或指示频率子带的指数b,例如,(其中1≤n≤n)以及{s
k,b
}
n p,n p
=e
k,p,b
(其中1≤p≤p)。
33.在一些实施例中,基于混合矩阵e和协方差矩阵s确定逆混合矩阵m的系数可涉及基于混合矩阵e和协方差矩阵s确定伪逆(pseudo inverse)。
34.在一些实施例中,可根据m=s
×e*
×
(e
×s×e*
)-1
确定逆混合矩阵m。此处,
“×”
指示矩阵乘积而“*”指示矩阵的共轭转置。可针对多个时段k中的每一个和/或针对多个频率子带b中的每一个确定逆混合矩阵m。在该情况中,矩阵m和s将具有指示时段的指数k和/或指示频率子带的指数b,并且矩阵e将具有指示时段的指数k,例如,
35.在一些实施例中,基于通道的音频信号可以是一阶多声道模拟立体声信号。
36.另一方面涉及一种设备,其包括处理器和耦合到该处理器的存储器,其中该处理器经调适以实施根据上述方面和实施例中的任一个的方法的所有步骤。
37.本公开的另一方面涉及一种程序,其包括指令,该指令在由处理器执行时,使得该处理器实施上述方法的所有步骤。
38.本公开的又一方面涉及一种计算机可读储存介质,其储存上述程序。
39.本公开的进一步实施例包括一种用于以音频混合流和方向元数据流的形式表示空间音频场景的高效方法,其中方向元数据流包括指示方向性声波元素在空间音频场景中的位置的数据和指示相对于该子带中的空间音频场景的总功率的多个子带中的每个方向性声波元素的功率的数据。又进一步实施例涉及用于从输入空间音频场景确定方向元数据流的方法,以及用于从方向元数据流和相关联的音频混合流创建重建音频场景的方法。
40.在一些实施例中,采用一种用于以更紧凑的形式将空间音频场景表示为包括音频混合流和方向元数据流的紧凑空间音频场景的方法,其中所述音频混合流包括一个或多个音频信号,且其中所述方向元数据流包括方向元数据块的时间序列,其中所述方向元数据块中的每一个与所述音频信号中的对应时段相关联,并且其中所述空间音频场景包括每一个都与相应到达方向相关联的一个或多个方向性声波元素,并且其中所述方向元数据块中的每一个包含:
41.·
方向信息,其指示所述方向性声波元素中的每一个的所述到达方向;以及
42.·
能量带分数信息,其指示针对所述方向性声波元素中的每一个以及针对一组两个或更多个子带中的每一个的、相对于所述音频信号中的所述对应时段中的能量的、所述方向性声波元素中的每一个中的能量。
43.在一些实施例中,采用一种用于处理包括音频混合流和方向元数据流的紧凑空间音频场景以生成分离空间音频流的方法,该分离空间音频流包括一组一个或多个音频对象信号和残差流,其中所述音频混合流包括一或多个音频信号,并且其中所述方向元数据流包括方向元数据块的时间序列,其中所述方向元数据块中的每一个与所述音频信号中的对应时段相关联,其中针对多个子带中的每一个,该方法包括:
44.·
从被包含在方向元数据流中的方向信息和能量带分数信息确定解混合矩阵(逆混合矩阵)的系数;以及
45.·
使用解混合矩阵来混合所述音频信号以生成所述分离空间音频流。
46.在一些实施例中,采用一种用于处理空间音频场景以生成包括音频混合流和方向元数据流的紧凑空间音频场景的方法,其中该空间音频场景包括每一个都与相应到达方向相关联的一个或多个方向性声波元素,并且其中所述方向元数据流包括方向元数据块的时间序列,其中所述方向元数据块中的每一个与所述音频信号中的对应时段相关联,所述方法包括:
47.·
从所述空间音频场景的分析来确定所述方向性声波元素中的一个或多个的所述到达方向的步骤;
48.·
确定所述空间场景中的总能量的多少分数是由所述方向性声波元素的每一个中的能量来贡献的步骤;以及
49.·
处理所述空间音频场景以生成所述音频混合流的步骤。
50.应理解的是,上述步骤可由适合的设备或单元来实施,该设备或单元继而可由(例如)一个或多个计算机处理器来实施。
51.还应理解的是,设备特征和方法步骤可以以多种方式互换。具体地,本领域技术人员应领会到,所公开的方法的细节可由对应的设备来实现,反之亦然。此外,以上关于方法所做出的任何陈述应被理解为同样适用于对应设备,反之亦然。
附图说明
52.在附图中,通过示例的方式图示本公开的示例实施例,其中相同附图标记指示相同或类似元件,并且其中:
53.图1示意性地图示了根据本公开的实施例的生成空间音频场景的压缩表示的编码器以及用于从压缩表示生成重建音频场景的对应解码器的布置的示例;
54.图2示意性地图示了根据本公开的实施例的生成空间音频场景的压缩表示的编码器以及用于从压缩表示生成重建音频场景的对应的解码器的布置的另一示例;
55.图3示意性地图示了根据本公开的实施例的生成空间音频场景的压缩表示的示例;
56.图4示意性地图示了根据本公开的实施例的解码空间音频场景的压缩表示以形成重建音频场景的示例;
57.图5和图6是图示了根据本公开的实施例的处理空间音频场景以生成空间音频场景的压缩表示的方法的示例的流程图;
58.图7至图11示意性地图示了根据本公开的实施例的生成空间音频场景的压缩表示的细节的示例;
59.图12示意性地图示了根据本公开的实施例的解码空间音频场景的压缩表示以形成重建音频场景的细节的示例;
60.图13是图示了根据本公开的实施例的解码空间音频场景的压缩表示以形成重建音频场景的方法的示例的流程图;
61.图14是图示了图13的方法的细节的流程图;
62.图15是图示了根据本公开的实施例的解码空间音频场景的压缩表示以形成重建音频场景的方法的另一示例的流程图;及
63.图16示意性地图示了根据本公开的实施例的用于生成空间音频场景的压缩表示和/或用于解码空间音频场景的压缩表示以形成重建音频场景的设备。
具体实施方式
64.一般而言,本公开涉及使用减少数据量来实现空间音频场景的储存和/或传输。
65.接下来将描述可用于本公开的背景中的音频处理的概念。
66.移动函数
67.可通过根据线性混合定律来移动个体声波元素(或音频元素、音频对象)来形成多通道音频信号(或音频流)。例如,若一组r个音频对象由r个信号表示{or(t):1≤r≤r},则多通道移动混合{zn(t):1≤n≤n}可由以下形成:
[0068][0069]
移动函数pan(θr)表示包含n个比例因子(移动增益)的列向量,该n个比例因子指示用于混合对象信号or(t)以形成多通道输出的增益,并且其中θr指示相应对象的位置。
[0070]
一个可能的移动函数是一阶多声道模拟立体声(foa)移动器。一个foa移动函数的示例由以下给出:
[0071][0072]
一个替代性的移动函数是三阶多声道模拟立体声移动器(3oa)。一个3oa移动函数
的示例由以下给出:
[0073][0074]
应理解的是,本公开不限制于foa或hoa移动函数,而是可以考虑使用其他移动函数,如本领域技术人员所了解的。
[0075]
短期傅立叶变换
[0076]
例如,可将由一个或多个音频信号组成的音频流转换成短期傅立叶变换(stft)形式。到此端,可将离散傅立叶变换应用于音频流的音频信号(例如通道、音频对象信号)的(可选得窗口化的)时段。应用于音频信号x(t)的该程序可表示如下:
[0077]
x
c,k
(f)=stft{xc(t)}
ꢀꢀꢀ
(4)
[0078]
应理解的是,stft是时频变换的示例,且本公开不应限制于stft。
[0079]
在公式(4)中,变量x
c,k
(f)指示频率仓f(1≤f≤f)处音频时段的通道c(1≤c≤numchans)的短期傅立叶变换,其中f指示由离散傅立叶变换生成的频率仓数量。应了解的是,此处所使用的术语是以示例的方式,且各种stft方法(包括各种窗口功能)的具体实施细节在本技术中属于已知。音频时段k可以(例如)被定义为例如以t(=k
×
步幅 常数)为中心的音频样本范围,使得时段在时间中均匀间隔,其中间距等于步幅。
[0080]
stft的数值(诸如x
c,k
(1)、x
c,k
(2)

x
c,k
(f))可指代fft仓。
[0081]
进一步地,可将stft形式转换成音频流。所得的音频流可为原始输入的近似并且可以由以下给出:
[0082][0083]
频带分析
[0084]
特性数据可以由音频流形成,其中特性数据与多个带(频率子带)相关联,其中带(子带)由频率范围的区域定义。
[0085]
举例而言,可根据以下来计算频带b中的流的通道c中的信号功率(其中频带数量是b且1≤b≤b),其中带b横跨fft仓f
min
≤f≤f
max

[0086][0087]
根据更普遍的示例,频带b可由加权向量frb(f)定义,加权向量将权重分配到每个频率仓,使得带中功率的替代计算可由以下给出:
[0088][0089]
在公式(7)的进一步普遍化中,包括c个音频信号的流的stft可被处理以生成多个带中的协方差,其中协方差r
b,k
是c
×
c矩阵,并且其中元素{r
b,k
}
i,j
根据以下来计算:
[0090][0091]
其中表示x
j,k
(f)的复共轭。
[0092]
在另一示例中,带通滤波器可用于根据带通滤波器响应来形成表示频带中的原始音频流的滤波信号。例如,音频信号xc(t)可经滤波以生成x

c,b
(t),其表示具有主要源自xc(t)的带b的能量的信号,因此,用于计算时间块k(对应于时间样本t
min
≤t≤t
max
)的频带b中的流的协方差的替代方法可表示为
[0093][0094]
频带混合
[0095]
由n个通道组成的音频流可以被处理以根据m
×
n线性混合矩阵q生成由m个通道组成的音频流,使得
[0096][0097]
其可以以矩阵形式写成:
[0098][0099]
其中指代由n个元素x1(t),x2(t),

,xn(t)形成的列向量。
[0100]
进一步地,替代混合过程可以被实施于stft域中,其中矩阵q可在每个时间块k和在每个频带b中取不同的值。在此情况中,该过程可被考虑近似给出为:
[0101][0102]
或以矩阵形式给出为:
[0103][0104]
应了解的是,可采用替代方法来产生公式(13)中所描述的过程的等效行为。
[0105]
示例实施方案
[0106]
接下来,将更详细地描述根据本公开的实施例的方法和设备的示例实施方案。
[0107]
广义而言,根据本公开的实施例的方法以音频混合流和方向元数据流的形式表示空间音频场景,其中方向元数据流包括指示方向性声波元素在空间音频场景中的位置的数据,以及指示相对于子带中的空间音频场景的总功率的多个子带中的每个方向性声波元素的功率的数据。根据本公开的实施例的进一步方法涉及从输入空间音频场景确定方向元数据流,并且从方向元数据流和相关联的音频混合流创建重建(例如重构)音频场景。
[0108]
根据本公开实施例的方法的示例高效地(例如,从用于储存或传输的数据减少方面)表示空间声音场景。空间音频场景可由空间音频信号表示。可通过定义由音频混合流和元数据流(例如方向元数据流)组成的储存或传输格式(例如紧凑空间音频流)来实施该方法。
[0109]
音频混合流包括传达空间声音场景的减少的表示的多个音频信号。因而,音频混合流可以涉及具有预定义数量的通道的基于通道的音频信号。应理解的是,基于通道的音频信号的通道数量小于空间音频信号的通道数量或音频对象数量。例如,基于通道的音频信号可以是一阶多声道模拟立体声音频信号。换言之,紧凑空间音频流可包括声场的一阶多声道模拟立体声表示的形式的音频混合流。
[0110]
(方向)元数据流包括定义空间声音场景的空间性质的元数据。方向元数据可由方向元数据块的序列组成,其中每个方向元数据块包含指示音频混合流中的对应时段中的空间声音场景的性质的元数据。
[0111]
一般来说,元数据包括方向信息和能量信息。方向信息包括音频场景中的一个或多个(主要)音频元素的到达方向的指示。能量信息包括针对每个到达方向的、与确定的到达方向相关联的信号功率的指示。在一些实施方案中,可针对多个带(频率子带)中的一个、一些或每个提供信号功率的指示。此外,例如,可针对多个连续时段中的每一个提供元数据,诸如以元数据块的形式。
[0112]
在一个示例中,元数据(方向元数据)包括指示多个带上的空间声音场景的性质的元数据,其中元数据定义:
[0113]
·
一个或多个方向(例如到达方向),其指示音频对象(音频元素)在空间声音场景中的位置;以及
[0114]
·
每个频带中的能量(或信号功率)的分数,其归因于相应音频对象(例如,归因于相应方向)。
[0115]
下文将提供关于确定方向信息和能量信息的细节。
[0116]
图1示意性地图示了采用本公开的实施例的布置的示例。具体地,该图示出配置100,其中将空间音频场景10输入到场景编码器200以生成音频混合流30和方向元资料流20。空间音频场景10可由被输入到场景编码器200的空间音频信号或空间音频流来表示。音
频混合流30和方向元数据流20一起形成紧凑空间音频场景的示例,即,空间音频场景10(或空间音频信号)的压缩表示。
[0117]
将压缩表示(即,混合音频流30和方向元数据流20)输入到场景解码器300以产生重构的音频场景50。存在于空间音频场景10内的音频元素将根据混合移动函数表示于音频混合流30内。
[0118]
图2示意性地示出了采用本公开的实施例的布置另一示例。具体地,该图示出了替代布置110,其中通过将音频混合流30提供至音频编码器35以生成降低比特率编码的音频流37以及通过将方向元数据流20提供至元数据编码器25以生成编码的元数据流27来进一步编码由音频混合流30和方向元数据流20组成的紧凑空间音频场景。降低比特率的编码的音频流37和编码的元数据流27一起形成编码(降低比特率编码)的空间音频场景。
[0119]
可通过首先将降低比特率编码的音频流37和编码的元数据流27应用于相应的解码器36和26以生成恢复的音频混合流38和恢复的方向元数据流28来恢复编码空间音频场景。恢复的流38、28可等于或近似等于相应流30、20。恢复的音频混合流38和恢复的方向元数据流28可由解码器300解码以生成重构音频场景50。
[0120]
图3示意性地图示了用于从输入空间音频场景生成降低比特率编码的音频流和编码的元数据流的布置的示例。具体地,该图示出了场景编码器200将方向元数据流20和音频混合流30提供至相应编码器25、35以生成包括降低比特率编码的音频流37和编码的元数据流27的编码空间音频场景40的配置150。编码的空间音频流40被优选地布置以适合于具有与原始空间音频场景的储存/传输所需的数据相比降低的数据要求的储存和/或传输。
[0121]
图4示意性地图示用于从降低比特率编码的音频流和编码的元数据流生成重构空间音频场景的布置的示例。具体地,该图示出了布置160,其中将由降低比特率编码的音频流37和编码的元数据流27组成的编码空间音频流40作为输入提供至解码器36、26以分别产生音频混合流38和方向元数据流28。接着,流38、28由场景解码器300处理以产生重构音频场景50。
[0122]
接下来将描述生成紧凑空间音频场景(即,空间音频场景(或空间音频信号/空间音频流)的压缩表示)的细节。
[0123]
图5是处理空间音频信号以生成空间音频信号的压缩表示的方法500的示例流程图。方法500包括步骤s510至s550。
[0124]
在步骤s510,分析空间音频信号以确定由空间音频信号表示的音频场景(空间音频场景)中的一个或多个音频元素(例如主要音频元素)的到达方向。例如,(主要)音频元素可以有关于音频场景中的(主要)声学对象、(主要)声源或(主要)声学分量。分析空间音频信号可以涉及或可以有关于将场景分析应用于空间音频信号。应理解的是,本领域技术人员已知一系列适合场景分析工具。在该步骤确定的到达方向可对应于指示音频元素的(感知)位置的单位球面上的位置。
[0125]
根据上述频带分析,步骤s510的分析空间音频信号可基于空间音频信号的多个频率子带。例如,分析可基于空间音频信号的全频率范围(即,全信号)。即,分析可基于所有频率子带。
[0126]
在步骤s520,针对空间音频信号的至少一个频率子带确定与所确定的到达方向相关联的信号功率的相应指示。
[0127]
在步骤s530,生成包括方向信息和能量信息的元数据。方向信息包括一个或多个音频元素确定的到达方向的指示。能量信息包括与确定的到达方向相关联的信号功率的相应指示。在该步骤生成的元数据可以与元数据流有关。
[0128]
在步骤s540,基于空间音频信号生成具有预定义数量的通道的基于通道的音频信号。
[0129]
最后,在步骤s550,输出基于通道的音频信号和元数据,以作为空间音频信号的压缩表示。
[0130]
应理解的是,只要步骤的顺序确保每个步骤能够获得所需的输入,上述步骤可按照任何顺序或彼此并行地执行。
[0131]
通常,空间场景(或空间音频信号)可被视为由从相对于收听位置的一组方向入射到听众上的声学信号的总和组成。因此,空间音频场景可模型化为r个声学对象的集合,其中对象r(1≤r≤r)与从由方向向量θr定义的到达方向入射到收听位置的音频信号or(t)相关联。方向向量也可以是时变方向向量θr(t)。
[0132]
因此,根据一些实施方案,空间音频信号(空间音频流)可以以一组音频信号和相关联的方向向量的形式而被定义为基于对象的空间音频信号(基于对象的空间音频场景):
[0133]
空间音频场景(基于对象的)={(or(t),θr(t)):1≤r≤r}
ꢀꢀꢀ
(14)
[0134]
进一步地,根据一些实施方案,空间音频信号(空间音频流)可根据公式(4)以短期傅立叶变换信号o
r,k
(f)的形式来定义,且方向向量可根据块指数k指定,使得:
[0135]
空间音频场景(基于对象的)={(o
r,k
(f),θr(k)):1≤r≤r}
ꢀꢀꢀ
(15)
[0136]
替代地,空间音频信号(空间音频流)可根据基于通道的空间音频信号(基于通道的空间音频场景)来表示。基于通道的流由音频信号的集合组成,其中根据公式(1)的移动函数(pan(θ))将来自空间音频场景的每个声学对象混合至通道中。以示例的方式,q通道基于通道的空间音频场景{c
q,k
(f):1≤q≤q}可根据以下由基于对象的空间音频场景形成:
[0137]
空间音频场景(基于通道)={(c
q,k
(f):1≤q≤q}
[0138]
其中
[0139]
应了解的是,基于通道的空间音频场景的多个特性由移动函数的选择来确定,并且特别地,由移动函数返回的列向量的长度(q)将确定被包含在基于通道的空间音频场景中的音频通道的数量。一般来说,空间音频场景的较高质量表示可由包含较多通道的基于通道的空间音频场景来实现。
[0140]
作为示例,可在方法500的步骤s540处处理空间音频信号(空间音频场景)以根据公式(16)生成基于通道的音频信号(基于通道的流)。可选择移动函数以创建空间音频场景的相对低分辨率的表示。例如,移动函数可被选择为一阶多声道模拟立体声(foa)函数,例如公式(2)中所定义的foa函数。因而,压缩表示可以是紧凑或大小减小的表示。
[0141]
图6是提供生成空间音频场景的紧凑表示的方法600的另一方案的流程图。方法600被提供带有以空间音频场景或基于场景的流的形式的输入流,并且产生紧凑空间音频场景作为紧凑表示。为此,方法600包括步骤s610至s660。其中步骤s610可被视作对应于步
骤s510,步骤620可被视作对应于步骤s520,步骤s630可被视作对应于步骤s540,步骤s650可被视作对应于步骤s530,且步骤s660可被视作对应于步骤s550。
[0142]
在步骤s610,分析输入流以确定主要到达方向。
[0143]
在步骤s620,针对每个频带(频率子带),确定分配给每个方向的能量相对于该频带中的流中的总能量的分数。
[0144]
在步骤s630,形成包含表示空间音频场景的多个音频通道的降混流。
[0145]
在步骤s640,编码降混流以形成流的压缩表示。
[0146]
在步骤s650,对方向信息和能量分数信息进行编码以形成编码的元数据。
[0147]
最后,在步骤s660,组合编码的降混流与编码的元数据以形成紧凑空间音频场景。
[0148]
应理解的是,只要步骤的顺序确保每个步骤能够获得所需的输入,上述步骤可按照任何顺序或彼此并行地执行。
[0149]
图7至图11示意性地图示了根据本公开的实施例的生成空间音频场景的压缩表示的细节的示例。应理解的是,例如,分析空间音频信号以确定到达方向、确定与所确定的到达方向相关联的信号功率的指示、生成包括方向信息和能量信息的元数据和/或生成具有预定义数量的通道的基于通道的音频信号(如下文将描述)的细节可以独立于特定系统布置并且可以应用于(例如)图7至图11中所示出的任何布置或任何适合的替代布置。
[0150]
图7示意性地图示了生成空间音频场景的压缩表示的细节的第一示例。具体地,图7示出了场景编码器200,其中空间音频场景10由降混函数203处理,以根据(例如)步骤s540及s630生成n通道音频混合流30。在一些实施例中,降混函数203可包括根据公式(1)或公式(16)的移动程序,其中选择降混移动函数:例如,可选择一阶多声道模拟立体声移动器作为降混移动函数:并且因此n=4。
[0151]
针对每个音频时段,场景分析202采用空间音频场景作为输入,并且根据(例如)步骤s510及s610确定空间音频场景内高达p个主要声学分量的到达方向。p的典型值为在1至10之间,且p的优选值为p≈4。因此,例如,在步骤s510确定的一个或多个音频元素可包括1个至10个之间的音频元素,例如4个音频元素。
[0152]
场景分析202生成由方向信息21和能量带分数信息22(能量信息)组成的元数据流20。可选地,场景分析202也可以将系数207提供至降混函数203以允许修改降混。
[0153]
在无预期限制的情况下,可在逐时段的基础上根据(例如)上述stft执行分析空间音频信号(例如,在步骤s510)、确定信号功率的相应指示(例如,在步骤s520)、以及生成基于通道的音频信号(例如,在步骤s540)。此隐含将在多个时段中的每一个内生成并输出具有每个时段内的降混音频信号和元数据(元数据块)的压缩表示。
[0154]
针对每个时段k,方向信息21(例如,由一个或多个音频元素的到达方向实施的)可采用p个方向向量{dir
k,p
:1≤p≤p}的形式。方向向量p指示与主要对象指数p相关联的方向,且可用单位向量的形式表示:
[0155]
其中:
[0156]
或用球坐标的形式表示:
[0157]
其中:
[0158]
在一些实施例中,在步骤s520确定的信号功率的相应指示采用信号功率的分数的形式。即,与频率子带中的给定到达方向相关联的信号功率的指示与给定到达方向的频率子带中的信号功率相对于频率子带中的总信号功率的分数有关。
[0159]
进一步地,在一些实施例中,针对多个频率子带中的每一个(即,按照逐子带的方式)确定信号功率的指示。接着,其针对给定到达方向和给定频率子带,与给定到达方向的给定频率子带中的信号功率相对于给定频率子带中的总信号功率的分数有关。显然,即使信号功率的指示按照逐子带的方式确定,但仍可对全信号(即,基于所有频率子带)执行(主要)到达方向的确定。
[0160]
进一步地,在一些实施例中,基于空间音频信号的时频表示执行分析空间音频信号(例如,在步骤s510)、确定信号功率的相应指示(例如,在步骤s520)、以及生成基于通道的音频信号(例如,在步骤s540)。例如,可基于空间音频信号的离散傅立叶变换(例如,如stft)执行上述步骤和其他适合的步骤。例如,针对每个时段(时间块),可基于空间音频信号的时频仓(fft仓)(即,基于空间音频信号的傅立叶系数)来执行上述步骤。
[0161]
如上文给出的,针对每个时段k及针对每个主要对象指数p(1≤p≤p),能量带分数信息22可包括一组频带中的每个频带b(1≤b≤b)的分数值e
k,p,b
。根据以下确定时段k的分数值e
k,p,b

[0162][0163]
分数值e
k,p,b
可表示方向dir
k,p
周围的空间区域中的能量分数,使得可以组合原始空间音频场景中的多个声学对象的能量以表示分配给方向dir
k,p
的单一主要声学分量。在一些实施例中,可使用角度差加权函数w(θ)来加权场景中所有声学对象的能量,角度差加权函数w(θ)表示靠近dir
k,p
的方向θ的较大加权以及远离dir
k,p
的方向θ的较小加权。方向差可被视为因小于(例如)10
°
的角度差而靠近,以及因大于(例如)45
°
的角度差而远离。在替代实施例中,可基于靠近/远离角度差的替代选择来选择加权函数。
[0164]
一般地,针对其生成压缩表示的输入空间音频信号可以是(例如)多通道音频信号或基于对象的音频信号。在后一中情况中,用于生成空间音频信号的压缩表示的方法将进一步包括在应用场景分析之前(例如,在步骤s510之前)将基于对象的音频信号转换成多通道音频信号的步骤。
[0165]
在图7的示例中,输入空间音频信号可以是多通道音频信号。接着,在步骤s540生成的基于通道的音频信号将为通过将降混操作应用于多通道音频信号而生成的降混信号。
[0166]
图8示意性地图示了生成空间音频场景的压缩表示的细节的另一示例。在此情况中,输入空间音频信号可以是包括多个音频对象和相关联的方向向量的基于对象的音频信号。在此情况中,生成空间音频信号的压缩表示的方法包括通过将音频对象移动至预定义组音频通道来生成多通道音频信号,以作为中间表示或中间场景,其中每个音频对象根据其方向向量被移动至预定义组音频通道。因此,图8示出了场景编码器200的替代实施例,其中将空间音频场景10输入至转换器201以生成中间场景11(例如,由多通道信号实施)。可根据公式(1)生成中间场景11,其中移动函数被选择以使得移动增益向量pan(θ1)与pan(θ2)的
点积近似表示角度差加权函数,如上文所描述的。
[0167]
在一些实施例中,用于转换器201中的移动函数是三阶多声道模拟立体声移动函数如公式(3)中所展示的。因此,例如,多通道音频信号可以是高阶多声道模拟立体声信号。
[0168]
接着,将中间场景11输入至场景分析202。场景分析202可以从中间场景11的分析来确定空间音频场景中的主要声学对象的方向dir
k,p
。可通过估计一组方向上的能量来执行主要方向的确定,其中最大估计能量表示主要方向。
[0169]
时段k的能量带分数信息22可包括每个频带b的分数值e
k,p,b
,其由时段k中每个方向dir
k,p
上的中间场景11的频带b中的能量相对于中间场景11的带b中的总能量而推导。
[0170]
在此情况中,紧凑空间音频场景(例如紧凑表示)的音频混合流30(例如基于通道的音频信号)是通过将降混函数203(降混操作)应用于空间音频场景所生成的降混信号。
[0171]
图10展示了场景编码器的替代布置,其包括用于将空间音频场景10转换成基于场景的中间格式11的转换器201。将中间格式11输入到场景分析202和降混函数203。在一些实施例中,降混函数203可包括具有被适应以将中间格式11转换成音频混合流30的系数的矩阵混合器。即,在此情况中,紧凑空间音频场景(例如紧凑表示)的音频混合流30(例如基于通道的音频信号)可以是通过将降混函数203(降混操作)应用于中间场景(例如多通道音频信号)所生成的降混信号。
[0172]
在图11所展示的替代实施例中,空间编码器200可采用以基于场景的输入11的形式的输入,其中根据移动规则pan(θ)来表示声学对象。在一些实施例中,移动函数可以是一高阶多声道模拟立体声移动函数。在一示例实施例中,移动函数是三阶多声道模拟立体声移动函数。
[0173]
在图9所图示的另一个替代实施例中,空间音频场景10由空间编码器200中的转换器201转换,以生成被输入至降混函数203的中间场景11。场景分析202被提供有来自空间音频场景10的输入。
[0174]
图12示意性地图示了根据本公开的实施例的解码空间音频场景的压缩表示以形成重建音频场景的细节的示例。具体地,该图示出了包括解混器302的场景解码器300,解混器302采用音频混合流30且产生分离空间音频流70。分离空间音频流70由p个主要对象信号90及残差流80组成。残差解码器81采用来自残差流80的输入且创建解碼残差流82。对象移动器91采用来自主要对象信号90的输入且创建移动对象流92。解码残差流82与移动对象流92的被加和75以生成重建的音频场景50。
[0175]
进一步地,图12示出了输入至解混矩阵计算器301的方向信息21及能量带分数信息22,以确定由解混器302使用的解混矩阵60(逆混合矩阵)。
[0176]
接下来将描述处理紧凑空间音频场景(例如空间音频信号的压缩表示)以生成空间音频信号的重构表示的细节。
[0177]
图13是处理空间音频信号的压缩表示以生成空间音频信号的重构表示的方法1300的示例的流程图。应理解的是,压缩表示包括具有预定义数量的通道和元数据的基于通道的音频信号(例如,由音频混合流30实施),元数据包括方向信息(例如,由方向信息21实施)和能量信息(例如,由能量带分数信息22实施),其中方向信息包括音频场景中的一个或多个音频元素的到达方向的指示,并且能量信息包括针对至少一个频率子带的与到达方
向相关联的信号功率的相应指示。例如,基于通道的音频信号可为一阶多声道模拟立体声信号。方法1300包括步骤s1310及s1320,并且可选地包括步骤s1330及s1340。应理解的是,这些步骤可(例如)由图12的场景解码器300执行。
[0178]
在步骤s1310,根据基于通道的音频信号、方向信息和能量信息生成一个或多个音频元素的音频信号。
[0179]
在步骤s1320,根据基于通道的音频信号、方向信息和能量信息生成实质上不存在一个或多个音频元素的残差音频信号。此处,残差信号可以被表示为与基于通道的音频信号相同的音频格式,例如,可具有与基于通道的音频信号相同数量的通道。
[0180]
在可选的步骤s1330,将一个或多个音频元素的音频信号移动至输出音频格式的一组通道。此处,输出音频格式可以与输出表示有关,例如,诸如hoa或任何其他适合的多通道格式。
[0181]
在可选的步骤s1340,基于一个或多个移动音频元素及残差信号生成为输出音频格式的重构多通道音频信号。生成重构多通道音频信号可包括将残差信号升混至输出音频格式的通道组。生成重构多通道音频信号可进一步包括使一个或多个移动音频元素与升混残差信号相加。
[0182]
应理解的是,只要步骤的顺序确保每个步骤能够获得所需的输入,上述步骤可按照任何顺序或彼此并行地执行。
[0183]
根据上述处理空间音频场景来生成空间音频场景的压缩表示的方法,与给定到达方向相关联的信号功率的指示可与给定到达方向的频率子带中的信号功率相对于频率子带中的总信号功率的分数有关。
[0184]
此外,在一些实施例中,能量信息可包括多个频率子带中的每一个的信号功率的指示。接着,针对给定到达方向和给定频率子带,信号功率的指示可与给定到达方向的给定频率子带中的信号功率相对于给定频率子带的总信号功率的分数有关。
[0185]
在步骤s1310生成一个或多个音频元素的音频信号可包括基于方向信息和能量信息确定逆混合矩阵m的系数以将基于通道的音频信号映射到包括残差音频信号和一个或多个音频元素的音频信号的中间表示。中间表示也可以指代如分离或可分离表示或混合表示。
[0186]
接下来将参考图14的流程图来描述确定逆混合矩阵m的系数的细节。由该流程图图示的方法1400包括步骤s1410至s1440。
[0187]
在步骤s1410,针对一个或多个音频元素中的每一个,基于音频元素的到达方向dir确定用于将音频元素移动至基于通道的音频信号的通道的移动向量pan
down
(dir)。
[0188]
在步骤s1420,基于确定的移动向量,确定将用于将残差音频信号和一个或多个音频元素的音频信号映射到基于通道的音频信号的通道的混合矩阵e。
[0189]
在步骤s1430,基于能量信息确定用于中间表示的协方差矩阵s。协方差矩阵s的确定可进一步基于确定的移动向量pan
down

[0190]
最后,在步骤s1440,基于混合矩阵e和协方差矩阵s确定逆混合矩阵m的系数。
[0191]
应理解的是,只要步骤的顺序确保每个步骤能够获得所需的输入,上述步骤可按照任何顺序或彼此并行地执行。
[0192]
返回至图12,解混矩阵计算器301根据包括以下步骤的程序来运算解混矩阵60(逆
混合矩阵)m
k,b

[0193]
1.针对时段k,解混矩阵计算器的输入为方向信息dir
k,p
(1≤p≤p)和能量带分数信息e
k,p,b
(1≤p≤p且1≤b≤b)。p表示主要声学分量的数量且b指示频带的数量。
[0194]
2.针对每个带b,根据以下计算解混矩阵m
k,b

[0195]
m=s
×e*
×
(e
×s×e*
)-1
ꢀꢀꢀ
(20)
[0196]
其中
“×”
指示矩阵乘积且“*”指示矩阵的共轭转置。例如,根据公式(20)的计算可对应于步骤s1440。
[0197]
可针对多个时段k中的每一个和/或针对多个频率子带b中的每一个来确定解混矩阵m。在该情况中,矩阵m及s将具有指示时段的指数k和/或指示频率子带的指数b,且矩阵e将具有指示时段的指数k,例如
[0198][0199]
一般而言,基于混合矩阵e和协方差矩阵s确定逆混合矩阵m的系数可涉及基于混合矩阵e和协方差矩阵s确定伪逆。公式(20)和(20a)中给出了该伪逆的示例。
[0200]
在公式(20)中,矩阵ek(混合矩阵)通过将n
×
n单位矩阵(in)与由应用于p个主要声学分量中的每一个的方向的移动函数形成的p个列堆叠在一起来形成:
[0201]
e=(in|pan
down
(dir1)|

|pan
down
(dir
p
))
ꢀꢀꢀ
(21)
[0202]
在公式(21)中,in是n
×
n单位矩阵,其中n指示基于通道的信号的通道数量。pan
down
(dir
p
)是具有相关联的到达方向dir
p
的第p个音频元素的移动向量,其将第p个音频元素移动至基于通道的信号的n个通道,其中p=1,

,p指示一个或多个音频元素中的相应者并且p指示一个或多个音频元素的总数量。公式(21)中的竖杆指示矩阵扩增运算。因此,矩阵e是n
×
p矩阵。
[0203]
进一步地,可针对多个时段k中的每一个确定矩阵e。在该情况下,矩阵e和到达方向dir
p
将具有指示时段的指数k,例如
[0204]ek
=(in|pan
down
(dir
k,1
)|

|pan
down
(dir
k,p
))
ꢀꢀꢀ
(21a)
[0205]
若所提出的方法按照带宽的方法操作,则所有频率子带的矩阵e可相同。
[0206]
根据步骤s1420,矩阵ek是将用于将残差音频信号和一个或多个音频元素的音频信号映射到基于通道的音频信号的通道的混合矩阵。如公式(21)和(21a)中可见,矩阵ek是基于在步骤s1410确定的移动向量pan
down
(dir)的。
[0207]
在公式(20)中,矩阵s是(n p)
×
(n p)对角矩阵。其可被看做中间表示的协方差矩阵。其系数可根据步骤s1430,基于能量信息来计算。前n个对角元素由以下给出:
[0208][0209]
其中1≤n≤n,且剩余p个对角元素由以下给出:
[0210]
{s}
n p,n p
=e
p
ꢀꢀꢀ
(23)
[0211]
其中1≤p≤p,其中e
p
是与第p个音频元素的到达方向相关联的信号功率。
[0212]
可针对多个时段k中的每一个和/或针对多个频率子带b中的每一个来确定协方差矩阵s。在该情况下,协方差矩阵s和信号功率e
p
将具有指示时段的指数k和/或指示频率子
带的指数b。前n个对角元素将由以下给出:
[0213][0214]
且剩余p个对角元素将给出为:
[0215]
{s
k,b
}
n p,n p
=e
k,p,b
(1≤p≤p)
ꢀꢀꢀ
(23a)
[0216]
在优选的实施例中,根据上述实施方案的步骤s1310,由解混器302应用解混矩阵m
k,b
以生成分离空间音频流70(作为中间表示的示例),其中前n个通道是残差流80并且剩余p个通道表示主要声学分量。
[0217]
n p通道分离空间流70 yk(f)、p通道主要对象信号90(作为在步骤s1310生成的一个或多个音频元素的音频信号的示例)ok(f)和n通道残差流80(作为在步骤s1320生成的残差音频信号的示例)rk(f)根据以下从n通道音频混合30 xk(f)来计算:
[0218][0219]rk
(f)={yk(f)}
1,..n
[0220]
ok(f)={yk(f)}
n 1..n p
ꢀꢀꢀ
(24)
[0221]
其中信号以stft形式表示,表示{yk(f)}
1..n
指示由yk(f)的通道1

n形成的n通道信号,并且{yk(f)}
n 1..n p
指示由yk(f)的通道n 1

n p形成的p通道信号。本领域技术人员应了解,可根据本领域中已知的替代方法来实现矩阵m
k,b
的应用,以提供等效于公式(24)的近似函数。
[0222]
除上文之外,在一些实施例中,主要声学分量p的数量也可以被适应以针对每个时段采用不同的值,使得pk可取决于时段指数k。例如,场景编码器200中的场景分析202可确定每个时段的pk的值。一般地,主要声学分量p的数量可以是时间相关的。p(或pk)的选择可包括元数据数据速率与重构音频场景的质量之间的权衡。
[0223]
返回至图12,空间解码器300生成m通道重建音频场景50,其中m通道流与输出移动器相关联。此可根据上述步骤s1340来完成。输出移动器的示例包括立体声移动函数、本领域中已知的基于向量的振幅移动函数以及本领域中已知的高阶多声道模拟立体声移动函数。
[0224]
例如,图12中的对象移动器91可被适应以根据以下生成m通道移动对象流92z
p
[0225][0226]
图15是提供解码紧凑空间音频场景以生成重建音频场景的方法1500的替代方案的流程图。方法1500包括步骤s1510至s1580。
[0227]
在步骤s1510,接收紧凑空间音频场景并提取编码的降混流和编码的元数据流。
[0228]
在步骤s1520,解码经编码的降混流以形成降混流。
[0229]
在步骤s1530,解码经编码的元数据流以形成方向信息和能量分数信息。
[0230]
在步骤s1540,由方向信息和能量分数信息形成逐带的解混矩阵。
[0231]
在步骤s1550,根据解混矩阵处理降混流以形成分离流。
[0232]
在步骤s1560,从分离流提取对象信号并且根据方向信息和所要输出格式来移动对象信号以产生移动的对象信号。
[0233]
在步骤s1570,从分离流提取残差信号并且根据所要输出格式来处理残差信号以创建解码的残差信号。
[0234]
最后,在步骤s1580,组合移动的对象信号和解码的残差信号以形成重建的音频场景。
[0235]
应了解,只要步骤的顺序确保每个步骤能够获得所需的输入,上述步骤可按照任何顺序或彼此并行地执行。
[0236]
上文已描述处理空间音频信号以生成空间音频信号的压缩表示的方法和处理空间音频信号的压缩表示以生成空间音频信号的重构表示的方法。另外,本公开还涉及一种用于实施该方法的设备。图16中示意性地图示了该设备1600的示例。设备1600可包括处理器1610(例如中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、一个或多个专用集成电路(asic)、一个或多个射频集成电路(rfic)或其任何组合)和耦接至处理器1610的存储器1620。处理器可被适应以实施本公开中所描述的方法的一些或所有步骤。若设备1600作为编码器(例如场景编码器),则其可(例如)接收空间音频信号(即,空间音频场景)作为输入1630。接着,设备1600可生成空间音频信号的压缩表示作为输出1640。若设备1600作为解码器(例如场景解码器),则其可接收压缩表示作为输入1630。接着,设备可生成重建音频场景作为输出1640。
[0237]
设备1600可为服务器计算机、客户端计算机、个人计算机(pc)、平板计算机、视频转换器(stb)、个人数字助理(pda)、蜂巢式电话、智能电话、网页应用、网络路由器、交换机或网桥或能够执行指定由该设备执行的动作的指令(时序的或以其他方式)的任何机器。进一步地,尽管图16中仅图示了单一设备1600,但本公开应涉及单个或共同执行指令以执行本文中所讨论的方法中的任何一个或多个的设备的任何集合。
[0238]
本公开进一步涉及一种程序(例如计算机程序),其包括指令,指令在由处理器执行时使得处理器实施本文中所描述的方法的一些或所有步骤。
[0239]
又进一步地,本公司涉及一种计算机可读(或机器可读)储存介质,其储存上述程序。此处,术语“计算机可读储存介质”包括但不限于,例如呈固态存储器、光学介质和磁性介质的形式的数据储存库。
[0240]
额外配置考虑
[0241]
除非另有特别说明,否则可从以下讨论明白,应了解的是,在本公开的讨论中,利用诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“分析”或其类似物的术语是指计算机或计算系统或类似的电子计算设备的动作和或过程,其将物理(诸如电子的)量的数据处理和/或变换成类似地表示为物理量的其他数据。
[0242]
依类似的方式,术语“处理器”可指代处理例如来自缓存器和/或存储器的电子数据以将该电子数据变换成例如可储存于缓存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可包括一个或多个处理器。
[0243]
在一示例实施例中,本文中所描述的方法可由一个或多个处理器执行,处理器接受包含一组指令的计算机可读(也称为机器可读)代码,指令在由处理器的一个或多个执行时实施本文中所描述的方法中的至少一个。包括能够执行指定将采取的动作的一组指令(时序的或以其他方式)的任何处理器。因此,示例是包括一个或多个处理器的典型处理系统。每个处理器可包括cpu、图形处理单元和可程序化dsp单元中的一个或多个。处理系统可进一步包括存储器子系统,其包括主ram和/或静态ram和/或rom。可包括总线子系统以用于组件之间的通信。处理系统进一步可为具有由网络耦接的处理器的分布式处理系统。若处理系统需要显示器,则可包括显示器,例如液晶显示器(lcd)或阴极射线管(crt)显示器。若需要手动数据输入,则处理系统还包括输入设备,诸如字母数字输入单元(诸如键盘)、指针控制设备(诸如鼠标)等等的一个或多个。处理系统还可涵盖储存系统,诸如磁盘驱动器单元。在一些配置中,处理系统可包括声音输出设备和网络接口设备。因此,存储器子系统包括计算机可读载体介质,其携载计算机可读代码(例如软件),计算机可读代码包括一组指令以在由一个或多个处理器执行时使得执行本文中所描述的方法的一个或多个。应注意,当方法包括若干元素(例如若干步骤)时,除非特别说明,否则不暗示该元素的顺序。在软件由计算机系统执行期间,软件可驻留于硬盘中,或还可完全或至少部分驻留于ram和/或处理器内。因此,存储器和处理器也构成携载计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可形成或被包括于计算机程序产品中。
[0244]
在替代示例实施例中,一个或多个处理器操作为独立设备或可在网络部署中连接(例如,联网至其他处理器),一个或多个处理器可充当服务器-用户网络环境中的服务器或用户机器或同级间或分布式网络环境中的同级机器。一个或多个处理器可形成个人计算机(pc)、平板pc、个人数字助理(pda)、蜂巢式电话、网页应用、网络路由器、交换机或网桥或能够执行指定由该机器采取的动作的一组指令(时序的或以其他方式)的任何机器。
[0245]
应注意,术语“机器”也应被视作包括单个或共同执行一组(或多组)指令以执行本文中所讨论的方法的任何一个或多个的机器的任何集合。
[0246]
因此,本文中所描述的方法中的每一个的示例实施例以携载一组指令(例如用于在一个或多个处理器(例如作为网页服务器布置的一部分的一个或多个处理器)上执行的计算机程序)的计算机可读载体介质的形式。因此,本领域技术人员应了解,本公开的示例实施例可实施为方法、诸如专用装置的装置、诸如数据处理系统的装置或例如计算机程序产品的计算机可读载体介质。计算机可读载体介质携载包括一组指令的计算机可读代码,指令在一个或多个处理器上执行时使得一个或多个处理器实施方法。因此,本的一方面可采取方法、完全硬件的示例实施例、完全软件的示例实施例或组合软件和硬件的方面的示例实施例的形式。此外,本公开可采取携载被实施在介质中的计算机可读程序代码的载体介质的形式(例如计算机可读储存介质上的计算机程序产品)。
[0247]
软件可进一步经由网络接口设备在网络上传输或接收。尽管载体介质在示例实施例中是单个介质,但术语“载体介质”应被视作包括储存一组或多组指令的单个介质或多个介质(例如集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“载体介质”也应被视作包括能够储存、编码或携载一组指令以由处理器的一个或多个执行且使得一个或多个处理器执行本公开的方法的任何一个或多个的任何介质。载体介质可采取包括(但不限于)非易失性介质、易失性介质及传输介质的诸多形式。非易失性介质包括例如光盘、磁
盘及磁光盘。易失性媒体包括动态存储器,诸如主存储器。传输介质包括同轴电缆、铜线及光纤,其包括构成总线子系统的电线。传输介质还可采取声波或光波的形式,诸如在无线电波及红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应被视作包括(但不限于):固态内存,实施在光学和磁性介质中的计算机产品;介质,其承载可由至少一个处理器或一个或多个处理器监测且表示在被执行时实施方法的一组指令的传播信号;及网络的传输介质,其承载可由一个或多个处理器的至少一个处理器监测且表示指令组的传播信号。
[0248]
应了解,在示例实施例中,所讨论的方法的步骤通过处理(例如计算机)系统的适当处理器(多个处理器)执行储存于储存器中的指令(计算机可读代码)来执行。还应了解,本公开不受限于任何特定实施方案或程序化技术,而是本公开可使用用于实施本文中所描述的功能的任何适当技术来实施。本公开不受限于任何特定程序设计语言或操作系统。
[0249]
本公开中参考“一个示例实施例”、“一些示例实施例”或“一些示例实施方式”意味着结合示例实施例所描述的特定特征、结构或特性包括于本公开的至少一个示例实施例中。因此,出现于本公开的各个位置中的词组“在一示例实施例中”、“在一些示例实施例中”或“一些示例实施方式”未必全部是指相同的示例实施例。此外,本领域技术人员将从本公开明白,可在一个或多个示例实施例中按照任何适合的方式组合特定特征、结构或特性。
[0250]
如本文中所使用,除非另有指定,否则使用序数形容词“第一”、“第二”、“第三”等等来描述共同对象仅指示相同对象的不同实例被指代并且不意图韩式所描述的对象必须在时间、空间、排序或按照任何其他方式以排列。
[0251]
在以下权利要求和说明书中,术语“包括(comprising)”、“包括(comprised of)”或“其包括”中的任何一者是开放式术语,其意味包括至少其后的组件/特征,但不排除其他。因此,权利要求中所使用的术语“包括”不应被解译限制其后所列出的装置或元素或步骤。例如,“设备包括a及b”的表述的范围不应受限于设备仅由元素a和b组成。如本文中所使用,术语“包括”或“其包括(which includes)”或“其包括(that includes)”的任何一者都是开放式术语,其也意味包括至少该术语之后的组件/特征,但不排除其他。因此,“包括(including)”与“包括(comprising)”同义且意谓“包括(comprising)”。
[0252]
应了解,在本公开的上述示例实施例中,本公开的各种特征有时一起分组于单一示例实施例、附图或其描述中以简化本公开且有助于各种发明方面的一者或多者的理解。然而,本公开的方法不应被解释为反映权利要求的要求保护的范围需要比每个权利要求中明确叙述的特征更多的特征的意图。确切而言,如以下权利要求所反映的,发明方面具有单个上文所公开的示例实施例的全部特征更少的特征。因此,说明书之后的权利要求的范围由此明确并入说明书中,其中各权利要求本身独立作为本公开的单独示例实施例。
[0253]
此外,本领域技术人员应了解,尽管本文中所描述的一些示例实施例包括其他示例实施例中包括的一些而非其他特征,但不同的示例实施例的特征的组合旨在在本公开的范围内,且形成不同的示例实施例。例如,在以下权利要求中,所要求保护的示例实施例的任何一个可以以任何组合使用。
[0254]
在本文所提供的描述中,阐述诸多具体细节。然而,应理解的是,可以在没有改具体细节的情况下实施本公开的示例实施例。在其他实例中,没有详细示出公知的方法、结构及技术以免使本说明书的理解模糊。
[0255]
因此,尽管已描述被认为是本公开的最佳模式的内容,但本领域技术人员将认识到,可在不背离本公开的精神的情况下对其进行其他和进一步修改,且所有这样的改变及修改旨在落入本公开的保护范围之内。例如,上文所给出的任何公式仅是可以使用的程序的表示。可以从框图中添加或删除功能,并且可在功能块之间互换操作。可在本公开的范围内描述的方法中添加或删除步骤。
[0256]
由以下所列出的列举示例实施例(eee),本公开的更多方面、实施例和示例实施方案将变得清楚。
[0257]
eee1是涉及一种用于将空间音频场景表示为包括音频混合流和方向元数据流的紧凑空间音频场景的方法,其中音频混合流包括一个或多个音频信号,且其中方向元数据流包括方向元数据块的时间序列,其中方向元数据块中的每一个与音频信号中的对应时段相关联,且其中空间音频场景包括每个与相应到达方向相关联的一个或多个方向性声波元素,并且其中方向元数据块中的每一个含有:(a)方向信息,其指示方向性声波元素中的每一个的到达方向;及(b)能量带分数信息,其指示针对方向性声波元素中的每一个和针对一组的两个或更多个子带中的每一个的相对于音频信号中的对应时段中的能量的方向性声波元素中的每一个中的能量。
[0258]
eee2是涉及如eee1的方法,其中(a)能量带分数信息指示多个子带中的每一个中的空间音频场景的性质,及(b)针对至少一个到达方向,包括于方向信息中的数据指示集群的两个或更多个子带中的空间音频场景的性质。
[0259]
eee3是涉及一种用于处理包括音频混合流及方向元数据流的紧凑空间音频场景以生成包括一组的一个或多个音频对象信号和残差流的分离空间音频流的方法,其中该音频混合流包括一个或多个音频信号,且其中方向元数据流包括方向元数据块的时间序列,其中方向元数据块中的每一个与音频信号中的对应时段相关联,其中针对多个子带中的每一个,该方法包括:(a)从包含在方向元数据流中的方向信息和能量带分数信息确定解混矩阵的系数;及(b)使用该解混矩阵来混合音频混合流以生成分离空间音频流。
[0260]
eee4是涉及如eee3的方法,其中方向元数据块中的每一个包含:(a)方向信息,其指示方向性声波元素中的每一个的到达方向;以及(b)能量带分数信息,其指示针对方向性声波元素中的每一个和针对一组两个或更多个子带中的每一个的相对于音频信号中的该对应时段中的能量的该等方向性声波元素中的每一个中的能量。
[0261]
eee5是涉及如eee3的方法,其中(a)针对方向元数据块中的每一个,该方向信息和能量带分数信息用于形成表示该分离空间音频流的近似协方差的矩阵s,并且(a)能量带分数信息用于形成表示定义分离空间音频流转换成音频混合流的重混矩阵的矩阵e,以及(b)根据u=s
×e*
×
(e
×s×e*
)-1
计算解混矩阵u。
[0262]
eee6是涉及如eee5的方法,其中该矩阵s是对角矩阵。
[0263]
eee7是涉及如eee3的方法,其中(a)处理残差流以生成重构残差流,(b)处理音频对象信号中的每一个以生成对应重构对象流,及(c)组合重构残差流和重构对象流中的每一个以形成重建的音频信号,其中重构音频信号包括根据紧凑空间音频场景的方向性声波元素。
[0264]
eee8是涉及如eee7的方法,其中重建音频信号包括两个信号用于经由每个耳朵处或每个耳朵附近的变换器表示给听众以提供包括根据紧凑空间音频场景的方向性声波元
素的空间音频场景的双耳体验。
[0265]
eee9是涉及如eee7的方法,其中重建音频信号包括以球谐移动函数的形式表示空间音频场景的多个信号。
[0266]
eee10是涉及一种用于处理空间音频场景以生成包括音频混合流和方向元数据流的紧凑空间音频场景的方法,其中该空间音频场景包括每个与相应到达方向相关联的一个或多个方向性声波元素,且其中方向元数据流包括方向元数据块的时间序列,其中方向元数据块中的每一个与音频信号中的对应时段相关联,该方法包括:(a)用于从空间音频场景的分析确定方向性声波组件的一者或多者的到达方向的设备;(b)用于确定空间场景中的总能量的多少分数由方向性声波元素中的每一个中的能量贡献的设备;以及(c)用于处理空间音频场景以生成音频混合流的设备。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献