声场相关渲染的制作方法

2021-11-15 17:14:00 来源：中国专利 TAG：

1.本技术涉及用于与声场相关的音频表示和渲染的装置和方法，但非排他地涉及用于音频解码器的音频表示的装置和方法。

背景技术：

2.沉浸式音频编解码器正被实现，以支持范围从低比特率操作到透明性的大量操作点。这种编解码器的示例是沉浸式语音和音频服务(ivas)编解码器，其被设计为适合于在诸如3gpp 4g/5g网络之类的通信网络上使用，包括在诸如例如用于虚拟现实(vr)的沉浸式语音和音频之类的沉浸式服务中使用。该音频编解码器被预期处理语音、音乐和通用音频的编码、解码和渲染。此外还被预期支持基于通道的音频和基于场景的音频输入，包括关于声场和声源的空间信息。编解码器还被预期以低延迟进行操作，以使能会话服务并在各种传输条件下支持高差错鲁棒性。
3.输入信号可以以所支持的多个格式之一(以及以一些所允许的格式组合)被呈现给ivas编码器。例如，单声道音频信号(没有元数据)可以使用增强型语音服务(evs)编码器来编码。其他输入格式可以使用ivas编码工具。至少一些输入可以使用元数据辅助空间音频(masa)工具或任何合适的基于空间元数据的方案。这是适用于空间音频处理的参数空间音频格式。参数空间音频处理是使用一组参数来描述声音(或声音场景)的空间方面的音频信号处理领域。例如，在从麦克风阵列进行参数化空间音频捕获时，从麦克风阵列信号估计一组参数是一种典型且有效的选择，该组参数诸如是频带中声音的方向、以及频带中被捕获声音的方向性与非方向性部分的比率。众所周知，这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可以相应地在空间声音的合成中使用，以用于双耳式耳机、扬声器、或诸如全景环绕声(ambisonics)之类的其他格式。
4.例如，可以存在两个通道(立体声)的音频信号和空间元数据。此外，空间元数据可以定义参数，诸如：方向索引(direction index)，描述了声音按时频参数间隔的到达方向；直接对总能量比(direct
‑
to
‑
total energy ratio)，描述了针对方向索引(即，时频子帧)的能量比；扩展相干性(spread coherence)，描述了针对方向索引(即，时频子帧)的能量扩展；扩散对总能量比(diffuse
‑
to
‑
total energy ratio)，描述了非方向性声音在周围方向上的能量比；环绕相干性(surround coherence)，描述了非方向性声音在在周围方向上的相干性；剩余对总能量比(remainder
‑
to
‑
total energy ratio)，描述了剩余部分(诸如麦克风噪声)声能的能量比，以满足能量比之和为1的要求；以及距离(distance)，以对数尺度描述了以米为单位的源自方向索引(即，时频子帧)的声音的距离。
5.ivas流可以被解码并被渲染为各种输出格式，包括双声道输出、多通道输出、以及ambisonic(foa/hoa)输出。另外，可以存在用于外部渲染的接口，其中输出格式可以对应于例如输入格式。
6.由于空间(例如masa)元数据以与输出格式无关的方式描绘期望的空间音频感知，因此，任何具有空间元数据的流可以被灵活地渲染成任何一种上述的输出格式。然而，由于
masa流可以源自各种输入，因此，解码器接收的传输音频信号可具有不同的特性。因此，解码器必须考虑这些方面，以便能够产生最佳的音频质量。

技术实现要素：

7.根据第一方面，提供了一种装置，其包括被配置为执行以下操作的部件：获得至少两个音频信号；确定至少两个音频信号的类型；基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
8.至少两个音频信号可以是以下中的一个：传输音频信号；以及先前处理的音频信号。
9.该部件可以被配置为获得与至少两个音频信号相关联的至少一个参数。
10.被配置为确定至少两个音频信号的类型的该部件可以被配置为基于与至少两个音频信号相关联的至少一个参数来确定至少两个音频信号的类型。
11.被配置为基于至少一个参数来确定至少两个音频信号的类型的该部件可以被配置为执行以下中的一个：从至少一个参数中提取并解码至少一个类型信号；以及当至少一个参数表示与至少两个音频信号相关联的空间音频方面时，分析至少一个参数以确定至少两个音频信号的类型。
12.被配置为分析至少一个参数以确定至少两个音频信号的类型的该部件可以被配置为：基于至少两个音频信号，确定宽带左或右通道对总能量比(broadband left or right channel to total energy ratio)；基于至少两个音频信号，确定高频左或右通道对总能量比(higher frequency left or right channel to total energy ratio)；基于至少两个音频信号，确定总和对总能量比(sum to total energy ratio)；基于至少两个音频信号，确定差值对目标能量比(subtract to target energy ratio)；以及基于以下中的至少一个来确定至少两个音频信号的类型：宽带左或右通道对总能量比；基于至少两个音频信号的高频左或右通道对总能量比；基于至少两个音频信号的总和对总能量比；以及差值对目标能量比。
13.该部件可以被配置为确定与至少一个音频信号的类型相关联的至少一个类型参数。
14.被配置为基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的该部件可以被配置为基于与至少两个音频信号的类型相关联的至少一个类型参数来转换至少两个音频信号。
15.至少两个音频信号的类型包括以下中的至少一个：捕获麦克风布置；捕获麦克风分隔距离；捕获麦克风参数；传输通道标识符；间隔音频信号类型；下混合音频信号类型；重合音频信号类型；以及传输通道布置。
16.被配置为基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的该部件可以被配置为：将至少两个音频信号转换成ambisonic音频信号表示；将至少两个音频信号转换成多通道音频信号表示；以及将至少两个音频信号下混合成更少的音频信号。
17.被配置为基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的该部件可以被配置为基于至少两个音频信号和至少两个音频信号的类型
来生成至少一个原型信号。
18.根据第二方面，提供了一种方法，其包括：获得至少两个音频信号；确定至少两个音频信号的类型；基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
19.至少两个音频信号可以是以下中的一个：传输音频信号；以及先前处理的音频信号。
20.该方法还可以包括获得与至少两个音频信号相关联的至少一个参数。
21.确定至少两个音频信号的类型可以包括基于与至少两个音频信号相关联的至少一个参数来确定至少两个音频信号的类型。
22.基于至少一个参数来确定至少两个音频信号的类型可以包括以下中的一个：从至少一个参数中提取并解码至少一个类型信号；以及当至少一个参数表示与至少两个音频信号相关联的空间音频方面时，分析至少一个参数以确定至少两个音频信号的类型。
23.分析至少一个参数以确定至少两个音频信号的类型可以包括：基于至少两个音频信号，确定宽带左或右通道对总能量比；基于至少两个音频信号，确定高频左或右通道对总能量比；基于至少两个音频信号，确定总和对总能量比；基于至少两个音频信号，确定差值对目标能量比；以及基于以下中的至少一个来确定至少两个音频信号的类型：宽带左或右通道对总能量比；基于至少两个音频信号的高频左或右通道对总能量比；基于至少两个音频信号的总和对总能量比；以及差值对目标能量比。
24.该方法还可以包括确定与至少一个音频信号的类型相关联的至少一个类型参数。
25.基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染还可以包括基于与至少两个音频信号的类型相关联的至少一个类型参数来转换至少两个音频信号。
26.至少两个音频信号的类型可以包括以下中的至少一个：捕获麦克风布置；捕获麦克风分隔距离；捕获麦克风参数；传输通道标识符；间隔音频信号类型；下混合音频信号类型；重合音频信号类型；以及传输通道布置。
27.基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染可以包括以下中的一个：将至少两个音频信号转换成ambisonic音频信号表示；将至少两个音频信号转换成多通道音频信号表示；以及将至少两个音频信号下混合成更少的音频信号。
28.基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染可以包括基于至少两个音频信号和至少两个音频信号的类型来生成至少一个原型信号。
29.根据第三方面，提供了一种装置，其包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少：获得至少两个音频信号；确定至少两个音频信号的类型；基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
30.至少两个音频信号可以是以下中的一个：传输音频信号；以及先前处理的音频信号。
31.该装置可以被配置为获得与至少两个音频信号相关联的至少一个参数。
32.被使得确定至少两个音频信号的类型的该装置可以被使得基于与至少两个音频信号相关联的至少一个参数来确定至少两个音频信号的类型。
33.被使得基于至少一个参数来确定至少两个音频信号的类型的该装置可以被使得执行以下中的一个：从至少一个参数中提取并解码至少一个类型信号；以及当至少一个参数表示与至少两个音频信号相关联的空间音频方面时，分析至少一个参数以确定至少两个音频信号的类型。
34.被使得分析至少一个参数以确定至少两个音频信号的类型的该装置可以被使得：基于至少两个音频信号，确定宽带左或右通道对总能量比；基于至少两个音频信号，确定高频左或右通道对总能量比；基于至少两个音频信号，确定总和对总能量比；基于至少两个音频信号，确定差值对目标能量比；以及基于以下中的至少一个来确定至少两个音频信号的类型：宽带左或右通道对总能量比；基于至少两个音频信号的高频左或右通道对总能量比；基于至少两个音频信号的总和对总能量比；以及差值对目标能量比。
35.该装置可以被使得确定与至少一个音频信号的类型相关联的至少一个类型参数。
36.被使得基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的该装置可以被使得基于与至少两个音频信号的类型相关联的至少一个类型参数来转换至少两个音频信号。
37.至少两个音频信号的类型包括以下中的至少一个：捕获麦克风布置；捕获麦克风分隔距离；捕获麦克风参数；传输通道标识符；间隔音频信号类型；下混合音频信号类型；重合音频信号类型；以及传输通道布置。
38.被使得基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的该装置可以被使得：将至少两个音频信号转换成ambisonic音频信号表示；将至少两个音频信号转换成多通道音频信号表示；以及将至少两个音频信号下混合成更少的音频信号。
39.被使得基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的该装置可以被使得基于至少两个音频信号和至少两个音频信号的类型来生成至少一个原型信号。
40.根据第四方面，提供了一种装置，其包括：获得电路，被配置为获得至少两个音频信号；确定电路，被配置为确定至少两个音频信号的类型；处理电路，被配置为基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
41.根据第五方面，提供了一种包括指令(或包括程序指令的计算机可读介质)的计算机程序，这些指令用于使装置至少执行以下操作：获得至少两个音频信号；确定至少两个音频信号的类型；基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
42.根据第六方面，提供了一种非暂时性计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得至少两个音频信号；确定至少两个音频信号的类型；基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
43.根据第七方面，提供了一种装置，其包括：用于获得至少两个音频信号的部件；用于确定至少两个音频信号的类型的部件；用于基于至少两个音频信号的所确定的类型来处理至少两个音频信号以被配置为被渲染的部件。
44.根据第八方面，提供了一种计算机可读介质，其包括用于使装置至少执行以下操作的程序指令：获得至少两个音频信号；确定至少两个音频信号的类型；基于至少两个音频信号的所确定的类型，处理至少两个音频信号以被配置为被渲染。
45.一种装置，包括用于执行如上所述的方法的动作的部件。
46.一种装置，被配置为执行如上所述的方法的动作。
47.一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。
48.一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。
49.一种电子设备可以包括如本文所述的装置。
50.一种芯片组可以包括如本文所述的装置。
51.本技术的实施例旨在解决与现有技术相关联的问题。
附图说明
52.为了更好地理解本技术，现在将通过示例的方式参考附图，其中：
53.图1示意性地示出适于实现一些实施例的装置的系统；
54.图2示意性地示出根据一些实施例的示例解码器/渲染器；
55.图3示出根据一些实施例的示例解码器/渲染器的操作的流程图；
56.图4示意性地示出根据一些实施例的如图2中所示的示例传输音频信号类型确定器；
57.图5示意性地示出根据一些实施例的如图2中所示的第二示例传输音频信号类型确定器；
58.图6示出根据一些实施例的第二示例传输音频信号类型确定器的操作的流程图；
59.图7示意性地示出根据一些实施例的如图2中所示的示例元数据辅助空间音频信号到ambisonics格式转换器；
60.图8示出根据一些实施例的示例元数据辅助空间音频信号到ambisonics格式转换器的操作的流程图；
61.图9示意性地示出根据一些实施例的第二示例解码器/渲染器；
62.图10示出根据一些实施例的另一示例解码器/渲染器的操作的流程图；
63.图11示意性地示出根据一些实施例的如图9中所示的示例元数据辅助空间音频信号到多通道音频信号格式转换器；
64.图12示出根据一些实施例的示例元数据辅助空间音频信号到多通道音频信号格式转换器的操作的流程图；
65.图13示意性地示出根据一些实施例的第三示例解码器/渲染器；
66.图14示出根据一些实施例的第三示例解码器/渲染器的操作的流程图；
67.图15示意性地示出根据一些实施例的如图13中所示的示例元数据辅助空间音频信号下混合器；
68.图16示出根据一些实施例的示例元数据辅助空间音频信号下混合器的操作的流程图；
69.图17示出适于实现如图1、2、4、5、7、9、11、13和15中所示的装置的示例设备。
具体实施方式
70.下面进一步详细描述了用于提供空间元数据辅助音频信号的有效渲染的合适装置和可能的机制。
71.关于图1，示出了一种用于实现音频捕获和渲染的示例装置和系统。系统100被示出为具有“分析”部分121和“解复用器/解码器/合成器”部分133。“分析”部分121是从接收多通道扬声器信号到元数据和传输信号的编码的部分，而“解复用器/解码器/合成器”部分133是从编码元数据和传输信号的解码到重新生成信号的呈现(例如，以多声道扬声器的形式)的部分。
72.到系统100和“分析”部分121的输入是多通道信号102。在以下示例中描述了麦克风通道信号输入，然而，在其他实施例中，可以实现任何合适的输入(或合成多通道)格式。例如，在一些实施例中，空间分析器和空间分析可以在编码器外部实现。例如，在一些实施例中，与音频信号相关联的空间元数据可以作为单独的比特流被提供给编码器。在一些实施例中，空间元数据可以被提供为一组空间(方向)索引值。
73.多通道信号被传递给传输信号生成器103和分析处理器105。
74.在一些实施例中，传输信号生成器103被配置为接收多通道信号，生成包括确定数量的通道的合适的传输信号，并输出传输信号104。例如，传输信号生成器103可以被配置为生成多通道信号的2
‑
音频通道下混合。确定数量的通道可以是任何合适数量的通道。在一些实施例中，传输信号生成器被配置为例如通过波束成形技术来以其他方式选择或组合输入音频信号到确定数量的通道并将其输出为传输信号。
75.在一些实施例中，传输信号生成器103是可选的，并且多通道信号以与此示例中的传输信号相同的方式在未经处理的情况下被传递给“编码器/mux”块107。
76.在一些实施例中，分析处理器105还被配置为接收多通道信号，并分析该信号以产生与多通道信号相关联并因此与传输信号104相关联的元数据106。分析处理器105可以被配置为生成元数据，该元数据对于每个时频分析间隔可以包括方向参数108和能量比率参数110(其示例是扩散度参数)和相干性参数112。在一些实施例中，方向、能量比和相干性参数可以被认为是空间音频参数。换句话说，空间音频参数包括旨在表征由多通道信号(或通常是两个或更多个回放音频信号)创建的声场的参数。
77.在一些实施例中，所生成的参数可在频带与频带之间不同。因此，例如，在频带x中，所有参数被生成和发送，而在频带y中，仅其中一个参数被生成和发送，此外，在频带z中，没有参数被生成或发送。这种情况的实际示例可以是对于诸如最高频带的一些频带，出于感知方面原因而不需要一些参数。传输信号104和元数据106可以被传递给“编码器/mux”块107。
78.在一些实施例中，空间音频参数可以被分组或分离成方向性和非方向性(例如，扩散)参数。
[0079]“编码器/mux”块107可以被配置为接收传输(例如，下混合)信号104，并生成这些音频信号的合适编码。。在一些实施例中，“编码器/mux”可以是计算机(运行存储在存储器上和至少一个处理器上的合适的软件)，或者可替代地可以是例如使用fpga或asic的特定设备。编码可以使用任何合适的方案来实现。此外，“编码器/mux”块107可以被配置为接收元数据，并生成编码或压缩形式的信息。在一些实施例中，在图1中由虚线所示的传输或存
储之前，“编码器/mux”块107可以进一步交织、复用到单个数据流111，或者将元数据嵌入编码的下混合信号内。复用可以使用任何合适的方案来实现。
[0080]
在解码器侧，所接收或获取的数据(流)可以由“解复用器/解码器/合成器”133接收。“解复用器/解码器/合成器”133可以对编码流进行解复用，并对音频信号进行解码以获得传输信号。类似地，“解复用器/解码器/合成器”133可以被配置为接收编码的元数据并对其进行解码。在一些实施例中，“解复用器/解码器/合成器”133可以是计算机(运行存储在存储器和至少一个处理器上的合适的软件)，或者可替代地是例如使用fpga或asic的特定设备。
[0081]
系统100的“解复用器/解码器/合成器”部分133可以进一步被配置为基于传输信号和元数据来以任何合适的格式重新创建采用多通道信号110形式的合成空间音频(其可以是多通道扬声器格式，或者在一些实施例中是任何合适的输出格式，诸如用于耳机收听的双耳信号或ambisonics信号，具体取决于使用实例)。
[0082]
因此，总而言之，首先，该系统(分析部分)被配置为接收多通道音频信号。
[0083]
进而，该系统(分析部分)被配置为生成合适的传输音频信号(例如，通过选择或下混合一些音频信号通道)。
[0084]
该系统进而被配置为对传输信号和元数据进行编码以用于存储/传输。
[0085]
此后，该系统可以存储/发送编码的传输和元数据。
[0086]
该系统可以获取/接收编码的传输和元数据。
[0087]
进而，该系统被配置为从编码的传输和元数据参数中提取传输和元数据，例如，对编码的传输和元数据参数进行解复用和解码。
[0088]
该系统(合成部分)被配置为基于所提取的传输音频信号和元数据来合成输出多通道音频信号。关于解码器(合成部分)，它被配置为接收空间元数据和传输音频信号，其例如可以是5.1信号的下混合(的可能的预处理版本)、来自移动设备的两个间隔麦克风信号、或来自重合麦克风阵列的两个波束模式。
[0089]
解码器可以被配置为从空间元数据和传输音频信号来渲染空间音频(诸如ambisonics)。这通常通过使用如下用于从这种输入来渲染空间音频的两种方法之一来实现：线性渲染和参数化渲染。
[0090]
假定在频带中进行处理，线性渲染是指使用一些静态混合权重来生成所期望的输出。参数化渲染是指基于空间元数据来修改传输音频信号以生成所期望的输出。
[0091]
已经提出了从各种输入来生成ambisonics的方法：
[0092]
在来自5.1信号的传输音频信号和空间元数据的情况下，参数化处理可用于渲染ambisonics；
[0093]
在来自间隔麦克风的传输音频信号和空间元数据的情况下，还可以使用线性和参数化处理的组合；
[0094]
在来自重合麦克风的传输音频信号和空间元数据的情况下，可以使用线性和参数化处理的组合。
[0095]
因此，存在多种用于从各种输入来渲染ambisonics的方法。然而，所有这些ambisonic渲染方法都假定某种输入。如下文所讨论的一些实施例示出了防止如下问题发生的装置和方法。
[0096]
使用线性渲染，y信号，其是ambisonics中的左右定向的一阶(八字形)信号，可以通过y(f)＝s0(f)
‑
s1(f)从两个重合的相对心形被创建，其中，f是频率。作为另一个示例，y信号可以通过y(f)＝
‑
i(s0(f)
‑
s1(f))g
eq
(f)从间隔麦克风被创建，其中，g
eq
(f)是频率相关均衡器(其取决于麦克风距离)，i是虚数单位。对间隔麦克风的处理(包含
‑
90度相移和频率相关均衡)与对重合麦克风的处理不同，并且使用错误的处理技术可能会导致音频质量下降。
[0097]
在某些渲染方案中使用参数化渲染需要使用线性手段来生成“原型”信号。进而，基于空间元数据，在时频域中自适应地修改这些原型信号。优化地，原型信号应当尽可能多地跟随目标信号，以使最小化对参数化处理的需求，从而最小化来自参数化处理的可能的伪影。例如，原型信号应当在足够程度上包含与对应的输出通道相关的所有信号分量。
[0098]
例如，当渲染全向信号w时(其他ambisonic信号也存在类似的效果)，可以例如用两种直接的方法来从立体声传输音频信号创建原型：
[0099]
选择一个通道(例如，左通道)；或
[0100]
对这两个通道求和。
[0101]
其选择在很大程度上取决于传输音频信号类型。如果传输信号源自5.1信号，则通常左侧信号是仅左传输音频信号，而右侧信号是仅右传输音频信号(当使用常规下混合矩阵时)。因此，使用一个通道用于原型会丢失另一个通道的信号内容，从而导致生成清晰的伪影(例如，在最坏的情况下，在一个所选择的通道上根本没有信号存在)。因此，在这种情况下，w原型最好被构造为这两个通道之和。另一方面，如果传输信号源自间隔麦克风，则使用传输音频信号之和作为w信号的原型会导致严重的梳状滤波(因为在信号之间存在时间延迟)。这会导致与上述类似的伪影。在这种情况下，最好只选择这两个通道之一作为w原型，至少在高频范围内。
[0102]
因此，没有适合于所有传输音频信号类型的好的选择。
[0103]
因此，利用线性和参数化方法，将针对某个传输音频信号类型而设计的空间音频处理应用于另一个传输音频信号类型，预计将会产生明显的音频质量劣化。
[0104]
关于以下实施例和示例进一步详细讨论的概念涉及音频编码和解码，其中，解码器从编码器接收至少两个传输音频信号。此外，实施例可以是其中传输音频信号可以是至少两个类型，例如5.1信号的下混合、间隔麦克风信号、或重合麦克风信号。此外，在一些实施例中，装置和方法实现了一种提高传输音频信号的处理的质量并提供所确定的输出(例如，ambisonics、5.1、单声道)的解决方案。通过确定传输音频信号的类型并基于所确定的传输音频信号类型来执行音频处理，可以提高质量。
[0105]
在如本文中进一步详细讨论的一些实施例中，传输音频信号类型通过以下任意一个操作来确定：
[0106]
获得说明传输音频信号类型的元数据，或
[0107]
基于传输音频信号(以及可能的空间元数据，如果可用的话)它们本身，确定传输音频信号类型。
[0108]
说明传输音频信号类型的元数据可以包括例如以下条件：
[0109]
间隔麦克风(可能伴随有麦克风的位置)；
[0110]
重合麦克风或与重合麦克风有效类似的波束(可能伴随有麦克风的方向性模式)；
[0111]
从多通道音频信号(诸如5.1)的下混合。
[0112]
基于对传输音频信号它们本身的分析来确定传输音频信号类型可以是基于将频带或组合(以不同方式)的频谱效果与预期的频谱效果(部分地基于空间元数据，如果可用的话)相比较。
[0113]
此外，在一些实施例中，音频信号的处理可以包括：
[0114]
渲染ambisonic信号；
[0115]
渲染多通道音频信号(例如，5.1)；以及
[0116]
将传输音频信号下混合成更少数量的音频信号。
[0117]
图2示出了适于实现一些实施例的示例解码器的示意图。示例实施例可以例如在“解复用器/解码器/合成器”块133内实现。在此示例中，输入是包含两个音频通道和空间元数据的元数据辅助空间音频(masa)流。然而，如本文所讨论的，输入格式可以是任何合适的元数据辅助空间音频格式。
[0118]
(masa)比特流被转发到传输音频信号类型确定器201。传输音频信号类型确定器201被配置为基于比特流来确定传输音频信号类型202和可能的一些附加参数204(诸如麦克风距离)。所确定的参数被转发到masa到ambisonic信号转换器203。
[0119]
masa到ambisonics信号转换器203被配置为接收比特流和传输音频信号类型202(以及可能的一些附加参数204)，并被配置为基于所确定的传输音频信号类型202(和可能的附加参数204)来将masa流转换成ambisonic信号。
[0120]
在图3中所示的流程图中概述了该示例的操作。
[0121]
如图3中的步骤301所示，第一操作是接收或获得比特流(masa流)。
[0122]
如图3中的步骤303所示，随后的操作是基于该比特流来确定传输音频信号类型(以及生成类型信号或指示符和可能的其他附加参数)。
[0123]
如图3中的步骤305所示，在已确定传输音频信号类型之后，下一操作是基于所确定的传输音频信号类型来将比特流(masa流)转换成ambisonic信号。
[0124]
图4示出了示例传输音频信号类型确定器201的示意图。在此示例中，示例传输音频信号类型确定器适用于其中传输音频信号类型在masa流中可用的情况。
[0125]
在此示例中，示例传输音频信号类型确定器201包括传输音频信号类型提取器401。传输音频信号类型提取器401被配置为接收比特(masa)流，并从masa流中提取(即，读取和/或解码)类型指示符。这种信息例如可以在masa流的“通道音频格式”字段中获得。此外，如果附加参数可用，那么它们也被提取。此信息从传输音频信号类型提取器401被输出。在一些实施例中，传输音频信号类型可以包括“间隔(spaced)”、“下混合(downmix)”、“重合(coincident)”。在一些其他实施例中，传输音频信号类型可以包括任何合适的值。
[0126]
图5示出了另一示例传输音频信号类型确定器201的示意图。在此示例中，传输音频信号类型不能直接从masa流中提取或解码而获得。因此，此示例从对masa流的分析来估计或确定传输音频信号类型。在一些实施例中，此确定是基于使用揭示不同的传输音频信号类型的某些频谱效果的一组估计器/能量比较。
[0127]
在一些实施例中，传输音频信号类型确定器201包括传输音频信号和空间元数据提取器/解码器501。传输音频信号和空间元数据提取器/解码器501被配置为接收masa流，并从masa流中提取和/或解码传输音频信号和空间元数据。所得到的传输音频信号502可以
被转发到时间/频率变换器503。此外，所得到的空间元数据522可以被转发到差值与目标能量比较器511。
[0128]
在一些实施例中，传输音频信号类型确定器201包括时间/频率变换器503。时间/频率变换器503被配置为接收传输音频信号502，并将它们转换到时频域。合适的变换例如包括短时傅立叶变换(stft)和复调制正交镜像滤波器组(qmf)。所得到的信号被标示为s
i
(b,n)，其中，i是信道索引，b是频率点(frequency bin)索引，n是时间索引。在传输音频信号(从提取器和/或解码器的输出)已经在时频域中的情况下，这可以被省略，或者可替代地，可以包含从一个时频域表示到另一个时频域表示的变换。t/f域传输音频信号504可以被转发到比较器。
[0129]
在一些实施例中，传输音频信号类型确定器201包括宽带l/r对总能量比较器505。宽带l/r对总能量比较器505被配置为接收t/f域传输音频信号504，并输出宽带l/r对总能量比参数。
[0130]
在宽带l/r对总能量比较器505内，计算宽带左、右和总能量：
[0131][0132][0133]
e
total,bb
(n)＝e
left,bb
(n) e
right,bb
(n)
[0134]
其中，b是频率点的数量。这些能量例如通过下式进行平滑化：
[0135]
e
′
x,bb
(n)＝a1e
x,bb
(n) b1e
′
x,bb
(n
‑
1)
[0136]
其中，a1和b1是平滑系数(例如，a1＝0.01，b1＝1
‑
a1)。进而，宽带l/r对总能量比较器505被配置为选择并缩放最小的左右能量：
[0137]
e
′
lr,bb
(n)＝2min(e
′
left,bb
(n),e
′
right,bb
(n))
[0138]
其中，乘数2用于相对于两个通道之和e
′
total,bb
(n)来归一化能量。
[0139]
进而，宽带l/r对总能量比较器505可以生成宽带l/r对总能量比506为：
[0140][0141]
其进而被输出为比率506。
[0142]
在一些实施例中，传输音频信号类型确定器201包括高频l/r对总能量比较器507。高频l/r对总能量比较器507被配置为接收t/f域传输音频信号504，并输出高频l/r对总能量比参数。
[0143]
在宽带l/r对总能量比较器507内，计算高频带左、右和总能量：
[0144]
[0169]
这可以被认为是对于至少某些输入信号类型，ambisonics的y信号的“原型”(y信号具有偶极子的方向性模式，其中左侧为正瓣，右侧为负瓣).
[0170]
进而，差值对目标能量比较器511可以被配置为针对y信号计算目标能量e
target
(b,n)。这是基于估计应当如何基于空间元数据而在球面谐波之间分布总能量。例如，在一些实施例中，差值对目标能量比较器511被配置为基于空间元数据和能量估计来构建目标协方差矩阵(信道能量和互相关)。然而，在一些实施例中，估计仅y信号的能量，其是目标协方差矩阵的一个条目。因此，作为针对y的目标能量e
target
(b,n)由两部分组成：
[0171]
e
target
(b,n)＝e
target,amb
(b,n) e
target,dir
(b,n)
[0172]
其中，e
target,amb
(b,n)是目标能量的环境/非方向性部分，其由下式被定义：
[0173][0174]
其中，r(b,n)是空间元数据的在0与1之间的直接对总能量比参数，c
sur
(b,n)是空间元数据的在0与1之间的环绕相干性参数(环绕相干声音不会被y偶极子捕获，因为在这种情况下，正瓣和负瓣相互抵消)。除以3是因为假定用于ambisonic输出的sn3d归一化方案，并且在这种情况下，y分量的环境能量是总全向能量的三分之一。
[0175]
应当注意，空间元数据的频率和/或时间分辨率对于每个b,n可以更低，从而对于若干频率或时间索引，参数可以相同。
[0176]
e
target,dir
(b,n)是更方向性部分的能量。在其构造中，需要定义作为空间元数据中在0与1之间的扩展相干性c
spread
(b,n)参数的函数的扩展相干分布向量：
[0177][0178]
差值对目标能量比较器511还可以被配置为确定方位角值的向量：
[0179][0180]
其中，θ(b,n)是以弧度为单位的空间元数据的方位角值。假定基于向量条目的sin()操作，则直接部分目标能量为：
[0181]
e
target,dir
(b,n)＝sin(θ(b,n))
t
v
distr,3
(b,n)e
total
(b,n)r(b,n)
[0182]
因此，获得e
target
(b,n)。在一些实施例中，这些能量例如可以通过下式进行平滑化：
[0183]
e
′
x
(b,n)＝a4e
x
(b,n) b4e
′
x
(b,n
‑
1)
[0184]
其中，a4和b4是平滑系数(例如，a4＝0.0004，b4＝1
‑
a4)。
[0185]
此外，差值对目标能量比较器511被配置为使用在最低频率点的能量来计算差值对目标比512为：
[0186][0187]
其进而被输出。
[0188]
在一些实施例中，传输音频信号类型确定器201包括传输音频信号类型(基于所估计的度量)确定器513。传输音频信号类型确定器513被配置为接收宽带l/r对总能量比506、高频l/r对总能量比508、最小总和对总能量比510和差值对目标比512，并基于这些所接收的所估计度量来确定传输音频信号类型。
[0189]
决定可以通过各种方式来完成，并且实际实现可以在许多方面有所不同，诸如所使用的t/f变换。非限制性形式的示例可以是传输音频信号类型(基于所估计的度量)确定器513首先计算间隔度量的变化：
[0190][0191]
如果v(n)<
‑
3，否则ξ
s
(n)＝0
[0192]
进而，传输音频信号类型(基于所估计的度量)确定器513可以被配置为计算下混合度量的变化：
[0193][0194]
如果v(n)>0，否则ξ
d1
(n)＝0
[0195][0196]
如果η(n)<
‑
12，否则ξ
d2
(n)＝0
[0197]
进而，传输音频信号类型(基于所估计的度量)确定器513可以基于这些度量来决定传输音频信号是源自间隔麦克风还是它们是来自环绕声信号(诸如5.1)的下混合。例如，其中，
[0198]
如果ξ
s
(n)>1，t(n)＝
″
spaced
″
[0199]
否则如果ξ
d1
(n)>1∨ξ
d2
(n)>1，t(n)＝
″
downmix
″
[0200]
否则t(n)＝t(n
‑
1)
[0201]
在此示例中，传输音频信号类型(基于所估计的度量)确定器513不检测重合麦克风类型。然而，在实践中，根据t(n)＝
″
downmix
″
类型的处理通常也可以在重合捕获的情况下(例如，朝向左和右定向的心形)产生良好的音频。
[0202]
进而，传输音频信号类型(基于所估计的度量)确定器513可以被配置为输出传输音频信号类型t(n)作为传输音频信号类型202。在一些实施例中，可以输出其他参数204。
[0203]
图6概述了图5中所示的装置的操作。因此，在一些实施例中，如图6中步骤601所示，第一操作是从masa流(或比特流)中提取和/或解码传输音频信号和元数据。
[0204]
如图6中步骤603所示，下一操作可以是对传输音频信号进行时频域变换。
[0205]
然后可以进行一系列比较。例如，如图6中步骤605所示，通过将宽带l/r能量值与总能量值进行比较，可以生成宽带l/r对总能量比。
[0206]
例如，如图6中步骤607所示，通过将高频l/r能量值与总能量值进行比较，可以生
成高频l/r对总能量比。
[0207]
如图6中步骤609所示，通过将和能量值与总能量值进行比较，可以生成总和对总能量比。
[0208]
此外，如图6中步骤611所示，可以生成差值对目标能量比。
[0209]
在已确定这些度量之后，如图6中步骤613所示，该方法进而可以通过分析这些度量比率来确定传输音频信号类型。
[0210]
图7更详细地示出了示例masa到ambisonic转换器203。masa到ambisonic转换器203被配置为接收masa流(比特流)和传输音频信号类型202以及可能的附加参数204，并被配置为基于所确定的传输音频信号类型来将masa流转换成ambisonic信号。
[0211]
masa到ambisonic转换器203包括传输音频信号和空间元数据提取器/解码器501。其被配置为以与在图5中示出并在其中讨论的传输音频信号类型确定器中发现的相同的方式来接收masa流并输出传输音频信号502和空间元数据522。在一些实施例中，提取器/解码器501是来自传输音频信号类型确定器的提取器/解码器。所得到的传输音频信号502可以被转发到时间/频率变换器503。此外，所得到的空间元数据522可以被转发到信号混合器705。
[0212]
在一些实施例中，masa到ambisonic转换器203包括时间/频率变换器503。时间/频率变换器503被配置为接收传输音频信号502，并将它们转换到时频域。合适的变换例如包括短时傅立叶变换(stft)和复调制正交镜像滤波器组(qmf)。所得到的信号被标示为s
i
(b,n)，其中，i是信道索引，b是频率点索引，n是时间索引。如果音频提取和/或解码的输出已经在时频域中，则可以省略该块，或者可替代地，它可以包含从一种时频域表示到另一种时频域表示的变换。t/f域传输音频信号504可以被转发到原型信号创建器701。在一些实施例中，时间/频率变换器503是来自传输音频信号类型确定器的相同的时间/频率变换器。
[0213]
在一些实施例中，masa到ambisonic转换器203包括原型信号创建器701。原型信号创建器701被配置为接收t/f域传输音频信号504、传输音频信号类型202和可能的附加参数204。进而，t/f原型信号702可以被输出到信号混合器705和去相关器703。
[0214]
在一些实施例中，masa到ambisonic转换器203包括去相关器703。去相关器703被配置为接收t/f原型信号702，应用去相关，并将去相关的t/f原型信号704输出到信号混合器705。在一些实施例中，去相关器703是可选的。
[0215]
在一些实施例中，masa到ambisonic转换器203包括信号混合器705。信号混合器705被配置为接收t/f原型信号702、去相关的t/f原型信号和空间元数据522。
[0216]
原型信号创建器701被配置为基于传输音频信号类型来针对球面谐波ambisonics(foa/hoa)中的每一个生成原型信号。
[0217]
在一些实施例中，原型信号创建器701被配置为进行操作以使得：
[0218]
如果t(n)＝
″
spaced
″
，则w信号的原型可以被创建如下：
[0219][0220]
w
proto
(b,n)＝s0(b,n),b>b3[0221]
在实践中，w
proto
(b,n)可以被创建为在低频下的传输音频信号的平均(其中信号大致同相并且没有梳状滤波发生)，并且通过选择在高频下的通道之一。b3的值取决于t/f变
换和麦克风之间的距离。如果距离未知，则可以使用一些默认值(例如，对应于1khz的值)。
[0222]
如果t(n)＝
″
downmix
″
或t(n)＝
″
coincident
″
，w信号的原型可以被创建如下：
[0223]
w
proto
(b,n)＝s0(b,n) s1(b,n)
[0224]
w
proto
(b,n)是通过对传输音频信号求和而创建的，因为可以假定通常在具有这些信号类型的原始音频信号之间没有显著的延迟。
[0225]
关于y原型信号
[0226]
如果t(n)＝
″
spaced
″
，则y信号的原型可以被创建如下：
[0227][0228]
y
proto
(b,n)＝
‑
i(s0(b,n)
‑
s1(b,n))g
eq
(b),b4<b≤b5[0229]
y
proto
(b,n)＝s0(b,n),b>b5[0230]
在中频下(b4与b5之间)，可以通过减去传输信号、相移
‑
90度、以及进行均衡来创建偶极子信号。因此，它可以作为y信号的良好的原型，特别是在麦克风距离已知的情况下，，并因此均衡系数是合适的。在低频和高频下这是不可行的，并且原型信号以与全向w信号相同的方式来生成。
[0231]
如果准确已知麦克风距离，则y原型可以直接被用于在那些频率下的y(即，y(b,n)＝y
proto
(b,n))。如果麦克风间距未知，则可以使用g
eq
(b)＝1。
[0232]
在一些实施例中，信号混合器705可以在频带中应用增益处理，以利用潜在的增益平滑来将频带中w
proto
(b,n)的能量校正为频带中的目标能量。频带中全向信号的目标能量可以是该频带中传输音频信号能量之和。此处理的结果是全向信号w(b,n)。
[0233]
对于y
proto
(b,n)不能直接被用于y(b,n)的y信号并且当频率在b4与b5之间时，执行自适应增益处理。这种情况类似于上述全向w的情况：除了可能的错误频谱以外，原型信号已经是y偶极子，并且信号混合器在频段中对原型信号进行增益处理。(另外，关于y信号，在此特定上下文中不需要去相关)。增益处理可以是指使用频带中的空间元数据(方向、比率、其他参数)和整体信号能量估计(例如，传输信号能量之和)来确定y分量的能量在频带中应当是什么，进而利用增益来将频带中原型信号的能量校正为所确定的能量，其结果进而是输出y(b,n)。
[0234]
在t(n)＝
″
spaced"的当前上下文中，前述生成y(b,n)的过程并非对于所有频率都是有效的。信号混合器和去相关器根据具有这种传输信号类型的频率而不同地配置，因为原型信号在不同的频率是不同的。为了说明不同种类的原型信号，可以考虑其中声音从y偶极子(其具有正瓣和负瓣)的负增益方向到达的场景。在中频(在b4与b5之间)下，y原型信号的相位与w原型信号的相位相反，因为它应当针对到达声音的那个方向。在其他频率下(低于b4和高于b5)，原型y信号的相位与w原型信号的相位相同。合适的相位(以及能量和相关性)的合成进而将由信号混合器和去相关器在那些频率下进行考虑。
[0235]
在其中波长很大的低频下(低于b4)，用间隔麦克风(其通常彼此有些接近)捕获的音频信号之间的相位差很小。因此，由于snr原因，原型信号创建器不应被配置为以与在b4与b5之间的频率相同的方式来生成原型信号。因此，通常替代地使用通道和全向信号作为原型信号。在其中波长很小的高频下(高于b5)，空间混叠严重扭曲了波束模式(如果使用了如在b4与b5之间的频率的方法)，因此，最好使用通道选择全向原型信号。
[0236]
接下来描述在这些频率下(低于b4或高于b5)信号混合器和去相关器的配置。对于简单的示例，空间元数据参数集由方位角θ和频带中的比率r组成。增益sin(θ)sqrt(r)在信号混合器内被应用于原型信号以生成y偶极子信号，并且结果是相干部分信号。原型信号还被去相关(在去相关器中)，并且去相关结果在信号混合器中被接收，在信号混合器中它与因子sqrt(1
‑
r)g
order
相乘，并且结果是非相干部分信号。根据已知的sn3d归一化方案，增益g
order
是在该球面谐波函数阶次下的扩散场增益。例如，对于一阶(如在y偶极子的情况下)，它是sqrt(1/3)，对于二阶，它是sqrt(1/5)，对于三阶，它是sqrt(1/7)，依此类推。相干部分信号和非相干部分信号被相加在一起。除了由于可能的错误的原型信号能量而导致的可能的错误能量以外，其结果是合成的y信号。可以应用与在中频(在b4与b5之间)的上下文中所描述的相同的频带中的能量校正过程，以将频带中的能量校正到所期望的目标，并且输出是信号y(b,n)。
[0237]
对于其他球面谐波，诸如x和z分量、或二阶或更高阶分量，可以应用上述过程，不同之处在于相对于方位角(及其他可能的参数)的增益取决于正被合成的球面谐波信号。例如，从w原型针对x偶极子相干部分生成的增益是cos(θ)sqrt(r)。对于除了在b4与b5之间的频率以外的频率，去相关、比率处理和能量校正可以与上述针对y分量而确定的相同。
[0238]
在上述过程中可以考虑其他参数，诸如仰角、扩展相干性和环绕相干性。扩展相干性参数的值可以是从0到1。扩展相干性值0表示点源，换句话说，当使用多扬声器系统来再现音频信号时，应当用尽可能少的扬声器来再现声音(例如，当方向为中央时只有中央扬声器)。随着扩展相干性的值的增加，更多能量被扩展到中央扬声器周围的其他扬声器，直到值0.5为止，能量在中央扬声器与相邻扬声器之间均匀扩展。随着扩展相干值增加到0.5以上，中央扬声器中的能量减少，直到值1为止，在中央扬声器中没有能量，所有能量都在相邻扬声器中。环绕相干性参数的值是从0到1。值1意味着所有(或几乎所有)扬声器通道之间存在相干性。值0意味着所有(或甚至几乎所有)扬声器通道之间没有相干性。这在gb申请no 1718341.9和pct申请pct/fi2018/050788中有进一步解释。
[0239]
例如，可以通过降低球面谐波分量中的合成环境能量来实现增加的环绕相干性，并且可以通过在生成相干部分时根据ambisonic模式的定义添加仰角相关增益来增加仰角。
[0240]
如果t(n)＝
″
downmix
″
或t(n)＝
″
coincident
″
，y信号的原型可以被创建如下：
[0241]
y
proto
(b,n)＝s0(b,n)
‑
s1(b,n)
[0242]
在这种情况下，不需要相移，因为可以假定通常在具有这些信号类型的原始音频信号之间没有显著的延迟。关于“混合信号”块，如果t(n)＝
″
coincident
″
，则y和w原型可以直接被用于y和w输出，可能在进行增益之后(根据实际方向性模式)。如果t(n)＝
″
downmix
″
，则y
proto
(b,n)和w
proto
(b,n)不能直接被用于y(b,n)和w(b,n)，但是可能需要在频带中将能量校正到“所期望的目标，如针对情况t(n)＝
″
spaced”而确定的(注意，无论到达声音角度如何，全向分量都具有空间增益1)。
[0243]
对于其他球面谐波(诸如x和z)，创建能够很好地复制目标信号的原型是不可能的，因为典型的下混合信号被定向在左
‑
右轴上而不是前
‑
后x轴或顶部
‑
底部z轴。因此，在一些实施例中，其方法是利用全向信号的原型，例如，
[0244]
x
proto
(b,n)＝w
proto
(b,n)
[0245]
z
proto
(b,n)＝w
proto
(b,n)
[0246]
类似地，w
proto
(b,n)也由于相同的原因而被用于高次谐波。在这种情况下，信号混合器和去相关器可以以与针对这些球面谐波分量的t(n)＝
″
spaced
″
相同的方式来处理信号。
[0247]
在某些情况下，传输音频信号类型t(n)可以在音频回放期间发生变化(例如，由于信号类型的实际变化，或自动类型检测中的缺陷)。为了避免由于突然改变类型而导致的伪影，在一些实施例中原型信号可以被内插。这例如可以通过简单地从根据旧类型的原型信号线性内插到根据新类型的原型信号而实现。
[0248]
信号混合器的输出是所得到的时频域ambisonic信号，其被转发到逆t/f变换器707。
[0249]
在一些实施例中，masa到ambisonic信号转换器203包括被配置为将信号转换到时域的逆t/f变换器707。时域ambisonic信号906是从masa到ambisonic转换器的输出。
[0250]
关于图8，示出了图7中所示的装置的操作的概述。
[0251]
因此，在一些实施例中，如图8中步骤801所示，第一操作是从masa流(或比特流)中提取和/或解码传输音频信号和元数据。
[0252]
如图8中步骤803所示，下一操作可以是对传输音频信号进行时频域变换。
[0253]
进而，如图8中步骤805所示，该方法包括基于时频域传输信号并进一步基于传输音频信号类型(并进一步基于附加参数)来创建原型音频信号。
[0254]
如图8中步骤807所示，在一些实施例中，该方法包括对时频原型音频信号应用去相关。
[0255]
进而，如图8中步骤809所示，可以基于空间元数据和传输音频信号类型来混合去相关的时频原型音频信号和时频原型音频信号。
[0256]
如图8中步骤811所示，进而可以对被混合的信号进行逆时频变换。
[0257]
进而，如图8中步骤813所示，可以输出时域信号。
[0258]
图9示出了适于实现一些实施例的示例解码器的示意图。示例实施例可以例如在图1中所示的示例“解复用器/解码器/合成器”块133内实现。在此示例中，输入是包含两个音频通道和空间元数据的元数据辅助空间音频(masa)流。然而，如本文中所讨论的，输入格式可以是任何合适的元数据辅助空间音频格式。
[0259]
(masa)比特流被转发到传输音频信号类型确定器201。传输音频信号类型确定器201被配置为基于该比特流来确定传输音频信号类型202和可能的一些附加参数204(例如，麦克风距离)。所确定的参数被转发到masa到多通道音频信号转换器903。在一些实施例中，传输音频信号类型确定器201是与在上面关于图2所描述的相同的传输音频信号类型确定器201，或者可以是传输音频信号类型确定器201的独立的实例，其被配置为以与在上面关于图2中所示的示例描述的传输音频信号类型确定器201类似的方式操作。
[0260]
masa到多通道音频信号转换器903被配置为接收比特流和传输音频信号类型202(以及可能的一些附加参数204)，并被配置为基于所确定的传输音频信号类型202(和可能的附加参数204)来将masa流转换成多通道音频信号(诸如5.1)。
[0261]
在图10中所示的流程图中概述了图9中所示的示例操作。
[0262]
如图10中步骤301所示，第一操作是接收或获得比特流(masa流)。
[0263]
如图10中步骤303所示，随后的操作是基于该比特流来确定传输音频信号类型(以及生成类型信号或指示符和可能的其他附加参数)。
[0264]
如图10中步骤305所示，在已确定传输音频信号类型之后，下一操作是基于所确定的传输音频信号类型来将比特流(masa流)转换成多通道音频信号(诸如5.1)。
[0265]
图11更详细地示出了示例masa到多通道音频信号转换器903。masa到多通道音频信号转换器903被配置为接收masa流(比特流)和传输音频信号类型202以及可能的附加参数204，并被配置为基于所确定的传输音频信号来将masa流转换成多通道音频信号类型。
[0266]
masa到多通道音频信号转换器903包括传输音频信号和空间元数据提取器/解码器501。其被配置为以与在图5中示出并在其中讨论的传输音频信号类型确定器中发现的相同的方式来接收masa流并输出传输音频信号502和空间元数据522。在一些实施例中，提取器/解码器501是来自先前描述的传输音频信号类型确定器的提取器/解码器，或者是提取器/解码器的独立的实例。所得到的传输音频信号502可以被转发到时间/频率变换器503。此外，所得到的空间元数据522可以被转发到目标信号特性确定器1101。
[0267]
在一些实施例中，masa到多通道音频信号转换器903包括时间/频率变换器503。时间/频率变换器503被配置为接收传输音频信号502，并将它们转换到时频域。合适的变换例如包括短时傅立叶变换(stft)和复调制正交镜像滤波器组(qmf)。所得到的信号被标示为s
i
(b,n)，其中，i是信道索引，b是频率点索引，n是时间索引。如果音频提取和/或解码的输出已经在时频域中，则可以省略该块，或者可替代地，它可以包含从一个时频域表示到另一个时频域表示的变换。t/f域传输音频信号504可以被转发到原型信号创建器1111。在一些实施例中，时间/频率变换器503是来自传输音频信号类型确定器、或masa到ambisonics转换器、或独立的实例的相同的时间/频率转换器。
[0268]
在一些实施例中，masa到多通道音频信号转换器903包括原型信号创建器1111。原型信号创建器1111被配置为接收t/f域传输音频信号504、传输音频信号类型202和可能的附加参数204。t/f原型信号1112进而可以被输出到信号混合器1105和去相关器1103。
[0269]
作为关于原型信号创建器1111的操作的示例，描述了对5.1多通道音频信号配置的渲染。
[0270]
在此示例中，左侧(左前和左环绕)输出通道的原型信号可以被创建为：
[0271]
l
f,proto
(b,n)＝l
s,proto
(b,n)＝s0(b,n)
[0272]
右侧输出(右前和右环绕)通道的原型信号可以被创建为：
[0273]
r
f,proto
(b,n)＝r
s,proto
(b,n)＝s1(b,n)
[0274]
因此，对于中间面的任一侧的输出通道，原型信号可以直接使用对应的传输音频信号。
[0275]
对于中央输出通道，原型音频信号应当包含来自左侧和右侧的能量，因为它可被用于向任一侧平移。因此，在ambisonic渲染的情况下，原型信号可以如全向通道一样地被创建，换句话说，如果t(n)＝
″
spaced
″
，
[0276][0277]
c
proto
(b,n)＝s0(b,n),b>b3[0278]
在一些实施例中，如果t(n)＝
″
downmix
″
或t(n)＝
″
coincident
″
，原型音频信号可
以生成原型中央音频通道：
[0279]
c
proto
(b,n)＝s0(b,n) s1(b,n)
[0280]
在一些实施例中，masa到多通道音频信号转换器903包括去相关器1103。去相关器1103被配置为接收t/f原型信号1112，应用去相关，并将去相关的t/f原型信号1104输出到信号混合器1105。在一些实施例中，去相关器1103是可选的。
[0281]
在一些实施例中，masa到多通道音频信号转换器903包括目标信号特性确定器1101。在一些实施例中，目标信号特性确定器1101被配置为基于空间元数据和频带中信号能量的总体估计来生成目标协方差矩阵(目标信号特性)。在一些实施例中，此能量估计可以是频带中的传输信号能量之和。此目标协方差矩阵(目标信号特性)确定可以以与由专利申请gb 1718341.9提供的类似的方式执行。
[0282]
目标信号特性1102进而可以被传递到信号混合器1105。
[0283]
在一些实施例中，masa到多通道音频信号转换器903包括信号混合器1105。信号混合器1105被配置为测量原型信号的协方差矩阵，并基于所估计的(原型信号)协方差矩阵和目标协方差矩阵来制定混合方案。在一些实施例中，混合方案可以与gb 1718341.9中描述的方案类似。该混合方案被应用于原型信号和去相关的原型信号，进而所得到的信号是基于目标信号特性而以频带特性来获得的。换句话说，基于所确定的目标协方差矩阵。
[0284]
在一些实施例中，masa到多通道音频信号转换器903包括被配置为将信号转换到时域的逆t/f变换器707。时域多通道音频信号是masa到多通道音频信号转换器的输出。
[0285]
关于图12，示出了图11中所示的装置的操作的概述。
[0286]
因此，如图12中步骤801所示，在一些实施例中，第一操作是从masa流(或比特流)中提取和/或解码传输音频信号和元数据。
[0287]
如图12中步骤803所示，下一操作可以是对传输音频信号进行时频域变换。
[0288]
进而，如图12中步骤1205所示，该方法包括基于时频域传输信号并进一步基于传输音频信号类型(并进一步基于附加参数)来创建原型音频信号。
[0289]
如图12中步骤1207所示，在一些实施例中，该方法包括对时频原型音频信号应用去相关。
[0290]
进而，如图12中步骤1208所示，可以基于时频域传输音频信号和空间元数据来确定目标信号特性(以生成目标信号的协方差矩阵)。
[0291]
如图12中步骤1209所示，可以测量原型音频信号的协方差矩阵。
[0292]
进而，如图12中步骤1210所示，可以基于目标信号特性来混合去相关的时频原型音频信号和时频原型音频信号。
[0293]
如图12中步骤1211所示，进而可以对被混合的信号进行逆时频变换。
[0294]
进而，如图12中步骤1213所示，可以输出时域信号。
[0295]
图13示出了适于实现一些实施例的另一示例解码器的示意图。在其他实施例中，类似的方法可以在除了解码器以外的装置中实现，例如被实现为编码器的一部分。示例实施例可以例如在诸如图1中所示的(ivas)“解复用器/解码器/合成器”块133内实现。在此示例中，输入是包含两个音频通道和空间元数据的元数据辅助空间音频(masa)流。然而，如本文中所讨论的，输入格式可以是任何合适的元数据辅助空间音频格式。
[0296]
(masa)比特流被转发到传输音频信号类型确定器201。传输音频信号类型确定器
201被配置为基于比特流来确定传输音频信号类型202以及可能的一些附加参数204(这种附加参数的示例是麦克风距离)。所确定的参数被转发到下混合器1303。在一些实施例中，传输音频信号类型确定器201与如上所述的传输音频信号类型确定器201相同，或者可以是传输音频信号类型确定器201的独立的实例，其被配置为以与如上所述的传输音频信号类型确定器201类似的方式操作。
[0297]
下混合器1303被配置为接收比特流和传输音频信号类型202(以及可能的一些附加参数204)，并被配置为基于所确定的传输音频信号类型202(和可能的附加参数204)来将masa流从2个传输音频信号下混合成1个传输音频信号。输出masa流1306进而被输出。
[0298]
在图14中所示的流程图中概述了图13中所示的示例的操作。
[0299]
如图14中步骤301所示，第一操作是接收或获得比特流(masa流)。
[0300]
如图14中步骤303所示，随后的操作是基于该比特流来确定传输音频信号类型(以及生成类型信号或指示符和可能的其他附加参数)。
[0301]
在已确定传输音频信号类型之后，如图14中步骤1405所示，下一操作是基于所确定的传输音频信号类型202(和可能的附加参数204)来将masa流从2个传输音频信号下混合成1个传输音频信号。
[0302]
图15更详细地示出了示例下混合器1303。下混合器1303被配置为接收masa流(比特流)、传输音频信号类型202以及可能的附加参数204，并被配置为基于所确定的传输音频信号类型来将两个传输音频信号下混合成一个传输音频信号。
[0303]
下混合器1303包括传输音频信号和空间元数据提取器/解码器501。其被配置为以与如本文中所讨论的传输音频信号类型确定器中发现的相同的方式来接收masa流并输出传输音频信号502和空间元数据522。在一些实施例中，提取器/解码器501是先前描述的提取器/解码器或提取器/解码器的独立的实例。所得到的传输音频信号502可以被转发到时间/频率变换器503。此外，所得到的空间元数据522可以被转发到信号复用器1507。
[0304]
在一些实施例中，下混合器1303包括时间/频率变换器503。时间/频率变换器503被配置为接收传输音频信号502，并将它们转换到时频域。合适的变换例如包括短时傅立叶变换(stft)和复调制正交镜像滤波器组(qmf)。所得到的信号被标示为s
i
(b,n)，其中，i是信道索引，b是频率点索引，n是时间索引。如果音频提取和/或解码的输出已经在时频域中，则可以省略该块，或者可替代地，它可以包含从一个时频域表示到另一个时频域表示的变换。t/f域传输音频信号504可以被转发到原型信号创建器1511。在一些实施例中，时间/频率变换器503是如先前所述的相同的时间/频率变换器或独立的实例。
[0305]
在一些实施例中，下混合器1303包括原型信号创建器1511。原型信号创建器1511被配置为接收t/f域传输音频信号504、传输音频信号类型202以及可能的附加参数204。t/f原型信号1512进而可以被输出到原型能量确定器1503和原型以匹配目标能量均衡器1505。
[0306]
在一些实施例中，原型信号创建器1511被配置为基于所接收的传输音频信号类型，使用两个传输音频信号来创建用于单声道传输音频信号的原型信号。例如，可以使用下式。
[0307]
如果t(n)＝
″
spaced
″
,
[0308]
m
proto
(b,n)＝s0(b,n).
[0309]
如果t(n)＝
″
downmix
″
或t(n)＝
″
coincident
″
,
[0310]
m
proto
(b,n)＝s0(b,n) s1(b,n)
[0311]
在一些实施例中，下混合器1303包括目标能量确定器1501。目标能量确定器1501被配置为接收t/f域传输音频信号504，并生成目标能量值为传输音频信号的能量之和：
[0312]
e
target
(b,n)＝|s0(b,n)|2 |s1(b,n)|2[0313]
目标能量值进而可以被传递给原型以匹配目标均衡器1505。
[0314]
在一些实施例中，下混合器1303包括原型能量确定器1503。原型能量确定器1503被配置为接收t/f原型信号1512，并确定能量值例如为：
[0315]
e
proto
(b,n)＝|m
proto
(b,n)|2[0316]
原型能量值进而可以被传递给原型以匹配目标均衡器1505。
[0317]
在一些实施例中，下混合器1303包括原型以匹配目标能量均衡器1505。在一些实施例中，原型以匹配目标能量均衡器1505被配置为接收t/f原型信号1502、原型能量值和目标能量值。在一些实施例中，均衡器1505被配置为首先随时间对能量进行平滑，例如使用以下式：
[0318]
e
′
x
(b,n)＝a5e
x
(b,n) b5e
′
x
(b,n
‑
1)
[0319]
其中，a5和b5是平滑系数(例如，a5＝0.1，b5＝1
‑
a5)。进而，均衡器1505被配置为确定均衡增益为：
[0320][0321]
进而，可以使用这些增益来均衡原型信号，诸如，
[0322]
m(b,n)＝g
eq
(b,n)m
proto
(b,n)
[0323]
被均衡的原型信号被传递给逆t/f变换器707。
[0324]
在一些实施例中，下混合器1303包括被配置为将均衡器的输出转换成时域版本的逆t/f变换器707。被时域均衡的音频信号(单声道信号)1510进而被传递给传输音频信号和空间元数据复用器1507(或复用器)。
[0325]
在一些实施例中，下混合器1303包括传输音频信号和空间元数据复用器1507(或复用器)。传输音频信号和空间元数据复用器1507(或复用器)被配置为接收空间元数据522和单声道音频信号1510，并将它们复用以重新生成合适的输出格式(例如，具有仅一个传输音频信号的masa流)1506。在一些实施例中，输入单声道音频信号采用脉冲编码调制(pcm)的形式。在这种实施例中，信号可以被编码并且被复用。在一些实施例中，可以省略复用，并且在音频编码器中直接使用单声道传输音频信号和空间元数据。
[0326]
在一些实施例中，图15中所示的装置的输出是单声道pcm音频信号1510，其中，空间元数据被丢弃。
[0327]
在一些实施例中，可以实现其他参数，例如，在一些实施例中，当类型为“spaced”时，可以估计间隔麦克风距离。
[0328]
关于图16，示出了图15中所示的装置的示例操作。
[0329]
因此，如图16中步骤1601所示，在一些实施例中，第一操作是从masa流(或比特流)中提取和/或解码传输音频信号和元数据。
[0330]
如图16中步骤1603所示，下一操作可以是对传输音频信号进行时频域变换。
[0331]
进而，如图16中步骤1605所示，该方法包括基于时频域传输信号并进一步基于传输音频信号类型(并进一步基于附加参数)来创建原型音频信号。
[0332]
此外，如图16中步骤1604所示，在一些实施例中，该方法被配置为基于被变换的传输音频信号来生成、确定或计算目标能量值。
[0333]
此外，如图16中步骤1606所示，在一些实施例中，该方法被配置为基于原型音频信号来生成、确定或计算原型音频信号能量值。
[0334]
在已确定能量之后，如图16中步骤1607所示，该方法还可以均衡原型音频信号以匹配目标音频信号能量。
[0335]
如图16中步骤1609所示，被均衡的原型信号(单通道信号)进而可以被逆时频域变换以生成时域单声道信号。
[0336]
如图16中步骤1610所示，时域单声道音频信号进而可以(可选地被编码并)与空间元数据复用。
[0337]
进而，如图16中步骤1611所示，可以输出被复用的音频信号(作为masa数据流)。
[0338]
如上所述，所示出的框图仅仅是可能的实现的一个示例。其他实际实现可以与上述示例不同。例如，实现可以没有独立的t/f变换器。
[0339]
此外，在一些实施例中，可以使用任何利用音频声道和(空间)元数据的合适的比特流，而不是具有如上所示的输入masa流。此外，在一些实施例中，ivas编解码器可以由任何其他合适的编解码器(例如，具有音频通道和空间元数据的操作模式的编解码器)来代替。
[0340]
在一些实施例中，可以使用传输音频信号类型确定器来估计除了传输音频信号类型之外的其他参数。例如，可以估计麦克风的间距。麦克风的间距可以是可能的附加参数204的示例。在一些实施例中，这可以通过如下操作来实现：检查e
sum
(b,n)和e
sub
(b,n)的局部最大值和最小值的频率，基于这些频率来确定麦克风之间的时间延迟，以及基于延迟和所估计的到达方向(在空间元数据中可用)来估计间距。还存在用于估计两个信号之间的延迟的其他方法。
[0341]
关于图17，示出了可以被用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1700是移动设备、用户设备、平板计算机、计算机、音频回放装置等。
[0342]
在一些实施例中，设备1700包括至少一个处理器或中央处理单元1707。处理器1707可以被配置为执行各种程序代码，诸如本文所述的方法。
[0343]
在一些实施例中，设备1700包括存储器1711。在一些实施例中，至少一个处理器1707被耦合到存储器1711。存储器1711可以是任何合适的存储装置。在一些实施例中，存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1711还可以包括用于存储数据(例如根据本文所述的实施例已被处理或将要被处理的数据)的存储数据部分。只要需要，被存储在程序代码部分内的所实现的程序代码和被存储在存储数据部分内的数据可以经由存储器
‑
处理器耦合而被处理器1707取得。
[0344]
在一些实施例中，设备1700包括用户接口1705。在一些实施例中，用户接口1705可以被耦合至处理器1707。在一些实施例中，处理器1707可以控制用户接口1705的操作并从用户接口1705接收输入。在一些实施例中，用户接口1705可以使得用户能够例如经由小键
盘向设备1700输入命令。在一些实施例中，用户接口1705可以使得用户能够从设备1700获得信息。例如，用户接口1705可以包括被配置为向用户显示来自设备1700的信息的显示器。在一些实施例中，用户接口1705可以包括触摸屏或触摸接口，其既能够使信息被输入到设备1700中，又能够向设备1700的用户显示信息。在一些实施例中，用户接口1705可以是用于如与本文中所描述的位置确定器通信的用户接口。
[0345]
在一些实施例中，设备1700包括输入/输出端口1709。在一些实施例中，输入/输出端口1709包括收发机。在这种实施例中，收发机可以被耦合到处理器1707，并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中，收发机或任何合适的收发机或发射机和/或接收机部件可以被配置为经由有线或有线耦合来与其他电子设备或装置通信。
[0346]
收发机可以通过任何合适的已知通信协议来与其他装置通信。例如，在一些实施例中，收发机可以使用适当的通用移动电信系统(umts)协议、诸如ieee 802.x之类的无线局域网(wlan)协议、诸如蓝牙之类的合适的短距射频通信协议、或红外数据通信路径(irda)。
[0347]
收发机输入/输出端口1709可以被配置为接收信号，并且在一些实施例中，通过使用执行合适的代码的处理器1707来确定如本文中所描述的参数。
[0348]
在一些实施例中，设备1700可以被用作合成设备的至少一部分。输入/输出端口1709可以被耦合到任何合适的音频输出，例如被耦合到多通道扬声器系统和/或头戴式耳机(其可以是头戴式或非头戴式耳机)等等。
[0349]
通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件来实现，而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示，但是众所周知，本文所述的这些框、装置、系统、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
[0350]
本发明的实施例可以通过可由移动设备的数据处理器(诸如在处理器实体中)执行的计算机软件来实现，或者由硬件、或者由软件和硬件的组合来执行。此外在这一点上，应当注意，如附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上，诸如硬盘或软盘之类的磁性介质上、以及诸如dvd及其数据变体cd之类的光学介质上。
[0351]
存储器可以是适合于本地技术环境的任何类型，并且可以使用任何适当的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器。数据处理器可以是适合于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(dsp)、专用集成电路(asic)、基于多核处理器架构的门级电路和处理器中的一个或多个。
[0352]
可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
[0353]
程序，诸如由加利福尼亚州山景城的synopsys公司和加利福尼亚州圣何塞的cadence design所提供的程序，可以使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计，就可以将标准化电子格式(例如，opus、gdsii等)的所得设计传送到半导体制造设施或“fab”进行制造。
[0354]
前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而，当结合附图和所附权利要求书阅读时，鉴于以上描述，各种修改和改编对于相关领域的技术人员而言将变得显而易见。但是，本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所限定的本发明的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

声场相关渲染的制作方法

相关文献

最热文献