一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于对空间元数据进行编码的装置、方法及计算机程序与流程

2021-08-06 18:47:00 来源:中国专利 TAG:示例 空间 装置 编码 用于
用于对空间元数据进行编码的装置、方法及计算机程序与流程

本公开的示例涉及用于对空间元数据进行编码的装置、方法及计算机程序。一些示例涉及用于对与空间音频内容相关联的空间元数据进行编码的装置、方法及计算机程序。



背景技术:

空间音频内容可以被用于诸如介导现实内容应用之类的沉浸式音频应用,其可以是虚拟现实、增强现实、混合现实、扩展现实或任何其他合适类型的应用。空间元数据可以与空间音频内容相关联。空间元数据可以包含使空间音频内容的空间特性能够被重新创建的信息。



技术实现要素:

根据本公开的各种但并非全部示例,可以提供一种装置,包括用于执行以下操作的部件:获得与空间音频内容相关联的空间元数据;获得指示该空间音频内容的源格式的配置参数;以及使用该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

配置参数可以被用于选择码本以压缩与空间音频内容相关联的空间元数据。

配置参数可以被用于使得能够创建用于压缩空间元数据的码本。

码本可以被用于对空间元数据进行编码和解码。

由配置参数指示的源格式可以指示被用于获得空间元数据的空间音频内容的格式。

空间元数据可以包括指示空间音频内容的空间参数的数据。

可以独立于所获得的空间音频内容的内容来选择压缩方法。

该部件可以被配置为获得空间音频内容。

源配置参数可以是与空间音频内容一起获得的。

源配置参数可以是与空间音频内容分开获得的。

根据本公开的各种但并非全部示例,可以提供一种装置,包括:处理电路;以及包括计算机程序代码的存储器电路,该存储器电路和计算机程序代码被配置为与处理电路一起使该装置:获得与空间音频内容相关联的空间元数据;获得指示该空间音频内容的源格式的配置参数;以及使用该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

根据本公开的各种但并非全部示例,可以提供一种编码设备,其包括如前述权利要求中任一项所述的装置以及被配置为至少向解码设备发送空间元数据的一个或多个收发机。

根据本公开的各种但并非全部示例,可以提供一种方法,包括:获得与空间音频内容相关联的空间元数据;获得指示该空间音频内容的源格式的配置参数;以及使用该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

配置参数可以被用于选择码本以压缩与空间音频内容相关联的空间元数据。

根据本公开的各种但并非全部示例,可以提供一种计算机程序,该计算机程序包括计算机程序指令,这些计算机程序指令在由处理电路执行时使得执行以下操作:获得与空间音频内容相关联的空间元数据;获得指示该空间音频内容的源格式的配置参数;以及使用该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

配置参数可以被用于选择码本以压缩与空间音频内容相关联的空间元数据。

根据本公开的各种但并非全部示例,可以提供一种体现上述计算机程序的物理实体。

根据本公开的各种但并非全部示例,可以提供一种承载上述计算机程序的电磁载体信号。

根据本公开的各种但并非全部示例,可以提供一种装置,包括用于执行以下操作的部件:接收空间音频内容;接收与该空间音频内容相关联的空间元数据;以及接收指示用于压缩与该空间音频内容相关联的空间元数据的方法的信息,其中用于压缩该空间元数据的方法是基于该空间音频内容的源格式来选择的。

指示用于压缩空间元数据的方法的信息可以包括源配置参数。

指示用于压缩空间元数据的方法的信息可以包括已使用源配置参数而被选择的码本。

根根据本公开的各种但并非全部示例,可以提供一种装置,包括:处理电路;以及包括计算机程序代码的存储器电路,该存储器电路和计算机程序代码被配置为与处理电路一起使该装置:接收空间音频内容;接收与该空间音频内容相关联的空间元数据;以及接收指示用于压缩与该空间音频内容相关联的空间元数据的方法的信息,其中用于压缩该空间元数据的方法是基于该空间音频内容的源格式来选择的。

根据本公开的各种但并非全部示例,可以提供一种解码设备,其包括如上所述的装置以及被配置为从解码设备接收空间音频内容和空间元数据的一个或多个收发机。

根据本公开的各种但并非全部示例,可以提供一种方法,包括:接收空间音频内容;接收与空间音频内容相关联的空间元数据;以及接收指示用于压缩与空间音频内容相关联的空间元数据的方法的信息,其中用于压缩空间元数据的方法是基于空间音频内容的源格式来选择的。

指示用于压缩空间元数据的方法的信息可以包括源配置参数。

根据本公开的各种但并非全部示例,可以提供一种计算机程序,该计算机程序包括计算机程序指令,这些计算机程序指令在由处理电路执行时使得执行以下操作:接收空间音频内容;接收与该空间音频内容相关联的空间元数据;以及接收指示用于压缩与该空间音频内容相关联的空间元数据的方法的信息,其中用于该压缩空间元数据的方法是基于该空间音频内容的源格式来选择的。

指示用于压缩空间元数据的方法的信息可以包括源配置参数。

根据本公开的各种但并非全部示例,可以提供一种体现上述计算机程序的物理实体。

根据本公开的各种但并非全部示例,可以提供一种承载上述计算机程序的电磁载体信号。

附图说明

现在将参考附图描述一些示例性实施例,其中:

图1示出示例性装置;

图2示出示例性方法;

图3示出示例性系统;

图4示出示例性编码设备;

图5示出示例性解码设备;

图6示出另一示例性方法;

图7示出示例性编码方法;

图8示出另一示例性编码方法;

图9示出示例性解码方法。

具体实施方式

附图示出了装置101,其包括用于获得与空间音频内容相关联的空间元数据的部件。空间音频内容可以表示沉浸式音频内容或任何其他合适类型的内容。该部件还可以被配置用于获得指示该空间音频内容的源格式的配置参数;以及使用该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

装置101可以用于记录和/或处理所捕获的音频信号。

图1示意性地示出了根据本公开的示例的装置101。图1中所示的装置101可以是芯片或芯片组。在一些示例中,装置101可以在诸如处理设备之类的设备内提供。在一些示例中,装置101可以在音频捕获设备或音频渲染设备内提供。

在图1的示例中,装置101包括控制器103。在图1的示例中,控制器103的实现可以是作为控制器电路。在一些示例中,控制器103可以仅以硬件来实现,具有只包括固件的软件中的某些方面,或者可以是硬件和软件(包括固件)的组合。

如图1中所示,控制器103可使用实现硬件功能的指令来实现,例如,通过在通用或专用处理器105中使用计算机程序109的可执行指令(其可存储在计算机可读存储介质(磁盘、存储器等)上以由这种处理器105执行)来实现。

处理器105被配置为从存储器107读取和向存储器107写入。处理器105还可以包括输出接口和输入接口,处理器105经由输出接口输出数据和/或命令,数据和/或命令经由输入接口被输入到处理器105。

存储器107被配置为存储包括计算机程序指令(计算机程序代码111)的计算机程序109,该计算机程序指令在被加载到处理器105中时控制装置101的操作。计算机程序109的计算机程序指令提供使装置能够执行附图2和6至9中所示的方法的逻辑和例程。通过读取存储器107,处理器502能够加载和执行计算机程序109。

因此,装置101包括:至少一个处理器105;包括计算机程序代码111的至少一个存储器107,该至少一个存储器107和计算机程序代码111被配置为与至少一个处理器105一起使装置101至少执行以下操作:获得与空间音频内容相关联的空间元数据;获得203指示该空间音频内容的源格式的配置参数;以及使用205该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

如图1中所示,计算机程序109可经由任何合适的传送机制113到达装置101。传送机制113例如可以是机器可读介质、计算机可读介质、非暂时性计算机可读存储介质、计算机程序产品、存储设备、诸如光盘只读存储器(cd-rom)或数字多功能光盘(dvd)或固态存储器之类的记录介质、包括或有形地体现计算机程序109的制造产品。传送机制可以是被配置以可靠地传送计算机程序109的信号。装置101可将计算机程序109作为计算机数据信号来传播或发送。在一些示例中,可以使用诸如蓝牙、蓝牙低功耗、蓝牙智能、6lowpan(基于ipv6的低功率个域网)、zigbee、ant 、近场通信(nfc)、射频识别、无线局域网(无线lan)或任何其他合适的协议之类的无线协议将计算机程序109发送到装置101。

计算机程序109包括用于使装置101至少执行以下操作的计算机程序指令:获得201与空间音频内容相关联的空间元数据;获得203指示该空间音频内容的源格式的配置参数;以及使用205该配置参数以选择与该空间音频内容相关联的空间元数据的压缩方法。

计算机程序指令可被包括在计算机程序109、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但并非全部示例中,计算机程序指令可被分布在多于一个的计算机程序109上。

虽然存储器107被示出为单个组件/电路,但是它可被实现为一个或多个单独的组件/电路,其中一些或所有组件/电路可以是集成/可移除的和/或可提供永久/半永久/动态/缓存存储。

虽然处理器105被示出为单个组件/电路,但是它可被实现为一个或多个单独的组件/电路,其中一些或所有组件/电路可以是集成/可移除的。处理器105可以是单核或多核处理器。

提及“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或者“控制器”、“计算机”、“处理器”等,应当被理解为不仅包括具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构的不同架构的计算机,而且还包括诸如现场可编程门阵列(fpga)、专用集成电路(asic)、信号处理设备和其他处理电路的专用电路。提到计算机程序、指令、代码等,应被理解为包括用于可编程处理器的软件、或者可包括用于处理器的指令的例如硬件设备的可编程内容的固件、或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中使用的,术语“电路”是指以下中的一个或多个或全部:

(a)仅硬件电路实现(诸如仅模拟和/或数字电路的实现);

(b)硬件电路和软件的组合,诸如(如果适用):

(i)模拟和/或数字硬件电路与软件/固件的组合;以及

(ii)具有软件的硬件处理器的任何部分(包括数字信号处理器、软件和存储器,其一起工作以使诸如移动电话或服务器的装置执行各种功能);以及

(c)硬件电路和/或处理器,诸如微处理器或微处理器的一部分,其需要软件(例如,固件)来操作,但操作不需要软件时可以不存在软件。

“电路”的这一定义应用于在本申请中的该术语的全部使用,包括在任何权利要求中的使用。作为另一个示例,如在本申请中使用的,术语“电路”还覆盖仅硬件电路或处理器及其伴随的软件和/或固件的实现。术语“电路”还覆盖(例如且如果适用于具体要求的元件)用于移动设备的基带集成电路,或服务器、蜂窝网络设备、或其他计算或网络设备中的类似集成电路。

图2示出了示例性方法。该方法可以使用如图1中所示的装置101来实现。

该方法包括在框201处,获得与空间音频内容相关联的空间元数据。在一些示例中,空间元数据可以与空间音频内容一起来获得。在其他示例中,空间元数据可以是与空间音频内容分开获得的。例如,装置101可以获得空间音频内容,并且可以单独地处理该空间音频内容以获得空间元数据。

空间音频内容包括可以被渲染以使得用户可以感知到该音频内容的空间特性的内容。例如,可以渲染空间音频内容以使得用户可以感知到起源方向以及与音频源的距离。空间音频可以使得能够向用户提供沉浸式音频体验。该沉浸式音频体验可以包括虚拟现实、增强现实、混合现实或扩展现实体验或任何其他合适的体验。

与空间音频内容相关联的空间元数据包括与由该空间音频内容表示的声音空间的空间特性有关的信息。空间元数据可以包括诸如音频到达方向、与音频源的距离、直接与总能量比、扩散与总能量比或任何其他合适的信息之类的信息。空间元数据可以在频带中提供。

在框203处,该方法包括获得指示空间音频内容的源格式的配置参数。该配置参数可以指示已被用于获得空间元数据的空间音频的格式。在一些示例中,源格式可以指示已被用于捕获空间音频内容的麦克风的配置,其中该空间音频内容随后被用于获得空间元数据。

源格式可以是任何合适的格式类型。不同源格式的示例包括诸如三维空间麦克风配置、二维空间麦克风配置、具有被配置用于三维音频捕获的四个或更多个麦克风的移动电话、具有被配置用于二维音频捕获的三个或更多个麦克风的移动电话、具有两个麦克风的移动电话、诸如5.1混合或7.1混合或任何其他合适类型的源格式之类的环绕声之类的配置。不同的源格式将产生具有相关联的空间元数据的空间音频内容。与不同源格式相关联的不同空间元数据可以具有不同的特性。

配置参数可以包括指示源格式的数据比特。例如,在一些示例中,配置参数可以包括八个数据比特,其使能256个不同的组合以用于指示源格式。在本公开的其他示例中,可以使用其他数量的比特。

在这种示例中,数据比特可以以预定义的格式来配置。例如,如果配置参数包括八个比特,则前两个比特可以定义总体源类型。该总体源类型可以指示该源是麦克风阵列、基于通道的源、移动设备、或混合。混合源可以包括由与基于通道的源混合的麦克风阵列捕获的音频。例如,麦克风阵列可以被用于捕获空间音频,进而基于通道的音乐轨道被添加为背景音频。可以从经由用户接口或通过任何其他合适的控制手段而被选择的音频文件中提供基于通道的音轨。应当理解,在本公开的其他示例中可以使用其他混合源。

第三比特可以指示源是否包含仰角。例如,根据源是否包含仰角,第三个比特可以指示“true”或“false”。

其余的五个比特可以包括关于源格式的更详细的信息。关于源格式的更详细的信息可以是麦克风阵列的类型,其可以指示麦克风的数量和麦克风的相对位置或任何其他合适类型的格式。在一些示例中,关于源格式的更详细的信息可以定义通道配置,诸如5.1、7.1、7.1 4、22.2、2.0或任何其他合适类型的通道配置。在一些示例中,关于源格式的更详细的信息可以指示已被用于捕获空间音频的移动设备的类型。例如,它可以指示该设备是特定的六麦克风移动设备、通用的四麦克风设备、通用的三麦克风设备或任何其他合适类型的设备。在一些示例中,关于源类型的更详细的信息可以定义不同源类型的组合。例如,它可以包括基于5.1通道的格式和一个或多个移动设备或任何其他类型的组合。

应当理解,在本公开的其他示例中可以使用比特的其他设置。例如,在一些示例中,可以从源格式的指示确定源是否包含仰角,并因此在这种情况下,可能不需要指示源是否包含仰角的第三比特。例如,如果源格式被指示为5.1,则其固有地将会是没有仰角的源格式,而如果源格式被指示为7.1 4,则其固有地将会是具有仰角的源格式。

在一些示例中,可以使用源格式列表,并且源配置参数可以指示来自该列表的源格式。

在框205处,该方法包括使用配置参数以选择与空间音频内容相关联的空间元数据的压缩方法。例如,多个压缩方法可以是可用的,并且可以使用配置参数来选择这些可用参数之一。

在一些示例中,配置参数可以被用于选择码本以压缩与空间音频内容相关联的空间元数据。该码本可以是可被用于对空间元数据进行编码和解码两者的任何合适的空间元数据压缩码本。该码本可以包括可被用于压缩然后重建空间元数据的值的查找表。在一些示例中,码本可以包括查找表和算法以及任何其他合适的方法的组合。在一些示例中,可以使用切换系统,该切换系统使得能够在不同类型的码本之间进行切换。

在一些示例中,配置参数可以被用于选择一个或多个算法。该算法进而可被用于生成码本或其他压缩方法。例如,在一些示例中,配置参数可以使得能够选择算法,该算法使得能够基于所发送的索引值来计算值。

如果配置参数使得能够选择码本,则可以基于表示源格式的类别的一组输入样本的统计信息来事先准备码本。进而,可以至少部分地基于源配置参数来从所准备的码本中选择正确的码本。

在一些示例中,配置参数可以被用于使得能够创建用于压缩空间元数据的码本。源配置参数可以提供一些关于参数的统计信息的信息,并且此信息可以被用于创建新的码本和/或修改已有的码本。

指示码本已被选择的信息可以从编码设备被发送到解码设备。指示码本已被选择的信息可以被发送为元数据流中的动态值。在其他示例中,指示码本已被选择的信息可以在发送开始时或在发送期间的特定时间点通过单独的通道来发送。

图3示出了可以在本公开的实现中使用的示例性系统301。系统301包括编码设备303和解码设备305。应当理解,在其他示例中,系统301可以包括在图1的系统301中未示出的附加组件,例如,该系统可以包括一个或多个诸如存储设备之类的中间设备。

编码设备303可以是被配置为获得与空间音频内容相关联的空间元数据的任何设备。在一些示例中,编码设备303可以被配置为对空间音频内容和空间元数据进行编码。

在图3的示例中,编码设备303包括分析处理器105a。分析处理器105a被配置为接收输入音频信号311。输入音频信号可以表示所捕获的空间音频信号。输入音频信号可以从麦克风阵列、多通道扬声器或任何其他合适的源接收。在一些示例中,输入音频信号311可以包括全景环绕声(ambisonics)信号或ambisonics信号的变体。在一些示例中,音频信号可以包括一阶ambisonics(foa)信号或高阶ambisonics(hoa)信号或任何其他合适类型的球形谐波信号。

在一些示例中,分析处理器105a可以被配置为分析输入音频信号311以获得空间音频内容和空间元数据。应当理解,在其他示例中,分析处理器105a可以接收空间音频内容和空间元数据两者。在这种示例中,分析处理器105a不必分析空间音频内容以获得空间元数据。

分析处理器105a被配置为创建用于空间音频内容和空间元数据的传输信号313。分析处理器105a可以被配置为对空间音频内容和空间元数据两者进行编码以提供传输信号313。

在图3中所示的示例性系统301中,传输信号313被发送到解码设备305。在一些示例中,传输信号313可以被发送到存储设备,进而可以由一个或多个解码设备从存储设备中获取。在其他示例中,传输信号313可以被存储在编码设备303的存储器中。进而,可以从存储器中获取传输信号313,以在随后的时间点进行解码和渲染。

在图3的示例中,解码设备305包括合成处理器105b。合成处理器105b被配置为接收传输信号313,并基于所接收的传输信号313来合成空间音频输出信号315。合成处理器105b对所接收的传输信号进行解码以便合成空间音频输出信号315。

合成处理器105b使用空间元数据以创建空间音频内容的空间特性,以便向收听者提供表示所捕获的声音场景的空间特性的空间音频内容。空间音频可以使得能够向用户提供沉浸式音频。空间音频输出信号315可以是多通道扬声器信号、双耳信号、球形谐波信号或任何其他合适类型的信号。

空间音频输出信号315可以被提供给任何合适的渲染设备,诸如一个或多个扬声器、头戴式耳机或任何其他合适的渲染设备。

图4更详细地示出了示例性编码设备303的特征。示例性编码设备303包括传输音频信号生成器401、空间分析器403和复用器405。在一些示例中,传输音频信号生成器401、空间分析器403和复用器405可以包括分析处理器105a内的模块。

传输音频信号生成器401接收包括空间音频内容的输入音频信号311。传输音频信号生成器401被配置为从所接收的输入音频信号311生成传输音频信号411。空间音频内容的源格式可以被用于生成传输音频信号。例如,为了生成立体声传输音频信号,如果空间音频内容是由诸如球形麦克风网格之类的麦克风阵列捕获的,则可以选择两个相对的麦克风作为传输信号。均衡或其他合适的处理可以被应用于传输信号。

传输音频信号411可以包括单声道信号、立体声信号、双耳立体声信号,或任何其他合适的信号,例如,foa信号。

空间分析器403也接收包括空间音频内容的输入音频信号311。空间分析器403被配置为分析空间音频内容以提供形成空间元数据的空间参数。空间参数表示由空间音频内容所表示的声音空间的空间特性。空间参数可以包括诸如音频到达方向、与音频源的距离、直接与总能量比、扩散与总能量比或任何其他合适的参数之类的信息。空间分析器403可以分析空间音频内容的不同频带,以使得可以在频带中提供空间元数据。例如,合适的一组频带可以是遵循bark尺度的24个频带。在本公开的其他示例中可以使用其他频带组。

空间分析器403提供一个或多个包括空间元数据的输出信号。在图4中所示的示例中,空间分析器403提供指示方向参数的第一输出415和指示不同频带的直接与总能量比的第二输出417。应当理解,在本公开的其他示例中可以提供其他输出和参数。可以提供这些其他参数来代替方向参数和能量比率,或者将其作为方向参数和能量比率的补充。

复用器405被配置为接收传输音频信号411和空间元数据输出415、417,并组合它们以生成传输信号313。

在图4的示例中,复用器还接收包括源配置参数的附加输入419。源配置参数指示空间音频内容的源格式。

在图4的示例中,源配置参数是与空间音频内容分开接收的。例如,关于源格式的信息可以被存储在存储器中,并且可以由复用器获取。在其他示例中,关于源格式的信息可以与空间音频内容一起被接收。在一些示例中,传输音频信号生成器401和/或空间分析器403也可以使用源配置参数。

复用器405被配置为对空间音频内容以及空间元数据进行编码。源配置参数被用于选择空间元数据的压缩方法。例如,源配置参数可以被配置为选择用于对空间元数据进行编码的码本。

在图4的示例中,复用器405包括传输音频信号编码模块421和空间元数据编码模块423。传输音频信号编码模块421被配置为对传输音频信号411进行编码和/或压缩。空间元数据编码模块423被配置为对可从空间分析器403获得的空间元数据进行编码和/或压缩。可以使用不同的编码和/或压缩方法来对音频内容和空间元数据进行编码。

复用器还包括数据流生成器/组合器模块425。数据流生成器/组合器模块425被配置为将压缩的传输音频信号和压缩的空间元数据组合成传输信号313,其被提供为编码设备303的输出。

在图4中所示的示例中,传输音频信号生成器401、空间分析器403和复用器405都被示出为同一编码设备303的一部分。应当理解,在本公开的其他示例中可以使用其他配置。在一些示例中,传输音频信号生成器401和空间分析器403可以在与复用器405分开的设备或系统中提供。例如,如果使用masa(元数据辅助空间音频),则在内容被提供给编码设备303之前执行空间分析。在这种示例中,编码设备303获得包括空间元数据和传输音频信号411的文件或流。

图5更详细地示出了示例性解码设备305的特征。示例性解码设备305包括解复用器501、原型信号生成器模块503、直接流生成器模块505、扩散流生成器模块507和流组合器模块509。解复用器501、原型信号生成器模块503、直接流生成器模块505、扩散流生成器模块507和流组合器模块509可以包括合成处理器105b内的模块。

解复用器501接收包括编码的空间音频内容和编码的空间元数据的传输信号313作为输入。传输信号可以包括配置参数。解复用器501被配置为接收传输信号313,并将其分离成两个或更多个单独的分量。在图5中的示例中,解复用器501被配置为将传输信号313分离成单独的解码传输音频信号511以及包括解码空间元数据的一个或多个输出513、515。

在图5的示例中,解复用器501包括数据流接收器/分离器模块521。数据流接收器/分离器模块521被配置为接收传输信号313,并将其分离成至少包括空间音频内容的第一分量和包括空间元数据的第二分量。

解复用器501还包括传输音频信号解压缩器/解码器模块523。传输音频信号解压缩器/解码器模块523被配置为从数据流接收器/分离器模块521接收包括音频内容的分量,并对该音频内容进行解压缩。进而,传输音频信号解压缩器/解码器模块523提供解码的传输音频信号511作为输出。

在图5中所示的示例中,解复用器501还包括元数据解压缩器/解码器模块525。元数据解压缩器/解码器模块525被配置为从数据流接收器/分离器模块521接收包括元数据的分量。元数据解码器模块525使用由源配置参数指示的解压缩方法来对空间元数据进行解压缩。这可以是与用于空间音频内容的方法不同的解压缩方法。一旦空间元数据已被解压缩,元数据解压缩器/解码器模块525就提供包括解码的空间元数据的一个或多个输出513、515。在图5中所示的示例中,元数据解压缩器/解码器模块525提供第一输出513和第二输出515,其中,第一输出513包括与空间音频内容的方向有关的空间元数据,第二输出515包括与空间音频内容的能量比率有关的空间元数据。应当理解,在本公开的其他示例中可以提供其他输出,这些其他输出提供与其他空间参数有关的数据。

在图5的示例中,解码的传输音频信号511被提供给原型信号生成器模块531。原型信号生成器模块531被配置为针对正被用于渲染空间音频内容的输出设备创建合适的原型信号541。例如,如果输出设备包括采用5.1配置的扬声器设置并且传输音频信号511是立体声信号,则左通道将接收左信号,右通道将接收右信号,而中通道将接收左右信号的混合。应当理解,在本公开的其他示例中可以使用其他类型的输出设备。例如,输出设备可以是扬声器的不同布置,或者可以是头戴式耳机,或者可以是任何其他合适类型的输出设备。

来自原型信号生成器模块531的原型信号541被提供给直接流生成器模块505和扩散流生成器模块507两者。在图5中所示的示例中,直接流生成器模块505和扩散流生成器模块507还接收包括空间元数据的输出513、515。在其他实施例中,可以使用不同的和/或其他类型的空间元数据。在一些示例中,不同的空间元数据可以被提供给直接流生成器模块505和扩散流生成器模块507。

在图5中所示的示例中,直接流生成器模块505和扩散流生成器模块507使用空间元数据以分别创建直接流543和扩散流545。例如,可以使用与方向参数有关的空间元数据以通过将声音平移到由元数据所指示的方向来创建直接流543。可以从所有或基本上所有可用通道的去相关信号创建扩散流545。

扩散流545和直接流543被提供给流组合器模块509。流组合器模块509被配置为组合直接流543和扩散流545以提供空间音频输出信号315。与能量比率有关的空间元数据可以被用于组合直接流543和扩散流545。

空间音频输出信号315可以被提供给渲染设备,诸如一个或多个扬声器、头戴式耳机或被配置为将电子空间音频输出信号315转换成可听信号的任何其他合适的设备。

在图5中所示的示例中,解复用器501、原型信号生成器模块503、直接流生成器模块505、扩散流生成器模块507和流组合器模块509都被示出为同一解码设备305的一部分。应当理解,在本公开的其他示例中可以使用其他配置。例如,在一些示例中,解复用器501的输出可以被存储为存储器中的文件。进而可以将其提供给单独的设备或系统,以进行处理以获得空间音频输出信号315。

图6示出了在本公开的一些示例中可被用于创建用于压缩空间元数据的码本的方法。图6中所示的方法可以由诸如图4中所示的编码设备303或任何其他合适的设备之类的编码设备303来执行。

在框601处,选择源配置。源配置是被用于捕获音频信号的格式。源配置的选择可以包括选择要用于捕获音频信号的麦克风布置,选择要用于捕获音频信号的设备,选择预混合的通道格式,或任何其他的选择。

在框603处,获得空间音频内容。使用在框601处选择的源配置来捕获所获得的空间音频内容。空间音频内容可以包括代表性的一组音频样本。代表性的样本组可以包括标准的一组声学信号,其可以被用于创建用于压缩空间元数据的码本的目的。代表性的样本组可以包括一个或多个具有不同的空间特性的声学样本。

在框605处,对所获得的空间音频内容执行空间分析。空间分析确定空间音频内容的一个或多个空间参数。空间参数可以是方向参数、能量比率参数、相干性参数或任何其他合适的参数。被执行的空间分析可以是与由编码设备303的空间分析器403执行的以获得空间元数据相同的空间分析过程。如果所获得的空间音频内容包括代表性的一组样本,则可以对该组内的每个样本执行相同的空间分析。

在框607处,分析在框605处获得的空间参数的统计信息。该分析使得能够确定针对每个参数值的出现概率。该分析可以包括从所获得的空间音频中对参数值的每次出现进行计数。可以使用直方图或任何其他合适的手段来对出现进行计数。

在框609处,该方法包括使用在框607处获得的统计信息来设计码本。例如,码本可以被设计以使得最可能的参数具有最短的码值,而最不可能的参数被分配更长的码值。这可以通过以下操作来实现:将参数值从最高出现率到最低出现率进行排序,进而将码值分配给经排序的参数值,其中这些经排序的参数值从具有最高出现率的被分配了最短可用码值的参数值开始。这确保空间元数据在其已经被压缩之后每个值将使用更少的比特。由此创建的码本可以包括查找表、或任何其他合适的信息。在一些示例中,可以使用一个或多个算法来生成码本。

在框611处,存储码本。码本可以被存储在编码设备303的存储器中或任何其他合适的存储位置中。码本被存储以使得可以在空间元数据的压缩和解压缩期间对其进行访问。

图6的方法示出了创建码本的示例。在其他示例中,可以通过对已有的码本应用已知限制来对其进行修改。例如,用于三维麦克风的码本可以是可用的,但源格式可以是二维麦克风阵列。在这种示例中,可以修改用于三维阵列的码本,以使得所有水平方向参数值在码本中接收更短的码值。作为另一示例,码本可用于5.1扬声器输入,但源格式可以是2.0扬声器输入。在这种示例中,可以修改用于5.1扬声器输入的码本,以使得在-30°与30°之间的方向参数值接收更短的码值。

图6示出了创建码本的示例性方法。此方法可以由诸如移动设备制造商之类的供应商来执行作为产品规范的一部分。一旦码本已被创建,它就可以被用于编码和解码空间元数据。码本可以被诸如沉浸式音频捕获设备之类的设备使用。配置参数可以与码本相关联,以使得可以选择正确的码本以用于空间元数据的编码和解码。

图7示出了对空间音频和空间元数据进行编码的示例性方法。图7中所示的示例性方法可以由图4中所示的编码设备303的复用器405或任何其他合适的设备来执行。在图7中所示的示例中,输入信号采用具有单独的空间音频内容和空间元数据的参数化空间音频格式来提供,并且源配置参数被提供为该格式的一部分。

在框701处,复用器405获得音频内容。音频内容可以在传输音频信号411中获得。如图4中所示,传输音频信号411可以从传输音频信号生成器401获得。音频内容已使用源格式被捕获。源格式可以在捕获音频内容之前已被预先选择,或者可以由用于捕获空间音频的设备来定义。

在框703处,复用器405获得空间元数据。空间元数据可以包括来自空间分析器403的输出415、417。空间元数据可以采用参数化格式来提供,其包括在传输信号411内提供的空间音频内容的一个或多个空间参数的值。如图4中所示,元数据可以从空间分析器403获得。

在框705处,复用器405获得源配置参数。输入源配置参数指示被用于捕获空间音频的源格式或源配置的等效描述。源配置参数可以被接收为来自捕获设备的输入,或者可以响应于经由用户接口或通过任何其他合适的手段的用户输入而被接收。源配置参数可以被获得为空间元数据分组的一部分。在这种示例中,获得源配置参数可以包括从空间元数据分组中读取参数。

在框707处,压缩空间音频内容。可以使用任何合适的技术来压缩空间音频内容。在图7中所示的示例中,源配置参数没有被用于压缩包括空间音频内容的音频传输信号411。音频传输信号411可以使用诸如aac(高级音频编码)、evs(增强语音服务)之类的任何合适的过程或任何其他合适的过程来压缩。

在框709处,选择用于空间元数据的压缩方法。所获得的源配置参数被用于选择空间元数据的压缩方法。选择压缩方法可以包括选择与用于所捕获的空间音频的源格式对应的预先形成的码本。该预先形成的码本可以被存储在编码设备303的存储器中,或者编码设备303可访问的任何存储器中。在一些示例中,选择压缩方法可以包括选择可计算的或代数的码本,其中该码本是基于算法的。

一旦已从存储器中获取预先形成的码本,它就可以被传递给空间元数据编码模块423,从而在框711处,可以使用该码本来压缩空间元数据。压缩空间元数据的方法可以是任一使用该码本的压缩方法。例如,该方法可以包括霍夫曼编码或任何其他合适的过程。

在一些示例中,可以在压缩空间元数据之前执行量化过程。量化过程可以包括量化参数化空间元数据的参数值,以使得每个参数值具有对应的码值。在一些示例中,源配置参数也可以被用于量化过程,因为最优量化也可取决于源格式。例如,当源格式中存在仰角时,可以对方向参数应用球面均匀量化,以便获得比可用其他量化过程实现的更均匀且感知更好的量化方向分布。

在一些示例中,源配置参数可以被用于确定所使用的量化过程。在这种情况下,可不必向解码器设备305提供源配置参数的单独指示,因为正确的源配置和/或方法压缩可以是量化过程固有的。

在框713处,压缩的空间音频内容和压缩的空间元数据一起被编码以形成编码的传输信号313。压缩的空间音频内容和压缩的空间元数据的组合可以由数据流生成器/组合器模块425或任何其他合适的模块来执行。在一些示例中,压缩的空间音频内容和压缩的空间元数据的组合还可以包括进一步的压缩,诸如行程编码或任何其他无损编码。

图8示出了对空间音频和空间元数据进行编码的另一示例性方法。图8中所示的示例性方法可以由音频捕获设备的编码设备303或任何其他合适的设备来执行。在图8中所示的示例中,没有如图7中所示以参数化空间音频格式将输入信号提供给编码设备303。相反,在图8的示例中,在编码设备303内对空间音频进行分析以确定空间元数据。

在框801处,捕获空间音频。空间音频是使用源格式来捕获的。

在框805处,处理所捕获的空间音频以形成音频传输信号411。音频传输信号411包括音频内容。处理所捕获的空间音频以形成音频传输信号411可以由传输音频信号生成器401或任何其他合适的组件来执行。

在框807处,对空间音频内容执行空间分析以获得空间元数据。空间分析可以由如图4中所示的空间分析器403或由任何其他合适的组件来执行。空间元数据可以采用参数化格式来提供。也就是说,空间元数据可以包括一个或多个空间参数,并且可以包括空间音频的一个或多个空间参数的值。

在框803处,获得源配置参数。输入源配置参数指示被用于捕获空间音频的源格式。源配置参数可以被存储在音频捕获设备的存储器中,或者可以响应于经由用户接口或通过任何其他合适的手段的用户输入而被接收。

在框809处,压缩包括空间音频内容的音频传输信号411。可以使用任何合适的技术来压缩音频传输信号411。在图8中所示的示例中,源配置参数没有被用于压缩包括空间音频内容的音频传输信号411。音频传输信号411可以使用诸如aac(高级音频编码)、evs(增强语音服务)之类的任何合适的过程或任何其他合适的过程来压缩。

在框811处,选择用于空间元数据的压缩方法。所获得的源配置参数被用于选择空间元数据的压缩方法。如图7的方法中所示,选择压缩方法可以包括选择与用于所捕获的空间音频的源格式对应的预先形成的码本。该预先形成的码本可以被存储在编码设备303的存储器中,或者编码设备303可访问的任何存储器中。

一旦已从存储器中获取预先形成的码本,它就可以被传递给空间元数据编码模块423,从而在框813处,可以使用该码本来压缩空间元数据。压缩空间元数据的方法可以是任一使用该码本的压缩方法。例如,该方法可以包括霍夫曼编码或任何其他合适的过程。可以在压缩空间元数据之前对空间元数据应用量化过程。

在框815处,压缩的空间音频内容和压缩的空间元数据一起被编码以形成编码的传输信号313。压缩的空间音频内容和压缩的空间元数据的组合可以由数据流生成器/组合器模块425或任何其他合适的模块来执行。在一些示例中,压缩的空间音频内容和压缩的空间元数据的组合还可以包括进一步的压缩,诸如行程编码或任何其他无损编码。

图9示出了示例性解码方法。图9中所示的示例性方法可以由图5中所示的解码设备305或任何其他合适的设备来执行。

在框901处,所接收的编码传输信号313被解码成单独的传输音频流和空间元数据流。传输音频流包括音频内容,而空间元数据流包括与传输音频流的空间特性有关的参数化值。

在框903处,从传输音频流解压缩空间音频内容。可以使用任何合适的过程来解压缩空间音频内容。在框905处,形成原型信号541。原型信号541可以由如图5中所示的原型信号生成器模块531或任何其他合适的组件来形成。

在框907处,获得源配置参数。在一些示例中,源配置参数可以与编码传输信号313一起被接收。例如,源配置参数可以被编码到空间元数据流中。在这种示例中,源配置参数可以被提供为空间元数据流中的第一值或空间元数据流中的任何其他定义值。与空间元数据流一起提供源配置参数可以允许针对不同的信号帧更新源配置,这可以有助于提高压缩效率。

在其他示例中,源配置参数可以是与编码传输信号313分开接收的。这可以通过针对空间元数据或空间音频内容的单独的信令通道来提供。例如,源配置参数可以被单独提供到发送音频内容和空间元数据的比特流。

在框909处,源配置参数被用于选择用于空间元数据的解压缩方法。选择解压缩方法可以包括基于源配置参数来选择码本。

在框911处,所选择的解压缩方法被用于解压缩空间元数据,并将空间元数据参数提供给合成器。空间元数据的解压缩可以是已被用于压缩空间元数据的过程的逆过程。例如,对空间元数据进行解压缩可以包括从空间元数据流中读取码值,以及从所选择的码本中获取对应的参数值。在其他示例中,来自空间元数据流的码值可以在经由计算手段提供对应的参数值的算法中使用。在一些示例中,可以使用算法代替查找表。在其他示例中,除了查找表之外,还可以使用算法。

在框913,空间元数据和原型信号541被合成成空间音频输出信号。

在图9中所示的示例性方法中,源配置参数被提供给解码设备305。在其他示例中,可以在编码设备303与解码设备305之间传递码本,其中该码本已由编码设备303基于源配置参数而被选择。

因此,本公开的示例提供了用于通过使合适的压缩方法能够被用于空间元数据来有效地对空间元数据进行编码的装置、方法以及计算机程序。这可以被实现为音频内容的编码的单独的过程。

以上所描述的示例发现如实现以下组件的应用:

汽车系统;电信系统;包括消费电子产品的电子系统;分布式计算系统;用于生成或渲染包括音频内容、视觉内容和视听内容以及混合现实、介导现实、虚拟现实和/或增强现实的媒体内容的媒体系统;包括个人健康系统或个人健身系统的个人系统;导航系统;也称为人机接口的用户接口;包括蜂窝网络、非蜂窝网络、以及光网络的网络;自组织网络;因特网;物联网;虚拟网络;以及相关的软件和服务。

在本文中使用的术语“包括”具有包容而非排他性的含义。也就是说,任何表述“x包括y”表示x可以仅包括一个y或可以包括多于一个y。如果意图使用具有排他性含义的“包括”,则将在上下文中通过提及“仅包括一个······”或者使用“由······组成”来明确。

已经在此说明中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述,在文本中术语“示例”或“例如”或“可以”或“可”的使用表示这种特征或功能至少存在于所描述的示例中,无论是否作为示例来描述,并且这种特征或功能可以但不必需存在于一些或所有其他示例中。因此,“示例”、“例如”或“可以”或“可”是指一类示例中的特定实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此,隐含公开了针对一个示例但未针对另一个示例描述的特征可用于其他示例作为工作组合的一部分,但不必需用于其他示例。

尽管已经在前面的段落中参考各种示例描述了实施例,但应当理解,可在不背离权利要求的范围的情况下对给出的示例进行修改。

在前面的说明中描述的特征可用于除了在上面明确地描述的组合以外的组合中。

“明确地”表明来自不同实施例(例如,具有不同流程图的不同方法)的特征可以被组合。

尽管已经参考某些特征描述了功能,但这些功能可由其他特征来执行,无论是否描述。

尽管已经参考某些实施例描述了特征,但这些特征也可存在于其他实施例中,无论是否描述。

在本文中使用的术语“一/一个”或“该”具有包容而非排他性的意义。也就是说,任何提到“x包括一个/该y”指示“x可以仅包括一个y”或“x可以包括多于一个的y”,除非上下文清楚地指出并非如此。如果意图使用具有排他性意义的“一/一个”或“该”,则将在上下文中明确说明。在一些环境下,可使用“至少一个”或“一个或多个”来强调包容性的意义,但缺少这些术语不应被视为意指非排他性的意义。

权利要求中特征(或特征的组合)的存在是对该特征(或特征的组合)本身的引用,并且也是对实现基本相同的技术效果的特征(等效特征)的引用。等效特征例如包括是变型的并且以基本相同的方式实现基本相同的结果的特征。等效特征例如包括以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。

在此说明中已经参考了使用形容词或形容词短语的各种示例来描述示例的特性。这种关于示例对特性的描述表示该特性在一些示例中与所描述的完全相同,而在其他示例中与所描述的基本相同。

尽管在前面的说明中试图指出那些被认为是重要的特征,但应当理解,申请人可经由权利要求来寻求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容,无论是否已强调。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜