音频捕获布置的制作方法

2021-08-20 20:37:00 来源：中国专利 TAG：限制性捕获示例信号音频

本发明的示例和非限制性实施例涉及音频信号的捕获。

背景技术：

多年来，诸如移动电话和平板电脑之类的移动设备已经配备有使设备的用户能够捕获音频和视频的照相机和麦克风布置。随着麦克风技术的发展以及移动设备中可用的处理能力和存储容量的增加，为此类移动设备提供能够捕获多声道音频的多麦克风布置正变得越来越普遍，这反过来例如允许使用移动设备来录制高质量空间音频。通常，空间音频(或一般的多声道音频)与视频一起捕获，而多声道音频可以很明显地作为独立媒体录制而无需伴随视频。

通常，使用移动设备捕获多声道音频信号的过程包括：操作麦克风阵列以捕获多个麦克风信号并将捕获的麦克风信号处理成录制的多声道音频信号以用于在移动设备中进一步处理，用于存储在移动设备中和/或用于传输到一个或多个其他设备。图1示出了根据示例的音频捕获布置100的框图。其中，音频处理器102接收捕获控制数据和多个麦克风信号，并根据捕获控制数据基于麦克风信号导出捕获音频信号。多个麦克风信号包括由相应的一个或多个麦克风(例如来自移动设备的麦克风阵列的麦克风)录制的相应(单声道)数字音频信号。

音频处理器102可以启用多个音频处理功能，而其中可用的音频处理功能的应用可以通过捕获控制数据来控制。可由音频处理器102应用于麦克风信号或应用于从麦克风信号导出的一个或多个信号的此类音频处理功能的非限制性示例包括以下：

-音频信号电平调整(例如自动增益控制)，

-音频均衡，

-动态范围压缩，

-音频增强处理，例如去除风噪声，

-音频聚焦(例如“音频缩放”以强调由捕获的麦克风信号表示的音频场景的子集)，

-修改正面取向的方向(例如，相对于由捕获的麦克风信号表示的音频场景的取向修改)，

-音频编码。

捕获控制数据可以进一步定义与接收的麦克风信号(即输入音频)和/或捕获音频信号(即输出音频)有关的一般音频特性，例如输入声道的数量、输出声道的数量、音频的采样率、音频的样本分辨率(例如每音频样本的位数)、应用的(输出)音频格式(例如双耳、根据指定声道配置的扬声器声道、参数化音频、全景声(ambisonics))等。除了(输入和/或输出音频的)一般音频特性之外，捕获控制数据可以定义(将)应用音频处理器102中可用的音频处理功能中的哪些以及(如果适用)用于控制相应音频处理功能的应用的相应音频处理参数。因此，捕获控制数据标识用于导出捕获音频信号的至少一个(音频)特性。

捕获控制数据可以包括源自移动设备的用户在音频捕获会话之前进行的预选(并且存储在移动设备的存储器中)的定义、源自移动设备做出的自动选择的定义和/或源自在发起时或在音频捕获会话期间接收的用户输入的定义。捕获控制数据以及因此音频处理器102的对应操作特性可以在整个音频捕获会话期间保持不变。另一方面，在音频捕获会话期间，捕获控制数据的至少一些方面以及因此音频处理器102的操作的对应特性可以改变或被改变。此类改变可包括在音频捕获会话期间启用或禁用特定音频处理功能或在音频捕获会话期间改变特定音频处理功能的特性，要么在移动设备的控制下自动地进行，要么响应于在音频捕获会话期间接收的用户输入而进行。用户输入可以包括直接解决音频捕获会话的一个或多个音频特性的直接用户输入，和/或由用户调整移动设备中的相关过程而产生的间接用户输入，例如改变应用于并发视频捕获会话的视频缩放设置。

因此，沿着上述思路执行的音频捕获会话的结果导致这样的捕获音频信号，其后续可由应用音频捕获布置100的移动设备的用户或由另一设备的用户访问。得到的捕获音频信号反映了在导出捕获音频信号时所进行的选择(关于音频处理器102中可用的音频处理功能的应用和特性)。

在典型的使用场景中，移动设备的用户在捕获的同时，也直接收听了他或她正通过移动设备捕获的真实音频场景，并且因此在音频捕获会话期间没有发生对所捕获音频信号的“监测”。因此，用户后续可能会发现在导出所捕获音频信号时做出的选择不是最佳的，并且/或者另一用户可能对控制音频处理器102中可用的音频处理功能的操作的选择具有不同的偏好。然而，一些在底层音频捕获会话中应用的音频处理功能的一部分可能具有无法逆转(或“撤销”)的效果，或者逆转(或“撤销”)相应音频处理功能可能导致音频质量受损和/或过度计算。此外，在音频处理器102中可用但在导出所捕获音频信号时未应用的一些音频处理功能不一定适用于所捕获音频信号，或者它们的应用可能导致受损的音频质量或过度计算。

技术实现要素：

根据示例实施例，提供了一种用于处理两个或更多个麦克风信号的方法，该方法包括：根据标识用于导出第一所捕获音频信号的至少一个特性的捕获控制数据，基于从相应的两个或更多个麦克风接收的两个或更多个麦克风信号，导出具有一个或多个声道的第一所捕获音频信号；存储捕获控制数据的至少一部分和基于两个或更多个接收的麦克风信号导出的中间音频数据；作为存储的捕获控制数据与标识用于导出第二所捕获音频信号的至少一个特性的用户可定义的后捕获控制数据的组合，导出修改的捕获控制数据；以及根据修改的捕获控制数据，基于所述中间音频数据，导出具有一个或多个声道的第二所捕获音频信号。

根据另一示例，提供了一种用于处理两个或更多个麦克风信号的方法，该方法包括：根据标识用于导出第一所捕获音频信号的至少一个特性的捕获控制数据，基于从相应的两个或更多个麦克风接收的两个或更多个麦克风信号，导出具有一个或多个声道的第一所捕获音频信号；以及存储捕获控制数据的至少一部分和基于两个或更多个接收的麦克风信号导出的中间音频数据，以使得能够根据存储的捕获控制数据的至少一部分基于中间音频数据导出具有一个或多个声道的第二所捕获音频信号。

根据另一示例实施例，提供一种用于处理两个或更多个麦克风信号的方法，该方法包括：获得根据标识用于导出第一所捕获音频信号的至少一个特性，基于所述两个或更多个麦克风信号而导出的具有一个或多个声道的第一所捕获音频信号；获得所述捕获控制数据的至少一部分和基于所述两个或更多个麦克风信号导出的中间音频数据；获得所述捕获控制数据的至少一部分和基于所述两个或更多个麦克风信号导出的中间音频数据；以及根据修改的捕获控制数据，基于所述中间音频数据导出具有一个或多个声道的第二所捕获音频信号。

根据另一示例实施例，提供了一种用于处理两个或更多个麦克风信号的系统，该系统包括：用于根据标识用于导出第一所捕获音频信号的至少一个特性的捕获控制数据，基于从相应的两个或更多个麦克风接收的两个或更多个麦克风信号，导出具有一个或多个声道的第一所捕获音频信号的模块；用于存储捕获控制数据的至少一部分和基于两个或更多个接收的麦克风信号导出的中间音频数据的模块；用于作为存储的捕获控制数据与标识用于导出第二所捕获音频信号的至少一个特性的用户可定义的后捕获控制数据的组合来导出修改的捕获控制数据的模块；以及用于根据修改的捕获控制数据基于所述中间音频数据导出具有一个或多个声道的第二所捕获音频信号的模块。

根据另一示例实施例，提供了一种用于处理两个或更多个麦克风信号的装置，该装置包括：用于根据标识用于导出第一所捕获音频信号的至少一个特性的捕获控制数据，基于从相应的两个或更多个麦克风接收的两个或更多个麦克风信号，导出具有一个或多个声道的第一所捕获音频信号的模块；用于存储捕获控制数据的至少一部分和基于两个或更多个接收的麦克风信号导出的中间音频数据的模块；用于作为存储的捕获控制数据与标识用于导出第二所捕获音频信号的至少一个特性的用户可定义的后捕获控制数据的组合，导出修改的捕获控制数据的模块；以及用于根据修改的捕获控制数据，基于所述中间音频数据导出具有一个或多个声道的第二所捕获音频信号的模块。

根据另一示例实施例，提供了一种用于处理两个或更多个麦克风信号的装置，该装置包括：用于根据标识用于导出第一所捕获音频信号的至少一个特性的捕获控制数据，基于从相应的两个或更多个麦克风接收的两个或更多个麦克风信号，导出具有一个或多个声道的第一所捕获音频信号的模块；以及用于存储捕获控制数据的至少一部分和基于两个或更多个接收的麦克风信号导出的中间音频数据，以使得能够根据存储的捕获控制数据的至少一部分基于所述中间音频数据导出具有一个或多个声道的第二所捕获音频信号的模块。

根据另一示例实施例，提供了一种用于处理两个或更多个麦克风信号的装置，该装置包括：用于获得根据标识用于导出第一所捕获音频信号的至少一个特性基于所述两个或更多个麦克风信号而导出的具有一个或多个声道的第一所捕获音频信号的模块；用于获得所述捕获控制数据的至少一部分和基于所述两个或更多个麦克风信号导出的中间音频数据的模块；用于作为所述获得的捕获控制数据与标识用于导出第二所捕获音频信号的至少一个特性的用户可定义的后捕获控制数据的组合，导出修改的捕获控制数据的模块；以及用于根据修改的捕获控制数据基于所述中间音频数据导出具有一个或多个声道的第二所捕获音频信号的模块。

根据另一示例实施例，提供了一种用于处理两个或更多个麦克风信号的装置，其中，该装置包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该计算机程序代码当由该至少一个处理器执行时使该装置至少执行根据前述示例实施例之一的方法。

根据另一示例实施例，提供了一种计算机程序，该计算机程序包括计算机可读程序代码，该计算机可读程序代码被配置为在所述程序代码在一个或多个计算装置上被执行时促使至少执行根据前述示例实施例之一的方法。

根据示例实施例的计算机程序可以体现在易失性或非易失性计算机可读记录介质上，例如作为包括其上存储有程序代码的至少一个计算机可读非暂时性介质的计算机程序产品，该程序当由一个或多个装置执行时促使该一个或多个装置至少执行上文对根据本发明的示例实施例的计算机程序描述的操作。

本专利申请中提出的本发明的示例性实施例不应被解释为对所附权利要求的适用性造成限制。动词“包括”及其派生词在本专利申请中用作公开限制，不排除也存在未列举的特征。除非另有明确说明，下文描述的特征可相互自由组合。

本发明的一些特征在所附权利要求中阐述。然而，当结合附图阅读时，从一些示例实施例的以下描述中将最好地理解本发明的方面，关于其构造和其操作方法，连同其附加目的和优点。

附图说明

本发明的实施例通过示例而非限制的方式在附图中示出，其中

图1示出了根据示例的音频捕获布置的框图；

图2示出了根据示例的音频处理布置的一些组件和/或实体的框图；

图3a示出了根据示例的用于实现音频处理布置的一些组件和/或实体的设备的框图；

图3b示出了根据示例的用于实现音频处理布置的一些组件和/或实体的设备的相应框图；

图3c示出了根据示例的用于实现音频处理布置的一些组件和/或实体的设备的相应框图；

图4示出了根据示例的音频处理器的一些组件和/或实体的框图；

图5示意性地示出了根据示例的移动设备中的多个麦克风的布置；

图6示出了根据示例的用户接口；

图7示出了描绘根据示例的用于空间音频处理的方法的流程图；以及

图8示出了根据示例的装置的一些元件的框图。

具体实施方式

图2示出了根据示例的音频处理布置200的一些组件和/或实体的框图。音频处理布置200至少在概念上包括捕获布置200a和捕获后布置200b，它们在图2的示例中经由存储装置208链接。存储装置208可以包括例如提供在设备中的存储器，该设备实现捕获布置200a、实现捕获后布置200b或整体实现音频处理布置200。在其他示例中，音频处理布置200可以包括进一步的实体和/或图2中描绘的一些实体可被省略或与其他实体组合。

图2用于示出音频处理布置200的逻辑组件，并且因此不强加关于音频处理布置200的实施方式的结构限制，而是例如相应的硬件模块、相应的软件模块或硬件模块和软件模块的相应组合可被应用，以便与音频处理布置200的其他逻辑组件分离地实现音频处理布置200的任何逻辑组件，以便实现音频处理布置200的两个或更多个逻辑组件的任何子组合，或以便组合地实现音频处理布置200的所有逻辑组件。

参考图2，捕获布置200a包括音频处理器102，其被布置为接收捕获控制数据和两个或更多个麦克风信号，并根据捕获控制数据基于一个或多个麦克风信号导出所捕获音频信号，如前文参考音频处理布置100所描述的那样。沿着其中描述的思路，捕获控制数据标识所捕获音频信号的至少一个特性。两个或更多个麦克风信号可以包括基于由布置在诸如移动电话、平板电脑、笔记本电脑等移动设备中的相应麦克风捕获的声音而录制的相应数字音频信号。在不失一般性的情况下，这两个或更多个麦克风可称为麦克风阵列。两个或更多个麦克风信号中的每一个包括源自两个或更多个麦克风中的相应一个麦克风的相应单声道信号，而该两个或更多个麦克风信号可以至少在概念上被认为构成多声道音频信号，其中，每个麦克风信号表示该多声道音频信号的相应声道。取决于在捕获控制数据中接收的定义，由音频处理器102的操作产生的所捕获音频信号可以包括单声道音频信号或多声道音频信号(包括两个或更多个音频声道)。

尽管未在图2中示出，也可以将所捕获音频信号存储在存储装置208中，以用于实现捕获布置200a的移动设备的用户后续访问和/或用于传输到另一设备以用于在其中后续访问。在一个示例中，所捕获音频信号可以与视频信号相关联，该视频信号也可以与用作在音频处理器102中导出所捕获音频信号的基础的两个或更多个麦克风信号同时捕获。在这种情况下，根据可应用的媒体容器格式(例如mpeg4文件)，所捕获音频信号可以与相关联的视频信号一起存储(例如在存储装置208中)在媒体容器(例如文件)中。在另一示例中，所捕获音频信号是与视频信号不相关联的独立实体，或者以其他方式与可能与其相关联的视频信号分开地存储在专用媒体容器(例如文件)中。

通常，尽管不是必须，两个或更多个麦克风信号包括音频信息，其容易提供或可被处理成实现捕获布置200a的移动设备的环境中的音频场景的表示。在下文中，在适用的情况下，由两个或更多个麦克风信号提供的音频场景的表示被称为音频场景的原始表示。在由两个或更多个麦克风信号提供的音频信息中捕获的音频场景的表示的(感知)质量和/或准确性取决于例如移动设备的麦克风相对于该音频场景的声源的位置和取向以及两个或更多个麦克风相对于彼此的相应位置。沿着类似的思路，所捕获音频信号可以构成(至少两个声道的)多声道音频信号，其传达实现捕获布置200a的移动设备的环境中的音频场景的表示，这可以类似于该音频场景的原始表示或是其修改版本。

在本公开中使用的术语音频场景是指实现捕获布置200a的移动设备的环境中的声场，而例如两个或更多个麦克风信号提供该音频场景的表示。音频场景可以涉及在该音频场景的特定空间位置和/或音频场景的环境处的一个或多个声源。音频场景的表示可以使用(空间)音频格式来定义，该音频格式例如双耳音频、根据预定义声道配置的音频声道、参数化音频、全景声等，其使得能够传达与一个或多个定向声音分量相关和/或与环境声音(例如音频场景中的环境声音和混响)相关的(音频)信息。收听音频场景的这种表示使收听者能够体验的音频环境类似于好像他或她处在音频场景所表示的位置处。

捕获布置200a通常被应用于将两个或更多个麦克风信号作为输入帧序列进行处理，以导出构成所捕获音频信号的对应输出帧序列。每个输入帧包括用于在相应预定义采样频率下每个麦克风信号的相应数字音频信号段，并且每个输出帧包括用于在相应预定义采样频率下的所捕获音频信号的每个声道的相应数字音频信号段。在典型示例中，捕获布置200a采用固定的预定义帧长度，使得每个帧包括用于相应音频信号(即麦克风信号和所捕获音频信号)的每个声道的相应l个样本，其在相应的预定义采样频率下映射到对应的持续时间。作为这方面的示例，固定帧长度可以是20毫秒(ms)，这在8、16、32或48khz的采样频率下分别导致每声道l＝160、l＝320、l＝640和l＝960个样本的帧。这些帧可以不重叠，或者可以部分重叠。然而，这些值用作非限制性示例，并且也可以替代地采用不同于这些示例的帧长度和/或采样频率，这取决于例如所需的音频带宽、所需的成帧延迟和/或可用的处理能力。

仍然参考图2，捕获布置200a还包括：控制数据格式器204，用于提取捕获控制数据中传达的定义中的至少一些；以及音频格式器206，用于提取在两个或更多个麦克风信号中传达的音频信息的至少一部分。由控制数据格式器204从捕获控制数据中提取的定义和由音频格式器206从两个或更多个麦克风信号中提取的音频信息被存储在存储装置208上，以供捕获后布置200b后续使用。

仍然参考图2，控制数据格式器204被布置为提取捕获控制数据的至少一部分，并且使其作为存储的捕获控制数据可用于捕获后布置200b。在这点上，控制数据格式器204可以提取在捕获控制数据中接收的至少一些定义并且以预定义的捕获控制数据格式将它们存储在存储装置208中以供捕获后布置200b进行后续访问。在控制数据格式器204处接收的捕获控制数据优选地包括由音频处理器102应用的音频处理的一般音频特性的完整描述以及关于音频处理器102中可用的音频处理功能的应用的完整信息，以及(如果适用)用于控制相应音频处理功能的应用的相应音频处理参数。因此，由控制数据格式器接收的捕获控制数据包括音频特性的完整描述和使得能够将在捕获布置200a处接收的两个或更多个麦克风信号处理成所捕获音频信号的音频处理参数。

控制数据格式器204为存储的捕获控制数据应用的捕获控制数据格式可以包括控制数据条目的序列，每个控制数据条目标识音频捕获的相应一般音频特性或标识音频处理器102的所应用音频处理功能，可能连同相应的音频处理参数。根据示例，控制数据条目包括指派给相应控制数据条目的定时(timing)的指示(例如开始时间和/或结束时间)、与相应控制数据条目相关联的一般音频特性或音频处理功能，以及(将要)应用于控制相应音频处理功能的应用的可能的音频处理参数。在另一个示例中，与控制数据条目相关联的定时可以是隐式的，例如基于控制数据条目在控制数据条目序列中的位置(例如，如果为底层音频信号的每一帧提供专用控制数据条目)或基于捕获控制数据格式的另一个结构性方面。在这样的示例中，可以从控制数据条目中省略定时指示。

在非限制性示例中，由控制数据格式器204存储的所存储捕获控制数据的控制数据条目可以包括指示相对于参考时间的开始时间(例如相对于底层音频信号的开始的秒数)的时间戳、一般音频特性的标识或与相应控制数据条目相关联的音频处理功能的标识、以及(如果适用)应用于控制相应音频处理功能的应用的一个或多个音频参数，例如如以下示例中所示。

控制数据条目可以以人类可读(文本)格式或以计算机可读(二进制和/或编码)格式来提供。控制数据格式器204提供所存储的捕获控制数据作为与音频格式器206从两个或更多个麦克风信号提取的音频数据相关联的元数据。在一个示例中，控制数据格式器204将所存储的捕获控制数据在单独的(或专用的)文件中写入存储器中208。在另一个示例中，控制数据格式器204将所存储的捕获控制数据嵌入到存储在存储装置208中的另一个文件中，例如作为包括在该文件中的元数据，该文件(也)存储由音频格式器206从两个或更多个麦克风信号中提取的音频数据。

控制数据格式器204可以将所有接收的捕获控制数据包括在所存储的捕获控制数据中，从而使捕获后布置200b能够进行对所捕获音频信号的后续重构。在另一示例中，控制数据格式器204仅在所存储的捕获控制数据中包括接收的捕获控制数据的子集，以便减少元数据所需的存储(和/或数据传输)容量的量。作为这方面的示例，控制数据格式器204可被布置为在所存储的捕获控制数据中包括与某(第一)一个或多个预定义的一般音频特性或音频处理功能有关的相应定义，和/或从所存储的捕获控制数据省略与某(第二)一个或多个预定义的一般音频特性或音频处理功能有关的相应定义。作为另一个示例，可以通过降低与所应用的音频处理功能相关联的给定音频参数的更新速率来减少所存储的捕获控制数据的量，例如使得以n个帧间隔来包括给定音频参数的更新值，而不是在每帧中包括相应的参数值。因此，捕获后布置200b可以为没有明确指示音频参数值的那些帧内插音频参数值。

仍然参考图2，音频格式器206被布置为基于两个或更多个麦克风信号导出中间音频数据。在这点上，音频格式器206可被布置为：提取在两个或更多个麦克风信号中传达的音频信息的至少一部分，并且将提取的音频信息存储在存储装置208中作为中间音频数据以供捕获后布置200b后续访问。在一个示例中，音频格式器206将接收的两个或更多个麦克风信号这样存储，从而使得捕获后布置206能够在其中基于可用于捕获布置200a的相同音频内容执行音频处理。在这样的示例中，由音频格式器206存储在存储装置208中的音频信息可被称为“原始音频信号”或称为包括两个或更多个中间音频信号的“原始音频数据”。这里，每个中间音频信号可以作为相应的单个声道(单声道)音频信号或作为相应的多声道音频信号(具有两个或更多个声道)来提供。

在其他示例中，音频格式器206可以应用一个或多个音频处理功能，来将接收的两个或更多个麦克风信号处理成中间音频数据以存储在存储装置208中。可以由音频格式器206应用的音频处理功能的示例包括以下一项或多项：增益控制、音频均衡、噪声抑制(诸如去除风噪声)或其他类型的音频增强处理、采样率的改变(诸如降低)、音频样本分辨率的改变(例如降低)、声道数量的改变(例如减少)、音频编码、转换为选择的或预定义的音频格式(例如双耳、根据预定义的声道配置的音频声道、参数化音频、全景声)等。在这样的示例中，中间音频数据可以包括一个或多个中间音频信号，可能由音频元数据补充。然而，通常在音频格式器206中不应用或仅应用少数音频处理功能，以尽可能多地保留由两个或更多个麦克风信号传达的音频信息(例如，考虑到存储装置208的可用容量和/或考虑到可用的处理能力)以便向捕获后布置200b提供这样的中间音频数据，该中间音频数据与从音频处理器102输出的所捕获音频信号相比在信息内容上(显著)更接近于在捕获布置200a处接收的两个或更多个麦克风信号。通常，尽管不是必须的，由控制数据格式器206在存储装置208中存储的捕获控制数据(例如存储为元数据)包括相应的控制数据条目，这些控制数据条目仅与由音频处理器102应用的那些音频处理功能有关，而可能由音频格式器206的操作应用的一个或多个预定义音频处理功能在存储装置208中提供的所存储的捕获控制数据中未被标识。然而，标识由音频格式器206在导出中间音频数据中应用的音频处理功能中的至少一些音频处理功能的信息可连同一个或多个中间音频信号一起被存储在存储装置208中，作为与其相关联的元数据，存储在单独的(或专用的)文件中或被嵌入到(也)存储一个或多个中间音频信号的文件中。

音频格式器206可以使用本领域已知的合适的存储格式来存储中间音频数据。作为示例，如果中间音频数据被提供为一个或多个时域多声道音频信号，则它们可以以pcm格式(例如，作为.wav文件)存储在存储装置208中。在另一示例中，如果音频格式器206将选择的或预定义的音频编码应用于两个或更多个麦克风信号(或应用于基于两个或更多个麦克风信号导出的一个或多个信号)以导出中间音频数据，则该信息可以使用为相应音频编码器定义的预定义容器(或封装)格式来存储。

仍然参考图2，捕获后布置200b包括：控制数据组合器210，用于基于存储的捕获控制数据和捕获后控制数据来导出修改的捕获控制数据；以及音频预处理器212，用于基于中间音频数据导出一个或多个重构信号。捕获后布置200b还包括：音频处理器202，用于根据修改的捕获控制数据基于一个或多个重构信号导出捕获后音频信号。由音频处理器202导出的捕获后音频信号(也)反映经由捕获后控制数据定义的控制信息，从而提供可以代替从音频处理器102获得的所捕获音频信号而被应用的音频信号，例如通过用捕获后音频信号替换所捕获音频信号作为视听内容的一部分和/或回放捕获后音频信号而不是所捕获音频信号来应用。这里，术语所捕获音频信号和捕获后音频信号被应用以分别指代音频处理器102和音频处理器202的输出。然而，尤其是后一个是为了描述的编辑清晰而做出的选择，并且这些信号可替代地被分别称为第一所捕获音频信号和第二所捕获音频信号。

如上所述，中间音频数据包括音频信息，该音频信息包括一个或多个中间音频信号(可能由音频元数据补充)。中间音频数据传达音频场景的原始表示(即，由在捕获布置200a接收的两个或更多个麦克风信号提供的表示)或其近似物。还如上所述，包括在中间音频数据中的每个中间音频信号可以被提供为相应的单个声道(单声道)音频信号或作为相应的多声道音频信号(具有两个或更多个声道)。由捕获后布置200b的操作产生的捕获后音频信号通常包括传达音频场景的表示的(至少两个声道的)多声道音频信号，而在一些示例中，捕获后音频信号可以包括单个声道(单声道)音频信号，这取决于修改的捕获控制数据中提供的定义。

捕获后布置200b通常用于将中间音频数据(例如一个或多个中间音频信号)作为输入帧序列进行处理，以导出构成捕获后音频信号的对应输出帧序列。前面参考捕获布置200a提供的帧结构的描述也适用于捕获后布置200b，做必要的修改。

如上所述，音频预处理器212被布置为基于中间音频数据导出一个或多个重构信号。在这点上，音频预处理器212从存储装置208获得(例如读取)中间音频数据，并且取决于应用于中间音频数据的内容和格式，或者如相应的两个或更多个重构信号那样应用包括在其中的两个或更多个中间音频信号，或者使包括在中间音频数据中的一个或多个中间音频信号经受一个或多个音频处理功能以导出一个或多个重构信号以供音频处理器202进一步处理。

如果从(捕获布置200a经由)存储装置208获得的中间音频数据包括作为最初在捕获布置200a处接收的两个或更多个麦克风信号(即作为“原始音频信号”)的相应副本被提供的两个或更多个中间音频信号，音频预处理器212的音频处理不是必需的，但是两个或更多个中间音频信号可以如相应的两个或更多个重构信号那样被传递，以供音频处理器202处理。例如，如果从存储装置208获得的中间音频数据包括一个或多个中间音频信号，其中该一个或多个中间音频信号提供最初在捕获布置200a处接收的两个或更多个麦克风信号的编码表示，音频预处理器212可被布置为将相应的音频解码应用到一个或多个中间音频信号以导出一个或多个重构信号。

如上所述，音频处理器202被布置为根据修改的捕获控制数据基于一个或多个重构信号导出捕获后音频信号。音频处理器202在其操作和能力方面可以类似于音频处理器102。因此，音频处理器202可以启用多个音频处理功能，而其中可用的音频处理功能的应用可以通过修改的捕获控制数据来控制。可以在音频处理器202中可用的音频处理功能的非限制性示例在前面参考音频处理器102进行了描述。

尽管未在图2中示出，也可以将捕获后音频信号存储在存储装置208中以供实现捕获后布置200b的设备的用户后续访问和/或用于传输到另一设备以用于在其中进行后续访问。作为这方面的示例，可以提供捕获后音频信号作为在存储装置208中也可用的所捕获音频信号的替代物用于回放，或者捕获后音频信号可以替换存储装置208中的所捕获音频信号。如果在存储装置208中在相同媒体容器中(例如在mpeg4文件中)提供所捕获音频信号，则捕获后音频信号可以替换该媒体容器中的所捕获音频信号。

如上所述，控制数据组合器210被布置为基于存储的捕获控制数据和捕获后控制数据导出修改的捕获控制数据。在这点上，控制数据组合器210从存储装置208获得(例如读取)存储的捕获控制数据。虽然存储的捕获控制数据标识了至少一个音频特性，该音频特性已被应用于在捕获布置200a中导出所捕获音频信号(并且可被应用于导出捕获后音频信号)，但捕获后控制数据和作为结果的修改的捕获控制数据中的每一个标识(将)被应用于在捕获后布置200b中导出捕获后音频信号的至少一个音频特性。

回到前面在捕获布置200a的上下文中描述的捕获控制数据的特性，存储的控制数据标识用于导出所捕获音频信号的至少一个音频特性，该音频特性也可以用于导出捕获后音频信号。在这点上，存储的捕获控制数据可以标识与接收的麦克风信号(即捕获布置200a的输入音频)和/或与所捕获音频信号(即捕获后布置200a的输出音频)有关的一般音频特性，并且/或者存储的捕获控制数据可以定义在音频处理器102中可用的音频处理功能中的哪些已经被应用以在音频处理器102中导出所捕获音频信号以及(如果适用)被用于控制相应音频处理功能的应用的相应音频处理参数。前面描述了音频处理器102中可用的一般音频特性和音频处理功能的示例。

沿着前面在捕获布置200a的上下文中描述的思路，使用预定义的捕获控制数据格式将存储的捕获控制数据存储在存储装置208中，该格式可以包括控制数据条目序列，标识所捕获音频信号的相应一般特性或标识在捕获布置200a中应用于处理一个或多个麦克风信号的音频处理功能的每个控制数据条目，可能连同相应的音频处理参数。取决于可用作存储的捕获控制数据的信息，控制数据组合器210可以在存储的捕获控制数据中可用的数据点之间进行内插，以确保对于对应中间音频数据也存储在存储装置208中的整个持续时间(例如，对于每一帧)捕获控制数据的可用性。

仍然参考图2，控制数据组合器210还接收标识用于导出捕获后音频信号的至少一个音频特性的捕获后控制数据。在这点上，捕获后控制数据可以标识捕获后音频信号(即捕获后布置200b的输出音频)的各种一般音频特性，例如输出声道的数量、输出音频的采样率、输出音频的样本分辨率(例如每音频样本的比特数)、应用的输出音频格式(例如双耳、根据指定声道配置的扬声器声道、参数化音频、全景声)等。除了捕获后音频信号的一般音频特性，捕获后控制数据可以定义音频处理器202中可用的哪些音频处理功能(将要)被应用以及(如果适用)用于控制相应音频处理功能的应用的相应音频处理参数。音频处理器202可应用的音频处理功能的示例涉及根据用户可定义的聚焦方向和聚焦量的音频聚焦。音频处理器202中可用的音频处理功能的该示例和其他示例在上文和下文中更详细地进行了描述。

捕获后控制数据可以包括源自在发起或执行捕获后会话时接收的用户输入的定义。在这点上，捕获后控制数据以及因此音频处理器202的操作的对应特性可以在整个捕获后会话期间保持不变。另一方面，捕获后控制数据的至少一些方面以及因此音频处理器202的操作的对应特性可以在捕获后会话期间改变或被改变。这种改变可以包括在捕获后会话期间启用或禁用某个音频处理功能或在捕获后会话期间改变某个音频处理功能的特性，例如响应于在捕获后会话期间接收的用户输入。

仍然参考图2，控制数据组合器210被布置为通过将在存储的捕获控制数据中接收的信息与在捕获后数据中接收的信息组合来导出修改的捕获控制数据。组合这些信息的基础原理是，在存储的捕获控制数据中包括的第一定义和捕获后控制数据中包括的第二定义之间重叠或冲突的情况下，以后者为准。因此，控制数据组合器210可被布置为进行以下一项或多项：

-省略在存储的捕获控制数据中标识的一个或多个音频特性，

-用捕获后控制数据中标识的一个或多个音频特性替换存储的捕获控制数据中标识的一个或多个音频特性，

-基于在捕获后控制数据中标识的一个或多个音频特性修改在存储的捕获控制数据中标识的一个或多个音频特性，

-用捕获后控制数据中标识的一个或多个音频特性补充存储的捕获控制数据。

因此，捕获后布置200b使用户能够省略、替换、修改和/或补充关于应用于导出所捕获音频信号的音频特性所做的选择，以导出提供改进的感知音频质量和/信号或以其他方式更接近地反映捕获后布置200b的用户的偏好的捕获后音频。

根据一个示例，如图3a中示意性所示，捕获布置200a和捕获后布置200b可以在移动设备150中实现，移动设备150可被提供为便携式电子设备，例如移动电话、便携式媒体播放器、平板电脑、膝上型电脑等。移动设备150还可以包括两个或麦克风(例如麦克风阵列)201，被布置为提供构成由音频处理布置200进行的音频处理的基础的相应的两个或更多个麦克风信号。其中，存储装置208可被提供为移动设备150的存储器并且它可以由捕获布置200a和捕获后布置200b两者直接访问。

在另一个示例中，如图3b中示意性所示，音频处理布置200的元件可以分布到两个设备中，使得移动设备150a包括捕获布置200a以及两个或更多个麦克风201和存储装置208a，而设备150b包括捕获后布置200b以及存储装置208b。例如，其中，移动设备150a可被提供为便携式电子设备，例如移动电话、便携式媒体播放器、平板电脑、膝上型电脑等，而设备150b可被提供为便携式移动设备或作为其他类型的电子设备，例如台式计算机等。在图3b的示例布置中，捕获布置200a操作以将存储的捕获控制数据和中间音频数据(以及可能还有所捕获音频信号和/或与所捕获音频信号相关联的视频内容)写入移动设备150a中的存储装置208a中。根据一个示例，由捕获布置200a存储在存储装置208a中的数据可以例如经由通信链路、经由通信网络或经由可移动存储器设备的使用，被传送到设备150b中的存储装置208b，并且捕获后布置200b可以从存储装置208b读取至少存储的捕获控制数据和中间音频数据(并且可能将捕获后音频信号写入存储装置208b)。在另一个示例中，由捕获布置200a存储在存储装置208a中的数据可以首先被传送(例如上传)到在通信地耦合(例如，经由通信网络)到移动设备150a的服务器设备中提供的存储装置中，而设备150b可以同样通信地耦合(例如，经由通信网络)到服务器并且在设备150b中操作的捕获后布置200b可以从服务器中的存储装置至少读取存储的捕获控制数据和中间音频数据(并且可能将捕获后音频信号写入到服务器中的存储装置中)。

在又一示例中，如图3c中示意性地示出的，音频处理布置200的元件可以与前面在图3b的示例的上下文中描述的不同地被分布到多个设备中。与图3b的示例一样，图3c的示例也包括移动设备150a和设备150b以及服务器设备150c。如在图3b的示例中，移动设备150a包括捕获布置200a以及两个或更多个麦克风201和存储装置208a，服务器设备150c包括捕获后布置200b和存储装置208c。移动设备150a通信地(例如，经由通信网络)耦合到服务器设备150c并且提供存储的捕获控制数据和中间音频数据(以及可能还有所捕获音频信号和/或与所捕获音频信号相关联的视频内容)给服务器设备150c中的存储装置208c。设备150b(也)通信地耦合到服务器设备150c，并且它配备有软件应用210，该软件应用210使用户能够(远程)操作在服务器设备150c中提供的捕获后布置200b。在这点上，捕获后控制数据的至少一部分可以通过设备150b中的应用210的操作来定义并被传送到服务器设备150c，而在捕获后布置200b的操作中所涉及的处理被执行在服务器设备150c中，这可能涉及服务器设备150c访问存储装置208c中提供的存储的捕获控制数据和中间音频数据(以及可能还有所捕获音频信号和/或与所捕获音频信号相关联的视频内容)以及还可能(至少部分地)用由服务器设备150c中的捕获后布置的操作产生的捕获后音频信号替换存储装置208c中的所捕获音频信号。因此，用户可以应用设备150b来访问(例如下载)在服务器设备150c的存储装置208c中可用的捕获后音频信号(可能连同相关联的视频内容)。

如上所述，多个音频处理功能可在音频处理器102、202中可用于修改两个或更多个麦克风信号、一个或多个重构信号或从其导出的一个或多个信号。这些音频处理功能中的许多可能会导致在相应已处理的音频信号中传达的音频信息的改变，这些改变无法逆转或“撤销”，至少不能完全逆转或“撤销”。下面提供了这方面的一些示例：

-信号电平调整(例如增益控制)或音频均衡可导致已处理音频信号(无意的)饱和，从而丢失在未处理音频信号中传达的音频信息的至少一部分。

-动态范围压缩导致可能无法完全恢复的未处理音频信号的(时域)音频包络的精细结构的丢失。

-诸如噪声去除之类的音频增强处理会丢弃在未处理音频信号中存在的音频信息的一部分。

-音频聚焦或修改或收听取向以基于产生的已处理音频信号不能完全撤销或重做的方式修改由未处理音频信号传达的音频场景的表示。

-音频编码通常涉及有损压缩，其目的在于根据所需的压缩比(例如，鉴于可用的比特率)和/或可用的处理能力，丢弃由未处理音频信号传达的音频信息的感知上不太重要的特性，从而导致信息丢失，而这些信息无法基于所得到的已处理音频信号进行恢复。

-将音频信号处理为(空间)音频格式，例如双耳音频、根据指定声道配置的扬声器声道、参数化音频或全景声，通常是不可逆的。

考虑以上示例，捕获后布置200b的用户可能例如优选与在捕获布置200a中应用的那些不同地调整增益或音频均衡设置，优选省略在捕获布置200a中应用的一个或多个音频增强功能，优选省略在捕获布置200a中应用的音频聚焦或应用具有不同设置的音频聚焦，优选省略在捕获布置200a中应用的音频编码，优选应用与在捕获布置200a中应用的不同的音频编码技术，优选将麦克风信号转换为与在捕获布置200a中应用的不同的(空间)音频格式，等等。

在捕获布置200a的操作过程中，音频处理器102通常根据捕获控制数据逐帧基于两个或更多个麦克风信号导出所捕获音频信号，因为进一步的音频来自两个或更多个麦克风。因此，当处理两个或更多个麦克风信号的给定帧时，音频处理器102中可用的音频处理功能通常没有对跟随给定帧的两个或更多个麦克风信号的音频内容的任何(或具有有限的)访问。另一方面，当应用其中可用的音频处理功能时，捕获后布置200b中的音频处理器202通常完全访问一个或多个重构信号的整体，还包括跟随当前正在处理的帧的一个或多个重构信号的帧。因此，音频处理器202可被布置成以不同于音频处理器102中的相应音频处理功能的应用的方式来应用其中可用的一个或多个音频处理功能，例如使得在处理给定帧时考虑某些未来帧中的信号内容。在这方面的一个非限制性示例涉及通过自动增益控制(agc)功能进行的信号电平调整，该功能当为一个或多个重构信号的给定帧导出和应用增益时可受益于对该一个或多个重构信号整体的访问。

在下文中，更详细地描述与控制音频聚焦(或“音频缩放”)的操作有关的具体示例。音频聚焦使得能够通过将音频场景的用户可选空间部分中的声音级别调整(例如增加或减少之一)与音频场景的其他空间部分相关的用户可定义量，来修改由多声道音频信号传达的音频场景的表示。因此，音频聚焦使得能够修改多声道音频信号(以及因此由多声道音频信号传达的音频场景的表示)，例如使得在用户可选择的聚焦方向上的声音相对于其他方向上的声音被强调用户可选择的聚焦量。在此，音频聚焦可以应用于两个或更多个麦克风信号(通过音频处理器102)和/或应用于一个或多个重构信号(通过音频处理器202)。在一个示例中，音频聚焦的操作可以通过用户可定义的聚焦方向和聚焦量参数来控制，这些参数可以作为音频处理布置的输入、作为捕获控制数据的一部分和/或作为捕获后控制数据的一部分来提供：聚焦方向定义了要修改的音频场景的空间部分(例如一个或多个空间方向或空间方向范围)，并且聚焦量定义了要应用于音频场景的选择的空间部分中的声音级别的调整程度。特别地，用户可以在操作捕获布置200a时定义第一聚焦方向和第一聚焦量，而用户或另一用户可以在操作捕获后布置200b时定义第二聚焦方向(其不同于第一聚焦方向)和/或第二聚焦量(其不同于第一聚焦量)。因此，音频处理布置200使得能够通过不同地定义用于(经由捕获后布置200b的操作)导出捕获后音频信号的第二聚焦方向和第二聚焦量，来校正或以其他方式重新定义由在(经由捕获布置200a的操作)导出所捕获音频信号时应用的第一聚焦方向和第一聚焦量定义的音频聚焦，例如以便获得更好反映他/她的偏好的音频聚焦。

图4示出了根据示例的音频处理器302的一些组件和/或实体的框图，该音频处理器302可被应用为音频处理器102和/或音频处理器202。音频处理器302至少被布置为根据指示的聚焦方向和聚焦量进行音频聚焦。音频处理器302包括用于将输入空间音频信号从时域变换到变换域的滤波器组322、用于估计输入音频信号的空间特性的空间分析器324、用于生成表示由输入音频信号传达的音频场景的表示中的聚焦部分的第一空间音频分量的聚焦处理器326、用于生成表示由输入音频信号传达的音频场景的表示中的非聚焦部分的第二空间音频分量的空间处理器328、用于将第一和第二音频分量组合成聚焦音频信号的组合器330、用于将聚焦音频信号从变换域变换回时域的逆滤波器组332、以及可选的用于对聚焦音频信号进行编码以用于存储(例如在存储装置208中)和/或用于传输到另一设备的音频编码器334。在其他示例中，音频处理器302可以包括进一步的实体和/或图4中描绘的一些实体可被省略或与其他实体组合。

图4用于示出音频处理器302的逻辑组件，并且因此不对音频处理器302的实施方式施加结构限制，但例如相应的硬件模块、相应的软件模块或硬件模块和软件模块的相应组合可被应用于与音频处理器302的其他逻辑组件分离地实现音频处理器302的任何逻辑组件、实现音频处理器302的两个或更多个逻辑组件的任何子组合、或组合地实现音频处理器302的所有逻辑组件。

如图4所示，音频处理器302根据作为音频处理器302的相应控制输入提供的聚焦方向、聚焦量和输出格式，基于多声道输入音频信号，导出多声道输出音频信号。因此，在音频处理器302的上下文中，多声道输入音频信号传达输入音频场景的第一表示(例如，由两个或更多个麦克风信号或在中间音频数据中捕获的信号提供的原始表示)，并且多声道输出音频信号传达输入音频场景的第二表示，其可以与第一表示相同、基本相似或不同。

当用作音频处理器102时，音频处理器302的输入音频信号的声道包括在捕获布置200a处接收的相应的两个或更多个麦克风信号，并且音频处理器302的一个或多个输出音频信号的声道表示所捕获音频信号的相应声道，而当用作音频处理器202时，到音频处理器302的输入音频信号的声道包括在捕获后布置200b处获得的相应一个或多个重构信号，并且音频处理器302的输出音频信号的声道表示捕获后音频信号的相应声道。

在音频处理器302的上下文中，聚焦方向指的是用户可选择的感兴趣的空间方向。聚焦方向例如可以是一般的音频场景的某个方向。在另一示例中，聚焦方向或感兴趣的声源当前所处的方向。在前一种情况下，用户可选择的聚焦方向通常标示保持不变或很少改变的空间方向，因为聚焦主要在特定的空间方向上，而在后一种情况下，用户选择的聚焦方向可能会更频繁地改变，因为聚焦被设置为某个声源，该声源可能(或可能不会)随着时间的推移改变其音频场景的位置。在一个示例中，聚焦方向可被定义为例如定义相对于第一预定义参考方向的感兴趣空间方向的方位角，并且/或者被定义为定义相对于第二预定义参考方向的感兴趣空间方向的仰角。

聚焦量是指从聚焦方向到达的声音的相对声音级别的用户可选择改变。聚焦量可以在零(即无聚焦)和预定义的最大聚焦量之间是可选择的。可以通过将用户选择的聚焦量映射到0到1范围内的缩放因子并根据缩放因子修改从聚焦方向到达的音频场景的表示中的一个或多个声音分量的声音级别(与音频场景的表示中的其他声音有关)，来应用聚焦量。如上所述，滤波器组322被布置为将输入音频信号的声道从时域变换到变换域。就此而言，滤波器组322的处理可包括将输入音频信号的每一帧的每一声道从时域变换到变换域。取决于所应用的变换技术和/或滤波器组的特性，将帧变换到变换域可以涉及还使用来自(紧接)在当前帧之前的一个或多个帧的信息。在不失一般性的情况下，变换域可被认为是频域并且由变换产生的变换域样本可被称为频率仓(frequencybin)。滤波器组322采用本领域已知的预定变换技术。在一个示例中，滤波器组采用短时离散傅立叶变换(stft)，以使用预定义的分析窗口长度(例如20毫秒)将输入音频信号的每个声道转换为变换域信号的相应声道。在另一示例中，滤波器组322采用用于时域到频域转换的复杂调制正交镜像滤波器(qmf)组。stft和qmf组用作这方面的非限制性示例，并且在其他示例中，本领域中已知的任何合适的技术都可被采用用于创建变换域信号。逆滤波器组332被布置为将(从组合器330获得的)聚焦音频信号的每一帧从变换域变换回时域以提供给(可选的)音频编码器334。逆滤波器组332采用与由滤波器组322应用的变换匹配的逆变换，例如逆stft或逆qmf。滤波器组322和逆滤波器组332通常被布置为与其他声道分开地处理音频信号的每个声道。

滤波器组322可进一步将输入音频信号的每个声道划分为相应的多个频率子带，从而产生为输入音频信号的每个声道提供相应时频表示的变换域输入音频信号。变换域音频信号的给定帧中的给定频带可被称为时频图块(tile)，并且通常为变换域中的每个时频图块分开地进行在滤波器组322和逆滤波器组332之间的音频信号的处理。可以例如根据所需的频率分辨率和/或可用的计算能力选择频率子带的数量和频率子带的相应带宽。在一个示例中，子带结构涉及根据本领域已知的巴克(bark)标度、等效矩形带(erb)标度或第三倍频程带标度的24个频率子带。在其他示例中，可以采用具有相同或不同带宽的不同数量的频率子带。在这方面的具体示例是覆盖整个输入频谱或其连续子集的单个频率子带。另一个具体示例是将每个频率仓视为分开的频率子带。

如上所述，空间分析器324被布置为基于从滤波器组322获得的变换域信号来估计输入音频信号的空间特性。空间分析器324执行的处理可被称为空间分析，其可以基于信号能量和变换域音频信号的多个时频图块中的音频声道之间的相关性。空间分析的结果可被称为空间音频参数，其被提供用于聚焦处理器326和空间处理器328。空间音频参数可至少包括用于一个或多个频率子带和许多帧(即许多时频图块)的以下空间音频参数：

-方向指示，其指示相应时频图块中定向声音分量的空间方向。声音方向可以例如被指示为相对于正面方向或相对于另一预定义参考方向的方位角。

-能量比，其指示相应时频图块中的定向声音分量的能量与相应时频图块的总能量之间的比率，即对于时间索引n的频率子带k。能量比指示相应时频图块中定向声音分量的相对强度，其值在0…1范围内。

空间分析可以使用本领域已知的任何合适的空间分析技术来执行，而空间分析的细节在本公开的范围之外。作为非限制性示例，输入音频信号具有源自图5中示意性示出的三麦克风阵列的相应麦克风的三个音频声道，并且wo2018/091776中公开的技术可被应用来确定空间音频参数。图5示意性地描绘了移动设备，例如从上述的移动设备150、150a，使得在图5的图示中正面向上。附图标记a、b和c用于指示移动设备的麦克风阵列的三个麦克风的相应位置。在该示例中，空间分析涉及基于执行的第一相关性分析来导出-90度到90度之间的方位角，以找出时间延迟值，该值使源自麦克风a和b的相应音频信号之间的相关性最大化。还基于源自麦克风a和c的相应音频信号执行不同延迟下的第二相关性分析。然而，由于麦克风a和c之间的距离相对较小，延迟分析相当嘈杂，因此只有指示正面方向或背面方向的二进制方向指示可以从该麦克风对导出。如果第二相关性分析的结果指示正面方向，则将从第一相关性分析获得的方位角用作相应时频图块中的空间方向。如果第二相关性分析的结果指示背面方向，则将从第一相关性分析获得的方位角镜像到背面，从而得到一个方位角，该方位角指示在-180度到180度的范围内(相对于正面方向)的空间方向：例如80度的方位角可被镜像到100度的方位角，-20度的方位角可被镜像到-160度的方位角。该示例还涉及基于在源自麦克风a和b的相应音频信号的基础上计算的归一化互相关，来导出每个时频图块的能量比。方向(例如多个频率子带中的方位角)和能量比(例如基于多个频率子带中的归一化互相关导出)作为与输入音频信号的相应帧有关的空间音频参数被提供给聚焦处理器326和空间处理器328。

如上所述，聚焦处理器326被布置为生成第一空间音频分量，其表示由输入音频信号传达的音频场景的表示中的聚焦部分。由聚焦处理器326执行的处理可被称为聚焦处理，其可以根据空间音频参数(从空间分析器获得324)并且进一步根据聚焦方向和输出格式指示(两者都基于用户输入导出)基于变换域音频信号(从滤波器组322获得)来执行。

聚焦处理器326的输出是(变换域)第一音频分量，其中，由聚焦部分参数指示的音频场景的表示中的一部分的至少一些声音分量相对于该音频场景的表示中的其余声音分量被强调并被定位在该音频场景的表示中的其原始空间位置。可以使用本领域已知的任何合适的音频聚焦技术来执行聚焦处理，而聚焦处理的细节在本公开的范围之外。

根据一个非限制性示例，聚焦处理包括在一个或多个频率子带和多个帧中(即，在多个时频图块中)的波束成形和后置滤波，如下所述：

-波束成形在相应的频率子带中导出变换域音频信号的声道的加权和，其中权重通常是复值，并被选择或确定为使得从指示的聚焦方向到达的声音相对于音频场景的表示中来自其他方向的声音被放大。波束成形可以是静态波束成形或自适应波束成形。后者的例子是本领域已知的最小方差无失真(mvdr)波束成形器。波束成形的输出可被称为波束成形音频信号。

-后置滤波涉及将相应增益应用于相应频率子带中的波束成形音频信号。基于方向和能量比(从空间分析器324获得)选择或确定后置滤波增益。作为示例，可以根据在聚焦方向和针对给定时频图块指示的声音方向之间的角度来选择或确定给定时频图块的后置滤波增益，使得后置滤波增益值随着这两个方向之间夹角的增加而减小(即从远离聚焦方向的方向到达的声音比从靠近聚焦方向的方向到达的声音被衰减得更多)。

由涉及波束成形和后置滤波的过程产生的信号可以包括单个声道(单声道)聚焦信号，其根据输出格式参数指示的音频格式被进一步处理为聚焦(空间)音频信号。这方面的非限制性示例概述如下：

-如果指示的输出格式是预定义的扬声器配置(例如5.1声道环绕声或7.1声道环绕声)，则可以例如使用本领域已知的基于矢量的幅度平移(vbap)技术将聚焦信号幅度平移到由聚焦方向指示的音频场景的表示的空间位置，从而创建(空间)第一音频分量，其中，聚焦信号被布置在由聚焦方向指示的音频场景的表示的空间位置中。

-如果指示的输出格式是(双声道)双耳音频，则可以使用根据聚焦方向选择或确定的一对头部相关传输函数(hrtf)将聚焦信号处理为聚焦音频信号的左声道和右声道信号，以便创建(空间)第一音频分量，其中，聚焦信号被布置在由聚焦方向指示的音频场景的表示的空间位置中。

-如果指示的输出格式是全景声，可以使用根据聚焦方向选择或确定的球面谐波增益系数来处理聚焦信号，从而创建(空间)第一音频分量，其中，聚焦信号被布置在由聚焦方向指示的音频场景的表示的空间位置。

如上所述，空间处理器328被布置为生成第二空间音频分量，其表示由输入音频信号传达的音频场景的表示的非聚焦部分。由空间处理器328执行的处理可被称为空间转换，其可以根据空间音频参数(从空间分析器324获得)并且进一步根据输出格式指示(基于用户输入导出)基于变换域音频信号(从滤波器组322获得)来执行。空间处理器328的输出是根据所指示的输出格式处理的(变换域)第二音频分量。空间转换可以使用本领域已知的任何合适的处理技术来执行，而空间转换的细节在本公开的范围之外。

根据非限制性示例，空间转换可以在一个或多个频率子带和多个帧中(即，在多个时频图块中)提供，如下所述：

1)基于从空间处理器324获得的能量比，将时频图块的变换域音频信号分解为相应的直接信号部分和环境信号部分。

2)根据指示的输出格式，使用相应的vbap增益、相应的一对hrtf或相应的全景声增益中的一个来处理直接信号部分，以便为第二空间音频分量的每个声道生成相应的直接信号部分。

3)根据指示的输出格式用相应的解相关器处理环境信号部分，以便为第二空间音频分量的每个声道生成相应的环境信号部分。例如，在输出格式是全景声或预定义的扬声器配置的情况下，环境信号部分被处理成第二空间音频分量的声道从而使得它们在声道之间表现出非相干性，而在输出格式是双耳音频的情况下，环境信号部分被处理成第二空间音频分量的声道从而使得它们根据双耳扩散场相关性表现出声道间相关性。

4)在第二空间音频分量的每个声道处组合相应的直接信号部分和环境信号部分。

本领域已知的一些方法取决于应用的输出格式来根据上述步骤1)至4)实现该过程，例如在laitinen、mikko-ville和pulkki，ville的“binauralreproductionfordirectionalaudiocoding(用于定向音频编码的双耳再现)”，ieee音频和声学应用信号处理研讨会，2009，waspaa'09，第337-340页，ieee，2009，和在vilkamo、juha、lokki、tapio和pulkki、ville的“directionalaudiocoding:virtualmicrophone-basedsynthesisandsubjectiveevaluation(定向音频编码：基于虚拟麦克风的合成和主观评估)”，音频工程学会杂志57，9(2009)期，第709-724页中所描述的。可能导致更高感知音频质量但具有计算负载增加的成本的其他方法可能应用例如最小二乘优化混合，以基于输入音频信号和空间音频参数(也称为空间元数据)生成第二空间音频分量，例如在vilkamo、juha和pulkki、ville的“minimizationofdecorrelatorartifactsindirectionalaudiocodingbycovariancedomainrendering(通过协方差域渲染将定向音频编码中的去相关器伪影最小化)”，音频工程学会杂志61，第9(2013)期，第637-646页中所述的那样。作为进一步的示例，例如在wo2018/060550中描述了与以全景声格式提供空间处理器328的输出(以及因此音频处理器302的输出)有关的方面。

在又一示例中，在输出格式是双耳音频的情况下，聚焦处理器326和空间处理器328可以进一步接收(作为捕获控制数据和/或捕获后控制数据的一部分)(当前的)头部取向的指示，并将该信息与指示的聚焦方向一起应用以选择用于生成第一和第二空间音频分量的hrtf。在这点上，由聚焦处理器326和空间处理器328应用的聚焦方向根据所指示的头部取向进行修改：作为这方面的示例，如果指示的聚焦方向是正面方向(例如0度)并且指示的头部取向是左30度(例如-30度)，则为-30度的空间方向指派的hrtf被选择用于聚焦处理器326和空间处理器328中的相应处理。

如上所述，组合器330被布置为根据指示的聚焦量来组合第一和第二空间音频分量以形成聚焦(空间)音频信号。在这点上，组合器330可被布置为在聚焦音频信号的每个声道的每个频带中执行组合。在每个声道中的每个频率子带中，可以根据聚焦量将组合作为表示第一和第二空间音频分量的时频图块的相应信号的线性组合来执行。作为这方面的示例，假设聚焦量由具有从0到1范围内的值的参数a指示，线性组合可被提供为例如来自第一和第二空间音频分量的相应信号的加权和，使得来自第一空间音频分量的信号乘以a，来自第二空间音频分量的信号乘以(1-a)，然后对信号求和。

如上所述，逆滤波器组332被布置成将聚焦音频信号(从组合器330获得)的每一帧从变换域变换回时域以用于提供给(可选的)音频编码器334。

如上所述，音频处理器302可以可选地包括音频编码器334，其被布置为对从逆滤波器组332输出的聚焦和/或空间处理的音频信号进行编码，以用于本地存储和/或用于传输给另一设备。在这点上，可以应用本领域中已知的适用于对多声道音频信号进行编码的任何音频编码技术。在这方面的非限制性示例是高级音频编码(aac)编码器。在音频编码器334没有被用作音频处理器302的一部分的情况下，聚焦音频信号可例如作为pcm信号被提供。

在音频处理器302被应用(作为)捕获布置200a的音频处理器102的一部分的场景中，由空间分析器324导出的空间音频参数可被提供给音频格式器206以存储在存储装置208中，作为与中间音频数据相关联的空间元数据。当访问存储装置中的数据时，音频预处理器212可以连同中间音频数据一起从存储装置208获得空间元数据，并且将空间元数据连同中间音频数据一起提供给被应用(作为)捕获后布置200b中的音频处理器202(的一部分)的音频处理器302。因此，捕获后布置200b中的音频处理器302可以省略前面针对空间分析器324描述的处理，并且直接应用作为与中间音频一起接收的空间元数据接收的空间音频参数。

在音频处理布置200的变体中，音频格式器206通信地(例如，经由通信网络)耦合到服务器，该服务器被布置为针对在捕获布置200a处获得的两个或更多个麦克风信号提供音频增强处理以导出相应的两个或更多个增强麦克风信号，其可用作(代替最初接收的两个或更多个麦克风信号)用于导出音频格式器206中的中间音频数据以写入存储装置208中的基础。由服务器进行的此类音频增强处理的目的是以更高(感知)音频质量提供两个或更多个修改的增强麦克风信号，从而使得能够通过捕获后布置200b的操作来创建更高质量的捕获后音频信号。服务器可被提供为单个服务器设备(例如计算机)或两个或更多个服务器设备(例如计算机)的组合，这些服务器设备可被布置为提供例如云计算服务。

作为在服务器可用的音频增强处理的一个例子，服务器可被布置来提供一个训练的深度学习网络，例如用于提高两个或更多个麦克风信号的信噪比(snr)和/或以其他方式改善两个或更多个麦克风信号的(感知)音频质量的生成式对抗网络(gan)。

作为服务器中可用的音频增强处理的另一示例，替代地或附加地，服务器可被布置为代表音频格式器206执行指派给音频格式器206的一些或全部预定义音频处理功能。作为示例，音频格式器可以向服务器提供两个或更多个麦克风信号，服务器执行例如基于原始的两个或更多个麦克风信号(或基于两个或更多个增强的麦克风信号)的音频编码(和/或一个或多个其他预定义的音频处理功能)并将由此过程产生的音频数据提供给音频格式器206，音频格式器206将该信息作为中间音频数据写入存储装置208。

在音频处理布置200的另一个(或进一步)变体中，捕获后布置200b的实体，例如控制数据组合器210和/或音频预处理器212，可以通信地(例如，经由通信网络)耦合到服务器，该服务器(进一步)被布置为分析经由存储装置208获得的中间音频数据或由音频预处理器212从其导出的一个或多个重构信号，并因此提取可用于替换或补充在捕获后布置200b接收的捕获后控制数据的次级捕获后控制数据。在这点上，服务器中的机器学习网络可能已经被训练来标识特定感兴趣方向存在于由中间音频数据或由一个或多个重构信号传达的音频场景的表示中的情况。例如，音频场景可涉及舞台上的说话者，而机器学习网络可以导出使得能够控制音频聚焦的次级捕获控制数据，从而使得它跟随舞台上的人在音频场景的表示中的位置。服务器可以通过对中间音频数据或一个或多个重构信号的分析来导出和跟踪说话者在音频场景的表示中的位置。在所捕获音频信号与相关联的视频信号一起提供的情况下，说话者位置的导出和跟踪可以附加地或替代地基于相关联的视频信号。

在音频处理布置200的另一变体中，假设用于实现相应实体的设备具有足够的可用其的处理能力，则上述参考服务器描述的一个或多个功能可以由音频格式器206或由音频预处理器212代替执行。

如上所述，捕获控制数据的定义中的至少一些可以源自在发起音频捕获会话时或在音频捕获会话期间接收的用户输入，并且/或者捕获后控制数据的定义中的至少一些可以源自在发起捕获后会话时或在捕获后会话期间接收的用户输入。作为这方面的非限制性示例，这样的用户输入可以经由应用于实现捕获布置200a的移动设备150、150a的用户输入和/或经由应用于实现捕获后布置200b的(移动)设备150、150b的用户接口来接收。在这点上，图6描绘了用户接口的示例，该用户接口使得能够提供用户输入以控制实现捕获后布置200b的设备150、150b中的音频聚焦和/或风噪声降低的应用。该示例性用户接口提供了(如存储的捕获控制数据中所指示的)在捕获布置200b中应用的聚焦方向、聚焦量和风噪声降低的状态(开/关)的可视化以及与两个或更多个麦克风信号一起捕获的视频内容。因此，图6的用户接口使用户能够重放捕获的视频并监控在底层捕获会话中如何调整音频聚焦设置和风噪声降低控制。其中，相应捕获控制定义可被可视化，例如作为将聚焦方向显示为与用户接口中所示的圆的中心点的角度、并将聚焦量显示为距圆的中心点的距离的第一标记，和经由其在用户接口中的位置来示出风噪声降低的状态(开/关)(例如，使得第一预定义位置指示风噪声降低被禁用，第二预定义位置指示风噪声降低被启用)的第二标记。用户通过用户接口播放音频和视频可以构成捕获后会话，在此期间，用户可以调整第一标记相对于圆的中心点的位置来相应地改变聚焦方向和/或聚焦，和/或调整第二标记的位置以相应地改变风噪声降低的状态(开/关)。因此，用户在用户接口中调整第一和/或第二标记的位置被转换为捕获后控制数据的相应定义，这又导致操作音频处理器202以相应地修改当前播放的音频信号(即捕获后音频信号)的音频特性。

例如，根据图7中描绘的流程图所示的方法400，参考捕获布置200a和捕获后布置200b的组件在上文中描述的功能。方法400可以例如由被布置为实现前面经由多个示例描述的捕获布置200a和捕获后布置200b的装置提供，例如由移动设备150。

方法400包括基于从相应一个或多个麦克风接收的两个或更多个麦克风信号根据捕获控制数据来导出所捕获音频信号，所述捕获控制数据标识用于导出所捕获音频信号的至少一个音频特性，如框所示402。方法400还包括存储所捕获控制数据的至少一部分和基于两个或更多个接收的麦克风信号导出的中间音频数据，如框404所示。方法400还包括作为存储的所捕获控制数据和标识用于导出捕获后音频信号的至少一个音频特性的用户可定义的捕获后控制数据的组合，导出修改的捕获控制数据，如框406所示。方法400还包括根据修改的捕获控制数据来基于所述中间音频数据导出捕获后音频信号，如框408所示。方法400可选地进一步包括用捕获后音频信号替换所捕获音频信号，如框410所示。

方法400可以例如根据与上文和下文中提供的音频处理布置200的组件的相应功能有关的示例以多种方式改变。

图8示出了示例性装置500的一些组件的框图。装置500可以包括图8中未描绘的其他组件、元件或部分。可以例如在实现上文中在捕获布置200a和/或捕获后布置200b的上下文中描述的一个或多个组件中采用装置500。

装置500包括处理器516和用于存储数据和计算机程序代码517的存储器515。存储器515和存储在其中的计算机程序代码517的一部分还可被布置为与处理器516一起实现前面在捕获布置200a和/或捕获后布置200b的上下文中描述的操作、过程和/或功能中的至少一些。

装置500包括用于与其他设备通信的通信部分512。通信部分512包括使得能够与其他装置进行有线或无线通信的至少一个通信装置。通信部分512的通信装置也可被称为相应的通信模块。

装置500还可包括用户i/o(输入/输出)组件518，其可被布置为可能与处理器516和计算机程序代码517的一部分一起提供用户接口，以用于接收来自装置500的用户的输入和/或向装置500的用户提供输出以控制由装置500实现的捕获布置200a和/或捕获后布置200b的操作的至少一些方面。用户i/o组件518可以包括诸如显示器、触摸屏、触摸板、鼠标、键盘和/或一个或多个键或按钮的布置等的硬件组件。用户i/o组件518也可被称为外围设备。处理器516可被布置为例如根据计算机程序代码517的一部分，并且可能进一步根据经由用户i/o组件518接收的用户输入，和/或根据经由通信部分512接收的信息，来控制装置500的操作。

尽管处理器516被描绘为单个组件，但它可被实现为一个或多个单独的处理组件。类似地，虽然存储器515被描绘为单个组件，但它可被实现为一个或多个单独的组件，其中一些或全部可以是集成的/可移除的和/或可以提供永久/半永久/动态/高速缓存的存储。

存储在存储器515中的计算机程序代码517可以包括在加载到处理器516中时控制装置500的操作的一个或多个方面的计算机可执行指令。例如，计算机可执行指令可被提供作为一个或多个指令的一个或多个序列。处理器516能够通过从存储器515读取包括在其中的一个或多个指令的一个或多个序列，来加载和执行计算机程序代码517。一个或多个指令的一个或多个序列可被配置为，当处理器516被执行时，使装置500执行在上文中在捕获布置200a和/或捕获后布置200b的上下文中描述的操作、过程和/或功能中的至少一些。

因此，装置500可以包括至少一个处理器516和包括用于一个或多个程序的计算机程序代码517的至少一个存储器515，至少一个存储器515和计算机程序代码517被配置为与至少一个处理器516一起使装置500执行在上文中在捕获布置200a和/或捕获后布置200b的上下文中描述的操作、过程和/或功能中的至少一些。

存储在存储器515中的计算机程序可被提供例如作为包括其上存储有计算机程序代码517的至少一个计算机可读非暂时性介质的相应计算机程序产品，该计算机程序代码在由装置500执行时使装置500至少执行前面在捕获布置200a和/或捕获后布置200b的上下文中描述的操作、过程和/或功能中的的至少一些。计算机可读非暂时性介质可以包括存储器设备或记录介质，例如cd-rom、dvd、蓝光光盘或有形地体现计算机程序的另一制品。作为另一示例，计算机程序可被提供为被配置为可靠地传输计算机程序的信号。

对处理器的引用不应被理解为仅包括可编程处理器，还包括专用电路，例如现场可编程门阵列(fpga)、专用电路(asic)、信号处理器等。前面描述中描述的特征可以以与明确描述的组合不同的组合使用。

尽管已经参考某些特征描述了功能，但是无论是否描述，这些功能都可以由其他特征执行。尽管已经参考某些实施例描述了特征，但是无论是否描述，这些特征也可以存在于其他实施例中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于人工智能的音频特征提取方法及系统与流程

音频捕获布置的制作方法

相关文章

最热文献