一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频处理的制作方法

2022-02-20 00:05:53 来源:中国专利 TAG:


1.本发明的示例和非限制性实施例涉及多通道音频信号的处理。特别地,本发明的各种实施例涉及基于多通道音频信号来获得波束成形音频信号。


背景技术:

2.多年来,诸如移动电话和平板计算机之类的移动设备已经配备了使设备的用户能够同时捕获音频和视频的相机和麦克风布置。随着麦克风技术的发展以及移动设备中可用的处理能力和存储容量的增加,为这种移动设备提供能够捕获多通道音频的多麦克风布置正变得越来越普遍,这反过来又能够将所捕获的多通道音频处理成空间音频以伴随同时捕获的视频。
3.通常,使用移动设备来捕获多通道音频信号的过程包括:操作在移动设备中布置的麦克风阵列以捕获多个麦克风信号;以及将所捕获的麦克风信号处理成记录的多通道音频信号,以用于在移动设备中进行进一步处理,用于与相关联的视频一起存储在移动设备中和/或发送到一个或多个其他设备。在典型场景中,移动设备的用户旨在记录多通道音频信号,该多通道音频信号表示与相机的视场(fov)对应的音频场景,从而使能在捕获时对视听场景的全面呈现。
4.在捕获或渲染视听场景时,用户可能希望应用音频聚焦以强调音频场景的某些方向上的声音和/或淡化音频场景的某些其他方向上的声音。基于本领域中已知的波束成形技术的音频聚焦方案使能例如放大从所选择方向到达的也可能与视频的fov的相应子部分对应的声音,从而提供音频,其中强调从与可描绘感兴趣对象的fov的所选择子部分对应的音频场景的方向到达的声音。
5.然而,在实际实现中,移动设备中可用麦克风信号的数量和麦克风的相应位置以及可用波束成形技术的限制对音频聚焦的选择性和/或所得到的音频信号的音频质量施加了限制。特别地,由于生成任意空间选择性波束图中的限制,在移动设备处可用的麦克风信号通常仅使能导致相对宽波束的波束成形,其中,相对于源自位于其中波束图具有更小幅度的区域中的声源的声音,单个波束图可以放大源自位于其中波束图具有更大幅度的区域中多个声源的声音。波束成形或空间滤波的这种特征可以被概念化为焦点区,其中该焦点区由其中波束图的幅度相对高的方向组成。在实践中,波束图可以随频率(以及时间,取决于波束成形技术)而变化,并且波束图可具有旁瓣,因此可以理解,术语“焦点区”在本文中是说明焦点处理的主要捕获区域的概念性术语。已知的波束成形技术通常不允许在焦点区内到达的声音与从焦点区之外的方向到达的声音之间有清晰的边界,并因此在实际场景中,驻留在焦点区之外的声音的衰减随着与焦点区的距离的增加而逐渐增加。因此,源自在焦点区之外但相对靠近焦点区的声源的声音通常没有被衰减到足够的程度。
6.因此,在实际实现中,在其中所捕获的多通道音频信号表示在相应空间位置中的彼此接近的两个或更多个声源的场景中,即使用户将音频焦点设置或集中到单个感兴趣的声源,音频聚焦通常也会强调源自所有这些声源的声音。此外,在这种场景中,用户将音频
焦点的中心从一个声源移动到另一个声源可能仅对所得到的处理后音频产生可忽略不计的影响(如果有的话)。这两个方面都限制了音频聚焦方案的适用性,并且在许多情况下会导致用户体验受损。


技术实现要素:

7.根据示例实施例,提供了一种用于音频聚焦的方法,该方法包括:接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;接收与该图像区域中的第一位置对应的音频焦点方向的指示;选择主声音方向,以使得它与该图像区域中的第二位置相对应,该第二位置在使其距离该图像区域的中心点更远的方向上偏离所述第一位置;以及基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
8.根据另一个示例实施例,提供了一种用于音频聚焦的方法,该方法包括:接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;接收与该图像区域中的第一位置对应的音频焦点方向的指示;从多个不同的可用候选方向中选择主声音方向,其中,所述多个不同的可用候选方向包括所述音频焦点方向和一个或多个偏移候选方向,并且其中,每个偏移候选方向与偏离该图像区域中的所述第一位置的相应候选偏移相对应;以及基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
9.根据另一个优选实施例,提供了一种用于音频聚焦的装置,该装置被配置为:接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;接收与该图像区域中的第一位置对应的音频焦点方向的指示;选择主声音方向,以使得它与该图像区域中的第二位置相对应,该第二位置在使其距离该图像区域的中心点更远的方向上偏离所述第一位置;以及基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
10.根据另一个优选实施例,提供了一种用于音频聚焦的装置,该装置被配置为:接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;接收与该图像区域中的第一位置对应的音频焦点方向的指示;从多个不同的可用候选方向中选择主声音方向,其中,所述多个不同的可用候选方向包括所述音频焦点方向和一个或多个偏移候选方向,并且其中,每个偏移候选方向与偏离该图像区域中的所述第一位置的相应候选偏移相对应;以及基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
11.根据另一个示例实施例,提供了一种用于音频聚焦的装置,该装置包括:用于接收多通道音频信号的部件,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;用于接收与该图像区域中的第一位置对应的音频焦点方向的指示的部件;用于选择主声音方向,以使得它与该图像区域中的第二位置相对应的部件,该第二位置
在使其距离该图像区域的中心点更远的方向上偏离所述第一位置;以及用于基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号的部件,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
12.根据另一个示例实施例,提供了一种用于音频聚焦的装置,该装置包括:用于接收多通道音频信号的部件,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;用于接收与该图像区域中的第一位置对应的音频焦点方向的指示的部件;用于从多个不同的可用候选方向中选择主声音方向的部件,其中,所述多个不同的可用候选方向包括所述音频焦点方向和一个或多个偏移候选方向,并且其中,每个偏移候选方向与偏离该图像区域中的所述第一位置的相应候选偏移相对应;以及用于基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号的部件,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
13.根据另一个示例实施例,提供了一种用于音频聚焦的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,该计算机程序代码在由至少一个处理器执行时使该装置:接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;接收与该图像区域中的第一位置对应的音频焦点方向的指示;选择主声音方向,以使得它与该图像区域中的第二位置相对应,该第二位置在使其距离该图像区域的中心点更远的方向上偏离所述第一位置;以及基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
14.根据另一个示例性实施例,提供了一种用于音频聚焦的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,该计算机程序代码在由至少一个处理器执行时使该装置:接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音;接收与该图像区域中的第一位置对应的音频焦点方向的指示;从多个不同的可用候选方向中选择主声音方向,其中,所述多个不同的可用候选方向包括所述音频焦点方向和一个或多个偏移候选方向,并且其中,每个偏移候选方向与偏离该图像区域中的所述第一位置的相应候选偏移相对应;以及基于所述多通道音频信号,根据所选择的主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
15.根据另一个示例实施例,提供了一种用于音频聚焦的计算机程序,该计算机程序包括计算机可读程序代码,该计算机可读程序代码被配置为当所述计算机程序在计算装置上被执行时使得至少执行根据前文所描述的示例实施例所述的方法。
16.根据示例实施例,该计算机程序可以被体现在易失性或非易失性计算机可读记录介质上,例如被体现为包括在其上存储有程序代码的至少一个计算机可读非暂时性介质的计算机程序产品,该程序在由装置执行时使该装置至少执行根据本发明的示例实施例的针对计算机程序而在前文中描述的操作。
17.本专利申请中提出的本发明的示例性实施例不应被解释为对所附权利要求的适用性产生限制。动词“包括”及其派生词在本专利申请中被用作开放性限制,其并不排除也存在未列举的特征。除非另有明确说明,否则下文所描述的特征可以相互任意组合。
18.本发明的一些特征在所附权利要求中进行阐述。然而,当结合附图阅读时,从一些示例实施例的以下描述中将最好地理解本发明关于其构造及其操作方法、以及其附加的目的和优势等各方面。
附图说明
19.本发明的实施例以举例而非限制的方式在附图中图示,其中,
20.图1a示出根据示例的媒体捕获装置的一些组件和/或实体的框图;
21.图1b示出根据示例的媒体渲染装置的一些组件和/或实体的框图;
22.图2a示出根据示例的用于实现媒体捕获装置和媒体渲染装置的布置;
23.图2b示出根据示例的用于实现媒体捕获装置和媒体渲染装置的布置;
24.图2c示出根据示例的用于实现媒体捕获装置和媒体渲染装置的布置;
25.图3a示出根据示例的媒体捕获装置的一些组件和/或实体的框图;
26.图3b示出根据示例的媒体渲染装置的一些组件和/或实体的框图;
27.图4示意性地示出根据示例的音频焦点区与图像区域中的两个声源的映射;
28.图5示出描绘根据示例的方法的流程图;
29.图6a示意性地示出根据示例的对图像区域中的焦点位置进行偏移;
30.图6b示意性地示出根据示例的对图像区域中的焦点位置进行偏移;
31.图6c示意性地示出根据示例的对图像区域中的焦点位置进行偏移;
32.图7示意性地示出根据示例的将图像区域划分成图像部分以及音频焦点区的移位;
33.图8示出描绘了根据示例的方法的流程图;
34.图9示意性地示出根据示例的对应于多个候选声音方向的音频焦点区与图像区域中的两个声源的映射;
35.图10示意性地示出根据示例的多个分析区与图像区域中的两个声源位置的映射;
36.图11示出根据示例的装置的一些单元的框图。
具体实施方式
37.图1a示出了根据示例的媒体捕获装置100的一些组件和/或实体的框图。媒体捕获装置100包括媒体捕获实体110,其包括音频捕获实体111、视频捕获实体112以及媒体处理实体115。图1b示出了根据示例的媒体渲染装置200的一些组件和/或实体的框图。媒体渲染装置200包括媒体渲染实体210,其包括音频渲染实体211、视频渲染实体212以及媒体处理实体215。
38.音频捕获实体111被耦接到麦克风阵列121,并且它被设置为接收来自多个麦克风121

1、121

2、

、121

k的相应的麦克风信号,以及基于所接收的麦克风信号来记录所捕获的多通道音频信号。麦克风121

1、121

2、...、121

k表示多个(即两个或更多个)麦克风,其中,这些麦克风中的单独一个可以被称为麦克风121

k。在本文中,麦克风阵列121的概念将
被广义地解释,包括在实现媒体捕获装置100的设备中设置的或与其耦接的两个或更多个麦克风121

k的任何布置。视频捕获实体112被耦接到相机实体122,并且它被设置为从相机实体122接收图像,以及将这些图像记录为捕获视频流。相机实体122例如可以包括数字视频相机设备或数字视频相机模块。媒体处理实体115可以被设置为控制音频捕获实体111和视频捕获实体112的操作的至少一些方面。
39.每个麦克风信号提供所捕获的声音的不同表示,其差异取决于麦克风121

k相对于彼此的位置。对于相对于麦克风阵列121处于某一空间位置的声源,这导致每个麦克风信号的源自某一声源的不同声音表示:相对于距离某一声源更远的麦克风121

j,更靠近该某一声源的麦克风121

k以更高的幅度并且更早地捕获源自该某一声源的声音。连同关于麦克风121

k相对于彼此的位置的知识,幅度和/或时间延迟的这种差异使得能够使用麦克风信号作为用于提取或放大表示从相对于麦克风阵列121的所期望方向到达的声音的音频信号和/或将麦克风信号转换成提供所捕获音频的空间表示的空间音频信号的基础,其中,在捕获时源自麦克风阵列121的环境中的声源的声音被感知为在其相对于麦克风阵列121的相应方向上到达。用于提取或放大表示从相对于麦克风阵列121的所期望方向到达的声音的音频信号以及用于将麦克风信号转换成空间音频信号的音频处理技术在本领域中是众所周知的,并且它们在本公开中仅在理解本文所公开的音频焦点处理的某些方面所必需的程度上被进一步详细描述。
40.因此,来自麦克风阵列121的麦克风信号用作多通道音频信号,该多通道音频信号表示在相对于麦克风阵列的声音方向范围内所捕获的声音。在下文中,由麦克风信号或从其获得的空间音频信号表示的声音方向范围在多数情况下被称为在麦克风阵列121的位置处捕获的空间音频图像,而从麦克风信号获得的并且表示从相对于麦克风阵列121的所期望方向到达的声音的音频信号可以被视为表示在空间音频图像内的相应的声音方向。由于麦克风阵列121和相机实体122在同一物理位置被操作,因此,由麦克风信号形成或从其获得的多通道音频信号表示在与从相机实体122获得的图像的图像区域中的各位置对应的声音方向上的声音。基于相机实体122的图像传感器的已知特性及其相对于麦克风阵列121的位置和定向,在从相机实体122获得的图像的图像区域的空间位置与由从麦克风阵列121接收的麦克风信号表示的空间音频图像内的对应声音方向之间可以至少存在近似预定义映射,并因此,图像区域中的每个位置可以被映射到由麦克风信号表示的空间音频图像中的对应声音方向,反之亦然。因此,可以例如经由映射函数来定义声音方向与图像区域中的位置之间的对应关系。
41.媒体处理实体115可以进一步被设置为将所捕获的多通道音频信号和所捕获的视频流提供给媒体渲染装置200。就此而言,媒体捕获装置100可以在第一设备101中实现,而媒体渲染装置200可以在第二设备201中实现,如由图2a的框图所示。该提供可以包括通过通信网络将所捕获的多通道音频信号和所捕获的视频流从第一设备101发送到第二设备201,例如,作为相应的音频和视频分组流。在此示例中,媒体处理实体115中的处理可以包括对所捕获的多通道信号进行编码并对所捕获的视频流进行编码以用于在相应的音频和视频分组流中发送到第二设备102,而在媒体处理实体215中的处理例如可以包括基于所接收的音频分组流来解码重构的多通道音频信号并提供重构的多通道音频信号以用于在音频渲染实体211中进行进一步的音频处理,以及基于所接收的视频分组流来解码重构的视
频流并提供重构的视频流以用于在视频渲染实体212中进行进一步的视频处理。
42.在其他示例中,媒体捕获装置100和媒体渲染装置200可以在第一设备101中实现,如由图2b和图2c的相应框图所示。在图2b的示例中,提供多通道音频信号和所捕获的视频流可以包括:媒体捕获装置100将所捕获的多通道音频信号和所捕获的视频流存储到存储器102中,以及媒体渲染装置200从存储器102读取所捕获的多通道音频信号和所捕获的视频流。在图2c的示例中,媒体渲染装置200直接从媒体捕获装置100接收所捕获的多通道音频信号和所捕获的视频流。在此示例中,媒体捕获装置100和媒体渲染装置200可以被实现为单个逻辑实体,其可以被称为媒体处理装置103。在图2b和图2c的示例中,所捕获的多通道音频信号和所捕获的视频流的相应的编码和解码可以不是必需的,并因此,媒体处理实体215可以将所捕获的音频信号提供给音频渲染实体211,以及将所捕获的视频流直接(图2c)或经由存储器102(图2b)提供给视频渲染实体212。
43.音频渲染实体211可以被设置为对在那里接收的多通道音频信号应用音频焦点处理,以便提取或强调在由所接收的多通道音频信号表示的空间音频图像的所期望音频焦点方向上的声音。就此而言,音频焦点处理例如可导致(至少)表示在所期望音频焦点方向上的声音的单通道音频信号或者具有聚焦的音频分量的多通道音频信号,其中,在所期望音频焦点方向上的声音相对于在音频图像的其他声音方向上的声音被强调。如果输出包括具有聚焦的音频分量的多通道音频信号,则音频渲染实体211可以进一步被设置为将具有聚焦的音频分量的多通道音频信号处理成适合于由音频播放实体221(例如,扬声器系统或耳机)进行音频播放的预定义的或所选择的空间音频格式。视频渲染实体212可以将在那里接收的视频流处理成适合于由视频播放实体222(例如,显示器设备)进行视频渲染的格式。
44.如果媒体处理实体115、215中的处理包括将所捕获的多通道音频信号编码和解码成重构的多通道音频信号以及将所捕获的视频流编码和解码成重构的视频流的相应步骤,则就此而言,媒体处理可以通过使用本领域中已知的技术来执行,并因此,在本公开中并未提供这方面的进一步的细节。此外,由音频渲染实体211执行的音频处理的一些方面(诸如将重构的音频流处理成所需的空间音频格式)同样可以通过使用本领域中已知的技术来执行,并因此,在本公开中并未提供这方面的进一步的细节。
45.图3a示出了根据示例的媒体捕获装置100'的一些组件和/或实体的框图,而图3b示出了根据示例的媒体渲染装置200'的一些组件和/或实体的框图。媒体捕获装置100'包括媒体捕获实体110',’其包括音频捕获实体111'、视频捕获实体112以及媒体处理实体115'。媒体渲染装置200'包括媒体渲染实体210',’其包括音频渲染实体211'、视频渲染实体212以及媒体处理实体215'。包括媒体捕获装置100'和媒体渲染装置200'的系统与包括媒体捕获装置100和媒体渲染装置200的系统的不同之处在于:在音频捕获实体111'中应用了用于提取或强调从在前文中参考音频渲染实体211而描述的所期望音频焦点方向到达的声音的音频焦点处理,而在音频渲染实体211中没有发生音频聚焦。
46.音频捕获实体111'中的音频焦点处理例如可导致(至少)表示在空间音频图像的所期望音频焦点方向上的声音的单通道音频信号或者具有聚焦的音频分量的多通道音频信号,其中,在所期望音频焦点方向上的声音相对于位于音频图像的其他声音方向上的声音被强调。在后一种情况下,媒体处理实体115'可以进一步将具有聚焦的音频分量的多通道音频信号处理成使其容易地适合于由音频播放实体(例如,音频播放实体221)进行音频
播放的预定义的或所选择的空间音频格式。不管从在音频捕获实体111'和媒体处理实体115'中应用的处理得到的音频信号的格式如何,来自媒体捕获实体110'的音频输出都被称为捕获音频信号,其可以以类似于在前文中参考图2a、图2b和图2c所描述的用于捕获多通道音频信号的方式(经适当修改后)从媒体捕获实体110'被传送到媒体渲染实体210'。
47.沿着前文所描述的思路,(例如在音频捕获实体111'中的或在音频渲染实体211中的)音频焦点处理旨在根据作为输入而提供给音频捕获实体111'或音频渲染实体211中的相应一个的音频焦点指示,强调与在其他声音方向上的声音相关的在感兴趣的声音方向上的声音。音频焦点指示至少定义了由多通道音频信号表示的空间音频图像内的感兴趣的音频焦点方向,并且音频焦点指示还可以定义音频焦点量,该音频焦点量指示将对在音频焦点方向上的声音施加的强调的所期望强度。在下文中,经由非限制性示例来描述音频焦点处理,该非限制性示例是指在音频渲染实体211中执行的音频焦点处理,同时它容易地概括成在音频捕获实体111'中(例如,基于由麦克风信号构成的或从麦克风信号获得的多通道信号)或由另一个实体执行的音频焦点处理。
48.如前文所描述的,例如经由在前文中所描述的映射,空间音频图像内的声音方向与伴随视频流的图像的图像区域中的位置相关联,并且相反地,图像区域中的位置与空间音频图像内的声音方向相关联。因此,音频焦点方向可以被映射到图像区域中的对应位置,反之亦然,示出感兴趣的声源的图像区域中的位置可以被映射到空间音频图像内的音频焦点方向。
49.在一个示例中,在音频捕获实体111'处接收的音频焦点方向对应于随时间(例如,在视频流的图像中从一个图像到另一个图像)保持相同或基本相同的单个(固定或静态的)声音方向,并且它可以由用户或由媒体捕获实体110'的另一个单元来选择。在另一个示例中,在音频捕获实体111'处接收的音频焦点方向对应于随时间(例如,在视频流的图像中从一个图像到另一个图像)变化的声音方向,并且它可以由媒体捕获实体110'的另一个单元例如经由随时间跟踪感兴趣对象(例如,由用户选择的对象)的图像区域位置而获得。类似的考虑(经适当修改后)也适用于音频渲染实体211中音频焦点方向的接收。在本公开中描述的音频焦点处理可以在捕获时间被执行(例如,在音频捕获实体111'中),或者在捕获时间之后作为后处理阶段被执行(例如,在音频捕获实体111'中或在音频渲染实体121)。
50.音频焦点处理可以包括:对在音频渲染实体211处接收的多通道音频信号应用预定义波束成形技术,以提取波束成形(单通道或多通道)音频信号,该波束成形音频信号表示在由多通道音频信号表示的空间音频图像的所期望音频焦点方向上的声音。在一些示例中,波束成形音频信号可以进一步被应用为用于以下操作的基础:创建聚焦的(多通道)音频分量,其中,波束成形音频信号被重新定位于其在空间音频图像中的原始空间位置;以及鉴于所期望的音频焦点量(或者如果没有指定所期望的音频焦点量,则鉴于预定义的音频焦点量),组合聚焦的音频分量与多通道音频信号,以创建具有聚焦的音频分量的多通道音频信号。就此而言,组合聚焦的音频分量与多通道音频信号可以包括:将聚焦的音频分量放大(例如,乘以)表示所期望的或预定义的音频焦点量的第一缩放因子;或者,将多通道音频信号衰减(例如,乘以)表示所期望的或预定义的音频焦点量的第二缩放因子。在进一步的示例中,组合聚焦的音频分量与多通道音频信号可以包括:将聚焦的音频分量放大(例如,乘以)第一缩放因子并将多通道音频信号衰减(例如,乘以)第二缩放因子,其中,第一缩放
因子和第二缩放因子共同表示所期望的或预定义的音频焦点量。
51.由音频渲染实体211在创建波束成形音频信号时应用的波束成形技术可以包括使用本领域中已知的合适的波束成形器。由于本领域中已知的波束成形技术的空间选择性有限,在实际实现中,波束成形音频信号不仅表示严格定位在空间音频图像中的所期望音频焦点方向上的声音,波束成形音频信号还表示在空间音频图像内的所期望音频焦点方向周围的音频焦点区内的声音,从而将在所期望音频焦点方向上的声音与在所期望音频焦点方向周围的波束成形技术相关的声音方向内的声音一起表示。通常,除了波束图中的旁瓣和波动之外,在所期望音频焦点方向周围的声音方向上的声源衰减(或抑制)通常随着与所期望音频焦点方向的距离的增加而增加,其中,衰减的程度取决于所应用的波束成形技术和/或在捕获潜在的多通道音频信号时应用的麦克风121

k的定位(相对于彼此,并且相对于所期望的音频焦点方向)。就此而言,音频焦点区可被视为包含声音基本上没有被衰减的那些声音方向,而在音频焦点区之外的声音方向上的声音基本上都被衰减。
52.本领域中已知的波束成形器可被分类为动态波束成形器和静态波束成形器。动态波束成形器的示例是最小方差无失真响应(mvdr)波束成形器,而静态波束成形器的示例是相移(ps)波束成形器。通常,与诸如ps之类的静态波束成形器相比,诸如mvdr之类的动态波束成形器可以实现更小的音频焦点区,尤其可以在音频焦点区之外的声音方向上更好地抑制离散声源。然而,由于波束成形音频信号中音频失真的可能性的增加,与经由使用静态波束成形器获得的质量相比,动态波束成形器的这种优势通常以降低波束成形音频信号的质量为代价。动态波束成形器的计算复杂度通常也高于静态波束成形器的计算复杂度。所得到的音频焦点区的大小和/或所得到的波束成形音频信号中失真的程度或概率之间的权衡可以经由选择所应用的波束成形器的参数(例如,波束成形器的白噪声增益)而在一定程度上进一步被调整。因此,由被某一音频焦点区覆盖的多通道音频信号所表示的空间音频图像的空间部分至少部分地经由音频焦点区的主声音方向、所应用的波束成形器的特性、以及可能还经由所应用的波束成形器参数来定义。
53.沿着前文所讨论的思路,鉴于给定的所期望音频焦点方向而设置的音频焦点区的实际形状和大小例如可以取决于所应用的波束成形技术、被应用于捕获潜在的多通道音频信号和/或空间音频图像内的所期望音频焦点方向的位置的麦克风阵列121中的麦克风121

k的相对位置。此外,音频焦点区的形状和大小在不同的频率(例如,在不同的频率子带)可不同。因此,虽然本公开的一些附图为了图示的图形清晰度而将音频焦点区示出为圆形,但在实际实现中音频焦点区可以具有在某种程度上任意的形状,其具有类似于圆形(或椭圆形)但并非严格的圆形(或严格的椭圆形)的“包络”。
54.在下文中,经由音频焦点区的主声音方向来描述音频焦点区相对于空间音频图像的位置,以使得将空间音频图像的某一声音方向设置或选择为主方向导致定位在主方向周围的音频焦点区。换句话说,波束图的主要放大方向是在主声音方向周围。因此,基于主声音方向的波束成形导致波束成形音频信号,其中,在经由主声音方向定义的声音方向上的声音相对于除了那些经由主声音方向定义的声音方向之外的声音方向上的声音而被强调。主声音方向可被视为音频焦点区的概念上的中心点,即使由于音频焦点区的在某种程度上任意的形状以及大小和形状在频率间的差异,它也可以不是音频焦点区的几何中心点。然而,在概念上,主声音方向可被视为表示音频焦点区的中心点。在示例中,音频焦点区的主
声音方向包括与其他方向相比声音被最大限度地放大的声音方向。在一些示例中,音频焦点区的主声音方向包括相对于图像区域内的其他方向声音被最大限度地放大的声音方向,即,在图像区域之外映射的一些声音方向上可存在更强的放大,但是这些并不被考虑。尽管如此,在本公开的上下文中,从在空间音频图像内选择主声音方向而得到的音频焦点区的相对位置比其绝对位置起着更重要的作用,并因此,“主声音方向”的概念用作用于本公开的目的的充分的位置参考。
55.在以下描述中,可以应用一些建议音频焦点区的主声音方向被布置/设置/定位在图像区域的某一位置的表述。很明显,这种表述本身意义有限。然而,为了提高本公开的可读性,这种精简的表述被应用以表达如下含义:主声音方向被布置/设置/定位在空间音频图像中在映射到图像区域的某一位置的声音方向上。同样地,以下文本可以采用一些建议音频焦点区重叠/覆盖图像区域的某一空间位置或部分的表述作为完整表述的精简版本,其含义是音频焦点区包含空间音频图像中的映射到图像区域的某一空间位置或部分的一个或多个声音方向。
56.在其中多通道音频伴随有视频流的场景中,用户通常主要对在构成相关联的视频流(例如由相机实体122的fov定义的)的图像的图像区域内到达的声音感兴趣,而在图像区域之外到达的声音可被忽略而不会显著影响场景的所得到的视听表示的感知质量。另一方面,由多通道音频信号表示的空间音频图像可以扩展到还覆盖在图像区域之外的声音方向。就此而言,音频渲染实体211可以被设置为抑制或衰减在空间音频图像中的源自在视频流的图像的图像区域之外的声源的声音方向上的声音。如前文所描述的,由于本领域中已知的波束成形技术的空间选择性有限,在实际实现中,经由大幅度地衰减(或者甚至抑制)在音频焦点区之外的声音方向上的声音,同时并不大幅度地衰减在音频焦点区内的声音方向上的声音,波束成形音频信号必要地表示在所期望音频焦点方向周围的音频焦点区内的声音(而不是只严格地表示所期望音频焦点方向的声音)。因此,波束成形音频信号不仅表示源自在视频流的图像区域中的期望点示出的对象的声音,而且还表示源自在该期望点周围的图像区域部分内的对象的声音。
57.在音频渲染实体211的操作过程中,用户可以经由实现音频渲染实体211的设备101、201的用户接口(ui)来选择感兴趣的音频焦点方向。作为这方面的示例,音频渲染实体211可以经由ui接收对描绘所期望的音频焦点方向的图像区域的位置的选择,并将图像区域的所选择位置映射到空间音频图像中的对应的声音方向。在另一个示例中,音频渲染实体211可以经由ui接收对在图像区域中描绘的对象的选择,应用合适的图像分析技术以识别该对象在视频流的图像中的图像区域中的位置,以及在每个所考虑的图像中,将在图像区域中该对象的所识别位置映射到空间音频图像中的对应的声音方向。在先前已知的方案中,使用此声音方向作为主声音方向来执行波束成形,此声音方向导致被定位在图像区域的所选择位置映射到的空间音频图像中的声音方向的音频焦点区。在本文中,即使用户没有直接选择音频焦点方向,响应于用户选择的图像区域位置或响应于在图像中示出的用户选择的对象的被跟踪图像区域位置而选择的空间音频图像的声音方向可被称为用户选择的(或接收的)音频焦点方向。因此,音频渲染实体211基于用户选择的音频焦点方向来执行波束成形,这导致包含在用户选择的音频焦点方向周围的声音方向的音频焦点区,并因此导致相对于空间音频图像中的在从基于用户选择的音频焦点方向而执行的波束成形得到
的音频焦点区之外的声音方向上的声音,强调在空间音频图像中的在所得到的音频焦点区内的所有声音方向上的声音的音频聚焦。
58.沿着前文所讨论的思路,上述方法用于提供包含在用户选择的音频焦点方向上的声音的音频聚焦,而同时它可以提供不经意地还包含在所期望声音方向周围的声音方向上的声音的音频聚焦。图4示意性地示出了这方面的示例,其中,第一对象被描绘在图像区域312的位置a,而第二对象被描绘在图像区域312的位置b,其中,第一和第二对象表示在空间音频图像内的相应声源。假定用户想要将音频焦点设置为源自第一对象的声音,所得到的音频焦点区311覆盖在位置a周围的图像区域的一部分。然而,由于所应用的波束成形技术的空间选择性的限制,音频焦点区311也包含在图像区域的位置b的第二对象。因此,并不是相对于源自在位置b描绘的第二对象的声音而强调源自在位置a描绘的第一对象的声音,而是使用音频焦点区311来执行波束成形,导致强调源自于第一对象的声音和源自于第二对象的声音两者,而这在许多情况下会导致在音频焦点处理方面用户体验受到损害。
59.例如经由根据由图5中描绘的流程图所示的方法400的操作,可以获得改进的音频聚焦。方法400例如可以由音频捕获实体111'或音频渲染实体211来执行。参考方法400的框402至框408描述的操作可以以多种方式进行变化或补充,而并不背离根据本公开(例如根据前文和下文中描述的示例)的音频焦点处理的范围。
60.如框402中所指示的,方法400开始于接收多通道音频信号,该多通道音频信号表示在与图像的图像区域中的各位置对应的声音方向上的声音。在本文中,图像包括在媒体处理实体215处接收的视频流或从其中获得的图像。如框404中所指示的,方法400还包括接收与该图像区域中的第一位置对应的音频焦点方向的指示。
61.方法400还包括:如框406中所指示的,选择与该图像区域中的第二位置对应的主声音方向,该第二位置在使其距离该图像区域的中心点更远的方向上偏离该图像区域中的第一位置;以及如框408中所指示的,基于该多通道音频信号并根据该主声音方向,获得输出音频信号,其中,相对于在除了经由所选择的主声音方向定义的声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。
62.在下文中,提供了与框406相关的操作的非限制性示例。就此而言,更详细地描述了选择主声音方向以用于获得输出音频信号以及所得到的音频焦点区相对于它们在图像区域中的(映射)位置的布置。在关于方法400的示例中,选择主声音方向,以使得(除了主声音方向之外)所接收音频焦点方向(也)被包括在主声音方向周围的音频焦点区中。在以下描述中,术语“接收焦点位置”被应用以指代所接收音频焦点方向映射到的图像区域中的位置(即,上面在框404和框406的上下文中提及的“第一位置”),而术语“移位焦点位置”被应用以指代所选择的主声音方向映射到的位置(即,上面在框406的上下文中提及的“第二位置”)。因此,依据图像区域位置来布置移位焦点位置,以使得移位焦点位置与图像区域的中心点之间的距离大于接收焦点位置与图像区域的中心点之间的距离,从而使所提供的音频焦点移位以包含映射到图像区域位置的声音方向,这些声音方向与映射到接收焦点位置的声音方向相比距离图像区域的中心更远。
63.此外,在下文中提及关于将接收焦点位置移位或偏移到移位焦点位置暗示将映射到接收焦点位置的空间音频图像内的所接收音频焦点方向调整到映射到移位焦点位置的空间音频图像内的所选择主声音方向。因此,将图像区域中的接收焦点位置移位或偏移到
图像区域中的移位焦点位置基本上是将音频焦点方向移位或偏移到空间音频图像中的主声音方向的结果,但是为了描述的简洁和清晰起见,以下示例在多数情况下是指诸如在图像平面中发生的移动或偏离之类的在空间音频图像内对音频焦点方向进行移位。
64.根据第一示例,移位焦点位置在图像平面的水平方向和图像平面的垂直方向中的一个或两者上偏离接收焦点位置,以使得主声音方向映射到的图像区域的点距离图像区域的中心点更远。术语“水平方向”和“垂直方向”在本文中以非限制性方式使用,包含彼此垂直的任何一对第一方向和第二方向。选择偏离的程度,以使得从所应用的波束成形器的使用而得到的音频焦点区(还)包含所接收音频焦点方向。
65.从图4的示例继续并且进一步假定所接收音频焦点方向映射到图像区域中的位置a(在此示出第一对象),图6a示意性地示出了这方面的示例,其中,移位焦点位置在图像平面的垂直方向(在图6a的图示中由y轴表示)上偏离接收焦点位置。在图6a中,实线圆圈表示从将音频焦点方向从用户选择的音频焦点方向移位而得到的偏移音频焦点区311',而虚线圆圈表示根据图4的示例的音频焦点区311。
66.在图6a的示例中,选择主声音方向,以使得其导致移位焦点位置映射到在图6a的图示中由叉字形记号指示的图像区域的位置,从而提供移位焦点位置,其到图像区域的中心点(在图6a的图示中由c指示)的距离大于位置a到图像区域的中心点的距离。因此,利用足够的偏离,移位所得到的偏移音频焦点区311',以使得源自映射到图像区域中的位置b(在此示出第二对象)的方向的声音不被包括在偏移音频焦点区311'中,而音频焦点区311包含在映射到图像区域的位置a的所接收音频焦点方向上的声音。因此,使用偏移音频焦点区311'的波束成形使得能够获得如下波束成形音频信号:在映射到图像中的位置a的声音方向上的声音也相对于在映射到图像区域中的位置b的声音方向上的声音而被强调。
67.图6b示意性地示出了一个示例,其中,移位焦点位置在图像平面的水平方向(在图6b的图示中由x轴指示)上偏离接收焦点位置,以使得它距离图像区域的中心点(在位置c处)更远。同样地,实线圆圈表示从将音频焦点方向偏离所接收音频焦点方向而得到的偏移音频焦点区311',而虚线圆圈表示根据图4的示例的音频焦点区311。如图6b中所示,利用足够的偏离,移位所得到的偏移音频焦点区311',以使得源自映射到图像区域中的位置b(在此示出第二对象)的方向的声音不被包括在偏移音频焦点区311'中,而音频焦点区311包含在映射到图像区域的位置a的所接收音频焦点方向上的声音。
68.图6c示意性地示出了另一示例,其中,移位焦点位置在图像平面的水平方向和垂直方向两者(在图6c的图示中分别由x轴和y轴指示)上偏离接收焦点位置。在这个示例中,焦点位置沿着与图像区域的中心点(在位置c处)和接收焦点位置(在位置a处)两者相交的(在概念上的)线移位,以使得该焦点位置距离图像区域的中心更远。再次同样地,实线圆圈表示从将音频焦点方向偏离所接收音频焦点方向而得到的偏移音频焦点区311',而虚线圆圈表示根据图4的示例的音频焦点区311。如图6c中所示,利用足够的偏离,移位所得到的偏移音频焦点区311',以使得源自映射到图像区域中的位置b(在此示出第二对象)的方向的声音不被包括在偏移音频焦点区311'中,而音频焦点区311包含在映射到图像区域的位置a的所接收音频焦点方向上的声音。
69.偏离的程度和方向两者都可以是预定义的,在以上所描述的条件下,偏离方向导致移位焦点与接收焦点相比距离图像区域的中心点更远。即使偏离的预定义程度和方向不
保证提供移位音频焦点区311',该音频焦点区311'不包括来自在相对靠近感兴趣的声源的声音方向上并且映射到驻留在图像区域内的位置的重要声源的声音,尽管如此,它仍然增加了从波束成形音频信号中排除这种声源的可能性,从而使能改进的音频聚焦。
70.在一个示例中,可以应用预定义偏离程度,该预定义偏离程度与接收焦点位置在图像区域中的位置无关。换句话说,相同的预定义偏离程度可以被应用于所有接收焦点位置。在另一个示例中,偏离程度取决于接收焦点位置在图像区域中的位置,以使得偏离程度随着接收焦点位置与图像区域的中心点之间的距离的增加而增加。在另一个示例中,图像区域可以(至少在概念上)被划分成多个非重叠图像部分,并且根据接收焦点位置所位于的图像部分来应用相应的预定义偏离程度。作为这方面的示例,与更靠近图像区域的中心点的图像部分中的偏离程度相比,更远离图像区域的中心点的图像部分中的偏离程度可以更大。
71.作为关于偏离程度的进一步的示例,偏离可以仅被应用于距图像区域的中心点比(第一)预定义距离更远的那些接收焦点位置(换句话说,对于距图像区域的中心点在(第一)预定义距离内的接收焦点位置,偏离程度可以是“零”),可以限制偏离程度以使得其保持在图像区域内,和/或可以限制偏离程度以使得其不超出图像区域大于预定义阈值距离。
72.在一个示例中,可以应用预定义偏离方向,该预定义偏离方向与接收焦点位置在图像区域中的位置无关。换句话说,相同的预定义偏离方向可以被应用于所有接收焦点位置。在另一个示例中,可以根据接收焦点位置在图像区域中的位置来选择偏离方向,以使得图像区域可以(至少在概念上)被划分成多个非重叠图像部分,并且根据接收焦点位置所在的图像部分来应用预定义偏离方向。作为这方面的示例,在由图像区域的单个边缘界定的图像部分(例如,与图像区域的顶部边缘、底部边缘、左侧边缘和右侧边缘之一相邻的图像部分)中,偏离方向可以是在图像平面的垂直或水平方向上,以使得移位焦点更靠近由图像区域的边缘界定的图像部分的一边,而不是更靠近由另一个图像部分界定的该图像部分的相对边,在由图像区域的两个非相对边缘界定的图像部分(例如,在图像区域的拐角的图像部分)中,例如可以沿着与图像区域的中心点和接收焦点两者相交的(在概念上的)线在水平方向和垂直方向两者上提供偏离的方向,和/或,在未由图像区域的任何边缘界定的图像部分(例如,所有边都由相邻图像部分界定的图像部分)中,偏离的方向可以在图像平面的水平方向和垂直方向中的一个或两者上,或者可替代地在这种图像部分中可以不应用偏离。
73.由偏移音频焦点区311'所包含的声音方向进一步取决于被应用于根据移位焦点位置来创建波束成形音频信号波束成形技术的选择。作为这方面的示例,可以在获得波束成形音频信号时应用预定义波束成形器。在另一个示例中,与框406相关的操作还可以包括选择将要在获得波束成形音频信号时被应用的波束成形器或波束成形器的类型。在一个示例中,可以应用相同的波束成形器和/或相同或类似类型的波束成形器,而不管接收焦点位置在图像区域中的位置,其中,所应用的波束成形器可以是诸如ps之类的静态波束成形器或诸如mvdr之类的动态波束成形器。在另一个示例中,可以根据接收焦点位置在图像区域中的位置来选择所应用的波束成形器或所应用的波束成形器的类型,例如以使得动态波束成形器被应用于距图像区域的中心点比(第二)预定义距离更近的接收焦点位置,而静态波束成形器被应用于距图像区域的中心点比(第二)预定义距离更远的接收焦点位置。在另一
个示例中,可以根据图像区域中的接收焦点位置来选择所应用的波束成形器或所应用的波束成形器类型,以使得图像区域可以(至少在概念上)被划分成多个非重叠图像部分,并且应用被分配给接收焦点位置所位于的图像部分的波束成形器或波束成形器类型。作为这方面的示例,动态波束成形器可以被分配给由图像区域的单个边缘界定的图像部分(例如,与图像区域的顶部边缘、底部边缘、左侧边缘和右侧边缘之一相邻的图像部分)以及被分配给未由图像区域的任何边缘界定的图像部分(例如,所有边都由相邻图像部分界定的图像部分),和/或,静态波束成形器可以被分配给由图像的两个相邻边缘界定的图像部分区域(例如,在图像区域的拐角的图像部分)。
74.根据所选择的方法的细节,以上所描述的根据接收焦点位置的位置来选择波束成形器或波束成形器类型导致:在图像区域的中心附近使用动态波束成形器(通常使能更小尺寸的音频焦点区,音频失真风险增加)以及在更靠近图像区域的边缘和/或拐角使用静态波束成形器(通常导致更大尺寸的音频焦点区,音频失真风险降低),从而(进一步)降低提供移位音频焦点区311'以使得它不包括来自在相对靠近感兴趣的声源的声音方向上并且映射到驻留在图像区域内的位置的重要声源的声音的可能性。
75.在图7中示意性地示出了利用将图像区域划分成一组非重叠的矩形图像部分的非限制性示例,而在其他示例中,可以代替地应用一些其他形状(例如,六边形)的图像部分。在图7中,图像区域312被划分成被标记为312

1至312

8的八个图像部分,每个图像部分被示出具有相应的示例性移位音频焦点区311

1'至311

8'。应注意,图7的图示并未描绘移位音频焦点区311

j'相对于相应的图像部分312

j的绝对位置,而是用于指示相对于图像区域312的中心点接收焦点位置被移位到的相应方向,以定义相应的移位焦点位置(参见从表示音频焦点区311

j'的圆圈向外延伸的箭头)。此外,音频焦点区311

j'的相应大小用于指示被分配给相应图像部分312

j的波束成形器类型:较大的圆圈表示静态波束成形器(诸如ps),较小的圆圈表示动态波束成形器(诸如mvdr)。因此,在图7的示例中,可以假定动态波束成形器被分配给图像部分312

2、312

3、312

6、312

7,同时偏离方向是在图像平面的垂直方向上朝向图像区域312的顶部边缘和底部边缘中的更靠近者,而静态波束成形器被分配给图像部分312

1、312

4、312

5、312

8,同时偏离方向是在图像平面的水平方向和垂直方向两者上在朝向图像区域的相应拐角的大致方向上。
76.现在参考与框408相关的操作,获得输出音频信号例如可以包括:使用预定义的或所选择的波束成形器从所接收的多通道音频信号中提取波束成形音频信号,该波束成形音频信号表示在空间音频图像的所选择主声音方向周围的音频焦点区311'内的声音方向上的声音,其中,该波束成形音频信号可以包括单通道音频信号或多通道音频信号。如前文所描述的,所得到的偏移音频焦点区311'还包含在所接收音频焦点方向上的声音,由此,该波束成形音频信号用作其中相对于在音频焦点区311'之外的声音方向上的声音而强调在所接收音频焦点方向上的声音的音频信号。
77.在一个示例中,该波束成形音频信号被提供为输出音频信号。在另一个示例中,与框408相关的操作还可以包括或后面是:基于所接收的多通道音频信号以及该波束成形音频信号,构成具有聚焦的音频分量的多通道输出音频信号,其中,相对于在音频焦点区311'之外的声音方向上的声音,强调在空间音频图像的所选择主声音方向周围的音频焦点区311'内的声音方向上的声音。通常,只考虑映射到图像区域内的位置的声音方向,而忽略在
映射到图像区域之外的位置的声音方向上的声音的放大和/或衰减。
78.获得这种多通道输出音频信号可以包括:获得聚焦的(多通道)音频分量,其中,波束成形音频信号被重新定位在其空间音频图像的原始空间位置;以及鉴于所期望的音频焦点量(者如果没有指定所期望的音频焦点量,则鉴于预定义的音频焦点量),组合聚焦的音频分量与所接收的多通道音频信号以创建具有聚焦的音频分量的多通道输出音频信号。作为这方面的示例,组合聚焦的音频分量与多通道音频信号可以包括:将聚焦的音频分量放大(例如,乘以)表示所期望的或预定义的音频焦点量的第一缩放因子;或者,将所接收的多通道音频信号衰减(例如,乘以)表示所期望的或预定义的音频焦点量的第二缩放因子。在进一步的示例中,组合聚焦的音频分量与多通道音频信号可以包括:将聚焦的音频分量放大(例如,乘以)第一缩放因子并将多通道音频信号衰减(例如,乘以)第二缩放因子,其中,第一缩放因子和第二缩放因子共同表示所期望的或预定义的音频焦点量。根据预定义的通道配置(诸如5.1通道环绕声或7.1通道环绕声),多通道输出音频信号可以被提供为或(进一步)被处理成例如双通道双耳音频信号或多通道环绕信号。
79.仍然参考第一示例,偏离程度、偏离方向和/或所应用的波束成形器或波束成形器类型可以在不同的频率子带被不同地选择或定义。在示例中,偏离程度、偏离方向和/或所应用的波束成形器或波束成形器类型可以如上所描述地针对一个或多个第一频率子带来选择或定义,而对于一个或多个第二频率子带,可以不应用偏离(或应用更小的偏离)和/或可以应用预定义的波束成形器或波束成形器类型。
80.根据第二示例,假定麦克风阵列121的相应的两个或更多个麦克风121

k位于相机实体122的图像传感器的两侧上,这通常导致即使当相同或类似的波束成形器或波束成形类型被应用于音频焦点区311、311'中的每一个时,与其(更)靠近图像区域的侧边(例如,更靠近与图像传感器的相应边缘对应的图像区域的那些边缘,该图像传感器与所述两个或更多个麦克风121

k相邻)的尺寸相比,音频焦点区311、311'在(更)靠近图像区域的中心时的尺寸更小。就此而言,在第二个示例中,波束成形器可以是预定义的波束成形器,例如,诸如ps之类的静态波束成形器或诸如mvdr之类的动态波束成形器。因此,在第二示例的上下文中,主声音方向的选择(参见框406)和输出音频信号的获得(参见框408)可以以在前文中针对第一示例而描述的方式来执行,除了(可能)根据接收焦点位置在图像区域中的位置(所接收音频焦点方向映射到的位置)来选择波束成形器或波束成形器类型。
81.仍然参考第二示例,可以在不同的频率子带不同地选择或定义偏离程度和/或偏离方向。在示例中,偏离程度和/或偏离方向可以如上所描述地针对一个或多个第一频率子带(例如,针对低于预定义频率阈值的频率子带)来选择或定义,而对于一个或多个第二频率子带(例如,对于高于预定义频率阈值的频率子带)可以不应用偏离(或应用更小的偏离)。
82.根据第三示例,以与方法400和/或关于图6a、图6b、图6c和图7的示例略有不同的方式,解决了参考图4讨论的先前已知的用于音频聚焦方法的问题。就此而言,可以例如根据由图8中描绘的流程图所示的方法500来提供改进的音频聚焦。参考方法500的框502至框508描述的操作可以以多种方式进行变化或补充,而并不背离根据本公开(例如根据前文和下文中描述的示例)的音频焦点处理的范围。
83.如框502中所指示的,方法500开始于接收多通道音频信号,该多通道音频信号表
示在与图像的图像区域中的各位置对应的声音方向上的声音。如框504中所指示的,方法500还包括接收与图像区域中的第一位置对应的音频焦点方向的指示。在本文中,与框502和框504相关的操作分别类似于在方法400的上下文中参考框402和框404所描述的操作。
84.如框506中所指示的,方法500还包括从多个不同的可用候选方向中选择主声音方向,其中,每个候选方向与偏离第一位置的相应候选偏移相对应。就此而言,偏离可以是在图像平面上的任何方向上。如框508中所指示的,方法500还包括基于多通道音频信号并根据主声音方向,获得输出音频信号,其中,相对于在除了经由主声音方向定义的那些声音方向之外的声音方向上的声音,强调在经由所选择的主声音方向定义的声音方向上的声音。在关于方法500的示例中,选择主声音方向,以使得(除了主声音方向之外)所接收音频焦点方向(也)被包括在主声音方向周围的音频焦点区中。下面描述与框506和框508相关的操作的非限制性示例。
85.现在参考与方法500的框506相关的操作,如前文所描述的,可以从多个不同的可用候选声音方向(即,两个或更多个不同的可用候选声音方向)中选择主声音方向,该多个不同的可用候选声音方向包括所接收音频焦点方向和一个或多个偏移候选方向,每个偏移候选方向可以例如经由相对于所接收音频焦点方向映射到的图像区域位置的相应候选偏移来描述。就此而言,每个候选偏移可以定义图像平面中相应一对偏离方向和偏离程度,换句话说,相应的候选移位焦点位置相对于接收焦点位置的方向和距离,偏离方向可以是在图像平面的任何方向上。相同或类似的波束成形器适用于使用每个候选声音方向来获得相应的候选波束成形音频信号,从而使能基于在相应候选声音方向周围的相应候选音频焦点区来获得相应的候选波束成形音频信号。由于使用相同或类似的波束成形器,在相应的候选音频焦点区所包含的声音方向的方面,每个候选音频焦点区具有基本相同的大小。针对每个偏移候选声音方向选择偏离程度,以使得鉴于所应用的波束成形器的特性,相应的候选音频焦点区包含所接收音频焦点方向。由于每个候选音频焦点区包含所接收音频焦点方向,因此,它们必然彼此部分重叠。另一方面,每个候选音频焦点区还包含在与其他候选音频焦点区所包含的不同的音频焦点方向周围的方向范围。
86.作为这方面的非限制性示例,图9示意性地示出了如下场景:从其中除了所接收音频焦点区之外三个不同的偏移候选声音方向可用的场景中得到的相应的候选音频焦点区311、311a、311b和311c:第一偏移候选音频焦点区311a是根据第一候选偏移将接收焦点位置在图像平面的垂直轴的方向上(朝向图像区域的上边缘)移位而得到的,第二偏移候选音频焦点区311b是根据第二候选偏移将接收焦点位置在图像平面的水平轴的方向上(朝向图像区域的右边缘)移位而得到的,第三偏移候选音频焦点区311c是根据第三候选偏移将接收焦点位置在图像平面的垂直轴的方向上(朝向图像区域的下边缘)移位而得到的。在图9的示例中,源自映射到图像区域中的位置a(在此示出第一对象)的方向的声音和源自映射到图像区域中的位置b(在此示出第二对象)的方向的声音两者都被包括在音频焦点区311、311b和311c中,而音频焦点区311a仅包含映射到位置a的方向,而不包含位置b的方向。
87.在第三示例中,选择主声音方向(参见框506)可以包括:针对多个不同的可用候选方向中的每个可用候选方向,估计经由使用所应用的波束成形器可获得的相应的候选波束成形音频信号的能量;以及基于候选波束成形音频信号的相应的能量,选择候选声音方向之一作为主声音方向。在一个示例中,从根据某一候选方向进行波束成形而得到的候选波
束成形音频信号的能量可以经由执行以下操作来获得:使用所应用的波束成形器进行波束成形以获得相应的候选波束成形音频信号,以及计算相应的候选波束成形音频信号的能量。在另一个示例中,从经由使用所应用的波束成形器根据某一候选方向进行波束成形而得到的候选波束成形音频信号的能量可以经由使用与所应用的波束成形器相关联的定向能量估计方法来获得,从而避免了候选波束成形音频信号的实际获得所需的计算。这种定向能量估计方法在本领域中是已知的。
88.作为这方面的特定示例,选择候选声音方向之一作为主声音方向可以包括:选择导致具有最低能量的候选波束成形音频信号的候选声音方向作为主声音方向。在另一个示例中,主声音方向的基于能量的选择可以针对多个频率子带单独地执行。因此,可以在不同的频率子带选择候选声音方向中的不同的一个候选声音方向作为主声音方向。在示例中,用于选择候选声音方向之一作为主声音方向的相同的基于能量的标准可以被应用于这些频率子带。在另一个示例中,用于选择候选声音方向之一作为主声音方向的基于能量的标准可以从一个频率子带到另一个频率子带而不同。作为后者的示例,在低于预定义频率阈值的频率子带中,提供具有最低能量的候选波束成形音频信号的候选声音方向可以被选择为主声音方向,而在高于预定义频率阈值的频率子带中,提供具有最高能量的候选波束成形音频信号的候选声音方向可以被选择为主声音方向。
89.现在参考框508,根据示例,基于经由在前文中描述的框506的操作而选择的主声音方向,通过应用预定义波束成形器以从所接收的多通道音频信号中提取波束成形音频信号,可以从接收的多通道音频信号获得输出音频信号,该波束成形音频信号表示在由所接收的多通道音频信号表示的空间音频图像的主声音方向上的声音。在另一个示例中,如果在前文中所描述的能量估计涉及候选波束成形音频信号的获得,则基于(经由框506的操作)被选择为主声音方向的候选声音方向而从波束成形得到的候选波束成形音频信号可以被应用为波束成形音频信号。
90.沿着在前文中在与方法400相关的示例的上下文中所描述的思路,在示例中,该波束成形音频信号可以被提供为输出音频信号。在另一个示例中,与框508相关的操作还可以包括或后面是:基于所接收的多通道音频信号以及该波束成形音频信号,构成具有聚焦的音频分量的多通道输出音频信号,其中,相对于在音频焦点区311'之外的声音方向上的声音,强调在空间音频图像的所选择主声音方向周围的音频焦点区311'内的声音方向上的声音。这种多通道输出音频信号的获得可以如前文所描述地来执行。根据预定义的通道配置(诸如5.1通道环绕声或7.1通道环绕声),多通道输出音频信号可以被提供为或(进一步)被处理成例如双通道双耳音频信号或多通道环绕信号。
91.根据在方法500的框架中提供的第四示例,主声音方向的选择(参见框506)包括:执行分析过程以试图识别一个或多个(定向)声源的相应声音方向,其被包括在由所接收的多通道音频信号表示的空间音频图像中;以及至少部分地基于所识别的声音方向来选择主声音方向。
92.分析过程包括应用一组分析区,其相应的主声音方向被设置以使得这些分析区共同覆盖或基本上覆盖与图像区域其整体对应的空间音频图像的声音方向,从而使能识别在图像区域中描绘的那些音频源(如果有的话)的声音方向。在下文中,我们将分析区的主声音方向称为分析方向,以避免与经由应用分析区而(将要)为获得输出音频信号而选择的主
声音方向相混淆。分析方向可以包括由所接收的多通道音频信号表示的空间音频图像的相应的预定义声音方向,因此这些预定义声音方向映射到图像区域的相应预定义位置。
93.图10示意性地示出了在图像区域上覆盖的多个分析区313以及图像区域位置a和b,该图像区域位置a和b再次用于指示描绘表示空间音频图像的相应声源的第一对象和第二对象的相应图像区域位置。在图10的示例中,分析区313中的每一个与两个或更多个相邻的分析区313重叠,而在其他示例中,分析区313之间的重叠可比在图10的示例中描绘的重叠更大,或者分析区313可以是非重叠的。可以使用诸如mvdr之类的动态波束成形器来提供分析区313,并且所应用的波束成形器可以仅考虑频率范围的子部分以使得能够将分析区313保持得尽可能小。相反,可以使用诸如ps之类的静态波束成形器来执行根据所选择的主声音方向获得输出音频信号,从而与分析区313相比得到更大的(移位)音频焦点区,如将在下文中所描述的。
94.分析过程可以包括:针对每个所述分析方向,估计经由所应用的动态波束成形器可获得的相应的初步波束成形音频信号的能量;以及识别导致具有超过能量阈值的能量的相应的初步波束成形音频信号的那些分析方向。就此而言,沿着在前文中在第三示例的上下文中所描述的思路,可以经由获得相应的初步波束成形音频信号并计算它们的能量或者经由应用与所应用的动态波束成形器相关联的定向能量估计方法(经适当修改后)来执行能量估计。能量阈值可以是预定义的能量阈值,或者可以例如基于预定义时长的时间窗口上的平均音频信号能量来定义能量阈值。所识别的分析方向被视为表示相应(不同的)声源的分析方向。因此,用于获得输出信号的主声音方向的选择部分地基于所识别的表示相应(不同的)声源的分析方向的知识。
95.作为示例,根据所识别的分析方向来选择主声音方向可以应用在前文中在第三示例的上下文中描述的多个候选声音方向以识别候选声音方向,从而导致包含在所识别的分析方向上的最小贡献的相应的候选音频焦点区,以及选择所识别的候选声音方向作为主声音方向。参考图10的示例,并且假定所接收音频焦点方向映射到图像区域中的位置a(在此示出第一对象)以及可用的候选声音方向包括导致在图9中所示的候选音频焦点区311、311a、311b、311c的那些声音方向,该分析过程会导致将导致候选分析区313a和313b的分析方向识别为表示相应(不同的)声源的分析方向。由于在此示例中,候选音频焦点区311a包含导致分析区313的所识别分析方向,而候选音频焦点区311b和311c两者包含导致分析区313a和313b的所识别分析方向,因此,识别导致包含在所识别分析方向上的最小贡献的候选音频焦点区的候选声音方向会导致识别产生音频焦点区311a的候选声音方向,并因此选择所识别的候选声音方向作为主声音方向。
96.在示例中,识别导致包含来自在所述所识别音频方向上的最小贡献的候选音频焦点区的候选声音方向可以包括识别导致包含最小数量的所述所识别音频方向的候选音频焦点区的候选声音方向。在另一个示例中,识别导致包含来自在所述所识别音频方向上的最小贡献的候选音频焦点区的候选声音方向可以包括从所识别音频方向中识别导致具有最小能量贡献的候选波束成形音频信号的候选声音方向。
97.因此,在第四示例中应用的分析过程使得能够避免强调在靠近所接收音频焦点方向的声音方向上但优选地从输出音频信号中排除的至少一些声源,从而由于避开非期望声源的已知空间位置而得到改进的选择性,而使能针对音频聚焦的改进用户体验。
98.仍然参考第四示例,依赖于从相应分析方向产生的分析区的分析以及随后的选择可用候选聚焦方向之一作为主声音方向可以针对多个频率子带而单独地执行。因此,可以选择可用候选声音方向中的不同的一个候选声音方向作为在不同频带的主焦点方向。
99.图11示出了示例性装置900的一些组件的框图。装置900可以包括在图11中未示出的其他组件、单元或部分。例如,装置900可以在实现在前文中在媒体捕获实体110和/或媒体渲染实体210的上下文中描述的一个或多个组件时被使用。
100.装置900包括处理器916和用于存储数据和计算机程序代码917的存储器915。存储器915及其中存储的计算机程序代码917的一部分可以进一步被设置为与处理器916一起实现在前文中在媒体捕获实体110和/或媒体渲染实体210或其一个或多个组件的上下文中描述的操作、过程和/或功能中的至少一些。
101.装置900包括用于与其他设备通信的通信部分912。通信部分912包括至少一个使能与其他装置进行有线或无线通信的通信装置。通信部分912的通信装置也可以被称为相应的通信部件。
102.装置900还可以包括用户i/o(输入/输出)组件918,用户i/o(输入/输出)组件918可以被设置为可能与处理器916和计算机程序代码917的一部分一起来提供用户接口,以用于接收来自装置900的用户的输入和/或向装置900的用户提供输出,以控制由装置900实现的媒体捕获实体110和/或媒体渲染实体210或其一个或多个组件的操作的至少一些方面。用户i/o组件918可以包括硬件组件,诸如显示器、触摸屏、触摸板、鼠标、键盘、和/或一个或多个按键或按钮的布置等。用户i/o组件918也可以被称为外围设备。处理器916可以被设置为例如根据计算机程序代码917的一部分以及可能进一步根据经由用户i/o组件918接收的用户输入和/或根据经由通信部分912接收的信息来控制装置900的操作。
103.虽然处理器916被描绘为单个组件,但是它可以被实现为一个或多个单独的处理组件。类似地,虽然存储器915被描绘为单个组件,但是它可以被实现为一个或多个单独的组件,其中一些或全部可以是集成的/可移除的,和/或可以提供永久/半永久/动态/缓存存储。
104.在存储器915中存储的计算机程序代码917可以包括计算机可执行指令,其在被加载到处理器916中时控制装置900的操作的一个或多个方面。作为示例,计算机可执行指令可以被提供为一个或多个指令的一个或多个序列。通过从存储器915读取其中包含的一个或多个指令的一个或多个序列,处理器916能够加载并执行计算机程序代码917。一个或多个指令的一个或多个序列可以被配置为当被处理器916执行时,使装置900执行在前文中在媒体捕获实体110和/或媒体渲染实体210或其一个或多个组件的上下文中描述的操作、过程和/或功能中的至少一些。
105.因此,装置900可以包括至少一个处理器916和包括用于一个或多个程序的计算机程序代码917的至少一个存储器915,该至少一个存储器915和计算机程序代码917被配置为与至少一个处理器916一起使装置900执行在前文中在媒体捕获实体110和/或媒体渲染实体210或其一个或多个组件的上下文中描述的操作、过程和/或功能中的至少一些。
106.在存储器915中存储的计算机程序可以被提供为例如相应的计算机程序产品,该计算机程序产品包括在其上存储有计算机程序代码917的至少一个计算机可读非暂时性介质,该计算机程序代码在由装置900执行时使装置900至少执行于在前文中在媒体捕获实体
110和/或媒体渲染实体210或其一个或多个组件的上下文中描述的操作、过程和/或功能中的至少一些。计算机可读非暂时性介质可以包括存储器设备或记录介质,诸如cd

rom、dvd、蓝光光盘或有形地体现计算机程序的另一制品。作为另一个示例,计算机程序可以被提供为被配置为可靠地传送计算机程序的信号。
107.对处理器的引用不应被理解为仅包含可编程处理器,而是还包括诸如现场可编程门阵列(fpga)、专用电路(asic)、信号处理器之类的专用电路。在前面的描述中所描述的特征可以在除了明确描述的组合之外的组合中被使用。
108.虽然已经参考某些特征描述了功能,但是无论描述与否,这些功能都是可由其他特征执行的。虽然已经参考某些实施例描述了特征,但是无论描述与否,那些特征也可以存在于其他实施例中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献