用于虚拟现实的有效空间异质音频元素的制作方法

2021-10-22 23:26:00 来源：中国专利 TAG：渲染元素音频公开实施

1.公开了与空间异质音频元素的渲染相关的实施例。

背景技术：

2.人们通常感知的声音是从位于某个表面上或某个体积/区域内的不同声源产生的声波的总和。这样的表面或体积/区域可以在概念上被视为具有空间异质特征的单个音频元素（即，在其空间范围内具有一定量的空间源变化的音频元素）。
3.以下是空间异质音频元素的示例的列表。
4.人群声音：由在空间的限定体积内彼此靠近站立的许多个人产生并到达听众的两只耳朵的语音声音的总和。
5.河流声音：从河流的表面产生并到达听众的两只耳朵的溅水声的总和。
6.海滩声音：由撞击海滩的海岸线的海浪产生并到达听众的两只耳朵的声音的总和。
7.喷泉声音：由撞击喷泉的表面的水流产生并到达听众的两只耳朵的声音的总和。
8.繁忙公路声音：由许多汽车产生并到达听众的两只耳朵的声音的总和。
9.这些空间异质音频元素中的一些具有感知的空间异质特征，该特征沿着三维（3d）空间中的某些路径不会改变太多。例如，沿河边行走的听众所感知的河流声音的特征不会随着听众沿河边行走而显著改变。类似地，沿海滨行走的听众所感知的海滩声音的特征或者在人群周围行走的听众所感知的人群声音的特征不会随着听众沿着海滨或在人群周围行走而改变太多。
10.存在表示具有一定空间范围的音频元素的现有方法，但是所得到的表示不保持音频元素的空间异质特征。一个这样的现有方法是在单声道音频对象周围的位置创建单声道音频对象的多个副本。在单声道音频对象周围具有单声道音频对象的多个副本创建具有特定大小的空间同质音频对象的感知。这个概念用于mpeg
‑
h 3d音频标准的“对象扩展”和“对象发散”特性中以及ebu音频定义模型（adm）标准的“对象发散”特性中。
11.在2016年1月出版的题为“efficient hrtf
‑
based spatial audio for area and volumetric sources”的ieee transactions on visualization and computer graphics 22(4):1
‑
1中，描述了使用单声道音频对象表示具有空间范围的音频元素的另一种方式（尽管不保持其空间异质特征），其全部内容通过此引用结合于本文。具体来说，可使用单声道音频对象通过以下步骤来表示具有空间范围的音频元素：将声音对象的面积
‑
体积几何投影到围绕听众的球体上，并且通过使用一对头部相关（hr）滤波器向听众渲染声音，该对hr滤波器被评估为覆盖该声音对象在球体上的几何投影的所有hr滤波器的积分。对于球形体积源，这个积分具有解析解，而对于任意面积
‑
体积源几何，通过使用所谓的蒙特卡罗射线采样对球体上的投影源表面进行采样来评估该积分。
12.现有方法中另一种是除了单声道音频信号之外还渲染空间扩散分量，使得空间扩散分量和单声道音频信号的组合创建稍微扩散对象的感知。与单个单声道音频对象对比，
扩散对象没有明显的精确定位。这个概念用于mpeg
‑
h 3d音频标准的“对象扩散”特性中和ebu adm的“对象扩散”特性中。
13.现有方法的组合也是已知的。例如，ebu adm的“对象范围”特性将创建单声道音频对象的多个副本的概念与添加扩散分量的概念相结合。

技术实现要素：

14.如上所述，已知各种用于表示音频元素的技术。然而，这些已知技术中的大多数仅能够渲染具有空间同质特征（即，音频元素内没有空间变化）或空间扩散特征的音频元素，这对于以令人信服的方式渲染上面给出的示例中的一些来说太有限了。换言之，这些已知技术不允许渲染具有明显的空间异质特征的音频元素。
15.创建空间异质音频元素的概念的一种方式是通过创建多个个体单声道音频对象（本质上是个体音频源）的空间分布集群，并且将多个个体单声道音频对象在某个更高级别（例如，使用场景图或其它编组机制）链接在一起。然而，在许多情况下，特别是对于高度异质的音频元素（即，包含许多个体声源的音频元素，诸如上面列出的示例），这不是有效的解决方案。此外，在要渲染的音频元素是实时捕获的内容的情况下，分别记录形成音频元素的多个音频源中的每一个也可能是不可行或不切实际的。
16.因此，需要一种改进的方法来提供空间异质音频元素的有效表示和空间异质音频元素的有效动态6自由度（6dof）渲染。特别是，希望使听众所感知的音频元素的大小（例如，宽度或高度）对应于不同的收听位置和/或取向，并且将感知的空间特征保持在感知大小之内。
17.本公开的实施例允许空间异质音频元素的有效表示和有效动态6dof渲染，这为音频元素的听众提供与该听众所处的虚拟环境在空间和概念上一致的接近真实的声音体验。
18.空间异质音频元素的这种有效动态表示和/或渲染对于内容创建者将会非常有用，他们将能够以非常有效的方式将空间丰富的音频元素结合到6dof场景中，以用于虚拟现实（vr）、增强现实（ar）或混合现实（mr）应用。
19.在本公开的一些实施例中，空间异质音频元素被表示为小数量的（例如，等于或多于2个但通常少于或等于6个）音频信号的组，这些音频信号组合起来提供音频元素的空间图像。例如，空间异质音频元素可被表示为具有相关联的元数据的立体声信号。
20.此外，在本公开的一些实施例中，渲染机制可实现空间异质音频元素的动态6dof渲染，使得随着空间异质音频元素的听众的位置和/或取向改变以受控的方式修改音频元素的感知空间范围，同时保留空间异质音频元素的异质空间特征。空间范围的这种修改可取决于空间异质音频元素的元数据以及听众相对于空间异质音频元素的位置和/或取向。
21.在一个方面，存在一种用于为用户渲染空间异质音频元素的方法。在一些实施例中，该方法包括获取表示空间异质音频元素的两个或更多音频信号，其中，所述音频信号的组合提供空间异质音频元素的空间图像。该方法还包括获取与空间异质音频元素相关联的元数据。元数据可包括指定空间异质音频元素的空间范围的空间范围信息。该方法进一步包括使用以下信息渲染音频元素：i）空间范围信息和ii）指示用户相对于空间异质音频元素的位置（例如虚拟位置）和/或取向的定位信息。
22.在另一方面，提供一种计算机程序。计算机程序包括指令，所述指令当被处理电路
执行时导致处理电路执行上述方法。在另一方面，提供一种载体，该载体包含计算机程序。该载体是电子信号、光信号、无线电信号和计算机可读存储介质之一。
23.在另一方面，提供一种用于为用户渲染空间异质音频元素的设备。该设备被配置为：获取表示空间异质音频元素的两个或更多音频信号，其中，所述音频信号的组合提供空间异质音频元素的空间图像；获取与空间异质音频元素相关联的元数据，元数据包括指示空间异质音频元素的空间范围的空间范围信息；以及使用以下信息渲染空间异质音频元素：i）空间范围信息和ii）指示用户相对于空间异质音频元素的位置（例如虚拟位置）和/或取向的定位信息。
24.在一些实施例中，该设备包括计算机可读存储介质；以及耦合到计算机可读存储介质的处理电路，其中，处理电路被配置为导致该设备执行本文中描述的方法。
25.本公开的实施例提供至少以下两个优点。
26.与使用相关联的“大小”、“扩展”或“扩散”参数来延展单声道音频对象的“大小”（得到空间同质音频元素）的已知解决方案相比，本公开的实施例实现具有明显的空间异质特征的音频元素的表示和6dof渲染。
27.与将空间异质音频元素表示为个体单声道音频对象的集群的已知解决方案相比，基于本公开的实施例的空间异质音频元素的表示就表示、传输以及渲染复杂性而论更有效。
附图说明
28.结合到本文中并形成说明书的一部分的附图示出各种实施例。
29.图1示出根据一些实施例的空间异质音频元素的表示。
30.图2示出根据一些实施例的空间异质音频元素的表示的修改。
31.图3a、图3b和图3c示出根据一些实施例的修改空间异质音频元素的空间范围的方法。
32.图4示出根据一些实施例的用于渲染空间异质音频元素的系统。
33.图5a和图5b示出根据一些实施例的虚拟现实（vr）系统。
34.图6a和图6b示出根据一些实施例的确定听众的取向的方法。
35.图7a、图7b和图8示出修改虚拟扬声器的布置的方法。
36.图9示出头部相关传递函数（hrtf）滤波器的参数。
37.图10示出渲染空间异质音频元素的过程的概览。
38.图11是示出根据一些实施例的过程的流程图。
39.图12是根据一些实施例的设备的框图。
具体实施方式
40.图1示出空间异质音频元素101的表示。在一个实施例中，空间异质音频元素可被表示为立体声对象。立体声对象可包括2声道立体声（例如，左和右）信号和相关联的元数据。立体声信号可使用立体声麦克风设置从真实音频元素（例如，人群、繁忙公路、海滩）的实际立体声记录获取，或者通过混合（例如，立体声声像）个体（或记录的或生成的）音频信号从人工创造获取。
41.相关联的元数据可提供关于空间异质音频元素101及其表示的信息。如图1中所示，元数据可包含以下信息中的至少一项或多项：（1）空间异质音频元素的概念空间中心的位置p1；（2）空间异质音频元素的空间范围（例如，空间宽度w）；（3）用于记录空间异质音频元素的麦克风102和103（或虚拟或真实麦克风）的设置（例如，间距s和取向α）；（4）麦克风102和103的类型（例如，全向、心形、八字形）；（5）麦克风102和103与空间异质音频元素101之间的关系—例如，音频元素101的概念中心的位置p1与麦克风102和103的位置p2之间的距离d，以及麦克风102和103相对于空间异质音频元素101的参考轴（例如，y轴）的取向（例如，取向α）；（6）默认收听位置（例如，位置p2）；以及（7）p1与p2之间的关系（例如，距离d）。
42.空间异质音频元素101的空间范围可被提供为绝对大小（例如，以米为单位）或相对大小（例如，相对于诸如捕获或默认观察位置之类的参考位置的角宽度）。也可将空间范围指定为单个值（例如，指定单个维度中的空间范围或指定要用于所有维度的空间范围）或多个值（例如，指定用于不同维度的分别的空间范围）。
43.在一些实施例中，空间范围可以是空间异质音频元素101（例如，喷泉）的实际物理大小/维度。在其它实施例中，空间范围可表示听众所感知的空间范围。例如，如果音频元素是海洋或河流，则听众无法感知海洋或河流的全部宽度/维度，而只能感知靠近听众的海洋或河流的一部分。在这种情况下，听众只会听到来自海洋或河流的某个空间区的声音，而且因此音频元素可被表示为听众所感知的空间宽度。
44.图2示出基于听众104的位置的动态改变的空间异质音频元素101的表示的修改。在图2中，听众104最初位于虚拟位置a和初始虚拟取向（例如，从听众104到空间异质音频元素101的竖直方向）。位置a可以是空间异质音频元素101的元数据中指定的默认位置（同样，听众104的初始取向可以等于元数据中指定的默认取向）。假设听众的初始位置和取向与默认值匹配，那么可将表示空间异质音频元素101的立体声信号不经任何修改地提供给听众104，并且因此听众104将体验空间异质音频元素101的默认空间音频表示。
45.当听众104从虚拟位置a移动到更接近空间异质音频元素101的虚拟位置b时，期望基于听众104的位置的改变来改变听众104所感知的音频体验。因此，期望将听众104在位置b所感知的空间异质音频元素101的空间宽度w
b
指定为比听众104在虚拟位置a所感知的音频元素101的空间宽度w
a
更宽。类似地，期望将听众104在位置c所感知的音频元素101的空间宽度w
c
指定为比空间宽度w
a
更窄。
46.因此，在一些实施例中，基于听众相对于空间异质音频元素的位置和/或取向以及空间异质音频元素的元数据（例如，指示相对于空间异质音频元素的默认位置和/或取向的信息），更新听众所感知的空间异质音频元素的空间范围。如上面所解释的，空间异质音频元素的元数据可包含关于空间异质音频元素的默认空间范围的空间范围信息、空间异质音频元素的概念中心的位置、以及默认位置和/或取向。通过基于对听众的位置和取向相对于默认位置和默认取向的改变的检测来修改默认空间范围，可获取修改的空间范围。
47.在其它实施例中，空间异质广阔音频元素（例如，河流、海洋）的表示仅表示该空间
异质广阔音频元素的可感知区。在这样的实施例中，可以如图3a
‑
3c中所示的不同方式修改默认空间范围。如图3a和图3b中所示，随着听众104沿着空间异质广阔音频元素301移动，空间异质广阔音频元素301的表示可与听众104一起移动。因此，渲染给听众104的音频基本上独立于听众104相对于特定轴（例如，图3a中的水平轴）的位置。在这种情况下，如图3c上所示，可仅基于听众104和空间异质广阔音频元素301之间的垂直距离d与听众104和空间异质广阔音频元素301之间的参考垂直距离d的比较来修改听众104所感知的空间范围。参考垂直距离d可从空间异质广阔音频元素301的元数据中获取。
48.例如，参考图3c，听众104所感知的修改的空间范围可根据se=re*f(d,d)的函数来确定，其中se是修改的空间范围，re是从空间异质广阔音频元素301的元数据获取的默认（或参考）空间范围，d是空间异质广阔音频元素301与听众104的当前位置之间的垂直距离，d是空间异质广阔音频元素301与元数据中指定的默认位置之间的垂直距离，并且f是定义具有参数d和d的曲线的函数。函数f可采取多种形状，诸如线性关系或非线性曲线。在图3a中示出该曲线的示例。
49.该曲线可表明：空间异质广阔音频元素301的空间范围在距空间异质广阔音频元素301非常大的距离处接近于零，并且在接近于零的距离处接近于180度。在空间异质广阔音频元素301表示如海洋之类的非常大的现实生活元素的情况下，如图3a中所示，曲线可以是这样的，空间范围随着听众移近海洋而逐渐增加（当听众到达海岸时达到180度）。在空间异质广阔音频元素301表示如喷泉之类的较小的现实生活元素的情况下，曲线可能是强非线性的，使得空间范围在距空间异质广阔音频元素301大的距离处很窄，但在空间异质广阔音频元素301附近很快变得更宽。
50.函数f还可取决于听众对音频元素的观察角度，尤其是当空间异质广阔音频元素301小时。
51.可将曲线作为空间异质广阔音频元素301的元数据的一部分提供，或者可在音频渲染器中存储或提供该曲线。希望实现空间异质广阔音频元素301的空间范围的修改的内容创建者可被给予基于空间异质广阔音频元素301的期望渲染在曲线的各种形状之间的选择。
52.图4示出根据一些实施例的用于渲染空间异质音频元素的系统400。系统400包含控制器401、用于左音频信号451的信号修改器402、用于右音频信号452的信号修改器403、用于左音频信号451的扬声器404和用于右音频信号452的扬声器405。左音频信号451和右音频信号452表示在默认位置并且在默认取向的空间异质音频元素。虽然图4中仅示出两个音频信号、两个修改器和两个扬声器，但是这仅出于说明目的并且不以任何方式限制本公开的实施例。此外，即使图4示出系统400分别接收和修改左音频信号451和右音频信号452，系统400也可接收包括左音频信号451和右音频信号452的内容的单个立体声信号，并且修改立体声信号，而不必分别修改左音频信号451和右音频信号452。
53.控制器401可被配置为接收一个或多个参数，并且触发修改器402和403基于接收的参数对左音频信号451和右音频信号452执行修改。在图4中所示的实施例中，接收的参数是（1）关于空间异质音频元素的听众的位置和/或取向的信息453和（2）空间异质音频元素的元数据454。
54.在本公开的一些实施例中，可从包括在图5a中所示的虚拟现实（vr）系统500中的
一个或多个传感器提供信息453。如图5a中所示，vr系统500被配置为由用户佩戴。如图5b中所示，vr系统500可包括取向感测单元501、位置感测单元502和耦合到系统400的控制器401的处理单元503。取向感测单元501被配置为检测听众的取向的改变，并且将关于检测到的改变的信息提供给处理单元503。在一些实施例中，给定检测到的由取向感测单元501所检测的取向改变，处理单元503确定（相对于某个坐标系的）绝对取向。也可能存在不同的系统来确定取向和位置，例如使用灯塔追踪器（激光雷达）的htc vive系统。在一个实施例中，给定检测到的取向改变，取向感测单元501可确定（相对于某个坐标系的）绝对取向。在这种情况下，处理单元503可简单地复用来自取向感测单元501的绝对取向数据和来自位置感测单元502的绝对位置数据。在一些实施例中，取向感测单元501可包括一个或多个加速度计和/或一个或多个陀螺仪。
55.图6a和图6b示出确定听众的取向的示例性方法。
56.在图6a中，听众104的默认取向是在x轴的方向上。随着听众104相对于x
‑
y平面抬起他/她的头部，取向感测单元501检测相对于x
‑
y平面的角度θ。取向感测单元501还可检测听众104相对于不同轴的取向的变化。例如，在图6b中，随着听众104相对于x轴旋转他/她的头部，取向感测单元501检测相对于x轴的角度
ɸ
。类似地，当听众围绕x轴转动他/她的头部时得到的相对于y
‑
z平面的角度ψ可由取向感测单元501检测。取向感测单元501所检测的这些角度θ、
ɸ
和ψ表示听众104的取向。
57.返回参考图5b，除了取向感测单元501之外，vr系统500可进一步包括位置感测单元502。位置感测单元502确定如图2中所示的听众104的位置。例如，位置感测单元502可检测听众104的位置，并且指示检测到的位置的位置信息可以经由位置感测单元502提供给控制器401，使得当听众104从位置a移动到位置b时，空间异质音频元素101的中心与听众104之间的距离可由控制器401确定。
58.因此，可将取向感测单元501所检测的角度θ、
ɸ
和ψ以及位置感测单元502所检测的听众104的位置提供给vr系统500中的处理单元503。处理单元503可向系统400的控制器401提供关于检测的角度和检测的位置的信息。给定1）空间异质音频元素101的绝对位置和取向、2）空间异质音频元素101的空间范围和3）听众104的绝对位置，可以评估从听众104到空间异质音频元素101的距离以及听众104所感知的空间宽度。
59.返回参考图4，元数据454可包括各种信息。上面提供了元数据454中包括的信息的示例。在接收到信息453和元数据454时，控制器401触发修改器402和403修改左音频信号451和右音频信号452。修改器402和403基于从控制器401提供的信息修改左音频信号451和右音频信号452，并且将修改的音频信号输出到扬声器404和405，使得听众感知空间异质音频元素的修改的空间范围。
60.渲染空间异质音频元素存在渲染空间异质音频元素的多种方式。渲染空间异质音频元素的一种方式是通过将声道中每一个表示为虚拟扬声器，并且例如使用声像技术将虚拟扬声器双耳渲染给听众或将它们渲染到物理扬声器上。例如，可生成表示空间异质音频元素的两个音频信号，就好像它们是从固定位置的两个虚拟扬声器输出一样。然而，在这种配置中，从两个固定扬声器到听众的声学传输时间会随着听众移动而改变。由于从两个固定扬声器输出的两个音频信号之间的相关性和时间关系，声学传输时间的这种变化会导致空间异质音频元素的空间
图像的严重着色和/或失真。
61.因此，在图7a中所示的实施例中，随着听众104从位置a移动到位置b而动态更新虚拟扬声器701和702的位置，同时将虚拟扬声器701和702保持与听众104等距。这个概念允许听众104将感知的由虚拟扬声器701和702渲染的音频匹配从听众104的角度来看的空间异质音频元素101的位置和空间范围。如图7a中所示，可控制虚拟扬声器701和702之间的角度，使得从听众104的角度来看，它总是对应于空间异质音频元素101的空间范围（例如，空间宽度）。换句话说，即使虚拟扬声器701和702与位置b处的听众104之间的距离和虚拟扬声器701和702与位置a处的听众104之间的距离相同，虚拟扬声器701和702之间的角度随着听众从位置a移动到位置b而从θ
a
变为θ
b
。这种角度的改变对应于听众104所感知的空间宽度减小。
62.也可基于听众104的头部姿势控制虚拟扬声器701和702的位置和取向。图8示出可如何基于听众104的头部姿势控制虚拟扬声器701和702的示例。在图8中所示的实施例中，随着听众104倾斜他/她的头部，控制虚拟扬声器701和702的位置，使得立体声信号的立体声宽度可对应于空间异质音频元素101的高度或宽度。
63.在本公开的其它实施例中，虚拟扬声器701和702之间的角度可被固定至特定角度（例如，或
‑
30度的标准立体声角度），并且听众104所感知的空间异质音频元素101的空间宽度可通过修改从虚拟扬声器701和702发出的信号来改变。例如，在图7b中，即使当听众104从位置a移动到位置b时，虚拟扬声器701和702之间的角度也保持相同。因此，从听众104的修改的角度来看，虚拟扬声器701和702之间的角度不再对应于空间异质音频元素101的空间范围。然而，因为从虚拟扬声器701和702发出的音频信号被修改，所以空间异质音频元素101的空间范围会被在位置b的听众104不同地感知。这个方法具有以下优点：当空间异质音频元素101的感知空间范围由于听众的位置改变（例如，当靠近或远离空间异质音频元素101时，或者当元数据为不同观察角度指定空间异质音频元素的不同空间范围时）而改变时，不会出现不期望的伪影。
64.在图7b中所示的实施例中，听众104所感知的空间异质音频元素101的空间范围可通过对音频元素101的左右音频信号应用再混合操作来控制。例如，修改的左右音频信号可表示为：以及，或者以矩阵符号表示为其中l和r是音频元素101在其默认表示中的默认左右音频信号，并且l’和r’是在听众104的改变的位置和/或取向处所感知的音频元素101的修改的左右音频信号。h是用于将默认的左右音频信号变换为修改的左右音频信号的变换矩阵。
65.变换矩阵h可取决于听众104相对于空间异质音频元素101的位置和/或取向。此外，变换矩阵h也可基于空间异质音频元素101的元数据中包含的信息（例如，关于用于记录音频信号的麦克风的设置的信息）来确定。
66.可使用许多不同的混合算法及其组合来实现变换矩阵h。在一些实施例中，变换矩阵h可通过已知用于加宽和/或缩窄立体声信号的立体声图像的算法中的一个或多个来实现。当空间异质音频元素的听众靠近或远离空间异质音频元素时，该算法可适合用于修改
空间异质音频元素的感知立体声宽度。
67.这种算法的一个示例是将立体声信号分解为和信号和差信号（也经常称为“中”和“侧”信号），并且改变这两个信号的平衡以实现音频元素的立体声图像的可控宽度。在一些实施例中，空间异质音频元素的原始立体声表示可能已经是和
‑
差（或中
‑
侧）格式的，在这种情况下可能不需要上述分解步骤。
68.例如，参考图2，在参考位置a，和信号和差信号可按等比例混合（在左右信号中差信号的极性相反），得到默认的左右信号。然而，在比位置a更靠近空间异质音频元素101的位置b，给予差信号比和信号更多的权重，得到比默认图像更宽的空间图像。另一方面，在比位置a更远离空间异质音频元素101的位置c，给予和信号比差信号更多的权重，得到更窄的空间图像。因此，通过控制和信号与差信号之间的平衡，可响应于听众104和空间异质音频元素101之间的距离的改变来控制感知空间宽度。
69.上述技术还可用于当听众与空间异质音频元素之间的相对角度改变时，即听众的观察角度改变时，修改空间异质音频元素的空间宽度。图2示出用户104位置d，它与空间异质音频元素101的距离与参考位置a相同，但角度不同。如图2中所示，在位置d，与在位置a相比，可以预期更窄的空间图像。这种不同的空间图像可通过改变和信号和差信号的相对比例来渲染。具体而言，较少的差信号将用于位置d，从而得到较窄的图像。
70.在本公开的一些实施例中，去相关技术可用于增加立体声信号的空间宽度，如美国专利no.7440575、美国专利公布2010/0040243a1以及wipo专利公布2009102750a1中所述，将其全部内容通过这个引用结合于本文。
71.在本公开的其它实施例中，可使用加宽和/或缩窄立体声图像的不同技术，如美国专利no.8660271、美国专利公布no.2011/0194712、美国专利no.6928168、美国专利no.5892830、美国专利公布no.2009/0136066、美国专利no.9398391b2、美国专利no.7440575和德国专利公布de3840766a1中所述，将其全部内容通过这个引用结合于本文。
72.注意，再混合处理（包含上述示例算法）可包括滤波操作，使得通常变换矩阵h是复矩阵并且是频率相关的。可在时域中应用该变换，包括潜在的滤波操作（卷积），或者在变换域（例如离散傅立叶变换（dft）或修改的离散余弦变换（mdct）域）中以类似形式应用于变换域信号上。
73.在一些实施例中，可使用单个头部相关传递函数（hrtf）滤波器对来渲染空间异质音频元素。图9示出hrtf滤波器的方位角（φ）和仰角（2）参数。如上所述，当空间异质音频元素由左信号l和右信号r表示时，基于听众的取向和/或位置的改变而修改的左右信号可表示为修改的左信号l’和修改的右信号r’，其中，并且h是变换矩阵。在这些实施例中，hrtf滤波被应用于修改的左信号l’和修改的右信号r’，使得可将左耳音频信号e
l
和右耳音频信号e
r
输出给听众。e
l
和e
r
可表示如下：hrtf
l
是对应于虚拟点音频源的左耳hrtf滤波器，该虚拟点音频源位于相对于音频源的听众的特定方位角（）和特定仰角（）处。类似地，hrtf
r
是对应于虚拟点音频源的
右耳hrtf滤波器，该虚拟点音频源位于相对于音频源的听众的特定方位角（）和特定仰角（）处。x、y和z表示听众相对于默认位置（又称“默认观察位置”）的位置。在一个具体实施例中，修改的左信号l’和修改的右信号r’被渲染在同一位置，即并且。
74.在一些实施例中，在双耳渲染或转换为用于具体虚拟扬声器设置的多声道格式之前或者作为其一部分，可使用ambisonics（高保真度立体声响复制）格式作为中间格式。例如，在上述实施例中，修改的左右音频信号l’和r’可被转换到ambisonics域，然后被双耳渲染或用于扬声器。空间异质音频元素可以以不同的方式转换到ambisonics域。例如，可使用虚拟扬声器渲染空间异质音频元素，其中每个虚拟扬声器被视为点源。在这种情况下，虚拟扬声器中每一个都可使用已知方法转换到ambisonics域。
75.在一些实施例中，可使用更先进的技术来计算hrtf，如2016年1月出版的题为“efficient hrtf
‑
based spatial audio for area and volumetric sources”的ieee transactions on visualization and computer graphics 22(4):1
‑
1中所描述。
76.在本公开的一些实施例中，空间异质音频元素可表示包括多个声源的单一物理实体（例如，具有发动机和排气装置声源的汽车）而不是环境元素（例如，海洋或河流），或者由多个物理实体组成的占据场景中某个区域的概念实体（例如，人群）。上述渲染空间异质音频元素的方法也可适用于包括多个声源并且具有独特的空间布局的这种单个物理实体。例如，当听众朝向车辆站在车辆的驾驶员侧，并且车辆产生在听众左侧的第一声音（例如，来自车辆前侧的发动机声音）和在听众右侧的第二声音（例如，来自车辆后侧的排气装置声音）时，听众可基于第一和第二声音感知车辆的独特的空间音频布局。在这种情况下，即使听众在车辆周围移动并从车辆的对侧（例如，车辆的前排乘客侧）观察它，也期望允许听众感知独特的空间布局。因此，在本公开的一些实施例中，当听众从一侧（例如，车辆的驾驶员侧）移动到对侧（例如，车辆的前排乘客侧）时，交换左声道和右声道。换句话说，当听众从一侧移动到对侧时，将空间异质音频元素的空间表示围绕车辆的轴进行镜像。
77.然而，如果在听众从一侧移动到对侧的时刻瞬时交换左右声道，则听众可能感知到空间异质音频元素的空间图像的不连续。因此，在一些实施例中，当听众处于两侧之间的小过渡区域中时，可将少量去相关信号添加到修改的立体声混合中。
78.在本公开的一些实施例中，提供防止空间异质音频元素的渲染被折叠（collapse）为单声道的附加特征。例如，参考图2，如果空间异质音频元素101是仅在单一方向（例如，图2中的水平方向）上具有空间范围的一维音频元素，则当听众104移动到位置e时，空间异质音频元素101的渲染会被折叠为单声道，因为在位置e不会感知到空间异质音频元素101的空间范围。这可能不是期望的，因为对于听众104来说，单声道可能听起来不自然。为了防止这种折叠，本公开的实施例提供空间宽度的下限或者位置e周围的限定小区域，以便防止在限定小区域内的空间范围的修改。替代地或附加地，可通过将少量去相关信号添加到小过渡区域中渲染的音频信号来防止这种折叠。这确保不会发生不自然折叠为单声道。
79.在本公开的一些实施例中，空间异质音频元素的元数据也可包含指示当听众的位置和/或取向改变时是否应该应用立体声图像的不同类型的修改的信息。具体而言，对于特定类型的空间异质音频元素，可能不希望基于听众的位置和/或取向的改变来改变空间异质音频元素的空间宽度，或者随着听众从空间异质音频元素的一侧移动到空间异质音频元素的对侧而交换左右声道。此外，对于特定类型的音频元素，可能期望只沿一个维度修改空
间异质音频元素的空间范围。
80.例如，人群通常占据二维空间而不是沿着直线排列。因此，如果仅在一个维度中指定空间范围，那么当用户在人群周围移动时，如果人群空间异质音频元素的立体声宽度显著变窄，将是非常不自然的。此外，来自人群的空间和时间信息通常是随机的，并且不是非常取向特定，因此人群的单一立体声记录可能完全适合在任何相对的用户角度表示它。因此，人群空间异质音频元素的元数据可包含指示如下内容的信息：即使人群空间异质音频元素的听众的相对位置改变，也应该禁用人群空间异质音频元素的立体声宽度的修改。替代地或附加地，元数据还可包括指示在听众的相对位置改变的情况下应当应用立体声宽度的具体修改的信息。上面提及的信息也可包含在仅表示诸如公路、海洋和河流之类的巨大的现实生活元素的可感知区的空间异质音频元素的元数据中。
81.在本公开的其它实施例中，特定类型的空间异质音频元素的元数据可包含指定空间异质音频元素的空间范围的位置相关的、方向相关的或距离相关的信息。例如，对于表示人群的声音的空间异质音频元素，该空间异质音频元素的元数据可包括指定如下内容的信息：当空间异质音频元素的听众位于第一参考点时空间异质音频元素的第一特定空间宽度，以及当空间异质音频元素的听众位于不同于第一参考点的第二参考点时空间异质音频元素的第二特定空间宽度。以这种方式，能够有效地表示没有观察角度特定的听觉事件但有观察角度特定的宽度的空间异质音频元素。
82.虽然使用沿一维或二维具有空间异质特征的空间异质音频元素来解释在前面段落中描述的本公开的实施例，但是通过为附加维度添加对应的立体声信号和元数据，本公开的实施例同样可适用于沿不止两个维度具有空间异质特征的空间异质音频元素。换言之，本公开的实施例可适用于由多声道立体声信号、即、使用立体声声像技术的多声道信号（因此整个谱包含立体声、5.1、7.x、22.2、vbap等）表示的空间异质音频元素。附加地或替代地，空间异质音频元素可表示成一阶ambisonics b
‑
格式表示。
83.在本公开的进一步的实施例中，通过例如使用联合立体声编码技术将表示空间异质音频元素的立体声信号编码，以便利用信号中的冗余。与将空间异质音频元素作为多个个体对象的集群来编码相比，这个特征提供了进一步的优势。
84.在本公开的实施例中，要表示的空间异质音频元素在空间上是富裕的，但是各种音频源在空间异质音频元素内的准确定位并不关键。然而，本公开的实施例也可用于表示包含一个或多个关键音频源的空间异质音频元素。在这种情况下，关键音频源可被明确地表示为个体对象，这些个体对象在空间异质音频元素的渲染中被叠加在空间异质音频元素上。这种情况的示例是其中有一个语音或声音始终突出（例如，某人通过扩音器讲话）的人群，或者有吠叫的狗的海滩场景。
85.图10示出根据一些实施例的渲染空间异质音频元素的过程1000。步骤s1002包括获取用户的当前位置和/或当前取向。步骤s1004包括获取关于空间异质音频元素的空间表征的信息。步骤s1006包括在用户的当前位置和/或当前取向处评估以下信息：到空间异质音频元素的方向和距离；空间异质音频元素的感知空间范围；和/或虚拟音频源相对于用户的位置。步骤s1008包括评估虚拟音频源的渲染参数。渲染参数可包括当向耳机递送时用于虚拟音频源中每一个的hr滤波器的配置信息，以及当通过扬声器配置递送时用于虚拟音频源中每一个的扬声器声像系数。步骤s1010包括获取多声道音频信号。步骤s1012包括基于
多声道音频信号和渲染参数渲染虚拟音频源，并且输出耳机或扬声器信号。
86.图11是示出根据实施例的过程1100的流程图。过程1100可在步骤s1102开始。
87.步骤s1102包括获取表示空间异质音频元素的两个或更多音频信号，其中，音频信号的组合提供空间异质音频元素的空间图像。步骤s1104包括获取与空间异质音频元素相关联的元数据，元数据包括指示空间异质音频元素的空间范围的空间范围信息。步骤s1106包括使用以下信息渲染空间异质音频元素：i）空间范围信息和ii）指示用户相对于空间异质音频元素的位置（例如虚拟位置）和/或取向的定位信息。
88.在一些实施例中，空间异质音频元素的空间范围对应于在相对于空间异质音频元素的第一虚拟位置或第一虚拟取向处所感知的空间异质音频元素在一个或多个维度上的大小。
89.在一些实施例中，空间范围信息指定空间异质音频元素的物理大小或感知大小。
90.在一些实施例中，渲染空间异质音频元素包括：基于用户相对于空间异质音频元素（例如，相对于空间异质音频元素的概念空间中心）的位置和/或用户相对于空间异质音频元素的取向向量的取向，修改两个或更多音频信号中的至少一个。
91.在一些实施例中，元数据进一步包括：i）麦克风设置信息，所述麦克风设置信息指示麦克风（例如，虚拟麦克风）之间的间距、麦克风相对于默认轴的取向和/或麦克风的类型，ii）第一关系信息，所述第一关系信息指示麦克风与空间异质音频元素之间的距离（例如，麦克风与空间异质音频元素的概念空间中心之间的距离）和/或虚拟麦克风相对于空间异质音频元素的轴的取向，和/或iii）第二关系信息，所述第二关系信息指示相对于空间异质音频元素（例如，相对于空间异质音频元素的概念空间中心）的默认位置和/或默认位置与空间异质音频元素之间的距离。
92.在一些实施例中，渲染空间异质音频元素包括产生修改的音频信号，两个或更多音频信号表示在相对于音频元素的第一虚拟位置和/或第一虚拟取向处所感知的空间异质音频元素，修改的音频信号用于表示在相对于空间异质音频元素的第二虚拟位置和/或第二虚拟取向处所感知的空间异质音频元素，并且用户的位置对应于第二虚拟位置和/或用户的取向对应于第二虚拟取向。
93.在一些实施例中，两个或更多音频信号包括左音频信号（l）和右音频信号（r），渲染音频元素包括产生修改的左信号（l’）和修改的右信号（r’），[l' r']^t=h
×
[l r]^t，其中h为变换矩阵，而且该变换矩阵根据获取的元数据和定位信息来确定。
[0094]
在一些实施例中，渲染空间异质音频元素的步骤包括产生一个或多个修改的音频信号并且双耳渲染包含修改的音频信号中的至少一个在内的音频信号。
[0095]
在一些实施例中，渲染空间异质音频元素包括：产生第一输出信号（e
l
）和第二输出信号（e
r
），其中e
l
=l’*hrtf
l
，其中hrtf
l
是用于左耳的头部相关传递函数（或对应的脉冲响应），并且e
r
=r’*hrtf
r
，其中hrtf
r
是用于右耳的头部相关传递函数（或对应的脉冲响应）。两个输出信号的生成可以在时域中完成，其中滤波操作（卷积）使用脉冲响应，或者通过应用hrtf在如离散傅立叶变换（dft）域之类的任何变换域中完成。
[0096]
在一些实施例中，获取两个或更多音频信号进一步包括：获取多个音频信号，将多个音频信号转换为ambisonics格式，以及基于转换后的多个音频信号生成所述两个或更多音频信号。
[0097]
在一些实施例中，与空间异质音频元素相关联的元数据指定：空间异质音频元素的概念空间中心，和/或空间异质音频元素的取向向量。
[0098]
在一些实施例中，渲染空间异质音频元素的步骤包括产生一个或多个修改的音频信号，并且将包括修改的音频信号中的至少一个在内的音频信号渲染到物理扬声器上。
[0099]
在一些实施例中，包括至少一个修改的音频信号在内的音频信号被渲染为虚拟扬声器。
[0100]
图12是根据一些实施例的设备1200的框图，用于实现图4中所示的系统400。如图12中所示，设备1200可包括：处理电路（pc）1202，所述处理电路可包括一个或多个处理器（p）1255（例如，通用微处理器和/或一个或多个其它处理器，诸如专用集成电路（asic）、现场可编程门阵列（fpga）等等），这些处理器可共处于单个外壳中或单个数据中心中，或者可在地理上分布；网络接口1248，所述网络接口包括发送器（tx）1245和接收器（rx）1247，用于使设备1200能够向连接到网络接口1248所连接的网络110（例如，因特网协议（ip）网络）的其它节点发送数据和从所述其它节点接收数据；以及本地存储单元（又称“数据存储系统”）1208，其可包括一个或多个非易失性存储装置和/或一个或多个易失性存储装置。在pc 1202包含可编程处理器的实施例中，可提供计算机程序产品（cpp）1241。cpp 1241包含计算机可读介质（crm）1242，crm 1242存储包括计算机可读指令（cri）1244的计算机程序（cp）1243。crm 1242可以是非暂时性计算机可读介质，诸如磁介质（例如，硬盘）、光介质、存储器装置（例如，随机存取存储器、闪速存储器）等等。在一些实施例中，计算机程序1243的cri 1244被配置为使得当由pc 1202执行时，cri导致设备1200执行本文所描述的步骤（例如，本文参考流程图所描述的步骤）。在其它实施例中，设备1200可被配置为执行本文所述的步骤而不需要代码。也就是说，例如，pc 1202可仅由一个或多个asic组成。因此，可在硬件和/或软件中实现本文所述的实施例的特征。
[0101]
实施例的概述a1. 一种用于为用户渲染空间异质音频元素的方法，该方法包括：获取表示空间异质音频元素的两个或更多音频信号，其中，音频信号的组合提供空间异质音频元素的空间图像；获取与空间异质音频元素相关联的元数据，元数据包括指示空间异质音频元素的空间范围的空间范围信息；使用i）空间范围信息和ii）指示用户相对于空间异质音频元素的位置（例如虚拟位置）和/或取向的定位信息来修改音频信号中的至少一个，从而产生至少一个修改的音频信号；以及使用（一个或多个）修改的音频信号渲染空间异质音频元素。
[0102]
a2. 实施例a1的方法，其中，空间异质音频元素的空间范围对应于在相对于空间异质音频元素的第一虚拟位置或第一虚拟取向处所感知的空间异质音频元素在一个或多个维度上的大小。
[0103]
a3. 实施例a1或a2的方法，其中，空间范围信息指定空间异质音频元素的物理大小或感知大小。
[0104]
a4. 实施例a3的方法，其中，修改音频信号中的至少一个包括：基于用户相对于空间异质音频元素（例如，相对于空间异质音频元素的概念空间中心）的位置和/或用户相对于空间异质音频元素的取向向量的取向，修改音频信号中的至少一个。
[0105]
a5. 实施例a1
‑
a4中任一项的方法，其中，元数据进一步包括：i）麦克风设置信息，所述麦克风设置信息指示麦克风（例如，虚拟麦克风）之间的间距、麦克风相对于默认轴的
取向和/或麦克风的类型，ii）第一关系信息，所述第一关系信息指示麦克风与空间异质音频元素之间的距离（例如，麦克风与空间异质音频元素的概念空间中心之间的距离）和/或虚拟麦克风相对于空间异质音频元素的轴的取向，和/或iii）第二关系信息，所述第二关系信息指示相对于空间异质音频元素（例如，相对于空间异质音频元素的概念空间中心）的默认位置和/或默认位置与空间异质音频元素之间的距离。
[0106]
a6. 实施例a1
‑
a5中任一项的方法，其中，两个或更多音频信号表示在相对于空间异质音频元素的第一虚拟位置和/或第一虚拟取向处所感知的空间异质音频元素，修改的音频信号用于表示在相对于音频元素的第二虚拟位置和/或第二虚拟取向处所感知的空间异质音频元素，并且用户的位置对应于第二虚拟位置和/或用户的取向对应于第二虚拟取向。
[0107]
a7. 实施例a1
‑
a6中任一项的方法，其中，两个或更多音频信号包括左音频信号（l）和右音频信号（r），修改的音频信号包括修改的左信号（l’）和修改的右信号（r’），[l' r']
t
=h
×
[l r]
t
，其中h为变换矩阵，而且该变换矩阵根据获取的元数据和定位信息来确定。
[0108]
a8. 实施例a7的方法，其中，渲染空间异质音频元素包括：产生第一输出信号（e
l
）和第二输出信号（e
r
），其中e
l
=l’*hrtf
l
，其中hrtf
l
是用于左耳的头部相关传递函数（或者对应的脉冲响应），并且e
r
=r’*hrtf
r
，其中hrtf
r
是用于右耳的头部相关传递函数（或者对应的脉冲响应）。
[0109]
a9. 实施例a1
‑
a8中任一项的方法，其中，获取两个或更多音频信号进一步包括：获取多个音频信号；将多个音频信号转换为ambisonics格式；以及基于转换后的多个音频信号生成所述两个或更多音频信号。
[0110]
a10. 实施例a1
‑
a9中任一项的方法，其中，与空间异质音频元素相关联的元数据指定：音频元素的概念空间中心，和/或空间异质音频元素的取向向量。
[0111]
a11. 实施例a1
‑
a10中任一项的方法，其中，渲染空间异质音频元素的步骤包括双耳渲染包含至少一个修改的音频信号在内的音频信号。
[0112]
a12. 实施例a1
‑
a10中任一项的方法，其中，渲染空间异质音频元素的步骤包括将包含至少一个修改的音频信号在内的音频信号渲染到物理扬声器上。
[0113]
a13. 实施例a11或a12的方法，其中，包括至少一个修改的音频信号在内的音频信号被渲染为虚拟扬声器。
[0114]
虽然本文（如果有附录，则包括附录）描述了本公开的各种实施例，但是应当理解，它们仅作为示例而非限制来呈现。因此，本公开的广度和范围不应被上述示例性实施例中任一个限制。此外，除非本文另外指明或者以其它方式与上下文明显矛盾，否则本公开涵盖上述元素的所有可能变型的任何组合。
[0115]
此外，虽然上面描述的以及在附图中示出的过程被示为步骤的序列，但是这样做仅仅是为了说明。因此，可以设想，可增加一些步骤，可省略一些步骤，可重新安排步骤的顺序，并且可并行执行一些步骤。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于虚拟现实的有效空间异质音频元素的制作方法

相关文献

最热文献