一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于在虚拟现实环境中呈现音频信号的方法和系统与流程

2022-03-02 03:54:31 来源:中国专利 TAG:

用于在虚拟现实环境中呈现音频信号的方法和系统
1.分案申请的相关信息
2.本案是分案申请。该分案的母案是申请日为2018年12月18日、申请号为201880081625.1、发明名称为“用于在虚拟现实环境中呈现音频信号的方法和系统”的发明专利申请案。
3.相关申请的交叉引用
4.本技术要求以下优先权申请的优先权:2017年12月18日提交的美国临时申请62/599,848(参考:d17086usp1)和2017年12月18日提交的欧洲专利申请17208087.1(参考:d17086ep),所述优先权申请通过引用并入本文。
技术领域
5.本文件涉及在虚拟现实(vr)呈现环境中对听觉视口和/或听音位置之间的转换的高效且一致的处理。


背景技术:

6.虚拟现实(vr)、增强现实(ar)和混合现实(mr)应用发展迅速,以包含可从不同的视点/视角或听音位置欣赏的声源和场景的日益精细的声音模型。两种不同类别的灵活音频表示可以例如用于vr应用:声场表示和基于对象的表示。声场表示是一种基于物理的方法,对听音位置处的入射波前进行编码。例如,诸如b格式或高阶环境立体声(hoa)之类的方法使用球面谐波分解来表示空间波前。基于对象的方法将复杂的听觉场景表示为包括音频波形或音频信号以及可能随时间变化的相关参数或元数据的单个元素的集合。
7.享受vr、ar和mr可以包含用户体验不同的听觉视点或视角。例如,基于房间的虚拟现实可以基于使用6自由度(dof)的机制来提供。图1示出了6自由度交互的示例,所述示例示出了平移运动(向前/向后、向上/向下和向左/向右)和旋转运动(俯仰、偏航和滚动)。与仅限于头部旋转的3自由度球面视频体验不同,为6自由度交互创建的内容除了头部旋转之外,还允许在虚拟环境内导航(例如,在房间内物理行走)。这可以基于位置跟踪器(例如,基于相机的)和方向跟踪器(例如,陀螺仪和/或加速度计)来实现。6自由度跟踪技术可用于高端桌面vr系统(例如,vr、oculus rift、htc vive)以及高端移动vr平台(例如,google tango)。用户对声音或音频源的方向性和空间幅度的体验对于6自由度体验的真实性至关重要,特别是在场景中和虚拟音频源周围导航的体验。
8.可用的音频呈现系统(诸如mpeg-h 3d音频呈现器)通常限于呈现3自由度(即,由听音者的头部运动引起的音频场景的旋转运动)。这种呈现器通常不能处理听音者的听音位置和相关自由度的平移变化。
9.本文件针对的技术问题是提供资源高效的方法和系统,用于处理音频呈现的背景下的平移运动。


技术实现要素:

10.根据一个方面,描述了一种用于在虚拟现实呈现环境中呈现音频信号的方法。所述方法包括从听音者的起始听音位置周围的起始球体上的起始源位置呈现音频源的起始音频信号。此外,所述方法包括确定所述听音者从所述起始听音位置移动到目的地听音位置。另外,所述方法包括基于所述起始源位置来确定所述音频源在所述目的地听音位置周围的目的地球体上的目的地源位置。所述音频源在所述目的地球体上的所述目的地源位置可以通过将所述起始球体上的所述起始源位置投影到所述目的地球体上来确定。该投影可以是例如相对于所述目的地听音位置的透视投影。所述起始球体和所述目的地球体可以具有相同的半径。例如,两个球体可以对应于呈现的背景下的单位球体,例如半径为1米的球体。此外,所述方法包括基于所述起始音频信号来确定所述音频源的目的地音频信号。所述方法进一步包括从所述目的地听音位置周围的所述目的地球体上的所述目的地源位置呈现所述音频源的所述目的地音频信号。
11.根据进一步的方面,描述了一种用于在虚拟现实呈现环境中呈现音频信号的虚拟现实音频呈现器。所述音频呈现器配置为从听音者的起始听音位置周围的起始球体上的起始源位置呈现音频源的起始音频信号。此外,所述虚拟现实音频呈现器配置为确定所述听音者从所述起始听音位置移动到目的地听音位置。另外,所述虚拟现实音频呈现器配置为基于所述起始源位置来确定所述音频源在所述目的地听音位置周围的目的地球体上的目的地源位置。此外,所述虚拟现实音频呈现器配置为基于所述起始音频信号来确定所述音频源的目的地音频信号。所述虚拟现实音频呈现器进一步配置为从所述目的地听音位置周围的所述目的地球体上的所述目的地源位置呈现所述音频源的所述目的地音频信号。
12.根据另一方面,描述了一种用于生成位流的方法。所述方法包括:确定至少一个音频源的音频信号;确定关于所述至少一个音频源在呈现环境内的位置的位置数据;确定指示所述呈现环境内的音频的音频传播特性的环境数据;以及将所述音频信号、所述位置数据和所述环境数据插入到所述位流中。
13.根据进一步的方面,描述了一种音频编码器。所述音频编码器配置为生成位流,所述位流指示至少一个音频源的音频信号;指示所述至少一个音频源在呈现环境内的位置;以及指示指示所述呈现环境内的音频的音频传播特性的环境数据。
14.根据另一方面,描述了位流,其中所述位流指示:至少一个音频源的音频信号;所述至少一个音频源在呈现环境内的位置;以及指示所述呈现环境内的音频的音频传播特性的环境数据。
15.根据进一步的方面,描述了一种用于在虚拟现实呈现环境中呈现音频信号的虚拟现实音频呈现器。所述音频呈现器包括3d音频呈现器,所述3d音频呈现器配置为从听音者在所述虚拟现实呈现环境内的听音位置周围的球体上的源位置呈现音频源的音频信号。此外,所述虚拟现实音频呈现器包括预处理单元,所述预处理单元配置为确定所述听音者在所述虚拟现实呈现环境内的新听音位置。此外,所述预处理单元配置为更新所述音频信号和所述音频源相对于所述新听音位置周围的球体的所述源位置。所述3d音频呈现器配置为从所述新听音位置周围的所述球体上的所述更新源位置呈现所述音频源的所述更新音频信号。
16.根据进一步的方面,描述了一种软件程序。软件程序可以适于在处理器上执行,并
且当在处理器上执行时,适于执行本文件中概述的方法步骤。
17.根据另一方面,描述了一种存储介质。存储介质可以包括软件程序,所述软件程序适于在处理器上执行,并且当在处理器上执行时,适于执行本文件中概述的方法步骤。
18.根据进一步的方面,描述了一种计算机程序产品。当在计算机上执行时,计算机程序可以包括用于执行本文件中概述的方法步骤的可执行指令。
19.应该注意的是,本专利申请中概述的包含其优选实施例的方法和系统可以单独使用或者与本文件中公开的其它方法和系统结合使用。此外,本专利申请中概述的方法和系统的所有方面可以任意组合。特别地,权利要求的特征可以以任意方式彼此组合。
附图说明
20.下面参照附图以示例的方式解释本发明,其中
21.图1a示出了用于提供6自由度音频的示例音频处理系统;
22.图1b示出了6自由度音频和/或呈现环境内的示例情况;
23.图1c示出了从起始音频场景到目的地音频场景的示例转换;
24.图2示出了用于在不同的音频场景之间的转换期间确定空间音频信号的示例方案;
25.图3示出了示例音频场景;
26.图4a示出了响应于音频场景内的听音位置的变化而对音频源的重新映射;
27.图4b示出了示例距离函数;
28.图5a示出了具有非均匀方向性轮廓的音频源;
29.图5b示出了音频源的示例方向性函数;
30.图6示出了具有听觉相关障碍物的示例音频场景;
31.图7示出了听音者的视场和注意力焦点;
32.图8示出了在音频场景内听音位置变化的情况下对环境音频的处理;
33.图9a示出了用于在不同的音频场景之间的转换期间呈现3d音频信号的示例方法的流程图;
34.图9b示出了用于为不同的音频场景之间的转换生成位流的示例方法的流程图;
35.图9c示出了用于在音频场景内的转换期间呈现3d音频信号的示例方法的流程图;以及
36.图9d示出了用于为局部转换生成位流的示例方法的流程图。
具体实施方式
37.如上所述,本文件涉及在3d(三维)音频环境中高效提供6自由度。图1a示出了示例音频处理系统100的框图。诸如体育场之类的声环境110可以包括各种不同的音频源113。体育场内的示例音频源113是个体观众、体育场扬声器、球场上的运动员等。声环境110可以被细分为不同的音频场景111、112。举例来说,第一音频场景111可以对应于主队支持块,而第二音频场景112可以对应于客队支持块。根据听音者在音频环境内位于的位置,听音者将感知来自第一音频场景111的音频源113或者来自第二音频场景112的音频源113。
38.音频环境110的不同的音频源113可以使用音频传感器120来捕获,尤其是使用麦
克风阵列。特别地,音频环境110的一个或多个音频场景111、112可以使用多声道音频信号、一个或多个音频对象和/或高阶环境立体声(hoa)信号来描述。在下文中,假设音频源113与由音频传感器120捕获的音频数据相关联,其中音频数据作为时间的函数(以例如20ms的特定采样率)指示音频信号和音频源113的位置。
39.3d音频呈现器(诸如mpeg-h 3d音频呈现器)通常假设听音者位于音频场景111、112内的特定听音位置。音频场景111、112的不同的音频源113的音频数据通常是在假设听音者位于该特定听音位置的情况下提供的。音频编码器130可以包括配置为对一个或多个音频场景111、112的音频源113的音频数据进行编码的3d音频编码器131。
40.此外,可以提供vr(虚拟现实)元数据,所述vr元数据使听音者能够改变音频场景111、112内的听音位置和/或在不同的音频场景111、112之间移动。编码器130可以包括元数据编码器132,所述元数据编码器配置为对vr元数据进行编码。音频源113的编码vr元数据和编码音频数据可以在组合单元133中组合,以提供指示音频数据和vr元数据的位流140。vr元数据可以例如包括描述音频环境110的声特性的环境数据。
41.可以使用解码器150来解码位流140,以提供(解码的)音频数据和(解码的)vr元数据。用于在允许6自由度的呈现环境180内呈现音频的音频呈现器160可以包括预处理单元161和(传统的)3d音频呈现器162(诸如mpeg-h 3d音频)。预处理单元161可以配置为确定听音者181在听音环境180内的听音位置182。听音位置182可以指示听音者181位于其内的音频场景111。此外,听音位置182可以指示音频场景111内的准确位置。预处理单元161可以进一步配置为基于(解码的)音频数据以及可能基于(解码的)vr元数据来确定当前听音位置182的3d音频信号。然后,可以使用3d音频呈现器162呈现3d音频信号。
42.应该注意的是,在本文件中描述的概念和方案可以以频率变化的方式来指定,可以全局地或以对象/介质相关的方式来定义,可以直接应用于谱域或时域和/或可以硬编码到vr呈现器160中,或者可以经由相应的输入接口来指定。
43.图1b示出了示例呈现环境180。听音者181可以位于起始音频场景111内。出于呈现目的,可以假设音频源113、194放置在听音者181周围的(单一)球体114上的不同的呈现位置。不同的音频源113、194的呈现位置可以随时间改变(根据给出的采样率)。在vr呈现环境180内可能出现不同的情况:听音者181可以执行从起始音频场景111到目的地音频场景112的全局转换191。替代性地或另外,听音者181可以执行到相同的音频场景111内的不同的听音位置182的局部转换192。替代性地或另外,音频场景111可以表现出环境的、听觉相关的特性(诸如墙壁),所述特性可以使用环境数据193来描述,并且当听音位置182发生变化时应该考虑所述特性。替代性地或另外,音频场景111可以包括一个或多个环境音频源194(例如,用于背景噪声),当听音位置182发生变化时,应该考虑所述环境音频源。
44.图1c示出了从具有音频源113a1至an的起始音频场景111到具有音频源113b1至bm的目的地音频场景112的示例全局转换191。音频源113可以由相应的位置间对象特性(坐标、方向性、距离声音衰减函数等)来表征。全局转换191可以在某个转换时间间隔内执行(例如,在5秒、1秒或更短的范围内)。在全局转换191的开始,起始场景111内的听音位置182被标记为“a”。此外,在全局转换191结束时,目的地场景112内的听音位置182被标记为“b”。此外,图1c示出了目的地场景112内在听音位置“b”和听音位置“c”之间的局部转换192。
45.图2示出了在转换时间间隔t期间从起始场景111(或起始视口)到目的地场景112
(或目的地视口)的全局转换191。当听音者181在不同的场景或视口111、112之间切换时,例如在体育场内,可以发生这种转换191。在中间时刻213,听音者181可以位于起始场景111和目的地场景112之间的中间位置。在考虑每个音频源113的声音传播的同时,可以通过确定起始场景111的音频源113a1至an中的每个和目的地场景112的音频源113b1至bm中的每个的贡献来确定将在中间位置和/或中间时刻213呈现的3d音频信号203。然而,这将与相对较高的计算复杂度有关(尤其是在音频源113数量相对较高的情况下)。
46.在全局转换191的开始,听音者181可以位于起始听音位置201。在整个转换191期间,可以相对于起始听音位置201生成3d起始音频信号ag,其中起始音频信号仅取决于起始场景111的音频源113(而不取决于目的地场景112的音频源113)。此外,在全局转换191的开始,可以确定听音者181将在全局转换191结束时到达目的地场景112内的目的地听音位置202。在整个转换191期间,可以相对于目的地听音位置202生成3d目的地音频信号bg,其中目的地音频信号仅取决于目的地场景112的音频源113(而不取决于源场景111的音频源113)。
47.为了在全局转换191期间确定在中间位置和/或在中间时刻213的3d中间音频信号203,在中间时刻213的起始音频信号可以与在中间时刻213的目的地音频信号组合。特别地,从淡出函数211导出的淡出因子或增益可以应用于起始音频信号。淡出函数211可以使得淡出因子或增益“a”随着中间位置到起始场景111的距离的增加减小。此外,从淡入函数212导出的淡入因子或增益可以应用于目的地音频信号。淡入函数212可以使得淡入因子或增益“b”随着中间位置到目的地场景112的距离的减小而增加。图2中示出了示例淡出函数211和示例淡入函数212。中间音频信号然后可以由起始音频信号和目的地音频信号的加权和给出,其中权重分别对应于淡出增益和淡入增益。
48.因此,可以为不同的3自由度视口201、202之间的全局转换191定义淡入函数或曲线212和淡出函数或曲线211。函数211、212可以应用于表示起始音频场景111和目的地音频场景112的预先呈现的虚拟对象或3d音频信号。通过这样做,可以在不同的音频场景111、112之间的全局转换191期间提供一致的音频体验,同时减少了vr音频呈现计算。
49.可以使用起始音频信号和目的地音频信号的线性插值来确定中间位置xi处的中间音频信号203。音频信号的强度f可以由下式给出:f(xi)=a*f(ag) (1-a)*f(bg)。因子“a”和“b=1-a”可以由范数函数a=a()给出,这取决于起始听音位置201、目的地听音位置202和中间位置。作为函数的替代,可以将查找表a=[1,...,0]提供给不同的中间位置。
[0050]
在全局转换191期间,可以考虑附加效果(例如多普勒效果和/或混响)。函数211、212可以由内容提供商调整,例如以反映艺术意图。关于函数211、212的信息可以作为元数据包含在位流140内。因此,编码器130可以配置为提供关于淡入函数212和/或淡出函数211的信息,作为位流140内的元数据。替代性地或另外,音频呈现器160可以应用存储在音频呈现器160处的函数211、212。
[0051]
标志可以从听音者向呈现器160,尤其是向vr预处理单元161发送信号,以向呈现器160指示将执行从起始场景111到目的地场景112的全局转换191。标志可以触发本文件中描述的音频处理,用于在转换阶段生成中间音频信号。标志可以通过相关信息(例如,经由新视口或听音位置202的坐标)显式或隐式地发送信号。标志可以从任何数据接口侧发送(例如,服务器/内容、用户/场景、辅助装置)。可以与标志一起提供关于起始音频信号ag和
目的地音频信号bg的信息。举例来说,可以提供一个或多个音频对象或音频源的id。替代性地,可以向呈现器160提供计算起始音频信号和/或目的地音频信号的请求。
[0052]
因此,描述了包括用于3自由度呈现器162的预处理器单元161的vr呈现器160,用于以资源高效的方式实现6自由度功能。预处理单元161允许使用诸如mpeg-h 3d音频呈现器之类的标准3自由度呈现器162。vr预处理单元161可以配置为通过使用分别表示起始场景111和目的地场景112的预呈现虚拟音频对象ag和bg来高效地执行全局转换191的计算。通过在全局转换191期间仅利用两个预呈现虚拟对象,降低了计算复杂度。每个虚拟对象可以包括多个音频源的多个音频信号。此外,位率要求可以降低,因为在转换191期间,位流140内可以仅提供预呈现虚拟音频对象ag和bg。另外,可以减少处理延迟。
[0053]
可以为沿着全局转换轨迹的所有中间位置提供3自由度功能。这可以通过使用淡入/淡出函数211、212叠加起始音频对象和目的地音频对象来实现。此外,可以呈现附加的音频对象和/或可以包含额外的音频效果。
[0054]
图3示出了在相同的音频场景111内从起始听音位置b 301到目的地听音位置c 302的示例局部转换192。音频场景111包括不同的音频源或对象311、312、313。不同的音频源或对象311、312、313可以具有不同的方向性轮廓332。此外,音频场景111可以具有环境特性,尤其是一个或多个障碍物,所述环境特性对音频场景111内的音频传播有影响。可以使用环境数据193来描述环境特性。另外,音频对象311到听音位置301、302的相对距离321、322可以是已知的。
[0055]
图4a和4b示出了用于处理局部转换192对不同的音频源或对象311、312、313的强度的影响的方案。如上所述,音频场景111的音频源311、312、313通常被3d音频呈现器162假设为位于听音位置301周围的球体114上。这样,在局部转换192的开始,音频源311、312、313可以放置在起始听音位置301周围的起始球体114上,并且在局部转换192结束时,音频源311、312、313可以放置在目的地听音位置302周围的目的地球体114上。球体114的半径可以与听音位置无关。也就是说,起始球体114和目的球体114可以具有相同的半径。例如,球体可以是单位球体(例如,在呈现的背景下)。在一个示例中,球体的半径可以是1米。
[0056]
音频源311、312、313可以从起始球体114重新映射(例如,几何重新映射)到目的地球体114。为了这个目的,可以考虑从目的地听音位置302出发到起始球体114上的音频源311、312、313的源位置的射线。音频源311、312、313可以放置在射线与目的地球体114的交叉点上。
[0057]
目的地球体114上的音频源311、312、313的强度f通常不同于起始球体114上的强度。可以使用强度增益函数或距离函数415来修改强度f,所述函数提供作为音频源311、312、313距听音位置301、302的距离420的函数的距离增益410。距离函数415通常表现出截止距离421,在所述截止距离之上应用零的距离增益410。音频源311到起始听音位置301的起始距离321提供起始增益411。例如,起始距离321可以对应于起始球体114的半径。此外,音频源311到目的地听音位置302的目的地距离322提供目的地增益412。例如,目的地距离322可以是从目的地听音位置302到起始球体114上的音频源311、312、313的源位置的距离。音频源311的强度f可以使用起始增益411和目的地增益412重新调节,从而提供目的地球体114上的音频源311的强度f。特别地,起始球体114上的音频源311的起始音频信号的强度f可以除以起始增益411,并且乘以目的地增益412,以提供目的地球体114上的音频源311的
目的地音频信号的强度f。
[0058]
因此,局部转换192之后的音频源311的位置可以确定为:ci=源重新映射函数(bi,c)(例如,使用几何变换)。此外,局部转换192之后的音频源311的强度可以确定为:f(ci)=f(bi)*距离函数(bi,ci,c)。距离衰减因此可以由距离函数415提供的相应强度增益来建模。
[0059]
图5a和5b示出了具有非均匀方向性轮廓332的音频源312。可以使用方向性增益510来定义方向性轮廓,所述方向性增益指示不同的方向或方向性角度520的增益值。特别地,可以使用方向性增益函数515来定义音频源312的方向性轮廓332,所述方向性增益函数将方向性增益510指示为方向性角度520的函数(其中角度520可以在0
°
至360
°
的范围)。应该注意的是,对于3d音频源312,方向性角度520通常是包括方位角和仰角的二维角。因此,方向性增益函数515通常是二维方向性角度520的二维函数。
[0060]
通过确定音频源312和起始听音位置301(音频源312放置在起始听音位置301周围的起始球体114上)之间的起始射线的起始方向性角度521,以及音频源312和目的地听音位置302之间的目的地射线的目的地方向性角度522(音频源312放置在目的地听音位置302周围的目的地球体114上),可以在局部转换192的背景下考虑音频源312的方向性轮廓332。使用音频源312的方向性增益函数515,可以将起始方向性增益511和目的地方向性增益512分别确定为起始方向性角度521和目的地方向性角度522的方向性增益函数515的函数值(参见图5b)。起始听音位置301处的音频源312的强度f然后可以除以起始方向性增益511并且乘以目的方向性增益512,以确定目的地听音位置302处的音频源312的强度f。
[0061]
因此,声源方向性可以由方向性增益函数515指示的方向性因子或增益510来参数化。方向性增益函数515可以指示音频源312作为角度520的函数在相对于听音位置301、302的某个距离处的强度。方向性增益510可以被定义为相对于相同的距离处的音频源312的增益的比率,所述音频源具有在所有方向上均匀辐射的相同的总功率。方向性轮廓332可以由一组增益510来参数化,所述增益对应于起始于音频源312的中心并且终止于音频源312的中心周围的单位球体上分布的点的向量。音频源312的方向性轮廓332可以取决于使用情形,并且取决于可用数据(例如,3d飞行情况下的均匀分布、2d 使用情况下的平坦分布等)。
[0062]
在目的地听音位置302的音频源312的最终音频强度可以被估计为:f(ci)=f(bi)*距离函数()*方向性增益函数(ci,c,方向性参数化),其中方向性增益函数取决于音频源312的方向性轮廓332。距离函数()考虑了由于音频源312的转换导致的音频源312的距离321、322的变化所引起的修改的强度。
[0063]
图6示出了在不同的听音位置301、302之间的局部转换192的背景下可能需要考虑的示例障碍物603。特别地,音频源313可以隐藏在目的地听音位置302处的障碍物603的后面。障碍物603可以由环境数据193描述,所述环境数据包括一组参数(诸如障碍物603的空间尺寸和障碍物衰减函数),所述障碍物衰减函数指示由障碍物603引起的声音衰减。
[0064]
音频源313可以表现出到目的地听音位置302的无障碍距离602(ofd)。ofd 602可以指示音频源313和目的地听音位置302之间的最短路径的长度,所述最短路径不横穿障碍物603。此外,音频源313可以表现出到目的地听音位置302的通过距离601(ghd)。ghd 601可以指示音频源313和目的地听音位置302之间的最短路径的长度,所述最短路径通常穿过障碍物603。障碍物衰减函数可以是ofd 602和ghd 601的函数。此外,障碍物衰减函数可以是音频源313的强度f(bi)的函数。
[0065]
目的地听音位置302处的音频源ci的强度可以是来自绕过障碍物603的音频源313的声音和来自穿过障碍物603的音频源313的声音的组合。
[0066]
因此,vr呈现器160可以设有用于控制环境几何结构和介质的影响的参数。障碍物几何结构/介质数据193或参数可以由内容提供商和/或编码器130提供。音频源313的音频强度可以被估计为:f(ci)=f(bi)*距离函数(ofd)*方向性增益函数(ofd) 障碍物衰减函数(f(bi),ofd,ghd)。第一项对应于绕过障碍物603的声音的贡献。第二项对应于穿过障碍物603的声音的贡献。
[0067]
最小无障碍距离(ofd)602可以使用a*狄克斯特拉寻径算法来确定,并且可以用于控制直接声音衰减。通过距离(ghd)601可以用于控制混响和失真。替代性地或另外,射线投射方法可用于描述障碍物603对音频源313的强度的影响。
[0068]
图7示出了放置在目的地听音位置302处的听音者181的示例视场701。此外,图7示出了放置在目的地听音位置302处的听音者的示例注意力焦点702。视场701和/或注意力焦点702可用于增强(例如放大)来自位于视场701和/或注意力焦点702内的音频源的音频。视场701可以被认为是用户驱动的效果,并且可以用于启用与用户的视场701相关联的音频源311的声音增强器。特别地,可以通过从背景音频源移除频率片来执行“鸡尾酒会效果”模拟,以增强与位于听音者视场701内的音频源311相关联的语音信号的可理解性。注意力焦点702可以被视为内容驱动的效果,并且可以用于启用与感兴趣内容区域相关联的音频源311的声音增强器(例如,吸引用户的注意力,以看向和/或移动到音频源311的方向)。
[0069]
音频源311的音频强度可以被修改为:f(bi)=视场函数(c,f(bi),视场数据),其中视场函数描述了应用于位于听音者181的视场701内的音频源311的音频信号的修改。此外,位于听音者的注意力焦点702内的音频源的音频强度可以被修改为:f(bi)=注意力焦点函数(f(bi),注意力焦点数据),其中注意力焦点函数描述应用于位于注意力焦点702内的音频源311的音频信号的修改。
[0070]
在本文件中描述的用于处理听音者181从起始听音位置301到目的地听音位置302的转换的函数可以以类似的方式应用于音频源311、312、313的位置变化。
[0071]
因此,本文件描述了用于计算虚拟音频对象或音频源311、312、313的坐标和/或音频强度的高效手段,所述虚拟音频对象或音频源表示任意听音位置301、302处的局部vr音频场景111。可以通过考虑声源距离衰减曲线、声源方向和方向性、环境几何结构/介质影响和/或“视场”和“注意力焦点”数据来确定坐标和/或强度,用于附加的音频信号增强。所描述的方案可以通过仅在听音位置301、302和/或音频对象/源311、312、313的位置改变时执行计算来显著降低计算复杂度。
[0072]
此外,本文件描述了用于说明vr呈现器160的距离、方向性、几何函数、处理和/或信令机制的概念。此外,描述了用于控制直接声音衰减的最小“无障碍距离”和用于控制混响和失真的“通过距离”的概念。另外,描述了声源方向性参数化的概念。
[0073]
图8示出了在局部转换192的背景下对环境声源801、802、803的处理。特别地,图8示出了三个不同的环境声源801、802、803,其中环境声音可以归因于点音频源。可以向预处理单元161提供环境标志,以便指示点音频源311是环境音频源801。在听音位置301、302的局部和/或全局转换期间的处理可以取决于环境标志的值。
[0074]
在全局转换191的背景下,环境声源801可以像普通音频源311一样被处理。图8示
出了局部转换192。环境声源801、802、803的位置可以从起始球体114复制到目的地球体114,从而提供环境声源811、812、813在目的地听音位置302处的位置。此外,如果环境条件保持不变,环境声源801的强度可以保持不变,f(c
ai
)=f(b
ai
)。另一方面,在存在障碍物603的情况下,可以使用障碍物衰减函数来确定环境声源803、813的强度,例如,f(c
ai
)=f(bai)*距离函数
ai
(ofd) 障碍物衰减函数(f(b
ai
),ofd,ghd)。
[0075]
图9a示出了用于在虚拟现实呈现环境180中呈现音频的示例方法900的流程图。方法900可以由vr音频呈现器160执行。方法900包括从听音者181的听音位置201周围的球体114上的起始源位置呈现901起始音频场景111的起始音频源113的起始音频信号。呈现901可以使用3d音频呈现器162(其可以限于仅处理3自由度,尤其是可以限于仅处理听音者181头部的旋转运动)来执行。特别地,3d音频呈现器162可以不配置为处理听音者头部的平移运动。3d音频呈现器162可以包括或可以是mpeg-h音频呈现器。
[0076]
应该注意的是,“从特定源位置呈现音频源113的音频信号”的表述指示听音者181感知到音频信号来自特定源位置。表述不应理解为对实际如何呈现音频信号的限制。各种不同的呈现技术可用于“呈现来自特定源位置的音频信号”,即向听音者181提供音频信号来自特定源位置的感知。
[0077]
此外,方法900包括确定902听音者181从起始音频场景111内的听音位置201移动到不同的目的地音频场景112内的听音位置202。因此,可以检测从起始音频场景111到目的地音频场景112的全局转换191。在这个背景下,方法900可以包括接收听音者181从起始音频场景111移动到目的地音频场景112的指示。指示可以包括或可以是标志。指示可以例如经由vr音频呈现器160的用户接口从听音者181向vr音频呈现器160发送信号。
[0078]
通常,起始音频场景111和目的地音频场景112各自包括一个或多个彼此不同的音频源113。特别地,一个或多个起始音频源113的起始音频信号在目的地音频场景112内可能听不见,和/或一个或多个目的地音频源113的目的地音频信号在起始音频场景111内可能听不见。
[0079]
方法900可以包括(响应于确定执行到新的目的地音频场景112的全局转换191)将淡出增益应用903于起始音频信号以确定修改的起始音频信号。此外,方法900可以包括(响应于确定执行到新的目的地音频场景112的全局转换191)从听音位置201、202周围的球体114上的起始源位置呈现904起始音频源113的修改的起始音频信号。
[0080]
因此,不同的音频场景111、112之间的全局转换191可以通过逐步淡出起始音频场景111的一个或多个起始音频源113的起始音频信号来执行。结果,提供了不同的音频场景111、112之间的计算高效且听觉一致的全局转换191。
[0081]
可以确定听音者181在转换时间间隔期间从起始音频场景111移动到目的地音频场景112,其中转换时间间隔通常具有特定的持续时间(例如2s、1s、500ms或更短)。全局转换191可以在转换时间间隔内逐步执行。特别地,在全局转换191期间,可以确定转换时间间隔内的中间时刻213(例如,根据例如100ms、50ms、20ms或更少的特定采样率)。然后,可以基于转换时间间隔内的中间时刻213的相对位置来确定淡出增益。
[0082]
特别地,全局转换191的转换时间间隔可以被细分为中间时刻213序列。对于中间时刻213序列中的每个中间时刻213,可以确定用于修改一个或多个起始音频源的起始音频信号的淡出增益。此外,在中间时刻213序列中的每个中间时刻213,可以从听音位置201、
202周围的球体114上的起始源位置呈现一个或多个起始音频源113的修改的起始音频信号。通过这样做,听觉一致的全局转换191可以以计算高效的方式来执行。
[0083]
方法900可以包括提供淡出函数211,所述淡出函数指示在转换时间间隔内的不同的中间时刻213的淡出增益,其中淡出函数211通常使得淡出增益随着中间时刻213的发展而减小,从而向目的地音频场景112提供平滑的全局转换191。特别地,淡出函数211可以使得起始音频信号在转换时间间隔的开始保持未修改,使得起始音频信号随着中间时刻213的发展而逐渐衰减,和/或使得起始音频信号在转换时间间隔结束时完全衰减。
[0084]
当听音者181从起始音频场景111移动到目的地音频场景112时(尤其是在整个转换时间间隔期间),可以保持听音位置201、202周围的球体114上的起始音频源113的起始源位置。替代性地或另外,可以假设(在整个转换时间间隔期间)听音者181保持在相同的听音位置201、202。通过这样做,可以进一步降低音频场景111、112之间的全局转换191的计算复杂度。
[0085]
方法900可以进一步包括确定目的地音频场景112的目的地音频源113的目的地音频信号。此外,方法900可以包括确定听音位置201、202周围的球体114上的目的地源位置。另外,方法900可以包括将淡入增益应用于目的地音频信号,以确定修改的目的地音频信号。然后,可以从听音位置201、202周围的球体114上的目的地源位置呈现目的地音频源113的修改的目的地音频信号。
[0086]
因此,以类似于淡出起始场景111的一个或多个起始音频源113的起始音频信号的方式,可以淡入目的地场景112的一个或多个目的地音频源113的目的地音频信号,从而提供音频场景111、112之间的平滑全局转换191。
[0087]
如上所述,听音者181可以在转换时间间隔期间从起始音频场景111移动到目的地音频场景112。可以基于转换时间间隔内的中间时刻213的相对位置来确定淡入增益。特别地,可以在全局转换191期间为中间时刻213的相应序列确定淡入增益序列。
[0088]
可以使用淡入函数212来确定淡入增益,所述淡入函数指示转换时间间隔内不同的中间时刻213的淡入增益,其中淡入函数212通常使得淡入增益随着中间时刻213的发展而增加。特别地,淡入函数212可以使得目的地音频信号在转换时间间隔的开始完全衰减,使得目的地音频信号随着中间时刻213的发展而逐渐衰减,和/或使得目的地音频信号在转换时间间隔结束时保持未修改,从而以计算高效的方式提供音频场景111、112之间的平滑全局转换191。
[0089]
以与起始音频源113的起始源位置相同的方式,当听音者181从起始音频场景111移动到目的地音频场景112时,尤其是在整个转换时间间隔期间,可以保持听音位置201、202周围的球体114上的目的地音频源113的目的地源位置。替代性地或另外,可以假设(在整个转换时间间隔期间)听音者181保持在相同的听音位置201、202。通过这样做,可以进一步降低音频场景111、112之间的全局转换191的计算复杂度。
[0090]
淡出函数211和淡入函数212的组合可以为多个不同的中间时刻213提供恒定的增益。特别地,淡出函数211和淡入函数212可以在多个不同的中间时刻213合计为恒定值(例如1)。因此,淡入函数212和淡出函数211可以是相互依赖的,从而在全局转换191期间提供一致的音频体验。
[0091]
淡出函数211和/或淡入函数212可以从指示起始音频信号和/或目的地音频信号
的位流140中导出。位流140可以由编码器130提供给vr音频呈现器160。因此,全局转换191可以由内容提供商控制。替代性地或另外,淡出函数211和/或淡入函数212可以从虚拟现实(vr)音频呈现器160的存储单元导出,所述虚拟现实音频呈现器配置为在虚拟现实呈现环境180内呈现起始音频信号和/或目的地音频信号,从而在音频场景111、112之间的全局转换191期间提供可靠的操作。
[0092]
方法900可以包括向编码器130发送听音者181从起始音频场景111移动到目的地音频场景112的指示(例如,指示标志),其中编码器130可以配置为生成指示起始音频信号和/或目的地音频信号的位流140。指示可以使编码器130能够选择性地为位流140内的起始音频场景111的一个或多个音频源113和/或目的地音频场景112的一个或多个音频源113提供音频信号。因此,为即将到来的全局转换191提供指示能够减少位流140所需的带宽。
[0093]
如上所述,起始音频场景111可以包括多个起始音频源113。因此,方法900可以包括从听音位置201、202周围的球体114上的多个不同的起始源位置呈现相应的多个起始音频源113的多个起始音频信号。此外,方法900可以包括将淡出增益应用于多个起始音频信号,以确定多个修改的起始音频信号。另外,方法900可以包括从听音位置201、202周围的球体114上的相应的多个起始源位置呈现起始音频源113的多个修改的起始音频信号。
[0094]
以类似的方式,方法900可以包括确定目的地音频场景112的相应的多个目的地音频源113的多个目的地音频信号。另外,方法900可以包括确定听音位置201、202周围的球体114上的多个目的地源位置。此外,方法900可以包括将淡入增益应用于多个目的地音频信号,以确定相应的多个修改的目的地音频信号。方法900进一步包括从听音位置201、202周围的球体114上的相应的多个目的地源位置呈现多个目的地音频源113的多个修改的目的地音频信号。
[0095]
替代性地或另外,在全局转换191期间呈现的起始音频信号可以是多个起始音频源113的音频信号的叠加。特别地,在转换时间间隔的开始,起始音频场景111的(所有)音频源113的音频信号可以被组合以提供组合的起始音频信号。该起始音频信号可以用淡出增益来修改。此外,在转换时间间隔期间,可以以特定的采样率(例如,20ms)更新起始音频信号。以类似的方式,目的地音频信号可以对应于多个目的地音频源113(尤其是所有目的地音频源113)的音频信号的组合。然后,可以在转换时间间隔期间使用淡入增益来修改组合的目的地音频源。通过分别组合起始音频场景111和目的地音频场景112的音频信号,可以进一步降低计算复杂度。
[0096]
此外,描述了用于在虚拟现实呈现环境180中呈现音频的虚拟现实音频呈现器160。如本文件中所概述的,vr音频呈现器160可以包括预处理单元161和3d音频呈现器162。虚拟现实音频呈现器160配置为从听音者181的听音位置201周围的球体114上的起始源位置呈现起始音频场景111的起始音频源113的起始音频信号。此外,vr音频呈现器160配置为确定听音者181从起始音频场景111内的听音位置201移动到不同的目的地音频场景112内的听音位置202。另外,vr音频呈现器160配置为将淡出增益应用于起始音频信号以确定修改的起始音频信号,并且从听音位置201、202周围的球体114上的起始源位置呈现起始音频源113的修改的起始音频信号。
[0097]
此外,描述了编码器130,所述编码器配置为生成位流140,所述位流指示将在虚拟现实呈现环境180内呈现的音频信号。编码器130可以配置为确定起始音频场景111的起始
音频源113的起始音频信号。此外,编码器130可以配置为确定关于起始音频源113的起始源位置的起始位置数据。编码器130然后可以生成包括起始音频信号和起始位置数据的位流140。
[0098]
编码器130可以配置为接收听音者181在虚拟现实呈现环境180内从起始音频场景111移动到目的地音频场景112的指示(例如,经由从vr音频呈现器160到编码器130的反馈通道)。
[0099]
编码器130然后可以确定目的地音频场景112的目的地音频源113的目的地音频信号,以及关于目的地音频源113的目的地源位置的目的地位置数据(尤其是仅响应于接收到这种指示)。此外,编码器130可以生成包括目的地音频信号和目的地位置数据的位流140。因此,编码器130可以配置为仅在接收到到目的地音频场景112的全局转换191的指示的情况下,选择性地提供目的地音频场景112的一个或多个目的地音频源113的目的地音频信号。通过这样做,可以减少位流140所需的带宽。
[0100]
图9b示出了用于生成位流140的相应方法930的流程图,所述位流指示将在虚拟现实呈现环境180内呈现的音频信号。方法930包括确定931起始音频场景111的起始音频源113的起始音频信号。此外,方法930包括确定932关于起始音频源113的起始源位置的起始位置数据。另外,方法930包括生成933包括起始音频信号和起始位置数据的位流140。
[0101]
方法930包括接收934听音者181在虚拟现实呈现环境180内从起始音频场景111移动到目的地音频场景112的指示。响应于此,方法930可以包括确定935目的地音频场景112的目的地音频源113的目的地音频信号,以及确定936关于目的地音频源113的目的地源位置的目的地位置数据。此外,方法930包括生成937包括目的地音频信号和目的地位置数据的位流140。
[0102]
图9c示出了用于在虚拟现实呈现环境180中呈现音频信号的示例方法910的流程图。方法910可以由vr音频呈现器160执行。
[0103]
方法910包括从听音者181的起始听音位置301周围的起始球体114上的起始源位置呈现911音频源311、312、313的起始音频信号。呈现911可以使用3d音频呈现器162来执行。特别地,呈现911可以在假设起始听音位置301是固定的情况下执行。因此,呈现911可以限于三个自由度(尤其是听音者181的头部的旋转运动)。
[0104]
为了考虑附加的三个自由度(例如,用于听音者181的平移运动),方法910可以包括确定912听音者181从起始听音位置301移动到目的地听音位置302,其中目的地听音位置302通常位于相同的音频场景111内。因此,可以确定912听音者181在相同的音频场景111内执行局部转换192。
[0105]
响应于确定听音者181执行局部转换192,方法910可以包括基于起始源位置来确定913目的地听音位置302周围的目的地球体114上的音频源311、312、313的目的地源位置。换句话说,音频源311、312、313的源位置可以从起始听音位置301周围的起始球体114转移到目的地听音位置302周围的目的地球体114。这可以通过将起始源位置从起始球体114投影到目的球体114上来实现。例如,可以执行起始球体上的起始源位置相对于目的地听音位置302到目的地球体上的透视投影。特别地,可以确定目的地源位置,使得目的地源位置对应于目的地听音位置302和起始源位置之间的射线与目的地球体114的交叉点。上述的起始球体114和目的地球体可以具有相同的半径。例如,该半径可以是预定的半径。预定的半径
可以是用于执行呈现的呈现器的默认值。
[0106]
此外,方法910可以包括(响应于确定听音者181执行局部转换192)基于起始音频信号来确定914音频源311、312、313的目的地音频信号。特别地,可以基于起始音频信号的强度来确定目的地音频信号的强度。替代性地或另外,可以基于起始音频信号的频谱成分来确定目的地音频信号的频谱成分。因此,可以确定如何从目的地听音位置302感知音频源311、312、313的音频信号(尤其是可以确定音频信号的强度和/或频谱成分)。
[0107]
上述确定步骤913、914可以由vr音频呈现器160的预处理单元161执行。预处理单元161可以通过将一个或多个音频源311、312、313的音频信号从起始听音位置301周围的起始球体114转移到目的地听音位置302周围的目的地球体114来处理听音者181的平移运动。结果,一个或多个音频源311、312、313的转移的音频信号也可以使用3d音频呈现器162(其可以限于3自由度)来呈现。因此,方法910允许在vr音频呈现环境180内高效地提供6自由度。
[0108]
因此,方法910可以包括从目的地听音位置302周围的目的地球体114上的目的地源位置呈现915音频源311、312、313的目的地音频信号(例如,使用3d音频呈现器,诸如mpeg-h音频呈现器)。
[0109]
确定914目的地音频信号可以包括确定起始源位置和目的地听音位置302之间的目的地距离322。然后,可以基于目的地距离322来确定(尤其是缩放)目的地音频信号(尤其是目的地音频信号的强度)。特别地,确定914目的地音频信号可以包括将距离增益410应用于起始音频信号,其中距离增益410取决于目的地距离322。
[0110]
可以提供距离函数415,所述距离函数指示作为音频信号311、312、313的源位置和听音者181的听音位置301、302之间的距离321、322的函数的距离增益410。可以基于目的地距离322的距离函数415的函数值来确定应用于起始音频信号(用于确定目的地音频信号)的距离增益410。通过这样做,可以以高效且精确的方式确定目的地音频信号。
[0111]
此外,确定914目的地音频信号可以包括确定起始源位置和起始听音位置301之间的起始距离321。然后,可以(也)基于起始距离321来确定目的地音频信号。特别地,可以基于起始距离321的距离函数415的函数值来确定应用于起始音频信号的距离增益410。在优选示例中,起始距离321的距离函数415的函数值和目的地距离322的距离函数415的函数值被用于重新调节起始音频信号的强度以确定目的地音频信号。因此,可以提供音频场景111内的高效且精确的局部转换191。
[0112]
确定914目的地音频信号可以包括确定音频源311、312、313的方向性轮廓332。方向性轮廓332可以指示不同方向上的起始音频信号的强度。然后,可以(也)基于方向性轮廓332来确定目的地音频信号。通过考虑方向性轮廓332,可以改善局部转换192的声质量。
[0113]
方向性轮廓332可以指示将应用于起始音频信号,用于确定目的地音频信号的方向性增益510。特别地,方向性轮廓332可以指示方向性增益函数515,其中方向性增益函数515可以指示作为音频源311、312、313的源位置和听音者181的听音位置301、302之间的(可能是二维的)方向性角度520的函数的方向性增益510。
[0114]
因此,确定914目的地音频信号可以包括确定目的地源位置和目的地听音位置302之间的目的地角度522。然后,可以基于目的地角度522来确定目的地音频信号。特别地,可以基于目的地角度522的方向性增益函数515的函数值来确定目的地音频信号。
[0115]
替代性地或另外,确定914目的地音频信号可以包括确定起始源位置和起始听音位置301之间的起始角度521。然后,可以基于起始角度521来确定目的地音频信号。特别地,可以基于起始角度521的方向性增益函数515的函数值来确定目的地音频信号。在优选示例中,可以通过使用起始角度521和目的地角度522的方向性增益函数515的函数值来修改起始音频信号的强度来确定目的地音频信号,以确定目的地音频信号的强度。
[0116]
此外,方法910可以包括确定指示目的地源位置和目的地听音位置302之间的介质的音频传播特性的目的地环境数据193。目的地环境数据193可以指示位于目的地源位置和目的地听音位置302之间的直接路径上的障碍物603;指示关于障碍物603的空间尺寸的信息;和/或指示由音频信号在目的地源位置和目的地听音位置302之间的直接路径上引起的衰减。特别地,目的地环境数据193可以指示障碍物603的障碍物衰减函数,其中衰减函数可以指示由音频信号引起的衰减,所述音频信号在目的地源位置和目的地听音位置302之间的直接路径上穿过障碍物603。
[0117]
然后,可以基于目的地环境数据193来确定目的地音频信号,从而进一步提高在vr呈现环境180内呈现的音频质量。
[0118]
如上所述,目的地环境数据193可以指示目的地源位置和目的地听音位置302之间的直接路径上的障碍物603。方法910可以包括确定直接路径上的目的地源位置和目的地听音位置302之间的通过距离601。然后,可以基于通过距离601来确定目的地音频信号。替代性地或另外,可以确定在不横穿障碍物603的间接路径上的目的地源位置和目的地听音位置302之间的无障碍距离602。然后,可以基于无障碍距离602来确定目的地音频信号。
[0119]
特别地,可以基于沿着间接路径传播的起始音频信号来确定目的地音频信号的间接分量。此外,可以基于沿着直接路径传播的起始音频信号来确定目的地音频信号的直接分量。然后,可以通过组合间接分量和直接分量来确定目的地音频信号。通过这样做,可以以精确且高效的方式考虑障碍物603的声效果。
[0120]
此外,方法910可以包括确定关于听音者181的视场701和/或注意力焦点702的焦点信息。然后,可以基于焦点信息来确定目的地音频信号。特别地,可以根据焦点信息调整音频信号的频谱成分。通过这样做,可以进一步改善听音者181的vr体验。
[0121]
另外,方法910可以包括确定音频源311、312、313是环境音频源。在这个背景下,可以在位流140内从编码器130接收指示(例如标志),其中指示指示音频源311、312、313是环境音频源。环境音频源通常提供背景音频信号。环境音频源的起始源位置可以保持为目的地源位置。替代性地或另外,环境音频源的起始音频信号的强度可以保持为目的地音频信号的强度。通过这样做,可以在局部转换192的背景下高效且一致地处理环境音频源。
[0122]
上述方面适用于包括多个音频源311、312、313的音频场景111。特别地,方法910可以包括从起始球体114上的多个不同起始源位置呈现相应的多个音频源311、312、313的多个起始音频信号。另外,方法910可以包括分别基于多个起始源位置来确定目的地球体114上的相应的多个音频源311、312、313的多个目的地源位置。另外,方法910可以包括分别基于多个起始音频信号来确定相应的多个音频源311、312、313的多个目的地音频信号。然后,可以从目的地听音位置302周围的目的地球体114上的相应的多个目的地源位置呈现相应的多个音频源311、312、313的多个目的地音频信号。
[0123]
此外,描述了用于在虚拟现实呈现环境180中呈现音频信号的虚拟现实音频呈现
器160。音频呈现器160配置为从听音者181的起始听音位置301周围的起始球体114上的起始源位置呈现音频源311、312、313的起始音频信号(尤其是使用vr音频呈现器160的3d音频呈现器162)。
[0124]
此外,vr音频呈现器160配置为确定听音者181从起始听音位置301移动到目的地听音位置302。响应于此,vr音频呈现器160可以配置(例如,在vr音频呈现器160的预处理单元161内)为基于起始源位置来确定目的地听音位置302周围的目的地球体114上的音频源311、312、313的目的地源位置,并且基于起始音频信号来确定音频源311、312、313的目的地音频信号。
[0125]
另外,vr音频呈现器160(例如3d音频呈现器162)可以配置为从目的地听音位置302周围的目的地球体114上的目的地源位置呈现音频源311、312、313的目的地音频信号。
[0126]
因此,虚拟现实音频呈现器160可以包括预处理单元161,所述预处理单元配置为确定音频源311、312、313的目的地源位置和目的地音频信号。此外,vr音频呈现器160可以包括3d音频呈现器162,所述3d音频呈现器配置为呈现音频源311、312、313的目的地音频信号。3d音频呈现器162可以配置为在听音者181的头部做旋转运动的情况下,适应听音者181的听音位置301、302周围的(单元)球体114上的音频源311、312、313的音频信号的呈现(以在呈现环境180内提供3自由度)。另一方面,3d音频呈现器162在听音者181的头部做平移运动的情况下,可以不配置为适应音频源311、312、313的音频信号的呈现。因此,3d音频呈现器162可以限于3自由度。然后,可以使用预处理单元161以高效的方式提供平移自由度,从而提供具有6自由度的整体vr音频呈现器160。
[0127]
此外,描述了配置为生成位流140的音频编码器130。生成位流140,使得位流140指示至少一个音频源311、312、313的音频信号,并且指示至少一个音频源311、312、313在呈现环境180内的位置。另外,位流140可以指示关于呈现环境180内的音频的音频传播特性的环境数据193。通过发送关于音频传播特性的环境数据193的信号,可以精确的方式启用呈现环境180内的局部转换192。
[0128]
另外,描述了位流140,所述位流指示至少一个音频源311、312、313的音频信号;指示呈现环境180内的至少一个音频源311、312、313的位置;以及指示指示呈现环境180内的音频的音频传播特性的环境数据193。替代性地或另外,位流140可以指示音频源311、312、313是否是环境音频源801。
[0129]
图9d示出了用于生成位流140的示例方法920的流程图。方法920包括确定921至少一个音频源311、312、313的音频信号。此外,方法920包括确定922关于至少一个音频源311、312、313在呈现环境180内的位置的位置数据。另外,方法920可以包括确定923指示呈现环境180内的音频的音频传播特性的环境数据193。方法920进一步包括将音频信号、位置数据和环境数据193插入934到位流140中。替代性地或另外,指示中,可能对位流140内音频源311、312、313是否是环境音频源801感兴趣。
[0130]
因此,在本文件中,描述了用于在虚拟现实呈现环境180中呈现音频信号的虚拟现实音频呈现器160(和相应的方法)。音频呈现器160包括3d音频呈现器162,所述3d音频呈现器配置为从听音者181在虚拟现实呈现环境180内的听音位置301、302周围的球体114上的源位置呈现音频源113、311、312、313的音频信号。此外,虚拟现实音频呈现器160包括预处理单元161,所述预处理单元配置为确定听音者181在虚拟现实呈现环境180内(在相同或不
同的音频场景111、112内)的新听音位置301、302。此外,预处理单元161配置为更新音频信号和音频源113、311、312、313相对于新听音位置301、302周围的球体114的源位置。3d音频呈现器162配置为从新听音位置301、302周围的球体114上的更新源位置呈现音频源311、312、313的更新音频信号。
[0131]
本文件中描述的方法和系统可以实现为软件、固件和/或硬件。某些组件可以例如实现为在数字信号处理器或微处理器上运行的软件。其它组件可以例如实现为硬件和/或专用集成电路。在所描述的方法和系统中遇到的信号可以存储在介质上,诸如随机存取存储器或光存储介质。它们可以经由网络传输,诸如无线电网络、卫星网络、无线网络或有线网络,例如因特网。利用本文件中描述的方法和系统的典型设备是用于存储和/或呈现音频信号的便携式电子设备或其它消费设备。
[0132]
本文件列举的示例(ee)有:
[0133]
ee 1)一种用于在虚拟现实呈现环境180中呈现音频信号的方法910,方法910包括:
[0134]-从听音者181的起始听音位置301周围的起始球体114上的起始源位置呈现911音频源311、312、313的起始音频信号;
[0135]-确定912听音者181从起始听音位置301移动到目的地听音位置302;
[0136]-基于起始源位置来确定913音频源311、312、313在目的地听音位置302周围的目的地球体114上的目的地源位置;
[0137]-基于起始音频信号来确定914音频源311、312、313的目的地音频信号;以及
[0138]-从目的地听音位置302周围的目的地球体114上的目的地源位置呈现915音频源311、312、313的目的地音频信号。
[0139]
ee 2)根据ee 1所述的方法910,其中方法910包括将起始源位置从起始球体114投影到目的地球体114上,以确定目的地源位置。
[0140]
ee 3)根据任一前述ee所述的方法910,其中目的地源位置被确定为使得目的地源位置对应于目的地听音位置302和起始源位置之间的射线与目的地球体114的交叉点。
[0141]
ee 4)根据任一前述ee所述的方法910,其中确定914目的地音频信号包括
[0142]-确定起始源位置和目的地听音位置302之间的目的地距离322;以及
[0143]-基于目的地距离322来确定914目的地音频信号。
[0144]
ee 5)根据ee 4所述的方法910,其中
[0145]-确定914目的地音频信号包括将距离增益410应用于起始音频信号;并且
[0146]-距离增益410取决于目的地距离322。
[0147]
ee 6)根据ee 5所述的方法910,其中确定914目的地音频信号包括
[0148]-提供距离函数415,所述距离函数指示作为音频信号311、312、313的源位置和听音者181的听音位置301、302之间的距离321、322的函数的距离增益410;以及
[0149]-基于目的地距离322的距离函数415的函数值来确定应用于起始音频信号的距离增益410。
[0150]
ee 7)根据ee 4至6中任一项所述的方法910,其中确定914目的地音频信号包括-确定起始源位置和起始听音位置301之间的起始距离321;以及
[0151]-基于起始距离321来确定914目的地音频信号。
[0152]
ee 8)根据再次参考ee 6的ee 7所述的方法910,其中应用于起始音频信号的距离增益410是基于起始距离321的距离函数415的函数值来确定的。
[0153]
ee 9)根据任一前述ee所述的方法910,其中确定914目的地音频信号包括基于起始音频信号的强度来确定目的地音频信号的强度。
[0154]
ee 10)根据任一前述ee所述的方法910,其中确定914目的地音频信号包括
[0155]-确定音频源311、312、313的方向性轮廓332;其中方向性轮廓332指示不同方向上的起始音频信号的强度;以及
[0156]-基于方向性轮廓332来确定914目的地音频信号。
[0157]
ee 11)根据ee 10所述的方法910,其中方向性轮廓332指示将应用于起始音频信号,用于确定目的地音频信号的方向性增益510。
[0158]
ee 12)根据ee 10至11中任一项所述的方法910,其中
[0159]-方向性轮廓332指示方向性增益函数515;并且
[0160]-方向性增益函数515指示作为音频源311、312、313的源位置和听音者181的听音位置301、302之间的方向性角度520的函数的方向性增益510。
[0161]
ee 13)根据ee 10至12中任一项所述的方法910,其中确定914目的地音频信号包括
[0162]-确定目的地源位置和目的地听音位置302之间的目的地角度522;以及
[0163]-基于目的地角度522来确定914目的地音频信号。
[0164]
ee 14)根据再次参考ee 12的ee 13所述的方法910,其中目的地音频信号是基于目的地角度522的方向性增益函数515的函数值来确定的。
[0165]
ee 15)根据ee 10至14中任一项所述的方法910,其中确定914目的地音频信号包括
[0166]-确定起始源位置和起始听音位置301之间的起始角度521;以及
[0167]-基于起始角度521来确定914目的地音频信号。
[0168]
ee 16)根据再次参考ee 12的ee 15所述的方法910,其中目的地音频信号是基于起始角度521的方向性增益函数515的函数值来确定的。
[0169]
ee 17)根据ee 16所述的方法910,其中确定914目的地音频信号包括使用起始角度521和目的地角度522的方向性增益函数515的函数值来修改起始音频信号的强度,以确定目的地音频信号的强度。
[0170]
ee 18)根据任一前述ee所述的方法910,其中确定914目的地音频信号包括
[0171]-确定指示目的地源位置和目的地听音位置302之间的介质的音频传播特性的目的地环境数据193;以及
[0172]-基于目的地环境数据193来确定目的地音频信号。
[0173]
ee 19)根据ee 18所述的方法910,其中目的地环境数据193指示
[0174]-障碍物603,所述障碍物位于目的地源位置和目的地听音位置302之间的直接路径上;和/或
[0175]-信息,关于障碍物603的空间尺寸;和/或
[0176]-衰减,由音频信号在目的地源位置和目的地听音位置302之间的直接路径上引起。
[0177]
ee 20)根据ee 18至19中任一项所述的方法910,其中
[0178]-目的地环境数据193指示障碍物衰减函数;并且
[0179]-衰减函数指示由音频信号引起的衰减,所述音频信号在目的地源位置和目的地听音位置302之间的直接路径上穿过障碍物603。
[0180]
ee 21)根据ee 18至20中任一项所述的方法910,其中
[0181]-目的地环境数据193指示目的地源位置和目的地听音位置302之间的直接路径上的障碍物603;
[0182]-确定914目的地音频信号包括确定直接路径上的目的地源位置和目的地听音位置302之间的通过距离601;并且
[0183]-目的地音频信号是基于通过距离601来确定的。
[0184]
ee 22)根据ee 18至21中任一项所述的方法910,其中
[0185]-目的地环境数据193指示目的地源位置和目的地听音位置302之间的直接路径上的障碍物603;
[0186]-确定914目的地音频信号包括确定不横穿障碍物603的间接路径上的目的地源位置和目的地听音位置302之间的无障碍距离602;并且
[0187]-目的地音频信号是基于无障碍距离602来确定的。
[0188]
ee 23)根据再次参考ee 21的ee 22所述的方法910,其中确定914目的地音频信号包括
[0189]-基于沿着间接路径传播的起始音频信号来确定目的地音频信号的间接分量;
[0190]-基于沿着直接路径传播的起始音频信号来确定目的地音频信号的直接分量;以及
[0191]-组合间接分量和直接分量以确定目的地音频信号。
[0192]
ee 24)根据任一前述ee所述的方法910,其中确定914目的地音频信号包括
[0193]-确定关于听音者181的视场701和/或注意力焦点702的焦点信息;以及
[0194]-基于焦点信息来确定目的地音频信号。
[0195]
ee 25)根据任一前述ee所述的方法910,进一步包括
[0196]-确定音频源311、312、313是环境音频源;
[0197]-保持环境音频源311、312、313的起始源位置作为目的地源位置;
[0198]-保持环境音频源311、312、313的起始音频信号的强度作为目的地音频信号的强度。
[0199]
ee 26)根据任一前述ee所述的方法910,其中确定914目的地音频信号包括基于起始音频信号的频谱成分来确定目的地音频信号的频谱成分。
[0200]
ee 27)根据任一前述ee所述的方法910,其中使用3d音频呈现器162,尤其是mpeg-h音频呈现器,来呈现起始音频信号和目的地音频信号。
[0201]
ee 28)根据任一前述ee所述的方法910,其中方法910包括
[0202]-从起始球体114上的多个不同起始源位置呈现相应的多个音频源311、312、313的多个起始音频信号;
[0203]-分别基于多个起始源位置来确定目的地球体114上的相应的多个音频源311、312、313的多个目的地源位置;
[0204]-分别基于多个起始音频信号来确定相应的多个音频源311、312、313的多个目的地音频信号;以及
[0205]-从目的地听音位置302周围的目的地球体114上的相应的多个目的地源位置呈现相应的多个音频源311、312、313的多个目的地音频信号。
[0206]
ee 29)一种用于在虚拟现实呈现环境180中呈现音频信号的虚拟现实音频呈现器160,其中音频呈现器160配置为
[0207]-从听音者181的起始听音位置301周围的起始球体114上的起始源位置呈现音频源311、312、313的起始音频信号;
[0208]-确定听音者181从起始听音位置301移动到目的地听音位置302;
[0209]-基于起始源位置来确定音频源311、312、313在目的地听音位置302周围的目的地球体114上的目的地源位置;
[0210]-基于起始音频信号来确定音频源311、312、313的目的地音频信号;以及
[0211]-从目的地听音位置302周围的目的地球体114上的目的地源位置呈现音频源311、312、313的目的地音频信号。
[0212]
ee 30)根据ee 29所述的虚拟现实音频呈现器160,其中虚拟现实音频呈现器160包括
[0213]-预处理单元161,所述预处理单元配置为确定音频源311、312、313的目的地源位置和目的地音频信号;以及
[0214]-3d音频呈现器162,所述3d音频呈现器配置为呈现音频源311、312、313的目的地音频信号。
[0215]
ee 31)根据ee 30所述的虚拟现实音频呈现器160,其中3d音频呈现器162
[0216]-在听音者181的头部做旋转运动的情况下,配置为适应听音者181的听音位置301、302周围的球体114上的音频源311、312、313的音频信号的呈现;和/或
[0217]-在听音者181的头部做平移运动的情况下,不配置为适应音频源311、312、313的音频信号的呈现。
[0218]
ee 32)一种音频编码器130,配置为生成位流140,所述位流指示
[0219]-至少一个音频源311、312、313的音频信号;
[0220]-至少一个音频源311、312、313在呈现环境180内的位置;以及
[0221]-指示呈现环境180内的音频的音频传播特性的环境数据193。
[0222]
ee 33)一种位流140,所述位流指示
[0223]-至少一个音频源311、312、313的音频信号;
[0224]-至少一个音频源311、312、313在呈现环境180内的位置;以及
[0225]-指示呈现环境180内的音频的音频传播特性的环境数据193。
[0226]
ee 34)一种用于生成位流140的方法920,方法920包括:
[0227]-确定921至少一个音频源311、312、313的音频信号;
[0228]-确定922关于至少一个音频源311、312、313在呈现环境180内的位置的位置数据;
[0229]-确定923指示呈现环境180内的音频的音频传播特性的环境数据193;以及
[0230]-将音频信号、位置数据和环境数据193插入934到位流140中。
[0231]
ee 35)一种用于在虚拟现实呈现环境180中呈现音频信号的虚拟现实音频呈现器
160,其中音频呈现器160包括
[0232]-3d音频呈现器162,所述3d音频呈现器配置为从听音者181在虚拟现实呈现环境180内的的听音位置301、302周围的球体114上的源位置呈现音频源311、312、313的音频信号;
[0233]-预处理单元161,所述预处理单元配置为
[0234]-确定听音者181在虚拟现实呈现环境180内的新听音位置301、302;以及
[0235]-更新音频信号和音频源311、312、313相对于新听音位置301,302周围的球体114的源位置;
[0236]
其中3d音频呈现器162配置为从新听音位置301、302周围的球体114上的更新源位置呈现音频源311、312、313的更新音频信号。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献