三维音频源空间化的制作方法

2021-11-20 07:44:00 来源：中国专利 TAG：

1.本描述涉及诸如远程呈现系统的系统中的三维音频源空间化。

背景技术：

2.远程呈现是指允许人感觉好像他们在现场或者给出存在于除其真实位置以外的地方处的表象的技术集。例如，不是长途旅行进行面对面会议，反而是一个人使用远程呈现系统，该远程呈现系统使用多编解码器视频系统，以提供在面对面会议中的表象。会议的每个成员使用远程呈现房间来“拨入”，而且能够在屏幕上看到每一其他成员并与之交谈，好像他们在同一房间里一样。这样的远程呈现系统可以表示对常规电话会议和视频会议的改进，因为视觉方面大大地增强了通信，从而允许实现对面部表情和其他身体语言的感知。

技术实现要素：

3.在一个一般方面中，一种方法能够包括：由被配置成执行音频源空间化的处理电路接收来自源位置处的音频源的音频数据，该音频数据表示被配置成经由收听者位置处的收听者所听到的多个扩音器被转换为一定频率的声音的音频波形，多个扩音器中的每一个具有相应的扩音器位置。该方法也能够包括，响应于音频信号的频率低于指定阈值，由处理电路对多个扩音器执行串扰消除(cc)操作以产生由该扩音器发出的相应的音频信号的振幅和相位以确定空间化线索。该方法能够进一步包括，响应于音频信号的频率高于指定阈值，由处理电路对多个扩音器执行基于向量的振幅平移(vbap)操作以产生用于该扩音器的相应的权重，用于多个扩音器中的每一个的相应的权重表示由该扩音器发出的音频信号被乘，以确定空间化线索的因子。在一些实施方式中，权重是复数的并且包括相位。
4.在另一一般方面中，一种包括非暂时性存储介质的计算机程序产品，该计算机程序产品包括代码，当由被配置成执行音频源空间化的处理电路执行时，该代码使处理电路执行方法。该方法能够包括：接收来自源位置处的音频源的音频数据，该音频数据表示被配置成经由收听者位置处的收听者所听到的多个扩音器被转换为一定频率的声音的音频波形，多个扩音器中的每一个具有相应的扩音器位置。该方法也能够包括生成扩音器矩阵，该扩音器矩阵具有作为与收听者位置和多个扩音器中的每一个的相应的扩音器位置之间的差平行的向量的分量的元素。该方法能够进一步包括生成源向量，该源向量具有作为与收听者位置和源位置之间的差平行的向量的分量的元素。该方法能够进一步包括对扩音器矩阵和源向量执行伪逆操作以产生具有分量的权重向量，该权重向量的每个分量表示用于多个扩音器中的每一个的相应的权重。
5.在附图和以下描述中阐述了一个或多个实施方式的细节。从描述和附图以及从权利要求中，其他特征将是明显的。
附图说明
6.图1是图示用于实现本文中描述的改进技术的示例电子环境的示意图。
7.图2是图示在电子环境内执行改进技术的示例方法的流程图。
8.图3是图示在考虑串扰消除(cc)操作中使用的示例几何形状的示意图。
9.图4是图示在两个不同到达定向的示例刚性球hrtf模型的示意图。
10.图5是图示在考虑基于向量的振幅平移(vbap)操作中使用的示例几何形状的示意图。
11.图6是图示执行vbap操作的示例过程的流程图。
12.图7图示能够与本文中描述的电路一起使用的计算机设备和移动计算机设备的示例。
具体实施方式
13.递送上述音频的远程呈现系统的目标是为了向收听者提供适当地空间化的谈话者语音。这样的系统向收听者的左耳和右耳准确地递送声音。如果使用耳机被许可，则递送会简单。然而，在感兴趣的远程呈现示例中，收听体验不受妨碍，并且因此，扩音器呈现被使用。
14.存在用于向收听者递送空间化音频的多种技术—包括波场合成和多声道模拟立体声。这些技术通常用于复杂声学环境(具有许多声音源)的呈现并且需要最少四个(用于b格式多声道模拟立体声安装)和常常更多个(用于高阶多声道模拟立体声和波场合成安装)扩音器。此外，用于多声道模拟立体声的扩音器包络/包围收听者。
15.相比之下，上述远程呈现系统使用相对较小数量的扩音器(例如，介于两个与四个之间)。在一些实施方式中，这些扬声器被定位在收听者前面。因此，多声道模拟立体声和波场合成均不适于在上述远程呈现系统中使用。相反，扩音器显示器反而以打算使用两个或更多个扩音器来向单个收听者显示空间化声音的如下两种概念简单的技术为中心：串扰消除和基于向量的振幅平移。
16.在远程呈现系统中递送音频的一种常规方法包括使用串扰消除技术来确定来自在每个收听者的耳中产生期望信号的每个扩音器的复杂信号。在远程呈现系统中递送音频的另一常规方法包括使用基于向量的振幅平移(vbap)来为每个扩音器推导适当地定位音频源的振幅加权。
17.在远程呈现系统中递送音频的上述常规方法具有可能导致差空间化的一些缺陷。例如，虽然串扰消除能够提供更准确的空间化线索，但是串扰消除也倾向于对高频率下的跟踪器误差敏感，其中声音波长接近跟踪器误差的振幅。vbap对跟踪器误差较不敏感，但是产生较不准确的空间化线索。
18.此外，vbap假设正好有三个扩音器并且收听者的头部与每个扩音器距离相等。如果有三个以上扩音器，则将由扩音器定义的区域分解成在顶点处与扩音器不相交的三角形，并且对于三角形的每个三元组执行vbap。这能够是有问题的，因为可以有多于一种方式来分解区域并且没有清晰的方式来确定哪种方式更可取。
19.依照本文中描述的实施方式并且与在远程呈现系统中递送音频的上述常规方法对比，改进的在远程呈现系统中递送音频的技术包括指定频率阈值，在该频率阈值以下串扰消除(cc)被使用并且在该频率阈值以上vbap被使用。在一些实施方式中，这样的频率阈值介于1000hz与2000hz之间。此外，在一些实施方式中，改进的技术包括通过形成超定系统
以一次为所有扩音器确定振幅权重来修改用于多于三个扩音器的vbap。
20.这样的混合方案在cc定位线索最重要并且cc对跟踪器误差和头部相关传递函数(hrtf)个体化的敏感性最低的频率区域中维持更准确的cc定位线索，而在频率区域之外不太准确且不太敏感的vbap定位线索被使用。此外，修改后的vbap不假定收听者与所有扩音器距离相等，并且由修改后的vbap为每个扩音器确定的权重不取决于由那些扩音器横跨的区域的任意分解。
21.图1是图示可以在其中实现上述改进的技术的示例电子环境100的示意图。如所示，在图1中，示例电子环境100包括声音渲染计算机120。
22.声音渲染计算机120被配置成实现上述混合方案并且执行上述修改后的vbap操作。声音渲染计算机120包括网络接口122、一个或多个处理单元124和存储器126。网络接口122包括例如以太网适配器、令牌环适配器等，以用于将电子信号和/或光信号转换为电子形式以供由声音渲染计算机120使用。处理单元集124包括一个或多个处理芯片和/或组件。存储器126包括易失性存储器(例如，ram)和诸如一个或多个rom、磁盘驱动器、固态驱动器等的非易失性存储器两者。处理单元集124和存储器126一起形成控制电路，其被配置和布置成执行如本文中所描述的各种方法和功能。
23.在一些实施例中，声音渲染计算机120的组件中的一个或多个能够是或能够包括被配置成处理存储在存储器126中的指令的处理器(例如，处理单元124)。如图1所描绘的这种指令的实施例包括声音获取管理器130、串扰消除管理器140和vbap管理器150。此外，如图1所图示的，存储器126被配置成存储各种数据，关于使用这种数据的相应的管理器对此进行描述。
24.声音获取管理器130被配置成从声源获取声音数据132。例如，在主持虚拟会议的远程呈现系统中，远程位置处的会议参与者讲话，并且由讲话产生的声音被麦克风检测到。麦克风将检测到的声音转换成数字数据格式，该数字数据格式通过网络被发送到声音渲染计算机120。
25.声音数据132表示由麦克风检测到并转换成数字数据格式的音频。在一些实施方式中，数字数据格式是未压缩的、单声道的、具有16khz和16位分辨率。在一些实施方式中，数字数据格式采用诸如opus或mp3的压缩立体声格式。在一些实施方式中，以高于16khz例如44khz或48khz的速率执行记录。在一些实施方式中，分辨率高于16位，例如，24位、32位、浮动等。声音渲染计算机120然后被配置成将声音数据132转换为通过扩音器播放的声音，使得在收听者的位置处，收听者会将声音感知为源自虚拟源位置(例如，在收听者旁边的座位处)。
26.声音数据132使用波形来表示由源在任何时刻产生的音频。波形表示在每个时刻或遍及时间窗口的频率的范围。在一些实施方式中，声音获取管理器130被配置成存储遍及指定时间窗口(例如，10秒、1秒、0.5秒、0.1秒等)的声音数据132的频率空间表示。在这种情况下，对于每个时间窗口，存在频率以及对应的振幅和相位的分布。
27.扩音器位置数据134表示在收听者附近的扩音器的位置。位置是关于指定坐标系的原点而被指定的。在一些实施方式中，坐标系的原点在收听者头部中的一点处。在一些实施方式中，扩音器位置数据由笛卡尔坐标三元组表示。
28.虚拟源位置数据136表示虚拟源在上述坐标系内的位置。虚拟源的位置是如由收
听者听到的声音源的表观位置。例如，在远程呈现系统中，可以期望与远程用户进行会议，但是好像该远程用户就坐在收听者旁边一样。在这种情况下，虚拟源的位置将在收听者旁边的那个地方。
29.收听者位置数据138表示收听者在上述坐标系内的位置。在一些实施方式中，收听者的位置在坐标系的原点处。在一些实施方式中，收听者位置数据138随时间而改变，对应于收听者的运动的跟踪。
30.串扰消除管理器140被配置成对声音数据132和hrtf数据142执行串扰消除操作以产生振幅/相位数据144。如关于图3和图4详细地讨论的，串扰消除操作基于声音数据132和hrtf数据142在每个扩音器处生成振幅/相位信号。当频率低于指定阈值，例如，1000hz、2000hz或在两者中间时，操作由声音渲染计算机120执行。
31.hrtf数据142表示每个扬声器与收听者的每耳之间的各种hrtf。利用两个扩音器和两耳，存在用于用户和扩音器的每种配置的四个hrtf。在一些实施方式中，hrtf基于刚性球模型，即，取决于收听者相对于扩音器的位置和定向的参数模型。像声音数据一样，hrtf在频率空间中被表示。
32.振幅/相位数据144表示串扰消除操作的输出，即，在每个扩音器处发出使得收听者在每耳中听到相应的期望声音的相应的振幅和相位。在一些实施方式中，因为声音数据132是遍及时间窗口在频率空间中被采样的，所以振幅/相位数据144将随着每个时间窗口持续时间而改变。
33.vbap管理器150被配置成对扩音器位置数据134、虚拟源位置数据136和收听者位置数据138执行vbap操作以产生表示用于每个扩音器的振幅权重的权重向量数据162。如图1所示，vbap管理器150包括扩音器矩阵管理器152、源向量管理器154和伪逆管理器156。
34.扩音器矩阵管理器152被配置成基于扩音器位置数据134和收听者位置数据138来生成扩音器矩阵数据158。在一些实施方式中，扩音器矩阵数据158具有在扩音器位置相对于收听者位置的方向上包括单位向量的分量的列。
35.源向量管理器154被配置成基于虚拟源位置数据136和收听者位置数据138来生成源向量数据160。在一些实施方式中，源向量数据160具有在虚拟源位置相对于收听者位置的方向上包括单位向量的分量的元素。
36.伪逆管理器156被配置成对扩音器矩阵数据158和源向量数据160执行伪逆操作以产生权重向量数据162。在一些实施方式中，伪逆操作包括从扩音器矩阵数据158生成彭若斯(penrose)伪逆。在一些实施方式中，伪逆操作包括生成由扩音器矩阵数据158表示的扩音器矩阵的奇异值分解(svd)。
37.权重向量数据162表示具有作为用于每个扩音器的相应的权重的元素的权重向量。用于扩音器的权重表示由该扩音器发出的信号被乘为使得收听者听到期望声音的因子。在一些实施方式中，权重向量的每个元素是正数。在一些实施方式中，权重向量的元素中的至少一个是零，暗示该零权重对应于的扩音器在为收听者产生期望声音时不起作用。
38.在一些实施方式中，存储器126能够是任何类型的存储器，诸如随机存取存储器、磁盘驱动器存储器、闪存等。在一些实施方式中，存储器126能够被实现为与声音渲染计算机120的组件相关联的多于一个存储器组件(例如，多于一个ram组件或磁盘驱动器存储器)。在一些实施方式中，存储器126能够是数据库存储器。在一些实施方式中，存储器126能
够是或能够包括非本地存储器。例如，存储器126能够是或者能够包括由多个设备(未示出)共享的存储器。在一些实施方式中，存储器126能够与网络内的服务器设备(未示出)相关联并且被配置成为声音渲染计算机120的组件服务。
39.声音渲染计算机120的组件(例如，模块、处理单元124)能够被配置成基于能够包括一种或多种类型的硬件、软件、固件、操作系统、运行时库等的一个或多个平台(例如，一个或多个类似或不同的平台)操作。在一些实施方式中，声音渲染计算机120的组件能够被配置成在设备的集群(例如，服务器场)内操作。在这样的实现方式中，声音渲染计算机120的组件的功能性和处理能够被分配到设备的集群的若干设备。
40.声音渲染计算机120的组件能够是或者能够包括被配置成处理属性的任何类型的硬件和/或软件。在一些实施方式中，在图1中的声音渲染计算机120的组件中示出的组件的一个或多个部分能够是或者能够包括基于硬件的模块(例如，数字信号处理器(dsp)、现场可编程门阵列(fpga)、存储器)、固件模块和/或基于软件的模块(例如，计算机代码的模块、能够在计算机处执行的计算机可读指令的集合)。例如，在一些实施方式中，声音渲染计算机120的组件的一个或多个部分能够是或者能够包括被配置用于由至少一个处理器(未示出)执行的软件模块。在一些实施方式中，组件的功能性能够被包括在与图1所示的那些不同的模块和/或不同的组件中。
41.尽管未示出，但是在一些实施方式中，声音渲染计算机120(或其部分)的组件能够被配置成在例如数据中心(例如，云计算环境)、计算机系统、一个或多个服务器/主机设备等内操作。在一些实施方式中，声音渲染计算机120(或其部分)的组件能够被配置成在网络内操作。因此，声音渲染计算机120(或其部分)的组件能够被配置成在能够包括一个或多个设备和/或一个或多个服务器设备的各种类型的网络环境中起作用。例如，网络能够是或者能够包括局域网(lan)、广域网(wan)等。网络能够是或者能够包括使用例如网关设备、桥接器、交换机等实现的无线网络和/或无线网络。网络能够包括一个或多个分段并且/或者能够具有基于诸如网际协议(ip)和/或专有协议的各种协议的部分。网络能够包括互联网的至少一部分。
42.在一些实施例中，声音渲染计算机120的组件中的一个或多个能够是或者能够包括被配置成处理存储在存储器中的指令的处理器。例如，声音获取管理器130(和/或其一部分)、串扰消除管理器140(和/或其一部分)和vbap管理器150(和/或其一部分)能够是被配置成执行与用于实现一个或多个功能的过程相关的指令的处理器和存储器的组合。
43.图2是图示将用户交互数据映射到离散桶的示例方法200的流程图。方法200可以由连同图1一起描述的软件构造被执行，这些软件构造驻留在声音渲染计算机120的存储器126中并且由处理单元集124运行。
44.在202处，声音获取管理器130接收来自源位置处的音频源的音频数据，该音频数据表示被配置成经由收听者位置处的收听者所听到的多个扩音器被转换成一定频率的声音的音频波形，多个扩音器中的每一个具有相应的扩音器位置。
45.在204处，串扰消除管理器140响应于音频信号的频率低于指定阈值而对多个扩音器执行串扰消除(cc)操作以产生由该扩音器发出的相应的音频信号的振幅和相位以确定空间化线索。
46.在206处，vbap管理器150响应于音频信号的频率高于指定阈值而对多个扩音器执
行vbap操作以产生用于该扩音器的相应的权重，用于多个扩音器中的每一个的相应的权重表示由该扩音器发出的音频信号被乘以确定空间化线索的因子。
47.图3是图示在考虑串扰消除(cc)操作时使用的示例几何形状300的示意图。在几何形状300内，一对扩音器310(1)和310(2)面对收听者320。
48.通常按头部相关传递函数(hrtf)描述声音从源到人类收听者的传播。hrtf是描述在不存在混响的情况下从特定位置处的点源到左耳和右耳的传播的频率响应。hrtf取决于许多因素。为了简单，它通常被简化为依赖于相对于头部正在指向的方向的源到达定向—即，方位角和仰角。其他因素通常被忽略，诸如距离、头部相对于躯干的转动等。
49.由扩音器310(1)呈现的声音使用通过(h
1l
,h
1r
)描述的hrtf传播到收听者320的两耳。类似地，由扩音器310(2)呈现的声音如通过(h
2l
,h
2r
)所描述的那样传播到收听者320的两耳。这意味着—在频域中表示—从扩音器播放的信号s1和s2产生遵守以下关系的观察信号l和r：
[0050][0051]
假设要在两耳处被呈现的期望的双耳信号由l
des
和r
des
给出，那么能够求解此方程组以获得适当的s1和s2，当通过扩音器播放时，将在各耳处产生期望的信号：
[0052][0053]
因此，如果扬声器到耳的hrtf(h
1l
,h
1r
)和(h
2l
,h
2r
)是已知的，则一个人可以生成将空间化音频递送给收听者320所必需的扩音器输出信号。
[0054]
注意，当收听者的位置相对于扩音器改变(或者反之亦然)时，hrtf将改变。在图4中提供了可以随着收听者移动而实时地改变的hrtf的示例。
[0055]
图4示出了分别位于收听者的头部的左侧和右侧的两个源定向(az,el)：(
‑
10
°
，0
°
)和(20
°
，0
°
)的hrtf。面板的顶行示出左耳和右耳传递函数的振幅。面板的中间行示出除以右耳频率响应的左耳的振幅。底行示出时间传播相对的左耳对右耳时间延迟。这些曲线图示出对声音定位来说相关的以下hrtf特征。
[0056]
作为两耳之间的源信号中明显的相对延迟的耳间时间差(itd)。考虑图4中的面板的底行。从收听者左侧—即，从(
‑
10
°
，0
°
)—到达的源首先到达左耳，其次到达右耳。这产生针对此源位置观察到的负相对延迟l/r(＝itd)。从收听者右侧—即，从(20
°
，0
°
)—到达的源显示出相反的行为。来自(20
°
，0
°
)的更横向地定位的源的|itd|大于来自(
‑
10
°
，0
°
)的源的|itd|。itd随频率而不恒定，好像对于自由场中的点一样。头部的存在产生在较低频率下比在较高频率下大的itd振幅。
[0057]
作为两耳之间的源信号中的相对电平差的耳间电平差(ild)。考虑图4中的面板的顶行和中间行。从收听者左侧—即，从(
‑
10
°
，0
°
)—到达的源在左耳处比在右耳处更响亮，因为头部随着在源行进到右耳而“遮蔽”源。对于此源位置，这产生以db表达的振幅l/r(＝ild)的正比值。从收听者右侧—即，从(20
°
，0
°
)—到达的源显示出相反的行为。来自(20
°
，0
°
)的更横向地定位的源的|ild|通常大于来自(
‑
10
°
，0
°
)的源的|ild|，因为头部遮蔽的程度更高。类似于itd，ild随频率而不恒定。头部的存在产生在较高频率下比在较低频率下大
的ild振幅。
[0058]
作为在图4中的面板的顶行中示出的传递函数振幅中明显的峰、谷和凹口的光谱线索。这些从包括耳道共振、来自收听者的躯干/肩部的反射以及外耳或耳廓的反射的各种因素而出现。
[0059]
通常，耳间线索(itd和ild)反映源偏侧化(即，向收听者左侧或右侧的移动)。itd和ild中的宽趋势跨不同的收听者是类似的并且甚至令它们本身容易使用刚性球头部模型来模拟。由于itd在较高频率下开始混叠，itd与较低频率(低于～1500hz)最相关。主要由于itd在这些频率下的相关性降低，ild与较高频率(高于～1500hz)最相关。
[0060]
当沿着类似偏侧化的源位置的“混淆锥”考虑时，耳间线索变得模糊。例如，位于(az,el)＝(45
°
，0
°
)、(135
°
，0
°
)、(90
°
，45
°
)和(90
°
，
‑
45
°
)处的源都类似地沿着通过使指向(45
°
，0
°
)的射线绕耳间轴转动而形成的锥体侧向化。频谱线索通常由收听者使用来区分沿着同一混淆锥的源位置。特别地，频谱线索对于仰角定位和前/后源辨别有用。它们对于“外部化”也有用—即，使声音变得看起来好像它源自头部外部的实际点。由于跨不同收听者的耳廓结构中的高度个体化变化，频谱线索是被高度个体化的。
[0061]
远程呈现系统被配置成呈现远程谈话者的语音好像谈话者在收听者的声学空间中一样。假设了声音渲染计算机120已经适当地“清理：所发送的音频，使得它是仅由谈话者的语音构成的单个声道。声音渲染计算机120的任务是为了基于收听者和谈话者的相对位置和头部定向来将此单个源转换成双耳信号。这是通过如图3所示的那样对谈话者的语音应用适当的hrtf以产生应该被呈现给收听者的耳的信号而被完成的。
[0062]
用于获取这些信号的一种技术是用于ild/itd渲染的刚性球模型或刚性球hrtf模型。研究已经表明，刚性球模型能够产生耳间线索，特别是itd，其反映利用实际收听者观察到的那些。图4也以虚线示出基于半径为8.5cm的刚性球头部模型的合成hrtf。(其他半径可以被使用，例如8.0cm、9.0cm、7.5cm、9.5cm等。)耳间线索非常类似，但是高频ild倾向于降低。不存在详细的频谱线索，但这并不意外。然而，刚性球模型具有被完全参数化且数学上可解的优点。
[0063]
可以使用的另一技术是定制hrtf呈现，其中收听者自己的凭经验推导的hrtf被应用。虽然这产生最准确且最真实的双耳信号，但是在一些实施方式中，与此方法相关联的成本致使它作为一般方法是不切实际的。
[0064]
可以使用的另一技术是参考集hrtf渲染。不是使用个别收听者的hrtf，替代方案将是使用用于空间化的通用“典型”hrtf，或从参考hrtf的库中选取的hrtf。由于itd和ild的耳间线索通常是跨收听者类似的，这将产生良好的空间化，尤其相对于侧向源。
[0065]
可以使用的另一技术是参考集ild/itd渲染。代替使用全hrtf来合成空间化，更简单的替代方案将是仅合成耳间(itd和ild)定位线索。这些线索是跨收听者类似的，所以耳间线索的使用或“参考集”将产生横向源的与使用收听者它自己的耳间线索实现的类似的空间化。此外，耳间线索与全hrtf比通常不太“丰富”，这意味着它们可以能够在不太密集的源定向集被参数化或被采样，从而减少在运行时的存储器占用。
[0066]
如上所述，对于较低频率(例如，在介于1000hz与2000hz之间以下)最好执行上述cc操作。在这种频率以上，改进的技术包括执行修改后的vbap操作以为扩音器中的至少一些产生正权重集。
[0067]
图5是图示在考虑修改后的基于向量的振幅平移(vbap)操作时使用的示例几何形状500的示意图。在几何形状500中，存在四个瞄准收听者530的扩音器510(1)、510(2)、510(3)和510(4)。通常在收听者520前面也存在虚拟源520。收听者530不一定与所有扩音器510(1
‑
4)距离相等并且可以相对于它们四处移动。在一些实施方式中，在收听者530附近存在不止四个扩音器。在一些实施方式中，在收听者530附近存在两个扩音器。
[0068]
图5示出从收听者530(或通常，收听者530)的中心指向扩音器510(1
‑
4)u
hl，1
‑4和虚拟源520u
hv
中的每一个的单位向量集。根据这些单位向量，vbap管理器150生成超定(或当扩音器的数量少于三个时未定)线性系统，其产生与扩音器510(1
‑
4)中的每一个相对应的权重。
[0069]
用于常规vbap的线性系统的解决方案具有若干限制。首先，常规vbap假设收听者530的头部被定位为与所有扩音器例如510(1
‑
4)距离相等。其次，常规vbap使用正好三个扩音器来空间化虚拟源520。当存在多于三个扩音器时，常规vbap需要将收听者空间划分成不重叠的三角形，使得每个子区域被正好三个扩音器覆盖。在常规vbap中，虽然空间化是通过为扩音器的适当子集计算vbap权重被实现的，但是它需要将空间任意划分成三角形。例如，当扩音器510(1
‑
4)以收听者为中心被布置在正方形中时，正方形可以以两种不同的方式被划分成两个三角形：510(1,2,3) 510(2,3,4)或510(1,2,4) 510(1,3,4)；不清楚哪个是更可取的。此外，划分成三个扩音器的分组能够导致违反直觉的扩音器加权。例如，考虑上面划分成由510(1,2,3) 510(2,3,4)横跨的两个三角形子区域的正方形几何形状。在这种情况下，正好位于正方形的中心处的虚拟源将仅具有对于扩音器510(2)和510(3)的非零vbap权重。更直观的vbap加权将具有来自所有四个扩音器的相等贡献。第三，不保证根据常规vbap找到的所有权重将全部是正的。因此，修改后的vbap关于图4被呈现。
[0070]
图6是图示执行修改后的vbap的示例方法600的流程图。方法600可以由关于图1描述的软件构造执行，这些软件构造驻留在声音渲染计算机120的存储器126中并且由处理单元集124运行。
[0071]
在602处，扩音器管理器152基于单位向量u
hl，1
‑4来生成扩音器矩阵。通常，扩音器矩阵具有对于每个列在与每个扩音器相对应的三个维度上的单位向量。例如，当存在n个扩音器时，扩音器矩阵具有维度3
×
n。对于图5所图示的情况，矩阵具有维度3
×
4。因此，线性系统是超定的。
[0072]
在604处，源向量管理器154生成源向量。在这种情况下源向量仅仅是单位向量u
hv
。
[0073]
在606处，伪逆管理器156对扩音器矩阵和源向量执行伪逆操作以产生权重向量。例如，在一些实施方式中，伪逆管理器156通过计算矩阵(l
t
l)
‑1l
t
来生成扩音器矩阵l的彭若斯伪逆。在这种情况下，权重然后从量(l
t
l)
‑1l
t
u
hv
被产生。超定系统的权重向量未被唯一地确定。在这种情况下，伪逆管理器156产生具有最小范数的权重向量w，即，权重向量w的分量的平方和最小。
[0074]
在608处，vbap管理器150确定权重向量的所有分量是否都是正的。如果所有权重都是正的，则方法600在614处完成。如果不是，则在610处vbap管理器将权重向量w的所有那些分量设置为零。实际上，vbap管理器150移除负权重对应于的那些扩音器。在这种情况下，在612处，扩音器矩阵管理器152生成新的扩音器矩阵l
′
，其中列对应于被移除的负权重。方法600然后重复直到权重向量w的所有分量都是正的为止。
[0075]
在一些实施方式中，在产生具有所有正分量的权重向量之后，vbap管理器150将每个分量乘以相应的头部到扩音器距离。该乘法校正由于波在不同距离之上传播而导致的反平方距离扬声器能量损失。在不存在混响的情况下，这对于收听者与扩音器距离不等的情形补偿扩音器指向的非混响路径信号。在一些实施方式中，权重向量w也可以包括基于收听者与扩音器之间的距离的相位分量。在这种情况下，这样的相位分量在收听者的头部处对齐信号的相位。
[0076]
上述修改后的vbap解决上述所有三个担忧。具体地，(i)修改后的vbap不假设收听者与所有扩音器距离相等，(ii)修改后的vbap适用于2 个扩音器，(iii)扩音器的子集是通过迭代过程而不是通过将空间任意预划分成三角形被选择的，(iv)对于诸如正方形的布置，位于正方形的中心处的源从所有四个顶点扩音器接收到相等的vbap贡献，(v)所有权重都是正的。
[0077]
上述改进的技术使用被跟踪的收听者头部位置来连续地更新vbap权重以进行正确的源空间化。注意，vbap仅取决于收听者头部位置和虚拟源位置。vbap不需要头部转动或hrtf的知识。这能够导致与由cc提供的空间化相比不太准确的空间化线索，但是空间化线索也不太易受跟踪误差和hrtf不精确影响。
[0078]
总之，cc需要收听者位置/转动以及收听者hrtf的知识。另一方面，vbap仅需要收听者位置的知识。通常，cc提供更准确的定位线索，但是对跟踪器(尤其是转动)误差更敏感并且受到底层hrtf模型的准确性限制，而vbap提供不太准确的定位线索但是对跟踪器误差不太敏感并且根本不需要hrtf知识。cc对跟踪器误差的敏感性是波长相关的—随着波长减小，跟踪器误差变成波长的较大的分数。此外，收听者hrtf的高度个体化方面集中在依赖于个别收听者的外耳(或耳廓)的形状的高频频谱线索中。最后，声音定位(尤其是左/右定位)由低频耳间线索主导。
[0079]
这些性质建议在低频区域中使用cc而在高频区域中使用vbap的混合cc/vbap方法。那样，更准确的cc定位线索被维持在它们最重要并且cc对跟踪器误差和hrtf个体化的敏感性最低并且在别处使用对跟踪器误差较不敏感的vbap定位线索的频率区域中。低频区域与高频区域之间的典型截止频率在1000
‑
2000hz的范围内(这反映双耳时间差开始在此区域中空间上混叠的事实)。
[0080]
图7图示可以与这里描述的技术一起使用的通用计算机设备700和通用移动计算机设备750的示例。
[0081]
如图7中所示，计算设备700旨在表示各种形式的数字计算机，诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机、和其它适当的计算机。计算设备750旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话、和其它类似的计算设备。这里示出的组件、其连接和关系及其功能仅意在为示例性的，而不意在限制本文档中描述和/或要求保护的发明的实施方式。
[0082]
计算设备700包括处理器702、存储器704、存储设备706、连接到存储器704和高速扩展端口710的高速接口708、以及连接到低速总线714和存储设备706的低速接口712。组件702、704、706、708、710和712中的每一个使用各种总线被互连，并且可以酌情被安装在公共主板上或者以其它方式被安装。处理器702能够处理用于在计算设备700内执行的指令，包括在存储器704中或者在存储设备706上存储以在诸如耦合到高速接口708的显示器716的
外部输入/输出设备上显示用于gui的图形信息的指令。在其它实施方式中，多个处理器和/或多个总线以及多个存储器和多种类型的存储器可以酌情被使用。另外，多个计算设备700可以被连接，其中每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器、或多处理器系统)。
[0083]
存储器704存储计算设备700内的信息。在一个实施方式中，存储器704是一个或多个易失性存储器单元。在另一实施方式中，存储器704是一个或多个非易失性存储器单元。存储器704还可以是另一形式的计算机可读介质，诸如磁盘或光盘。
[0084]
存储设备706能够为计算设备700提供大容量存储。在一个实现方式中，存储设备706可以是或者包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪速存储器或其它类似的固态存储器设备、或设备的阵列，包括存储区域网络或其它配置中的设备。计算机程序产品能够被有形地体现在信息载体中。计算机程序产品还可以包含指令，当被执行时，其执行诸如上述的那些方法的一个或多个方法。信息载体是计算机或机器可读介质，诸如存储器704、存储设备706或处理器702上的存储器。
[0085]
高速控制器708管理计算设备700的带宽密集操作，而低速控制器712管理较低带宽密集操作。功能的这种分配仅是示例性的。在一个实施方式中，高速控制器708被耦合到存储器704、显示器716(例如，通过图形处理器或加速器)，并且被耦合到高速扩展端口710，该高速扩展端口710可以接受各种扩展卡(未示出)。在该实施方式中，低速控制器712被耦合到存储设备706和低速扩展端口714。可以包括各种通信端口(例如，usb、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器被耦合到一个或多个输入/输出设备，诸如键盘、指向设备、扫描仪或诸如交换机或路由器的联网设备。
[0086]
如图中所示，计算设备700可以以许多不同的形式被实现。例如，它可以作为标准服务器720被实现，或者在一组这种服务器中多次被实现。它还可以作为机架服务器系统724的部分被实现。另外，它可以被实现在诸如膝上型计算机722的个人计算机中。可替代地，来自计算设备700的组件可以与移动设备(未示出)(诸如设备750)中的其它组件组合。这种设备中的每一个可以包含计算设备700、750中的一个或多个，并且整个系统可以由彼此通信的多个计算设备700、750组成。
[0087]
计算设备750包括处理器752、存储器764、诸如显示器754的输入/输出设备、通信接口766、和收发器768以及其它组件。设备750还可以被设置有存储设备，诸如微驱动器或其它设备，以提供附加存储。组件750、752、764、754、766和768中的每一个使用各种总线被互连，并且若干组件可以酌情被安装在公共主板上或者以其它方式被安装。
[0088]
处理器752能够执行计算设备750内的指令，包括在存储器764中存储的指令。处理器可以作为芯片的芯片组被实现，该芯片包括单独的和多个模拟和数字处理器。例如，处理器可以提供用于协调设备750的其它组件，诸如对用户界面、由设备750运行的应用和由设备750进行的无线通信的控制。
[0089]
处理器752可以通过耦合到显示器754的控制接口758和显示接口756来与用户进行通信。显示器754可以是例如tft lcd(薄膜晶体管液晶显示器)或oled(有机发光二极管)显示器，或其它适当的显示技术。显示接口756可以包括用于驱动显示器754以向用户呈现图形和其它信息的适当的电路。控制接口758可以从用户接收命令并且对它们进行转换以用于提交给处理器752。另外，可以提供与处理器752通信的外部接口762，以便使设备750能
够与其它设备的近区域通信。外部接口762可以例如在一些实施方式中提供用于有线通信，或者在其它实现方式中提供用于无线通信，并且多个接口还可以被使用。
[0090]
存储器764存储计算设备750内的信息。存储器764能够作为计算机可读介质(medium)或介质(media)、一个或多个易失性存储器单元、或者一个或多个非易失性存储器单元中的一个或多个被实现。扩展存储器774还可以通过扩展接口772被提供并被连接到设备750，该扩展接口772可以包括例如simm(单列直插存储器模块)卡接口。这种扩展存储器774可以为设备750提供额外的存储空间，或者还可以为设备750存储应用或其它信息。具体地，扩展存储器774可以包括用于执行或者补充上述的过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器774可以作为用于设备750的安全模块被提供，并且可以被编程具有允许安全地使用设备750的指令。此外，安全应用连同附加信息一起可以经由simm卡被提供，诸如以不可破解的方式将识别信息放置在simm卡上。
[0091]
如下所述，存储器可以包括例如闪速存储器和/或nvram存储器。在一个实施方式中，计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令，当被执行时，其执行一个或多个方法，诸如上述的那些方法。信息载体是可以例如通过收发器768或外部接口762接收的计算机可读介质或机器可读介质，诸如存储器764、扩展存储器774、或处理器752上的存储器。
[0092]
设备750可以通过通信接口766以无线方式通信，该通信接口766在必要时可以包括数字信号处理电路。通信接口766可以提供用于在各种模式或协议下通信，诸如gsm语音呼叫、sms、ems、或mms消息传送、cdma、tdma、pdc、wcdma、cdma2000、或gprs等。这种通信可以例如通过射频收发器768而发生。另外，短距离通信可以发生，诸如使用蓝牙、wifi、或其它这种收发器(未示出)。另外，gps(全球定位系统)接收器模块770可以向设备750提供附加的导航和定位相关无线数据，其可以由在设备750上运行的应用酌情使用。
[0093]
设备750还可以使用音频编解码器760可听地通信，该音频编解码器760可以从用户接收口语信息并将它转换为可用的数字信息。音频编解码器760可以诸如通过例如在设备750的听筒中的扬声器同样地为用户生成可听声音。这种声音可以包括来自语音电话呼叫的声音，可以包括录制声音(例如，语音消息、音乐文件等)并且还可以包括由在设备750上操作的应用生成的声音。
[0094]
如图中所示，计算设备750可以以许多不同的形式被实现。例如，它可以作为蜂窝电话780被实现。它还可以作为智能电话782、个人数字助理、或其它类似的移动设备的部分被实现。
[0095]
这里描述的系统和技术的各种实施方式能够以数字电子电路、集成电路、专门地设计的asic(专用集成电路)、计算机硬件、固件、软件、和/或其组合被实现。这些各种实施方式能够包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括可以是专用的或通用的至少一个可编程处理器，该可编程处理器耦合为从存储系统、至少一个输入设备、和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备、和至少一个输出设备发送数据和指令。
[0096]
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象编程语言、和/或用汇编/机器语言被实现。如本文中所使用的，术语“机器可读介质”、“计算机可读介质”指代用于向可编程处理器提
供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(pld))，包括将机器指令作为机器可读信号接收的机器可读介质。术语“机器可读信号”指代用于向可编程处理器提供机器指令和/或数据的任何信号。
[0097]
为了提供与用户的交互，这里描述的系统和技术能够被实现在计算机上，该计算机具有用于向用户显示信息的显示设备(例如，crt(阴极射线管)或lcd(液晶显示器)监视器)以及用户能够通过其向该计算机提供输入的键盘和指向设备(例如，鼠标或轨迹球)。其它种类的设备还能够被用于提供用于与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且能够以任何形式接收来自用户的输入，包括声学、语音、或触觉输入。
[0098]
这里描述的系统和技术能够被实现在计算系统中，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有用户能够用与这里描述的系统和技术的实现方式交互的图形用户界面或web浏览器的客户端计算机)，或者包括这种后端、中间件、或前端组件的任何组合。系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)被互连。通信网络的示例包括局域网(“lan”)、广域网(“wan”)和互联网。
[0099]
计算系统能够包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序而出现。
[0100]
已经描述了许多实施例。然而，应当理解的是，可以在不脱离本说明书的精神和范围的情况下做出各种修改。
[0101]
还应当理解的是，当一个元件被称为在另一元件上、连接到、电连接到、耦合到或者电耦合到另一元件时，它可以直接地在另一元件上，连接或者耦合到另一元件，或者可以存在一个或多个中间元件。相反，当一个元件被称为直接地在另一元件上、直接地连接到或者直接地耦合到另一元件时，不存在中间元件。尽管在整个详细描述中可以不使用术语“直接地在上”、“直接地连接到”或“直接地耦合到”，然而被示出为直接地在上、直接地连接或直接地耦合的元件能够被如此指代。可以修改本技术的权利要求以叙述在说明书中描述或在图中示出的示例性关系。
[0102]
虽然已经像本文中所描述的那样示出了所描述的实施方式的某些特征，但是本领域的技术人员现在将想到许多修改、替换、改变和等同物。因此应当理解的是，所附权利要求旨在涵盖落入实施方式的范围内的所有这种修改和改变。应当理解的是，它们已仅作为示例而非限制性地被呈现，并且可以做出形式和细节上的各种改变。可以按照除相互排斥的组合外的任何组合来组合本文中描述的装置和/或方法的任何部分。本文中描述的实施方式能够包括所描述的不同实施方式的功能、组件和/或特征的各种组合和/或子组合。
[0103]
另外，在附图中描绘的逻辑流程不要求所示的特定次序或顺序次序来实现所期望的结果。此外，可以提供其他步骤，或者可以从所描述的流程中去除步骤，并且可以向所描述的系统添加或者从所描述的系统移除其他组件。因此，其他实施例在以下权利要求的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

三维音频源空间化的制作方法

相关文献

最热文献