一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

生成与虚拟声源相关联的音频信号的制作方法

2022-08-28 06:05:10 来源:中国专利 TAG:


1.本公开涉及用于生成与虚拟声源相关联的音频信号的方法和系统。特别涉及其中输入音频信号x(t)被修改以获得经修改的音频信号并且其中修改包括执行信号延迟操作的这种方法和系统。音频信号y(t)是基于输入音频信号x(t)和经修改的音频信号的组合(例如,总和)而生成的。


背景技术:

2.在通过音频发射器(即扬声器)回放声音时,(记录的)声音的许多固有空间信息会丢失。因此,通过扬声器的声音体验通常被认为缺乏深度(听起来“扁平”)和维度(听起来“在盒子中”)。跨扬声器的声音体验中完全缺少对高度的主动感知。这些状况在环境中的听者和声音之间产生内在的分离。这为观察者在身体和情感上完全认同声音环境造成了障碍,并且通常这使得声音体验更加被动且不那么吸引人。
3.von bek
é
sy的(experiments in hearing,1960)描述了这个问题的经典演示:随着扬声器维度的减小,“在盒子中”声音效果似乎增加。在关于声功率、频谱平衡和感知空间维度和与响度之间关系的实验研究中,一旦声源的维度超过再现扬声器音箱的实际形状,von bek
é
sy的测试对象就无法正确指示再现声源的相对维度形状。可以得出结论,扬声器的空间频谱特性在传输声音信息时会引入消息-媒体冲突。我们无法识别再现声音中声源的空间维度。相反,我们聆听扬声器的特性。
4.在现有技术中,没有令人满意的方法来记录或计算声源的维度信息。发声物体的近场信息不能被麦克风准确捕捉,或者理论上需要无限的压力和粒子速度换能器网格来捕捉物体的维度信息。
5.对于维度信息的计算模拟,波动方程的解仅适用于有限数量的基本几何形状和有限的频率范围。鉴于问题缺乏分析解决方案,模拟模型不得不求助于有限计算方法来尝试再现期望数据。以这种方式收集并借助于涉及fft(快速傅立叶变换)的技术(诸如卷积或加法合成)再现的数据需要复杂的计算和非常大量的数据处理,因此对于计算机处理来说本质上是非常密集的。这限制了此类方法的应用,并对能够准确再现信息的音频回放系统提出了问题。
6.因此,本领域需要一种计算上不那么昂贵的用于生成与虚拟声源相关联的音频信号的方法。


技术实现要素:

7.为此,公开了一种用于生成与虚拟声源相关联的音频信号的方法。该方法包括(i)获得输入音频信号x(t),以及使用引入时间延迟的信号延迟操作来修改输入音频信号x(t)以获得经修改的音频信号;以及基于输入音频信号x(t)或输入音频信号x(t)的反相和/或衰减或放大版本以及经修改的音频信号的组合(例如,总和)生成音频信号y(t)。替代地(ii),该方法包括获得输入音频信号x(t),并且基于递归地将输入音频信号x(t)的经修改
的版本加到自身的信号反馈操作来生成音频信号y(t),其中信号反馈操作包括引入时间延迟的信号延迟操作以及可选的信号反相操作。
8.当虚拟声源被认为具有特定尺寸和形状和/或位于特定距离处和/或位于特定高度或深度处时,它可以被理解为观察者在听到所生成的音频信号时将音频信号感知为源自具有该特定尺寸和形状和/或位于所述特定距离和/或所述特定高度或深度处的声源。也如上述von bek
é
sy实验所描述的那样,人类的听觉对与产生声音的物体的维度相关的频谱信息非常敏感。人类听觉主要通过其共振来识别发声物体的特征,即一个或几个基本频率及其相关的高次谐波的放大,这种放大是由于物体或空间内部由于其特定的尺寸和形状而出现的驻波造成的。通过从音频信号中添加和减去频谱信息,使其产生的频谱与预期物体或空间的共振非常相似,可以至少部分推翻(一个或多个)扬声器的空间频谱特性并借助于其尺寸和形状创建相干空间投影。申请人已经意识到,与声源的维度及其相对于观察者的虚拟距离、高度和深度相关的这种空间信息可以通过对输入音频信号执行相对简单的操作来加到音频信号中。特别地,申请人已经发现这些简单的操作足以生成具有如下特性的音频信号:使得人类听觉装置的生理机能导致观察者将音频信号感知为来自具有特定位置和维度、而不是产生声音的扬声器的位置和维度的声源。上述方法不需要过滤或合成各个(频带)频率和振幅来将该空间信息加到输入音频信号。因此,该方法绕过了为此目的对fft合成技术的需求,以这种方式简化了处理并大大降低了所需的处理能力。
9.可选地,该方法包括回放所生成的音频信号,例如,通过将所生成的音频信号提供给一个或多个扬声器以使所生成的音频信号由一个或多个扬声器回放。
10.所生成的音频信号一旦被扬声器系统播放,就会引起观察者所期望的感知,而不管使用了多少个扬声器,也不管观察者相对于扬声器的位置如何。
11.所谓基于两个或更多个信号的组合而生成的信号可以是这两个或更多个信号的组合,例如,总和。
12.在示例中,所生成的音频信号被存储在计算机可读介质上,使得它可以在以后的时间由扬声器系统播出。
13.音频信号可以是实时生成的,这可以被理解为在输入音频信号到来时立即生成音频信号,和/或可以被理解为输入音频信号在特定时间的任何变化都在三秒内、优选地在0.5秒内、更优选地在50ms内、最优选地在10ms内被反映在所生成的音频信号中。用于生成音频信号的相对简单的操作允许这样的实时处理。可选地,所生成的音频信号是实时回放的,这可以被理解为音频信号一旦生成,就在没有明显延迟的情况下回放。
14.在实施例中,虚拟声源具有形状。这样的实施例包括生成与虚拟声源的形状上的各个虚拟点相关联的音频信号分量。该步骤包括生成与虚拟声源的形状上的第一虚拟点相关联的第一音频信号分量和与虚拟声源的形状上的第二虚拟点相关联的第二音频信号分量,其中要么(i)
15.生成第一音频信号分量包括使用引入第一时间延迟的第一信号延迟操作来修改输入音频信号以获得经修改的第一音频信号分量,并且包括基于输入音频信号或输入音频信号x(t)的反相和/或衰减或放大版本与经修改的第一音频信号分量的组合(例如,总和)生成第一音频信号分量,要么其中(ii)
16.生成第一音频信号分量包括使用递归地将输入音频信号x(t)的修改版本加到自
身的反馈回路,其中反馈回路包括引入第一时间延迟的信号延迟操作和信号反相操作。此外,在本实施例中,要么(i)
17.生成第二音频信号分量包括使用引入与第一时间延迟不同的第二时间延迟的第二信号延迟操作来修改输入音频信号以获得经修改的第二音频信号分量,并且包括基于输入音频信号或输入音频信号x(t)的反相和/或衰减或放大版本与经修改的第二音频信号分量的组合(例如,总和)生成第二音频信号分量,要么其中(ii)
18.生成第二音频信号分量包括使用递归地将输入音频信号x(t)的修改版本加到自身的反馈回路,其中反馈回路包括引入第二时间延迟的信号延迟操作和信号反相操作。
19.申请人已经发现该实施例允许以简单的方式将虚拟声源的维度信息加到输入音频信号x(t),而不需要复杂的算法,诸如fft算法、各个频带的加法合成或多个带通滤波器以获得期望的结果,如在现有技术中那样。
20.优选地,可以在虚拟声源的形状上定义许多多于两个的虚拟点。可以在虚拟声源的形状上定义任意数量的虚拟点。对于这些虚拟点中的每一个,可以确定音频信号分量。然后,音频信号分量的每个确定可以包括使用引入相应时间延迟的信号延迟操作来确定经修改的音频信号分量。然后可以基于其经修改的音频信号分量和输入音频信号的组合(例如,总和)来确定每个音频信号分量。
21.经修改的音频信号分量的每个确定还可以包括执行信号反相操作和/或信号放大或衰减和/或信号反馈操作。在本文中,优选地,最后执行信号反馈操作。原则上,信号反相操作、放大/衰减和信号延迟操作可以以任何顺序执行。
22.虚拟点可以彼此等距地位于虚拟声源的形状上。此外,虚拟声源可以具有任何形状,诸如一维形状,例如,1d弦(string),二维形状,例如,2d板形状,或三维形状,例如,3d立方体。
23.对于一些音频信号分量,音频信号被延迟的时间段可以为零。为了说明,如果虚拟声源是弦,那么在其振动受限的弦的各个端的两个虚拟点的时间延迟可以为零。这将在下面参考各图进行说明。
24.在实施例中,该方法包括获得表示虚拟声源的形状上的各个虚拟点的虚拟位置的形状数据,并且基于第一或第二虚拟点的虚拟位置确定第一或第二时间延迟。因此,可以基于这些虚拟点的相应虚拟位置来确定用于确定不同虚拟点的相应音频信号分量的相应时间延迟。
25.申请人已经发现,该实施例使得能够考虑声波如何通过三维形状传播,这使得能够准确地生成被观察者感知为源自具有该特定形状的声源的音频信号。当生成的与虚拟点相关联的音频信号分量通过扬声器回放或分布在多个扬声器上时,结果被感知为空间中的一个相干声源,因为信号分量根据虚拟形状的基本共振频率按谐波比率(harmonic ratio)在对应波长处增强了它们的相干性。这至少部分地推翻了耳朵检测其实际输出分量(即(一个或多个)扬声器)的机制。
26.优选地,音频输入信号的每个时间延迟版本的时间段是根据空间维度和时间之间的关系确定的,其示例在下面的图描述中给出。
27.在实施例中,要生成的音频信号y(t)与离观察者有一定距离的虚拟声源相关联。该实施例包括(i)使用引入时间延迟的时间延迟操作和信号反馈操作来修改输入音频信号
以获得第一经修改的音频信号,以及(ii)基于输入音频信号x(t)和第一经修改的音频信号的组合生成第二经修改的音频信号;以及(iii)基于第二经修改的音频信号生成音频信号y(t),该步骤包括衰减第二经修改的音频信号并且可选地包括执行引入第二时间延迟的时间延迟操作。
28.人类听觉识别主要检测听觉刺激的整体强度的变化的声源距离以及从高频到低频的能量按比例更快的耗散。申请人已经发现该实施例允许以非常简单且计算成本低廉的方式将这种距离信息加到输入音频信号。
29.第二引入的时间延迟可以用于对观察者造成多普勒效应。该实施例还允许控制使信号中的共振频率的带宽变窄或变宽的q因子。在这种情况下,由于感知到的共振频率在尽可能远的虚拟距离处无限低,因此q因子会影响覆盖从高频到低频的整个可听频率范围的曲线的陡度,从而导致信号中预期逐渐增加的高频耗散。
30.优选地,为了获得第一经修改的音频信号而执行的时间延迟操作引入的时间延迟短于0.00007秒,优选地短于0.00005秒,更优选地短于0.00002秒,最优选地大约为0.00001秒。
31.可以根据虚拟声源的距离来衰减第二经修改的音频信号。对于为了确定第一经修改的音频信号而执行的信号反馈操作,其中信号的衰减版本被递归地加到自身,优选地还根据所述距离执行信号衰减。可选地,这样的实施例包括获得表示虚拟声源的距离的距离数据,使得可以自动适当地控制衰减。该实施例允许通过简单地调整一些值来使虚拟声源朝向和远离观察者“移动”。
32.在上述实施例中,信号反馈操作包括衰减信号,例如在执行引入所述时间延迟的时间延迟操作之后获得的信号,并将衰减后的信号递归地加到信号自身。这样的实施例还可以包括根据所述距离控制信号反馈操作中的衰减程度和第二经修改的音频信号的衰减程度,使得距离越大,信号反馈操作中的衰减程度越低并且第二经修改的音频信号的衰减程度越高。
33.在实施例中,虚拟声源与观察者有一定距离。该实施例包括使用递归地将输入音频信号的修改版本加到自身的信号反馈操作来修改输入音频信号以获得第一经修改的音频信号,其中反馈操作包括引入时间延迟的信号延迟操作,并且基于第一经修改的音频信号生成音频信号y(t),该步骤包括信号衰减和可选的引入第二时间延迟的时间延迟操作,其中可选地,该实施例还包括基于第一经修改的音频信号和第一经修改的音频信号的时间延迟版本的组合生成第二经修改的音频信号,并且基于第二经修改的音频信号、因此基于第一经修改的音频信号生成音频信号y(t)。
34.上述关于引入的时间延迟的考虑也适用于本实施例中的衰减。
35.在实施例中,其中虚拟声源位于距观察者一定距离处,并且其中第二经修改的音频信号根据距离而衰减,修改输入音频信号以获得第一经修改的音频信号包括特定的信号衰减。该实施例包括根据所述距离控制特定信号衰减的衰减程度和第二经修改的音频信号的衰减程度,使得距离越大,特定信号衰减的衰减程度越低,并且第二经修改的音频信号的衰减程度越高。
36.在实施例中,要生成的与虚拟声源相关联的音频信号y(t)位于观察者上方的虚拟高度处。在这样的实施例中,该方法包括(i)使用信号反相操作、信号衰减操作和引入时间
延迟的时间延迟操作来修改输入音频信号x(t)以获得第三经修改的音频信号,以及(ii)基于输入音频信号和第三经修改的音频信号的组合(例如,总和)生成音频信号。
37.申请人已经发现该实施例允许以简单的方式生成来自位于特定高度处的虚拟声源的音频信号。
38.在这个实施例中,引入的时间延迟优选地短于0.00007秒,优选地短于0.00005秒,更优选地短于0.00002秒,最优选地大约为0.00001秒。
39.在上述实施例中,修改输入音频信号以获得第三经修改的音频信号可选地包括执行信号反馈操作。在特定示例中,该步骤包括递归地将信号(例如,为了最终获得第三经修改的音频信号而执行的时间延迟操作、信号衰减操作和信号反相操作产生的信号)的衰减版本加到自身。
40.在实施例中,要生成的音频信号与位于观察者下方的虚拟深度处的虚拟声源相关联。这样的实施例包括使用引入时间延迟的时间延迟操作、信号衰减操作和信号反馈操作来修改输入音频信号x(t)以获得第六经修改的音频信号。执行信号反馈操作例如包括递归地将信号(例如,为了最终获得第六经修改的音频信号而执行的时间延迟操作和信号衰减操作产生的信号)的衰减版本加到自身。该实施例还包括基于输入音频信号和第六经修改的音频信号的组合来生成音频信号。
41.在实施例中,虚拟声源位于观察者下方的虚拟深度处。该实施例包括使用递归地将输入音频信号的修改版本加到自身的信号反馈操作来生成音频信号y(t),其中反馈操作包括引入时间延迟的信号延迟操作和第一信号衰减操作。
42.在实施例中,虚拟声源位于观察者下方的虚拟深度处。该实施例包括使用递归地将输入音频信号的修改版本加到自身的信号反馈操作来修改输入音频信号以获得第六经修改的音频信号,其中反馈操作包括引入时间延迟的信号延迟操作和第一信号衰减,以及基于第六经修改的音频信号和第六经修改的音频信号的时间延迟和衰减版本的组合生成音频信号。
43.在虚拟声源位于虚拟深度处的上述实施例中,引入的时间延迟优选地短于0.00007秒,优选地短于0.00005秒,更优选地短于0.00002秒,最优选地大约为0.00001秒。
44.在实施例中,该方法包括接收指示虚拟声源的形状和/或指示虚拟点在虚拟声源的形状上的相应虚拟位置和/或指示虚拟声源和观察者之间的距离和/或指示虚拟声源位于观察者上方的高度和/或指示虚拟声源位于观察者下方的深度的用户输入。该实施例允许用户输入与虚拟声源相关的参数,从而允许根据这些参数生成音频信号。该实施例可以包括确定如本文所述的参数的值并且使用这些确定的参数来生成音频信号。
45.在实施例中,该方法包括生成使得用户能够输入以下至少一项的用户界面:
[0046]-虚拟声源的形状,
[0047]-虚拟声源的形状上的虚拟点的相应虚拟位置,
[0048]-虚拟声源与观察者之间的距离,
[0049]-虚拟声源位于观察者上方的高度,
[0050]-虚拟声源位于观察者下方的深度。这允许用户容易地输入与虚拟声源相关的参数并且由此允许用户容易地控制虚拟声源。
[0051]
如本文所述的方法可以是计算机实现的方法。
[0052]
本公开的一个方面涉及一种计算机,该计算机包括计算机可读存储介质和处理器,该计算机可读存储介质收录有计算机可读程序代码,该处理器优选地是微处理器,耦合到计算机可读存储介质,其中响应于执行计算机可读程序代码,处理器被配置为执行如本文所述的用于生成与虚拟声源相关联的音频信号的方法步骤中的一个或多个。
[0053]
本公开的一个方面涉及一种计算机程序或计算机程序套件,包括至少一个软件代码部分或存储至少一个软件代码部分的计算机程序产品,软件代码部分在计算机系统上运行时被配置用于执行如本文所述的用于生成与虚拟声源相关联的音频信号的方法步骤中的一个或多个。
[0054]
本公开的一个方面涉及一种存储至少一个软件代码部分的计算机非暂态计算机可读存储介质,软件代码部分在由计算机执行或处理时被配置为执行如下所述的用于生成与虚拟声源相关联的音频信号的方法步骤中的一个或多个。
[0055]
本公开的一个方面涉及如本文所述的用户界面。
[0056]
如本领域技术人员将认识到的,本发明的各方面可以实施为系统、方法或计算机程序产品。因而,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施例的形式,这些方面通常在本文中都可以被称为“电路”、“模块”或“系统”。在本公开中描述的功能可以被实现为由计算机的微处理器执行的算法,此外,本发明的各方面可以采取在一个或多个计算机可读介质中收录的计算机程序产品的形式,计算机可读介质上收录(例如,存储)有计算机可读程序代码。
[0057]
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备,或前述的任何合适的组合。计算机可读存储介质的更具体示例(非穷举列表)将包括以下各项:具有一根或多根电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、仅存储器(rom)、可擦可编程只读存储器(eprom或闪存)、光纤、便携式光盘只读存储器(cd-rom)、光学存储设备、磁存储设备,或前述的任何合适的组合。在本文档的上下文中,计算机可读存储介质可以是任何有形介质,其可以包含或存储供指令执行系统、装置或设备使用或与其结合使用的程序。
[0058]
计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的数据信号,该传播的数据信号中收录有计算机可读程序代码。这种传播信号可以采取多种形式中的任何一种,包括但不限于电磁、光学或其任何合适的组合。计算机可读信号介质可以是不是计算机可读存储介质的任何计算机可读介质,并且可以传送、传播或运输供指令执行系统、装置或设备使用或与其结合使用的程序。
[0059]
可以使用任何适当的介质来传输在计算机可读介质上收录的程序代码,包括但不限于无线、有线、光纤、电缆、rf等,或者前述的任何合适的组合。可以用一种或多种编程语言的任何组合来编写用于执行本发明各方面的操作的计算机程序代码,包括诸如java(tm)、scala、c ,python等面向函数或对象的编程语言,以及诸如“c”编程语言或类似编程语言的常规过程式编程语言。程序代码可以完全在用户计算机上、部分在用户计算机上、作为独立软件包执行、部分在用户计算机上并且部分在远程计算机上,或者完全在远程计算机、服务器或虚拟服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(lan)或广域网(wan))连接到用户的计算机,或者可以与外部计算机建立连接
(例如通过使用互联网服务提供商的互联网)。
[0060]
下面参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图描述本发明的各方面。将理解的是,流程图图示和/或框图的每个方框以及流程图图示和/或框图中的方框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,特别是微处理器或中央处理单元(cpu)或图形处理单元(gpu),以产生机器,使得经由计算机、其它可编程数据处理装置或其它设备的处理器执行的指令创建用于实现流程图和/或框图的一个或多个方框中指定的功能/动作的部件。
[0061]
这些计算机程序指令还可以存储在计算机可读介质中,该计算机可读介质可以指导计算机、其它可编程数据处理装置或其它设备以特定方式运行,从而使存储在计算机可读介质中的指令产生制品,该制品包括实现流程图和/或框图中指定的功能/动作的指令。
[0062]
也可以将计算机程序指令加载到计算机、其它可编程数据处理设备或其它设备上,以使一系列操作步骤在计算机、其它可编程设备或其它设备上执行以产生计算机实现的过程,从而使在计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个方框中指定的功能/动作的过程。
[0063]
附图中的流程图和框图图示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。就这一点而言,流程图或框图中的每个方框可以表示代码的模块、片段或部分,其包括用于实现(一个或多个)指定的逻辑功能的一个或多个可执行指令。还应当注意的是,在一些替代实施方式中,方框中指出的功能可以不按图中指出的次序发生。例如,取决于所涉及的功能,实际上可以基本上同时执行连续示出的两个方框,或者有时可以以相反的次序执行这些方框。还应该注意的是,框图和/或流程图图示的每个方框以及框图和/或流程图图示中的方框的组合可以由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。
[0064]
将参考附图进一步说明本发明,附图将示意性地示出根据本发明的实施例。应该理解的是,本发明不以任何方式限于这些特定实施例。
附图说明
[0065]
将参考附图中所示的示例性实施例更详细地解释本发明的方面,其中:
[0066]
图1a-1i图示了根据各个实施例的方法和系统;
[0067]
图2示出了使用根据实施例的方法和/或系统生成的音频信号的频谱图;
[0068]
图3a示出了根据实施例的虚拟声源,特别地,虚拟声源的形状为弦;
[0069]
图3b示意性地示出了实施例中可能涉及的输入音频信号和输入音频信号的信号反相、时间延迟版本;
[0070]
图4图示了将维度信息加到音频信号的方法,该维度信息与虚拟声源的形状相关;
[0071]
图5图示了可以在实施例中使用的平移(panning)系统;
[0072]
图6a图示了二维和三维的虚拟声源;
[0073]
图6b示出了实施例中可能涉及的输入信号和该信号的时间延迟版本;
[0074]
图7a图示了用于生成与二维虚拟声源(诸如,板)相关联的音频信号的方法;
[0075]
图7b示意性地示出了如何确定在实施例中使用的几个参数;
[0076]
图7c和7d图示了作为图7a的实施例的替代的实施例;
[0077]
图8a和8b示出了与虚拟声源上的各个虚拟点相关联的各个音频信号分量的频谱图;
[0078]
图9a和9b图示了根据实施例的位于距观察者一定距离处的虚拟声源的生成;
[0079]
图9c-9d示出了图9a的实施例的替代实施例;
[0080]
图10示出了与位于各个距离处的虚拟声源相关联的频谱图;
[0081]
图11a和11b图示了根据实施例的位于观察者上方的高度处的虚拟声源的生成;
[0082]
图12示出了与位于各个高度处的虚拟声源相关联的频谱图;
[0083]
图13a和13b图示了根据实施例的位于观察者下方的深度处的虚拟声源的生成;
[0084]
图13c-13f示出了图13a的实施例的替代实施例;
[0085]
图14图示了与具有特定形状、位于特定位置的虚拟声源相关联的音频信号的生成。
[0086]
图15图示了根据实施例的用户界面;
[0087]
图16图示了根据实施例的数据处理系统。
具体实施方式
[0088]
声波固有地携带关于环境以及关于环境内声音的观察者的详细信息。本公开描述了一种声波变换(空间波变换,或swt),一种用于生成音频信号的方法,该音频信号被感知为具有关于再现声源的维度尺寸和形状、其距观察者的相对距离、其高于或低于观察者的高度或深度,以及如果源正朝着或远离观察者移动时其方向性的空间相干特性。
[0089]
通常,空间波变换是由计算机执行的算法,输入为数字音频信号(例如,数字录音),并且输出为一个或多个可以在常规音频回放系统上回放的经修改的音频信号。替代地,该变换还可以应用于生成和/或处理(一个或多个)音频信号的模拟(非数字)手段。回放经修改的(一个或多个)声音信号将使观察者更好地感知再现的声源的维度尺寸和形状(例如,小提琴的记录信号听起来好像小提琴是物理存在的)以及声源相对于观察者的空间距离、高度和深度(例如,小提琴在与听者的不同距离、以及上方高度或下方深度处发出声音),同时掩盖了声音输出介质(即(一个或多个)扬声器)的物理特性(即,小提琴听起来不像是来自扬声器)。
[0090]
图1a是描绘根据实施例的方法和/或系统的流程图。获得输入音频信号x(t)。输入音频信号x(t)可以是模拟的或数字的。因此,图1中所示的操作,即操作4、6、8、10、12、14中的每一个,可以由模拟电路组件或数字电路组件执行。图1的流程图也可以被理解为描绘了可以由计算机执行适当的软件代码来执行的方法步骤。
[0091]
输入音频信号x(t)可能已经通过记录过程输出,在记录过程中声音已经被记录并且可选地被转换成数字信号。在示例中,诸如小提琴之类的乐器已经在工作室中记录以获得被输入用于如本文所述的音频信号生成方法的音频信号。
[0092]
随后修改输入音频信号x(t)以获得经修改的音频信号。信号修改包括信号延迟操作4和/或信号反相操作6和/或信号放大或衰减8和/或信号反馈操作10、12。
[0093]
可以使用诸如延迟线之类的众所周知的组件来执行信号延迟操作4。信号反相操作6可以被理解为对信号进行反相,使得输入信号x(t)被转换成-x(t)。放大或衰减8可以是
线性放大或衰减,这可以被理解为将信号放大或衰减恒定因子a,使得信号x(t)被转换成a*x(t)。
[0094]
信号反馈操作可以被理解为包括递归地将信号与其自身的衰减版本组合。这由位于反馈回路中的衰减操作12和组合操作10示意性地描绘。减小衰减,即增大图1a中的常数b,可能会增加峰强度并缩小声音的频谱中的共振频率的带宽,即所谓的q因子。因此,可以基于不同材料的密度和刚度来模拟不同材料对振动的响应。例如,金属物体的响应将生成比相同尺寸和形状的木头物体更高的q因子。
[0095]
组合操作10和14可以被理解为组合两个或更多个信号{x1(t),...,xn(t)}。输入信号可以如下转换成信号y(t)。
[0096]
在图1a中,音频信号y(t)是基于输入音频信号x(t)和经修改的音频信号的组合(例如,总和)生成的。在示例中,音频信号y(t)是组合(例如,求和)输入音频信号x(t)和经修改的音频信号的结果。
[0097]
输入音频信号x(t)到音频信号y(t)的变换在下文中可以被称为空间波变换(swt)。
[0098]
用于生成音频信号y(t)的方法不需要有限的计算方法,诸如涉及快速傅里叶变换的方法,其可能限制生成的音频信号的可实现分辨率。因此,本文公开的方法使得能够形成高分辨率音频信号。在本文中,高分辨率可以被理解为对无限量的频率分量进行频谱修改的信号。实现了几乎无限的分辨率,因为不需要为每个单独的频率分量计算和修改期望的频谱信息,就像卷积或模拟模型中的情况一样,但是频率分量的期望频谱修改来自简单的求和,即具有特定时间延迟、振幅和/或相位差的两个相同音频信号的波干扰。该操作导致谐波比率中每个频率分量的相位和振幅差异,即对应于由共振引起的频谱模式。与该方法相关的时间延迟通常在0.00001-0.02秒之间,但不排除更长的时间。
[0099]
所生成的音频信号y(t)可以通过常规的音频输出介质(例如,一个或多个扬声器)呈现给观察者。生成的音频信号可以在时间上延迟和/或在被输出到音频输出介质之前衰减。
[0100]
图1b-1g示出了描绘根据其它实施例的方法和/或系统的流程图。在本文中,图1b与图1a的不同之处在于,信号反相操作和信号衰减操作是在反馈组合10之后执行的。
[0101]
此外,图1c和1d图示了各个实施例,其中音频信号y(t)是基于递归地将输入音频信号x(t)的修改版本加到自身的信号反馈操作而生成的。信号反馈操作包括引入时间延迟的信号延迟操作和信号反相操作。
[0102]
在本文中,图1c图示了其中使用信号反馈操作来修改输入音频信号以获得由11指示的经修改的音频信号的实施例。在这个实施例中,音频信号y(t)是基于这个经修改的音频信号和由13指示的这个经修改的音频信号的时间延迟的反相版本的组合而生成的。如图1c中所示,这可以通过将反馈到组合器9的信号也馈送到组合器10来实现。
[0103]
在图1c和1d中,由信号反馈操作产生的阻尼函数与频率无关,因此,这些实施例可以被理解为构成全通滤波器。
[0104]
图1e的实施例与图1a中所示的实施例的不同之处在于信号延迟操作、信号反相操作和衰减是作为信号反馈操作的一部分来执行的。图1e的实施例特别有利,因为它产生包括取决于频率的阻尼函数的谐波模式。由于此阻尼函数,信号中的较高频率比较低频率衰
减得更快。
[0105]
图1f或图1g的实施例图示了在信号反馈操作之后或之前执行信号衰减的相应实施例。应该认识到,信号衰减可以布置在流程图中的任何位置,并且几个信号衰减也可以存在于流程图中的相应位置。
[0106]
图1h-1j图示了其中基于输入音频信号x(t)的反相和/或衰减或放大版本和经修改的音频信号的组合10生成音频信号y(t)的相应实施例,其中经修改的音频信号是使用信号延迟操作和信号反馈操作而获得的。
[0107]
图1h图示了其中经修改的音频信号与输入音频信号的衰减版本组合的实施例,图1i图示了其中经修改的音频信号与输入音频信号的反相版本组合的实施例,并且图1j图示了其中经修改的音频信号与输入音频信号的反相衰减版本组合的实施例。
[0108]
应该认识到,图1的实施例可以用作构建块以构建更复杂的实施例,例如图4、7和14中所示。因此,虽然这些更复杂的实施例使用图1a的实施例作为构建块,但是图1b-1j的任何相应实施例都可以用作构建块。在这些复杂的实施例中,可以是图1b-1j的任何实施例的这些构建块由21指示。
[0109]
图2(上)示出了当输入音频信号x(t)为白噪声时生成的音频信号的频谱图,时间延迟操作4引入的时间延迟为~0.00001秒,执行信号反相操作6并且不执行信号反馈操作10、12。
[0110]
图2(中)示出了当输入音频信号x(t)为白噪声时生成的音频信号的频谱图,时间延迟操作4引入的时间延迟为~0.00036秒,执行信号反相操作6并且不执行信号反馈操作10、12。
[0111]
图2(下)示出了当输入音频信号x(t)为白噪声时生成的音频信号的频谱图,时间延迟操作4引入的时间延迟为~0.00073秒,执行信号反相操作6并且不执行信号反馈操作10、12。
[0112]
这些图表明,可以使用非常简单的操作,根据谐波比率精确修改音频信号的频谱。
[0113]
图3a图示了弦形式的虚拟声源。在弦的形状上定义了许多虚拟点n,在本例中为17个虚拟点。如图所示,这些点可以彼此等距。每两个粒子之间选择的规则距离决定了定义虚拟声源的分辨率。
[0114]
图4和图7图示了可以用于生成音频信号的方法和/或系统的实施例,该音频信号被感知为源自具有特定形状(例如图3a中所示的弦形状)的声源、图6中所示的板形状源或立方源。在这些实施例中,该方法包括生成与虚拟声源的形状上的相应虚拟点相关联的音频信号分量yn(t)。生成每个音频信号分量yn(t)包括使用引入时间延迟δtn的信号延迟操作修改输入音频信号以获得经修改的音频信号分量。然后,基于输入音频信号及其经修改的音频信号分量的组合(例如,总和)来生成每个音频信号分量yn(t)。优选地,由所述组合产生的每个信号分量的振幅通过信号衰减元件19
1-19n衰减例如-6db。引入的至少两个时间延迟彼此不同。音频信号分量yn(t)一起可以被理解为构成生成的音频信号y(t)。在示例中,音频信号分量被组合以生成音频信号。但是,在另一个示例中,这些音频信号分量被单独馈送到平移系统,该平移系统将每个分量单独地分配给多个扬声器。当通过音频输出介质(例如,通过一个或多个扬声器)同时回放音频信号分量时,所产生的音频信号将被观察者感知为源自具有特定形状的声源。
[0115]
图4特别地图示了用于生成音频信号的实施例,该音频信号被感知为源自形状为弦(例如图3a中所示的弦)的声源。因此,参考图3a,生成的音频信号分量y1(t)与点n=1相关联,音频信号分量y2(t)与点n=2相关联,等等。在这个实施例中,对输入音频信号的每次修改不仅包括引入时间延迟δtn,而且还包括如信号反相操作16
1-16n所指示的对音频输入信号进行反相,以获得经修改的音频信号分量。在发声物体不能在其边缘自由振动的情况下,诸如在张紧的弦或鼓皮的情况下,经修改的音频信号分量相对于输入音频信号被反相。在发声对象在其所有边缘上自由振动的情况下,经修改的音频信号分量都不会被反相,并且优选地高通滤波器被添加到所得到的信号分量yn(t)以衰减音频信号的低频,如将参考图7解释的。
[0116]
可选地,修改还包括信号反馈操作18
1-18n,但这不是将虚拟声源的维度信息加到音频信号中所必需的。所描绘的实施例示出了每个音频信号分量yn(t)可以是输入音频信号x(t)和经反相、时间延迟的输入音频信号相加的结果。虽然图4示出了在信号反相操作16之前执行时间延迟操作,但可以是相反的方式。
[0117]
对于1米长的弦形状的虚拟声源,弦上17个等距定位的虚拟点的时间差可以如下:
[0118]
nδt(s)10.0000020.0003630.0007340.0010950.0014660.0018270.0021980.0025590.00292100.00255110.00219120.00182130.00146140.00109150.00073160.00036170.00000
[0119]
引入的时间延迟的这些值与δtn=lxn/v一致,其中l指示弦的长度,其中xn表示虚拟点n的乘法因子,并且v与声音通过介质的速度相关。对于表中的值,使用了343m/s的值,即声波在20摄氏度时穿过空气的速度。虚拟点可以被理解为位于从虚拟声源的中心(例如,弦、板或立方体的中心)到虚拟声源的边缘的线段上。由此,虚拟点可以被理解为将线段划分为两部分,即,线段的在虚拟声源的一端和虚拟点之间延伸的第一部分和线段的在虚拟点和虚拟声源的中心之间延伸的第二部分。乘法因子可以等于线段的第一部分的长度与线段的第二部分的长度之比。因此,如果虚拟点位于声源的端部,那么乘法因子为零,并且如
果虚拟点位于虚拟声源的中心,那么乘法因子为1。因此,利用这些值,用户将感知生成的音频信号源自一米长的弦形声源,而扬声器不需要以特定方式在空间上布置。
[0120]
在实施例中,该方法包括获得表示虚拟声源的形状上的相应虚拟点的虚拟位置的形状数据,以及优选地根据上述公式,基于相应虚拟点的虚拟位置确定要由相应时间延迟操作引入的时间延迟。
[0121]
图3b示意性地示出了分别针对点n=1、2、3的经修改的音频信号分量222、223和224。这些音频信号分量已经相对于音频输入信号20被反相并且分别被时间延迟δt2、δt3、δt4。
[0122]
虽然图4示出了图1a的实施例被用作构建块21,但是可以使用相应的图1a-1j中所示的任何实施例。
[0123]
图5示出了所生成的音频信号或一起形成所生成的音频信号的生成的音频信号分量可以被平移到一个或多个扬声器。该平移步骤可以使用本领域已知的方法执行。原则上,利用本文公开的方法,可以将关于虚拟声源的维度、距离、高度和深度的空间信息加到音频信号,而不管平移方法和使用多少扬声器来回放音频信号。
[0124]
在实施例中,所生成的音频信号分量中的每一个原则上可以被馈送到存在的所有扬声器。但是,取决于所使用的平移方法,一些音频信号分量可能会被馈送到具有零放大率的扬声器。因此,实际上,这种扬声器不接收这种音频信号分量。这在图5中绘出,y1与扬声器c和d相关,y2与扬声器a和d相关,并且y3与扬声器a相关。通常,平移系统将向扬声器提供音频信号分量,其中到每个扬声器的每个音频信号分量的离散放大在零和一之间。
[0125]
图6a描绘了虚拟声源的进一步示例,以图示该方法可以用于具有更复杂形状的虚拟声源。生成的音频信号y(t)可以例如被感知为源自板形状声源24或立方体形声源26。虚拟点被定义在虚拟声源的形状上。在所绘出的示例中,源24的板形状上总共已定义25个虚拟点。
[0126]
虚拟声源的形状可以是一组正多边形;以及不对称、不规则或有机形成的形状。
[0127]
图6b图示了当虚拟声源具有二维或三维形状时可以使用的多个经修改的音频信号分量。该图显示,根据在其所有边缘上自由振动的虚拟声源,所有经修改的音频信号分量都可以被时间延迟,并且没有一个经修改的音频信号分量相对于输入音频信号被反相。
[0128]
图7a是图示其中所生成的音频信号y(t)被观察者感知为源自形状为板的声源的实施例的流程图。再次,确定分别与在形状上定义的虚拟点相关联的多个音频信号分量yn(t)。在这个实施例中,音频信号分量yn(t)的每个确定包括使用引入时间延迟δt
n.1
的信号延迟操作,可选地使用信号反馈操作30,来修改输入音频信号,以获得经修改的音频信号分量。随后,基于输入音频信号和经修改的音频信号分量的组合32生成第二经修改的音频信号分量。第二经修改的音频信号分量可以被衰减,例如大约-6db(参见衰减元件34)。可以使用引入第二时间延迟的信号延迟操作δt
n.2
和可选的信号反馈操作36来修改第二经修改的音频信号分量,以获得第三经修改的音频信号分量。然后,可以基于第二和第三经修改的音频信号分量的组合38来生成音频信号分量yn(t)。可选地,生成音频信号分量yn(t)的这个步骤包括例如以-6db执行衰减操作40,和/或执行应用截止频率fn的高通滤波器操作42,这可以被理解为衰减低于板中出现的最低基本频率的频率。
[0129]
在这个实施例中,确定音频信号分量包括确定第一经修改的音频信号分量和第三
经修改的音频信号分量。确定第一或第三经修改的音频信号分量可以包括使用第一或第二时间延迟操作和信号反相操作,以及可选的第一或第二信号反馈操作。
[0130]
在这个示例中,针对每个音频信号分量执行两个组合32和38,但是,对于更复杂形状的虚拟声源,诸如三维形状的源,针对每个音频信号分量执行三个或甚至更多的组合操作。图14中示出了这的示例。
[0131]
应该认识到,虽然图7a示出了两个构建块21串联布置以生成每个y
x
(t)信号,但也可以有两个以上,诸如三个、四个、五个、六个或甚至更多个的构建块21可以串联布置以生成每个y
x
(t)信号。
[0132]
图7b图示了如何为形状为方形板的虚拟声源50上的每个虚拟点计算相关联的时间延迟和截止频率。作为示例,图7b图示了如何针对形状为板的虚拟声源50上的点n=7计算时间延迟和截止频率。
[0133]
第一步骤包括根据以下公式为每个虚拟点确定上述乘法因子x的三个值,即,xa、xb、xc:
[0134][0135][0136][0137][0138]
本文r表示通过虚拟声源50的两条或多条边相交的顶点的圆52的半径。在这个示例中,r是方板50的外接圆52的半径。
[0139]
此外,r
n.a
表示(参见图7b中的左图)通过正方形54的顶点的圆56的半径,其中正方形54是具有与虚拟声源50的中点重合的中点并且在其一边具有点n(在此示例中为点7)的正方形。正方形54的边平行于板50的边缘。
[0140]rn.b
表示(参见图7b中的中间图示)通过正方形58的顶点的圆60的半径,其中正方形58具有与最接近点n的顶点重合的中点,并且具有与虚拟板声源50的边缘平行的边。
[0141]rn.c
表示(参见图7b中的右侧图示)板50的中点与正方形62的边缘之间的最小距离,其中正方形62具有与虚拟声源50的中点重合的中点50并且在其一边具有点n。此外,正方形62具有垂直于板a的至少一条对角线的边。由于该示例中的虚拟声源是正方形,因此正方形62相对于板50倾斜45度。
[0142]
在下一步中,根据δt=ax/v确定相关联的时间延迟δta、δtb、δtc,其中仅当xb等于或小于0.25时才确定δtb。因此,对于如图6a和7b所示的具有25cm长边和25个虚拟点的方形板,并且v=500m/s,xa、xb、xc和δta、δtb、δtc的值如下.
[0143]
nxaxbxcδta(s)δtb(s)δtc(s)1000000200.250.12500.0031250.001563010.08330-0.00104
400.250.12500.0031250.001565000000600.250.12500.0031250.0015670.250.250.08330.0031250.0031250.0010480.2510.1250.003125-0.0015690.250.250.08330.0031250.0031250.001041000.250.12500.0031250.0015611010.08330-0.00104120.2510.1250.003125-0.00156130.3310.1670.004167-0.00208140.2510.1250.003125-0.0015615010.08330-0.001041600.250.12500.0031250.00156170.250.250.08330.0031250.0031250.00104180.2510.1250.003125-0.00156190.250.250.08330.0031250.0031250.001042000.250.12500.0031250.00156210000002200.250.12500.0031250.0015623010.08330-0.001042400.250.12500.0031250.0015625000000
[0144]
如图所示,δta、δtb、δtc的一些值为零或未确定,因为xb>0.25。因此,对于每个虚拟点n,δta、δtb、δtc存在一个或两个不同的非零值。然后将这些值确定为δt1和δt2。(见下表)。
[0145]
每个虚拟点n的高通滤波器的截止频率可以被确定为:
[0146]
对于并且
[0147]
对于
[0148]
因此,对于总表面积a为625cm2、在边缘自由振动且材料结构均匀的板形状虚拟声源,可以使用以下δt和fc的值。
[0149]
nδt1(s)δt2(s)fc(hz)1004020.0031250.0015653.3330.0010408040.0031250.0015653.335004060.0031250.0015653.33
70.0031250.001048080.0031250.0015653.3390.0031250.0010480100.0031250.0015653.33110.00104080120.0031250.0015653.33130.0041670.0020840140.0031250.0015653.33150.00104080160.0031250.0015653.33170.0031250.0010480180.0031250.0015653.33190.0031250.0010480200.0031250.0015653.33210040220.0031250.0015653.33230.00104080240.0031250.0015653.33250040
[0150]
因此,利用这些值,用户将感知所生成的音频信号源自同质物质和特定尺寸的板形状声源,而扬声器不需要以特定方式在空间中布置。
[0151]
在实施例中,该方法包括获得表示虚拟声源的形状上的各个虚拟点的虚拟位置的形状数据,以及基于各个虚拟点的虚拟位置确定要由各个时间延迟操作引入的时间延迟。如果虚拟声源的形状为方形板,那么可以使用上述公式确定时间延迟。
[0152]
与2d形状类似,对于3d形状,为与在形状上定义的虚拟点相关联的一些或每个生成的音频信号分量yn(t)确定两个或更多个经修改的音频信号分量。对于每个虚拟点,要引入的时间延迟的值符合δt=vx/v,其中v是形状的体积,其中x表示虚拟点n的乘法因子,该乘法因子根据从形状的中心和/或边缘到点n的径向长度rn,并且v与声音通过介质的速度相关。
[0153]
对于每个几何形状和/或异质物质的不同材料或材料条件,可以根据形状的空间维度与每个虚拟点处的时间差值之间的关系应用算法的不同变型。
[0154]
对于不是规则多边形和/或不规则成形的形状,对于所生成的音频信号分量yn(t)中的一些或每个,可以获得多于两个或更多个经修改的音频信号分量。
[0155]
图7c图示了作为图7a的实施例的替代的实施例。虽然图7a的实施例示出了两个串联的构建块21,但图7c的实施例示出了两个构建块21可以并联布置。图7c的实施例中的值a
x,x
与图7a的实施例中的值a
x,x
相同,并且b
x,x
的值与图7a的实施例中的值b
x,x
相同。
[0156]
图7c的实施例的特别有利之处在于,对于每个信号分量y1(t),b
n.1
和b
n.2
的值可以相互独立地控制。
[0157]
应该认识到,虽然图7c示出了两个构建块21被并联布置用于生成每个y
x
(t)信号,
但是也可以有两个以上,诸如三个、四个、五个、六个或甚至更多的构建块21被并联布置用于生成每个y
x
(t)信号。
[0158]
图7d图示了作为图7c的实施例的替代的实施例。虽然图7c的实施例示出了两个构建块21可以并联布置,但是图7d示出了代替两个完整的构建块,两个或更多个经修改的音频信号(诸如三个、四个、五个、六个或甚至更多个)可以从音频输入信号并行生成然后求和,可选地在与音频输入信号求和之前用衰减操作进一步修改,以生成每个信号y
x
(t)。图7d的实施例中的值a
x,x
与图7a和图7c的实施例中的值a
x,x
相同。图7d是有利的,因为它通过减少构建块的布置内的信号路径的数量来使得能够进行更高效的处理。
[0159]
图8示出了图6a中指示的(上)音频信号分量y1(t)的频谱图和(从上数第二个)音频信号分量y6(t)的频谱图和(中)音频信号分量y7(t)的频谱图和(从下数第二个)音频信号分量y
11
(t)的频谱图和(底部)音频信号分量y
13
(t)的频谱图。时间延迟值和频率截止值fc可以在上表中找到。
[0160]
图9a示出了根据该方法的实施例的流程图,其中所生成的音频信号将被观察者o感知为源自位于远离他一定距离(诸如水平距离)处的声源s。水平距离可以被理解为感知到的虚拟声源与观察者之间的距离,其中虚拟声源位于观察者的前方。
[0161]
在本实施例中,使用引入时间延迟的时间延迟操作和信号反馈操作来修改输入音频信号x(t)以获得第一经修改的音频信号。然后,基于输入音频信号x(t)和第一经修改的音频信号的组合生成第二经修改的音频信号。通过衰减第二经修改的音频信号并且可选地通过执行如图所示的时间延迟操作来生成音频信号y(t)。
[0162]
优选地,为获得第一经修改的音频信号所执行的时间延迟操作所引入的时间延迟尽可能短,例如短于0.00007秒,优选地短于0.00005秒,更优选地短于0.00002秒。最优选地,大约为0.0001秒。在96khz的数字采样率的情况下,时间延迟可以是0.00001秒。
[0163]
取决于c的值和d的值,观察者将感知到自己与虚拟声源之间的不同距离。在本文中,三角形中的值(即衰减或放大操作中)可以被理解为指示与信号相乘的常数。因此,如果该值大于1,那么执行信号放大。如果该值小于1,那么执行信号衰减。当c=0和d=1时,将不会感知到距离,并且当c=1和d=0时,将感知到与声源变得不可感知的相对距离对应的最大距离,并且因此所得的的总和音频信号的输出将为0(-inf db)。为了执行信号反馈操作以确定第一经修改的音频信号,d的值可以与c的值相关,因为d=1-cx,其中x的值是应用于影响高频耗散曲线陡度的信号反馈量的等于或小于1的乘法因子。
[0164]
在示例中,该方法包括获得表示虚拟声源的距离的距离数据。然后,取决于虚拟声源的距离对输入音频信号进行衰减,以获得经修改的音频信号。
[0165]
δt2指示的可选时间延迟可以创建与虚拟声源的移动相关联的多普勒效应。δt2可以被确定为δt2=l/v,其中l是声源s和观察者o之间的距离,并且v是声音通过介质的速度。
[0166]
图9c、9d和9e图示了图9a的实施例的替代实施例。在本文中,c、d和引入的时间延迟的值与图9b中所示的相同。
[0167]
图9c与图9a中所示实施例的不同之处在于信号延迟操作是在信号反馈操作中执行的。
[0168]
图9d图示了包括使用信号反馈操作来修改输入音频信号以获得第一经修改的音
频信号11的实施例,该信号反馈操作递归地将输入音频信号的修改版本13加到自身,其中反馈操作包括引入时间延迟的信号延迟操作。在这个实施例中,音频信号y(t)是基于第一经修改的音频信号11生成的,该步骤包括信号衰减15和可选的引入第二时间延迟的时间延迟操作。
[0169]
图9e图示了包括基于第一经修改的音频信号11和第一经修改的音频信号的时间延迟版本13的组合10生成第二经修改的音频信号17以及基于第二经修改的音频信号、因此基于第一经修改的音频信号生成音频信号y(t)的实施例。
[0170]
图10(上)示出了应用c=0后的总和音频信号的频谱图,输入的音频信号是白噪声。这里,如果c=0,那么在总和音频信号中看不到任何修改。
[0171]
图10(中)示出了应用c=0.5后的总和音频信号的频谱图,输入的音频信号是白噪声。可观察到的结果是随着在长度l上观察者与声音之间的感知距离增加,响度降低了-12db,并且高频逐渐衰减,即声音的高频比低频消散得更快。通过改变小于1并乘以信号反馈振幅的x值,高频耗散的曲率将增加或减少。
[0172]
图10(下)示出了应用c=0.99后的总和音频信号的频谱图,输入的音频信号是白噪声。整体响度降低了-32db,并且高频耗散曲线的陡度增加,使得输出音频信号接近听不见,感知效果好像声音几乎完全在远处消散。
[0173]
图11a示出了图示当虚拟声源s位于观察者o上方的虚拟高度h处时方法的实施例的流程图(也参见图11b)。在本文中,使用信号反相操作、信号衰减操作和引入时间延迟的时间延迟操作来修改输入音频信号x(t)以获得第三经修改的音频信号。然后,基于输入音频信号和第三经修改的音频信号的组合(例如,总和)来生成音频信号。
[0174]
应该认识到,信号延迟操作、信号反相操作和信号衰减操作可以以任意顺序执行。
[0175]
输入音频信号x(t)可以根据高度来衰减以获得第三经修改的音频信号,优选地使得虚拟声源位于观察者上方越高,衰减程度越低。如图11中所示,e的值随着声源s的高度增加而增加。
[0176]
如图11a中所示,引入的时间延迟优选地尽可能短,例如,短于0.00007秒,优选地短于0.00005秒,更优选地短于0.00002秒。最优选地,在数字采样率为96khz的情况下,时间延迟可以是0.00001秒。
[0177]
在虚拟声源位于听者上方的情况下,修改输入音频信号以获得第三经修改的音频信号可选地包括执行信号反馈操作。在特定示例中,该步骤包括递归地将信号(例如,为了最终获得第三经修改的音频信号而执行的时间延迟操作、信号衰减操作和信号反相操作产生的信号)的衰减版本加到自身。如果执行信号反馈操作,那么值f可以等于f=e*x,其中x的值是应用于影响低频耗散曲线陡度的信号反馈量的小于1的乘法因子。通过改变值e,优选地在0-1之间,可以将高度感知加到音频信号,可选地同时具有值f。在本文中,e=0和f=0对应于没有感知高度,并且e=1和f《1对应于最大感知高度,即在观察者上方的距离,其中声源已变得接近不可感知。
[0178]
图12a-12c描绘了根据本发明的实施例的音频信号的频谱。
[0179]
图12a示出了在应用e=0后总和音频信号的频谱图。输入音频信号是白噪声。这里,如果e=0,那么在总和音频信号中看不到任何修改。
[0180]
图12b示出了在应用e=0.5后的总和音频信号的频谱图。输入音频信号是白噪声。
可观察到的结果是随着观察者o上方的声源s的感知高度h增加,低频逐渐减弱,即声音的低频随着值e的成比例增加而消散。低频耗散曲线的陡度通过改变小于1并乘以信号反馈振幅f的值x来增加或减少。
[0181]
图12c示出了应用e=0.99后的总和音频信号的频谱图,输入音频信号是白噪声。高频耗散曲线的陡度增加,使得输出音频信号在f《12khz时几乎听不见,感知效果好像声音在感知者头部上方很远的地方。
[0182]
图13a示出了图示方法的实施例的流程图,其中虚拟声源s位于观察者o下方的虚拟深度d处。(也参见图13b)。该实施例包括使用引入时间延迟的时间延迟操作、信号衰减和信号反馈操作来修改输入音频信号x(t)以获得第六经修改的音频信号。在所描绘的实施例中,执行信号反馈操作包括递归地将信号(例如,为了最终获得第六经修改的音频信号而执行的时间延迟操作产生的信号)的衰减版本加到其自身。对于所描绘的实施例,这意味着h的值是非零的。优选地,递归地添加的信号根据观察者下方的深度进行衰减,例如,使得虚拟声源位于观察者下方的位置越低,该衰减越低(对应于图13中h的较高值)。可以执行反馈操作之前对输入音频信号的衰减,使得虚拟声源位于观察者下方的位置越低,衰减越低(对应于图13中g的较高值)。然后,基于输入音频信号和第六经修改的音频信号的组合生成音频信号y(t)。
[0183]
如图13a中所绘出的,引入的时间延迟优选地尽可能短,例如,短于0.00007秒,优选地短于0.00005秒,更优选地短于0.00002秒。最优选地,在数字采样率为96khz的情况下,时间延迟可以是0.00001秒。
[0184]
当g=0和h=0时,不会感知到深度,并且当g=1和h=1时,将在声源s和观察者o之间感知到最大深度。对于执行信号反馈操作以确定第三经修改的音频信号,h的值可以作为h=g*x与g的值相关,其中x的值是应用于信号反馈量的等于或小于1的乘法因子,这影响高频率耗散曲线的陡度。
[0185]
图13c-13f示出了图13a的实施例的替代实施例,其中虚拟声源位于观察者下方的虚拟深度处。q的值和由信号延迟操作引入的时间延迟可以与图13a中的相同。
[0186]
图13c和13d是其它实施例,它们各自包括使用引入时间延迟的时间延迟操作23、第一信号衰减操作25和信号反馈操作来修改输入音频信号x(t)以获得经修改的音频信号以及基于输入音频信号和该经修改的音频信号的组合生成音频信号。如可以容易地看出,图13c和图13d的实施例与图13a的实施例的不同之处在于信号延迟操作和信号衰减可以或可以不在信号反馈操作中执行。
[0187]
图13e示出了包括使用递归地将输入音频信号的修改版本加到自身的信号反馈操作来生成音频信号y(t)的实施例,其中反馈操作包括引入时间延迟的信号延迟操作23和第一信号衰减操作25。
[0188]
图13f示出了其中使用信号反馈操作来确定经修改的音频信号11并且其中基于经修改的音频信号和该经修改的音频信号的时间延迟、衰减版本的组合10来确定音频信号y(t)的实施例。
[0189]
图14描绘了根据本发明的实施例的用于生成音频信号的方法和系统。特别地,图14描述了空间波变换的复杂流程图。基于输入信号x(t)确定几个音频信号分量yn(t),例如,虚拟声源的形状上的每个虚拟点一个。每个音频信号分量yn(t)通过执行方框70n中指示
的步骤来确定。音频信号分量y1(t)通过执行如方框701所示的步骤来确定。在每个方框70n中,可以执行类似的步骤,但同时使用其它赋值参数。
[0190]
图14特别地图示了如本文所述的几个实施例的示例组合。方框72包括图7a的实施例,但是,也可以包括图7c或7d的实施例。方框74包括如图9a中所示的实施例,但是应该认识到,实施例9c、9d、9e中的任一个可以在方框74中实现。方框76包括如图11a中所示的实施例。方框78包括如图13a中所示的实施例,但是各个图13c、13d、13e和13f的实施例中的任一个可以在方框78中实现。因此,由方框72的时间延迟操作引入的时间延迟可以根据本文参考图7a-7d描述的方法来确定。如上所述,仅当虚拟声源不能在其边缘自由振动时,才可以执行方框72中的信号反相操作。在这种情况下,高通滤波器73不活动。如果虚拟声源可以在其边缘自由振动,那么不执行方框72中的信号反相操作。在这种情况下,优选地,高通滤波器是活动的。可以根据参考图7a-7d描述的方法来确定截止频率的值。此外,方框74中的参数c和d以及时间延迟可以如参考图9a-9e所描述的那样被赋值和/或改变和/或确定。参数e和f可以如参考图11a和11b所描述的那样被赋值和/或改变和/或确定。参数g和h可以如参考图13a-13f所描述的那样被赋值和/或改变和/或确定。
[0191]
此外,应该认识到,构建块21可以是图1b-1j中描绘的构建块中的任何一个。
[0192]
在所描绘的实施例中,生成音频信号分量因此包括向输入音频信号添加维度信息,这可以通过方框72指示的步骤执行;添加距离信息,这可以通过方框74指示的步骤执行;以及添加高度信息,这可以通过方框76指示的步骤来执行;或者添加深度信息,这可以通过方框78指示的步骤来执行。此外,可以例如通过添加如方框80中所示附加的时间延迟将多普勒效应加到输入音频信号。
[0193]
优选地,因为虚拟声源位于观察者上方或下方,因此仅执行模块76或78中的一个。通过设置e=0可以将模块76设置为不活动,通过设置g=0可以将模块78设置为不活动。
[0194]
图15描绘了根据本发明的实施例的用户界面90。该方法的实施例包括生成如本文所述的用户界面90。该用户界面90使用户能够输入虚拟声源的形状,
[0195]-虚拟声源的形状上的虚拟点的相应虚拟位置,
[0196]-虚拟声源与观察者之间的距离,
[0197]-虚拟声源位于观察者上方的高度,
[0198]-虚拟声源位于观察者下方的深度。
[0199]
空间波变换的所有功能操作都被变换成前端用户特性,即虚拟空间中声音的可听操纵。本发明的应用绝不限于布局和该特定界面示例,并且可以是系统设计中多种方法的主题,并且涉及用于在虚拟空间中成形和定位声源的多种控制级别,也不限于任何特定平台、介质或视觉设计和布局。
[0200]
所描绘的用户界面90包括使用户能够使用输入接收来控制链的输入音频信号的输入模块。输入接收可以包括从其它链或外部音频源接收的多个音频通道,它们一起组合为链的音频输入信号。用户界面使得用户能够例如通过使用增益旋钮92控制每个输入通道的放大。
[0201]
用户界面90还可以包括输出模块,其使得用户能够将链的相加的音频输出信号作为音频输入信号路由到其它链。
[0202]
用户界面90还可以包括虚拟声源定义部分,其使得用户能够例如借助于下拉菜单
96输入与虚拟声源相关的参数,诸如其形状,和/或虚拟声源是否是中空的或实心的和/或虚拟声源的比例和/或其维度,例如,它的笛卡尔维度和/或旋转和/或分辨率。后者指示每单位虚拟表面积确定了多少虚拟点。这允许用户控制所需计算的数量。
[0203]
用于输入与旋转相关的参数的输入装置可以呈现为维度为x、y和z的无限旋转旋钮。
[0204]
用户界面90还可以包括使得用户能够输入与虚拟声源的位置相关的参数的位置部分。形状在3维空间中的位置可以用笛卡尔坐标 /-x,y,z表达,其中空间的虚拟中心被表示为0,0,0;并且可以呈现为可以在其中放置和移动虚拟对象的可视3维场。可以通过调整场的半径来缩放这个3维控制场的大小。
[0205]
用户界面90还可以包括属性部分100,其使得用户能够控制各种参数,诸如共振的带宽和峰值水平、感知距离、感知高度、多普勒效应。
[0206]
用户界面90还可以包括使得用户能够控制输出的输出部分102。例如,可以控制分配到所配置数量的音频输出通道的每个音频信号分量的离散放大。每个扬声器的增益可以通过i)虚拟声源的形状的建模、ii)形状在3维空间中的旋转和iii)形状在3维空间中的位置来自动控制。用于将音频信号分量分配到音频输出通道的方法可以取决于扬声器配置的类型并且可以通过本领域已知的任何此类方法来实现。
[0207]
输出部分102可以包括主水平音量控制器104。
[0208]
通过用户界面接收到的用户输入可以用于根据本文描述的方法确定参数的适当值。
[0209]
图16描绘了图示根据实施例的数据处理系统的框图。如图16中所示,数据处理系统1100可以包括通过系统总线1106耦合到存储器元件1104的至少一个处理器1102。由此,数据处理系统可以将程序代码存储在存储元件1104内。此外,处理器1102可以执行经由系统总线1106从存储器元件1104访问的程序代码。在一方面,数据处理系统可以被实现为适合于存储和/或执行程序代码的计算机。但是,应该认识到,数据处理系统1100可以以包括能够执行本说明书中描述的功能的处理器和存储器的任何系统的形式来实现。
[0210]
存储元件1104可以包括一个或多个物理存储设备,诸如例如本地存储器1108和一个或多个大容量存储设备1110。本地存储器可以指在程序代码的实际执行期间通常使用的随机存取存储器或(一个或多个)其它非持久性存储器设备。大容量存储设备可以被实现为硬盘驱动器或其它持久性数据存储设备。处理系统1100还可以包括一个或多个高速缓存存储器(未示出),其提供至少一些程序代码的临时存储以减少在执行期间必须从大容量存储设备1110检索程序代码的次数。
[0211]
被描绘为输入设备1112和输出设备1114的输入/输出(i/o)设备可以可选地耦合到数据处理系统。输入设备的示例可以包括但不限于键盘、诸如鼠标的定点设备等。输出设备的示例可以包括但不限于监视器或显示器、扬声器等。输入和/或输出设备可以直接或通过介入的i/o控制器耦合到数据处理系统。
[0212]
在实施例中,输入和输出设备可以被实现为组合的输入/输出设备(在图16中用围绕输入设备1112和输出设备1114的虚线示出)。这种组合设备的示例是触敏显示器,有时也称为“触摸屏显示器”或简称为“触摸屏”。在这样的实施例中,可以通过在触摸屏显示器上或附近的物理对象(诸如例如,用户的触控笔或手指)的移动来提供对设备的输入。
[0213]
网络适配器1116还可以耦合到数据处理系统以使其能够通过介入的私有或公共网络而耦合到其它系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络发送到数据处理系统1100的数据的数据接收器,以及用于将数据从数据处理系统1100发送到所述系统、设备和/或网络的数据发送器。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1100一起使用的不同类型网络适配器的示例。
[0214]
如图16中所示,存储器元件1104可以存储应用1118。在各种实施例中,应用1118可以存储在本地存储器1108、一个或多个大容量存储设备1110中,或者与本地存储器和大容量存储设备分开。应该认识到,数据处理系统1100还可以执行能够促进应用118的执行的操作系统(图11中未示出)。以可执行程序代码的形式实现的应用1118可以由数据处理系统1100,例如由处理器1102执行。响应于执行应用,数据处理系统1100可以被配置为执行本文描述的一个或多个操作或方法步骤。
[0215]
在本发明的一个方面,数据处理系统1100可以表示音频信号处理系统。
[0216]
本发明的各种实施例可以被实现为与计算机系统一起使用的程序产品,其中程序产品的(一个或多个)程序定义实施例的功能(包括本文描述的方法)。在一个实施例中,(一个或多个)程序可以包含在各种非暂态计算机可读存储介质上,其中,如本文所使用的,表述“非暂态计算机可读存储介质”包括所有计算机可读介质,唯一的例外是暂态的传播信号。在另一个实施例中,(一个或多个)程序可以包含在各种暂态计算机可读存储介质上。说明性的计算机可读存储介质包括但不限于:(i)不可写存储介质(例如,计算机内的只读存储器设备,诸如可由cd-rom驱动器读取的cd-rom盘、rom芯片或任何类型的固态非易失性半导体存储器),其上永久存储信息;以及(ii)可写存储介质(例如,闪存、盘驱动器或硬盘驱动器内的软盘或任何类型的固态随机存取半导体存储器),其上存储可更改信息。计算机程序可以在本文描述的处理器1102上运行。
[0217]
本文使用的术语仅出于描述特定实施例的目的,而无意于限制本发明。如本文所使用的,单数形式“一”、“一个”和“该”也意图包括复数形式,除非上下文另外明确指出。还将理解的是,术语“包括”和/或“包含”在本说明书中使用时指定存在所述特征、整数、步骤、操作、元件和/或组件,但不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。
[0218]
所附权利要求中的所有装置或步骤加功能元件的相应结构、材料、动作和等效物旨在包括用于与具体要求保护的其它要求保护的元件组合地执行功能的任何结构、材料或动作。已经出于说明的目的呈现了对本发明的实施例的描述,但并非旨在穷举或将本发明限于所公开的形式的实施方式。在不脱离本发明的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员来说将是显而易见的。选择和描述实施例是为了最好地解释本发明的原理和一些实际应用,并使本领域的其它普通技术人员能够理解本发明的具有适于预期的特定用途的各种修改的各种实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献