一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于使用低阶、中阶和高阶分量生成器进行与基于DirAC的空间音频编码有关的编码、解码、场景处理和其他过程的装置、方法和计算机程序与流程

2021-09-29 05:54:00 来源:中国专利 TAG:生成器 编码 分量 音频 低阶

用于使用低阶、中阶和高阶分量生成器进行与基于dirac的空间音频编码有关的编码、解码、场景处理和其他过程的装置、方法和计算机程序
技术领域
1.本发明涉及音频编码,并且特别涉及使用一个或多个声音分量生成器从输入信号产生声场描述。


背景技术:

2.方向性音频编码(directional audio coding,dirac)技术(参考文献[1])是一种分析和再现空间声音的有效方法。dirac使用基于到达方向(direction of arrival,doa)和针对每频带测量的扩散性的声场的知觉激励表示。它是基于这样的假设,即在一个时刻和在一个关键频带,听觉系统的空间分辨率受限于对用于方向的一个提示和用于耳间连贯性的另一提示进行解码。然后,空间声音通过交叉衰减的两个流在频域中呈现,这两个流是非方向扩散流和方向非扩散流。
[0003]
dirac最初用于录制b格式声音,但是也可以延伸用于匹配特定扬声器设置(例如5.1(参考文献[2]))或者任何麦克风阵列的配置(参考文献[5])的麦克风信号。在最新的案例中,通过录制中间格式的信号而不是录制用于特定扬声器设置的信号可以实现更多的灵活性。
[0004]
已在实际中良好建立的这种中间格式是通过(高阶)球形环绕声(参考文献[3])来呈现的。可以从球形环绕声信号产生每一个期望的扬声器设置的信号,包括用于耳机再现的双耳信号。这要求使用线性球形环绕声渲染器(参考文献[3])或者参数渲染器(例如方向性音频编码(dirac)),将特定的渲染器(renderer)应用于球形环绕声信号。
[0005]
球形环绕声信号可以呈现为多声道信号,其中每一个声道(称为球形环绕声分量)等效于所谓的空间基函数的系数。以这些空间基函数的加权和(利用对应于这些系数的权值),可以重建在录制位置中的原始声场(参考文献[3])。因此,空间基函数系数(即,球形环绕声分量)表示录制位置中的声场的紧凑描述。存在有不同类型的空间基函数,例如球形谐波(spherical harmonics,sh)(参考文献[3])或者圆柱谐波(cylindrical harmonics,ch)(参考文献[3])。当描述在2d空间中的声场时(例如,用于2d声音再现),可以使用ch,而sh可以用来描述在2d与3d空间中的声场(例如,用于2d与3d声音再现)。
[0006]
例如,从特定方向到达的音频信号f(t)产生空间音频信号该空间音频信号可以通过扩展球形谐波直到截断阶h,以球形环绕声格式呈现:
[0007][0008]
其中是阶l和模m的球形谐波,并且φ
lm
(t)是扩展系数。通过增加截断阶h,该扩展产生更精确的空间表示。在图1a中,针对阶n和模m示出具有球形环绕声声道编
号(ambisonics channel numbering,acn)索引的直到阶h=4的球形谐波。
[0009]
dirac已经扩展用于从第一阶球形环绕声信号(first order ambisonics signal)(foa,称为b格式)或者从不同的麦克风阵列递送更高阶的球形环绕声信号(参考文献[5])。这份文件着重于一种更有效率的方法,用于从dirac参数和参考信号来合成高阶球形环绕声信号。在这份文件中,该参考信号,也称为降混(down

mix)信号,被视为更高阶的球形环绕声信号的子集或者该球形环绕声分量的子集的线性组合。
[0010]
而且,本发明还考虑了其中将dirac用于以音频场景的参数形式的传输的情形。在这样的情形中,降混信号通过传统的音频核心编码器来编码,而dirac参数以压缩方式作为侧信息来传送。本方法的优点是考虑了在音频编码期间发生的量化误差。
[0011]
以下,呈现了基于dirac的空间音频编码系统的概述,该空间音频编码系统设计用于沉浸式语音和音频服务(immersive voice and audio services,ivas)。这表示不同上下文中的一个,诸如dirac空间音频编码器的系统概述。这种系统的目的是能够处理表示音频场景的不同空间音频格式,并且以低比特率对其进行编码,以及在传送后尽可能忠实地再现原始音频场景。
[0012]
该系统可以接受音频场景的不同表示作为输入。该输入音频场景可以通过旨在在不同扬声器位置处再现的多声道信号、听觉对象和描述对象随时间变化的位置的元数据、或者表示收听者或者参考位置的声场的第一阶或者更高阶的球形环绕声格式来捕获。
[0013]
优选地,该系统基于3gpp增强语音服务(enhanced voice services,evs),因为该解决方案预计以低等待时间运行以启用移动网络上的对话服务。
[0014]
如图1b所示,该编码器(ivas编码器)能够支持分别或者同时呈现给该系统的不同音频格式。音频信号可以本质上是声学的,可以通过麦克风拾取的信号,也可以本质上是电性的,其应该被传送到该扬声器。所支持的音频格式可以是多声道信号、第一阶和更高阶的球形环绕声分量以及音频对象。也可以通过组合不同的输入格式来描述复杂音频场景。所有的音频格式传送到dirac分析,该分析提取完整音频场景的参数表示。以参数的每个时间频率单位来测量到达方向和扩散性。在dirac分析之后是空间元数据编码器,其对元数据编码器进行量化和编码,以获得低比特率参数表示。
[0015]
与参数一起,对从不同来源或者音频输入信号导出的降混信号进行编码,用于通过传统的音频核心编码器进行传送。在这种情形中,采用一种基于evs的音频编码器,用于对降混信号进行编码。该降混信号包括不同的声道,称为传输声道:该降混信号可以例如是组成b格式信号的四个系数信号、取决于目标比特率的立体声对或者单声道降混。经编码的空间参数和经编码的音频位流在通过该通信声道传送之前被多路复用。
[0016]
在图1b中示出支持不同音频格式的基于dirac的空间音频编码的编码器侧。声学/电性输入1000输入到编码器接口1010,其中所述编码器接口具有图示为1013的特定功能,该特定功能用于第一阶球形环绕声(first order ambisonics,foa)或者高阶球形环绕声(high order ambisonics,hoa)。此外,该编码器接口具有用于多声道(multichannel,mc)数据的功能,例如立体声数据、5.1数据或者具有两个或者五个以上声道的数据。此外,该编码器接口1010具有用于对象编码的功能,例如,如图示为1011的空间音频对象编码(spatial audio object coding,saoc)。该ivas编码器包括具有dirac分析框1021和降混(downmix,dmx)框1022。通过ivas核心编码器1040,诸如aac或者evs编码器,对由降混框
1022输出的信号进行编码,并且使用一dirac元数据编码器1030,对由dirac分析框1021产生的元数据进行编码。
[0017]
在图2中所示的编码器中,通过核心解码器对传输声道进行解码,同时该dirac元数据在与经解码的传输声道一起传递到dirac合成之前被解码。在此阶段,可以考虑不同的选择。可以要求直接在任何扬声器或者耳机配置上播放音频场景,这在传统的dirac系统(图2中的mc)中通常是可行的。
[0018]
解码器也可以如各个对象在编码器侧所呈现的那样来传递各个对象(图2中的对象)。
[0019]
可替代地,也可以将该场景呈现为球形环绕声格式,用于其他进一步的操作,例如场景的旋转、反射或者移动(图2中的foa/hoa),或者是用于使用原始系统中未定义的外部渲染器。
[0020]
传递不同音频格式的dirac空间音频编码的解码器被图示于图2中,并且解码器包括ivas解码器1045和随后连接的解码器接口1046。ivas解码器1045包括ivas核心解码器1060,其被配置为执行对于由图1b的ivas核心编码器1040编码的内容的解码操作。此外,提供了dirac元数据解码器1050,其传递用于对由dirac元数据编码器1030编码的内容进行解码的解码功能。dirac合成器1070接收来自dirac元数据解码器1050和ivas核心解码器1060的数据,并且通过使用某种用户交互或者不使用,该输出被输入至解码器接口1046,解码器接口1046产生在框1083处的foa/hoa数据、如框1082中所示的多声道数据(mc数据)、或者如框1080中所示的对象数据。
[0021]
使用dirac范例的传统的hoa合成被图示于图3中。称为降混信号的输入信号被通过频率滤波器组进行时间频率分析。频率滤波器组2000可以是像复合值qmf的复合值滤波器组或者像stft的块变换。hoa合成在输出时产生包括(h 1)2个分量的阶h的球形环绕声信号。可选地,它也可以输出呈现在特定扬声器布局上的该球形环绕声信号。以下,我们将详细说明如何在某些情形中,伴随着输入空间参数从该降混信号获得(h 1)2个分量。
[0022]
该降混信号可以是原始麦克风信号或者是描述原始音频场景的原始信号的混合。例如,如果音频场景是通过声场麦克风所捕获的,则降混信号可以是场景的全向分量(w)、立体声降混(l/r)或者第一阶球形环绕声信号(foa)。
[0023]
对于每一个时间频率图块,如果降混信号包含用于确定这种dirac参数的充分信息,则声音方向,也可以称为到达方向(direction

of

arrival,doa),以及扩散因子被分别地通过方向估计器2020和扩散估计器2010来估计。例如,如果降混信号是第一阶球形环绕声信号(foa)就是这种情形。可替代地,或者如果降混信号不足以确定这些参数,则可以经由包含空间参数的输入位流,将所述参数直接传递至dirac合成。在音频传输应用的情形中,位流可以包括例如作为侧信息接收的经量化和经编码的参数。在这种情形中,该参数是在dirac合成模块之外,从原始麦克风信号或者在如开关2030或者2040所示的编码器侧提供给dirac分析模块的输入音频格式导出的。
[0024]
声音方向被方向增益评估器2050使用,以用于针对多个时间频率图块中的每一个时间频率图块,评估(h 1)2个方向增益中的一个或多个集合,其中h是经合成的球形环绕声信号的阶。
[0025]
方向性增益可以通过在要合成的球形环绕声信号的所需阶(级别)l和模m下评估
每一个估计声音方向的空间基函数而获得。声音方向可以用单位范数向量n(k,n)或者方位角和/或仰角θ(k,n)表示,例如以下关系:
[0026][0027]
在估计或者获得声音方向后,可以确定所需阶(级别)l和模m的空间基函数的响应,例如,通过将具有sn3d标准化的实值球形谐波视为空间基函数:
[0028][0029]
其中,范围是0≤l≤h,以及

l≤m≤l。p
l|m|
是勒让德函数(legendre

functions),而是用于勒让德函数与三角函数两者的标准项,其对于sn3d采用以下形式:
[0030][0031]
其中,克罗内克

德尔塔(kronecker

delta)δ
m
对于m=0为一,其余情形为零。然后,针对索引(k,n)的每一个时间频率图块,该方向增益被直接推导为:
[0032][0033]
通过从降混信号导出参考信号p
ref
并且乘以方向增益以及扩散性ψ(k,n)的因子函数,计算直达声音球形环绕声分量
[0034][0035]
例如,参考信号p
ref
可以是降混信号的全向分量或者降混信号的k个声道的线性组合。
[0036]
扩散声音球形环绕声分量可以通过使用用于从所有可能方向到达的声音的空间基函数的响应来仿真。一个示例是通过考虑在所有可能角度和θ上的空间基函数的平方值的积分来定义平均响应
[0037][0038]
扩散声音球形环绕声分是从信号p
diff
乘以平均响应与扩散性ψ(k,n)的因子函数而计算的:
[0039][0040]
信号可以通过使用施加到参考信号p
ref
的不同的去相关器而获得。
[0041]
最终,直达声音球形环绕声分量和扩散声音球形环绕声分量被组合2060,例如,通过求和运算,以获得针对时间频率图块(k,n)的所需阶(级别)l和模m的最终球形环绕声分量即,
[0042]
[0043]
所获得的球形环绕声分量可以使用反向滤波器组2080或者反向stft变换回时域,存储,传送,或者例如用于空间声音再现应用。可替代地,在将扬声器信号或者双耳信号变换回时域之前,对每一个带宽应用线性球形环绕声渲染器2070,用于获得将要在特定扬声器或者耳机上播放的信号。
[0044]
应当注意的是,参考文献[5]还教导:扩散声音分量仅可以被合成直到阶l,其中l<h。由于减少了去相关器的使用,这在降低计算复杂度的同时避免了合成伪像。


技术实现要素:

[0045]
本发明的目的在于提供一种用于从输入信号产生声场描述的改进概念。
[0046]
此目的可以通过根据权利要求1的用于产生声场描述的装置、根据权利要求20的产生声场描述的方法或者根据权利要求21的计算机程序来实现。
[0047]
根据第一方面的本发明是基于以下发现:不必对所有已产生的分量执行包括扩散部分计算的声场分量合成。执行扩散分量合成仅直到特定阶就足够了。然而,为了不产生任何能量波动或者能量误差,在产生具有扩散分量和直达分量的第一组声场分量的声场分量时,执行能量补偿,该能量补偿取决于扩散性数据、以及第二组声场分量中的声场分量的数量、第一组声场分量中的扩散分量的数量、第一组声场分量的声场分量的最大阶和第二组声场分量的声场分量的最大阶中的至少一个。特别是,根据本发明的第一方面,一种用于从包括一个或多个声道的输入信号产生声场描述的装置,包括:输入信号分析器,用于从输入信号获得扩散性数据;以及声音分量生成器,用于从输入信号产生第一组声场分量的一个或多个声场分量,对于每一个声场分量,该第一组声场分量具有直达分量和扩散分量,并且用于从输入信号产生第二组声场分量,该第二组声场分量仅具有直达分量。特别是,该声音分量生成器当产生第一声场分量组时执行能量补偿,该能量补偿取决于扩散性数据、以及第二组声场分量中的声场分量的数量、第一组声场分量中的扩散分量的数量、第一组声场分量的声场分量的最大阶和第二组声场分量的声场分量的最大阶中的至少一个。
[0048]
该第一组声场分量可以包括低阶声场分量和中阶声场分量,而第二组声场分量包括高阶声场分量。
[0049]
根据本发明的第二方面,一种用于从包括至少两个声道的输入信号产生声场描述装置,,该装置包括输入信号分析器,用于从输入信号获得方向数据和扩散性数据。该装置还包括估计器,用于估计第一能量或振幅相关测量和估计第二能量或振幅相关测量,该第一能量或振幅相关测量用于从输入信号导出的全向分量,该第二能量或振幅相关测量用于从输入信号导出的方向分量。此外,该装置还包括声音分量生成器,用于产生声场的声场分量,其中声音分量生成器被配置为使用第一能量或振幅相关测量、第二能量或振幅相关测量、方向数据与扩散性数据来执行方向分量的能量补偿。
[0050]
特别是,本发明的第二方面是基于以下发现:在其中所述用于产生声场描述的装置接收到方向分量、并且同时也接收到方向数据和扩散性数据的情形中,方向数据和扩散性数据可以用于补偿由于编码器内的方向分量或者全向分量的量化或者任何其他处理而可能引入的任何误差。因此,方向数据和扩散性数据并非简单地用于产生声场描述,而是此数据被第二次地用于校正方向分量,以便于撤消或者至少部分撤消,因此补偿方向分量的能量损失。
[0051]
优选地,对在解码器接口处接收的低阶分量执行能量补偿,或者从产生输入信号的音频编码器接收的数据中产生的低阶分量执行能量补偿。
[0052]
根据本发明的第三方面,一种用于使用包括单声道信号或者多声道信号的输入信号产生声场描述的装置,包括输入信号分析器、低阶分量生成器、中阶分量生成器以及高阶分量生成器。特别是,不同的“子”生成器被配置为基于特定处理程序以相应的阶来产生声场分量,该特定处理程序对于低阶、中阶或者高阶分量生成器中的每一个都是不同的。这确保了一方面在处理要求,另一方面在音频质量要求与另一方面在实用性程序之间的最佳折衷。通过这样的程序,例如去相关器的使用仅限于中阶分量的产生,而对于低阶分量的产生和高阶分量的产生,避免了任何容易出现伪像的去相关器。另一方面,优选地能量补偿被执行用于扩散分量能量损失,并且这种能量补偿仅在低阶声场分量内或者仅在中阶声场分量内或者在低阶声场分量与中阶声场分量两者中执行。优选地,使用已传送的方向扩散性数据来完成用于在低阶分量生成器中形成的方向分量的能量补偿。
[0053]
优选的实施例涉及用于使用方向性音频编码范例(dirac)(一种用于空间音频处理的知觉激励技术)合成(更高阶)球形环绕声信号的装置、方法或者计算机程序。
[0054]
实施例涉及一种,用于从空间参数和降混信号来合成音频场景的球形环绕声表示的有效方法。在该方法的应用中,但不限于,该音频场景被传送并且因此被编码用于减少传送数据量。然后,降混信号的声道的数量和质量强烈地受限于可以用于该传送的比特率。实施例涉及一种有效方式,其利用包括在所传送的降混信号中的信息以减少合成的复杂性,同时提高质量。
[0055]
本发明的另一个实施例涉及声场的扩散分量,声场的扩散分量可以被限制为仅模拟直到合成分量的预定阶,以避免合成伪像。这个实施例提供了一种方法,通过放大降混信号来补偿所产生的能量损失。
[0056]
另一个实施例涉及声场的方向分量,其特性可以在降混信号内改变。降混信号可以进一步地能量标准化,以保持由传送方向参数决定但是在传送期间由于注入量化或者其他误差而被破坏的能量关系。
附图说明
[0057]
在下文中,参考附图描述本发明的优选实施例,其中:
[0058]
图1a示出具有球形环绕声声道/分量编号的球形谐波;
[0059]
图1b示出基于dirac的空间音频编码处理器的编码器侧;
[0060]
图2示出了基于dirac的空间音频编码处理器的解码器;
[0061]
图3示出本领域已知的一种高阶球形环绕声合成处理器;
[0062]
图4示出应用第一方面、第二方面和第三方面的本发明的优选实施例
[0063]
图5示出一种能量补偿概述处理;
[0064]
图6示出根据本发明的第一方面的用于产生声场描述的装置;
[0065]
图7示出根据本发明的第二方面的用于产生声场描述的装置;
[0066]
图8示出根据本发明的第三方面的用于产生声场描述的装置;
[0067]
图9示出图8的低阶分量生成器的优选实施方式;
[0068]
图10示出图8的中阶分量生成器的优选实施方式;
[0069]
图11示出图8的高阶分量生成器的优选实施方式;
[0070]
图12a示出根据第一方面的补偿增益计算的优选实施方式;
[0071]
图12b示出根据第二方面的能量补偿计算的实施方式;以及
[0072]
图12c示出组合第一方面与第二方面的能量补偿的优选实施方式。
具体实施方式
[0073]
图6示出根据本发明的第一方面的用于产生声场描述的装置。装置包括输入信号分析器600,用于从如图6左侧所示的输入信号获得扩散性数据。此外,该装置包括声音分量生成器650,用于从输入信号产生第一组声场分量的一个或多个声场分量,对于每一个声场分量,该第一组声场分量具有直达分量和扩散分量。此外,该声音分量生成器从输入信号产生第二组声场分量,该第二组声场分量仅具有直达分量。
[0074]
特别是,声音分量生成器被配置为当产生第一组声场分量时执行能量补偿。能量补偿取决于扩散性数据、以及第二组声场分量中的声场分量的数量或者第二组声场分量的声场分量的最大阶。特别是,根据本发明的第一方面,执行能量补偿以补偿能量损失,因为对于该第二组声场分量,仅产生直达分量而未产生任何扩散分量。
[0075]
与此相反,在第一组声场分量中,在声场分量中包括直达部分和扩散部分。因此,声音分量生成器650会产生如上方数组所示的仅具有直达部分而没有扩散部分的声场分量,如在其他附图中由附图标记830所图示的,并且所述声音分量生成器产生具有直达部分和扩散部分的声场分量,如如在下文中将参照附图所解释的附图标记810、820所示。
[0076]
图7示出根据本发明的第二方面的用于从包括至少两个声道的输入信号产生声场描述的装置。该装置包括输入信号分析器600,用于从输入信号获得方向数据和扩散性数据。此外,设置有估计器720,用于估计第一能量或振幅相关测量和估计第二能量或振幅相关测量,该第一能量或振幅相关测量用于从输入信号导出的全向分量,该第二能量或振幅相关测量用于从输入信号导出的方向分量。
[0077]
此外,所述用于产生声场描述的装置包括声音分量生成器750,用于产生声场的声场分量,其中声音分量生成器750被配置为使用第一振幅测量、第二能量或振幅相关测量、方向数据和扩散性数据来执行方向分量的能量补偿。因此,根据本发明的第二方面,声音分量生成器产生经校正的/补偿的方向(直达)分量,以及如果被相应地实现,还产生与输入信号相同阶的其他分量,诸如全向分量,所述其他分量优选地不被能量补偿、或者仅为了扩散能量补偿的目的而被能量补偿,如在图6的上下文中所讨论的。应当注意的是,与振幅相关测量也可以是诸如b0和b1的方向分量或者全向分量的范数值或者振幅或者绝对值。优选地,如等式中所概述的那样,优选通过2的幂导出的功率或者能量,但是也可以使用应用于范数值或者振幅或者绝对值的其他幂来获得能量或振幅相关测量。
[0078]
在一个实施方式中,根据第二方面,所述用于产生声场描述的装置对包括在包括至少两个声道的输入信号中的方向信号分量执行能量补偿,使得方向分量被包括在输入信号中,或者可以从输入信号中计算得出,诸如通过计算两个通道之间的差值。这样的装置仅能在不产生任何更高阶的数据等的情况下执行校正,。然而,在其它实施例中,声音分量生成器还被配置为从其他阶产生其他声场分量,如稍后描述的附图标记820、830所示,但是对于在输入信号中未曾包括其对应声音分量的这些(或者更高阶)声音分量,不必执行任何方
向分量能量补偿。
[0079]
图8示出了本发明的第三方面的用于使用包括单声道信号或者多声道信号的输入信号产生声场描述的装置的优选实施方式。该装置包括输入信号分析器600,用于分析输入信号以导出方向数据和扩散性数据。此外,该装置包括低阶分量生成器810,用于从输入信号产生低阶声场描述直到预定阶和预定模,其中低阶分量生成器810被配置为通过复制或者采用输入信号或者输入信号的一部分来导出低阶声场描述,或者当输入信号是多声道信号时,执行输入信号的声道的加权组合来导出低阶声场描述。此外,该装置包括中阶分量生成器820,用于使用至少一个直达部分和至少一个扩散部分的合成,扩散部分使用方向数据和扩散性数据,在预定阶之上或者在预定阶处,以及在该预定模之上,以及在第一截断阶之下或者在第一截断阶处,产生中阶声场描述,使得该中阶声场描述包括直达贡献和扩散贡献。
[0080]
所述用于产生声场描述的装置还包括高阶分量生成器830,用于使用至少一个直达部分的合成来产生具有在第一截断阶之上的分量的高阶声场描述,其中该高阶声场描述仅包括直达贡献。因此,在实施例中,执行至少一个直达部分的合成,而无需任何扩散分量合成,使得高阶声场描述仅包括直达贡献。
[0081]
因此,低阶分量生成器810产生低阶声场描述,中阶分量生成器820产生中阶声场描述,而高阶分量生成器产生高阶声场描述。低阶声场描述可以扩展到特定阶和模,如例如在如图1中所示的高阶球形环绕声球形分量的上下文中那样。然而,根据本发明的第一、第二和/或第三方面,也可以产生其它声场描述,例如具有圆柱函数的声场描述或者具有与任何球形环绕声表示形式不同的任何其他分量的声场描述。
[0082]
中阶分量生成器820在预定阶或者模之上并且直到特定截断阶产生声场分量,该特定截断阶在以下描述中也用l指示。最后,高阶分量生成器830被配置为将从截断阶l产生的声场分量施加到最大阶,该最大阶在以下描述中指示为h。
[0083]
取决于实施方式,不能在如在图6中针对直达/扩散声音分量的对应附图标记所指示的低阶分量生成器810或者中阶分量生成器820内施加图6的声音分量生成器650所提供的能量补偿。此外,通过声音分量生成器650产生的声场分量所产生的第二组声场分量对应于图8的高阶分量生成器830的输出,所述高阶分量生成器830在图6中的直达/非扩散符号的下方的附图标记830所示。
[0084]
参照图7,指示出:方向分量能量补偿优选地在图8中所示的低阶分量生成器810内执行,即,对一些或者全部声场分量执行直到预定阶和预定模,如从框750出来的上方箭头之上的附图标记810所示。参照从图7中的框750出来的上方虚线箭头示出中阶分量和高阶分量的产生,如通过在上方箭头之下指示的附图标记820、830所示。因此,图8的低阶分量生成器810可以施加根据第一方面的扩散能量补偿和根据第二方面的方向(直达)信号补偿,而中阶分量生成器820只能执行扩散分量补偿,因为中阶分量生成器产生的输出数据具有相对于其能量而言可以增强的扩散部分,以便于在输出信号中具有较高的扩散分量能量预算。
[0085]
随后,参考图4,示出了在用于产生声场描述的装置内的本发明的第一方面、第二方面和第三方面的实施方式。
[0086]
图4输出输入信号分析器600。输入信号分析器600包括方向估计器610、扩散估计
器620和开关630、640。输入信号分析器600被配置为分析输入信号,通常在分析滤波器组400之后,以便为每一个时间/频率找到指示为doa的方向信息和/或扩散信息。方向信息doa和/或扩散信息也可以源于位流。因此,在无法从输入信号中检索此数据的情形中,即,当输入信号仅具有全向分量w时,输入信号分析器从位流中检索方向数据和/或扩散性数据。例如,当输入信号是具有左声道l和右声道r的两声道信号时,则可以执行分析以获得方向和/或扩散性数据。当输入信号是第一阶球形环绕声信号(foa)或者具有两个以上声道的任何其他信号时(例如a格式信号或者b格式信号),则执行由框610或者620所执行的实际信号分析。然而,当位流被分析,以便于从位流中检索方向数据和/或扩散性数据时,这也表示由输入信号分析器600完成的分析,但是没有像在其他情形中那样进行实际信号分析。在后者的情形中,该分析是对位流进行的,并且输入信号包括降混信号和位流数据
[0087]
此外,图4所示的用于产生声场描述的装置包括方向增益计算框410、分离器420、组合器430、解码器440和合成滤波器组450。合成滤波器组450接收用于高阶球形环绕声表示的数据,或者要通过耳机播放的信号,即双耳信号,或者将要通过以某种扬声器设置布置的扬声器播放的信号,其表示根据通常与特定扬声器设置无关的声场描述而被适配到该特定扬声器设置的多声道信号。
[0088]
此外,所述用于产生声场描述的装置包括声音分量生成器,该声音分量生成器通常包括由“产生低阶分量”框和“混合低阶分量”框组成的低阶分量生成器810。此外,提供了中阶分量生成器820,其由产生参考信号框821、去相关器823、824和混合中阶分量框825组成。并且,在图4中还提供了高阶分量生成器830,其包括混合高阶分量框822。此外,提供了(扩散)补偿增益计算框,其在附图标记910、920、930、940处示出。图12a至图12c进一步解释了附图标记910至940。
[0089]
尽管未在图4中说明,至少扩散信号能量补偿不仅在如图4所示的用于低阶的声音分量生成器中执行,而且此能量补偿也可以在中阶分量混合器825中执行。
[0090]
此外,图4示出了这样的情形,其中,对由分析滤波器组400产生的各个时间/频率图块执行整个处理。因此,针对每一个时间/频率图块,完成特定doa值、特定扩散值和用于这些值并且也应用不同补偿的特定处理。此外,也针对各个时间/频率图块来产生/合成声场分量,而且也针对每一个时间/频率图块在时域/频域内进行由组合器430进行的组合,而且额外地,hoa解码器440的过程在时域/频域中执行,并且然后滤波器组合成450产生用于全带宽时域信号,具有全带宽hoa分量、用于耳机的全带宽双耳信号或者用于特定扬声器设置的扬声器的全带宽扬声器信号。
[0091]
本发明的实施例利用两个主要原则:
[0092]
·
可以限制为仅针对经合成的球形环绕声信号的低阶分量而对扩散声音球形环绕声分量进行合成,直到阶l<h。
[0093]
·
通常能够从降混信号提取出k个低阶球形环绕声分量,不需要对其进行完整合成。
[0094]
ο在单声道降混的情形中,降混通常表示球形环绕声信号的全向分量w。
[0095]
ο在立体声降混的情形中,左声道(l)和右声道(r)可以被容易地变换为球形环绕声分量w和y。
[0096][0097]
ο在foa降混的情形中,1阶球形环绕声分量已经可用。可替代地,可以从4声道降混信号dmx的线性组合恢复foa,dmx例如以a格式:
[0098][0099]
其中
[0100][0101]
以及
[0102][0103]
在这两个原则上,还可以应用两项增强:
[0104]
·
直到阶h才对扩散声音球形环绕声分量建模的能量损失可以通过对从降混信号中提取的k个低阶球形环绕声分量进行放大来补偿。
[0105]
·
在其中降混信号被有损编码的传输应用中,所传输的降混信号被量化误差所破坏,该量化误差可以通过约束从降混信号中提取的k个低阶球形环绕声分量的能量关系来缓解。
[0106]
图4示出该新方法的实施例。与图3所示状态的一个不同是混合处理的差异,该差异根据将要合成的球形环绕声分量的阶而不同。低阶的分量主要是根据从降混信号直接提取的低阶分量来确定。低阶分量的混合可以简单得像将该所提取分量直接复制到输出一样。
[0107]
然而,在优选实施例中,通过应用能量补偿、扩散性与截断阶l和h的函数,或者通过应用能量标准化、扩散性与声场方向的函数,或者通过同时应用两者来进一步处理所提取的分量。
[0108]
中阶分量的混合实际上类似于目前最新的方法(除了可选的扩散补偿),并且产生和组合直达与扩散声音球形环绕声分量两者直到截断阶l,但是忽略已经通过低阶分量的混合而合成的k个低阶分量。高阶分量的混合包括产生剩余(

l 1)2个球形环绕声分量直到截断阶h,但仅针对直达声音而忽略扩散声音。在下文中,详细描述了低阶分量的混合或者产生。
[0109]
第一方面涉及在图6中一般性示出的能量补偿,其给出了在第一方面上的处理概述。在不丧失一般性的情况下,针对用于k=(l 1)2的具体情形解释了该原理。
[0110]
图5示出了该处理的概述。输入向量是截断阶l的物理上正确的球形环绕声信号。它包含由b
m,l
表示的( 1)2个系数,其中0≤l≤l是系数的阶,而

l≤m≤l是模。通常,球形环绕声信号是在时间

频率域中表示的。
[0111]
在hoa合成框820、830中,球形环绕声系数是从被合成直到最大阶h,其中h>l。结
果向量包含阶l<l≤h的合成系数,其以y
m,l
表示。hoa合成一般取决于扩散性ψ(或者相似的测量),其描述了当前时间频率点的声场如何扩散。通常,仅当该声场变为非扩散时,才合成中的系数,而在扩散情形中,该系数变为零。这样可以防止在散布情形中的伪像,但也会导致能量损失。该hoa合成的细节将在后面说明。
[0112]
为了补偿上述在扩散情形中的能量损失,我们在能量补偿框650、750中对应用能量补偿。结果信号由表示,并具有与相同的最大阶l。该能量补偿取决于扩散性(或者相似的测量),并在扩散情形中增加系数的能量,从而补偿中的系数的能量损失。细节稍后会说明。
[0113]
在组合框中,将中的经能量补偿的系数与中的经合成的系数相组合430,以获得包含所有(h 1)2个系数的输出球形环绕声信号即,
[0114][0115]
随后,将hoa合成作为实施例进行说明。有几种目前最新的方法来合成中的hoa系数,例如,基于协方差的渲染或者使用方向性音频编码(dirac)的直达渲染。在最简单的情形中,中的该系数是使用下式,从中的全向分量合成的
[0116][0117]
在此,是声音的到达方向(doa),并且是阶l和模m的球形环绕声系数的对应增益。通常,对应于在doa处评估的阶l和模m的已知的球形谐波函数的实值方向图。如果声场为非扩散,则扩散性ψ为0,如果声场为扩散,则扩散性ψ为1。所以,在扩散录制情形中,在阶l之上计算的系数y
lm
变为零。基于原始dirac论文中所述的有源声音强度向量,参数θ和ψ可以从第一阶球形环绕声信号来估计。
[0118]
接着,讨论了扩散声音分量的能量补偿。为了导出能量补偿,我们考虑一个典型的声场模型,其中声场由直达声音分量和扩散声音分量组成,即全向信号可以写为
[0119][0120]
其中,p
s
是直达声音(例如平面波),而p
d
是扩散声音。假设此声场模型和球形环绕声系数的sn3d标准化,则物理上正确的系数b
m,l
的预期功率由下式给出:
[0121][0122]
在此,φ
s
=ε{|p
s
|2}是直达声音的功率,并且φ
d
=ε{|p
d
|2}是扩散声音的功率。此外,q
l
是第l阶系数的方向性因子,其由q
l
=1/n给出,其中n=2l 1是每个阶l的系数的数量。为了计算能量补偿,我们可以考虑doa(更精确的能量补偿),或者我们假设是均匀分布的随机变量(更实际的方法)。在后一种情形中,的期望功率为
[0123][0124]
以下,令表示最大阶h的物理上正确的球形环绕声信号。使用上述的方程式,的总期望功率由下式给出
[0125][0126]
相似地,当使用公共扩散定义时,合成球形环绕声信号的总预期功率由下式给出:
[0127][0128]
能量补偿是通过将因子g乘以来执行的,即,
[0129][0130]
现在,输出球形环绕声信号的总预期功率由下式给出
[0131][0132]
的总期望功率应与的总期望功率匹配。因此,平方补偿因子计算为
[0133][0134]
这可以简化为
[0135][0136]
其中ψ是扩散性,l是输入球形环绕声信号的最大阶,并且h表示输出球形环绕声信号的最大阶。
[0137]
可以为k<(l 1)2采用相同的原则,其中使用去相关器和平均扩散响应对(l 1)2‑
k个扩散声音球形环绕声分量进行合成。
[0138]
在特定情形中,并不对k<(l 1)2个以及无扩散声音分量进行合成。对于高频尤其如此,其中绝对相位是听不到的,并且去相关器的使用无关紧要。然后,可以通过计算阶lk以及与k个低阶分量对应的模mk的数量,通过能量补偿对扩散声音分量进行建模,其中k表示第一组声场分量中的扩散分量的数量:
[0139][0140]
然后,补偿增益变为:
[0141][0142]
随后,示出了与在图7中一般性示出的与第二方面相对应的直达声音分量的能量标准化的实施例。如上,输入向量假设为最大阶l的物理上正确的球形环绕声信号。然而,
降混输入信号可能会受到量化误差的影响,该量化误差可能会破坏能量关系。通过对降混输入信号进行标准化可以恢复此关系:
[0143][0144]
在给定声音的方向和扩散参数的情况下,直达和扩散分量可以表示为:
[0145][0146][0147]
然后,可以针对的每一个分量,将根据该模型的预期功率表示为
[0148][0149]
然后,该补偿增益变为:
[0150][0151]
其中0≤l≤l并且

l≤m≤l。
[0152]
可替代地,针对的每一个分量,根据该模型的预期功率可以被表示为:
[0153][0154]
然后,该补偿增益变为:
[0155][0156]
其中,0≤l≤l并且

l≤m≤l。
[0157]
和是复数,并且针对g
s
的计算,该复数值的范数或者数值或者绝对值或者极坐标表示被采用并且被平方,以获得该预功率或者能量作为能量或振幅相关测量。
[0158]
扩散声音分量的能量补偿和直达声音分量的能量标准化可以通过施加该形式的增益来共同实现:
[0159]
g
s
,d=g.g
s
[0160]
在一实际实施方式中,所获得的标准化增益、补偿增益或者两者的组合可以被限制,以避免导致严重均衡的大增益因子,这种大增益因子可能导致音频伪像。例如,可以将增益限制在

6至 6db之间。此外,可以在时间和/或频率上(通过移动平均值或者递归平均值)对增益进行平滑处理,用于避免突然变化,并且从而用于稳定化处理。
[0161]
随后,将概述优选实施例相对于现有技术的一些益处和优点。
[0162]
·
在dirac内的经简化(不太复杂的)的hoa合成。
[0163]
ο更多直达合成,而无需所有球形环绕声分量的完整合成。
[0164]
ο减少所需的去相关器的数量和其对最终质量的影响。
[0165]
·
减少在传输期间在降混信号中引入的编码伪像。
[0166]
·
使用于三个不同阶的处理分离开,以在质量与处理效率之间取得最佳折衷。
[0167]
随后,概述了部分或者完全包括在以上描述中的几个发明方面,它们可以彼此独立地或者彼此组合地使用,或者仅以从三个方面中任意选择地组合两个方面的某种组合来使用。
[0168]
第一方面:用于扩散声音分量的能量补偿
[0169]
本发明从以下事实入手:当声场描述是从包括一个或多个信号分量的输入信号产生时,该输入信号可以被分析,用于获得用于由该输入信号表示的声场的至少扩散性数据。例如,当该输入信号具有两个、三个或者更多个信号分量,诸如完整的第一阶表示,诸如b格式表示或者a格式表示时,此输入信号分析可以是与元数据相关联的一个或多个信号分量的扩散性数据的提取,或者此输入信号分析可以是真实信号分析。
[0170]
现在,存在声音分量生成器,其产生第一组声场分量的一个或多个声场分量,该第一组声场分量具有直达分量和扩散分量。并且,额外地,产生第二组声场分量的一个或多个声场分量,其中,对于这种第二组声场分量,声场分量仅具有直达分量。
[0171]
与完整声场产生相反,当前帧的扩散值会导致能量误差,或者当前正在考虑的时间/频率段的值不为零。
[0172]
为了补偿此能量误差,在产生第一组声场分量时执行能量补偿。该能量补偿取决于扩散性数据和第二组声场分量中的声场分量的数量,其表示由于用于第二组声场分量的扩散分量的非合成而导致的能量损失。
[0173]
在一个实施例中,用于第一组声场分量的声音分量生成器可以是图4的低阶分支,其通过复制或者执行加权加法来提取第一组声场分量的声场分量,即无需执行复杂的空间基函数评估。因此,第一组声场分量的声场分量不能分别用作直达部分和扩散部分。但是,相对于其能量增加第一组声场分量的整个声场分量会自动地增加扩散部分的能量。
[0174]
可替代地,用于第一组声场分量的一个或多个声场分量的声音分量生成器也可以是图4中的中阶分支,其依赖于分离的直达部分合成和扩散部分合成。在此,我们有分离可用的扩散部分,并且在一个实施例中,增加声场分量的扩散部分,而不是增加直达部分,以便于补偿由于第二组声场分量引起的能量损失。然而,在这种情形中,可以替换地,也可以在组合了直达部分与扩散部分后,增加结果声场分量的能量。
[0175]
可替代地,用于第一组声场分量的一个或多个声场分量的声音分量生成器也可以是图4中的低阶和中阶分量分支。然后,该能量补偿可以被仅应用于低阶分量,或者被应用于低阶和中阶分量两者。
[0176]
第二方面:直达声音分量的能量标准化
[0177]
在本发明中,从以下假设入手:具有两个或更多个声音分量的输入信号的产生伴随某种量化。通常,当考虑两个或更多个声音分量时,该输入信号的一个声音分量可以是全向信号,诸如以b格式表示的全向麦克风信号w,而其他声音分量可以是各自的方向信号,诸如以b格式表示的八字形麦克风信号x、y、z,即第一阶球形环绕声表示。
[0178]
当信号编码器遇到比特率要求过高而无法实现完美编码操作的情形时,则典型的过程是编码器对全向信号进行尽可能精确的编码,但是编码器仅将较少的位数量用于方向分量,该位数量可以甚至低至将一个或多个方向分量完全减少为零。这表示能量不匹配和方向信息的损失。
[0179]
但是,现在仍然有这样的要求,其例如是通过具有显式参数侧信息来获得,该信息
表明特定帧或者时间/频率段具有低于一的特定扩散性和声音方向。因此,可能出现这样的情形,即根据参数数据,具有特定方向的特定非扩散分量,而另一方面,所传输的全向信号和方向信号却没有反映此方向。例如,全向信号可以在没有任何重大信息损失的情形中被传输,而由于缺乏位的原因,负责左、右方向的方向信号y可以被设置为零。在这种情形中,即使在原始音频场景中直达声音成分来自左侧,所传输的信号也将在没有任何左右方向特征的情况下反映音频场景。
[0180]
因此,根据第二发明,对直达声音分量执行能量标准化,以便为了在方向/扩散性数据的帮助下补偿能量关系的破坏,方向/扩散性数据被显式地包括在输入信号中,或者从输入信号本身导出。
[0181]
可以在图4的所有单个处理分支的上下文中合起来或者仅分离地应用此能量标准化。
[0182]
本发明允许使用从输入信号接收或者从输入信号的非妥协部分导出的附加参数数据,因此,可以使用附加方向数据和从输入信号导出的扩散性数据来减少由于某种原因而被包括在输入信号中的编码错误。
[0183]
在本发明中,用于从输入信号导出的全向分量的能量或振幅相关测量和用于从输入信号导出的方向分量的另外的能量或振幅相关测量被估计,并且连同方向数据和扩散性数据一起被用于能量补偿。这种能量或振幅相关测量可以是振幅本身,也可以是功率,即平方和相加后的振幅,或者可以是能量,诸如功率乘以特定时间段,或者可以是从振幅导出的任何其他测量,其振幅的指数不同于一,且随后相加。因此,与指数为2的功率相比,另外的能量或振幅相关测量也可能是具有指数为3的响度。
[0184]
第三方面:用于不同阶的不同处理过程的系统实施方式
[0185]
在图4所示的第三发明中,使用包括具有两个或更多个信号分量的单声道信号或者多分量信号的输入信号来产生声场。信号分析器从输入信号导出方向数据和扩散性数据,在该输入信号具有两个或更多个信号分量的情形中通过使用显式信号分析,或者通过分析该输入信号,以提取包括在输入信号中的方向数据和扩散性数据作为元数据。
[0186]
低阶分量生成器从输入信号产生低阶声场描述直到预定阶,并且针对可用模执行此任务,该可用模可以是通过从输入信号复制信号分量或者通过在输入信号中执行分量的加权组合来提取的。
[0187]
中阶分量生成器通过使用从分析器获得的方向数据和扩散性数据,使用至少一个直达分量的合成和至少一个扩散分量的合成,来产生中阶声场描述,该中阶声场描述具有在预定阶之上或者在该预定阶处、以及在该预定模之上、以及低于或者等于第一截断阶的阶的分量,使得该中阶声场描述包括直达贡献和扩散贡献。
[0188]
此外,高阶分量生成器使用至少一个直达分量的合成而没有任何扩散分量合成来产生一高阶声场描,该高阶声场描述具有在第一截断阶之上、以及低于或者等于第二截断阶的阶的分量,使得该高阶声场描述仅包括直达贡献。
[0189]
本系统发明的显著优点在于,通过尽可能好地利用包括在输入信号中的信息来完成尽可能精确的低阶声场产生,而同时,由于仅需要复制操作或者加权组合操作(例如加权加法),因此执行该低阶声音描述的处理操作需要很少的努力。因此,可以以最小量的所需处理能力来执行高质量低阶声音描述。
[0190]
中阶声音描述需要较多的处理功率,但是允许使用分析后的方向数据和通常直到一阶(即高阶)之下的扩散性数据,来产生具有直达和扩散贡献的非常准确的中阶声音描述,从感知的角度来看,在声场描述的扩散贡献仍然是需要的。
[0191]
最终,高阶分量生成器仅通过执行直达合成而不执行扩散合成来产生高阶声音描述。这样再次降低了所需的处理能力的量,这是因为仅产生了直达分量,而同时,从感知的角度出发,省略该扩散合成的问题并不那么严重。
[0192]
当然,第三发明可以与第一发明和/或第二发明组合,但即使出于某些原因,当不施加不使用高阶分量生成器进行扩散合成的补偿时,该过程仍然可以实现在一方面的处理能力与另一方面的音频质量之间的最佳折衷。对于执行低阶能量标准化以补偿用于产生输入信号的编码也是如此。在一个实施例中,附加地执行这样的补偿,但是即使没有这样的补偿,也获得了显著的重要优势。
[0193]
作为并行传输的象征性附图,图4示出了通过每一个分量生成器所处理的分量的数量。如图4所示的低阶分量生成器810从输入信号产生低阶声场描述直到预定阶和预定模,其中低阶分量生成器810被配置为通过照原样复制或者采用输入信号或者执行输入信号的声道的加权组合来导出低阶声场描述。如图所示,在产生低阶分量框与混合低阶分量框之间,k个单独的分量被此低阶分量生成器810处理。中阶分量生成器820产生参考信号,并且作为示例性情形,概述了使用在滤波器组400的输入或者输出处的降混信号中包括的全向信号。然而,当输入信号具有左声道和右声道时,则通过参考信号发生器821计算通过将左声道和右声道相加而获得的单声道信号。此外,通过中阶分量生成器产生数量为(l 1)2–
k的分量。此外,高阶分量生成器数量为(h 1)2–
(l 1)2的分量,使得最后,在组合器的输出处,来自于输入处的单个或者几个(少量)分量中的(h 1)2个分量在此进入滤波器组400。分离器被配置为将各个的方向/扩散性数据给相应的分量生成器810、820、830。因此,低阶分量生成器接收k个数据项。这通过连接分离器420和混合低阶分量框的线来指示。
[0194]
此外,混合中阶分量框825接收(l 1)2–
k个数据项,并且混合高阶分量框接收(h 1)2–
(l 1)2个数据项。相应地,各个混合分量框将特定数量的声场分量提供给组合器430。
[0195]
随后,参照图9示出了图4的低阶分量生成器810的优选实施方式。输入信号被输入到输入信号调查器811,并且输入信号调查器811将所获取的信息提供给处理模式选择器812。处理模式选择器812被配置为选择多个不同的处理模式,这些模式示意性地示出为由数字1指示的复制框813、由数字2指示的采用(原样)框814、由数字3和附图标记815指示的线性组合(第一模式)框815和由数字4指示的线性组合(第二模式)框816。例如,当输入信号调查器811确定输入信号的特定种类时,处理模式选择器812选择如图9的表格所示的多个不同处理模式中的一个。例如,当输入信号是全向信号w或者单声道信号时,选择复制813或者采用814。然而,当输入信号是具有左声道(l)或者右声道(r)的立体声信号或者具有5.1或者7.1声道的多声道信号时,选择线性组合框815,以便于通过对左和右相加、以及通过计算左和右之间的差值来计算方向分量,从输入信号导出全向信号w。
[0196]
然而,当输入信号是联合立体声信号,即中间(m)/侧面(s)表示时,选择框813或者框814,因为该中间信号已经呈现为全向信号,而该侧面信号已经呈现为方向分量。
[0197]
相似地,当确定输入信号是第一阶球形环绕声信号(foa)时,则处理模式选择器812选择框813或者框814。然而,当确定输入信号是a格式信号时,则选择线性组合(第二模
式)框816,以便于对a格式信号进行线性转换以获得具有全向分量和三方向分量的第一级球形环绕声信号,该三方向分量表示通过图8或者图6的框810产生的k个低阶分量帧。此外,图9示出了能量补偿器900,该能量补偿器900被配置为对框813至816中的一个框的输出执行能量补偿,以便于以相应的增益值g和g
s
执行扩散补偿和/或直达补偿。
[0198]
因此,能量补偿器900的实施方式分别地对应于图6和图7的声音分量生成器650或者声音分量生成器750的程序。
[0199]
图10示出了图8的中级分量生成器820或者声音分量生成器650的一部分的优选实施方式,所述声音分量生成器650的一部分用于与第一组声场分量有关的框650的直达/扩散下方箭头。特别地,中阶分量生成器820包括参考信号生成器821,该参考信号生成器接收输入信号并且当输入信号是单声道信号时,复制或者原样采用来产生参考信号,或者通过前面讨论的计算从输入信号中导出参考信号,或者如wo 2017/157803 a1中所说明的,其全部教导通过引用并入本文。
[0200]
此外,图10示出了方向增益计算器410,其被配置为根据特定doa信息(φ,θ)、以及根据特定模数m和特定阶数l来计算方向增益g
lm
。在优选实施例中,当针对通过k,n引用的每一个单独的图块在时域/频域中进行该处理时,针对每一个这种时间/频率图块计算方向增益。加权器820接收用于特定时间/频率图块的参考信号和扩散性数据,并且加权器820的结果是直达部分。扩散部分是通过去相关滤波器823和随后的加权器824所执行的处理产生的,加权器824接收用于特定时间帧和频率段的扩散值ψ,并且特别是,接收由平均响应提供器826产生的由d
l
指示的对于特定模m和阶l的平均响应,平均响应提供器826接收所需的模m和所需的阶l作为输入。
[0201]
加权器824的结果是扩散部分,并且该扩散部分通过加法器825与直达部分相加,以便获得用于特定模m和特定阶l的特定中阶声场分量。优选的是,仅将图6所讨论的扩散补偿增益施加到通过框823产生的扩散部分。这可以有利地在通过(扩散)加权器完成的过程中完成。因此,仅信号中的扩散部分得到增强,以便于补偿没有得到完整合成的更高阶分量所引起的扩散能量损失,如图10所示。
[0202]
图11中针对高阶分量生成器示出了仅直达部分的产生。基本上,就直达分支而言,高阶分量生成器的实现方式与中阶分量生成器的实现方式相同,但不包括框823、824、825和826。因此,高阶分量生成器仅包括(直达)加权器822,(直达)加权器822接收从方向增益计算器410接收输入数据,并且从参考信号生成器821接收参考信号。优选地,仅产生用于高阶分量生成器和中阶分量生成器的单个参考信号。然而,视情形而定,两个框也可以具有各自的参考信号发生器。尽管如此,最好只有一个参考信号发生器。因此,通过高阶分量生成器执行的处理非常有效率,因为对于时间/频率图块仅执行具有特定方向增益g
lm
与特定扩散信息ψ的单个加权方向。因此,高阶声场分量可以非常有效率地和迅速地产生,并且通过增强低阶声场分量或者优选地仅增强中阶声场分量的扩散部分,可以很容易地补偿由于输出信号中未产生扩散分量或者未使用扩散分量而导致的任何错误。
[0203]
通常,扩散部分在通过复制或者通过执行(加权)线性组合所产生的低阶声场分量内不是单独可获得的。然而,增强这类分量的能量自动地增强了扩散部分的能量。如发明人所发现的,直达部分的能量的同时增加没有问题。
[0204]
随后参考图12a至图12c,以进一步示出各个补偿增益的计算。
[0205]
图12a示出了图6的声音分量生成器650的优选实施方式。在一个实施例中,使用扩散值、最大阶h和截断阶l来计算(扩散)补偿增益。在其它实施例中,使用在低阶处理分支810中从分量的数量导出的参数l
k
来计算扩散补偿增益。此外,取决于参数lk和通过低阶分量生成器实际产生的分量的数量k来使用参数mk。此外,也使用取决于l
k
的值n。第一实施例中的值h、l两者,或者h、lk、mk,通常表示在第二组声场分量中的声场分量的数量(与第一组声场分量中的声音分量的数量有关)。因此,不合成扩散分量的分量越多,能量补偿增益就越高。另一方面,可以被补偿的、即可以乘以增益因子的低阶声场分量的数量越高,增益因子就可以越低。通常,增益因子g总是大于1。
[0206]
图12a示出了由(扩散)补偿增益计算器910进行的增益因子g的计算、以及由补偿增益施加器900完成的将此增益因子后续施加到待“校正”的(低阶)分量。在线性数量的情形中,补偿增益施加器将是乘法器,而在对数数量的情形中,该补偿增益施加器将是加法器。然而,可以取决于由框910计算补偿增益的特定性质和方式,来实现补偿增益施加的其他实现方式。然而,实现补偿增益施加的其它实施方式取决于框910计算补偿增益的具体性质和方式。因此,该增益不必一定是乘法增益,而也可以是任何其他增益。
[0207]
图12b示出了用于(直达)补偿增益处理的第三实施方式。(直达)补偿增益计算器920接收用于在图12b中指示为“全向功率”的全向分量的能量或振幅相关测量作为输入。此外,用于方向分量的第二能量或振幅相关测量也输入到框920作为“方向功率”。此外,直达补偿增益计算器920额外地接收信息q
l
,或者,可替代地,信息n。n等于每阶l的系数的数量(2l 1),而q
l
等于1/n。此外,对于(直达)补偿增益的计算,还需要用于特定时间/频率图块(k,n)的方向增益g
lm
。例如,方向增益是从图4的方向增益计算器410导出的相同数据。(直达)补偿增益g
s
被从框920转发到补偿增益施加器900,其可以以与框900类似的方式实现,即,接收待“校正”的分量,并且输出经校正的分量。
[0208]
图12c示出了要联合执行的扩散声音分量的能量补偿与直达声音分量的补偿的能量标准化的组合的优选实施方式。为此,将(扩散)补偿增益g和该(直达)补偿增益g
s
输入到增益组合器930该增益组合器的结果(即,组合增益)被输入到增益操纵器940中,增益操纵器940被实现为后处理器并且执行最小值或者最大值的限制,或者应用压缩函数以便执行某种较软的限制,或者在时间或频率图块之间执行平滑化。受限制的操纵增益可以通过其他后处理方式来压缩或者平滑或者处理,然后通过增益施加器将经后处理的增益施加到低阶分量,以获得经校正的低阶分量。
[0209]
在线性增益g、g
s
的情形中,增益组合器930被实现为乘法器。在对数增益的情形中,增益组合器被实现为加法器。此外,关于图7的在附图标记620处指示的估计器的实现,概述为:只要施加到振幅的幂大于1,估计器620就可以提供任何能量或振幅相关测量用于全向和方向分量。在作为能量或振幅相关测量的幂的情形中,指数等于2。但是,指数在1.5和2.5之间也是有用的。此外,甚至更高的指数或者幂也是有用的,例如将幂3施加到对应于响度值而不是功率值的幅度。因此,通常,优选使用幂2或者3来提供能量或振幅相关测量,但是通常也优选在1.5和4之间的幂。
[0210]
接着,概述本发明各方面的几个例子。
[0211]
主示例1a,用于第一方面(用于扩散声音分量的能量补偿)
[0212]
1a.一种用于从包括一个或多个声道的输入信号产生声场描述的装置,该装置包
括:
[0213]
输入信号分析器,用于从输入信号获得扩散性数据;以及
[0214]
声音分量生成器,用于从输入信号产生第一组声场分量的一个或多个声场分量,对于每一个声场分量,第一组声场分量具有直达分量和扩散分量,并且用于从输入信号产生第二组声场分量,第二组声场分量仅具有直达分量;
[0215]
其中,声音分量生成器被配置为当产生第一组声场分量时执行能量补偿,能量补偿取决于扩散性数据和第二组声场分量中的声场分量的数量。
[0216]
主示例1b,用于第二方面(用于直达信号补偿的能量标准化)
[0217]
1b.一种用于从包括至少两个声道的输入信号产生声场描述的装置,该装置包括:
[0218]
输入信号分析器,用于从输入信号获得方向数据和扩散性数据;
[0219]
估计器,用于估计第一振幅相关测量和估计第二振幅相关测量,第一振幅相关测量用于从输入信号导出的全向分量,第二振幅相关测量用于从输入信号导出的方向分量;以及
[0220]
声音分量生成器,用于产生声场的声场分量,其中声音分量生成器被配置为使用第一振幅相关测量、第二振幅相关测量、方向数据与扩散性数据来执行方向分量的能量补偿。
[0221]
主示例1c,用于第三方面:具有不同生成器分支的系统实施方式
[0222]
1c.一种用于使用包括单声道信号或者多声道信号的输入信号产生声场描述的装置,该装置包括:
[0223]
输入信号分析器,用于分析输入信号以导出方向数据和扩散性数据;
[0224]
低阶分量生成器,用于从输入信号产生低阶声音描述直到预定阶和模,其中低阶分量生成器被配置为通过复制或者采用输入信号或者执行输入信号的声道的加权组合来导出低阶声音描述;
[0225]
中阶分量生成器,用于使用至少一个直达部分和至少一个扩散部分的合成,扩散部分使用方向数据和扩散性数据,在预定阶之上或者在预定阶处,以及在预定模之上,以及在第一截断阶之下或者在第一截断阶处,产生中阶声音描述,使得中阶声音描述包括直达贡献和扩散贡献;以及
[0226]
高阶分量生成器,用于使用至少一个直达部分的合成来产生高阶声音描述,高阶声音描述具有在第一截断阶之上的分量,其中高阶声音描述仅包括直达贡献。
[0227]
2.根据示例1a、1b、1c的装置,
[0228]
其中,低阶声音描述、中阶声音描述或者高阶描述包括正交的输出声场的声场分量,使得任意两个声音描述不包含一个且相同的声场分量;或者
[0229]
其中中阶分量生成器产生低于第一截断阶或者在第一截断阶处的不由低阶分量生成器使用的分量。
[0230]
3.前述示例之一的装置,包括:
[0231]
接收具有一个或多个音频声道的输入降混信号,音频声道表示声场;
[0232]
接收或者确定表示声场的一个或多个声音方向;
[0233]
使用一个或多个声音方向来评估一个或多个空间基函数;
[0234]
从输入降混信号声道的第一加权组合导出第一组一个或多个声场分量;
[0235]
从输入降混信号声道的第二加权组合和一个或多个经评估的空间基函数导出第二组一个或多个声场分量;
[0236]
组合第一组一个或多个声场分量与第二组一个或多个声场分量。
[0237]
4.前述示例之一的装置,其中第一组声场分量和第二组声场分量正交。
[0238]
5.前述示例之一的装置,其中声场分量是正交基函数的系数。
[0239]
6.前述示例之一的装置,其中声场分量是空间基函数的系数。
[0240]
7.前述示例之一的装置,其中声场分量是球形或者圆形谐波的系数。
[0241]
8.前述示例之一的装置,其中声场分量是球形环绕声系数。
[0242]
9.前述示例之一的装置,其中输入降混音信号具有少于三个音频声道。
[0243]
10.前述示例之一的装置,进一步包括:
[0244]
接收或者确定扩散值;
[0245]
产生一个或多个扩散声音分量作为扩散值的函数;以及
[0246]
将一个或多个扩散声场分量与第二组一个或多个直达声场分量相组合。
[0247]
11.前述示例之一的装置,其中扩散分量生成器还包括去相关器,用于对扩散声音信息进行去相关。
[0248]
12.前述示例之一的装置,其中第一组一个或多个声场分量是从扩散值导出的。
[0249]
13.前述示例之一的装置,其中第一组一个或多个声场分量是从一个或多个声音方向导出的。
[0250]
14.前述示例之一的装置,其导出时间频率依赖的声音方向。
[0251]
15.前述示例之一的装置,其导出时间频率依赖的扩散值。
[0252]
16.前述示例之一的装置,进一步包括:将时域降混信号的多个声道分解为具有多个时间频率图块的频率表示。
[0253]
17.一种用于从包括一个或多个声道的输入信号产生声场描述的方法,包括:
[0254]
从输入信号获得扩散性数据;以及
[0255]
从输入信号产生第一组声场分量的一个或多个声场分量,对于每一个声场分量,第一组声场分量具有直达分量和扩散分量,并且用于从输入信号产生第二组声场分量,第二组声场分量仅具有直达分量;
[0256]
其中从输入信号产生第一组声场分量的一个或多个声场分量包括当产生第一组声场分量时执行能量补偿,能量补偿取决于扩散性数据和第二组声场分量中的声场分量的数量。
[0257]
18.一种用于从包括至少两个声道的输入信号产生声场描述的方法,包括:
[0258]
从输入信号获得方向数据和扩散性数据;
[0259]
估计第一振幅相关测量和估计第二振幅相关测量,第一振幅相关测量用于从输入信号导出的全向分量,第二振幅相关测量用于从输入信号导出的方向分量;以及
[0260]
产生声场的声场分量,其中声音分量生成器被配置为使用第一振幅相关测量、第二振幅相关测量、方向数据与扩散性数据来执行方向分量的能量补偿。
[0261]
19.一种用于使用包括单声道信号或者多声道信号的输入信号产生声场描述的方法,包括:
[0262]
分析输入信号以导出方向数据和扩散性数据;
[0263]
从输入信号产生低阶声音描述直到预定阶和模,其中低阶分量生成器被配置为通过复制输入信号或者执行输入信号的多个声道的加权组合来导出低阶声音描述;
[0264]
使用至少一个直达部分和至少一个扩散部分的合成,扩散部分使用方向数据和扩散性数据,在预定阶之上或者在预定阶处,以及在预定模之上,以及在高阶之下,产生中阶声音描述,使得中阶声音描述包括直达贡献和扩散贡献;以及
[0265]
使用至少一个直达部分的合成而没有任何扩散分量合成来产生高阶声音描述,高阶声音描述具有在高阶或者在高阶之上的分量,使得高阶声音描述仅包括直达贡献。
[0266]
20.一种计算机程序,当在计算机或者处理器上运行时,计算机程序用于执行如示例17、18、19的方法。
[0267]
这里要提到的是,前文所讨论的所有替代方案或者方面、以及由所附权利要求书中的独立权利要求限定的所有方面都是可以单独使用,即,除了预期的替代方案、目的或者独立权利要求外,没有任何其他替代方案或者目的。然而,在其他实施例中,两个或更多个替代方案或者方面或者独立权利要求可以彼此组合,并且在其他实施例中,所有方面或者替代方案和所有独立权利要求可以彼此组合。
[0268]
根据本发明的编码的音频信号可以被存储在数字存储介质或者非暂时性存储介质上,或者可以在诸如无线传输介质的传输介质或者诸如网络的有线传输介质上传输。
[0269]
尽管在设备的上下文中描述了一些方面,但是很明显,这些方面也表示了对应方法的描述,其中框或者设备对应于方法步骤或者方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应装置的相应框或者项目或者特征的描述。
[0270]
取决于某些实施要求,本发明的实施例可以以硬件或者软件来实现。实施例可以使用数字存储介质来执行,例如存储有电子可读控制信号的软盘、dv、蓝光、cd、rom、prom、eprom、eeprom或者闪存,它们与可以可编程计算机系统配合(或者能够配合),从而执行相应的方法。因此,数字存储介质可以是计算机可读的。
[0271]
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统合作,从而执行本文描述的方法之一。
[0272]
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运作时,该程序代码可以操作用于执行方法之一。程序代码可以例如被存储在机器可读载体上。
[0273]
其他实施例包括存储在机器可读载体上的,用于执行本文描述的方法之一的计算机程序。
[0274]
换句话说,因此,本发明方法的实施例是一种计算机程序,该计算机程序具有当计算机程序在计算机上运行时用于执行本文描述的方法之一的程序代码。
[0275]
因此,本发明方法的进一步实施例是一种数据载体(或者数字存储介质、或者计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。
[0276]
因此,本发明方法的进一步实施例是表示用于执行本文所述方法之一的计算机程序的数据流或者信号序列。数据流或者信号序列可以例如被配置为经由数据通信连接,例如经由网络来传输。
[0277]
进一步实施例包括处理装置,例如计算机或者可编程逻辑器件,其被配置为或者适配于执行本文描述的方法之一。
[0278]
进一步实施例包括一种计算机,该计算机上安装了用于执行本文描述的方法之一的计算机程序。
[0279]
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用于执行本文描述的方法之一些或者全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以便执行本文描述的方法之一。通常,该方法优选地由任何硬件设备执行。
[0280]
上面描述的实施例仅用于说明本发明的原理。应当理解,本文描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,本发明的意图仅由即将来临的专利权利要求的范围限制,而不受通过本文的实施方式的描述和解释而给出的具体细节的限制。
[0281]
通过引用全部以整体并入的参考文献:
[0282]
[1]v.pulkki,m

v laitinen,j vilkamo,j ahonen,t lokki和t
ꢀ“
directional audio coding

perception

based reproduction of spatial sound(方向性音频编码

基于感知的空间声音再现)”,international workshop on the principles and application on spatial hearing,nov.2009(空间听觉原理与应用国际讲习班,2009年11月),zao;miyagi,日本。
[0283]
[2]m.v.laitinen和v.pulkki,"converting 5.1audio recordings to b

format for directional audio coding reproduction(将5.1音频记录转换为b格式以进行方向性音频编码复制),"2011ieee international conference on acoustics,speech and signal processing(icassp),prague,2011,pp.61

64(2011年ieee声学、语音和信号处理国际会议(icassp),布拉格,2011年,第61

64页)。
[0284]
[3]r.k.furness,"ambisonics—an overview(球形环绕声综述),"in aes 8th international conference,april 1990,pp.181—189(aes第八届国际会议,1990年4月,第181

189页)。
[0285]
[4]c.nachbar,f.zotter,e.deleflie,和a.sontacchi,"ambix

a suggested ambisonics format(“ambix

建议的球形环绕声格式)",proceedings of the ambisonics symposium 2011(2011年环境声学研讨会论文集)。
[0286]
[5]"apparatus,method or computer program for generating a sound field description(产生声场描述的装置、方法或计算机程序)"(对应于wo 2017/157803 a1)如在扩散补偿的情形中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜