一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于获得一阶立体混响信号的设备和方法与流程

2021-11-18 02:32:00 来源:中国专利 TAG:


1.本发明涉及立体音(3d sound)的音频录制技术领域,例如用于虚拟现实(virtual reality,vr)应用或环绕声。因此本发明涉及vr兼容音频格式,即一阶立体混响(first order ambisonic,foa)信号,该vr兼容音频格式也称为b格式。本发明提出了一种从至少四个指向性麦克风的信号中获得foa信号的设备和方法。特别地,本发明提出了一种超定系统,其中,上述设备或方法从至少五个指向性麦克风的信号中获得foa信号。


背景技术:

2.vr录音通常需要四个一阶麦克风炭精盒(capsule)捕捉ambisonics b格式。为此,专业音频麦克风可以录制a格式,然后通过应用四乘四转换矩阵将a格式编码成b格式,或者可以例如通过使用声场(如麦克风)直接录制ambisonics b格式。
3.然而,在许多消费者产品中,因为一阶麦克风(或其他指向性麦克风)需要放置在自由场才能工作,所以一阶麦克风(或其他指向性麦克风)并不适用。取而代之的是,在这样的产品中使用全向麦克风,全向麦克风的信号首先被相互预处理以获得至少四个虚拟一阶麦克风信号,然后虚拟一阶麦克风信号被转换为foa。
4.在示例性方法中,一对全向麦克风信号可以被转换为一阶差分信号,该一阶差分信号产生虚拟心型信号(cardioid signal)。然后,使用全向麦克风的分布,得到的四个差分信号可以编码为b格式。然而,这种方法有两个主要的限制。第一限制与在较高频率处的频谱缺陷(给定由麦克风间距引起的空间混叠)有关,第二限制与由于设计和硬件规格(阻止麦克风向所有方向观察)导致的麦克风放置限制有关。
5.上述第一限制由空间混叠导致,通过设计,该空间混叠将带宽降低到以下范围内的频率f:
[0006][0007]
在上述等式(1)中,c表示音速(sound celerity),d
mic
表示一对全向麦克风之间的距离。
[0008]
用于从全向麦克风产生foa信号的另一示例方法使用足够密集的麦克风分布(例如,具有32个炭精盒的eingenmike)对声场进行采样。然后,将采样的声压信号转换为球面谐波,然后,线性组合球面谐波最终生成foa信号。这种方法的主要限制是所需的麦克风数量。对于消费者应用,只有很少的麦克风可用(通常最多只有6个),线性处理十分有限。这种限制导致低频的信噪比(snr)问题,并且也会导致高频的混叠。
[0009]
总之,当使用小型设备和/或移动设备(如电话、平板电脑、车载相机)时,提供适当的音频录制(特别是用于vr应用)是一项具有挑战的任务。许多移动设备的尺寸不一致(大屏幕/极小厚度)限制了录制所有方向和所有频率带宽上的相关声音的可能性。许多限制因素直接由设备设计导致:例如,通常只能使用全向麦克风,而因为指向性麦克风需要放置在自由场中,所以指向性麦克风不适用。此外,麦克风放置通常被限制在设备上有限数量的可
能位置。


技术实现要素:

[0010]
鉴于上述挑战和限制,本发明的实施例旨在改进当前方法。目的是提供一种能够实现改进的3d音频录制的设备和方法,该3d音频录制适用于vr应用,并且可以通过小型设备和/或移动设备执行。上述设备和方法应从多个麦克风信号提供foa信号。应可以使用指向性麦克风。此外,特别是在更大的频率带宽和更大的一组方向上,将多个麦克风声音信号编码成foa信号应该更加鲁棒。
[0011]
上述目的通过所附权利要求中描述的本发明的实施例来实现。在从属权利要求中进一步定义了实施例的有利实施方式。
[0012]
特别地,在m≥4个(可能是虚拟的)指向性麦克风信号的系统中,本发明的实施例可以依次通过以下步骤生成对应的foa信号:导出产生麦克风信号的m个指向性麦克风的朝向角,然后计算矩阵,该矩阵表示将如何获得这些指向性麦克风以用于foa信道(w、x、y、z)。然后,例如使用伪逆算法对该矩阵求逆以获得逆矩阵,该逆矩阵可以应用于m个麦克风信号以生成foa信道。
[0013]
本发明的第一发明提供了一种用于从至少四个指向性麦克风的信号中获得foa信号的设备,该设备用于:确定每个麦克风的朝向(look direction),基于确定的朝向计算解码矩阵,其中,该解码矩阵适用于将foa信号解码成麦克风的信号,对解码矩阵求逆以获得编码矩阵,基于该编码矩阵对麦克风的信号进行编码以获得foa信号。
[0014]
因此,第一方面的设备允许从多个麦克风信号获得foa信号,其中,可以使用指向性麦克风。与上述示例性方法相比,可以减小设备大小。由于计算并使用了编码矩阵,特别是在更大的频率带宽和更大的一组方向上,将多个麦克风声音信号编码成foa信号也更加鲁棒。因此,第一方面的设备能够改进适用于vr应用和/或环绕声的3d音频的录制。
[0015]
在第一方面的实施方式中,上述至少四个指向性麦克风是五个或多于五个指向性麦克风。
[0016]
在该实施方式中,第一方面的设备和麦克风提供了m>4个指向性麦克风信号的超定系统。这实现了更准确的方向响应,从而产生了更准确的foa信号。
[0017]
在第一方面的实施方式中,上述设备包括至少四个指向性麦克风,特别地,至少四个指向性麦克风包括至少四个一阶指向性麦克风。
[0018]
因此,克服了上述示例性方法的限制,并且可以在上述设备中使用指向性麦克风。可以减小设备的大小。
[0019]
在第一方面的实施方式中,上述麦克风中的至少一个是虚拟指向性麦克风,特别地,该虚拟指向性麦克风基于至少两个全向麦克风。
[0020]
在第一方面的实施方式中,上述设备还用于基于上述至少两个全向麦克风的定向来确定虚拟指向性麦克风的朝向。
[0021]
因此,提供了一种使用指向性麦克风的替代方法。也可以使用指向性麦克风和全向麦克风,上述设备接收指向性麦克风和全向麦克风的信号,或者指向性麦克风和全向麦克风是该设备的一部分。
[0022]
在第一方面的实施方式中,麦克风的朝向基于麦克风的方位角和俯仰角。
[0023]
在第一方面的实施方式中,上述解码矩阵是b格式解码矩阵。
[0024]
在第一方面的实施方式中,上述设备还用于使用伪逆算法对解码矩阵求逆。
[0025]
在第一方面的实施方式中,上述设备还用于基于foa信号执行波达方向(direction of arrival,doa)估计。
[0026]
在第一方面的实施方式中,上述foa信号包括四个foa信道。
[0027]
在第一方面的实施方式中,上述设备是移动设备。
[0028]
例如,该设备可以是移动电话、智能手机、笔记本电脑、平板电脑、相机、车载相机、或类似设备。相比于使用上述示例性方法工作的设备,该设备的屏幕可以更大和/或可以将该设备制造得更薄。
[0029]
本发明的第二方面提供了一种移动设备,特别是智能手机、平板电脑、或相机,该移动设备包括根据第一方面或其任何实施方式的设备。
[0030]
该移动设备享有上述第一方面的设备的所有优点和技术效果。
[0031]
本发明的第三方面提供了一种从至少四个指向性麦克风的信号中获得foa信号的方法,该方法包括:确定每个麦克风的朝向;基于确定的朝向计算解码矩阵,其中,该解码矩阵适用于将foa信号解码成麦克风的信号;对解码矩阵求逆以获得编码矩阵;基于该编码矩阵对麦克风的信号进行编码以获得foa信号。
[0032]
在第三方面的实施方式中,上述方法由移动设备执行或在移动设备中执行。
[0033]
在第三方面的实施方式中,上述至少四个指向性麦克风是五个或多于五个指向性麦克风。
[0034]
在第三方面的实施方式中,上述至少四个指向性麦克风包括至少四个一阶指向性麦克风。
[0035]
在第三方面的实施方式中,上述麦克风中的至少一个是虚拟指向性麦克风,特别地,该虚拟指向性麦克风基于至少两个全向麦克风。
[0036]
在第三方面的实施方式中,上述方法还包括:基于上述至少两个全向麦克风的定向来确定虚拟指向性麦克风的朝向。
[0037]
在第三方面的实施方式中,麦克风的朝向基于麦克风的方位角和俯仰角。
[0038]
在第三方面的实施方式中,上述解码矩阵是b格式解码矩阵。
[0039]
在第三方面的实施方式中,上述方法还包括:使用伪逆算法对解码矩阵求逆。
[0040]
在第三方面的实施方式中,上述方法还包括:基于foa信号执行doa估计。
[0041]
在第三方面的实施方式中,上述foa信号包括四个foa信道。
[0042]
因此,特别是因为第三方面的方法可以由第一方面的设备执行,因此该方法及其实施方式实现了与上述第一方面的设备及其对应实施方式相同的优点和技术效果。
[0043]
本发明的第四方面提供了一种计算机程序产品,包括程序代码,该程序代码用于控制根据第一方面及其任何实施方式的设备,或者当在处理器上实施时,该程序代码用于执行根据第三方面或其任何实施方式的方法。
[0044]
因此,可以实现上述第一方面的设备和第三方面的方法的所有优点和技术效果。
[0045]
应注意,在本技术中描述的所有设备、元件、单元、以及设备可以在软件或硬件元件或其任何种类的组合中实现。由本技术中描述的各种实体执行的所有步骤以及描述的由各种实体执行的功能旨在意味着相应的实体适于或用于执行相应的步骤和功能。即使在以
下对特定实施例的描述中,将由外部实体执行的特定功能或步骤没有反映在对执行该特定步骤或功能的实体的特定详细元件的描述中,对于本领域技术人员来说应该清楚的是,这些方法和功能可以在相应的软件或硬件元件或其任何种类的组合中实现。
附图说明
[0046]
本发明的上述方面和实施方式将在下文关于附图的具体实施例的描述中阐述,在附图中:
[0047]
图1示出了根据本发明实施例的用于从至少四个指向性麦克风的信号中获得foa信号的设备。
[0048]
图2示出了根据本发明实施例的用于从至少四个指向性麦克风的信号中获得foa信号的设备。
[0049]
图3示出了根据本发明实施例的设备使用10个麦克风对提供的foa信号的测量的方向响应。
[0050]
图4示出了根据本发明实施例的设备使用4个麦克风对提供的foa信号的测量的方向响应。
[0051]
图5示出了根据本发明实施例的用于从至少四个指向性麦克风的信号中获得foa信号的方法。
具体实施方式
[0052]
图1示出了根据本发明实施例的设备100。设备100可以包括处理电路(未示出),该处理电路用于执行、实施、或发起本文描述的设备100的各种操作。该处理电路可以包括硬件和软件。硬件可以包括模拟电路和/或数字电路。数字电路可以包括例如专用集成电路(application

specific integrated circuit,asic)、现场可编程阵列(field

programmable array,fpga)、数字信号处理器(digital signal processor,dsp)、或多用途处理器的部件。在一个实施例中,处理电路包括一个或多个处理器和连接到一个或多个处理器的非暂时性存储器。非暂时性存储器可以承载可执行程序代码,当由一个或多个处理器执行时,该可执行程序代码使设备100执行、实施、或发起本文描述的操作或方法。
[0053]
设备100用于从至少四个指向性麦克风110的信号111中获得foa信号104。图1示例性地示出了具有四个指向性麦克风的场景,这四个指向性麦克风也可以是四个虚拟指向性麦克风(即,实际上由全向麦克风捕获声音)。设备100可以是小型设备和/或移动设备,或者可以包括在这样的移动设备中。例如,移动设备可以是智能手机、平板电脑、或相机。
[0054]
设备100用于例如基于相应的麦克风信号111来确定每个指向性麦克风110的朝向101。可以基于指向性麦克风110的方位角和俯仰角或基于至少两个全向麦克风的定向(在虚拟指向性麦克风110的情况下)来导出指向性麦克风110的朝向101。
[0055]
设备100还用于基于确定的麦克风110的朝向101计算解码矩阵102,其中,解码矩阵102是适用于将foa信号解码为麦克风110的麦克风信号111的矩阵。即,解码矩阵102能够用于从foa信号生成/恢复麦克风信号111。
[0056]
设备100还用于对解码矩阵102求逆以获得编码矩阵103,然后基于获得的编码矩阵103对麦克风110的信号111进行编码以生成foa信号104。然后,可以输出foa信号104,或
者可以将foa信号104用于获得麦克风信号111的doa估计。
[0057]
图2示出了根据本发明实施例的设备100,设备100基于图1所示的上述设备100。图1和图2中相同的元件用相同的参考标号标记并且功能类似。
[0058]
图2所示的设备100可以特别地从多于四个(例如,m=5、m=6、m=5

10、m>10、甚至m>20)个指向性(可能是虚拟或一阶)麦克风110接收信号111。在图2中,还示出了设备100包括多个指向性麦克风110。如图2进一步所示,麦克风110的朝向101可以基于该麦克风110的方位角和俯仰角。此外,解码矩阵102具体地可以是b格式解码矩阵(例如,mx4矩阵)。编码矩阵103可以是伪逆编码矩阵(例如,4xm矩阵)。可以通过将信号111与编码矩阵103矩阵化来对信号111进行编码,以获得foa信号104。foa信号104可以包括四个foa信道(w、x、y、z)。
[0059]
现在进一步阐述图2所示的设备100执行的功能。一般性地,考虑m个一阶麦克风110,这些麦克风110分布在xyz空间中,其坐标为:
[0060]
(x1,y1,z1),(x2,y2,z2),

(x
m
,y
m
,z
m
)
[0061]
这些麦克风110的朝向101可以由其方位角(θ)和俯仰角来定义。特别地,可以通过使用以下步骤来得到朝向101:
[0062]
·
如果直接考虑第m个指向性麦克风110:
[0063][0064]
并且
[0065][0066]
·
如果考虑全向麦克风,则将全向麦克风配对,例如考虑一对全向麦克风i和j以导出第m个虚拟一阶指向性麦克风110:
[0067][0068]
并且
[0069][0070]
给定(可能是虚拟)指向性麦克风110的朝向101,可以获得对应的m
×
4矩阵γ(解码矩阵102),其中,该矩阵将使得能够通过以下从foa信道(w、x、y、z)中得到m个麦克风信号111:
[0071][0072]
该矩阵可以是:
[0073][0074]
因此,u为一阶麦克风方向响应特性,即:
[0075]
·
u<1/2亚心型(sub

cardioid)
[0076]
·
u=1/2心型(cardioid)
[0077]
·
u=1/3超心型(super

cardioid)
[0078]
·
u=1/4锐心型(hyper

cardioid)
[0079]
·
u=0.0偶极子(dipole)
[0080]
然后,例如通过使用伪逆算法对解码矩阵γ求逆。得到的4
×
m矩阵_1(编码矩阵103)为:
[0081]
b=1×
s,
ꢀꢀꢀꢀꢀ
(8)
[0082]
伪逆是矩阵的广义逆。伪逆对应于求解等式(6)的超定线性系统。该等式有0、1、或无穷个解。等式(8)是在二范数意义下不存在时的最接近解,即,最小化|b s|2。等式(8)给出了当存在一个解时的单个答案。当存在许多解时,在|b|2最小的情况下,上述解是最小的解。
[0083]
然后,编码矩阵103可以直接用于将指向性麦克风信号111(s1,s2,

,s
m
)编码成foa信号104。还可以持续捕获/接收麦克风信号111,并获得多个连续的foa信号。
[0084]
给定foa信号104的四个编码foa信道,可以通过以下来基于foa信号104执行doa估计:
[0085][0086]
并且
[0087][0088]
根据本发明实施例所提出的设备100(例如,如图1或图2所示)可以实现改进的3d音频录制,并且尤其具有以下优点:
[0089]
·
在超定系统(m>4)的情况下,设备100可以使用麦克风110的各种方向(并且可能使用全向对的间距),从而获得非常准确的结果(foa信号104)。
[0090]
·
特别是在更大的频率带宽和更大的一组方向上,设备100的编码更加鲁棒。
[0091]
·
与现有的foa解码器完全向后兼容。
[0092]
如图3所示,使用具有5个全向麦克风炭精盒的电话样机(包括/是根据本发明实施例的设备100)来测量foa信道(w、x、y、z)的得到的方向响应。使用这5个麦克风,可以形成多达10对,产生组成a格式的m=10个虚拟心型信号(s1,s2,

,s
10
),从而产生超定系统。图3示出了这些不同倍频带(octave band)的方向响应。
[0093]
图4示出了在根据本发明实施例的设备100中使用最小数量的麦克风对(m=4)的方向响应。因此,图4所示的结果不来自超定系统。这导致与图3相比,方向响应的准确度有
所下降。
[0094]
图5示出了根据本发明实施例的方法500。方法500适用于从至少四个(特别地,至少五个)指向性麦克风110的信号111中获得foa信号104。方法500可以由图1或图2所示的设备100来执行,或者可以由包括这样的设备100的移动设备来执行。
[0095]
方法500包括:步骤501,确定501每个麦克风110的朝向101;步骤502,基于确定的朝向101计算解码矩阵102,其中,解码矩阵102适用于将foa信号解码成麦克风110的信号111;步骤503,对解码矩阵102求逆以获得编码矩阵103;以及步骤503,基于编码矩阵103对麦克风110的信号111进行编码504以获得foa信号104。
[0096]
本发明已经结合作为示例的各种实施例以及实施方式进行了描述。然而,本领域技术人员和实践所要求保护的发明的人员可以通过研究附图、本公开、以及独立权利要求来理解和进行其他变型。在权利要求和说明书中,词语“包括”不排除其他元件或步骤,不定冠词“一”或“一个”不排除多个。单个元件或其他单元可以实现权利要求中描述的若干实体或项目的功能。在相互不同的从属权利要求中描述某些措施并不表明这些措施的组合不能用于有利的实施方式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献