基于音频的紧急车辆检测与追踪的制作方法

2021-09-14 11:29:00 来源：中国专利 TAG：追踪音频车辆紧急检测

1.本公开涉及基于音频的紧急车辆检测与追踪。

背景技术：

2.对声学事件源(诸如紧急车辆(emergency vehicle)的警报(siren))的检测在许多应用中可能是重要的。然而，对这种事件的可靠检测在存在噪声和干扰信号的真实世界环境中是一个困难的问题。当声源和/或检测平台处于运动中时(这是通常的情况)，该问题会加剧。

技术实现要素：

3.本技术的一个方面提供了一种由处理器实现的用于基于音频对声源进行检测和追踪的方法，所述方法包括：由基于处理器的系统对多个声学信号频谱执行波束成形，以生成第一波束信号频谱和第二波束信号频谱，所述声学信号频谱是根据从麦克风阵列接收的声学信号生成的；通过深度神经网络(dnn)分类器在所述第一波束信号频谱和所述第二波束信号频谱中的至少一个中检测与所述声源相关联的声学事件；响应于所述检测，由所述基于处理器的系统执行模式提取，所述模式包括所述多个声学信号频谱中被标识的时间及频率区段，这些区段与所述声学事件相关联；以及由所述基于处理器的系统估计所述声源相对于所述麦克风阵列的运动方向，所述估计基于所述声学事件的多普勒频移，所述多普勒频移是根据所提取的模式的所述时间及频率区段计算的。
附图说明
4.图1是根据本公开的某些实施例配置的，检测和追踪系统的部署的顶层图。
5.图2是根据本公开的某些实施例配置的，检测和追踪系统的框图。
6.图3是根据本公开的某些实施例配置的，波束成形电路的框图。
7.图4是根据本公开的某些实施例配置的，事件检测电路的框图。
8.图5示出了根据本公开的某些实施例的频谱图和相关联的声学特征。
9.图6是根据本公开的某些实施例配置的，模式提取电路的框图。
10.图7是根据本公开的某些实施例配置的，到达方向(doa)估计电路的框图。
11.图8示出了根据本公开的某些实施例的角谱(angular spectrum)。
12.图9是根据本公开的某些实施例配置的，运动方向估计电路的框图。
13.图10是根据本公开的某些实施例，示出用于检测和追踪声源的方法论的流程图。
14.图11是根据本公开的某些实施例，示意性地示出被配置为执行检测和追踪声源的计算平台的框图。
15.虽然下面的具体实施方式将参照说明性实施例进行，但是对于本公开而言，其许多替代、修改和变型将是显而易见的。
具体实施方式
16.提供了用于检测和追踪音频源的技术。如前所述，检测和追踪声学事件源(诸如紧急车辆的警报)在许多应用中可能是重要的。这对于自主车辆(autonomous vehicle)(例如，自动驾驶汽车)的操作尤其如此，其中对这种事件的可靠检测对于车辆的安全操作可能是关键的。然而，在存在噪声、干扰信号和混响以及在声源和/或检测平台处于运动中的真实世界环境中(这在例如自主车辆操作时是通常的情况)，可靠的检测可能是困难的。
17.为此，本公开的示例实施例提供了一种方法论，该方法论可用于以改进的可靠性检测和追踪感兴趣的声学事件源。如这里使用的，术语检测和追踪指的是标识声源的存在与该源的方向，以及确定该源相对于系统所驻留的平台(例如，自主车辆)的运动。可靠性改进是通过以下各项的组合来实现的：利用时间
‑
频率掩模(time
‑
frequency mask)降噪技术进行的波束成形；基于神经网络的事件检测；模式提取，用于相对于背景噪声标识与感兴趣事件相关的时间
‑
频率信号分量；用于确定到达角度的角谱分析；以及用于确定相对运动的多普勒频移追踪，如下面将更详细地解释的。感兴趣的声学事件可以包括例如，救护车警报、消防车警报、和警车警报，但是也可以检测其他类型的非冲击声学信号。还提供了用于执行该方法论的示例系统。
18.图1是根据本公开的某些实施例配置的，检测和追踪系统130的部署100的顶层图。在检测和追踪系统的该示例用例中，自主车辆110被示出为包括麦克风阵列120、检测和追踪系统130、以及自主车辆操作系统140。麦克风阵列120被配置为接收存在于自主车辆110的操作环境中的声学信号，包括来自感兴趣的声源105(例如紧急车辆的警报)的那些声学信号。阵列120中的每个麦克风提供可由检测和追踪系统130用于波束成形的音频通道，如下面将更详细地解释的。检测和追踪系统130被配置为确定由声源105生成的声学事件的到达角度，并且从而确定例如到紧急车辆的当前角方向。检测和追踪系统130还被配置为确定声源相对于自主车辆110的运动方向，例如，紧急车辆是正在接近还是正在远离(receding)自主车辆。该信息(到达角度和运动方向)可由自主车辆操作系统140用于针对自主车辆附近出现紧急车辆而进行的与车辆的安全操作相关的判定做出目的。
19.所公开的技术可以例如在计算系统或可由这样的系统执行或以其他方式控制的软件产品中实现，但其他实施例将是显而易见的。该系统或产品被配置为检测和追踪音频源，例如紧急车辆上的警报。根据这样的实施例，用于实现这些技术的方法论包括对多个声学信号频谱(signal spectrum)执行频域波束成形以生成波束信号频谱。声学信号频谱是根据从麦克风阵列接收的声学信号生成的。波束成形采用时间
‑
频率掩模来降低波束信号频谱中的噪声。该方法还包括应用深度神经网络(dnn)分类器来检测至少一个波束信号频谱中与声源相关联的声学事件。dnn是在与声学事件相关联的声学特征上训练的。该方法还包括响应于该检测对多个声学信号频谱执行模式提取。该模式标识与声学事件相关联的声学信号频谱的时间和频率区段(bin)。该方法还包括基于声学事件的多普勒效应频移来估计声源相对于麦克风阵列的运动方向。频移是根据所提取的模式的时间和频率区段来计算的。该方法还包括基于角谱中的峰值的检测来估计声源相对于麦克风阵列的方向。角谱是通过对声学信号频谱应用广义互相关相位变换(generalized cross correlation phase transform，gcc
‑
phat)来生成的。
20.如将理解的，与简单地监听预期频率范围内的警报频率和/或监视音量水平的改
变以确定源是否正在接近的现有技术相比，这里描述的技术可以提供对感兴趣声源的改进的检测和追踪。所公开的技术可以在广泛的平台上被实现，包括自主车辆、工作站、膝上型计算机、平板电脑和智能手机中的嵌入式系统。这些技术还可以在硬件或软件或其组合中被实现。
21.系统架构
22.图2是根据本公开的某些实施例配置的，检测和追踪系统130的框图。检测和追踪系统130被示出为包括麦克风阵列120、风噪降低系统200、信号调节电路210、频谱计算电路220、波束成形电路230、事件检测电路240、模式提取电路250、doa估计电路260、和运动方向估计电路270。下面将更详细地描述这些组件的操作，但是在高级别，频域波束成形被应用于麦克风阵列的音频通道以生成在选定方向上导向的多个波束，其中事件检测电路例如可以从这多个波束中检测感兴趣的声源信号(诸如警报)的存在。响应于该检测，模式提取电路相对于与背景噪声相关的信号分量标识与警报声相关的信号分量。然后根据信号分量估计声源的到达方向和运动方向。
23.麦克风阵列120提供声学音频205的n个信号通道，其被提供给检测和追踪系统130。作为麦克风阵列120的一部分的风噪降低系统200被配置为降低在平台以相对较高的速度运动的应用中(例如，在汽车应用中)可能存在的风噪声的负面影响。可以使用声学防护网和“开孔(open
‑
cell)”聚氨酯泡沫来覆盖麦克风。这些“开孔”型泡沫允许空气流动到一定程度，使得声学信号不会被抑制而是保护麦克风元件不受风的直接影响，从而降低风噪声。
24.信号调节电路210被配置为在音频输入信号通道205上执行任何期望的预处理操作，包括例如，增益调整、去除dc偏置、和/或预加重(例如，高通滤波)。高通滤波器可能特别有用，因为大多数警报信号的频率内容位于500hz以上。因此，截止频率为300hz的高通滤波器将使警报信号通过，同时降低风噪声和其他低频干扰源。这些信号调节调整为检测和追踪系统中的后续操作准备信号，并且可以提高系统的性能。
25.频谱计算电路220被配置为将声学音频205的n个信号通道从时域转换到频域。这可以利用快速傅立叶变换或任何其他对于本公开而言合适的技术来实现。所产生的输出是信号频谱225的n个通道，其提供作为频率和时间的函数的幅度和相位。
26.图3是根据本公开的某些实施例配置的，波束成形电路230的框图。波束成形电路230被示出为包括时间频率掩模(tfm)估计电路300和波束成形滤波器310。波束成形电路230被配置为基于多通道频谱输入225执行频域波束成形以生成波束或将波束导向到k个选定方向。例如，如果k＝8，则波束可以对应于以下收听方向：0
°
、45
°
、90
°
、135
°
、180
°
、225
°
、270
°
、和315
°
。
27.tfm估计电路300被配置为估计在多通道频谱输入225的每个时间
‑
频率区段中存在噪声的概率。在一些实施例中，可以使用递归神经网络来估计用于此目的的频谱掩模。使用tfm可以在波束成形过程中提供改进的降噪。
28.波束成形滤波器310被配置为针对每个波束生成导向矢量，并且应用导向矢量来生成波束。在一些实施例中，波束成形滤波器310可以使用最小方差无畸变响应(minimum variance distortionless response，mvdr)和广义特征值(generalized eigenvalue，gev)技术来实现，但是对于本公开而言可以使用其他技术。tfm可以向如下任何类型的波束
成形器(诸如mvdr)提供好处：该波束成形器利用噪声或信号协方差矩阵进行导向矢量计算。在mvdr和gev波束成形器的导向矢量计算中，tfm频谱掩模可以用来估计信号和噪声分量的互功率谱密度(cross
‑
power spectral density)矩阵。
29.图4是根据本公开的某些实施例配置的，事件检测电路240的框图。事件检测电路240被配置为检测预定义事件，并且被示出为包括前端声学特征计算电路400、dnn分类器410、和后端分析电路420。
30.前端声学特征计算电路400被配置为根据每个波束的输入数据(频谱)来计算特征405，特征405被用于检测感兴趣信号(例如，警报声)。在一些实施例中，前端声学特征计算电路400包括非线性滤波器组、离散余弦变换(dct)电路、对数电路、和降维电路。
31.非线性滤波器组被配置为将(每个波束的)功率谱分布在非线性间隔的频率区段上。在一些实施例中，对于本公开而言，非线性间隔的频率区段可以符合mel频率缩放、bark频率缩放、或其他已知类型的频率缩放。
32.dct电路被配置为对频率区段执行dct，并且对数电路被配置为计算经dct变换的区段的对数以生成代表连续声学事件的特征的mel频率倒谱系数(mel
‑
frequency cepstral coefficient，mfcc)。这些mfcc可以被存储或堆叠在历史缓冲器(未示出)中，以供降维电路进行后续处理。
33.与冲击(impulsive)声学事件相比，为了充分描述诸如警报之类的连续声学事件，通常需要在更大的时间跨度上计算和缓冲特征向量。例如，在某些情况下，0.75秒量级的缓冲可以是合适的。对于100hz的输入信号帧率，这将产生75帧。如果分类器410使用所有特征，则dnn的输入层将需要超过1000个节点，从而使得模型太大且太昂贵而不能在资源有限的平台上运行。由于此原因，执行降维以降低堆叠的mfcc的维数，以生成降维的连续声学事件特征。根据实施例，一种降维的有效方法采用线性投影：
[0034][0035]
其中x是k
×
m特征矩阵，包括m个特征向量(与m个时间步阶或帧相关联的堆叠的mfcc)，每个特征向量存储k个特征。p是m
×
n投影矩阵，包括各有n个系数的m个基向量(其中n<m以将时间维度从m减少或压缩到n)，并且是经降维特征矩阵，包括以n个压缩时间步阶的长度为k的特征向量。投影运算由以下矩阵乘法示出：
[0036][0037]
针对降维投影矩阵，另一种dct的应用被发现是特别有效的。因此，在一些实施例中，投影矩阵的基向量是余弦核函数：
[0038][0039]
因此，例如，如果m＝75且k＝23，则降维之前的特征矩阵x具有1725个元素。通过仅保留n＝8个dct系数(即，对于m＝1到75且对于n＝1到8计算p)，经压缩特征矩阵被减少到
仅184个元素，这允许更小和更有效的dnn实现。
[0040]
图5示出了根据本公开的某些实施例的来自一个波束的示例频谱图510以及相关联的声学特征405。框520指示存在警报声的区域。这些特征往往对感兴趣信号的特定形状敏感，并且通常善于在警报声与例如其他干扰声音和背景噪声之间进行辨别，即使在低信噪比的环境中。
[0041]
dnn分类器410被训练以生成分数415，其指示观察到所选声音类别的后验概率。分数是针对与感兴趣信号、干扰声音、和背景噪声相关联的每个特征生成的。可以使用任何对于本公开而言合适的方法来训练dnn分类器410。dnn分类器410是在示例目标声音(紧急车辆警报)和非目标声音上训练的。非目标声音表示系统在真实世界环境中可能遇到的典型声音，并且可以包括交通噪声、引擎噪声、冲击事件、人和动物声音等。训练声音的选择应包括可能与目标声音混淆的声音，以提高系统的鲁棒性。这样的声音可以包括例如，烟雾报警、防盗报警、嘟嘟声、乐器、鸟叫声等。训练声音可以用噪声和混响来增强，使得分类器能够在城市环境中具挑战性的条件下进行操作。在一些实施例中，dnn分类器电路410被配置作为包括多个完全连接的仿射层的深度前馈神经网络。在一些实施例中，层的数量可以在4到6层的范围内。其他拓扑也是可能的，包括卷积和递归层。
[0042]
后端分析电路420被配置为分析dnn输出分数415，并提供关于在该波束的一个或多个特定帧中存在或不存在感兴趣信号的判定245。在一些实施例中，后端分析电路420被配置为随时间对dnn分类器输出(分数415)进行平滑，并基于分数与阈值的比较来确定在哪个点检测到事件。
[0043]
图6是根据本公开的某些实施例配置的，模式提取电路250a和250b的框图。在音频信号中检测到感兴趣信号的存在(判定245)之后，采用模式提取来确定感兴趣信号在时间和频率上的更精确位置。
[0044]
模式提取电路250a被配置为执行模式相关的提取(例如，在已知预期模式的情况下)，并且被示出为包括相似性度量计算电路620和时间
‑
频率区段阈值化电路640。
[0045]
相似性度量计算电路620被配置为(针对每个麦克风通道)将信号频谱225与预期模式的预定频谱(例如，警报)进行比较。使用任何对于本公开而言合适的技术来针对每个时间
‑
频率区段计算相似性度量630。时间
‑
频率区段阈值化电路640被配置为对相似性度量630小于所选阈值的时间
‑
频率区段进行衰减(attenuate)，因为这些区段很可能不与感兴趣信号的模式相关联。
[0046]
模式提取电路250b被配置为执行模式无关的提取，并且被示出为包括神经网络660和时间
‑
频率区段阈值化电路640。
[0047]
神经网络660被训练为对感兴趣信号(例如，警报声)的低级别特性进行建模，并向每个时间
‑
频率区段分配指示感兴趣信号存在于该区段中的可能性的分数670。可以使用任何对于本公开而言合适的训练技术来训练神经网络660。与模式提取电路250a一样，时间
‑
频率区段阈值化电路640将对分数670小于所选阈值的时间
‑
频率区段进行衰减，因为这些区段很可能不与感兴趣信号的模式相关联。
[0048]
模式提取电路250a和250b两者都生成信号时间
‑
频率区段坐标255，其提供感兴趣信号的估计开始点和结束点以及构成感兴趣信号(例如，警报声)的信号分量的时间和频率坐标，以供doa估计电路260和运动方向估计电路270使用。
[0049]
事件检测和模式提取的组合可以被认为是两阶段的过程，其中例如，声学事件检测对警报声具有高灵敏度，并且模式提取电路以更大的确定性验证警报声的存在。因为神经网络660利用存在警报声的先验知识(基于在先事件检测)进行操作，所以它提供更精确的检测。该两阶段方法提供的优点在于(1)不需要连续执行相对复杂的模式提取过程，而是响应于检测而执行，这使得能够节省功率，以及(2)两阶段的级联降低了误检测率。
[0050]
图7是根据本公开的某些实施例配置的，doa估计电路260的框图。doa估计电路260被示出为包括广义互相关相位变换(gcc
‑
phat)角谱计算电路720、分辨率上采样电路730、角谱更新电路740和峰值检测电路750。
[0051]
gcc
‑
phat角谱计算电路720被配置为计算角谱800，其示例在图8中被示出。该谱中的峰值810指示感兴趣信号相对于麦克风阵列的到达方向，以方位角θ和仰角表示。
[0052]
角谱是使用如下描述的过程，在频域中针对声学信号频谱的每个第l帧(例如，fft帧)计算的。假设在麦克风阵列中存在总数量为n对的麦克风，则针对每个信号帧l，针对索引为n的麦克风对计算其中n的范围从0到n
‑
1。
[0053]
针对第l个信号帧处的第n个麦克风对的gcc
‑
phat被计算如下：
[0054][0055]
其中i和j是第n对中的麦克风的索引，并且x
i
[l,k]是针对帧l和频率区段k的输入信号复频谱。针对第l个信号帧处的第n对麦克风的角谱被计算为针对每个所选方位角和仰角在所有频率区段k上的gcc
‑
phat的总和，如下所示：
[0056][0057]
其中f是以hz为单位的频率，被计算为：f
s
是采样率，nfft是fft长度，并且是针对方向的信号到达时延(time delay of signal arrival，tdoa)。针对麦克风阵列的中心点(例如，阵列几何形状的质心)计算tdoa。因此，角谱被计算为针对n个麦克风对中的每一个的角谱的总和：
[0058][0059]
由于针对每个方位角和仰角计算的计算复杂性，在一些实施例中，可以以低于1
°
的分辨率计算例如5
°
或更大。分辨率上采样电路730被配置为使用二次插值对进行上采样以获得1
°
的分辨率，从而生成经内插角谱。
[0060]
角谱更新电路740被配置为根据以下公式更新针对每个新fft帧的角谱：
[0061][0062]
其中，α是衰变参数，其被选择来控制根据在先帧的计算对根据当前帧的计算的相
对影响。
[0063]
峰值检测电路750被配置为检测角谱中的峰值810，其指示对感兴趣信号的到达方向(以方位角和仰角)的估计。
[0064]
图9是根据本公开的某些实施例配置的，运动方向估计电路270的框图。运动方向估计电路270被示出为包括频率追踪电路900、多普勒偏移估计电路910、平滑电路920和阈值化电路930。
[0065]
频率追踪电路900被配置为基于由模式提取电路250提供的警报的时间
‑
频率分量255的位置，随时间追踪感兴趣信号(例如，警报)的频率f。
[0066]
多普勒偏移估计电路910被配置为基于警报的频率的多普勒偏移来计算感兴趣信号的源(例如，紧急车辆)的运动方向。这可以根据下式计算：
[0067][0068]
其中，f是由频率追踪电路900提供的警报的频率，f0是警报的已知或预期频率，c是声速，v
ev
是紧急车辆的速度，而v
autonomous
是麦克风阵列120以及检测和追踪系统130所驻留的自主车辆110的速度(这是已知的可测量的量)。相对于自主车辆，正v
ev
指示紧急车辆正在接近，而负v
ev
指示紧急车辆正在远离。
[0069]
在一些实施例中，平滑电路920被配置为随时间平滑所估计的v
ev
，以降低估计过程中可能出现的随机短期误差的影响。在一些实施例中，阈值化电路930被配置为将所估计的v
ev
与阈值进行比较，以生成与自主车辆110的操作相关的判定。例如，如果紧急车辆正在接近自主车辆并且确定紧急车辆的速度超过阈值，则可以做出如下的判定：把自主车辆开到路边并停止自主车辆，或者采取一些其他安全相关动作。在一些实施例中，还可以以任何合适的方式在用于自主车辆操作的判定做出过程中采用所估计的到达方向。
[0070]
方法论
[0071]
图10是根据本公开的某些实施例，示出用于检测和追踪声源的方法论1000的流程图。可以看出，示例方法包括多个阶段和子过程，其顺序可以根据实施例而不同。然而，当综合考虑时，根据本文公开的某些实施例，这些阶段和子过程形成用于声学检测和追踪的过程。例如，如上所述，可以使用图1
‑
4、6、7和9中所示的系统架构来实现这些实施例。然而，可以在其他实施例中使用其他系统架构，如将对于本公开而言是显而易见的。为此，图10中所示的各种功能与其他图中所示的特定组件的相关性并不意图暗示任何结构和/或使用限制。而是，其他实施例可以包括例如不同程度的集成，其中多个功能性由一个系统有效地执行。例如，在替代实施例中，可以使用具有解耦的子模块的单个模块来执行方法1000的所有功能。因此，取决于实现方式的粒度，其他实施例可以具有更少或更多的模块和/或子模块。在另一些实施例中，所描绘的方法论可以被实现为包括一个或多个非暂时性机器可读介质的计算机程序产品，当由一个或多个处理器执行时，该非暂时性机器可读介质使得该方法论被执行。对于本公开而言，许多变型和替代配置将是显而易见的。
[0072]
如图10所示，在实施例中，用于检测和追踪声源的方法1000开始于在操作1010处，对多个声学信号频谱执行频域波束成形以生成第一波束信号频谱和第二波束信号频谱。声学信号频谱是根据从麦克风阵列接收的声学信号生成的。波束成形采用时间
‑
频率掩模来降低第一波束信号频谱和第二波束信号频谱中的噪声。
[0073]
接下来，在操作1020处，采用dnn分类器来在第一波束信号频谱和第二波束信号频谱中的至少一个中，检测与声源相关联的声学事件。dnn是在与声学事件相关联的声学特征上训练的。在一些实施例中，声源是紧急车辆，并且声学事件是警报。
[0074]
在操作1030处，响应于检测，对多个声学信号频谱执行模式提取。该模式包括声学信号频谱中被标识的时间和频率区段，这些区段与声学事件相关联。
[0075]
在操作1040处，估计声源相对于麦克风阵列的运动方向。该估计基于声学事件的多普勒效应频移，多普勒效应频移是根据所提取的模式的时间和频率区段计算的。
[0076]
在操作1050处，基于角谱中对峰值的检测来估计声源相对于麦克风阵列的方向。在一些实施例中，角谱是通过将gcc
‑
phat应用于声学信号谱来生成的。
[0077]
当然，在一些实施例中，如先前结合系统描述的，可以执行附加操作。例如，可以将高通滤波器应用于声学信号以降低风噪声。在一些实施例中，可以在自主车辆的操作中采用所估计的运动方向和/或所估计的声源方向。
[0078]
示例系统
[0079]
图11是根据本公开的某些实施例，示意性地示出被配置为执行对声源的检测和追踪的示例计算平台1100的框图。在一些实施例中，平台1100可以驻留于以下各项上或者以其他方式并入以下各项中：个人计算机、工作站、服务器系统、膝上型计算机、超膝上型计算机、平板电脑、触摸板、便携式计算机、手持式计算机、掌上型计算机、个人数字助理(pda)、蜂窝电话、蜂窝电话和pda的组合、智能设备(例如，智能手机、智能扬声器、或智能平板)、移动互联网设备(mid)、消息收发设备、数据通信设备、可穿戴设备、嵌入式系统等。在某些实施例中可以使用不同设备的任何组合。在一些实施例中，计算平台1100可以驻留于自主车辆上，使得检测和追踪系统130可以协助自主车辆的安全操作，如前所述。
[0080]
在一些实施例中，平台1100可以包括以下各项的任何组合：处理器1120、存储器1130、检测和追踪系统130、麦克风阵列120、网络接口1140、输入/输出(i/o)系统1150、用户接口1160、显示器1110、和存储系统1170。还可以看到，还提供总线和/或互连1192以允许上面列出的各种组件和/或其他未示出的组件之间的通信。平台1100可以通过网络接口1140耦合到网络1194，以允许与其他计算设备、平台、要控制的设备、或其他资源进行通信。对于本公开而言，图11的框图中未反映的其他组件部分和功能性将是显而易见的，并且将理解，其他实施例不限于任何特定的硬件配置。
[0081]
处理器1120可以是任何合适的处理器，并且可以包括一个或多个协处理器或控制器，诸如音频处理器、图形处理单元或硬件加速器，以协助与平台1100相关联的控制和处理操作。在一些实施例中，处理器1120可以被实现为任何数量的处理器核。处理器(或处理器核)可以是任何类型的处理器，例如微处理器、嵌入式处理器、数字信号处理器(dsp)、图形处理器(gpu)、张量处理单元(tpu)、网络处理器、现场可编程门阵列或被配置为执行代码的其他设备。处理器可以是多线程核，因为它们可以包括每核一个以上的硬件线程上下文(或“逻辑处理器”)。处理器1120可以被实现为复杂指令集计算机(cisc)或精简指令集计算机(risc)处理器。在一些实施例中，处理器1120可以被配置作为x86指令集兼容处理器。
[0082]
存储器1130可以使用任何合适类型的数字存储装置来实现，包括例如闪存和/或随机存取存储器(ram)。在一些实施例中，存储器1130可以包括本领域技术人员公知的存储器缓存和/或存储器分层结构的各个层。存储器1130可以被实现为易失性存储器设备，例如
但不限于，ram、动态ram(dram)、或静态ram(sram)设备。存储系统1170可以被实现为非易失性存储设备，例如但不限于以下各项中的一个或多个：硬盘驱动器(hdd)、固态驱动器(ssd)、通用串行总线(usb)驱动器、光盘驱动器、磁带驱动器、内部存储设备、附接存储设备、闪存、电池备份同步dram(sdram)、和/或网络可访问存储设备。在一些实施例中，当多个硬驱动器被包括时，存储系统1170可以包括用于提高针对有价值的数字媒体的存储性能增强保护的技术。
[0083]
处理器1120可以被配置为执行操作系统(os)1180，其可以包括任何合适的操作系统，诸如google android(加利福尼亚州山景城的google公司)、microsoft windows(华盛顿州雷德蒙德的microsoft公司)、apple os x(加利福尼亚州库比蒂诺的apple公司)、linux、或实时操作系统(rtos)。根据本公开将理解的是，这里提供的技术可以在不考虑结合平台1100提供的特定操作系统的情况下被实现，并因此也可以使用任何合适的现有或后续开发的平台来实现。
[0084]
网络接口电路1140可以是任何适当的网络芯片或芯片组，其允许网络1194和/或平台1100的其他组件之间的有线和/或无线连接，从而使平台1100能够与其他本地和/或远程的计算系统、服务器、基于云的服务器、和/或其他资源通信。有线通信可以符合现有的(或尚未开发的)标准，例如以太网。无线通信可以符合现有的(或尚未开发的)标准，例如包括lte(长期演进)和5g的蜂窝通信、无线保真(wi
‑
fi)、蓝牙、和/或近场通信(nfc)。示例性无线网络包括但不限于，无线局域网、无线个域网、无线城域网、蜂窝网络和卫星网络。
[0085]
i/o系统1150可以被配置为在各种i/o设备和平台1100的其他组件之间接口连接。i/o设备可以包括但不限于，用户接口1160、显示器1110。显示器1110可以被配置为例如以地图格式显示检测和追踪结果。用户接口1160可以包括诸如麦克风、触摸板、键盘和鼠标等之类的设备(未示出)。i/o系统1150可以包括图形子系统，其被配置为执行图像处理以用于在显示元件上呈现。例如，图形子系统可以是图形处理单元或视觉处理单元(vpu)。可以使用模拟或数字接口来通信地耦合图形子系统和显示元件。例如，接口可以是以下各项中的任一者：高清多媒体接口(hdmi)、displayport、无线hdmi、和/或使用无线高清适用技术的任何其他合适的接口。在一些实施例中，图形子系统可以被集成到处理器1120或平台1100的任何芯片组中。
[0086]
将理解，在一些实施例中，平台1100的各种组件可以在片上系统(soc)架构中被组合或集成。在一些实施例中，组件可以是硬件组件，固件组件，软件组件或硬件、固件或软件的任何合适的组合。
[0087]
检测和追踪系统130被配置为检测感兴趣声源(例如，紧急车辆警报)，并且估计到该源的角方向以及该源相对于平台的运动，如前所述。检测和追踪系统130可以包括图1
‑
4、6、7和9中所示的任何或所有电路/组件，如上所述。这些组件可以结合如下各种合适的软件和/或硬件来被实现或以其他方式被使用：该软件和/或硬件被耦合到平台1100或以其他方式形成平台1100的一部分。这些组件可以附加地或替代地结合用户i/o设备来被实现或以其他方式被使用，该用户i/o设备能够向用户提供信息并从用户接收信息和命令。
[0088]
在一些实施例中，这些电路可以被安装在平台1100本地，如图11的示例实施例所示。替代地，平台1100可以在客户端
‑
服务器布置中被实现，其中使用小应用(例如，javascript小应用)或其他可下载模块或子模块集向平台1100提供与这些电路相关联的至
少一些功能性。这种远程可访问的模块或子模块可以响应于来自客户端计算系统针对访问给定服务器的请求而被实时配设，该给定服务器具有客户端计算系统的用户感兴趣的资源。在这样的实施例中，服务器可以在网络1194本地或通过一个或多个其他网络和/或通信信道远程耦合到网络1194。在一些情况下，对给定网络或计算系统上的资源的访问可能需要诸如用户名、密码之类的凭证和/或遵从任何其他合适的安全机制。
[0089]
在各种实施例中，平台1100可以被实现为无线系统、有线系统、或两者的组合。当被实现为无线系统时，平台1100可以包括适合于通过无线共享介质通信的组件和接口，诸如一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等。无线共享介质的示例可以包括无线频谱的一部分，诸如射频频谱等。当被实现为有线系统时，平台1100可以包括适合于通过有线通信介质进行通信的组件和接口，诸如输入/输出适配器、用于将输入/输出适配器与相应的有线通信介质连接的物理连接器、网络接口卡(nic)、盘控制器、视频控制器、音频控制器等。有线通信介质的示例可以包括导线、电缆金属引线、印刷电路板(pcb)、背板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。
[0090]
各种实施例可以使用硬件元件、软件元件、或两者的组合来实现。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、asic、可编程逻辑器件、数字信号处理器、fpga、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件接口、应用程序接口、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任何组合。确定是否使用硬件元件和/或软件元件来实现实施例可以根据任何数量的因素而变化，例如期望的计算速率、功率水平、热容限、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度、以及其他设计或性能约束。
[0091]
一些实施例可以使用表达“耦合的”和“连接的”连同它们的派生词来描述。这些术语并不意图作为彼此的同义词。例如，一些实施例可以使用术语“连接的”和/或“耦合的”来描述，以指示两个或更多个元件彼此直接物理或电接触。然而，术语“耦合的”也可以意味着两个或更多个元件彼此不直接接触，但仍相互协作或交互。
[0092]
这里公开的各种实施例可以以各种形式的硬件、软件、固件和/或专用处理器来实现。例如，在一个实施例中，至少一个非暂时性计算机可读存储介质具有编码于其上的指令，当由一个或多个处理器执行时，这些指令使得本文公开的一个或多个方法论得以实现。指令可以使用合适的编程语言(例如，c、c 、面向对象的c、java、javascript、visual basic.net、初学者通用符号指令代码(beginner’s all
‑
purpose symbolic instruction code，basic))来编码，或者替代地使用定制或专有指令集来编码。指令可以以有形地体现在存储器设备上，并且可以由具有任何适当架构的计算机执行的一个或多个计算机软件应用和/或小应用的形式提供。在一个实施例中，系统可以驻留在给定网站上，并且例如使用javascript或另一种合适的基于浏览器的技术来实现。例如，在某些实施例中，系统可以利用由可经由网络1194访问的远程计算机系统提供的处理资源。这里公开的计算机软件应用可以包括任何数量的不同模块、子模块或具有不同功能性的其他组件，并且可以向另外的组件提供信息或从另外的组件接收信息。例如，这些模块可以用于与输入和/或输出设备(例如，显示屏、触敏表面、打印机和/或任何其他合适的设备)通信。对于本公开而言，未在
图示中反映的其他组件部分和功能性将是显而易见的，并且将理解，其他实施例不限于任何特定的硬件或软件配置。因此，在其他实施例中，与图11的示例实施例中包括的那些相比，平台1100可以包括附加的、更少的、或替代的子组件。
[0093]
前述非暂时性计算机可读介质可以是用于存储数字信息的任何合适的介质，诸如硬驱动器、服务器、闪存和/或随机存取存储器(ram)或存储器组合。在替代实施例中，这里公开的组件和/或模块可以用硬件来实现，包括：诸如现场可编程门阵列(fpga)之类的门级逻辑，或者替代地，诸如专用集成电路(asic)之类的专用半导体。其他实施例还可以用微控制器来实现，该微控制器具有用于接收和输出数据的多个输入/输出端口，以及用于执行本文公开的各种功能性的多个嵌入式例程。将显而易见的是，可以使用硬件、软件和固件的任何合适组合，并且其他实施例不限于任何特定的系统架构。
[0094]
例如，一些实施例可以使用机器可读介质或物品来实现，该机器可读介质或物品可以存储指令或指令集，该指令或指令集如果由机器执行，则可以使机器执行根据实施例的方法、过程和/或操作。这样的机器可以包括例如，任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、过程等，并且可以使用硬件和/或软件的任何合适的组合来实现。机器可读介质或物品可以包括例如，任何合适类型的存储器单元、存储器设备、存储器物品、存储器介质、存储设备、存储物品、存储介质和/或存储单元，诸如存储器、可移动或不可移动介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、压缩盘只读存储器(cd
‑
rom)、压缩盘可记录(cd
‑
r)存储器、压缩盘可重写(cd
‑
rw)存储器、光盘、磁介质、磁光介质、可移动存储器卡或盘，各种类型的数字多功能盘(dvd)、磁带、盒式磁带等。指令可以包括使用任何适当的高级、低级、面向对象、可视化、编译和/或解释的编程语言实现的任何合适类型的代码，诸如源代码、编译代码、解释代码、可执行代码、静态代码、动态代码、加密代码等。
[0095]
除非另有特别说明，否则可以理解，诸如“处理”、“计算”、“算出”、“确定”等之类的术语指的是计算机或计算系统或类似的电子计算设备的动作和/或过程，其将在计算机系统的寄存器和/或存储器单元内被表示为物理量(例如，电子量)的数据操纵和/或转换成在计算机系统的寄存器、存储器单元或其他此类信息存储传输或显示内被类似地表示为物理实体的其他数据。实施例不限于此上下文。
[0096]
本文的任何实施例中使用的术语“电路”或“电路系统”是功能性的，并且可以例如以单一或任何组合的方式包括硬连线电路系统、诸如包括一个或多个单独指令处理核的计算机处理器之类的可编程电路系统、状态机电路系统、和/或存储由可编程电路系统执行的指令的固件。电路系统可以包括处理器和/或控制器，其被配置为执行一个或多个指令以执行本文描述的一个或多个操作。指令可以被体现为例如被配置为使电路系统执行任何前述操作的应用、软件、固件等。软件可以被体现为记录在计算机可读存储设备上的软件包、代码、指令、指令集和/或数据。软件可以被体现或实现为包括任何数量的进程，而进程又可以被体现或实现为以分层方式包括任何数量的线程等。固件可以被体现作为存储器设备中硬编码(例如，非易失)的代码、指令或指令集和/或数据。电路系统可以，共同地或单独地，被体现为形成较大系统的一部分的电路系统，例如，集成电路(ic)、专用集成电路(asic)、片上系统(soc)、台式计算机、膝上型计算机、平板计算机、服务器、智能电话等。其他实施例可以被实现为由可编程控制设备执行的软件。在这种情况下，术语“电路”或“电路系统”旨在
包括软件和硬件的组合，例如能够执行软件的可编程控制设备或处理器。如本文所述，各种实施例可以使用硬件元件、软件元件或其任何组合来实现。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(asic)、可编程逻辑器件(pld)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。
[0097]
本文阐述了许多具体细节以提供对实施例的透彻理解。然而，普通技术人员将理解，可以在没有这些具体细节的情况下实施实施例。在其他情况下，未详细描述公知的操作、组件和电路，以不使实施例模糊不清。可以理解，本文公开的特定结构和功能细节可以是代表性的，并且不一定限制实施例的范围。另外，尽管主题已经以特定于结构特征和/或方法论动作的语言来描述，但是应当理解，在所附权利要求中限定的主题不一定限于本文描述的特定特征或动作。而是，本文描述的特定特征和动作作为实现权利要求的示例形式被公开。
[0098]
其他示例实施例
[0099]
以下示例涉及另外的实施例，根据这些实施例许多排列和配置将变得显而易见。
[0100]
示例1是一种由处理器实现的用于基于音频对声源进行检测和追踪的方法，所述方法包括：由基于处理器的系统对多个声学信号频谱执行波束成形以生成第一波束信号频谱和第二波束信号频谱，所述声学信号频谱是根据从麦克风阵列接收的声学信号生成的；通过深度神经网络(dnn)分类器在所述第一波束信号频谱和所述第二波束信号频谱中的至少一个中检测与所述声源相关联的声学事件；响应于所述检测，由所述基于处理器的系统执行模式提取，所述模式包括所述多个声学信号频谱的被标识的时间和频率区段，这些区段与所述声学事件相关联；以及由所述基于处理器的系统估计所述声源相对于所述麦克风阵列的运动方向，所述估计基于所述声学事件的多普勒频移，所述多普勒频移是根据所提取的模式的时间和频率区段计算的。
[0101]
示例2包括示例1的主题，还包括：将广义互相关相位变换应用于所述多个声学信号频谱以生成角谱；以及基于所述角谱中峰值的检测来估计所述声源相对于所述麦克风阵列的方向。
[0102]
示例3包括示例1或2的主题，还包括将以下各项中的至少一个用于自主车辆的操作：所估计的运动方向，和所估计的所述声源的方向。
[0103]
示例4包括示例1
‑
3中任一项的主题，其中所述模式提取包括：将所述多个声学信号频谱中的一个或多个声学信号频谱和与预期模式相关联的预定频谱进行比较，以及标识基于所述比较匹配程度在阈值内的时间和频率区段。
[0104]
示例5包括示例1
‑
4中任一项的主题，其中所述模式提取包括：将神经网络应用于所述多个声学信号频谱中的一个或多个声学信号频谱，所述神经网络经训练以针对所述声学信号频谱的时间和频率区段生成分数，所述分数指示匹配到感兴趣声学事件的概率。
[0105]
示例6包括示例1
‑
5中任一项的主题，其中所述声源是紧急车辆，并且所述声学事件是警报。
[0106]
示例7包括示例1
‑
6中任一项的主题，还包括将高通滤波器应用于所述声学信号以降低风噪声。
[0107]
示例8是至少一种非暂时性计算机可读存储介质，其上编码有指令，这些指令在由
一个或多个处理器执行时，使得用于基于音频对声源进行检测和追踪的过程被执行，所述过程包括：对多个声学信号频谱执行波束成形以生成第一波束信号频谱和第二波束信号频谱，所述声学信号频谱是根据从麦克风阵列接收的声学信号生成的；通过深度神经网络(dnn)分类器在所述第一波束信号频谱和所述第二波束信号频谱中的至少一个中检测与所述声源相关联的声学事件；响应于所述检测，执行模式提取，所述模式包括所述多个声学信号频谱的被标识的时间和频率区段，这些区段与所述声学事件相关联；以及估计所述声源相对于所述麦克风阵列的运动方向，所述估计基于所述声学事件的多普勒频移，所述多普勒频移是根据所提取的模式的时间和频率区段计算的。
[0108]
示例9包括示例8的主题，其中所述过程还包括：将广义互相关相位变换应用于所述多个声学信号频谱以生成角谱；以及基于所述角谱中峰值的检测来估计所述声源相对于所述麦克风阵列的方向。
[0109]
示例10包括示例8或9的主题，其中所述过程还包括：将以下各项中的至少一个用于自主车辆的操作：所估计的运动方向，和所估计的所述声源的方向。
[0110]
示例11包括示例8
‑
10中任一项的主题，其中所述模式提取过程包括：将所述多个声学信号频谱中的一个或多个声学信号频谱和与预期模式相关联的预定频谱进行比较，以及标识基于所述比较匹配程度在阈值内的时间和频率区段。
[0111]
示例12包括示例8
‑
11中任一项的主题，其中所述模式提取过程包括：将神经网络应用于所述多个声学信号频谱中的一个或多个声学信号频谱，所述神经网络经训练以针对所述声学信号频谱的时间和频率区段生成分数，所述分数指示匹配到感兴趣声学事件的概率。
[0112]
示例13包括示例8
‑
12中任一项的主题，其中所述声源是紧急车辆，并且所述声学事件是警报。
[0113]
示例14包括示例8
‑
13中任一项的主题，其中所述过程还包括：将高通滤波器应用于所述声学信号以降低风噪声。
[0114]
示例15是一种用于基于音频对声源进行检测和追踪的系统，所述系统包括：波束成形电路，用于对多个声学信号频谱执行波束成形以生成第一波束信号频谱和第二波束信号频谱，所述声学信号频谱是根据从麦克风阵列接收的声学信号生成的；深度神经网络(dnn)分类器，用于在所述第一波束信号频谱和所述第二波束信号频谱中的至少一个中检测与所述声源相关联的声学事件；模式提取电路，用于响应于所述检测而执行模式提取，所述模式包括所述多个声学信号频谱的被标识的时间和频率区段，这些区段与所述声学事件相关联；以及运动方向估计电路，用于估计所述声源相对于所述麦克风阵列的运动方向，所述估计基于所述声学事件的多普勒频移，所述多普勒频移是根据所提取的模式的时间和频率区段计算的。
[0115]
示例16包括示例15的主题，还包括到达方向估计电路，用于进行以下操作：将广义互相关相位变换应用于所述多个声学信号频谱以生成角谱；以及基于所述角谱中峰值的检测来估计所述声源相对于所述麦克风阵列的方向。
[0116]
示例17包括示例15或16的主题，其中以下各项中的至少一个被用于自主车辆的操作：所估计的运动方向，和所估计的所述声源的方向。
[0117]
示例18包括示例15
‑
17中任一项的主题，其中所述模式提取电路还用于：将所述多
个声学信号频谱中的一个或多个声学信号频谱和与预期模式相关联的预定频谱进行比较，以及标识基于所述比较匹配程度在阈值内的时间和频率区段。
[0118]
示例19包括示例15
‑
18中任一项的主题，其中所述模式提取电路还包括用于应用于所述多个声学信号频谱中的一个或多个声学信号频谱的神经网络，所述神经网络经训练以针对所述声学信号频谱的时间和频率区段生成分数，所述分数指示匹配到感兴趣声学事件的概率。
[0119]
示例20包括示例15
‑
19中任一项的主题，其中所述声源是紧急车辆，并且所述声学事件是警报。
[0120]
示例21包括示例15
‑
20中任一项的主题，还包括信号调节电路，用于将高通滤波器应用于所述声学信号以降低风噪声。
[0121]
本文已采用的术语和表述被用作说明性术语而非限制性术语，并且在使用这些术语和表述时无意排除所示和所描述的特征(或其一部分)的任何等同物，并且应认识到在权利要求的范围内可以进行各种修改。因此，权利要求意在覆盖所有这种等同物。本文描述了各种特征、方面和实施例。如本领域技术人员将理解的，这些特征、方面和实施例易于彼此组合以及变化和修改。因此，本公开应当被认为包括这种组合、变化和修改。意在使本公开的范围不受该详细描述的限制，而是受本文所附权利要求的限制。要求本技术优先权的未来提交的申请可以以不同的方式要求保护所公开的主题，并且通常可以包括如本文以各种方式公开或以其他方式展示的一个或多个元素的任何集合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于音频的紧急车辆检测与追踪的制作方法

相关文章

最热文献