技术特征:
1.一种用于通过多源跟踪和语音活动检测来增强多源音频的方法,包括:
经由音频输入电路从麦克风阵列接收一个或多个多源音频信号;
根据导向最小方差(stmv)波束形成器、基于在由来自所述麦克风阵列的多个麦克风对定义的多维空间中构造的tdoa轨迹信息,针对所述一个或多个多源音频信号计算tdoa检测数据;
基于直到当前时间-步长的所述计算的tdoa检测数据来更新多个音频轨道;
基于所述计算的tdoa检测数据,针对所述多个音频轨道中的每个构造语音活动检测(vad)数据;以及
使用所述更新的多个音频轨道和所述构造的vad数据生成一个或多个增强的多源音频信号。
2.根据权利要求1所述的方法,其中由来自所述麦克风阵列的多个麦克风对定义的所述多维空间通过以下步骤形成:
从所述麦克风阵列选择第一麦克风作为参考麦克风;以及
将来自所述麦克风阵列的每个剩余的麦克风与所述参考麦克风配对。
3.根据权利要求2所述的方法,其中所述tdoa轨迹信息在启动阶段基于所述多个麦克风对的空间信息通过以下步骤计算一次:
针对每个麦克风对,基于相应对中的两个麦克风之间的距离和角度,计算与入射声线的特定方位角角度和特定仰角角度对应的tdoa位置;以及
通过变化所有麦克风对上的所述入射声线的所述特定方位角角度和所述特定仰角角度来形成tdoa位置点的网格。
4.根据权利要求3所述的方法,其中当所述麦克风阵列物理地位于现实中的第二平面上时,所述tdoa位置点的网格位于所述多维空间中的第一平面上,所述多维空间具有等于麦克风对的总数量的维度数量。
5.根据权利要求2所述的方法,其中针对所述一个或多个多源音频信号计算tdoa检测数据还包括:
针对每个麦克风对:
针对每一个频带使用来自所述相应麦克风对的所述一个或多个多源音频信号的时频表示来计算协方差矩阵;
基于tdoa位置针对每一个频带构造导向矩阵,所述tdoa位置针对对应于所述相应麦克风对的方位角和仰角角度的不同扫描;
基于所述构造的导向矩阵和所述计算的协方差矩阵,构造跨所有频带对齐的方向协方差矩阵;以及
基于所述构造的方向协方差矩阵,确定使波束功率最小化的伪似然解。
6.根据权利要求5所述的方法,还包括:
通过取跨所有麦克风对的所有确定的伪似然解的乘积来计算stmv联合伪似然度;
确定使所述stmv联合伪似然度最大化的一对方位角和仰角角度;以及
将所述确定的一对方位角和仰角角度转换为代表所述tdoa检测数据的极坐标表示。
7.根据权利要求6所述的方法,其中基于所述构造的导向矩阵和所述计算的协方差矩阵来构造跨所有频带对齐的所述方向协方差矩阵在所有麦克风对以及方位角和仰角角度的所有扫描上被重复。
8.根据权利要求6所述的方法,其中基于所述构造的导向矩阵和所述计算的协方差矩阵来构造跨所有频带对齐的所述方向协方差矩阵以减少的重复通过以下步骤执行:
将所述多维空间划分为多个段,其中段的数量小于所述多维空间的维度的总数量;
将每个tdoa位置点从tdoa位置点的网格映射到最接近的段;以及
使用所述段的数量以及所述tdoa位置点的网格与所述段的数量之间的映射关系而不是根据方位角和仰角角度的所有扫描建立的所述tdoa位置点的网格来计算所述方向协方差矩阵。
9.根据权利要求1所述的方法,其中基于直到所述当前时间-步长的所述计算的tdoa检测数据来更新所述多个音频轨道还包括:
识别对应于当前时间-步长的tdoa检测和先前已经建立直到所述当前时间-步长的一组现有音频轨道;以及
基于所述tdoa检测与所述现有音频轨道的门之间的比较来确定是将所述tdoa检测并入到所述现有音频轨道中的一个中还是建立新的音频轨道。
10.根据权利要求1所述的方法,其中基于所述计算的tdoa检测数据针对所述多个音频轨道中的每个构造vad数据还包括:
当相应音频轨道最接近于所述tdoa检测时,将第一值分配给所述相应音频轨道;以及
将第二值分配给其他音频轨道。
11.一种用于通过多源跟踪和语音活动检测来增强多源音频的音频处理设备,包括:
音频输入电路,其被配置成从麦克风阵列接收一个或多个多源音频信号;
到达时间差(tdoa)估计器,其被配置成根据导向最小方差(stmv)波束形成器、基于在由来自所述麦克风阵列的多个麦克风对定义的多维空间中构造的tdoa轨迹信息,针对所述一个或多个多源音频信号计算tdoa检测数据;
多源音频跟踪器,其被配置成基于直到当前时间-步长的所述计算的tdoa检测数据来更新多个音频轨道,以及基于所述计算的tdoa检测数据,针对所述多个音频轨道中的每个构造语音活动检测(vad)数据;以及
音频增强引擎,其被配置成使用所述更新的多个音频轨道和所述构造的vad数据生成一个或多个增强的多源音频信号。
12.根据权利要求11所述的音频处理设备,其中由来自所述麦克风阵列的多个麦克风对定义的所述多维空间通过以下步骤形成:
从所述麦克风阵列选择第一麦克风作为参考麦克风;以及
将来自所述麦克风阵列的每个剩余的麦克风与所述参考麦克风配对。
13.根据权利要求12所述的音频处理设备,其中所述tdoa轨迹信息在启动阶段基于所述多个麦克风对的空间信息通过以下步骤计算一次:
针对每个麦克风对,基于相应对中的两个麦克风之间的距离和角度,计算与入射声线的特定方位角角度和特定仰角角度对应的tdoa位置;以及
通过变化所有麦克风对上的所述入射声线的所述特定方位角角度和所述特定仰角角度来形成tdoa位置点的网格。
14.根据权利要求13所述的音频处理设备,其中当所述麦克风阵列物理地位于现实中的第二平面上时,所述tdoa位置点的网格位于所述多维空间中的第一平面上,所述多维空间具有等于麦克风对的总数量的维度数量。
15.根据权利要求12所述的音频处理设备,其中所述tdoa估计器被配置成通过以下步骤来计算所述tdoa检测数据:
针对每个麦克风对:
针对每一个频带使用来自所述相应麦克风对的所述一个或多个多源音频信号的时频表示来计算协方差矩阵;
基于tdoa位置针对每一个频带构造导向矩阵,所述tdoa位置针对对应于所述相应麦克风对的方位角和仰角角度的不同扫描;
基于所述构造的导向矩阵和所述计算的协方差矩阵,构造跨所有频带对齐的方向协方差矩阵;以及
基于所述构造的方向协方差矩阵,确定使波束功率最小化的伪似然解。
16.根据权利要求15所述的音频处理设备,其中所述tdoa估计器还被配置成通过以下步骤计算所述tdoa检测数据:
通过取跨所有麦克风对的所有确定的伪似然解的乘积来计算stmv联合伪似然度;
确定使所述stmv联合伪似然度最大化的一对方位角和仰角角度;以及
将所述确定的一对方位角和仰角角度转换为代表所述tdoa检测数据的极坐标表示。
17.根据权利要求16所述的音频处理设备,其中所述tdoa估计器还被配置成基于所述构造的导向矩阵和所述计算的协方差矩阵,在所有麦克风对以及方位角和仰角角度的所有扫描上重复构造跨所有频带对齐的所述方向协方差矩阵的操作。
18.根据权利要求16所述的音频处理设备,其中所述tdoa估计器还被配置成通过以下步骤以减少的重复基于所述构造的导向矩阵和所述计算的协方差矩阵来构造跨所有频带对齐的所述方向协方差矩阵:
将所述多维空间划分为多个段,其中段的数量小于所述多维空间的维度的总数量;
将每个tdoa位置点从tdoa位置点的网格映射到最接近的段;以及
使用所述段的数量以及所述tdoa位置点的网格与所述段的数量之间的映射关系而不是根据方位角和仰角角度的所有扫描建立的所述tdoa位置点的网格来计算所述方向协方差矩阵。
19.根据权利要求11所述的音频处理设备,其中所述多源音频跟踪器被配置成通过以下步骤基于直到所述当前时间-步长的所述计算的tdoa检测数据来更新所述多个音频轨道:
识别对应于当前时间-步长的tdoa检测和先前已经建立直到所述当前时间-步长的一组现有音频轨道;以及
基于所述tdoa检测与所述现有音频轨道的门之间的比较来确定是将所述tdoa检测并入到所述现有音频轨道中的一个中还是建立新的音频轨道。
20.根据权利要求11所述的音频处理设备,其中所述多源音频跟踪器被配置成通过以下步骤基于所述计算的tdoa检测针对所述多个音频轨道中的每个构造vad数据:
当相应音频轨道最接近于所述tdoa检测时,将第一值分配给所述相应音频轨道;以及
将第二值分配给其他音频轨道。
技术总结
本文中描述的实施例提供了组合的多源到达时间差(TDOA)跟踪和语音活动检测(VAD)机制,其可适用于通用阵列几何形状,例如,位于平面上的麦克风阵列。组合的多源TDOA跟踪和VAD机制扫描麦克风对中的麦克风阵列的方位角和仰角角度,基于此可以在多个麦克风对的多维TDOA空间中形成物理上可允许的TDOA的平面轨迹。以此方式,多维TDOA跟踪通过分离地针对每个维度执行TDOA搜索而减少了传统TDOA中通常涉及的计算的数量。
技术研发人员:A·马斯纳迪-施拉兹;F·内斯塔
受保护的技术使用者:辛纳普蒂克斯公司
技术研发日:2021.01.08
技术公布日:2021.07.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。