音频处理的制作方法

2021-11-03 23:03:00 来源：中国专利 TAG：

技术特征：
1.一种用于在增强现实环境中处理声音的方法，所述方法包括：接收由相机捕获的图像，所述图像示出物理环境；基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括：所述物理环境的三维表示，和所述物理环境的环境参数；接收由麦克风阵列捕获的音频信号，所述音频信号在所述物理环境中捕获声音；基于所接收的音频信号生成所述物理环境的一个或多个实测声学参数；以及使用所述估计模型和所述实测声学参数处理目标音频信号，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置，所述输出音频信道用于驱动多个扬声器。2.根据权利要求1所述的方法，其中：所述物理环境的所述环境参数包括一个或多个声学表面材料参数、或一个或多个散射参数；并且所述目标音频信号的处理包括：基于所述实测声学参数修改所述估计模型的所述一个或多个声学表面材料参数或所述一个或多个散射参数，从而得到所述物理环境的更新模型；基于所述更新模型选择或生成一个或多个脉冲响应；以及利用所述一个或多个脉冲响应对所述目标音频信号和目标位置进行卷积，以生成所述多个输出音频信道。3.根据权利要求2所述的方法，其中生成所述估计模型包括：对所述图像的区域进行分类；基于所分类的区域，检测所述图像中的对象并估计所述物理环境的房间的几何结构，所述几何结构包括以下各项中的一者或多者：墙壁的尺寸或取向、天花板的尺寸或取向、地板的尺寸或取向、所述房间的高度、宽度或长度、或所述房间的容积；以及估计所述估计模型的所述房间或检测到的对象的所述散射参数或声学表面材料参数。4.根据权利要求1所述的方法，其中所述生成所述估计模型包括：处理所述图像以利用神经网络识别所述物理环境中的对象，所述神经网络被训练以将所述对象识别为对应于模型库中的对象模型，以及在所述物理环境的所述估计模型内对所述对象模型进行定位和取向。5.根据权利要求4所述的方法，其中：所述对象模型具有限定所述对象模型的三维形状的三维参数，以及声学元数据。6.根据权利要求5所述的方法，其中所述对象模型的所述声学元数据包括散射参数、吸声参数或声音降低参数。7.根据权利要求1所述的方法，其中生成所述估计模型包括将所述图像的区域分类为三维空间中的表面和形状。8.根据权利要求1所述的方法，还包括：利用几何结构简化算法简化所述估计模型的一个或多个对象模型的几何结构，其中所述处理所述目标音频信号基于具有所简化的几何结构的所述估计模型。9.根据权利要求8所述的方法，其中所述估计模型形成为体素网格或网格数据结构。10.根据权利要求8所述的方法，其中所述几何结构简化算法基于所述对象模型的波长
和尺寸确定是否从所述估计模型中移除对象模型。11.根据权利要求8所述的方法，其中所述几何结构简化算法随着目标位置与所述对象模型之间的距离增大而更积极地简化所述对象模型的几何结构，并且随着所述目标位置与所述对象模型之间的距离减小而更不积极地简化所述对象模型的几何结构。12.根据权利要求1所述的方法，其中所述生成所述物理环境的所述一个或多个实测声学参数包括：处理所述音频信号以确定所述物理环境的混响特性，所述混响特性定义所述环境的所述一个或多个实测声学参数。13.根据权利要求12所述的方法，其中所述物理环境的所述一个或多个实测声学参数包括以下各项中的一者或多者：混响衰减速率或时间、直接混响比或混响测量结果。14.根据权利要求13所述的方法，其中所述物理环境的所述一个或多个实测声学参数是对应于所述音频信号的一个或多个频率范围生成的。15.根据权利要求14所述的方法，其中生成所述物理环境的所述一个或多个实测声学参数包括：从所述音频信号中提取直接分量；从所述音频信号中提取混响分量；以及利用受过训练的神经网络基于所提取的直接分量和所提取的混响分量生成所述混响特性。16.根据权利要求1所述的方法，其中生成所述物理环境的所述一个或多个实测声学参数包括：当在所述音频信号中未检测到声音时，调用先前生成的声学参数。17.根据权利要求16所述的方法，其中所述先前生成的声学参数是基于检测到的所述物理环境的所述图像与和所述先前生成的声学参数相关联的先前环境之间的相似性选择的。18.根据权利要求2所述的方法，其中修改所述估计模型的所述一个或多个声学表面材料参数或所述一个或多个散射参数包括基于将所述估计模型的估计声学响应与所测量的所述环境的声学参数进行比较来增大或减小所述一个或多个声学表面材料参数或所述一个或多个散射参数。19.根据权利要求18所述的方法，其中所述声学表面材料参数包括吸声参数或声音降低参数。20.根据权利要求19所述的方法，其中处理所述目标音频信号包括基于波的建模。21.根据权利要求20所述的方法，其中处理所述目标音频信号包括几何声学算法。22.根据权利要求1所述的方法，其中所述一个或多个脉冲响应包括双耳房间脉冲响应(brir)。23.根据权利要求1所述的方法，其中：在捕获所述图像和捕获所述音频信号的同时实时执行所述方法，所述输出音频信道与在所述图像上渲染的虚拟视觉对象同步驱动所述扬声器，并且所述虚拟声源的所述虚拟位置对应于在所述虚拟化环境中的所述图像上渲染的所述虚拟视觉对象的视觉位置。24.一种在增强现实环境中处理音频的制品，包括：
相机，用于捕获物理环境的图像；麦克风阵列，用于生成在所述物理环境中捕获声音的音频信号；多个扬声器；和在其中存储有指令的机器可读介质，所述指令在由处理器执行时使得所述制品执行以下操作：基于所述图像生成所述物理环境的估计模型，其中所述估计模型包括：所述物理环境的三维表示，和所述物理环境的环境参数；基于由所述麦克风阵列生成的所述音频信号生成所述物理环境的一个或多个实测声学参数；使用所述估计模型和所述实测声学参数处理目标音频信号，从而产生具有虚拟声源的多个输出音频信道，所述虚拟声源具有虚拟位置；以及在所述虚拟化环境中用所述输出音频信道驱动所述多个扬声器。25.根据权利要求24所述的制品，其中：所述物理环境的所述环境参数包括一个或多个声学表面材料参数或一个或多个散射参数；并且处理所述目标音频信号包括：基于所述实测声学参数修改所述估计模型的所述一个或多个声学表面材料参数或所述一个或多个散射参数，从而得到所述物理环境的更新模型，基于所述更新模型选择或生成一个或多个脉冲响应，以及利用所述一个或多个脉冲响应对所述目标音频信号和目标位置进行卷积，以生成所述多个输出音频信道。26.根据权利要求24所述的制品，还包括：显示器；和其中存储有所述指令的所述机器可读介质，所述指令在由所述处理器执行时还使得所述制品执行以下操作：用所述图像渲染虚拟视觉对象，以生成以数据编码的虚拟视觉环境；以及用所述虚拟视觉环境的所述数据驱动所述显示器；其中所述输出音频信道与在所述图像上渲染的所述虚拟视觉对象同步驱动所述扬声器，并且所述虚拟声源的所述虚拟位置对应于在所述虚拟视觉环境中渲染的所述虚拟视觉对象的视觉位置。27.根据权利要求24所述的制品，其中所述相机为二维相机，并且所述图像为二维图像。28.根据权利要求24所述的制品，其中所述相机为三维相机，并且所述图像具有二维参数和深度参数。

技术总结
在增强现实环境中处理声音可包括基于物理环境的图像生成该物理环境的声学模型。由麦克风阵列捕获的音频信号可在该物理环境中捕获声音。基于这些音频信号，可生成该物理环境的一个或多个实测声学参数。可使用该物理环境的模型和实测声学参数处理目标音频信号，从而得到具有虚拟声源的多个输出音频信道，该虚拟声源具有虚拟位置。该等输出音频信道可用于驱动多个扬声器。也描述了其他方面并要求对其他方面进行保护。方面进行保护。方面进行保护。

技术研发人员：C
受保护的技术使用者：苹果公司
技术研发日：2020.05.09
技术公布日：2021/11/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种适应车载使用的近场无线宽带网络装置的制作方法

音频处理的制作方法

相关文献

最热文献