用于双耳音频录制的感知增强的制作方法

2023-08-24 06:04:01 来源：中国专利 TAG：

技术特征：
1.一种计算机实现的音频处理的方法，所述方法包括：由音频捕获设备捕获具有至少两个声道的音频信号，所述至少两个声道包括左声道和右声道；由机器学习系统对所述至少两个声道中的每个声道计算多个噪声减少增益；基于每个声道的所述多个噪声减少增益计算多个共享的噪声减少增益；以及通过将所述多个共享的噪声减少增益应用到所述至少两个声道中的每个声道来生成经修改的音频信号。2.如权利要求1所述的方法，还包括：将音频信号从第一信号域变换到第二信号域，其中所述第一信号域是时间域，并且其中所述多个噪声减少增益是基于已被变换到所述第二信号域的音频信号计算的；以及将所述经修改的音频信号从所述第二信号域变换到所述第一信号域。3.如权利要求1-2中的任一项所述的方法，其中计算所述多个噪声减少增益、计算所述多个共享的噪声减少增益、以及生成所述经修改的音频信号与捕获音频信号同时地被执行。4.如权利要求1-2中的任一项所述的方法，还包括：存储已被捕获的音频信号，其中计算所述多个噪声减少增益、计算所述共享的噪声减少增益、以及生成所述经修改的音频信号是对已被存储的音频信号执行的。5.如权利要求1-4中的任一项所述的方法，其中由所述机器学习系统计算所述多个噪声减少增益包括：对所述至少两个声道中的每个声道执行特征提取以对每个声道生成多个特征；处理每个声道的所述多个特征，其中处理每个声道的所述多个特征包括将每个声道的所述多个特征输入到机器学习模型中；以及作为将所述多个特征输入到所述机器学习模型中的结果，从所述机器学习系统输出所述多个噪声减少增益。6.如权利要求5所述的方法，其中所述机器学习模型是已使用单耳音频训练数据离线训练的单耳模型；其中所述多个特征包括与左声道对应的第一多个特征、以及与右声道对应的第二多个特征；并且其中所述多个噪声减少增益包括与所述第一多个特征对应的第一多个噪声减少增益、以及与所述第二多个特征对应的第二多个噪声减少增益。7.如权利要求5所述的方法，其中所述机器学习模型是已使用双耳音频训练数据离线训练的双耳模型；其中所述多个特征是与左声道和右声道两者对应的联合的多个特征；并且其中所述多个共享的噪声减少增益从与左声道和右声道两者对应的所述联合的多个特征得到。8.如权利要求5所述的方法，其中所述机器学习模型包括已使用单耳音频训练数据离线训练的单耳模型和已使用双耳音频训练数据离线训练的双耳模型；其中所述多个特征包括与左声道对应的第一多个特征、与右声道对应的第二多个特
征、以及与左声道和右声道两者对应的联合的多个特征；并且其中所述多个噪声减少增益包括与所述第一多个特征对应的第一多个噪声减少增益、与所述第二多个特征对应的第二多个噪声减少增益、以及与联合的多个特征对应的联合的多个噪声减少增益。9.如权利要求1-8中的任一项所述的方法，其中所述音频捕获设备包括捕获左声道的第一耳塞和捕获右声道的第二耳塞；其中所述多个噪声减少增益包括第一多个噪声减少增益和第二多个噪声减少增益；并且其中计算所述多个共享的噪声减少增益包括根据数学函数对所述第一多个噪声减少增益和所述第二多个噪声减少增益进行组合。10.如权利要求9所述的方法，其中所述数学函数包括平均值、最大值、范围函数、以及比较函数中的一个或多个。11.如权利要求9所述的方法，其中所述第一多个噪声减少增益与用于左声道的多个频带的第一增益向量对应，并且所述第二多个噪声减少增益与用于右声道的多个频带的第二增益向量对应；并且其中计算所述多个共享的噪声减少增益包括从所述第一增益向量和所述第二增益向量选择用于所述多个频带中的每个频带的最大增益。12.如权利要求9所述的方法，其中所述多个噪声减少增益还包括联合的多个噪声减少增益；并且其中计算所述多个共享的噪声减少增益包括根据所述数学函数对所述第一多个噪声减少增益、所述第二多个噪声减少增益以及所述联合的多个噪声减少增益进行组合。13.如权利要求1-12中的任一项所述的方法，还包括：由视频捕获设备与捕获音频信号同时地捕获视频信号，其中所述视频捕获设备包括移动电话，其中所述移动电话包括前置相机和后置相机。14.如权利要求13所述的方法，还包括：从使用所述前置相机和所述后置相机中的一个的第一模式切换到使用所述前置相机和所述后置相机中的另一个的第二模式，其中所述切换包括使用第一平滑参数对音频信号的左/右校正进行平滑、以及使用第二平滑参数对音频信号的前/后校正进行平滑。15.如权利要求13-14中的任一项所述的方法，其中与捕获音频信号同时地捕获视频信号包括对音频信号执行校正，其中所述校正包括左/右校正、前/后校正、以及立体声图像宽度控制校正中的至少一个。16.如权利要求15所述的方法，其中执行所述立体声图像宽度控制校正包括：从音频信号的左声道和右声道生成中间声道和侧边声道；通过宽度调整因子来使侧边声道衰减；以及从中间声道和已被衰减的侧边声道生成经修改的音频信号。17.如权利要求16所述的方法，其中所述宽度调整因子是基于所述视频捕获设备的焦距计算的。18.如权利要求16-17中的任一项所述的方法，其中所述宽度调整因子响应于所述视频捕获设备实时地改变焦距而被实时地更新。
19.一种存储计算机程序的非暂时性计算机可读介质，所述计算机程序在由处理器执行时控制装置执行包括如权利要求1-18中的任一项所述的方法的处理。20.一种用于音频处理的装置，所述装置包括：处理器，其中所述处理器被配置为控制所述装置执行包括如权利要求1-18中的任一项所述的方法的处理。

技术总结
一种音频处理的方法包括捕获双耳音频信号，使用机器学习模型计算噪声减少增益，以及生成经修改的双耳音频信号。该方法还可以包括对音频执行各种校正以考虑由诸如前置相机和后置相机的不同相机捕获的视频。该方法还可以包括在前置相机与后置相机之间切换时执行双耳音频的平滑切换。以这种方式，在双耳音频中可以减少噪声，并且可以提高组合的视频和双耳音频的用户感知。音频的用户感知。音频的用户感知。

技术研发人员：马远星双志伟刘阳
受保护的技术使用者：杜比实验室特许公司
技术研发日：2021.12.14
技术公布日：2023/8/23

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种隐私计算网络的组网配置方法、装置和系统与流程

用于双耳音频录制的感知增强的制作方法

最热文献