用于在各种环境中增强音频的系统和方法与流程

2022-11-19 14:51:23 来源：中国专利 TAG：

用于在各种环境中增强音频的系统和方法
1.相关申请的交叉引用
2.本技术要求于2020年4月2日提交的国际专利申请号pct/cn 2020/083083；2020年4月23日提交的美国临时专利申请号63/014,502；以及2020年12月14日提交的美国临时专利申请号63/125,132的优先权，这些专利申请通过引用并入本文。
技术领域
3.本公开涉及对媒体内容的音频回放的改进。特别地，本公开涉及为在各种环境中(特别是在移动设备上)播放的媒体内容的音频设置和应用优选噪声补偿。

背景技术：

4.带有对话的媒体(电影、电视节目等)的音频回放通常是为了在相对安静的环境中(比如在家中或在剧院中)欣赏而被创建的。然而，人们使用他们的移动设备随时随地消费这种内容正变得越来越普遍。因为当环境噪声(车辆噪声、人群等)过多时或者由于移动硬件的音频质量限制或所使用的音频回放(头戴式耳机等)设备类型，可能很难听清演员在说什么，因此这成为了一个问题。
5.一种常见的解决方案是使用降噪头戴式耳机/耳塞。然而，这可能是一种昂贵的解决方案，并且具有消除用户可能想要听到的环境噪声(汽车喇叭、警报器、大声警告等)的缺点。

技术实现要素：

6.本文公开了各种音频处理系统和方法。一些这样的系统和方法可能涉及创建和使用为用户定制且特定于不同环境条件的音频调整配置文件(profile)。
7.根据第一方面，描述了一种为移动设备的用户配置所述移动设备以供在环境噪声下使用的方法，所述方法包括：从所述用户接收所述环境噪声的情况识别；从所述用户接收所述环境噪声的噪声水平；从所述用户接收所述环境噪声在所述噪声水平的对话增强(dialog boost)水平；从所述用户接收所述环境噪声在所述噪声水平的图形均衡器设置；在所述用户设置所述对话增强水平和所述图形均衡器设置时，从所述移动设备为所述用户播放样本音频；以及在所述移动设备上将所述噪声水平用于所述情况识别的所述对话增强水平和所述图形均衡器设置存储在配置文件中，其中，所述设备被配置为当所述用户选择所述配置文件时，使用所述对话增强水平和所述图形均衡器设置播放音频媒体。
8.根据第二方面，描述了一种为用户调整移动设备的音频的方法，所述方法包括：从所述用户接收配置文件选择，其中，所述配置文件选择至少与环境噪声条件相关；从所述用户接收所述环境噪声条件的噪声水平；从所述移动设备上的存储器取得对话增强水平和图形均衡器设置；使用所述对话增强水平和所述图形均衡器设置来调整所述音频的水平。
9.本文描述的一些或所有方法可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。这种非暂态介质可以包括如本文所描述的存储器设
备，包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。相应地，本公开中描述的主题的各个创新方面可以在其上存储有软件的非暂态介质中实施。例如所述软件可以由如本文所公开的那些控制系统等控制系统的一个或多个部件来执行。所述软件可以例如包括用于执行本文公开的方法中的一种或多种方法的指令。
10.本公开内容的至少一些方面可以经由一个或多个装置来实施。例如，一个或多个设备可以被配置用于至少部分地执行本文所公开的方法。在一些实施方式中，装置可以包括接口系统和控制系统。所述接口系统可以包括一个或多个网络接口、所述控制系统与存储器系统之间的一个或多个接口、所述控制系统与另一设备之间的一个或多个接口、和/或一个或多个外部设备接口。
11.在以下附图和说明中阐述了本说明书所描述的主题的一个或多个实施方式的细节。从所述描述、附图和权利要求中，其他特征、方面和优点将变得显而易见。注意，以下附图的相对尺寸可能不是按比例来绘制的。各个附图中的相似附图标记和名称通常指示相似的元件，但在不同的附图之间，不同的附图标记不一定指定不同的元件。
附图说明
12.图1图示了用于配置情况特定(case-specific，特定于情况)的音频设置的示例流程图。
13.图2图示了用于利用情况特定的音频设置的示例流程图。
14.图3图示了用于配置情况特定的音频设置(包括合成环境噪声)的示例流程图。
15.图4图示了通过主观测试实验获得的未调整的音频和调整后的音频的示例比较。
16.图5a和5b图示了应用于一种类型的编解码器的对话增强的示例频率响应曲线。图5a示出了输出的语音片段的响应曲线。图5b示出了输出的非语音片段的响应曲线。
17.图6a和6b图示了应用于与图5a和图5b不同类型的编解码器的对话增强的示例频率响应曲线。图6a示出了输出的语音片段的响应曲线。图6b示出了输出的非语音片段的响应曲线。
18.图7示出了用于本文方法的示例图形用户界面。
19.图8示出了用于本文方法的示例硬件/软件配置。
具体实施方式
20.本文描述了通过为处于特定噪声水平和类型(环境类型)的特定用户在配置文件中创建和使用对话增强和均衡器设置，在嘈杂环境(环境噪声)中提供媒体回放(音频或音频/视觉)中的可理解语音的问题的解决方案。
21.本文所使用的术语“移动设备”是指能够进行音频回放并且能够通过携带在用户身上而在多个位置使用的设备。示例包括手机、膝上型计算机、平板计算机、移动游戏(mobile game)系统、可穿戴设备、小型媒体播放器等。
22.本文所使用的术语“环境条件”或“情况(case)”或“情况识别(case identification)”是指可能会或可能不会干扰在移动设备上收听音频媒体的乐趣的一类嘈杂位置/环境。示例包括家庭(例如，“默认”)、室外人口密集地区(例如，步行)、公共交通工具上、嘈杂的室内环境(例如，机场)以及其他情况等。
23.术语“对话增强(dialog boost)”是指对音频的语音分量进行一般声音放大而对非语音分量的放大可以忽略不计的应用。例如，对话增强可以作为算法来执行，该算法持续监测正在播放的音频、检测对话的存在、并动态地应用处理以提高音频内容的口语部分的可理解性。在一些实施例中，对话增强分析来自音频信号的特征，并且应用模式识别系统来随时检测对话的存在。当检测到语音时，语音频谱会在必要时进行更改，以突出语音内容，使收听者能够更简明地听到。
24.术语“均衡”或“图形均衡器”或“ged”是指基于频率的音频幅度调整。在真正的ged中，幅度设置将由滑块设置，滑块的位置对应于其控制的频率范围，但本文的ged也指图形均衡器可能具有的特定设置，给出特定的频率响应曲线。
25.本文所使用的术语“媒体”或“内容”是指带有音频内容的任何事物。其可以是音乐、电影、视频、视频游戏、电话谈话、警报等。特别地，本文的系统和方法对于具有语音分量和非语音分量的组合的媒体非常有用，但是这些系统和方法也可以应用于任何媒体。
26.图1示出了用于为不同的环境条件(情况)创建配置文件的示例流程图。用户从设备用户界面(ui)选择开始设置110，并且为用户播放样本回放样本140。该样本可以由系统选择，也可以由用户选择。用户选择以何种音量141播放。然后用户可以自动或手动(用户选择)体验不同的环境噪声情况142(默认、步行、公共交通、机场等)。系统可以遍历所有情况或仅仅是仅包括一个选定情况的选定子集。如果选定情况不是默认情况，则用户输入其当前情境的估计环境噪声水平125，以及对话增强水平130和图形均衡器(geq)设置135，这些设置组合起来为用户提供其主观认为的最佳收听体验。这些设置125、130可以以任何顺序(不一定以图中所示的顺序)多次进行，并且是基于带有语音分量的音频的样本回放140来设置的。一旦根据用户的偏好设置了对话增强130和geq设置135，它们就被存储在配置文件的数据库/存储器145中以供未来使用。然后系统可以确定是否所有适用的情况都已被设置115。如果是，则设置结束150。如果不是，则系统可以转到下一个情况142并针对该情况重复设置过程。在一些实施例中，保存的设置配置文件也基于注入的噪声水平125被进行索引。
27.在一些实施例中，对话增强水平和/或geq设置中的每一个都是简短的可能设置列表中的一个值。例如，0至5范围内的“3”。在一些实施例中，设置是与设置相关的实值，比如 10db(例如在特定频率范围)。
28.图2示出了用于使用根据本文描述的方法创建的配置文件的示例流程图。用户启动其媒体205并选择最能描述其当前情境的情况配置文件210。如果配置文件是基于环境噪声水平而被索引的，则也可以选择环境噪声水平。然后系统从数据库/存储器215中取得210与选定情况匹配(并且，如果适用的话，与选定噪声水平匹配)的配置文件。然后系统确定回放是否处于移动性情境220(即，需要对话增强和geq调整的情境)。该确定可以来自用户输入、设备识别、位置数据或其他方式。如果系统确定这不是移动性情境，则无论用户处存在何种环境噪声250，都从在正在播放的媒体245发生正常回放/混合240。这一直持续到情况配置文件被更改255，此时取得210新配置文件并且过程再次开始。在一些实施例中，在情况切换255时或之前执行新的移动性状态检查，并且该过程仅在存在移动性情境时重复。如果发现移动性情境220，则将对话增强230和geq调整235应用于混合240，以调整媒体回放245从而尽管存在环境噪声250仍能提供可理解的对话。
29.图3示出了用于创建配置文件的示例流程图，包括使用合成的环境噪声来与媒体
进行环境噪声虚拟混合(与将实际环境噪声与媒体进行真实混合相反，比如图1和图2中提供的)。该系统类似于图1的系统，不同之处在于，进行了检查310以查看用户是在噪声位置处创建配置文件，还是在从相对无噪声的环境(例如，家庭)中预先设置情况。该检查可以通过询问用户或通过定位服务确定移动设备在“家”来确定。在一些实施例中，系统总是假设用户处于相对无噪声的环境中。如果用户不在该位置，则由用户或系统选择320情况(环境噪声条件)。合成330该情况的环境噪声。在一些实施例中，该合成可以是或基于保存在数据库/存储器340中的预先记录的噪声。该噪声被添加到播放样本350中，并且用户可以针对他们期望体验的水平来设置噪声水平360，从而调整模拟噪声330。对话增强水平370和geq水平380可以以与执行现场设置相同的方式被设置。然后将设置保存到数据库/存储器390以供未来使用。在一些实施例中，所记录的环境噪声取自环绕声源并渲染为双耳格式。
30.图4示出了系统可以做出的感知差异的示例以及如何使用与参考条件的比较来评估性能。可以看出，对话增强优于没有增强的参考条件，并且增加了对话的可理解性，使得对于用户而言，对理解对话很重要的媒体进行调整是有益的。例如，图4表明，水平“2”的对话增强(de)415表现出高水平的用户偏好405和主观可理解性410，因此可能是大多数用户的优选设置。
31.图5a和图5b以及图6a和图6b示出了对话增强的示例曲线图。图5a和图5b示出了媒体的语音分量的不同对话增强设置的曲线图。如图所示，不同的设置示出了不同的曲线。相比之下，图5b和图6b示出了同样是不同对话增强设置但针对媒体的非语音分量的曲线图，其中不同设置的曲线之间的差异可以忽略不计(即对话增强不会增强非语音分量)。图5a和图5b表示的对话增强水平具有比图6a和图6b更小的水平之间的间隔。取决于环境的嘈杂程度，可以使用不同的曲线：环境噪声越嘈杂，在整体回放内容上具有更多对话增强方面，曲线就可以表现得更强烈。图5a示出了响应曲线，其中，对话增强水平表明，对于音频的语音分量，与较高频率510相比，较低频率505中有更强烈的增强。相比之下，图6a表明，与较低频率605相比，较高频率610中有更强烈的增强。在这两种情况下，图5b和图6b表明，非语音分量在所有频率上具有可忽略不计的增强。
32.图7示出了用于设置配置文件的示例ui(在这种情况下具体是图形用户界面，gui)。在移动设备700上，用于设置的输入可以以简化的形式呈现以便于使用。噪声水平控件710可以呈现为有限数值(例如，0至5)的噪声水平，例如，从0开始为无噪声，随着噪声水平以均匀增量(按实际db或感知步长)增加而增加值。对话增强设置720可以被呈现为从无增强到最大增强的图形滑块。同样，可以将geq设置730简化为一个值的单个范围(这里示出为滑块)，以选择预设geq设置(例如，对应于“嘹亮”、“平淡”、“低沉”等音调)。情况740可以显示为(带有或不带有文本的)图标。例如，“默认”可以显示为房屋，“步行”可以显示为人，“公共交通”可以显示为火车或公共汽车，并且“室内场所”可以显示为飞机(以指示机场)。可以使用其他情况和图标，使得图标为用户提供对其所表示情况的快速参考。
33.图8示出了根据实施例的用于实施本文所描述的特征和过程的示例移动设备架构。架构800可以在任何电子设备中实施，所述电子设备包括但不限于：台式计算机、消费类音频/视频(av)设备、无线电广播设备、移动设备(例如，智能电话、平板计算机、膝上型计算机、可穿戴设备)。在示出的示例实施例中，架构800用于智能电话并且包括(多个)处理器801、外围设备接口802、音频子系统803、扩音器804、麦克风805、传感器806(例如，加速度
计、陀螺仪、气压计、磁力计、相机)、位置处理器807(例如，gnss接收器)、无线通信子系统808(例如，wi-fi、蓝牙、蜂窝)、以及(多个)i/o子系统809，所述i/o子系统包括触摸控制器810和其他输入控制器811、触摸表面812和其他输入/控制设备813。存储器接口814耦接到处理器801、外围设备接口802和存储器815(例如，闪速存储器、ram、rom)。存储器815存储计算机程序指令和数据，包括但不限于：操作系统指令816、通信指令817、gui指令818、传感器处理指令819、电话指令820、电子消息传送指令821、网络浏览指令822、音频处理指令823、gnss/导航指令824和应用程序/数据825。音频处理指令823包括用于执行本文所描述的音频处理的指令。也可以使用具有更多或更少部件的其他架构来实施所公开的实施例。
34.该系统可以作为从远程服务器驱动的服务来提供，可以作为设备上的独立程序来提供，可以集成到媒体播放器应用程序中，或作为操作系统的一部分作为其声音设置的一部分被包括在内。
35.已经描述了本公开的多个实施例。然而，应当理解的是，可以做出各种修改而不脱离本公开的精神和范围。因此，其他实施例也在所附权利要求的范围内。
36.如本文所述，本发明的实施例因此可以涉及以下枚举的示例实施例中的一个或多个。相应地，本发明可以以本文所描述的任何形式实施，包括但不限于以下描述了本发明一些部分的结构、特征和功能的枚举的示例实施例(eee)：
37.eee1.一种为移动设备的用户配置所述移动设备以供在环境噪声下使用的方法，所述方法包括：从所述用户处接收所述环境噪声的情况识别；从所述用户处接收所述环境噪声的噪声水平；从所述用户处接收所述环境噪声在所述噪声水平处的对话增强水平；从所述用户处接收所述环境噪声在所述噪声水平处的图形均衡器设置；在所述用户设置所述对话增强水平和所述图形均衡器设置时，从所述移动设备为所述用户播放样本音频；以及在所述移动设备上将所述噪声水平处用于所述情况识别的所述对话增强水平和所述图形均衡器设置存储在配置文件中，其中，所述设备被配置为当所述用户选择所述配置文件时，使用所述对话增强水平和所述图形均衡器设置播放音频媒体。
38.eee2.如eee1所述的方法，进一步包括：在所述噪声水平下模拟所述环境噪声；以及在播放所述样本音频之前将所模拟的环境噪声与所述样本音频混合。
39.eee3.如eee2所述的方法，其中，所述模拟包括从存储器中取得存储的预先记录的环境噪声。
40.eee4.如eee3所述的方法，其中，该存储的预先记录的环境噪声是双耳格式的。
41.eee5.如eee1至eee4中任一项所述的方法，进一步包括：在所述移动设备上呈现用于设置所述情况识别、所述噪声水平、所述对话增强水平和所述图形均衡器设置的图形用户界面控件。
42.eee6.如eee1至eee5中任一项所述的方法，其中，所述配置文件对应于所述情况识别和所述噪声水平两者。
43.eee7.一种为用户调整移动设备的音频的方法，所述方法包括：从所述用户处接收配置文件选择，其中，所述配置文件选择至少与环境噪声条件相关；从所述用户处接收所述环境噪声条件的噪声水平；从所述移动设备上的存储器中取得对话增强水平和图形均衡器设置；使用所述对话增强水平和所述图形均衡器设置来调整所述音频的水平。
44.eee8.如eee7所述的方法，进一步包括：在所述移动设备上呈现用于选择与环境噪
声条件相对应的配置文件的图形用户界面控件。
45.eee9.一种设备，所述设备被配置为在软件或固件中运行如eee1至eee8所述的方法中的至少一种方法。
46.eee10.一种非暂态计算机可读介质，当所述非暂态计算机可读介质由计算机读取时，指示所述计算机执行如eee1至eee8所述的方法中的至少一种方法。
47.eee11.如eee9所述的设备，其中，所述设备是电话。
48.eee12.如eee9所述的设备，其中，所述设备是以下各项中的至少一项：手机、膝上型计算机、平板计算机、手机游戏系统、可穿戴设备、以及小型媒体播放器。
49.eee13.如eee9、eee11或eee12中任一项所述的设备，其中，所述软件或固件是所述设备的操作系统的一部分。
50.eee14.如eee9、eee11或eee12中任一项所述的设备，其中，所述软件或固件在所述设备上运行独立的程序。
51.eee15.如eee1至eee8中任一项所述的方法，其中，所述方法由移动设备的操作系统执行。
52.本公开涉及出于描述本文所述的一些创新性方面的目的的某些实施方式以及可以实施这些创新性方面的上下文的示例。然而，可以以各种不同的方式来应用本文的教导内容。此外，所描述的实施例可以在各种硬件、软件、固件等中实施。例如，本技术的各方面可以至少部分地体现在装置、包括多于一个设备的系统、方法、计算机程序产品等中。因此，本技术的各方面可以采取硬件实施例、软件实施例(包括固件、常驻软件、微代码等)、和/或者结合了软件方面和硬件方面两者的实施例的形式。这些实施例在本文中可以被称为“电路”、“模块”、“设备”、“装置”或“引擎”。本技术的一些方面可以采用在一个或多个非暂态介质中实施的计算机程序产品的形式，所述非暂态介质具有在其上实施的计算机可读程序代码。这种非暂态介质例如可以包括硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、便携式致密盘只读存储器(cd-rom)、光存储设备、磁存储设备、或前述各项的任何合适的组合。因此，本公开的教导内容不旨在限制附图中示出和/或本文所描述的实施方式，而是具有广泛的适用性。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：具有延迟阈值的序列到序列语音识别的制作方法

用于在各种环境中增强音频的系统和方法与流程

相关文献

最热文献