具有分布式麦克风的声学分区的制作方法

2022-04-27 08:24:23 来源：中国专利 TAG：

具有分布式麦克风的声学分区
1.相关申请案的交叉引用
2.本技术案主张2019年12月18日申请的第62/950,004号美国临时专利申请案、2019年7月30日申请的第62/880,113号美国临时专利申请案及2019年11月29日申请的第19212391.7号ep专利申请案的优先权，所有所述申请案的全部内容均以引用的方式并入本文中。
技术领域
3.本公开涉及用于协调及实施智能音频装置的系统及方法。

背景技术：

4.智能音频装置已被广泛部署，并正在成为许多家庭的常见特征。尽管用于实施智能音频装置的现存系统及方法提供优点，但改进的系统及方法将是期望的。
5.标记法及命名法
6.在本文中，我们使用表达“智能音频装置”来表示智能装置，其为单用途音频装置或虚拟助手(例如，连接的虚拟助手)。单用途音频装置是包含或耦合到至少一个麦克风(且任选地还包含或耦合到至少一个扬声器)且大体上或主要经设计以实现单用途的装置(例如，电视(tv)或移动电话)。虽然电视通常可播放(并被认为能够播放)来自节目材料的音频，但在大多数例项中，现代电视运行一些操作系统，应用程序在所述操作系统上本地运行，包含看电视的应用程序。类似地，移动电话中的音频输入及输出可能会做很多事情，但这些都是由手机上运行的应用程序提供服务。从这个意义上说，具有扬声器及麦克风的单用途音频装置通常经配置以运行本地应用程序及/或服务以直接使用扬声器及麦克风。一些单用途音频装置可经配置以分组在一起，以实现在区或用户配置的区域上播放音频。
7.在本文中，“虚拟助手”(例如，连接的虚拟助手)是包含或耦合到至少一个麦克风(且任选地还包含或耦合到至少一个扬声器)且可提供将多个装置(与虚拟助手不同)用于某种意义上的云启用或另外未在虚拟助手本身中或其上实施的应用程序的能力的装置(例如，智能扬声器、智能显示器或语音助手集成装置)。虚拟助手有时可能一起工作，例如，以一种非常离散且有条件界定的方式。例如，两个或更多个虚拟助理可在以下意义上一起工作：其中一者，即最有信心其已听到唤醒词(wakeword)的一者对所述词作出响应。连接的装置可形成一种星座，其可由一个主应用程序管理，所述主应用程序可为(或包含或实施)虚拟助手。
8.在本文中，“唤醒词”在广义上用于表示任何声音(例如，人类说出的词或一些其它声音)，其中智能音频装置经配置以响应于检测到(“听到”)声音而醒来(使用包含在智能音频装置中或耦合到智能音频装置的至少一个麦克风，或至少一个其它麦克风)。在此上下文中，“醒来”表示装置进入其等待(即，正在监听)声音命令的状态。
9.在本文中，表达“唤醒词检测器”表示经配置以连续搜索实时声音(例如语音)特征与经训练模型之间的对准的装置(或包含用于配置装置的指令的软件)。通常，每当由唤醒
词检测器确定已检测到唤醒词的概率已超过预定义的阈值，便触发唤醒词事件。例如，阈值可为预定阈值，其被调谐以在错误接受率与错误拒绝率之间给出良好的折衷。在唤醒词事件之后，装置可能进入其中装置监听命令，并将所接收的命令传递到更大、计算更密集的辨识器的状态(其可被称为“醒来”状态或“专注”状态)。
10.贯穿本公开，包含在权利要求中，“扬声器(speaker)”及“扬声器(loudspeaker)”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或换能器组)。一组典型的耳机包含两个扬声器。扬声器可经实施以包含多个换能器(例如，低音扬声器及高音扬声器)，所有换能器都由单个公共扬声器馈送驱动。在一些例项中，扬声器馈送在耦合到不同换能器的不同电路系统分支中经历不同的处理。
11.在本文中，表达“麦克风位置”表示一或多个麦克风的位置。在一些实例中，单个麦克风位置可能对应于驻留在单个音频装置中的麦克风阵列。例如，麦克风位置可为对应于包含一或多个麦克风的整个音频装置的单个位置。在一些此类实例中，麦克风位置可为对应于单个音频装置的麦克风阵列的质心的单个位置。然而，在一些例项中，麦克风位置可能是单个麦克风的位置。在一些此类实例中，音频装置可仅具有单个麦克风。
12.贯穿本公开，包含在权利要求中，“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)的表达在广义上用于表示直接对信号或数据执行操作，或对信号或数据的经处理版本(例如，对在对其执行操作之前已经历初步滤波或预处理的信号版本)执行操作。
13.贯穿本公开，包含在权利要求中，表达“系统”在广义上用来表示装置、系统或子系统。例如，实施解码器的子系统可被称为解码器系统，且包含此类子系统的系统(例如，响应于多个输入而生成x个输出信号的系统，其中所述子系统生成m个输入且其它x-m个输入从外部源接收)也可被称为解码器系统。
14.贯穿本公开，包含在权利要求中，术语“处理器”在广义上用于表示可编程或以其它方式可配置(例如，使用软件或固件)以对数据(例如，音频或视频或其它图像数据)执行操作的系统或装置。处理器的实例包含现场可编程门阵列(或其它可配置集成电路或芯片组)、经编程及/或以其它方式配置以对音频或其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机，及可编程微处理器芯片或芯片组。

技术实现要素：

15.包含多个智能音频装置的统筹系统可能需要对用户的位置的一些了解，以便至少：(a)选择用于语音拾取的最佳麦克风；及(b)从合理位置发射音频。现存的技术包含选择具有高唤醒词置信度的单个麦克风，及使用多个同步麦克风来估计用户相对于装置的坐标的声源定位算法。如本文所使用的，如果使用同一采样时钟或同步采样时钟来对由麦克风检测到的声音进行数字采样，那么麦克风可被称为“同步”。例如，环境内的多个麦克风的第一麦克风可根据第一采样时钟对音频数据进行采样，且所述多个麦克风的第二麦克风可根据第一采样时钟对音频数据进行采样。
16.一些实施例考虑协调(统筹)智能音频装置的系统，其中智能音频装置中的每一者是(或包含)唤醒词检测器。多个麦克风(例如，异步麦克风)可为可用的，其中所述麦克风中的每一者被包含在实施分类器的装置中，或经配置用于与实施分类器的装置通信，在一些
实例中，所述分类器可为智能音频装置中的一者。(分类器在本文中也可被称为“区分类器”或“分类器模型”。)在其它实例中，所述分类器可由另一类型的装置(例如，未经配置以提供音频的智能装置)实施，所述装置经配置以与麦克风通信。例如，麦克风中的至少一些可为离散麦克风(例如，在家用电器中)，其不被包含在任何智能音频装置中，但其经配置用于与正在实施分类器的装置通信，所述分类器经配置以根据源自麦克风中的至少一些的多个声学特征来估计用户的区。在一些此类实施例中，目标不是估计用户的精确几何位置，而是形成离散区的稳健估计(例如，在存在重度噪声及残余回波的情况下)。如本文所使用的，环境中的对象或用户的“几何位置”是指基于坐标系的位置，无论所述坐标系是参考gps坐标，参考整个环境(例如，根据笛卡尔(cartesian)坐标系或极坐标系，具有其在环境内的某个位置处的原点)还是参考环境内的特定装置(例如，根据笛卡尔坐标系或极坐标系，其以装置为其原点)，例如智能音频装置。根据一些实例，可在不参考多个麦克风的几何位置的情况下确定用户在环境中的位置的估计。
17.所述用户、智能音频装置及麦克风可位于其中声音可从用户传播到麦克风的环境中(例如，用户的住所或营业地)，且所述环境可包含预定的用户区。例如，所述环境可包含以下用户区中的一或多者：食品准备区域；用餐区域；居住空间的开放区域；生活空间的电视区域(包含电视沙发)；与开放生活空间区域分开的卧室；等等。在根据一些实例的系统的操作期间，可假设如果用户在环境中，那么用户在任何时候物理上位于用户区中的一者中或附近，且用户当前所在的用户区可随时间而改变。
18.麦克风可能是“异步的”。如本文所使用的，如果使用不同的采样时钟来对由麦克风检测到的声音进行数字采样，那么麦克风可被称为“异步”。例如，所述环境内的多个麦克风中的第一麦克风可根据第一采样时钟对音频数据进行采样，且多个麦克风中的第二麦克风可根据第二采样时钟对音频数据进行采样。在一些例项中，环境中的麦克风可随机定位，或至少可以不规则及/或不对称方式分布在环境内。在一些实例中，可经由数据驱动的方法来估计用户的区，所述方法涉及至少部分地源自唤醒词检测器中的至少一者的多个高电平声学特征。在一些实施方案中，这些声学特征(其可包含唤醒词置信度及/或接收电平)可能消耗很少的带宽，且可能以很少的网络负载异步传输到实施分类器的装置。关于麦克风的几何位置的数据可被提供到或可不被提供到分类器，这取决于具体实施方案。如本文别处所提及的，在一些实例中，可在不参考多个麦克风的几何位置的情况下确定用户在环境中的位置的估计。
19.一些实施例的方面涉及实施智能音频装置及/或协调智能音频装置。
20.根据一些实施例，在系统中，多个智能音频装置以协调的方式(例如，通过发射光信号)响应(例如，以指示专注或可用性)系统对公共操作点(或操作状态)的确定。例如，操作点可为响应于来自用户的唤醒词而进入的专注状态，其中所有装置具有对用户的位置的估计(例如，具有至少一个不确定度)，且其中装置取决于其与用户的估计距离而发射不同颜色的光。
21.一些公开的方法涉及估计用户在环境中的位置。一些此类方法可能涉及从所述环境中的多个麦克风中的每一麦克风接收输出信号。所述多个麦克风中的每一者可驻留在所述环境的麦克风位置中。在一些实例中，所述输出信号可对应于用户的当前话语。
22.在一些实例中，所述多个麦克风中的至少两个麦克风被包含在所述环境中的单独
位置处的单独装置中。
23.一些此类方法可能涉及从每一麦克风的所述输出信号确定多个当前声学特征，并将分类器应用于所述多个当前声学特征。应用所述分类器可能涉及应用针对先前确定的声学特征进行训练的模型，所述先前确定的声学特征源自所述用户在所述环境中的多个用户区中说出的多个先前话语。一些此类方法可能涉及至少部分地基于来自所述分类器的输出确定所述用户当前所在的所述用户区的估计。例如，所述用户区可包含洗涤槽区域、食物准备区域、冰箱区域、用餐区域、沙发区域、电视区域及/或门廊区域。
24.在一些实例中，所述多个麦克风中的第一麦克风可根据第一采样时钟对音频数据进行采样，且所述多个麦克风中的第二麦克风可根据第二采样时钟对音频数据进行采样。在一些实例中，所述多个麦克风中的至少一者可被包含在智能音频装置中，或经配置用于与智能音频装置通信。根据一些实例，所述多个用户区可能涉及多个预定用户区。
25.根据一些实例，所述估计可在不参考所述多个麦克风的几何位置的情况下确定。在一些实例中，所述多个当前声学特征可为异步地确定的。
26.在一些例项中，所述当前话语及/或所述先前话语可包含唤醒词话语。在一些实例中，用户区可被估计为具有最大后验概率的类别。
27.根据一些实施方案，使用标记有用户区的训练数据训练所述模型。在一些例项中，所述分类器可能涉及应用使用未标记有用户区的未标记训练数据训练的模型。在一些实例中，应用所述分类器可能涉及应用针对归一化唤醒词置信度、归一化平均接收电平或最大接收电平中的一或多者进行训练的高斯混合模型。
28.在一些实例中，所述模型的训练可在应用所述分类器的过程期间继续。例如，所述训练可基于来自所述用户的显式反馈，即，由用户提供的反馈。替代地或此外，训练可基于隐式反馈，即，自动提供的反馈，例如关于基于估计的用户区的波束形成或麦克风选择的成功(或未成功)的隐式反馈。在一些实例中，所述隐式反馈可包含用户已异常地终止语音助手的响应的确定。根据一些实施方案，所述隐式反馈可包含命令辨识器返回低置信度结果。在一些例项中，所述隐式反馈可包含第二遍追溯唤醒词检测器返回对说出的所述唤醒词的低置信度。
29.根据一些实施方案，所述方法可能涉及根据所述估计的用户区选择至少一个扬声器，并控制所述至少一个扬声器以将声音提供到所述估计的用户区。替代地或此外，所述方法可能涉及根据所述估计的用户区选择至少一个麦克风，并将由所述至少一个麦克风输出的信号提供到智能音频装置。
30.一些公开的训练方法可能涉及提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语。根据一些实例，所述训练话语可为唤醒词话语。一些此类方法可能涉及从所述环境中的多个麦克风中的每一者接收第一输出信号。所述多个麦克风中的每一者可驻留在所述环境的麦克风位置中。在一些例项中，所述第一输出信号可对应于从所述第一用户区接收的所检测的训练话语的例项。
31.一些此类方法可能涉及从所述第一输出信号中的每一者确定第一声学特征，及训练分类器模型以在所述第一用户区与所述第一声学特征之间进行关联。在一些例项中，所述分类器模型可在不参考所述多个麦克风的几何位置的情况下训练。在一些例项中，所述第一声学特征可包含归一化唤醒词置信度、归一化平均接收电平或最大接收电平。
32.一些此类方法可能涉及提示用户在所述环境的第二到第k个用户区内的多个位置中的每一者中说出所述训练话语。一些此类方法可能涉及从所述环境中的多个麦克风中的每一者接收第二到第h个输出信号。所述第二到第h个输出信号可分别对应于从所述第二到第k个用户区接收的所检测的训练话语的例项。一些此类方法可能涉及从所述第二到第h个输出信号中的每一者确定第二到第g个声学特征，及训练所述分类器模型以分别在所述第二到第k个用户区与所述第二到第g个声学特征之间进行关联。
33.在一些例项中，所述多个麦克风中的第一麦克风可根据第一采样时钟对音频数据进行采样，且所述多个麦克风中的第二麦克风可根据第二采样时钟对音频数据进行采样。
34.本文所描述的操作、功能及/或方法中的一些或所有可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如，软件)来执行。此类非暂时性媒体可包含例如本文所描述的存储器装置，包含(但不限于)随机存取存储器(ram)装置、只读存储器(rom)装置等。因此，本公开中所描述的标的物的一些创新方面可在具有存储在其上的软件的一或多个非暂时性媒体中实施。例如，所述软件可包含用于控制一或多个装置以至少部分地执行所公开的方法中的一或多者的指令。
35.本公开中所描述的标的物的一个创新方面可在设备中实施。所述设备可包含接口系统及控制系统。所述控制系统可包含一或多个通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其组合。根据一些实例，所述控制系统可经配置用于至少部分地执行所公开的方法中的一或多者。
36.本公开的方面包含一种系统，其经配置(例如，经编程)以执行所公开的方法或其步骤的任何实施例，及实施数据的非暂时性存储的一或多个有形的、非暂时性、计算机可读媒体(例如，磁盘或其它有形存储媒体)，其存储用于执行(例如，可执行的代码以执行)所公开的方法或其步骤的任何实施例的代码。例如，所公开的系统的实施例可为或包含可编程通用处理器、数字信号处理器或微处理器，用软件或固件编程及/或以其它方式配置以对数据执行各种操作中的任一者，包含所公开的方法或其步骤的实施例。此类通用处理器可为或包含计算机系统，所述计算机系统包含输入装置、存储器及处理子系统，其经编程(及/或以其它方式配置)以响应于对其断言的数据执行所公开的方法(或其步骤)的实施例。
附图说明
37.图1a表示根据一个实例的环境。
38.图1b表示根据另一实例的环境。
39.图1c是展示能够实施本公开的各个方面的设备的组件的实例的框图。
40.图1d是概述可由例如图1c中所展示的设备执行的方法的一个实例的流程图。
41.图2是经配置以实施区分类器的实施例的一个实例的元件的框图。
42.图3是概述可由例如图1c的设备的设备执行的方法的一个实例的流程图。
43.图4是概述可由例如图1c的设备的设备执行的方法的另一实例的流程图。
44.图5是概述可由例如图1c的设备的设备执行的方法的另一实例的流程图。
45.各种附图中的相似的参考数字及名称指示相似的元件。
具体实施方式
46.本公开的许多实施例在技术上是可能的。从本公开中如何实施所述实施例对于所属领域的一般技术人员来说将是显而易见的。本文描述系统及方法的一些实施例。
47.由多个智能音频装置组成的统筹系统可经配置以确定何时检测到来自用户的“唤醒词”(上文所定义)。此类系统的至少一些装置可经配置以监听来自用户的命令。
48.接下来，参考图1到3，我们描述本公开的实施例的一些实例。图1a是环境(生活空间)的示意图，其包含系统，所述系统包含用于音频交互的一组智能音频装置(装置1.1)、用于音频输出的扬声器(1.3)、麦克风1.5及可控灯(1.2)。在一些例项中，麦克风1.5中的一或多者可为装置1.1、灯1.2或扬声器1.3中的一者的一部分，或与其相关联。替代地或此外，麦克风1.5中的一或多者可附接到环境的另一部分，例如墙壁、天花板、家具、器具或环境的另一装置。在一个实例中，智能音频装置1.1中的每一者包含至少一个麦克风1.5(及/或经配置用于与至少一个麦克风1.5通信)。图1a的系统可经配置以实施本公开的实施例。使用各种方法，可从图1a的麦克风1.5中集体获得信息，并将其提供到实施分类器的装置，所述分类器经配置以提供读出唤醒词的用户的位置估计。
49.在生活空间(例如，图1a中的生活空间)中，存在一组自然活动区，人们将在其中执行任务或活动，或越过阈值。在一些实例中，这些区域(在本文中可被称为用户区)可由用户定义，而无需指定几何位置的坐标或其它标记。在图1a中所展示的实例中，用户区可包含：
50.1.厨房洗涤槽及食物准备区域(在生活空间的左上区域中)；
51.2.冰箱门(洗涤槽及食物准备区域的右侧)；
52.3.用餐区域(在生活空间的左下方区域中)；
53.4.生活空间的开放区域(洗涤槽及食物准备区域及用餐区域的右侧)；
54.5.电视沙发(在开放区域的右侧)；
55.6.电视本身；
56.7.桌子；及
57.8.门区域或入口通道(在生活空间的右上方区域中)。
58.根据一些实施例，估计声音(例如，唤醒词或用于专注的其它信号)在何处产生或起源的系统可对估计具有一定确定的置信度(或多个假设)。例如，如果用户恰好在系统环境的区之间的边界附近，那么对用户的位置的不确定估计可包含用户在区中的每一者中的所确定的置信度。在语音接口的一些常规实施方案中，要求语音助手的语音一次只能从一个位置发出，这迫使对单个位置的单个选择(例如，图1a中的八个扬声器位置1.1及1.3中的一者)。然而，基于简单的想象角色扮演，显而易见的是，(在此类常规实施方案中)助手的语音的来源的选定位置(例如，包含在助手中或经配置用于与助手通信的扬声器的位置)作为焦点或表达专注的自然返回响应的可能性可能很低。
59.接下来，参考图1b，我们描述另一种环境109(声学空间)，其包含说出直接语音102的用户(101)，以及包含一组智能音频装置(103及105)、用于音频输出的扬声器及麦克风的系统的实例。系统可根据本公开的实施例进行配置。由用户101(在本文中有时被称为说话者)说出的语音可被系统的元件辨识为唤醒词。
60.更明确来说，图1b系统的元件包含：
61.102：直接本地语音(由用户101产生)；
62.103：语音助手装置(耦合到一或多个扬声器)。装置103经定位为比装置105更靠近用户101，且因此装置103有时被称为“近”装置，且装置105被称为“远”装置；
63.104：近装置103中(或耦合到近装置103)的多个麦克风；
64.105：语音助手装置(耦合到一或多个扬声器)；
65.106：远装置105中(或耦合到远装置105)的多个麦克风；
66.107：家用电器(例如灯)；及
67.108：家用电器107中(或耦合到家用电器107)的多个麦克风。在一些实例中，麦克风108中的每一者都可经配置用于与经配置用于实施分类器的装置通信，在一些例项中，所述分类器可为装置103或105中的至少一者。
68.图1b系统还可包含至少一个分类器(例如，下文描述的图2的分类器207)。例如，装置103(或装置105)可包含分类器。替代地或此外，分类器可由另一装置实施，所述装置可经配置用于与装置103及/或105通信。在一些实例中，分类器可由另一本地装置(例如，环境109内的装置)实施，而在其它实例中，分类器可由位于环境109外的远程装置(例如，服务器)实施。
69.图1c是展示能够实施本公开的各个方面的设备的组件的实例的框图。根据一些实例，设备100可为或可包含智能音频装置，所述智能音频装置经配置用于执行本文公开的方法中的至少一些。在其它实施方案中，设备100可为或可包含另一装置，所述装置经配置用于执行本文公开的方法中的至少一些。在一些此类实施方案中，设备100可为或可包含服务器。
70.在此实例中，设备110包含接口系统115及控制系统120。在一些实施方案中，接口系统115可经配置用于从环境中的多个麦克风中的每一者接收输入。接口系统115可包含一或多个网络接口及/或一或多个外部装置接口(例如一或多个通用串行总线(usb)接口)。根据一些实施方案，接口系统115可包含一或多个无线接口。接口系统115可包含用于实施用户接口的一或多个装置，例如一或多个麦克风、一或多个扬声器、显示系统、触摸传感器系统及/或手势传感器系统。在一些实例中，接口系统115可包含控制系统120与存储器系统(例如图1c中所展示的任选存储器系统125)之间的一或多个接口。然而，控制系统120可包含存储器系统。
71.例如，控制系统120可包含通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑装置、离散门或晶体管逻辑及/或离散硬件组件。在一些实施方案中，控制系统120可驻留在多于一个装置中。例如，控制系统120的一部分可驻留在图1a及1b中所描绘的环境中的一者内的装置中，且控制系统120的另一部分可驻留在环境之外的装置中，例如服务器、移动装置(例如，智能手机或平板电脑)等。在一些此类实例中，接口系统115还可驻留在多于一个装置中。
72.在一些实施方案中，控制系统120可经配置用于至少部分地执行本文所公开的方法。根据一些实例，控制系统120可经配置用于实施分类器，举例来说，例如，如本文所公开的分类器。在一些此类实例中，控制系统120可经配置用于至少部分地基于来自分类器的输出确定用户当前所在的用户区的估计。
73.本文所描述的方法中的一些或所有可由一或多个装置根据存储在一或多个非暂时性媒体上的指令(例如，软件)来执行。此类非暂时性媒体可包含例如本文所描述的存储
器装置，包含(但不限于)随机存取存储器(ram)装置、只读存储器(rom)装置等。例如，一或多个非暂时性媒体可驻留在图1c中所展示的任选存储器系统125及/或控制系统120中。因此，本公开中所描述的标的物的各种创新方面可在具有存储在其上的软件的一或多个非暂时性媒体中实施。例如，软件可包含用于控制至少一个装置以处理音频数据的指令。例如，软件可能可由控制系统的一或多个组件执行，例如图1c的控制系统120。
74.图1d是概述可由例如图1c中所展示的设备执行的方法的一个实例的流程图。与本文所描述的其它方法一样，方法130的框不一定按照指示的顺序执行。此外，此类方法可包含比所展示的及/或所描述的更多或更少的框。在此实施方案中，方法130涉及估计用户在环境中的位置。
75.在此实例中，框135涉及从环境中的多个麦克风中的每一麦克风接收输出信号。在此例项中，多个麦克风中的每一者驻留在环境的麦克风位置中。根据此实例，输出信号对应于用户的当前话语。在一些实例中，当前话语可为或可包含唤醒词话语。例如，框135可涉及控制系统(例如图1c的控制系统120)经由接口系统(例如图1c的接口系统115)从环境中的多个麦克风中的每一麦克风接收输出信号。
76.在一些实例中，环境中的麦克风中的至少一些可提供相对于由一或多个其它麦克风提供的输出信号异步的输出信号。例如，多个麦克风中的第一麦克风可根据第一采样时钟对音频数据进行采样，且多个麦克风中的第二麦克风可根据第二采样时钟对音频数据进行采样。在一些例项中，环境中的麦克风中的至少一个可包含在智能音频装置中，或经配置用于与智能音频装置通信。
77.根据此实例，框140涉及从每一麦克风的输出信号确定多个当前声学特征。在此实例中，“当前声学特征”是源自框135的“当前话语”的声学特征。在一些实施方案中，框140可涉及从一或多个其它装置接收多个当前声学特征。例如，框140可涉及从由一或多个其它装置实施的一或多个唤醒词检测器接收多个当前声学特征中的至少一些。替代地或此外，在一些实施方案中，框140可涉及从输出信号确定多个当前声学特征。
78.无论声学特征是由单个装置还是由多个装置确定，声学特征都可异步地确定。如果声学特征由多个装置确定，通常将异步地确定声学特征，除非装置经配置以协调确定声学特征的过程。如果声学特征由单个装置确定，那么在一些实施方案中，声学特征仍可异步地确定，因为单个装置可在不同的时间接收每一麦克风的输出信号。在一些实例中，可异步地确定声学特征，因为环境中的麦克风中的至少一些可提供相对于由一或多个其一麦克风提供的输出信号异步的输出信号。
79.在一些实例中，声学特征可包含唤醒词置信度度量、唤醒词持续时间度量及/或至少一个接收电平度量。接收电平度量可指示由麦克风检测到的声音的接收电平，且可对应于麦克风的输出信号的电平。
80.替代地或此外，声学特征可包含以下一或多者：
81.·
沿与声学模型的1-best(维特比)对准的每一唤醒词状态的平均状态熵(纯度)。
82.·
ctc损失(连接主义时间分类损失)对唤醒词检测器的声学模型。
83.·
除了唤醒词置信度之外，唤醒词检测器还可经训练以提供说话者与麦克风的距离估计及/或混响时间rt60估计。距离估计及/或rt60估计可为声学特征。
84.·
代替或除麦克风处的宽带接收电平/功率之外，声学特征可为多个log/mel/
bark间隔频带中的接收电平。频带可根据特定实施方案而变化(例如，2个频带、5个频带、20个频带、50个频带、1倍频程频带或1/3倍频程频带)。
85.·
通过取得频带功率的对数dct(离散余弦变换)而计算先前点中的频谱信息的倒谱表示。
86.·
为人类语音加权的频带中的频带功率。例如，声学特征可能仅基于特定频带(例如，400hz到1.5khz)。在此实例中，更高及更低的频率可被忽略。
87.·
每频带或每分组(per-bin)语音活动检测器置信度。
88.·
声学特征可能至少部分地基于长期噪声估计，以忽略具有较差信噪比的麦克风。
89.·
峰度为语言峰值的量度。峰度可为长混响尾的拖尾的指标。
90.·
估计的唤醒词起始时间。与持续时间一样，人们将预期起始及持续时间在一帧内或因此跨越所有麦克风相等。异常值可给出不可靠估计的线索。这假设不是对样本而是对几十毫秒的帧的某种程度的同步，这可能是合理的。
91.根据此实例，框145涉及将分类器应用于多个当前声学特征。在一些此类实例中，应用分类器可能涉及应用针对先前确定的声学特征进行训练的模型，所述先前确定的声学特征源自用户在环境中的多个用户区中说出的多个先前话语。本文提供各种实例。
92.在一些实例中，用户区可包含洗涤槽区域、食物准备区域、冰箱区域、用餐区域、沙发区域、电视区域、卧室区域及/或门廊区域。根据一些实例，一或多个用户区可为预定的用户区。在一些此类实例中，一或多个预定用户区可能已由用户在训练过程期间选择。
93.在一些实施方案中，应用分类器可能涉及应用针对先前话语进行训练的高斯混合模型。根据一些此类实施方案，应用分类器可能涉及应用针对先前话语的归一化唤醒词置信度、归一化平均接收电平或最大接收电平中的一或多者进行训练的高斯混合模型。然而，在替代实施方案中，应用分类器可基于不同的模型，例如本文所公开的其它模型中的一者。在一些例项中，可使用标记有用户区的训练数据训练模型。然而，在一些实例中，应用分类器涉及应用使用未标记有用户区的未标记训练数据训练的模型。
94.在一些实例中，先前话语可能已是或可能已包含唤醒词话语。根据一些此类实例，先前话语及当前话语可能已是同一唤醒词的话语。
95.在此实例中，框150涉及至少部分地基于来自分类器的输出确定用户当前所在的用户区的估计。在一些此类实例中，可在不参考多个麦克风的几何位置的情况下确定估计。例如，可在不参考个别麦克风的坐标的情况下确定估计。在一些实例中，可在不估计用户的几何位置的情况下确定估计。
96.方法130的一些实施方案可能涉及根据估计的用户区选择至少一个扬声器。一些此类实施方案可能涉及控制至少一个所选择的扬声器以将声音提供到估计的用户区。替代地或此外，方法130的一些实施方案可能涉及根据估计的用户区选择至少一个麦克风。一些此类实施方案可能涉及将由至少一个麦克风输出的信号提供到智能音频装置。
97.参考图2，我们接下来描述本公开的实施例。图2是经配置以实施区分类器的实施例的一个实例的元件的框图。根据此实例，系统200包含分布在环境(举例来说，例如，图1a或图1b中所说明的环境)的至少一部分中的多个扬声器204。在此实例中，系统200包含多声道扬声器渲染器201。根据此实施方案，多声道扬声器渲染器201的输出既用作扬声器驱动
信号(用于驱动扬声器204的扬声器馈送)又用作回声参考。在此实施方案中，回声参考经由多个扬声器参考声道202提供到回声管理子系统203，所述扬声器参考声道202包含从渲染器202输出的扬声器馈送信号中的至少一些。
98.在此实施方案中，系统200包含多个回声管理子系统203。根据此实例，回声管理子系统203经配置以实施一或多个回声抑制过程及/或一或多个回声消除过程。在此实例中，回声管理子系统203中的每一者将对应的回声管理输出203a提供到唤醒词检测器206中的一者。回波管理输出203a具有相对于回波管理子系统203中的相关一者的输入的衰减回波。
99.根据此实施方案，系统200包含分布在环境(例如，图1a或图1b中所说明的环境)的至少一部分中的n个麦克风205(n是整数)。麦克风可包含阵列麦克风及/或点式麦克风。例如，位于环境中的一或多个智能音频装置可包含麦克风阵列。在此实例中，麦克风205的输出被提供为回声管理子系统203的输入。根据此实施方案，回声管理子系统203中的每一者捕获个别麦克风205或麦克风205的个别组或子集的输出。
100.在此实例中，系统200包含多个唤醒词检测器206。根据此实例，唤醒词检测器206中的每一者接收来自回声管理子系统203中的一者的音频输出，并输出多个声学特征206a。从每一回声管理子系统203输出的声学特征206a可包含(但不限于)：唤醒词置信度、唤醒词持续时间及接收电平的量度。尽管描绘三个声学特征206a的三个箭头被展示为从每一回声管理子系统203输出，但在替代实施方案中可输出更多或更少的声学特征206a。此外，尽管这三个箭头或多或少沿垂直线撞击分类器207，但这并不指示分类器207必须同时从所有唤醒词检测器206接收声学特征206a。如本文别处所提及的，在一些例项中，声学特征206a可被异步地确定及/或提供到分类器。
101.根据此实施方案，系统200包含区分类器207，其也可被称为分类器207。在此实例中，分类器从用于环境中的多个(例如，所有)麦克风205的多个唤醒词检测器206接收多个特征206a。根据此实例，区分类器207的输出208对应于用户当前所在的用户区的估计。根据一些此类实例，输出208可对应于一或多个后验概率。根据贝叶斯统计数据，对用户当前所在的用户区的估计可为或可对应于最大后验概率。
102.我们接下来描述分类器的实例实施方案，在一些实例中，所述分类器可对应于图2的区分类器207。设xi(n)为离散时间n的第i个麦克风信号，i＝{1
…
n}(即，麦克风信号xi(n)是n个麦克风205的输出)。在回声管理子系统203中对n个信号xi(n)的处理产生
‘
干净’的麦克风信号ei(n)，其中i＝{1
…
n}，每一者在离散时间n。在此实例中，图2中被指代为203a的干净信号ei(n)被馈送到唤醒词检测器206。此处，每一唤醒词检测器206产生特征wi(j)的矢量，在图2中被指代为206a，其中j＝{1
…
j}是对应于第j个唤醒词话语的指数。在此实例中，分类器207取得总特征集作为输入。
103.根据一些实施方案，一组区标签ck(针对k＝{1
…
k})可对应于环境中不同用户区的数目k。例如，用户区可包含沙发区、厨房区、阅读椅区等。一些实例可在厨房或其它房间内界定多于一个区。例如，厨房区域可包含洗涤槽区、食物准备区、冰箱区及用餐区。类似地，客厅区域可包含沙发区、电视区、阅读椅区、一或多个门廊区等。可由用户，例如在训练阶段期间选择这些区的区标签。
104.在一些实施方案中，分类器207例如通过使用贝叶斯分类器估计特征集w(j)的后验概率p(ck|w(j))。概率p(ck|w(j))指示用户处于区ck中的每一者中的概率(针对第“j”个
话语及第“k”个区，针对区ck中的每一者及话语中的每一者)，且是分类器207的输出208的实例。
105.根据一些实例，可通过提示用户选择或界定区(例如，沙发区)来收集训练数据(例如，针对每一用户区)。训练过程可能涉及提示用户在所选择的或界定的区附近说出训练话语，例如唤醒词。在沙发区实例中，训练过程可能涉及提示用户在沙发的中心及末端边缘处说出训练话语。训练过程可能涉及提示用户在用户区内的每一位置处重复训练话语若干次。然后可能提示用户移动到另一用户区并继续，直到所有指定的用户区已被覆盖。
106.图3是概述可由例如图1c的设备110的设备执行的方法的一个实例的流程图。与本文所描述的其它方法一样，方法300的框不一定按照指示的顺序执行。此外，此类方法可包含比所展示的及/或所描述的更多或更少的框。在此实施方案中，方法300涉及训练分类器用于估计用户在环境中的位置。
107.在此实例中，框305涉及提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语。在一些实例中，训练话语可为唤醒词话语的一或多个例项。根据一些实施方案，第一用户区可为由用户选择及/或界定的任何用户区。在一些例项中，控制系统可创建对应的区标签(例如，上文所描述的区标签ck中的一者的对应例项)，并可将所述区标签与为第一用户区获得的训练数据相关联。
108.自动提示系统可用于收集这些训练数据。如上文所提及，设备110的接口系统115可包含用于实施用户接口的一或多个装置，例如一或多个麦克风、一或多个扬声器、显示系统、触摸传感器系统及/或手势传感器系统。例如，设备110可在显示系统的屏幕上向用户提供以下提示，或在训练过程期间经由一或多个扬声器听到其被说出：
109.·“移动到沙发。”110.·“在转头的同时说十次唤醒词。”111.·“移动到沙发与阅读椅之间半途的位置，并说十次唤醒词。”112.·“像做饭一样站在厨房里，并说十次唤醒词。”113.在此实例中，框310涉及从环境中的多个麦克风中的每一者接收第一输出信号。在一些实例中，框310可涉及从环境中的所有有源麦克风接收第一输出信号，而在其它实例中，框310可涉及从环境中的所有有源麦克风的子集接收第一输出信号。在一些实例中，环境中的麦克风中的至少一些可提供与相对于由一或多个其它麦克风提供的输出信号异步的输出信号。例如，多个麦克风中的第一麦克风可根据第一采样时钟对音频数据进行采样，且多个麦克风中的第二麦克风可根据第二采样时钟对音频数据进行采样。
114.在此实例中，多个麦克风中的每一麦克风驻留在环境的麦克风位置中。在此实例中，第一输出信号对应于从第一用户区接收的所检测的训练话语的例项。由于框305涉及提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语，因此在此实例中，术语“第一输出信号”是指对应于第一用户区的训练话语的一组所有输出信号。在其它实例中，术语“第一输出信号”可指对应于第一用户区的训练话语的所有输出信号的子集。
115.根据此实例，框315涉及从第一输出信号中的每一者确定一或多个第一声学特征。在一些实例中，第一声学特征可包含唤醒词置信度度量及/或接收电平度量。例如，第一声学特征可包含归一化唤醒词置信度度量、归一化平均接收电平的指示及/或最大接收电平
的指示。
116.如上文所提及，由于框305涉及提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语，因此在此实例中，术语“第一输出信号”是指对应于第一用户区的训练话语的一组所有输出信号。因此，在此实例中，术语“第一声学特征”是指源自对应于第一用户区的训练话语的所述一组所有输出信号的一组声学特征。因此，在此实例中，所述一组第一声学特征至少与所述一组第一输出信号一样大。例如，如果从输出信号中的每一者确定两个声学特征，那么所述一组第一声学特征将是所述一组第一输出信号的两倍大。
117.在此实例中，框320涉及训练分类器模型以在第一用户区与第一声学特征之间进行关联。例如，分类器模型可为本文所公开的那些模型中的任一者。根据此实施方案，分类器模型是在不参考多个麦克风的几何位置的情况下训练的。换句话说，在此实例中，在训练过程期间，不向分类器模型提供关于多个麦克风的几何位置的数据(例如，麦克风坐标数据)。
118.图4是概述可由例如图1c的设备110的设备执行的方法的另一实例的流程图。与本文所描述的其它方法一样，方法400的框不一定按照指示的顺序执行。例如，在一些实施方案中，可在框415或框420之前执行框425的声学特征确定过程的至少一部分。此外，这种方法可包含比所展示的及/或所描述的更多或更少的框。在此实施方案中，方法400涉及训练分类器用于估计用户在环境中的位置。方法400提供将方法300扩展到环境的多个用户区的实例。
119.在此实例中，框405涉及提示用户在环境的用户区内的位置中说出至少一次训练话语。在一些例项中，框405可以上文参考图3的框305所描述的方式执行，除了框405涉及用户区内的单个位置之外。在一些实例中，训练话语可为唤醒词话语的一或多个例项。根据一些实施方案，用户区可为由用户选择及/或界定的任何用户区。在一些例项中，控制系统可创建对应的区标签(例如，上文所描述的区标签ck中的一者的对应例项)，并可将所述区标签与针对用户区获得的训练数据相关联。
120.根据此实例，大体上如上文参考图3的框310所描述般执行框410。然而，在此实例中，框410的过程被一般化到任何用户区，而不一定是针对其获取训练数据的第一用户区。因此，在框410中接收的输出信号是“来自环境中的多个麦克风中的每一者的输出信号，多个麦克风中的每一者驻留在环境的麦克风位置中，输出信号对应于从用户区接收的所检测的训练话语的例项”。在此实例中，术语“输出信号”是指对应于用户区的位置中的一或多个训练话语的一组所有输出信号。在其它实例中，术语“输出信号”可指对应于用户区的位置中的一或多个训练话语的所有输出信号的子集。
121.根据此实例，框415涉及确定是否已针对当前用户区获取足够的训练数据。在一些此类实例中，框415可涉及确定是否已针对当前用户区获得对应于训练话语的阈值数目的输出信号。替代地或此外，框415可涉及确定是否已获得对应于当前用户区内的阈值数目的位置中的训练话语的输出信号。如果否，那么方法400在此实例中返回到框405，且提示用户在同一用户区内的位置处说出至少一次额外话语。
122.然而，如果在框415中确定已针对当前用户区获取足够的训练数据，那么在此实例中，过程继续到框420。根据此实例，框420涉及确定是否获取用于额外用户区的训练数据。
根据一些实例，框420可涉及确定是否已针对用户先前识别的每一用户区获得训练数据。在其它实例中，框420可涉及确定是否已针对最小数目的用户区获得训练数据。最小数目可能已由用户选择。在其它实例中，最小数目可为每环境的建议最小数目、每环境的房间的建议最小数目等。
123.如果在框420中确定应针对额外用户区获得训练数据，那么在此实例中，过程继续到框422，其涉及提示用户移动到环境的另一用户区。在一些实例中，可由用户选择下一个用户区。根据此实例，在框422的提示之后，过程继续到框405。在一些此类实例中，在框422的提示之后，可提示用户确认用户已到达新用户区。根据一些此类实例，在提供框405的提示之前，用户可能需要确认用户已到达新用户区。
124.如果在框420中确定不应针对额外用户区获得训练数据，那么在此实例中，过程继续到框425。在此实例中，方法400涉及获取用于k个用户区的训练数据。在此实施方案中，框425涉及从对应于已获得训练数据的第一到第k个用户区中的每一者的第一到第h个输出信号确定第一到第g个声学特征。在此实例中，术语“第一输出信号”是指对应于用于第一用户区的训练话语的一组所有输出信号，且术语“第h个输出信号”是指对应于用于第k个用户区的训练话语的一组所有输出信号。类似地，术语“第一声学特征”是指从第一输出信号确定的一组声学特征，且术语“第g个声学特征”是指从第h个输出信号确定的一组声学特征。
125.根据这些实例，框430涉及训练分类器模型以分别在第一到第k个用户区与第一到第k个声学特征之间进行关联。例如，分类器模型可为本文所公开的分类器模型中的任一者。
126.在前述实例中，用户区被标记(例如，根据上文所描述的区标签ck中的一者的对应例项)。然而，取决于特定实施方案，模型可根据标记或未标记的用户区进行训练。在标记的情况下，每一训练话语可与对应于用户区的标签配对，例如，如下：
[0127][0128]
训练分类器模型可能涉及确定标记的训练数据的最佳拟合。在不丧失普遍性的情况下，分类器模型的适当分类方法可包含：
[0129]
·
贝叶斯分类器，例如，具有由多元正态分布、全协方差高斯混合模型或对角协方差高斯混合模型描述的每类分布；
[0130]
·
矢量量化；
[0131]
·
最近邻(k均值)；
[0132]
·
具有softmax输出层的神经网络，每一个输出对应于每一类；
[0133]
·
支持矢量机(svm)；及/或
[0134]
·
推进技术，例如梯度推进机(gbm)
[0135]
在实施未标记情况的一个实例中，数据可被自动分割为k个集群，其中k也可为未知的。例如，可通过使用经典聚类技术(例如，k均值算法或高斯混合建模)来执行未标记的自动分割。
[0136]
为了改进稳健性，可将正则化应用于分类器模型训练，且随着时间的推移，模型参数可在说出新话语时更新。
[0137]
我们接下来描述实施例的进一步方面。
[0138]
实例声学特征集(例如，图2的声学特征206a)可包含唤醒词置信度的可能性、最可信唤醒词的估计持续时间内的平均接收电平，及最可信唤醒词的持续时间内的最大接收电平。特征可相对于其针对每一唤醒词话语的最大值进行归一化。可对训练数据进行标记，且可训练全协方差高斯混合模型(gmm)，以最大化训练标签的预期。估计区可为最大化后验概率的类别。
[0139]
一些实施例的上述描述讨论从在提示收集过程期间收集的一组训练数据学习声学区模型。在所述模型中，训练时间(或配置模式)及运行时(或常规模式)可被视为麦克风系统可被置于其中的两种不同模式。此方案的一个扩展是在线学习，其中在线学习或自适应声学区模型中的一些或所有(即，在运行时或在常规模式下)。换句话说，即使在分类器被应用于“运行时”过程以进行用户当前所在的用户区的估计之后(例如，依据图1d的方法130)，在一些实施方案中，训练分类器的过程可继续。
[0140]
图5是概述可由例如图1c的设备110的设备执行的方法的另一实例的流程图。与本文所描述的其它方法一样，方法500的框不一定按照指示的顺序执行。此外，此类方法可包含比所展示的及/或所描述的更多或更少的框。在此实施方案中，方法500涉及在估计用户在环境中的位置的“运行时”过程期间对分类器的持续训练。方法500是本文所指的在线学习模式的实例。
[0141]
在此实例中，方法500的框505对应于方法130的框135到150。此处，框505涉及至少部分地基于来自分类器的输出提供用户当前所在的用户区的估计。根据此实施方案，框510涉及获得关于框505的估计的隐式或显式反馈。在框515中，依据在框505中接收的反馈更新分类器。例如，框515可涉及一或多种强化学习方法。如由从框515到框505的虚线箭头所暗示，在一些实施方案中，方法500可涉及返回到框505。例如，方法500可涉及基于应用更新的模型，提供用户在所述未来时间所在的用户区的未来估计。
[0142]
用于获得反馈的显式技术可包含：
[0143]
·
使用语音用户接口(ui)向用户询问预测是否正确。例如，可向用户提供指示以下内容的声音：“我认为您在沙发上，请说
‘
对’或
‘
错
’”
。
[0144]
·
随时使用语音ui通知用户可校正错误的预测。(例如，可向用户提供指示以下内容的声音：“我现在能够预测您在和我说话时所处的位置。如果我预测错了，就说类似
‘
阿曼达，我不在沙发上。我在阅读椅上’的话”)。
[0145]
·
随时使用语音ui通知用户正确的预测可得到奖励。(例如，可向用户提供指示以下内容的声音：“我现在能够预测您在和我说话时所处的位置。如果我预测正确，您可通过说类似
‘
阿曼达，没错。我在沙发上’的话来帮助进一步改进我的预测。”)。
[0146]
·
包含用户可操作以给出反馈的物理按钮或其它ui元件(例如，物理装置或智能手机应用程序中的拇指向上及/或拇指向下按钮)。
[0147]
预测用户所在的用户区的目标可为通知麦克风选择或自适应波束形成方案，其尝试更有效地从用户的声学区拾取声音，例如，以便更好地辨识唤醒词之后的命令。在此类场景中，用于获得有关区预测的质量的反馈的隐式技术可包含：
[0148]
·
惩罚导致错误辨识唤醒词之后的命令的预测。可能指示错误辨识的代理可包含用户打断语音助手对命令的响应，例如，通过说出反命令，类似，例如“阿曼达，停下来！”；
[0149]
·
惩罚导致语音辨识器已成功辨识命令的低置信度的预测。许多自动语音辨识系
统具有返回置信度水平的能力，其结果可用于此目的；
[0150]
·
惩罚导致第二遍唤醒词检测器无法以高置信度回顾性检测唤醒词的预测；及/或
[0151]
·
加强导致对唤醒词的高度可信辨识及/或对用户命令的正确辨识的预测。
[0152]
以下是第二遍唤醒词检测器未能以高置信度回顾性检测唤醒词的实例。假设在从环境中的麦克风获得对应于当前话语的输出信号之后，且在基于输出信号(例如，经由经配置用于与麦克风通信的多个第一遍唤醒词检测器)确定声学特征之后，声学特征被提供到分类器。换句话说，假定声学特征对应于所检测的唤醒词话语。进一步假设分类器确定说出当前话语的人最有可能位于区3中，所述区3对应于此实例中的阅读椅。例如，可能存在已知最适合在人位于区3中时，监听人的声音，例如，以发送到用于语音命令辨识的基于云的虚拟助理服务的特定麦克风或得知的麦克风组合。
[0153]
进一步假设，在确定哪个(些)麦克风将用于语音辨识之后，但在人的语音实际被发送到虚拟助理服务之前，第二遍唤醒词检测器对麦克风信号进行操作，所述麦克风信号对应于由您将要提交用于命令辨识的区3的所选麦克风所检测的语音。如果第二遍唤醒词检测器与实际上说出唤醒词的您的多个第一遍检测器不一致，那么可能是因为分类器错误地预测区。因此，分类器应被惩罚。
[0154]
在已说出一或多个唤醒词之后对区映射模型进行后验更新的技术可包含：
[0155]
·
高斯混合模型(gmm)或最近邻模型的最大化后验概率(map)自适应；及/或
[0156]
·
例如神经网络的强化学习，例如通过将适当的“独热(one-hot)”(在正确预测的情况下)或“独冷(one-cold)”(在错误预测的情况下)地面真值标签与softmax输出相关联，并应用在线反向传播来确定新的网络权重。
[0157]
在此上下文中，map自适应的一些实例可能涉及每次说出唤醒字时调整gmm中的均值。以此方式，这些均值可能会变得更像在说出后续词时观察到的声学特征。替代地或此外，此类实例可涉及在每次说出唤醒词时调整gmm中的方差/协方差或混合权重信息。
[0158]
例如，map自适应方案可如下所示：
[0159]
μ
i，new
＝μi
i，old
*α x*(1-α)
[0160]
在前述等式中，μ
i,old
表示混合物中第i个高斯的均值，α表示控制map自适应应发生的积极程度的参数(α可能在[0.9,0.999]范围内)，且x表示新唤醒词话语的特征矢量。指数“i”将对应于混合元素，其返回含有说话人在唤醒词时间的位置的最高先验概率。
[0161]
替代地，混合元素中的每一者可根据其含有唤醒词的先验概率进行调整，例如，如下所示：
[0162]mi，new
＝μ
i，old
*βi*x(1-βi)
[0163]
在前述等式中，βi＝α*(1-p(i))，其中p(i)表示观测x是由混合元素i引起的先验概率。
[0164]
在一个强化学习实例中，可能存在三个用户区。假设针对特定唤醒词，模型预测三个用户区的概率为[0.2,0.1,0.7]。如果第二信息源(例如，第二遍唤醒词检测器)确认第三区是正确的，那么地面真值标签可为[0,0,1](“独热”)。区映射模型的后验更新可能涉及通过神经网络反向传播误差，这实际上意味着，如果再次显示相同的输入，那么神经网络将更强烈地预测区3。相反，如果第二信息源展示区3是不正确的预测，那么在一个实例中，地面
真值标签可为[0.5,0.5,0.0]。如果未来展示相同的输入，那么通过神经网络反向传播误差将使模型不太可能预测区3。
[0165]
一些实施例的方面包含以下一或多者：
[0166]
实例1.一种用于估计用户在环境中的位置(例如，作为区标签)的方法，其中所述环境包含多个用户区及多个麦克风(例如，所述麦克风中的每一者被包含在所述环境中的至少一个智能音频装置中，或经配置用于与所述环境中的至少一个智能音频装置通信)，所述方法包含以下步骤：(例如，至少部分地从所述麦克风的输出信号)确定所述用户所在的用户区中的一者的估计；
[0167]
实例2.根据实例1所述的方法，其中所述麦克风是异步及/或随机分布的；
[0168]
实例3.根据实例1所述的方法，其中确定所述估计涉及应用分类器模型，所述分类器模型已针对源自多个唤醒词检测器的声学特征进行训练，所述声学特征基于多个位置中的多个唤醒词话语；
[0169]
实例4.根据实例3所述的方法，其中用户区被估计为具有最大后验概率的类别；
[0170]
实例5.根据实例3所述的方法，其中使用标记有参考区的训练数据训练所述分类器模型；
[0171]
实例6.根据实例1所述的方法，其中使用未标记训练数据训练所述分类器模型；
[0172]
实例7.根据实例1所述的方法，其中所述分类器模型包括已根据归一化唤醒词置信度、归一化平均接收电平及最大接收电平训练的高斯混合模型；
[0173]
实例8.根据之前实例中的任一实例所述的方法，其中在线执行声学区模型的自适应；
[0174]
实例9.根据实例8所述的方法，其中所述自适应基于来自所述用户的显式反馈；
[0175]
实例10.根据实例8所述的方法，其中所述自适应基于对基于预测的声学区的波束形成的成功或麦克风选择的隐式反馈；
[0176]
实例11.根据实例10所述的方法，其中所述隐式反馈包含用户提前终止语音助手的响应；
[0177]
实例12.根据实例10所述的方法，其中所述隐式反馈包含命令辨识器返回低置信度结果；及
[0178]
实例13.根据实例10所述的方法，其中所述隐式反馈包含第二遍追溯唤醒词检测器返回说出唤醒词的低置信度。
[0179]
一些实施例包含经配置(例如，经编程)以执行一或多个所公开的方法的系统或装置，以及存储用于实施一或多个所公开的方法或其步骤的代码的有形计算机可读媒体(例如，光盘)。例如，所述系统可为或可包含可编程通用处理器、数字信号处理器或微处理器，用软件或固件编程及/或以其它方式经配置以对数据执行各种操作中的任一者，包含所公开的方法或其步骤的实施例。此类通用处理器可为或包含计算机系统，所述计算机系统包含输入装置、存储器及处理子系统，其经编程(及/或以其它方式配置)以响应于对其断言的数据执行所公开的方法(或其步骤)的实施例。
[0180]
所公开的系统的一些实施例可经实施为可配置(例如，可编程)数字信号处理器(dsp)，其经配置(例如，经编程及以其它方式配置)以对音频信号执行所需的处理，包含所公开的方法的实施例的执行。替代地，所公开的系统(或其元件)的实施例可经实施为通用
处理器(例如，个人计算机(pc)或其它计算机系统或微处理器，其可包含输入装置及存储器)，其用软件或固件编程及/或以其它方式配置以执行包含所公开的方法的实施例的各种操作中的任一者。替代地，所公开的系统的一些实施例的元件可经实施为通用处理器或dsp，其经配置(例如，经编程)以执行所公开的方法的实施例，且所述系统还可包含其它元件(例如，一或多个扬声器及/或一个或多个麦克风)。经配置以执行所公开的方法的实施例的通用处理器可经耦合到输入装置(例如，鼠标及/或键盘)、存储器，且在一些实例中耦合到显示装置。
[0181]
本公开的另一方面可在一或多个非暂时性计算机可读媒体(例如，一或多个ram、rom、光盘或其它有形存储媒体)中实施，其存储用于执行(例如，可执行的编码器以执行)所公开的方法或其步骤的任何实施例的代码。
[0182]
虽然本文已描述本公开的具体实施例及应用，但对于所属领域的一般技术人员来说将显而易见的是，在不脱离本公开的范围的情况下，对本文所描述的实施例及应用的许多变化是可能的。
[0183]
本发明的各个方面可从以下列举的实例实施例(eee)了解：
[0184]
eee 1.一种用于估计用户在环境中的位置的方法，所述方法包括：
[0185]
从所述环境中的多个麦克风中的每一麦克风接收输出信号，所述多个麦克风中的每一者驻留在所述环境的麦克风位置中，所述输出信号对应于用户的当前话语；
[0186]
从每一麦克风的所述输出信号确定多个当前声学特征；
[0187]
将分类器应用于所述多个当前声学特征，其中应用所述分类器涉及应用针对先前确定的声学特征进行训练的模型，所述先前确定的声学特征源自由所述用户在所述环境中的多个用户区中说出的多个先前话语；及
[0188]
至少部分地基于来自所述分类器的输出确定所述用户当前所在的所述用户区的估计。
[0189]
eee 2.根据eee 1所述的方法，其中所述麦克风中的至少一者被包含在智能音频装置中，或经配置用于与智能音频装置通信。
[0190]
eee 3.根据eee 1所述的方法，其中所述多个用户区包括多个预定用户区。
[0191]
eee 4.根据eee 1所述的方法，其中所述估计是在不参考所述多个麦克风的几何位置的情况下确定的。
[0192]
eee 5.根据eee 1到4中任一eee所述的方法，其中所述多个当前声学特征是异步地确定的。
[0193]
eee 6.根据eee 1到5中任一eee所述的方法，其中所述当前话语及所述先前话语包括唤醒词话语。
[0194]
eee 7.根据eee 1到6中任一eee所述的方法，其中用户区被估计为具有最大后验概率的类别。
[0195]
eee 8.根据eee 1到7中任一eee所述的方法，其中使用标记有用户区的训练数据训练所述模型。
[0196]
eee 9.根据eee 1到7中任一eee所述的方法，其中应用所述分类器涉及应用使用未标记有用户区的未标记训练数据训练的模型。
[0197]
eee 10.根据eee 1到9中任一eee所述的方法，其中应用所述分类器涉及应用针对
归一化唤醒词置信度、归一化平均接收电平或最大接收电平中的一或多者进行训练的高斯混合模型。
[0198]
eee 11.根据eee 6、8、9或10中任一eee所述的方法，其中所述模型的训练在应用所述分类器的过程期间继续。
[0199]
eee 12.根据eee 11所述的方法，其中所述训练基于来自所述用户的显式反馈。
[0200]
eee 13.根据eee 11所述的方法，其中所述训练基于对基于估计的用户区的波束形成或麦克风选择的成功的隐式反馈。
[0201]
eee 14.根据eee 13所述的方法，其中所述隐式反馈包含用户已异常地终止语音助手的响应的确定。
[0202]
eee 15.根据eee 13所述的方法，其中所述隐式反馈包含命令辨识器返回低置信度结果。
[0203]
eee 16.根据eee 13所述的方法，其中所述隐式反馈包含第二遍追溯唤醒词检测器返回说出唤醒词的低置信度。
[0204]
eee 17.根据eee 1到16中任一eee所述的方法，其中所述用户区包含洗涤槽区域、食物准备区域、冰箱区域、用餐区域、沙发区域、电视区域或门廊区域中的一或多者。
[0205]
eee 18.根据eee 1到17中任一eee所述的方法，其进一步包括根据所述估计的用户区选择至少一个扬声器，并控制所述至少一个扬声器以将声音提供到所述估计的用户区。
[0206]
eee 19.根据eee 1到18中任一eee所述的方法，其进一步包括根据所述估计的用户区选择至少一个麦克风，并将由所述至少一个麦克风输出的信号提供到智能音频装置。
[0207]
eee 20.根据eee 1到19中任一eee所述的方法，其中所述多个麦克风中的第一麦克风根据第一采样时钟对音频数据进行采样，且所述多个麦克风中的第二麦克风根据第二采样时钟对音频数据进行采样。
[0208]
eee 21.一种设备，其经配置以执行eee 1到20中任一eee所述的方法。
[0209]
eee 22.一种系统，其经配置以执行eee 1到20中任一eee所述的方法。
[0210]
eee 23.一或多个非暂时性媒体，其具有存储在其上的软件，所述软件包含用于控制一或多个装置以执行eee 1到20中任一eee所述的方法的指令。
[0211]
eee 24.一种设备，其包括：
[0212]
接口系统，其经配置用于从环境中的多个麦克风中的每一麦克风接收输出信号，所述多个麦克风中的每一者驻留在所述环境的麦克风位置中，所述输出信号对应于用户的当前话语；及
[0213]
控制系统，其经配置用于：
[0214]
从每一麦克风的所述输出信号确定多个当前声学特征；
[0215]
将分类器应用于所述多个当前声学特征，其中应用所述分类器涉及应用针对先前确定的声学特征进行训练的模型，所述先前确定的声学特征源自所述用户在所述环境中的多个用户区中说出的多个先前话语；及
[0216]
至少部分地基于来自所述分类器的输出确定所述用户当前所在的所述用户区的估计。
[0217]
eee 25.一种设备，其包括：
[0218]
接口系统，其经配置用于从环境中的多个麦克风中的每一麦克风接收输出信号，所述多个麦克风中的每一者驻留在所述环境的麦克风位置中，所述输出信号对应于用户的当前话语；及
[0219]
控制构件，其用于：
[0220]
从每一麦克风的所述输出信号确定多个当前声学特征；
[0221]
将分类器应用于所述多个当前声学特征，其中应用所述分类器涉及应用针对先前确定的声学特征进行训练的模型，所述先前确定的声学特征源自所述用户在所述环境中的多个用户区中说出的多个先前话语；及
[0222]
至少部分地基于来自所述分类器的输出确定所述用户当前所在的所述用户区的估计。
[0223]
eee 26.一种训练方法，其包括：
[0224]
提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语；
[0225]
从所述环境中的多个麦克风中的每一者接收第一输出信号，所述多个麦克风中的每一者驻留在所述环境的麦克风位置中，所述第一输出信号对应于从所述第一用户区接收的所检测的训练话语的例项；
[0226]
从所述第一输出信号中的每一者确定第一声学特征；及
[0227]
训练分类器模型以在所述第一用户区与所述第一声学特征之间进行关联，其中所述分类器模型是在不参考所述多个麦克风的几何位置的情况下训练的。
[0228]
eee 27.根据eee 26所述的训练方法，其中所述训练话语包括唤醒词话语。
[0229]
eee 28.根据eee 27所述的训练方法，其中所述第一声学特征包括归一化唤醒词置信度、归一化平均接收电平或最大接收电平中的一或多者。
[0230]
eee 29.根据eee 26到28中任一eee所述的方法，其进一步包括：
[0231]
提示用户在所述环境的第二到第k个用户区内的多个位置中的每一者中说出所述训练话语；
[0232]
从所述环境中的多个麦克风中的每一者接收第二到第h个输出信号，所述第二到第h个输出信号分别对应于从所述第二到第k个用户区接收的所检测的训练话语的例项；从所述第二到第h个输出信号中的每一者确定第二到第g个声学特征；及
[0233]
训练所述分类器模型以分别在所述第二到第k个用户区与所述第二到第g个声学特征之间进行关联。
[0234]
eee 30.根据eee 26到29中任一eee所述的方法，其中所述多个麦克风中的第一麦克风根据第一采样时钟对音频数据进行采样，且所述多个麦克风中的第二麦克风根据第二采样时钟对音频数据进行采样。
[0235]
eee 31.一种系统，其经配置以执行eee 26到30中任一eee所述的方法。
[0236]
eee 32.一种设备，其经配置以执行eee 26到30中任一eee所述的方法。
[0237]
eee 33.一种设备，其包括：
[0238]
用于提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语的构件；
[0239]
用于从所述环境中的多个麦克风中的每一者接收第一输出信号的构件，所述多个
麦克风中的每一者驻留在所述环境的麦克风位置中，所述第一输出信号对应于从所述第一用户区接收的所检测的训练话语的例项；
[0240]
用于从所述第一输出信号中的每一者确定第一声学特征的构件；及
[0241]
用于训练分类器模型以在所述第一用户区与所述第一声学特征之间进行关联的构件，其中所述分类器模型是在不参考所述多个麦克风的几何位置的情况下训练的。
[0242]
eee 34.一种设备，其包括：
[0243]
用户接口系统，其包括显示器或扬声器中的至少一者；及
[0244]
控制系统，其经配置用于：
[0245]
控制所述用户接口系统用于提示用户在环境的第一用户区内的多个位置中的每一者中说出至少一次训练话语；
[0246]
从所述环境中的多个麦克风中的每一者接收第一输出信号，所述多个麦克风中的每一者驻留在所述环境的麦克风位置中，所述第一输出信号对应于从所述第一用户区接收的所检测的训练话语的例项；
[0247]
从所述第一输出信号中的每一者确定第一声学特征；及
[0248]
训练分类器模型以在所述第一用户区与所述第一声学特征之间进行关联，其中所述分类器模型是在不参考所述多个麦克风的几何位置的情况下训练的。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音响解析方法、音响解析装置及程序与流程

具有分布式麦克风的声学分区的制作方法

相关文献

最热文献