多设备唤醒词检测的制作方法

2022-03-19 13:10:26 来源：中国专利 TAG：

多设备唤醒词检测
1.对相关申请的交叉引用
2.本技术要求于2019年7月30日提交的美国临时专利申请no.62/880,112；以及2020年1月21日提交的no.62/964,018美国临时专利申请的优先权，所述申请通过引用并入本文。
技术领域
3.本公开涉及用于从环境中的多个设备当中自动选择设备以用于音频处理的系统和方法。

背景技术：

4.音频设备，包括但不限于智能音频设备，已经被广泛部署并正在成为许多家庭的共同特征。虽然用于定位音频设备的现有系统和方法提供了益处，但是改进的系统和方法将是期望的。
5.符号和命名法
6.在本文中，我们使用表述“智能音频设备”来表示智能设备，它要么是单一目的的音频设备，要么是虚拟助手(例如，连接的虚拟助手)。单一目的音频设备是包括或耦合到至少一个麦克风(并且在一些示例中还可以包括或耦合到至少一个扬声器)并且很大程度上或主要被设计为实现单一目的的设备(例如，智能扬声器、电视(tv)或移动电话))。虽然tv通常可以播放(并且被认为能够播放)来自节目素材的音频，但在大多数情况下，现代tv运行某种操作系统，应用在操作系统上本地运行，包括看电视的应用。类似地，移动电话中的音频输入和输出可以做很多事情，但这些都是由电话上运行的应用服务的。在这个意义上，具有(一个或多个)扬声器和(一个或多个)麦克风的单一目的音频设备常常被配置为运行本地应用和/或服务以直接使用(一个或多个)扬声器和(一个或多个)麦克风。一些单一目的音频设备可以被配置为分组在一起以实现在地带或用户配置的区域上播放音频。
7.在本文中，“虚拟助手”(例如，连接的虚拟助手)是包括或耦合到至少一个麦克风(并且可选地还包括或耦合到至少一个扬声器)并且可以提供将多个设备(不同于虚拟助手)用于在某种意义上支持云或以其它方式未在虚拟助手本身中或之上实现的应用的能力的设备(例如，智能扬声器、智能显示器或语音助手集成设备)。虚拟助手有时可以一起工作，例如，以非常离散和有条件定义的方式。例如，两个或更多个虚拟助手可以在其中一个(即，最有信心听到唤醒词的一个)对这个词做出响应的意义上一起工作。连接的设备可以形成一种星座，它可以由一个主应用管理，这个主应用可以是(或包括或实现)虚拟助手。
8.在本文中，“唤醒词”在广义上用于表示任何声音(例如，人类发出的词，或某种其它声音)，其中智能音频设备被配置为响应于检测到(“听到”)声音(通过使用包括在或耦合到智能音频设备的至少一个麦克风，或至少一个其它麦克风)而唤醒。在这种上下文中，“唤醒”表示设备进入它等待(即，正在侦听)声音命令的状态。
9.在本文中，表述“唤醒词检测器”表示被配置为连续搜索实时声音(例如，讲话)特
征与经训练的模型之间的对准的设备(或包括用于配置设备的指令的软件)。通常，无论何时唤醒词检测器确定已检测到唤醒词的概率超过预定义的阈值，就会触发唤醒词事件。例如，阈值可以是预定阈值，该阈值被调谐以在错误接受率和错误拒绝率之间给出良好的折衷。在唤醒词事件之后，设备可能进入它侦听命令并将接收到的命令传递给更大的、计算更密集的识别器的状态(可以被称为“唤醒”状态或“注意力”状态)。
10.贯穿本公开，包括在权利要求数中，“扬声器”和“喇叭”同义地用于表示由单个扬声器馈送驱动的任何发声换能器(或换能器的集合)。典型的头戴式耳机套件包括两个扬声器。扬声器可以被实现为包括多个换能器(例如，低音扬声器和高音扬声器)，所有这些都由单个共同的扬声器馈送驱动。在一些情况下，扬声器馈送可以在耦合到不同换能器的不同电路系统分支中经历不同处理。
11.贯穿本公开，包括在权利要求中，“对”信号或数据执行操作(例如，对信号或数据进行滤波、缩放、变换或应用增益)的表述在广义上用于表示直接对信号或数据执行操作，或者对信号或数据的经处理的版本(例如，在对其执行操作之前已经过初步滤波或预处理的信号的版本)执行操作。
12.贯穿本公开，包括在权利要求书中，表述“系统”在广义上用于表示设备、系统或子系统。例如，实现解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入而生成x个输出信号的系统，其中子系统生成m个输入并且其它x-m个输入是从外部源接收的)也可以被称为解码器系统。
13.贯穿本公开，包括在权利要求书中，术语“处理器”在广义上用于表示可编程或以其它方式可配置(例如，使用软件或固件)为对数据(例如，音频或视频或其它图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其它可配置集成电路或芯片组)、被编程和/或以其它方式被配置为对音频或其它声音数据执行流水线处理的数字信号处理器、可编程通用处理器或计算机，以及可编程微处理器芯片或芯片组。

技术实现要素：

14.本公开的至少一些方面可以经由方法来实现。一些方法可以涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量。例如，第一唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值(local maximum)对应。一些此类方法可以涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。例如，第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。一些此类方法可以涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
15.在一些示例中，一种方法可以涉及从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量。第三唤醒词置信度度量可以与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应。一种方法可以涉及将第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量进行比较，并且至少部分基于第一唤醒词置信度度量、第二唤醒词置信度度量与第三唤醒词置信度度量的比较来选择用于后续音频处理的设备。
16.根据一些实现方式，后续音频处理可以涉及语音识别过程。在一些示例中，后续音
频处理可以涉及命令识别过程。一些此类方法还可以涉及根据命令识别过程来控制所选择的设备。
17.在一些示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些此类示例中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些此类实现方式，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部极大值确定时间间隔。
18.在一些情况下，第一设备可以根据第一时钟域对由第一麦克风接收的音频数据进行采样。在一些此类示例中，第二设备可以根据与第一时钟域不同的第二时钟域对由第二麦克风接收的音频数据进行采样。
19.根据一些实现方式，该方法可以由被配置为至少部分执行后续音频处理的设备执行。可替代地或附加地，该方法可以由被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。但是，在一些情况下，该方法可以至少部分由不被配置为执行后续音频处理的设备执行。
20.本公开的至少一些方面可以经由替代方法来实现。一些替代方法可以涉及由包括具有至少第一麦克风的第一麦克风系统的第一设备确定第一唤醒词置信度度量。确定第一唤醒词置信度度量可以涉及经由第一麦克风系统产生与检测到的声音对应的第一音频数据并且基于第一音频数据确定第一多个唤醒词置信度值。确定第一唤醒词置信度度量可以涉及确定第一多个唤醒词置信度值的第一局部极大值并且基于第一局部极大值确定第一唤醒词置信度度量。
21.一些此类方法可以涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。一些此类方法可以涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
22.在一些示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些情况下，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些实现方式，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。
23.一些此类实现方式还可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。根据一些示例，局部极大值确定时间间隔可以在时刻a开始并且可以在时刻(a k)终止，时刻(a k)是第一设备和第二设备的唤醒词置信度值降至低于唤醒词检测结束阈值的时刻。在一些示例中，唤醒词检测结束阈值可以小于或等于唤醒词检测开始阈值。在一些实现方式中，唤醒词检
测结束阈值可以小于或等于唤醒词检测开始阈值。一些此类示例可以涉及在已经达到k的最大值之后终止局部极大值确定时间间隔。
24.在一些示例中，该方法可以由被配置为至少部分执行后续音频处理的设备执行。根据一些实现方式，该方法可以由第一设备执行。
25.一些实现方式可以涉及从第一设备接收第一唤醒词置信度度量。在一些此类实现方式中，该方法可以由不被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。
26.在本文描述的操作、功能和/或方法中的一些或全部可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)执行。此类非暂态介质可以包括诸如本文描述的存储器设备，包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。因而，在本公开中描述的主题的一些创新方面可以在上面存储有软件的非暂态介质中实现。
27.例如，软件可以包括用于控制一个或多个设备执行一种方法的指令，该方法涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量。例如，第一唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值对应。一些此类方法可以涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。例如，第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。一些此类方法可以涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
28.在一些示例中，一种方法可以涉及从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量。第三唤醒词置信度度量可以与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应。一种方法可以涉及将第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量进行比较，并且至少部分基于第一唤醒词置信度度量、第二唤醒词置信度度量与第三唤醒词置信度度量的比较来选择用于后续音频处理的设备。
29.根据一些实现方式，后续音频处理可以涉及语音识别过程。在一些示例中，后续音频处理可以涉及命令识别过程。一些此类方法还可以涉及根据命令识别过程来控制所选择的设备。
30.在一些示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些此类示例中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些此类实现方式，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部极大值确定时间间隔。
31.在一些情况下，第一设备可以根据第一时钟域对由第一麦克风接收的音频数据进行采样。在一些此类示例中，第二设备可以根据与第一时钟域不同的第二时钟域对由第二
麦克风接收的音频数据进行采样。
32.根据一些实现方式，该方法可以由被配置为至少部分执行后续音频处理的设备执行。可替代地或附加地，该方法可以由被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。但是，在一些情况下，该方法可以至少部分由不被配置为执行后续音频处理设备执行。
33.本公开的至少一些方面可以经由替代方法来实现。一些替代方法可以涉及由包括具有至少第一麦克风的第一麦克风系统的第一设备确定第一唤醒词置信度度量。确定第一唤醒词置信度度量可以涉及经由第一麦克风系统产生与检测到的声音对应的第一音频数据并且基于第一音频数据确定第一多个唤醒词置信度值。确定第一唤醒词置信度度量可以涉及确定第一多个唤醒词置信度值的第一局部极大值并且基于第一局部极大值确定第一唤醒词置信度度量。
34.一些此类方法可以涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。一些此类方法可以涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
35.在一些示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些情况下，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些实现方式，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。
36.一些此类实现方式还可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。根据一些示例，局部极大值确定时间间隔可以在时刻a开始并且可以在时刻(a k)终止，时刻(a k)是第一设备和第二设备的唤醒词置信度值降至低于唤醒词检测结束阈值的时刻。在一些示例中，唤醒词检测结束阈值可以小于或等于唤醒词检测开始阈值。在一些实现方式中，唤醒词检测结束阈值可以小于或等于唤醒词检测开始阈值。一些此类示例可以涉及在已经达到k的最大值之后终止局部极大值确定时间间隔。
37.在一些示例中，该方法可以由被配置为至少部分执行后续音频处理的设备执行。根据一些实现方式，该方法可以由第一设备执行。
38.一些实现方式可以涉及从第一设备接收第一唤醒词置信度度量。在一些此类实现方式中，该方法可以由不被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。
39.本公开的至少一些方面可以经由装置来实现。例如，一个或多个设备可以能够至少部分地执行本文公开的方法。在一些实现方式中，装置可以包括接口系统和控制系统。控制系统可以包括一个或多个通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件，或它们的组合。
40.根据一些示例，控制系统可以被配置用于从包括至少第一麦克风的第一设备接收
第一唤醒词置信度度量。例如，第一唤醒词置信度度量可以与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值对应。控制系统可以被配置用于从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。例如，第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。控制系统可以被配置用于将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
41.在一些示例中，控制系统可以被配置用于从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量。第三唤醒词置信度度量可以与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应。控制系统可以被配置用于将第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量进行比较，并且至少部分基于第一唤醒词置信度度量、第二唤醒词置信度度量与第三唤醒词置信度度量的比较来选择用于后续音频处理的设备。
42.根据一些实现方式，后续音频处理可以涉及语音识别过程。在一些示例中，后续音频处理可以涉及命令识别过程。在一些实现方式中，控制系统可以被配置用于根据命令识别过程来控制所选择的设备。
43.在一些示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些此类示例中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些此类实现方式，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值在上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。一些此类示例可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部极大值确定时间间隔。
44.在一些情况下，第一设备可以根据第一时钟域对由第一麦克风接收的音频数据进行采样。在一些此类示例中，第二设备可以根据与第一时钟域不同的第二时钟域对由第二麦克风接收的音频数据进行采样。
45.根据一些实现方式，控制系统功能性可以由被配置为至少部分执行后续音频处理的设备执行。可替代地或附加地，控制系统功能性可以由被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。但是，在一些情况下，控制系统功能性可以至少部分由不被配置为执行后续音频处理设备执行。
46.本公开的至少一些方面可以经由替代设备来实现。一些替代装置的控制系统可以被配置为由包括具有至少第一麦克风的第一麦克风系统的第一设备确定第一唤醒词置信度度量。确定第一唤醒词置信度度量可以涉及经由第一麦克风系统产生与检测到的声音对应的第一音频数据并且基于第一音频数据确定第一多个唤醒词置信度值。确定第一唤醒词置信度度量可以涉及确定第一多个唤醒词置信度值的第一局部极大值并且基于第一局部极大值确定第一唤醒词置信度度量。
47.控制系统可以被配置用于从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。第二唤醒词置信度度量可以与由第二设备确定的第二多个唤醒词置信度值的第
二局部极大值对应。控制系统可以被配置用于将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。
48.在一些示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值。在一些情况下，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。根据一些实现方式，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。
49.一些此类实现方式还可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。根据一些示例，局部极大值确定时间间隔可以在时刻a开始并且可以在时刻(a k)终止，时刻(a k)是第一设备和第二设备的唤醒词置信度值降至低于唤醒词检测结束阈值的时刻。在一些示例中，唤醒词检测结束阈值可以小于或等于唤醒词检测开始阈值。在一些实现方式中，唤醒词检测结束阈值可以小于或等于唤醒词检测开始阈值。一些此类示例可以涉及在已经达到k的最大值之后终止局部极大值确定时间间隔。
50.在一些示例中，上述操作中的至少一些可以由被配置为至少部分执行后续音频处理的设备执行。根据一些实现方式，此类操作可以由第一设备执行。
51.一些实现方式可以涉及从第一设备接收第一唤醒词置信度度量。在一些此类实现方式中，一些操作可以由不被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。
52.本说明书中描述的主题的一个或多个实现方式的细节在附图和以下描述中得到阐述。其它特征、方面和优点将从描述、附图和权利要求中变得明显。注意的是，附图的相对维度可能未按比例绘制。
附图说明
53.图1a表示根据一个示例的环境。
54.图1b表示根据另一个示例的环境。
55.图2示出了由三个设备确定的唤醒词置信度值曲线的示例。
56.图3是示出能够实现本公开的各个方面的装置的组件的示例的框图。
57.图4是概述可以由诸如图3中所示的装置执行的方法的一个示例的流程图。
58.图5是示出根据一个公开的实施例的元件(以及由此实现的处理步骤)的示例的框图。
59.图6是概述可以由诸如图3中所示的装置执行的方法的另一个示例的流程图。
60.各个图中相同的附图标记和名称指示相同的元件。
61.具体实现方式
62.由多个智能音频设备组成的统合系统可以被配置为确定何时检测到来自用户的“唤醒词”(如上定义)。这种系统的至少一些设备可以被配置为侦听来自用户的命令。
63.图1a是环境(生活空间)的示意图，它包括含有一组用于音频交互的智能音频设备(设备1.1)、用于音频输出的扬声器(1.3)、麦克风1.5和可控灯(1.2)的系统。与本技术的其
它图一样，图1a中所示的特定元件和元件的布置仅作为示例。可能不需要所有这些特征来执行各种公开的实现方式。例如，对于至少一些公开的实现方式，可控灯1.2、扬声器1.3等是可选的。在一些情况下，麦克风1.5中的一个或多个可以是设备1.1、灯1.2或扬声器1.3之一的一部分或与其相关联。可替代地或附加地，麦克风1.5中的一个或多个可以附接到环境的另一个部分，例如，附接到墙壁、天花板、家具、电器或环境的另一设备。在示例中，每个智能音频设备1.1包括至少一个麦克风1.5(和/或被配置用于与之通信)。图1a的系统可以被配置为实现本公开的实施例。使用各种方法，可以从图1a的麦克风1.5共同获得信息并将信息提供给被配置为提供说出唤醒词的用户的位置估计的设备。
64.在生活空间中(例如，图1a中的空间)，存在自然活动地带的集合，人将在其中执行任务或活动，或跨越阈值。在一些示例中，这些区域在本文中可以被称为用户地带，可以由用户定义，而不指定几何位置的坐标或其它标记。在图1a中所示的示例中，用户地带可以包括：
65.1.厨房水槽和备餐区(在生活空间的左上区域)；
66.2.冰箱门(在水槽和备餐区的右侧)；
67.3.用餐区(在生活空间的左下区域)；
68.4.生活空间的开放区域(在水槽和备餐区和用餐区的右侧)；
69.5.tv沙发(在开放区域的右侧)；
70.6.tv本身；
71.7.桌子；以及
72.8.门区或玄关(在生活空间的右上区域)。
73.根据一些实施例，估计声音(例如，唤醒词或其它引起注意的信号)在哪里出现或起源的系统可以对该估计具有某种确定的置信度(或多个假设)。例如，如果用户碰巧靠近系统环境的地带之间的边界，那么用户位置的不确定估计可以包括用户在每个地带中的确定的置信度。在语音接口的一些常规实现方式中，可以要求一次只从一个位置发出语音助手的语音，这迫使对单个位置进行单一选择(例如，八个扬声器位置之一，1.1和1.3，在图1a中)。但是，基于简单的假想角色扮演，显然(在此类常规实现方式中)助手语音的源的所选择的位置(例如，包括在或被配置用于与助手通信的扬声器的位置)作为焦点或表达注意力的自然返回反应的可能性可能较低。
74.接下来，参考图1b，我们描述包括发出直接讲话102的用户(101)的另一个环境100(声学空间)，以及包括智能音频设备(103、105和107)、用于音频输出的扬声器和麦克风的套件的系统的示例。该系统可以根据本公开的实施例来配置。由用户101(有时在本文中称为说话者)发出的讲话可以被系统的(一个或多个)元件识别为唤醒词。
75.更具体而言，图1b系统的元件包括：
76.102：直接本地语音(由用户101产生)；
77.103：语音助手设备(耦合到一个或多个喇叭)。设备103比设备105或设备107更靠近用户101，因此设备103有时被称为“近处”设备，设备105可以被称为“中距离”设备，而设备107可以被称为“远处”设备；
78.104：近处设备103中(或耦合到其)的多个麦克风；
79.105：中距离语音助手设备(耦合到一个或多个扬声器)；
80.106：中距离设备105中(或与其耦合)的多个麦克风；
81.107：远处语音助手设备(耦合到一个或多个扬声器)；
82.108：远处设备107中(或与其耦合)的多个麦克风；
83.109：家用电器(例如，电灯)；以及
84.110：家用电器109中(或与其耦合)的多个麦克风。在一些示例中，每个麦克风110可以被配置用于与被配置用于实现所公开的方法中的一个或多个的设备进行通信，在一些情况下，该设备可以是设备103、105或107中的至少一个。
85.当说话者101在声学空间中发出指示唤醒词的声音102时，该声音被附近处设备103、中距离设备105和远处设备107接收。在这个示例中，设备103、105和107中的每一个是(或包括)唤醒词检测器，并且设备103、105和107中的每一个被配置为确定何时唤醒词可能性(唤醒词被设备检测到的概率)超过预定义的阈值。随着时间的推移，由每个设备确定的唤醒词可能性可以被绘制为时间的函数。
86.图2示出了由三个设备确定的唤醒词置信度值曲线的示例。图2中所示的点线205a指示作为时间的函数的唤醒词可能性，如由近处设备103确定的。虚线曲线205b指示作为时间的函数的唤醒词可能性，如由中距离设备105确定的。实线205c指示作为时间的函数的唤醒词可能性，如由远处设备107确定的。
87.如从检查图2可以明显看出的，随着时间的推移，由设备103、105和107中的每一个确定的唤醒词可能性增加并然后减小(例如，当它传入和传出相关设备的历史缓冲区时)。在一些情况下，远处设备的唤醒词置信度(图2中的实线)可能在中距离设备的唤醒词置信度(图2的点线)之前超过阈值，而中距离设备的唤醒词置信度也可能在近处设备的唤醒词置信度(图2的虚线)之前超过阈值。当近处设备的唤醒词置信度达到其局部极大值时(例如，图2的相关曲线的最大的最大值)，这个事件通常会被忽略(通过常规方法)以支持选择其唤醒词置信度(唤醒词可能性)首先超过阈值的设备(在图2示例中为远处设备)。
88.返回到图1b，该系统可以包括被配置用于实现本文公开的选择用于音频处理的设备的一种或多种方法的至少一个设备。例如，设备103、设备105和/或设备107可以被配置用于实现一种或多种此类方法。可替代地或附加地，被配置用于与设备103、设备105和/或设备107通信的另一设备可以被配置用于实现一种或多种此类方法。在一些示例中，一种或多种公开的方法可以由另一个本地设备(例如，环境100内的设备)实现，而在其它示例中，一种或多种公开的方法可以由位于环境100外部的远程设备(例如，服务器)实现。
89.图3是示出能够实现本公开的各个方面的装置的组件的示例的框图。根据一些示例，装置300可以是或者可以包括被配置用于执行至少一些本文公开的方法中的智能音频设备。在其它实现方式中，装置300可以是或者可以包括被配置用于执行至少一些本文公开的方法中的另一设备。在一些此类实现方式中，装置300可以是或可以包括服务器。
90.在这个示例中，装置300包括接口系统305和控制系统310。在一些实现方式中，接口系统305可以被配置用于从环境中的多个麦克风中的每一个接收输入。接口系统305可以包括一个或多个网络接口和/或一个或多个外部设备接口(诸如一个或多个通用串行总线(usb)接口)。根据一些实现方式，接口系统305可以包括一个或多个无线接口。接口系统305可以包括用于实现用户接口的一个或多个设备，诸如一个或多个麦克风、一个或多个扬声器、显示系统、触摸传感器系统和/或手势传感器系统。在一些示例中，接口系统305可以包
括控制系统310和存储器系统(诸如图3中所示的可选存储器系统315)之间的一个或多个接口。但是，控制系统310可以包括存储器系统。
91.控制系统310可以例如包括通用单芯片或多芯片处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑，和/或分立硬件组件。在一些实现方式中，控制系统310可以驻留在多于一个设备中。例如，控制系统310的一部分可以驻留在图1a和1b中描绘的环境之一内的设备中，而控制系统310的另一个部分可以驻留在环境之外的设备(诸如服务器、移动设备(例如，智能电话或平板电脑)等)中。在一些此类示例中，接口系统305也可以驻留在多于一个设备中。
92.在一些实现方式中，控制系统310可以被配置用于至少部分地执行本文公开的方法。根据一些示例，控制系统310可以被配置用于实现选择用于音频处理的设备的方法，例如，诸如本文公开的方法。在一些此类示例中，控制系统310可以被配置用于至少部分基于多个唤醒词置信度度量的比较来选择用于音频处理的设备。
93.本文描述的方法中的一些或全部可以由一个或多个设备根据存储在一个或多个非暂态介质上的指令(例如，软件)来执行。此类非暂态介质可以包括诸如本文描述的存储器设备，包括但不限于随机存取存储器(ram)设备、只读存储器(rom)设备等。一个或多个非暂态介质可以例如驻留在图3中所示的可选存储器系统315中和/或控制系统310中。因而，本公开中描述的主题的各种创新方面可以在其上存储有软件的一个或多个非暂态介质中实现。例如，软件可以包括用于控制至少一个设备处理音频数据的指令。例如，软件可以由控制系统的一个或多个组件(诸如图3的控制系统310)执行。
94.在一些示例中，装置300可以包括图3中所示的可选麦克风系统。可选麦克风系统可以包括一个或多个麦克风。根据一些此类示例，装置300可以是或者可以包括智能音频设备。在一些此类实现方式中，装置300可以是或可以包括唤醒词检测器。例如，装置300可以是或者可以包括虚拟助手。
95.图4是概述可以由诸如图3中所示的装置执行的方法的一个示例的流程图。方法400的方框，如本文描述的其它方法，不一定按指示的次序执行。而且，此类方法可以包括比所示出和/或描述的更多或更少的方框。在这个实现方式中，方法400涉及选择用于音频处理的设备。根据一些示例，方法400可以由被配置为执行音频处理的设备执行。但是，在一些示例中，方法400可以由未被配置为执行音频处理的设备执行。
96.在这个示例中，方框405涉及从包括至少第一麦克风的第一设备接收第一唤醒词置信度度量。根据这个示例，第一唤醒词置信度度量与由第一设备确定的第一多个唤醒词置信度值的第一局部极大值对应。
97.在这个实现方式中，方框410涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。根据这个示例，第二唤醒词置信度度量与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。在这个示例中，第一设备和第二设备处于相同的环境中，该环境可以是如图1a或图1b中所示的环境。
98.但是，基于具体的实现方式，第一麦克风和第二麦克风可以是或可以不是同步麦克风。如本文所使用的，如果麦克风检测到的声音使用相同的采样时钟或同步的采样时钟被数字采样，那么麦克风可以被称为“同步的”。例如，环境内的多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样，并且多个麦克风中的第二麦克风可以根据第
一采样时钟对音频数据进行采样。
99.根据一些替代实现方式，环境的至少一些麦克风或麦克风系统可以是“异步的”。如本文所使用的，如果麦克风检测到的声音使用不同的采样时钟被数字采样，那么麦克风可以被称为“异步的”。例如，环境内的多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样，并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。在一些情况下，环境中的麦克风可以随机定位，或者至少可以以不规则和/或非对称方式分布在环境内。
100.再次参考图2，曲线205a提供由第一设备确定的第一多个唤醒词置信度值的示例，而曲线205b提供由第二设备确定的第二多个唤醒词置信度值的示例。局部极大值210a提供由第一设备确定的第一多个唤醒词置信度值的第一局部极大值的示例，而局部极大值210b提供由第二设备确定的第二多个唤醒词置信度值的第二局部极大值的示例。在一些示例中，局部极大值210a可以与第一唤醒词置信度度量对应，而局部极大值210b可以与第二唤醒词置信度度量对应。
101.根据图4中所示的示例，方框415涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较。在这个示例中，方框420涉及至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。例如，方框420可以涉及选择确定较高唤醒词置信度度量的设备。
102.根据一些实现方式，后续音频处理可以是或可以包括语音识别过程。例如，后续音频处理可以是或者可以包括命令识别过程。在一些情况下，方法400可以涉及根据命令识别过程来控制所选择的设备。例如，方法400可以涉及根据命令识别过程来控制虚拟助手。在一些此类示例中，方法400可以涉及控制虚拟助手发起电话呼叫、控制虚拟助手执行互联网搜索、控制虚拟助手向另一设备(诸如电视、音响系统控制器或环境中的另一设备)提供指令。
103.在一些示例中，方法400可以涉及从环境中的多于两个设备接收唤醒词置信度度量。一些此类示例可以涉及从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量。第三唤醒词置信度度量可以与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应。在一些此类示例中，方法400可以涉及将第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量、第二唤醒词置信度度量与第三唤醒词置信度度量的比较来选择用于后续音频处理的设备。
104.根据一些示例，方法400可以涉及从环境中的第一至第n设备接收第一至第n唤醒词置信度度量。第一至第n唤醒词置信度度量可以与由第一至第n设备确定的唤醒词置信度值的第一至第n局部极大值对应。在一些此类示例中，方法400可以涉及比较第一至第n个醒词置信度量并且至少部分基于第一至第n唤醒词置信度量的比较来选择用于后续音频处理的设备。
105.在一些实现方式中，方框405和410可以涉及由被配置用于确定唤醒词置信度值和确定唤醒词置信度值的局部极大值的第三设备接收第一唤醒词置信度度量和第二唤醒词置信度度量。在一些此类实现方式中，第三设备可以被配置为至少执行方法400的方框415和420。在一些实现方式中，第三设备可以是本地设备。在一些此类实现方式中，所有三个设备都可以是或可以包括唤醒词检测器。设备中的一个或多个可以是或可以包括虚拟助手。
但是，在其它实现方式中，第三设备可以是远程设备，诸如服务器。
106.根据一些示例，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值，该唤醒词检测开始阈值可以是预定阈值。例如，再次参考图2，在一些此类示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值215a之后确定局部极大值。在一些此类示例中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。
107.在一些此类实现方式中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧的唤醒词置信度值与先前音频帧(在一些情况下可以是最近的音频帧或最近的音频帧之一)的唤醒词置信度值相比的减小来确定局部极大值。例如，局部极大值可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。
108.根据一些此类实现方式，一些方法可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。一些此类方法可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部极大值确定时间间隔。
109.例如，再次参考图2，在一些此类示例中，当与一组设备中的任何设备对应的唤醒词置信度值超过唤醒词检测开始阈值215a时，可以在开始时刻a发起局部极大值确定时间间隔。在这个示例中，远处设备首先具有超过唤醒词检测开始阈值的唤醒词置信度值，其时刻a是曲线205c超过唤醒词检测开始阈值215a的时间。根据这个示例，阈值215b是唤醒词检测结束阈值。在这个示例中，唤醒词检测结束阈值215b小于(低于)唤醒词检测开始阈值215a。在一些替代示例中，唤醒词检测结束阈值215b可以等于唤醒词检测开始阈值215a。在还有其它示例中，唤醒词检测结束阈值215b可以大于唤醒词检测开始阈值215a。
110.根据一些示例，局部极大值确定时间间隔可以在组中所有设备的唤醒词置信度值降至低于唤醒词检测结束阈值215b之后终止。例如，参考图2，当近处设备的唤醒词置信度值降至低于唤醒词检测结束阈值215b时，局部极大值确定时间间隔可以等于k个时间单位并且可以在结束时刻a k处终止。到结束时刻a k时，远处设备和中距离设备的唤醒词置信度值已经降至低于唤醒词检测结束阈值215b。根据一些示例，局部极大值确定时间间隔可以在组中所有设备的唤醒词置信度值降至低于唤醒词检测结束阈值215b时或在已经过去最大值时间间隔(无论哪个先到达)之后结束。
111.图5是示出了根据一个公开的实施例的元件(以及由此实现的处理步骤)的示例的框图。在图5中所示的示例中，多个麦克风501a-501n馈送对应的多个唤醒词检测器502a-502n。根据一些此类实现，每个设备包括麦克风501、对应的唤醒词检测器502和对应的局部极大值检测器503中的至少一个。例如，唤醒词检测器502a-502n可以是图1b的设备103、105和107的唤醒词检测子系统的实现方式。
112.根据这个示例，唤醒词置信度值的序列由检测器502a-502n中的每一个确定，并且每个这样的序列被馈送到多个局部极大值检测器503a-503n中的一个。在一些此类示例中，每个这样的值是wi(n)，i＝{1
…
m}，其中m表示唤醒词检测器502的数量，i表示检测器索引并且n表示帧索引。在唤醒词置信度(由检测器502a-502n之一确定)超过预定义唤醒词检测
开始阈值之后的某个时刻，唤醒词置信度通常开始下降。例如，局部极大值检测器503a-503n之一可以确定wi(n)《wi(n-k)，其中k表示帧的数量。在一个这样的实现方式中，局部极大值检测器503a-503n之一可以确定wi(n)《wi(n-1)。当唤醒词置信度开始下降时，在一些实现方式中，可以记录直到这个点的局部最大置信度值yi。在一些实现方式中，yi＝max(wi)，wi＝[wi(n-n)，wi(n-n 1),
…
,w(n)]
t
，其中n表示相关历史缓冲区的长度。
[0113]
根据一些此类实现方式，每个这样的局部最大置信度值可以被提供给实现设备选择器的系统的元件。在图5中所示的示例中，局部最大检测器503a-503n中的每一个向设备选择器506提供局部最大置信度值504a-504n中的对应一个。根据一些示例，设备选择器506可以由实现唤醒词检测器502a-502n之一的本地设备实现。在替代实现方式中，设备选择器506可以由不实现唤醒词检测器502a-502n之一的本地设备(例如膝上型计算机、电话等)来实现。在一些示例中，设备选择器506可以由远程设备(诸如基于云的服务提供商的服务器)实现。
[0114]
根据一些示例，在所有设备已经产生最大置信度yi之后，选择最值得信任的设备的索引用于后续语音捕获，argmax(yi)，这是最大置信度值yi中最大的一个。例如，如果离用户最近的唤醒词检测器生成最大置信度值，那么使在其中(为其)实现这个检测器的智能音频设备进入专注状态(并且可以向用户断言适当的专注指示)，在此专注状态下它等待后续语音命令，然后，响应于这种语音命令，设备可以执行至少一个预定动作。
[0115]
图6是概述可以由诸如图3中所示的装置执行的方法的另一个示例的流程图。与本文描述的其它方法一样，方法600的方框不一定按指示的次序执行。而且，此类方法可以包括比所示出和/或描述的更多或更少的方框。在这个实现方式中，方法600涉及选择用于音频处理的设备。在这个示例中，方法600由被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备执行。根据一些示例，方法600可以由被配置为执行音频处理的设备执行。但是，在一些示例中，方法600可以由未被配置为执行音频处理的设备执行。
[0116]
在这个示例中，方框605涉及由包括具有至少第一麦克风的第一麦克风系统的第一设备确定第一唤醒词置信度度量。在这个示例中，确定第一唤醒词置信度度量涉及经由第一麦克风系统产生与检测到的声音对应的第一音频数据。根据这个示例，确定第一唤醒词置信度度量涉及基于第一音频数据确定第一多个唤醒词置信度值并且确定第一多个唤醒词置信度值的第一局部极大值。在这个实现方式中，确定第一唤醒词置信度度量涉及基于第一局部极大值确定第一唤醒词置信度度量。例如，确定第一唤醒词置信度度量可以涉及使第一唤醒词置信度度量等于第一局部极大值。
[0117]
在这个实现方式中，方框610涉及从包括至少第二麦克风的第二设备接收第二唤醒词置信度度量。根据这个示例，第二唤醒词置信度度量与由第二设备确定的第二多个唤醒词置信度值的第二局部极大值对应。在这个示例中，第一设备和第二设备处于相同的环境中，该环境可以是类似于图1a或图1b中所示的环境。
[0118]
但是，基于特定的实现方式，第一麦克风和第二麦克风可以是或者可以不是同步麦克风。根据一些示例，环境内的多个麦克风中的第一麦克风可以根据第一采样时钟对音频数据进行采样，并且多个麦克风中的第二麦克风可以根据第二采样时钟对音频数据进行采样。
[0119]
根据图6中所示的示例，方框615涉及将第一唤醒词置信度度量与第二唤醒词置信度度量进行比较。在这个示例中，方框620涉及至少部分基于第一唤醒词置信度度量与第二唤醒词置信度度量的比较来选择用于后续音频处理的设备。例如，方框620可以涉及选择确定较高唤醒词置信度度量的设备。
[0120]
根据一些实现方式，后续音频处理可以是或可以包括讲话识别过程。例如，后续音频处理可以是或者可以包括命令识别过程。在一些情况下，方法600可以涉及根据命令识别过程来控制所选择的设备。例如，方法600可以涉及根据命令识别过程来控制虚拟助手。在一些此类示例中，方法600可以涉及控制虚拟助手发起电话呼叫、控制虚拟助手执行互联网搜索、控制虚拟助手向另一设备(诸如电视、音响系统控制器或环境中的另一设备)提供指令。
[0121]
在一些示例中，方法600可以涉及从环境中的多于两个设备接收唤醒词置信度度量。一些此类示例可以涉及从包括至少第三麦克风的第三设备接收第三唤醒词置信度度量。第三唤醒词置信度度量可以与由第三设备确定的第三多个唤醒词置信度值的第三局部极大值对应。在一些此类示例中，方法600可以涉及将第三唤醒词置信度度量与第一唤醒词置信度度量和第二唤醒词置信度度量进行比较并且至少部分基于第一唤醒词置信度度量和第二唤醒词置信度度量与第三唤醒词置信度度量的比较来选择用于后续音频处理的设备。
[0122]
根据一些示例，方法600可以涉及从环境中的第一至第n设备接收第一至第n唤醒词置信度度量。第一至第n唤醒词置信度度量可以与由第一至第n设备确定的唤醒词置信度值的第一至第n局部极大值对应。在一些此类示例中，方法600可以涉及比较第一至第n唤醒词置信度量并且至少部分基于第一至第n唤醒词置信度量的比较来选择用于后续音频处理的设备。
[0123]
在一些实现方式中，方法600可以涉及由被配置用于确定唤醒词置信度值和确定唤醒词置信度值的局部极大值的第三设备接收第一唤醒词置信度度量和第二唤醒词置信度度量。在一些此类实现方式中，第三设备可以被配置为至少执行方法400的方框415和420。在一些实现方式中，第三设备可以是本地设备。在一些此类实现方式中，所有三个设备都可以是或可以包括唤醒词检测器。设备中的一个或多个可以是或可以包括虚拟助手。但是，在其它实现方式中，第三设备可以是不包括唤醒词检测器的本地设备和/或未被配置为确定与多个唤醒词置信度值的局部极大值对应的唤醒词置信度度量的设备。根据一些替代实现方式，第三设备可以是远程设备，诸如服务器。
[0124]
根据一些示例，可以在确定唤醒词置信度值超过唤醒词检测开始阈值之后确定局部极大值，该唤醒词检测开始阈值可以是预定阈值。例如，再次参考图2，在一些此类示例中，可以在确定唤醒词置信度值超过唤醒词检测开始阈值215a之后确定局部极大值。在一些此类示例中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测唤醒词置信度值的减小来确定局部极大值。
[0125]
在一些此类实现方式中，可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧的唤醒词置信度值与先前音频帧(在一些情况下可以是最近的音频帧或最近的音频帧之一)的唤醒词置信度值相比的减小来确定局部极大值。例如，局部极大值可以通过在先前的唤醒词置信度值已经超过唤醒词检测开始阈值之后检测音频帧n的
唤醒词置信度值与音频帧n-k的唤醒词置信度值相比的减小来确定局部极大值，其中k是整数。
[0126]
根据一些此类实现方式，一些方法可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值以上升沿超过唤醒词检测开始阈值之后发起局部极大值确定时间间隔。一些此类方法可以涉及在第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值之后终止局部极大值确定时间间隔。
[0127]
根据一些此类方法，局部极大值确定时间间隔可以在时刻a开始并且可以在时刻(a k)终止。上面参考图2描述了一些此类方法。根据一些示例，时刻(a k)可以是第一设备和第二设备的唤醒词置信度值降至低于唤醒词检测结束阈值的时间。在一些示例中，时刻(a k)可以是第一设备、第二设备或另一设备的唤醒词置信度值降至低于唤醒词检测结束阈值的时间。在一些示例中，唤醒词检测结束阈值可以小于或等于唤醒词检测开始阈值。一些实现方式可以涉及在达到k的最大值之后终止局部极大值确定时间间隔。一些此类实现方式可以涉及在已经达到k的最大值之后终止局部极大值确定时间间隔，无论第一设备、第二设备或另一设备的唤醒词置信度值是否降至低于唤醒词检测结束阈值。
[0128]
虽然本文已经描述了本公开的具体实施例和应用，但是对于本领域的普通技术人员显而易见的是，在不脱离本公开的范围的情况下，可以对本文描述的实施例和应用进行许多变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：噪声重塑式数字自动增益控制系统、方法与流程

多设备唤醒词检测的制作方法

相关文献

最热文献