激活语音识别的制作方法

2022-03-05 09:27:32 来源：中国专利 TAG：

激活语音识别
基于35u.s.c.
§
119要求优先权
1.本专利申请要求享受2019年7月30日提交的、标题为“activating speech recognition”的非临时申请no.16/526,608的优先权，该申请已转让给本技术的受让人，故以引用方式将其全部内容明确地并入本文。
技术领域
2.概括地说，本公开内容涉及语音识别，具体地说，本公开内容涉及激活语音激活系统。

背景技术：

3.通常使用语音识别使电子设备能够解释来自用户的口头问题或命令。可以通过在自动语音识别(asr)引擎处分析音频信号(例如，麦克风输入)来识别此类口头问题或命令，其中asr引擎生成口头问题或命令的文本输出。“永远开机”asr系统使电子设备能够持续地扫描音频输入，以检测音频输入中的用户命令或问题。然而，asr系统的持续运行会导致相对较高的功耗，这会降低在移动设备中实施时的电池寿命。
4.在一些设备中，除非口头语音命令前面有口语激活关键字，否则将不会识别口头语音命令。激活关键字的识别使此类设备能够激活asr引擎来处理语音命令。但是，在每个命令之前都说出激活关键字会花费额外的时间，并且需要说话者使用正确的发音和正确的语调。在其它设备中，提供专用按钮供用户按下以启动语音识别。但是，在某些情况下(例如，在驾驶车辆时)，定位并精确按下按钮可能会导致用户的注意力从其它任务中转移。

技术实现要素：

5.根据本公开内容的一种实施方式，一种用于处理表示输入声音的音频信号的设备包括手部检测器，其被配置为响应于检测到手的至少一部分在所述设备的至少一部分上方而生成第一指示。该设备还包括自动语音识别系统，其被配置为响应于所述第一指示而被激活以处理所述音频信号。
6.根据本公开内容的另一个方面，一种处理表示输入声音的音频信号的方法包括：在设备处，检测手的至少一部分在所述设备的至少一部分上方。该方法还包括：响应于检测到所述手的所述部分在所述设备的所述部分上方，激活自动语音识别系统来处理所述音频信号。
7.根据本公开内容的另一个方面，一种包括指令的非暂时性计算机可读介质，当所述指令被设备的一个或多个处理器执行时，使所述一个或多个处理器执行用于处理表示输入声音的音频信号的操作。所述操作包括：检测手的至少一部分在所述设备的至少一部分上方；并响应于检测到所述手的所述部分在所述设备的所述部分上方，激活自动语音识别系统来处理所述音频信号。
8.根据本公开内容的另一个方面，一种用于处理表示输入声音的音频信号的装置包
括：用于检测手的至少一部分在设备的至少一部分上方的单元；用于处理所述音频信号的单元。所述用于处理的单元被配置为响应于检测到所述手的所述部分在所述设备的所述部分上方而被激活。
附图说明
9.图1是包括可操作以激活语音识别的设备的系统的特定说明性实施方式的图。
10.图2是包括可以在图1的设备中实现的组件的特定示例的图。
11.图3是图1的设备的另一种特定实施方式的示意图。
12.图4是可操作以激活语音识别的设备的另一种特定说明性实施方式的图。
13.图5是可以由图1的设备执行的激活语音识别的方法的特定实施方式的图。
14.图6是可以由图1的设备执行的激活语音识别的方法的另一种实施方式的图。
15.图7是可操作以激活语音识别的车辆的图。
16.图8是可操作以激活语音识别的虚拟现实或增强现实头戴式设备的图。
17.图9是可操作以激活语音识别的设备的特定说明性示例的框图。
具体实施方式
18.公开了用于激活语音识别系统的设备和方法。由于持续扫描音频输入以检测音频输入中的用户命令或问题的始终开机asr系统会导致相对较高的功耗，因此在移动设备中实施asr引擎时会缩短电池寿命。为了降低功耗，一些系统可以使用比全功率asr引擎消耗更少功率的容量减少的语音识别处理器，来对音频输入执行关键字检测。当检测到激活关键字时，可以激活全功率asr引擎来处理在激活关键字之后的语音命令。然而，要求用户在每个命令之前说出激活关键字是耗时的并且需要说话者使用正确的发音和正确的语调。要求用户按下专用按钮来启动语音识别的设备可能会导致用户注意力不安全地转移(例如，在驾驶车辆时)。
19.如本文所描述的，响应于检测到手在设备的一部分上方(例如，用户的手悬停在设备的屏幕上)，而激活语音识别。用户可以通过将用户的手放在设备上来激活语音命令的语音识别，而无需说出激活关键字或精确地定位并按下专用按钮。用户的手从设备上移开可以表示用户已说完语音命令。因此，可以方便、安全地启动语音识别(例如，在用户驾驶车辆时)。此外，因为将用户的手放在设备上方可以向设备发出信号以启动语音识别，并且将用户的手从设备上方移开表示用户语音命令的结束，语音识别的不正确激活和对语音命令结束的不准确检测都可以减少。
20.除非受到其上下文的明确限制，否则“产生”一词用于指示其任何普通含义，例如计算、生成和/或提供。除非受到其上下文的明确限制，否则“提供”一词用于指示其任何普通含义，例如计算、生成和/或产生。除非受到其上下文的明确限制，否则“耦合”一词用于指示直接或间接的电气或物理连接。如果连接是间接的，则在“耦合”的结构之间可能存在其它块或组件。例如，扬声器可以通过能够使波(例如，声音)从扬声器传播到墙壁(反之亦然)的中间介质(例如，空气)，声学地耦合到附近的墙壁。
21.可以参考方法、装置、设备、系统或者其任何组合来使用术语“配置”，如其特定上下文所指示的。在本说明书和权利要求书中使用术语“包括”时，它不排除其它元素或操作。
术语“基于”(如“a基于b”)用于指示其任何普通含义，包括情况(i)“至少基于”(例如，“a至少基于b”)以及，如果在特定上下文中合适，(ii)“等于”(例如，“a等于b”)。在a基于b包括至少基于的情况(i)中，这可以包括a耦合到b的配置。类似地，术语“响应于”用于指示其任何普通含义，包括“至少响应于。”术语“至少一个”用于指示其任何普通含义，包括“一个或多个”。术语“至少两个”用于指示其任何普通含义，包括“两个或更多”。
22.除非特定上下文另外说明，否则术语“设备”和“装置”一般可互换地使用。除非另外说明，对具有特定特征的装置操作的任何公开也明确旨在公开具有类似特征的方法(反之亦然)，并且对根据特定配置的装置操作的任何公开也是明确旨在公开根据类似配置的方法(反之亦然)。除非特定上下文另外说明，否则术语“方法”、“处理”、“过程”和“技术”可通用且可互换使用。术语“元件”和“模块”可以用于指示更大配置的一部分。术语“分组”可以对应于包括报头部分和有效载荷部分的数据单元。通过引用将文件的某一部分并入，也应理解为包含该部分中引用的术语或变量的定义(如果该定义出现在文件的其它地方)，以及所并入部分中引用的任何附图。
23.如本文所使用的，术语“通信设备”是指可以用于通过无线通信网络进行语音和/或数据通信的电子设备。通信设备的示例包括智能扬声器、条形音箱、蜂窝电话、个人数字助理(pda)、手持设备、头戴式设备、无线调制解调器、膝上型计算机、个人计算机等等。
24.图1描绘了包括设备102的系统100，当手190的至少一部分位于设备102上方时，设备102被配置为激活asr系统140以处理输入声音106(例如，语音命令)。设备102包括一个或多个麦克风(表示为麦克风112)、屏幕110、一个或多个传感器120、手部检测器130和asr系统140。透视图180示出了位于设备102上方的手190，框图182示出了设备102的组件。在一些实施方式中，作为说明性的非限制性示例，设备102可以包括便携式通信设备(例如，“智能电话”)、车辆系统(例如，用于汽车娱乐系统的语音接口、导航系统、或自动驾驶控制系统)、虚拟现实或增强现实头戴式设备、或具有集成助理应用的无线扬声器和语音命令设备(例如，“智能扬声器”设备)。
25.麦克风112被配置为响应于输入声音106生成音频信号114。在一些实施方式中，麦克风112被配置为响应于指示132而被激活，以生成音频信号114，如参考图3进一步描述的。
26.一个或多个传感器120耦合到手部检测器130，并被配置为向手部检测器130提供传感器数据122。例如，传感器120可以包括一个或多个照相机，例如低功率环境光传感器或主相机、红外传感器、超声波传感器、一个或多个其它传感器或者其任何组合，如参考图2进一步描述的。
27.手部检测器130被配置为响应于检测到手的至少一部分在设备102的至少一部分上方(例如，在屏幕110上方)，生成指示132。如本文所使用的，“手的至少一部分”可以对应于手的任何部分(例如，一个或多个手指、拇指、手掌或手背、或者其任何部分，或它们的任何组合)，也可以对应于整个手，作为说明性的非限制性示例。如本文所使用的，“检测到手”等同于“检测到手的至少一部分”，并且可以包括检测两个或更多个手指、检测连接到手掌的一部分的至少一个手指、检测拇指和至少一个手指、检测连接到手掌的至少一部分的拇指、或者检测整个手(例如，四根手指、拇指和手掌)，作为说明性的非限制性示例。
28.虽然将手190描述为被检测到“在”设备102“上方”，“在”设备102“上方”是指相对于一个或多个传感器120的位置和方向而位于指定的相对位置(或者在指定的位置范围
内)。在设备102被定向为使得传感器120面朝上的例子中(例如，如图1所示)，检测到手190在设备102上方指示手190在设备102上方。在设备102被定向使得传感器120面朝下的例子中，检测到手190在设备102上方意味着手190在设备102下方。
29.手部检测器130被配置为处理传感器数据122，以判断是否在设备102上方检测到手190。例如，如参考图1进一步所描述的，在一些实施方式中，手部检测器130处理图像数据以判断手的形状形是否已被照相机捕获，处理红外数据以判断检测到的手190的温度是否对应于手部温度，处理超声数据以判断手190与设备102之间的距离是否在指定范围内，或者其组合。
30.在一些实施方式中，设备102被配置为响应于在设备102上方检测到手190，为设备102的用户生成通知以指示语音识别已经被激活，并且还可以被配置为响应于不再在设备102上方检测到手190，生成第二通知以指示用于语音识别的语音输入将被去激活。例如，设备102可以被配置为生成诸如铃声的音频信号或诸如“就绪”之类的语音消息、诸如发光或闪烁的灯之类的视觉信号、由另一个设备播放的数字信号(例如，通过与设备通信的汽车娱乐系统来播放)或者其任何组合。生成通知使用户能够确认设备102已准备好接收语音命令，并且可以进一步使用户能够检测和防止错误激活(例如，可能被错误识别为手190的另一对象引起)，防止由于手190的放在不正确位置而错过激活。因为asr系统140的每次激活都消耗功率并使用处理资源，所以减少错误激活会导致功耗和处理资源使用的减少。
31.asr系统140被配置为响应于指示132而被激活，以处理音频信号114。在说明性示例中，控制寄存器的特定比特表示指示132的存在或不存在，asr系统140内或耦合到asr系统140的控制电路被配置为读取该特定比特。该比特的“1”值对应于指示132，并导致asr系统140激活。在其它实施方式中，将指示132实现为总线或控制线上的数字或模拟信号、中断控制器处的中断标志、或者光学或机械信号，作为说明性的非限制性示例。
32.当被激活时，asr系统140被配置为处理包括输入声音106的音频信号114的一个或多个部分(例如，帧)。例如，设备102可以缓冲音频信号114的一系列帧作为由手部检测器130处理的传感器数据122，使得在生成指示132时，asr系统140可以处理缓冲的该系列帧，并生成表示用户语音的输出。asr系统140可以将识别的语音142作为输入声音106的语音内容的文本输出提供给设备102的另一个组件(例如，“虚拟助理”应用或参考图3所描述的其它应用)，以基于语音内容来发起动作。
33.当被去激活时，asr系统140不对音频信号114进行处理，并且比激活时消耗更少的功率。例如，asr系统140的去激活可以包括：选通asr系统140的输入电路以防止音频信号114输入到asr系统140，选通时钟信号以防止asr系统140内的电路切换，或两者，从而降低动态功耗。再举一个例子，asr系统140的去激活可以包括：减少对asr系统140的供电以减少静态功耗而不丢失电路元件的状态、从asr系统140的至少一部分中移除功率、或者其组合。
34.在一些实施方式中，使用专用电路或硬件来实现手部检测器130、asr系统140或者其任何组合。在一些实施方式中，通过固件或软件的执行来实现手部检测器130、asr系统140或者其任何组合。为了说明起见，设备102可以包括：被配置为存储指令的存储器、以及被配置为执行指令以实现手部检测器130和asr系统140的一个或多个处理器，例如参考图9所进一步描述的。
35.在操作期间，用户可以在说出语音命令之前，将用户的手190放在设备102上方。手
部检测器130处理传感器数据122以确定手190在设备102上方。响应于检测到手190在设备102上方，手部检测器130生成指示132，这导致asr系统140的激活。在麦克风112接收到语音命令之后，asr系统140处理音频信号114的对应部分，以生成指示语音命令的所识别语音142。
36.当检测到手在设备102上方时激活asr系统140，使设备102的用户能够通过将用户的手190置于设备上方来激活语音命令的语音识别，而无需用户说出激活关键字或者必须精确地定位并按下专用按钮。因此，可以方便、安全地启动语音识别，例如在用户驾驶车辆时。此外，由于将用户的手放在设备上向设备发出信号以启动语音识别，因此与使用关键字检测来激活语音识别的系统相比，可以减少语音识别的不正确激活。
37.图2描绘了示出可以在图1的设备102中实现的组件的进一步方面的例子200。如图2中所示，传感器120包括：被配置为向手部检测器130提供图像数据212的一个或多个照相机202、被配置为向手部检测器130提供红外传感器数据218的红外(ir)传感器208、以及被配置为向手部检测器提供超声波传感器数据220的超声波传感器210。在传感器数据122中包括图像数据212、红外传感器数据218和超声波传感器数据220。照相机202包括被配置为生成图像数据212的至少一部分的低功率环境光传感器204、被配置为生成图像数据212的至少一部分的主相机206、或两者。虽然主相机206可以捕获具有比环境光传感器204更高的分辨率的图像数据，但是环境光传感器204可以生成具有足够分辨率的图像数据来执行手部检测，并且使用比主相机206更少的功率进行操作。
38.手部检测器130包括手部图案检测器230、手部温度检测器234、手部距离检测器236和激活信号单元240。手部图案检测器230被配置为处理图像数据212，以判断图像数据212是否包括手部图案232。在示例性实施方式中，手部图案检测器230使用被训练以识别手部图案232的神经网络来处理图像数据212。在另一种示例实施方式中，手部图案检测器230向图像数据212应用一个或多个过滤器以识别手部图案232。手部图案检测器230被配置为向激活信号单元240发送第一信号231，用于指示是否检测到手部图案232。尽管描绘了单个手部图案232，但在其它实施方式中，可以包括表示手部不同方面的多个手部图案，例如手指并拢图案、手指展开图案、部分手部图案等。
39.手部温度检测器234被配置为处理来自红外传感器208的红外传感器数据218，并向激活信号单元240发送第二信号235，其指示红外传感器数据218是否指示具有表示人手的温度的温度源。在一些实施方式中，手部温度检测器234被配置为判断红外传感器208的视野的至少一部分是否具有在指示人手的温度范围内的温度源。在一些实施方式中，手部温度检测器234被配置为从手部图案检测器230接收指示手部位置的数据，以判断手部位置处的温度源是否与人手的温度范围匹配。
40.手部距离检测器236被配置为确定手190与设备102的至少一部分之间的距离250。在一个例子中，手部距离检测器236对超声波传感器数据220进行处理，并生成表明手190是否在指定的距离范围238内的第三信号237。在一些实施方式中，手部距离检测器236从手部图案检测器230、手部温度检测器234或两者接收数据，该数据指示手190的位置并且使用手位置数据来确定超声波传感器210的视野中与手190相对应的区域。在其它实施方式中，手部距离检测器236通过定位距屏幕110最近且超过超声波传感器210视野的指定一部分(例如，25％)的对象，来识别手190。
41.在特定的实施方式中，范围238具有10厘米(cm)的下限和30cm的上限(即，范围238包括大于或等于10cm且小于或等于30cm的距离)。在其它实施方式中，范围238是可调整的。例如，设备102可以被配置为执行更新操作，其中用户将手190定位在相对于设备102的优选位置，使得可以检测到距离250并使用其来生成范围238(例如，通过向检测到的距离250应用下偏移来设置下限，并且向检测到的距离250应用上偏移来设置上限)。
42.激活信号单元240被配置为响应于第一信号231、第二信号235、第三信号237而生成指示132：第一信号231指示在图像数据212中检测到手部图案232，第二信号235指示在人手温度范围内检测到手部温度，以及第三信号237指示检测到手190在范围238内(例如，手190在与屏幕110相距10厘米到30厘米的距离250处)。例如，在信号231、235和237中的每一个具有指示已检测到的二进制“1”值和指示未检测到的二进制“0”值的实现中，激活信号单元240可以生成作为信号231、235和237的逻辑与(例如，响应于所有三个信号231、235、237具有1值，指示132具有1值)的指示132。在另一个例子中，激活信号单元240还被配置为响应于信号231、235、237中的任何两个具有1值，而生成具有1值的指示132。
43.在其它实施方式中，信号231、235和237中的一个或多个具有多比特值，该多比特值指示满足对应的手部检测标准的可能性。例如，第一信号231可以具有指示检测到手部图案的置信度的多比特值，第二信号235可以具有指示检测到手部温度的置信度的多比特值，第三信号235可以具有指示手190与设备102的距离在范围238内的置信度的多比特值。激活信号单元240可以对信号231、235和237进行组合，并将组合的结果与阈值进行比较以生成指示132。例如，激活信号单元240可以应用一组权重来确定信号231、235和237的加权和。激活信号单元240可以响应于加权和超过阈值，输出具有指示手部检测的值的指示132。可以对权重和阈值的值进行硬编码，或者替代地，可以基于关于错误肯定和错误否定的用户反馈来动态地或周期性地调整权重和阈值的值，如下面进一步描述的。
44.在一些实施方式中，手部检测器130还被配置为响应于检测到手190不再在设备102上方而生成第二指示242。例如，手部检测器可以响应于检测到手190，将第二指示242输出为具有0值(指示未检测到手移开)，并且可以响应于确定不再检测到手而更新第二指示242为具有1值(例如，以指示从“检测到手”状态变为“未检测到手”状态)。第二指示242可以对应于asr系统140的话语结束信号，如参考图3进一步解释的。
45.虽然图2描绘了包括环境光传感器204、主相机206、红外传感器208和超声波传感器210的多个传感器，但在其它实施方式中，省略环境光传感器204、主相机206、红外传感器208或者超声波传感器210中的一个或多个。例如，虽然环境光传感器204能够生成图像数据212的至少一部分，以使用与使用主相机206相比降低的功率来检测手的形状，但在一些实施方式中，省略环境光传感器204并且使用主相机206来生成图像数据。为了降低功率，主相机206可以根据开/关占空比(例如，以四分之一秒的间隔)来操作以进行手部检测。再举一个例子，虽然主相机206能够生成图像数据212的至少一部分来检测具有更高分辨率和因此更高准确度的手的形状(与使用环境光传感器204相比)，但在一些实施方式中，省略主相机206并且使用环境光传感器204来生成图像数据212。
46.再举一个例子，虽然红外传感器208能够生成红外传感器数据218以检测对象是否具有与人手温度匹配的温度，但在其它实施方式中，省略红外传感器208并且设备102在不考虑温度的情况下执行手部检测。再举一个例子，虽然超声波传感器210能够生成超声波传
感器数据220以检测对象的距离是否在范围238内，但是在其他实施方式中，省略超声波传感器210并且设备102在不考虑与设备102的距离的情况下执行手部检测。替代地，可以实现一个或多个其它机制来进行距离检测，例如通过比较来自设备102的多个相机(例如，视差)或不同设备(例如，设备102所在的车辆)的多个相机的图像数据中的对象位置，通过使用图像数据212或红外传感器数据218中检测到的手的大小来估计距离250，或者通过投射结构光或其它电磁信号来估计对象距离，作为说明性的非限制性示例。
47.尽管增加传感器的数量和多种传感器类型通常会提高手部检测的准确性，但在一些实施方式中，两个传感器或单个传感器为手部检测提供足够的准确性。作为非限制性示例，在一些实施方式中，用于手部检测的唯一传感器数据是来自环境光传感器204的图像数据212。虽然在一些实施方式中传感器120是同时激活的，但在其它实施方式中，根据“级联”操作来控制传感器120中的一个或多个，其中通过使传感器120中的一个或多个保持不活动，直到基于来自另一个传感器120的传感器数据满足手部检测标准为止，来节省功率。为了说明起见，主相机206、红外传感器208和超声波传感器210可以保持不活动，直到手部图案检测器230在环境光传感器204生成的图像数据212中检测到手部图案232为止，响应于此，对主相机206、红外传感器208和超声波传感器210中的一个或多个进行激活以提供额外的传感器数据来提高手部检测的准确性。
48.图3描绘了例子300，其示出了可以在设备102中实现的组件的进一步方面。如图3中所示，激活电路302耦合到手部检测器130和asr系统140，并且asr系统包括可由asr引擎330访问的缓冲区320。设备102还包括虚拟助理应用340和扬声器350(例如，实现为无线扬声器和语音命令设备的设备102)。
49.激活电路302被配置为响应于接收到指示132，来激活自动语音识别系统140。例如，激活电路302被配置为响应于指示132转变为指示手部检测的状态，(例如，指示132从指示没有手部检测的0值转变为指示手部检测的1值)而生成激活信号310。经由信号306，将激活信号310提供给asr系统140以激活asr系统140。激活asr系统140包括：在缓冲区320处启动音频信号114的缓冲，以生成缓冲的音频数据322。还通过用于激活麦克风112的信号304，将激活信号310提供给麦克风112，使麦克风能够生成音频信号114。
50.激活电路302还被配置为生成话语结束信号312。例如，激活电路302被配置为响应于第二指示242转变为指示手部检测结束的状态，而生成话语结束信号312(例如，第二指示242从0值(指示手部检测没有变化)转变为1值(指示所检测到的手不再被检测到))。通过信号308，将话语结束信号312提供给asr系统140，以使asr引擎330开始处理缓冲的音频数据332。
51.激活电路302被配置为选择性地激活asr系统140的一个或多个组件。例如，激活电路302可以包括或耦合到功率管理电路、时钟电路、头部开关或脚踏开关电路、缓冲区控制电路、或者其任何组合。激活电路302可以被配置为启动缓冲区320、asr引擎330或两者的通电(例如，通过选择性地施加或升高缓冲区320、asr引擎330或两者的电源的电压)。再举一个例子，激活电路302可以被配置为选择性地选通或取消选通到缓冲区320、asr引擎330或两者的时钟信号(例如，在不移除电源的情况下防止电路操作)。
52.将asr系统140输出的所识别语音142提供给虚拟助理应用340。例如，可以通过一个或多个执行指令的处理器来实现虚拟助理应用340，例如，参考图9进一步详细描述的。虚
拟助理应用340可以被配置为执行一个或多个搜索查询，例如通过到互联网网关、搜索服务器或其它资源的无线连接，搜索设备102的本地存储，或者其组合。
53.为了说明起见，音频信号114可以表示口头问题“今天天气怎么样？”虚拟助理应用340可以生成查询，以访问基于互联网的天气服务来获得设备102所在的地理区域的天气预报。虚拟助理应用340被配置为生成输出(例如，输出音频信号342)，其使扬声器350生成听觉输出，例如在语音接口实现中。在其它实施方式中，虚拟助理应用340生成另一种输出模式，例如可以由集成在设备102中或耦合到设备102的屏幕或显示器显示的视觉输出信号。
54.在一些实施方式中，设备102(例如，在手部检测器130中)使用的诸如权重和阈值之类的参数值，可以由设备102的制造商或供应商设置。在一些实施方式中，设备102被配置为在设备102的寿命期间，基于检测到的与asr系统140相关联的错误否定、错误激活或其组合来调整一个或多个这样的值。例如，错误激活的历史可以由设备102维持，使得可以周期性地使用触发错误激活的传感器数据122的特征来自动调整一个或多个权重或阈值，例如强调一个传感器相对于另一个传感器在手部检测中的相对可靠性，以减少未来错误激活的可能性。
55.尽管在图1-3的描述中包括特定值，例如“1”值表示肯定结果(例如，手部检测)和“0”值表示否定结果，但应当理解，提供这些值仅用于说明目的而不是进行限制。为了说明起见，在一些实施方式中，通过“0”值来指出指示132。再举一个例子，在一些实施方式中，第一信号231的“1”值指示手部图案232在图像数据212中的高可能性，而在其它实施方式中，第一信号231的“0”值指示手部图案232在图像数据212中的低可能性。类似地，在一些实施方式中，第二信号235、第三信号237或两者的“1”值指示满足手部检测标准的高可能性，在其它实施方式中，第二信号235、第三信号237或两者的“1”值指示不满足手部检测标准的高可能性。
56.图4描绘了包括手部检测器130和asr系统140的设备402的实现400，手部检测器130和asr系统140集成在诸如半导体芯片或封装之类的分立组件中，如参考图9进一步描述的。设备402包括音频信号输入410(例如，第一总线接口)，以使能够从设备402外部的麦克风接收音频信号114。设备402还包括传感器数据输入412(例如，第二总线接口)，以使能够从设备402外部的一个或多个传感器接收传感器数据122。设备402还可以包括一个或多个输出，以便向一个或多个外部组件(例如，扬声器350)提供处理结果(例如，识别的语音142或输出音频信号342)。设备402能够将手部检测和语音识别激活实现为系统中的组件，该系统包括麦克风和其它传感器(例如，在如图7所描绘的车辆中)、如图8中所描绘的虚拟现实或增强现实头戴式设备、如图9中所描绘的无线通信设备。
57.参考图5，该图描绘了可以由设备102或设备402执行的、对表示输入声音的音频信号进行处理的方法500的特定实现方式。该方法开始于502并且包括：在504处，例如通过手部检测器130处理传感器数据122，判断手是否在设备的屏幕上方。响应于检测到手在屏幕上方，在506处，激活麦克风和缓冲区。例如，经由信号304和306，通过激活电路302来激活图3中的麦克风112和缓冲区320。
58.响应于确定手已经从屏幕上移开，在508处，方法500包括：在510，激活asr引擎以处理缓冲的数据。例如，asr引擎330由激活电路302所生成的信号308进行激活，以处理缓冲的音频数据322。
59.当在屏幕上方检测到手时激活asr，使用户能够通过定位用户的手来激活针对语音命令的语音识别，而无需说出激活关键字或者进行定位并按下专用按钮。因此，可以方便地和安全地激活语音识别，例如在用户驾驶车辆时。此外，由于将用户的手放在屏幕上启动对组件的激活以接收针对语音识别的语音命令，并且将用户的手从屏幕上移开以启动对接收到的语音命令的处理，因此与使用关键字检测来激活语音识别的系统相比，可以减少语音识别的不正确激活、去激活或两者。
60.参考图6，作为说明性的非限制性示例，描绘了可以由设备102或设备402执行的、对表示输入声音的音频信号进行处理的方法600的特定实施方式。
61.方法600开始于602并且包括：在设备处，检测到手的至少一部分在设备的至少一部分上方，在604。例如，手部检测器130通过对从一个或多个传感器120接收的传感器数据122进行处理来检测手190。在一些实施方式中，检测手的部分在设备的部分上方包括：对图像数据(例如，图像数据212)进行处理以判断图像数据是否包括手部图案(例如，手部图案232)。在一个例子中，在设备的低功率环境光传感器(例如，环境光传感器204)处生成图像数据。检测手的部分在设备的部分上方可以进一步包括：对来自设备的红外传感器的红外传感器数据(例如，红外传感器数据218)进行处理。检测手的部分在设备的部分上方还可以包括：对来自设备的超声波传感器的超声波传感器数据(例如，超声波传感器数据220)进行处理。
62.方法600包括：在606处，响应于检测到手的部分在设备的部分上方，激活自动语音识别系统来处理音频信号。例如，设备102响应于指示132而激活asr系统140。在一些实施方式中，激活自动语音识别系统包括：启动音频信号的缓存，例如设备102(例如，激活电路302)通过信号306来激活缓冲区320。在一些例子中，响应于检测到手的部分在设备的部分上方(例如，在设备的屏幕上方)，方法500还包括：激活麦克风以基于输入声音来生成音频信号，例如设备102(例如，激活电路302)通过信号304来激活麦克风112。
63.在一些实施方式中，方法600包括：在608处，检测手的部分不再在设备的该部分上方，并且响应于检测到手的部分不再在设备的该部分上方，在610处，向自动语音识别系统提供话语结束信号。在一个例子中，手部检测器130检测到手不再在设备的该部分上方，并且激活电路302响应于第二指示242，向asr引擎330提供话语结束信号312。
64.通过响应于检测到手在设备的一部分上方而激活asr系统，方法600使用户能够激活语音命令的语音识别，而无需说出激活关键字或者进行定位并按下专用按钮。因此，可以方便、安全地启动语音识别，例如在用户驾驶车辆时。此外，与使用关键字检测来激活语音识别的系统相比，可以减少asr系统的错误激活。
65.图5的方法500、图6的方法600或两者都可以通过现场可编程门阵列(fpga)设备、专用集成电路(asic)、诸如中央处理单元(cpu)之类的处理单元、dsp、控制器、另一个硬件设备、固件设备或者其任意组合来实现。举例而言，图5的方法500、图6的方法600或两者都可以由执行指令的处理器来执行，例如参考图9所描述的。
66.图7描绘了集成到车辆仪表板装置(例如，汽车仪表板装置702)中的手部检测器130和asr系统140的实施方式700的示例。诸如屏幕110(例如，触摸屏显示器)之类的视觉界面装置安装在汽车仪表板装置702内，以对汽车的驾驶员可见。麦克风112和一个或多个传感器120也安装在汽车仪表板装置702中，但在其它实施方式中，麦克风112和传感器120中
的一个或多个也可以位于车辆的其它地方，例如麦克风112在方向盘中或者在驾驶员头部附近。如虚线边界所示出的手部检测器130和asr系统140指示手部检测器130和asr系统140对车辆的乘员不可见。可以在还包括麦克风112和传感器120的设备中(例如，在图1-3的设备120中)实现手部检测器130和asr系统140，或者手部检测器130和asr系统140可以与麦克风112和传感器120分离并耦合(例如，在图4的设备402中)。
67.在一些实施方式中，多个麦克风112和传感器集120集成到车辆中。例如，麦克风和传感器集可以放置在每个乘客座位上(例如，扶手控制面板或座椅靠背显示设备上)，以使每个乘客能够使用手在设备上的检测输入语音命令。在一些实施方式中，可以将每个乘客的语音命令路由到公共asr系统140；在其它实施方式中，车辆包括多个asr系统140，以能够同时处理来自车辆的多个乘员的语音命令。
68.图8描绘了集成到头戴式头戴式设备802(例如，虚拟现实或增强现实头戴式头戴式设备)中的手部检测器130和asr系统140的实施方式800的示例。屏幕110位于用户的眼前，以便在佩戴头戴式头戴式设备802时能够向用户显示增强现实或虚拟现实图像或场景，并且将传感器120定位为检测到用户的手在其上(例如，在屏幕110前面)时启动asr识别。将麦克风112定位为在佩戴头戴式设备802时接收用户的语音。在佩戴头戴式设备802时，用户可以在屏幕110前举起手，以向头戴式设备802指示用户将要说出语音命令来激活asr，并且可以放下手以指示用户已经完成说出语音命令。
69.图9描绘了包括手部检测器130和asr引擎330的设备900的特定说明性实施方式的框图，例如在无线通信设备实现(例如，智能手机)中。在各种实施方式中，设备900可以具有比图9所示更多或更少的组件。在说明性实现中，设备900可以对应于设备102。在说明性实现中，设备900可以执行参照图1-8所描述的一个或多个操作。
70.在特定的实施方式中，设备900包括处理器906(例如，中央处理单元(cpu))。设备900可以包括一个或多个另外的处理器910(例如，一个或多个dsp)。处理器910可以包括语音和音乐编解码器(codec)908和手部检测器130。语音和音乐编解码器908可以包括语音编码器(“声码器”)编码器936、声码器解码器938或两者。
71.设备900可以包括存储器986和codec 934。存储器986可以包括指令956，指令956可以由所述一个或多个另外的处理器910(或处理器906)执行以实现参考手部检测器130、asr引擎330、图1的asr系统140、激活电路302、或其任何组合所描述的功能。设备900可以包括经由收发器950耦合到天线952的无线控制器940。
72.设备900可以包括耦合到显示控制器926的显示器928(例如，屏幕110)。扬声器350和麦克风112可以耦合到codec 934。codec 934可以包括数模转换器902和模数转换器904。在特定的实施方式中，codec 934可以从麦克风112接收模拟信号，使用模数转换器904将模拟信号转换成数字信号，并将数字信号提供给语音和音乐编解码器908。语音和音乐编解码器908可以对数字信号进行处理，并且数字信号可以进一步由asr引擎330进行处理。在特定的实施方式中，语音和音乐编解码器908可以将数字信号提供给codec 934。codec 934可以使用数模转换器902将数字信号转换为模拟信号，并且可以将模拟信号提供给扬声器350。
73.在特定的实施方式中，设备900可以包括在系统级封装或片上系统设备922中。在特定的实施方式中，存储器986、处理器906、处理器910、显示控制器926、codec 934和无线控制器940被包括在系统级封装或片上系统设备922中。在特定的实施方式中，输入设备930
(例如，传感器120中的一个或多个)和电源944耦合到片上系统设备922。此外，在特定的实施方式中，如图9中所示，显示器928、输入设备930、扬声器350、麦克风112、天线992和电源944在片上系统设备922的外部。在特定的实施方式中，显示器928、输入设备930、扬声器350、麦克风112、天线992和电源944中的每一个可以耦合到片上系统设备922的组件(例如，接口或控制器)。
74.设备900可以包括智能扬声器(例如，处理器906可以执行指令956以运行语音控制的数字助理应用340)、条形音箱、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏机、音乐播放器、收音机、数字视频播放器、数字视频光盘(dvd)或蓝光光盘播放器、调谐器、照相机、导航设备、增强现实头戴式设备的虚拟现实、车载控制台设备或者其任何组合。
75.结合所描述的实施方式，一种用于对表示输入声音的音频信号进行处理的装置包括：用于检测手的至少一部分在设备的至少一部分上方的单元。例如，用于检测手的部分的单元可以对应于手部检测器130、手部图案检测器230、手部温度检测器234、手部距离检测器236、被配置为检测手的至少一部分在设备的至少一部分上方的一个或多个其它电路或组件、或者其任何组合。
76.该装置还包括用于对音频信号进行处理的单元。该处理单元被配置为响应于检测到手的部分在设备的该部分上方而被激活。例如，用于对音频信号进行处理的单元可以对应于asr系统140、asr引擎330、麦克风112、codec 934、语音和音乐编解码器908、被配置为对音频信号进行处理并响应于检测到手的部分在设备的该部分上方而被激活的一个或多个其它电路或组件、或者其任何组合。
77.在一些实施方式中，该装置包括用于显示信息的单元，并且所述检测单元被配置为检测手的部分在用于显示信息的单元上方。例如，用于显示信息的单元可以包括屏幕110、显示器928、显示控制器926、被配置为显示信息的一个或多个其它电路或组件、或者其任何组合。
78.该装置还可以包括：用于基于输入声音来生成音频信号的单元，该用于生成的单元被配置为响应于检测到手的部分在用于显示信息的单元上方而被激活。例如，用于生成音频信号的单元可以对应于麦克风112、麦克风阵列、codec 934、语音和音乐编解码器908、被配置为基于输入声音生成音频信号并且响应于第一指示而被激活的一个或多个其它电路或组件、或者其任何组合。
79.在一些实施方式中，该装置包括用于生成图像数据的单元，并且所述检测单元被配置为判断图像数据是否包括手部图案，例如手部图案检测器230。在一些实施方式中，该装置包括在以下中的至少一个：用于检测与手的部分相关联的温度的单元(例如，手部温度检测器234、红外传感器208或它们的组合)、以及用于检测手的部分与设备的距离的单元(例如，手部距离检测器236、超声波传感器210、照相机阵列、结构光投影仪、用于检测手的部分与设备的距离的一种或多种其它机构、或者其任意组合)。
80.在一些实施方式中，非暂时性计算机可读介质(例如，存储器986)包括指令(例如，指令956)，当这些指令被设备的一个或多个处理器(例如，处理器906、处理器910或者其任何组合)执行时，使所述一个或多个处理器执行用于对表示输入声音的音频信号进行处理的操作。这些操作包括检测手的至少一部分在设备的至少一部分上方(例如，在手部检测器
130处)。例如，检测手的部分在设备的部分上方可以包括：接收传感器数据122，使用一个或多个检测器(例如，手部图案检测器230、手部温度检测器234或手部距离检测器236)来处理传感器数据122以判断是否满足一个或多个检测标准，并且至少部分地响应于检测到满足一个或多个标准而生成指示132(例如，如参考激活信号单元240所描述的)。例如，在一些实施方式中，处理传感器数据122以判断是否满足检测标准包括：应用经训练以识别手部图案232的神经网络分类器(例如，如参考手部图案检测器230所描述的)来处理图像数据212，或者对图像数据212应用一个或多个过滤器以检测手部图案232。
81.所述操作还包括：响应于检测到手的部分在设备的所述部分上，激活自动语音识别系统来处理音频信号。例如，激活自动语音识别可以包括：在asr系统140的输入处检测指示132，并且响应于检测到指示132，对asr系统的至少一个组件(例如，缓冲区320、asr引擎330)执行上电或时钟激活中的至少一项。
82.本领域普通技术人员还应当理解，结合本文所公开实施方式描述的各种示例性的逻辑框、配置、模块、电路和算法步骤均可以实现成电子硬件、由处理器执行的计算机软件、或二者的组合。上面对各种示例性的部件、框、配置、模块、电路和步骤均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成处理器可执行指令，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开内容的保护范围。
83.结合本文所公开实施方式描述的方法或者算法的步骤，可以直接体现为硬件、由处理器执行的软件模块或二者的组合。软件模块可以位于随机存取存储器(ram)、闪存、只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、寄存器、硬盘、移动硬盘、压缩光盘只读存储器(cd-rom)、或者本领域已知的任何其它形式的非暂时性存储介质中。可以将一种示例性的存储介质连接至处理器，从而使该处理器能够从该存储介质读取信息，并可向该存储介质写入信息。在替代的方案中，存储介质也可以是处理器的组成部分。处理器和存储介质可以驻留在专用集成电路(asic)中。asic可以驻留在计算设备或用户终端中。替代地，处理器和存储介质可以作为分立组件驻留在计算设备或用户终端中。
84.为使本领域普通技术人员能够实现或者使用所公开的实施方式，上面围绕所公开的实施方式进行了描述。对于本领域普通技术人员来说，对这些实施方式的各种修改是显而易见的，并且，本文所定义的原理也可以在不脱离本公开内容的保护范围的基础上适用于其它实施方式。因此，本公开内容并不限于本文所示出的实施方式，而是与如所附权利要求书所规定的原理和新颖性特征的最广范围相一致。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于帧分类的语音端点检测方法及装置与流程

激活语音识别的制作方法

相关文献

最热文献