使用关键语句适应性地识别语音的制作方法

2021-06-08 11:05:00 来源：中国专利 TAG：人工智能适应性语句语音识别

1.本公开涉及人工智能领域，更具体地，涉及使用关键语句适应性地识别语音。

背景技术：

2.语音识别器用于检测音频中的语句。例如，语句可以包括可用于执行一个或多个任务的命令。

技术实现要素：

3.根据本公开的一方面，提供了一种装置。该装置包括：音频接收器，音频接收器用于接收音频流；关键语句检测器，关键语句检测器用于检测音频流中的关键语句；模型适配器，模型适配器用于基于关键语句来动态地适配模型；以及查询识别器，查询识别器用于通过该模型来检测音频流中跟随在关键语句之后的声音查询。
4.根据本公开的另一方面，提供了一种方法。该方法包括：经由处理器接收音频流；经由处理器检测音频流中的关键语句；经由处理器基于关键语句来动态地适配模型；以及经由处理器通过该模型来检测音频流中跟随在关键语句之后的声音查询。
5.根据本公开的另一方面，提供了一种计算机可读存储设备。该存储设备包括指令，所述指令当被执行时，使得一个或多个处理器至少检测音频流中的关键语句；基于关键语句来动态地适配模型；并且通过该模型来检测音频流中跟随在关键语句之后的声音查询。
6.根据本公开的另一方面，提供了一种设备。该设备包括：用于接收音频流的装置；用于检测音频流中的关键语句的装置；用于基于关键语句来动态地适配模型的装置；以及用于通过该模型来检测音频流中跟随在关键语句之后的声音查询的装置。
附图说明
7.图1是示出用于利用适应性语音识别进行口语理解的示例系统的框图；
8.图2是示出示例适应性语音识别器的框图；
9.图3是示出用于语音语句适应性语音识别的示例过程的时序图；
10.图4是示出利用超低功率声音唤醒(wake-on-voice)的示例适应性语音识别器的框图；
11.图5是示出利用超低功率声音唤醒进行适应性语音识别的示例过程的时序图；
12.图6是示出使用关键语句来适应性地识别语音的方法的流程图；
13.图7是示出可以使用关键语句来适应性地识别语音的示例计算设备的框图；以及
14.图8是示出存储用于适应性关键语句语音识别的代码的计算机可读介质的框图。
15.本公开和附图通篇使用相同的数字来指代相似的组件和特征。100系列中的数字是指最初在图1中找到的特征；200系列中的数字是指最初在图2中找到的特征；以此类推。
具体实施方式
16.语音识别器可以在由许多人记录的巨大音频语料库上被训练。这样的语音识别器可以识别在类似的声学环境中讲话的类似的人。然而，不同的声学环境或具有显著不同声音的人可导致降低的识别精度。例如，背景噪声可导致精度降低的识别结果。
17.本公开总体上涉及使用关键语句来适应性地识别语音的技术。例如，关键语句可以是通过声音唤醒而检测到的唤醒词，或者是更容易识别的预选语句。具体地，本文中描述的技术包括用于使用关键语句来适应性地识别语音的装置、方法和系统。示例装置包括音频接收器，用于接收音频流。该装置还包括关键语句检测器，用于检测音频流中的关键语句。该装置还包括模型适配器，用于基于检测到的关键语句来动态地适配模型。该装置还包括查询识别器，用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。
18.本文中描述的技术使用诸如唤醒词之类的关键语句来使模型适配于讲话者以及声学环境。然后，可以使用经适配的模型来更准确地检测跟随在关键语句之后的命令。该适配可以对跟随在唤醒词之后出现的语句以及任何跟随在唤醒词之后的声音查询具有直接影响。因此，这些技术实现了更可靠的适配过程，因为这些技术不假设在第一遍中生成足够好的伪真值。因此，本文中描述的技术实现了改进的语音识别精度。此外，这些技术可以引入最小延时，因为这些技术不应用重新评分。而是，本技术通过唤醒词子音素单元的序列使用后向传播(backpropagation)，从而实现对用于检测声音查询的模型的动态适配。
19.图1是示出用于利用适应性语音识别进行口语理解的示例系统的框图。可以使用图6的方法600在图7中的计算设备700中实现示例系统100。
20.示例系统100包括正在由音频捕获组件104捕获的语音102。例如，音频捕获组件104可以是麦克风或麦克风阵列。系统100还包括通信地耦合到音频捕获组件104的适应性语音识别器106。例如，适应性语音识别器106可以是参考图2和图4描述的适应性语音识别器200或适应性语音识别器400。系统100包括通信地耦合到适应性语音识别器106的应用108。
21.在图1的示例系统100中，音频捕获组件104记录与语音102相对应的音频并且提供具有合适的格式的语音信号。例如，该格式可以包括语音特征、数字音频、或任何其他合适的格式。由唤醒词适应性语音识别器106接收该语音信号。唤醒词适应性语音识别器106对语音信号进行处理并且识别所讲出的词。然后，将识别出的词发送到应用108。例如，应用108可以是自然语言理解应用，其可以根据识别出的词中的一个或多个检测到的命令来确定意图。在各种示例中，应用108可以是虚拟助手应用。
22.在各种示例中，语音102中的声音查询可以遵循以下模板：<唤醒语句><声音命令>。例如，“<唤醒语句>”：＝“你好计算机”并且“<声音命令>”：＝“下一家餐厅在哪里？”声音查询可以由音频捕获设备104捕获，并且被发送到唤醒词适应性语音识别器106。唤醒词适应性语音识别器106可以检测到唤醒语句“你好计算机”，并使用检测到的唤醒语句来改进跟随在其后的声音命令“下一家餐厅在哪里？”的识别准确度。在各种示例中，唤醒词适应性语音识别器106基于检测到的唤醒词使语音识别模型适配于讲话者和声学环境。唤醒词适应性语音识别器106可以通过分析唤醒触发过程来计算适配方向。
23.可以以各种方式来配置唤醒词适应性语音识别器106。例如，在组合低功率配置中，唤醒词检测和声音查询识别可以共享同一神经元网络。然而，解码可能会有所不同，导
致唤醒词检测的较低的功率消耗。例如，解码器可以仅考虑关键语句或唤醒词中存在的多元音素(senones)或音素。asr需要考虑词汇表中的任何音素。因此，可以以低得多的计算和存储器使用量来执行唤醒词检测。参照图2和图3描述了以组合低功率配置来配置的示例唤醒词适应性语音识别器106。
24.在一些示例中，可以以专用超低功率配置来配置唤醒词适应性语音识别器106。例如，可以在专用组件处执行唤醒词检测。作为一个示例，该专用组件可以以超低功率模式进行操作。参照图4和图5描述了以专用超低功率配置来配置的示例唤醒词适应性语音识别器106。
25.图1的图不旨在指示示例系统100包括图1中所示的所有组件。而是，可以使用更少的组件或图1中未示出的附加的组件(例如，附加的语音、捕获设备、适应性语音识别器、应用等)来实现示例系统100。
26.图2是示出示例适应性语音识别器的框图。可以使用图6的方法600在图7中的计算设备700中实现示例适应性语音识别器200。
27.示例适应性语音识别器200包括特征前端202。适应性语音识别器200包括可通信地耦合到特征前端202的模型r 204。在各种示例中，模型r 204可以是神经元网络。例如，模型r 204可以是递归神经元网络，准递归神经元网络，卷积神经网络(cnn)、或时间延迟神经元网络(tdnn)。模型r 204包括声学模型206和语言模型208。例如，声学模型206是在给定音素序列或由音素序列表示的词的情况下的音频特征的状况。在各种示例中，语言模型208可以计算识别出的词序列可能出现在上下文中或可能不出现在上下文中的概率。例如，模型r 204可以生成多个假设，并且语言模型208可以计算每个假设的正确性的概率。在一些示例中，还包括解码过程。例如，解码过程可以包括维特比波束搜索(viterbi beam search)或贪婪搜索。在一些示例中，语言模型208可以是加权有限状态换能器或神经元网络。在各种示例中，声学模型206的输出可以与语言模型208的输出相乘，以生成最可能的词序列。
28.在图2的示例中，特征前端202接收语音信号并且计算语音特征流。例如，语音特征流可以是多个梅尔滤波器组(mel-filter bank)。然后，由模型r 204接收语音特征流。作为一个示例，模型r 204可以是递归神经元网络r。模型r 204可以在每个时间步长处具有两个输入“h”和“f”。给定历史向量“h”和特征向量“f”以及模型r 204的初始状态h0，声学模型206针对每个时间步长计算输出，如参照图3更详细地描述的那样。在一些示例中，历史向量h是在递归神经元网络(rnn)中从一个时间步长传递到另一时间步长的重现信号(recurrence signal)。因此，在各种示例中，历史向量h可以取决于rnn的实际实现方式。在一些示例中，当使用长短期记忆(lstm)rnn或门控递归单元(gru)rnn时，历史向量可以是进行或不进行针对elman-rnn的激活的仿射变换或来自进行或不进行激活的多个仿射变换的多个向量的级联的结果。例如，每个输出可以是多元音素上的概率分布。如本文中所使用的，多元音素指的是比音素更细粒度的声学实体。可以使用声学模型206将多元音素匹配到语音片段。例如，对于每个语音片段(帧)，声学模型206可以用于计算多元音素上的概率分布。然后，模型r 204可以使用此分布来计算最终字母序列。在一些示例中，模型r 204还可以包括与波束搜索一起使用的加权有限状态换能器。在各种实例中，模型r 204的递归神经元网络可以用于在给定语言模型208的情况下计算最终字母序列。
29.在一些示例中，模型r 204可以是tdnn。例如，tdnn可以与多个互连的感知器层一
起操作。tdnn也可以实现为前馈神经网络。在各种示例中，tdnn的每一层处的所有神经元都从下层的神经元的输出接收输入。tdnn中的每一层处的所有单元从来自下层的输出的上下文窗口获得输入。对于时变信号(例如，语音)，每个单元都具有到来自在其之下的单元的输出的连接，而且具有到这些相同单元的经时间延迟的过去输出的连接。这对单元的时间模式或轨迹进行建模。此外，可以通过在后向传播训练过程期间显式地去除位置依赖关系来实现平移不变性。去除位置依赖关系是通过在不变维度(例如，时间)上制作网络的时移副本来完成的。然后，利用由通过所有这些网络的后向传播从总体目标向量计算误差梯度。在执行权重更新之前，与平移副本相关联的误差梯度被取平均值，并且因此它们被共享并被约束为相等的。因此，去除了来自通过平移副本的后向传播训练的所有位置依赖关系，并且复制的网络在平移不变的情况下学习最突出的隐藏特征。例如，最突出的隐藏特征可以与它们在输入数据中的精确位置无关。
30.图2的图不旨在指示示例适应性语音识别器200包括图2中所示的所有组件。而是，可以使用更少的组件或图2中未示出的附加的组件(例如，附加的特征前端、模型等)来实现示例适应性语音识别器200。在一些示例中，适应性语音识别器200还可以包括自然语言理解单元。
31.图3是示出用于关键语句适应性语音识别的示例过程的时序图。可以使用图2的示例适应性语音识别器200、图7的计算设备700、或图8的计算机可读介质800在图1的系统100中实现示例过程300。
32.图3包括语音302，该语音302包括唤醒语句304和命令306。在图3的示例中，唤醒语句304是“你好计算机”并且命令306是“打开灯”。图3包括历史向量308a、308b、308c、308d、308e、以及308f，这些历史向量表示时间310a、310b、310c、310d、310e、以及310f处的模型r的状态。图3还包括分别在时间310a、310b、310c、310d、310e、以及310f在模型r处接收到的特征向量312a、312b、312c、312d、312e、312f。
33.在箭头314处，与讲话者无关地执行包括关键语句检测的前向传递。在时间步长t0到t
n
之间识别出唤醒语句“你好计算机”。该前向传递可以是神经元网络推断步骤。在各种示例中，该前向传递可以在低功率平台上执行。例如，该低功率平台可以是数字信号处理器(dsp)。
34.在箭头316处，发送检测到的关键语句，以初始化与讲话者有关的模型。响应于在t
n
处检测到关键语句，过程300可以发起后向传递。
35.在箭头318处，执行后向传递。例如，在检测到关键语句后，该观察用于通过对初始状态h0进行调整来初始化与讲话者有关的模型。例如，在后向传递中，每个时间步长处的误差都被后向传播到初始状态h0。在各种示例中，可以通过将特定讲话者说过的关键语句的识别出的多元音素概率分布与最优分布进行比较来计算误差。因此，初始状态h0可以被更新，以最小化通过识别特定讲话者而观察到的误差。在一些示例中，除对初始状态h0进行调整之外或作为其替代，过程300可以包括更新模型r中的所有权重。在各种示例中，对模型r的所有权重进行调整或仅对权重的子集进行调整之间的权衡可以基于目标平台配置。作为一个示例，该子集可以仅是初始状态h0的权重。
36.在箭头322处，执行与讲话者有关的快速前向传递。例如，与讲话者有关地识别整个声音查询。在一些示例中，与讲话者有关的前向传递322可以校正与讲话者无关的前向传
递314的误触发，以提高总体准确度。
37.图3的曲线图324示出了过程300的不同时间处的预期cpu负载。在时间t0到时间t
n
处，在超低功率状态326中，cpu负载最小。在时间t
n
处，cpu负载在高功率状态328达到峰值，在此期间计算损耗并且更新初始状态为h0。在时间t
n
之后到时间t
n
之间的时间，处于低功率状态330，cpu负载较低，在低功率状态330中检测到命令306。在各种示例中，对于不同的平台配置，预期的cpu负载和相关联的功率消耗可能不同。例如，在给定dsp模式的情况下，预期的功率消耗可取决于的存储器设置。
38.该过程流程图不旨在指示示例过程300的块以任何特定次序执行，或者在每种情况下都包括所有块。此外，取决于具体实现方式的细节，可以在示例过程300内包括任何数量的未示出的附加块。
39.图4是示出利用超低功率声音唤醒的示例适应性语音识别器的框图。可以使用图6的方法600在图7中的计算设备700中实现示例系统400。
40.示例适应性语音识别器400包括来自图2的类似编号的元件。此外，适应性语音识别器400包括超低功率声音唤醒(wov)402。例如，超低功率声音唤醒(wov)402可以在系统的其余部分断电的情况下进行操作。因此，在wov 402的操作期间，仅wov 402可能会消耗电池电量。当wov 402组件检测到关键语句时，如下所述，系统400可以移至低功率消耗状态，以重新评估音频，来用于包括适配在内的完整识别/理解过程。在一些示例中，超低功率wov 402使用非常小的神经元网络，该神经元网络针对特定任务进行了高度优化。在各种示例中，也可以针对特定硬件来对该任务进行优化。例如，可以对任务进行优化以利用神经元网络硬件加速进行处理。
41.在图4的示例中，超低功率声音唤醒(wov)402可以检测音频流中的唤醒语句。然后可以使用来自超低功率声音唤醒(wov)402的检测到的唤醒语句来适配模型r 204。因此，在该示例中，模型r 204未检测到唤醒语句，并且响应于从超低功率声音唤醒(wov)402接收到唤醒语句而开始执行。
42.在各种示例中，适应性语音识别器400可以使用图5的过程500来适配模型r 204并且执行语音识别。
43.图4的图不旨在指示示例适应性语音识别器400包括图4中所示的所有组件。而是，可以使用更少的组件或图4中未示出的附加的组件(例如，附加的特征前端、模型等)来实现示例适应性语音识别器400。在一些示例中，适应性语音识别器400还可以包括自然语言理解单元。
44.图5是示出用于利用超低功率声音唤醒进行适应性语音识别的示例过程的时序图。可以使用图4的利用超低功率声音唤醒的示例适应性语音识别器400、图7的计算设备700、或图8的计算机可读介质800在图1的系统100中实现示例过程500。
45.图5的过程500包括图3的类似编号的元件。然而，在过程500中，模型r可以在时间t
n
处接收到示例检测到的唤醒语句“你好计算机”304之后开始执行。
46.在图5的示例过程500中，在超低功率模型中执行完整的与讲话者无关的唤醒检测过程。触发的唤醒词检测304促使前向传递/后向传递，以确定与讲话者有关的模型r。然后，与讲话者有关地识别声音查询306。
47.在箭头502处，执行前向传递。在图5的示例中，前向传递包括对特征f
n
到f0的后向
解码。例如，可以针对检测到的唤醒语句“你好计算机”304来计算损耗。在箭头504处，发送计算出的损耗以用于后向传递。
48.在箭头506处，执行后向传递。例如，后向传递包括基于计算出的损耗来更新状态h
n 1
。因此，过程500的目标可以是对状态h
n 1
进行调整，而非如在图3的过程300中所描述的更新h0。在箭头508处，发送经更新的状态h
n 1
，以用于快速前向传递。
49.在箭头510处，执行快速前向传递。例如，基于经更新的状态h
n 1
检测到命令“打开灯”306。该过程流程图不旨在指示示例过程500的块以任何特定次序执行，或者在每种情况下都包括所有块。此外，取决于具体实现方式的细节，可以在示例过程500中包括任何数量的未示出的附加块。
50.图5的曲线图512示出了过程500的不同时间处的预期cpu负载。在时间t0到时间t
n
处，在超低功率状态326下，cpu负载最小。在时间t
n
处，cpu负载在高功率状态514达到峰值，在此期间计算损耗并且更新初始状态为h0。然而，高功率状态514下的cpu负载可以低于图3的高功率状态328下的cpu负载。在时间t
n
之后到时间t
n
之间的时间处，在低功率状态330下，cpu负载较低，在低功率状态330中检测到命令306。同样，在各种示例中，对于不同的平台配置，预期的cpu负载和相关联的功率消耗可能不同。
51.图6是示出用于使用关键语句来适应性地识别语音的方法的流程图。可以使用图2和图4的适应性语音识别器200或适应性语音识别器400、图7的计算设备700、或图8的计算机可读介质800在图1的系统100中实现示例方法600。
52.在块602处，接收音频流。例如，音频流可以是捕获的语音。
53.在块604处，在音频流中检测到关键语句。例如，可以在模型上执行前向传递以检测关键语句。在各种示例中，关键语句可以是唤醒语句。例如，可以通过超低功率唤醒语句检测器来对音频流进行处理以检测关键语句。
54.在块606处，基于检测到的关键语句来动态地适配模型。在一些示例中，在后向传递中对模型的初始状态进行调整。例如，在每个时间步长处，误差可以被后向传播回到初始状态。在一些示例中，可以在后向传递中对模型的多个权重进行调整。在各种示例中，可以通过将特定讲话者说过的关键语句的识别出的多元音素概率分布与最优分布进行比较来计算误差。例如，多元音素概率分布可以是比音素或词序列更细粒度的。在各种示例中，可使用任何级别的粒度。在一些示例中，可以并行地并且在不同的粒度级别上计算误差。
55.在块608处，通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。在一些示例中，可以通过生成多元音素上的概率分布来检测声音查询。在各种示例中，可以通过计算最终字母序列来检测声音查询。
56.该过程流程图不旨在指示示例方法600的块要以任何特定次序执行，或者在每种情况下都包括所有块。此外，取决于具体实现方式的细节，可以在示例性方法600内包括任何数量的未示出的附加块。例如，方法600可以包括基于音频流生成语音特征流。基于特征流来检测关键语句。
57.现参考图7，图7是示出可以使用关键语句来适应性地识别语音的示例计算设备的框图。该计算设备700可以是，例如，膝上型计算机、台式计算机、平板计算机、智能电视、移动设备、或可穿戴设备等等。在一些示例中，计算设备700可以是虚拟助手应用。在各种示例中，计算设备700可以是医疗设备。计算设备700可以包括被配置为执行存储的指令的中央
处理单元(cpu)702，以及存储可由cpu 702执行的指令的存储器设备704。cpu 702可以通过总线706耦合到存储器设备704。此外，cpu 702可以是单核处理器、多核处理器、计算集群、或任意数量的其他配置。此外，计算设备700可以包括多于一个cpu 702。在一些示例中，cpu 702可以是具有多核处理器架构的片上系统(soc)。在一些示例中，cpu 702可以是用于图像处理的专用数字信号处理器(dsp)。存储器设备704可以包括随机存取存储器(ram)、只读存储器(rom)、闪速存储器、或任何其他合适的存储器系统。例如，存储器设备704可以包括动态随机存取存储器(dram)。
58.存储器设备704可以包括随机存取存储器(ram)、只读存储器(rom)、闪速存储器、或任何其他合适的存储器系统。例如，存储器设备704可以包括动态随机存取存储器(dram)。
59.计算设备700还可以包括图形处理单元(gpu)708。如图所示，cpu 702可以通过总线706耦合到gpu 708。gpu 708可以被配置为在计算设备700内执行任何数量的图形操作。例如，gpu 708可以被配置为呈现或操纵要被显示给计算设备700的用户的图形图像、图形帧、视频等。
60.存储器设备704可以包括随机存取存储器(ram)、只读存储器(rom)、闪速存储器、或任何其他合适的存储器系统。例如，存储器设备704可以包括动态随机存取存储器(dram)。存储器设备704可以包括设备驱动器710，这些设备驱动器710被配置为执行用于训练多个卷积神经网络以执行与序列无关的处理的指令。设备驱动器710可以是软件、应用程序、应用代码等。
61.cpu 702还可以通过总线706连接到输入/输出(i/o)设备接口712，该接口712被配置为将计算设备700连接到一个或多个i/o设备714。i/o设备714可以包括例如键盘和指点设备，其中，指点设备可以包括触摸板或触摸屏等。i/o设备714可以是计算设备700的内置组件，或可以是从外部连接到计算设备700的设备。在一些示例中，存储器704可以通过直接存储器访问(dma)通信地耦合到i/o设备714。
62.cpu 702还可以通过总线706链接到显示接口716，该显示接口716被配置为将计算设备700连接到显示设备718。显示设备718可以包括显示屏，该显示屏是计算设备700的内置组件。显示设备718还可以包括在计算设备700内部的或外部地连接到计算设备700的计算机监视器、电视、或投影仪等。
63.计算设备700还包括存储设备720。存储设备720是物理存储器，例如，硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列、固态驱动器、或其任何组合。存储设备720还可以包括远程存储驱动器。
64.计算设备700还可以包括网络接口控制器(nic)722。nic 722可以被配置为通过总线706将计算设备700连接到网络724。网络724可以是广域网(wan)、局域网(lan)、或互联网等。在一些示例中，设备可通过无线技术与其他设备进行通信。例如，设备可以通过无线局域网连接与其他设备进行通信。在一些示例中，设备可以通过蓝牙域网连接与其他设备进行通信。在一些示例中，设备可以通过蓝牙或类似技术与其他设备连接和进行通信。
65.计算设备700还包括麦克风726。例如，麦克风726可以包括一个或多个传感器。在一些示例中，麦克风726可以包括处理器，用于生成经滤波的音频。例如，经滤波的音频可能应用了噪声消除。在一些示例中，麦克风726可以包括波束成形，以生成经滤波的音频。
66.计算设备700还包括适应性语音识别器728。例如，适应性语音识别器728可以用于适应性地识别音频流中的语音。适应性语音识别器728可以包括音频接收器730、特征前端732、关键语句检测器734、模型适配器736、以及查询识别器738。在一些示例中，适应性语音识别器728的每个组件730-738可以是微控制器、嵌入式处理器、或软件模块。音频接收器730可以接收音频流。特征前端732可以基于接收到的音频流来计算语音特征流。例如，语音特征流可以是多个梅尔滤波器组。关键语句检测器734可以检测音频流中的关键语句。例如，关键语句检测器734可以基于语音特征流来检测音频流中的关键语句。在一些示例中，关键语句检测器734可以是专用超低功率声音唤醒单元，用于基于语音特征流来检测关键语句。例如，关键语句可以是唤醒语句。模型适配器736可以基于检测到的关键语句来动态地适配模型。在一些示例中，模型包括声学模型，用于生成多元音素上的概率分布。在各种示例中，模型包括语言模型，用于计算最终字母序列。在一些示例中，模型可以是递归神经元网络。在各种示例中，模型可以是时间延迟神经元网络。查询识别器738可以通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。
67.计算设备700的存储设备720包括应用740。例如，应用740可以使用检测到的声音查询来执行一个或多个动作。作为一个示例，应用740可以是自然语言理解应用。在各种示例中，应用108可以是虚拟助手应用。在一些示例中，应用740可以是任何声音控制应用。
68.图7的框图并不旨在指示计算设备700包括图7中所示的全部组件。反而，计算设备700可以包括更少的或图7中未示出的附加的组件，例如，附加的缓冲器、附加的处理器等。在一些示例中，计算设备700可以包括数字信号处理器，用于检测关键语句。在各种示例中，计算设备700可以包括神经网络，用于检测关键语句并且适配模型。取决于具体实现方式的细节，计算设备700可包括任意数量的图7中未示出的附加组件。此外，音频接收器730、特征前端732、关键语句检测器734、模型适配器736、以及查询识别器738的任何功能可以部分或全部在硬件中和/或在处理器702中实现。例如，功能可以用专用集成电路实现、在处理器702中实现的逻辑中实现、或者在任何其他设备中实现。此外，cpu 702的任何功能可以部分地或完全地在硬件中和/或在处理器中实现。例如，适应性语音识别器728的功能可以用专用集成电路来实现、在处理器中实现的逻辑中实现、在诸如gpu 708之类的专用图形处理单元中实现的逻辑中实现、或在任何其他设备中实现。
69.图8是示出存储用于适应性关键语句语音识别的代码的计算机可读介质800的框图。计算机可读介质800可以由处理器802通过计算机总线804来访问。此外，计算机可读介质800可以包括被配置为引导处理器802执行本文中所述的方法的代码。在一些实施例中，计算机可读介质800可以是非暂态计算机可读介质。在一些示例中，计算机可读介质800可以是存储介质。
70.如图8所示，本文中讨论的各种软件组件可以被存储在一个或多个计算机可读介质800上。例如，音频接收器模块806可以被配置为接收音频流。特征前端模块808可以被配置为基于音频流来生成语音特征流。关键语句模块810可以被配置为检测音频流中的关键语句。在一些示例中，关键语句模块810可以被配置为基于特征流来检测关键语句。在各种示例中，关键语句模块810可以被配置为在模型上执行前向传递以检测关键语句。在一些示例中，关键语句模块810可以被配置为通过超低功率唤醒语句检测器来对音频流进行处理。在各种示例中，关键语句模块810可以被配置为基于音频流来生成语音特征流。例如，关键
语句模块810可以被配置为基于特征流来检测关键语句。模型适配器模块812可以被配置为基于检测到的关键语句来动态地适配模型。例如，模型适配器模块812可以包括用于将每个时间步长处的误差传播回到初始状态的代码。在一些示例中，模型适配器模块812可以包括用于在后向传递中对模型的多个权重进行调整的代码。在各种示例中，模型适配器模块812可以包括用于通过将特定讲话者说过的关键语句的识别出的多元音素概率分布与最优分布进行比较来计算误差的代码。在一些示例中，模型适配器模块812可以包括用于在后向传递中对模型的初始状态进行调整的代码。查询识别器模块814可以被配置为通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。例如，查询识别器模块814可以被配置为生成多元音素上的概率分布。在一些示例中，查询识别器模块814可以被配置为通过计算最终字母序列来检测声音查询。
71.图8的框图并不旨在指示计算机可读介质800包括图8中所示的全部组件。此外，取决于具体实现方式的细节，计算机可读介质800可包括任意数量的图8中未示出的附加组件。
72.示例
73.示例1是一种用于识别语音的装置。该装置包括音频接收器，用于接收音频流。该装置还包括关键语句检测器，用于检测音频流中的关键语句。该装置还包括模型适配器，用于基于检测到的关键语句来动态地适配模型。该装置还包括查询识别器，用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。
74.示例2包括如示例1所述的装置，包括或排除可选特征。在该示例中，该装置包括数字信号处理器，用于检测关键语句。
75.示例3包括如示例1至2中任一项所述的装置，包括或排除可选特征。在该示例中，该装置包括神经网络，用于检测关键语句并且适配模型。
76.示例4包括如示例1至3中任一项所述的装置，包括或排除可选特征。在该示例中，该装置包括专用超低功率声音唤醒单元，用于基于语音特征流来检测关键语句。
77.示例5包括如示例1至4中任一项所述的装置，包括或排除可选特征。在此示例中，关键语句包括唤醒语句。
78.示例6包括如示例1至5中任一项所述的装置，包括或排除可选特征。在该示例中，该装置包括特征前端，用于基于接收到的音频流来计算语音特征流。
79.示例7包括如示例1至6中任一项所述的装置，包括或排除可选特征。在该示例中，模型包括声学模型，用于生成多元音素上的概率分布。
80.示例8包括如示例1至7中任一项所述的装置，包括或排除可选特征。在该示例中，模型包括语言模型，用于计算最终字母序列。
81.示例9包括如示例1至8中任一项所述的装置，包括或排除可选特征。在该示例中，模型包括递归神经元网络。
82.示例10包括如示例1至9中任一项所述的装置，包括或排除可选特征。在该示例中，模型包括时间延迟神经元网络。
83.示例11是用于识别语音的方法。该方法包括：经由处理器接收音频流。该方法还包括：经由处理器检测音频流中的关键语句。该方法还包括：经由处理器基于检测到的关键语句来动态地适配模型。该方法还包括：经由处理器通过经适配的模型来检测音频流中跟随
在关键语句之后的声音查询。
84.示例12包括如示例11所述的方法，包括或排除可选特征。在此示例中，适配模型包括将各个时间步长处的误差后向传播回到初始状态。
85.示例13包括如示例11至12中任一项所述的方法，包括或排除可选特征。在该示例中，适配模型包括在后向传递中对模型的多个权重进行调整。
86.示例14包括如示例11至13中任一项所述的方法，包括或排除可选特征。在该示例中，适配模型包括通过将特定讲话者说过的关键语句的识别出的多元音素概率分布与最优分布进行比较来计算误差。
87.示例15包括如示例11至14中任一项所述的方法，包括或排除可选特征。在该示例中，适配模型包括在后向传递中对模型的初始状态进行调整。
88.示例16包括如示例11至15中任一项所述的方法，包括或排除可选特征。在该示例中，检测关键语句包括在模型上执行前向传递。
89.示例17包括如示例11至16中任一项所述的方法，包括或排除可选特征。在该示例中，检测关键语句包括通过超低功率唤醒语句检测器来对音频流进行处理。
90.示例18包括如示例11至17中任一项所述的方法，包括或排除可选特征。在该示例中，该方法包括基于音频流来生成语音特征流。基于特征流来检测关键语句。
91.示例19包括如示例11至18中任一项所述的方法，包括或排除可选特征。在该示例中，检测声音查询包括生成多元音素上的概率分布。
92.示例20包括如示例11至19中任一项所述的方法，包括或排除可选特征。在该示例中，检测声音查询包括计算最终字母序列。
93.示例21是用于识别语音的至少一个计算机可读介质，其中存储有引导处理器接收音频流的指令。该计算机可读介质还包括引导处理器检测音频流中的关键语句的指令。该计算机可读介质还包括引导处理器基于检测到的关键语句来动态地适配模型的指令。该计算机可读介质还包括引导处理器通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询的指令。
94.示例22包括如示例21所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于将各个时间步长处的误差传播回到初始状态的指令。
95.示例23包括如示例21至22中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于在后向传递中对模型的多个权重进行调整的指令。
96.示例24包括如示例21至23中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于通过将特定讲话者说过的关键语句的识别出的多元音素概率分布与最优分布进行比较来计算误差的指令。
97.示例25包括如示例21至24中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于在后向传递中对模型的初始状态进行调整的指令。
98.示例26包括如示例21至25中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于在模型上执行前向传递以检测关键语句的指令。
99.示例27包括如示例21至26中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于通过超低功率唤醒语句检测器来对音频流进行处理的指令。
100.示例28包括如示例21至27中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于基于音频流来生成语音特征流的指令。基于特征流来检测关键语句。
101.示例29包括如示例21至28中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于生成多元音素上的概率分布的指令。
102.示例30包括如示例21至29中任一项所述的计算机可读介质，包括或排除可选特征。在该示例中，该计算机可读介质包括用于计算最终字母序列以检测声音查询的指令。
103.示例31是一种用于识别语音的系统。该系统包括音频接收器，用于接收音频流。该系统还包括关键语句检测器，用于检测音频流中的关键语句。该系统还包括模型适配器，用于基于检测到的关键语句来动态地适配模型。该系统还包括查询识别器，用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询。
104.示例32包括如示例31所述的系统，包括或不包括可选特征。在该示例中，该系统包括数字信号处理器，用于检测关键语句。
105.示例33包括如示例31至32中任一项所述的系统，包括或不包括可选特征。在该示例中，该系统包括神经网络，用于检测关键语句并且适配模型。
106.示例34包括如示例31至33中任一项所述的系统，包括或不包括可选特征。在该示例中，该系统包括专用超低功率声音唤醒单元，用于基于语音特征流来检测关键语句。
107.示例35包括如示例31至34中任一项所述的系统，包括或不包括可选特征。在此示例中，关键语句包括唤醒语句。
108.示例36包括如示例31至35中任一项所述的系统，包括或不包括可选特征。在该示例中，该系统包括特征前端，用于基于接收到的音频流来计算语音特征流。
109.示例37包括如示例31至36中任一项所述的系统，包括或不包括可选特征。在该示例中，该模型包括声学模型，用于生成多元音素上的概率分布。
110.示例38包括如示例31至37中任一项所述的系统，包括或不包括可选特征。在该示例中，模型包括语言模型，用于计算最终字母序列。
111.示例39包括如示例31至38中任一项所述的系统，包括或不包括可选特征。在该示例中，模型包括递归神经元网络。
112.示例40包括如示例31至39中任一项所述的系统，包括或不包括可选特征。在该示例中，模型包括时间延迟神经元网络。
113.示例41是一种用于识别语音的系统。该系统包括用于接收音频流的装置。该系统还包括用于检测音频流中的关键语句的装置。该系统还包括用于基于检测到的关键语句来动态地适配模型的装置。该系统还包括用于通过经适配的模型来检测音频流中跟随在关键语句之后的声音查询的装置。
114.示例42包括如示例41的系统，包括或不包括可选特征。在该示例中，系统包括用于检测关键语句的装置。
115.示例43包括如示例41至42中任一项所述的系统，包括或不包括可选特征。在该示
例中，该系统包括用于检测关键语句并适配模型的装置。
116.示例44包括如示例41至43中任一项所述的系统，包括或不包括可选特征。在该示例中，该系统包括用于基于语音特征流来检测关键语句的装置。
117.示例45包括如示例41至44中任一项所述的系统，包括或不包括可选特征。在此示例中，关键语句包括唤醒语句。
118.示例46包括如示例41至45中任一项所述的系统，包括或不包括可选特征。在该示例中，该系统包括用于基于接收到的音频流来计算语音特征流的装置。
119.示例47包括如示例41至46中任一项所述的系统，包括或不包括可选特征。在该示例中，该模型包括声学模型，用于生成多元音素上的概率分布。
120.示例48包括如示例41至47中任一项所述的系统，包括或不包括可选特征。在该示例中，模型包括语言模型，用于计算最终字母序列。
121.示例49包括如示例41至48中任一项所述的系统，包括或不包括可选特征。在该示例中，模型包括递归神经元网络。
122.示例50包括如示例41至49中任一项所述的系统，包括或不包括可选特征。在该示例中，模型包括时间延迟神经元网络。
123.并非本文中描述和示出的所有组件、特征、结构、特性等都需要包括在特定的一个或多个方面中。例如，如果说明书陈述“可以”、“可能”、“可”或“能够”包括组件、特征、结构或特性，则不要求包括该特定组件、特征、结构或特性。如果说明书或权利要求提及“一”或“一个”元件，则不意味存在仅仅一个元件。如果本说明书或权利要求提及“附加”元件，则并不排除存在多于一个附加元件。
124.应当注意，尽管已参考特定实现方式描述了一些方面，但根据一些方面其他实现方式也是可能的。此外，附图中示出的和/或本文中描述的电路元件或其他特征的布置和/或顺序不需要以所示出和描述的特定方式来布置。根据一些方面，许多其他布置是可能的。
125.在图中示出的每个系统中，元素在一些情况下可以各自具有相同的参考标号或不同的参考标号以意指所表示的元素可以是不同的和/或类似的。然而，元素可以足够灵活以具有不同实现方式，并且与本文中所示或所述的部分或全部系统一起工作。图中所示的各种元素可以是相同的或不同的。哪个被称为第一元素和哪个被称为第二元素是任意的。
126.应当理解，可以在一个或多个方面中的任何地方使用前述示例中的详情。例如，还可以关于本文中描述的方法或计算机可读介质中的任一者实现上面描述的计算设备的所有可选特征。此外，虽然本文中可能已经使用流程图和/或状态图来描述各方面，但本技术不限于那些图或者本文中的相应描述。例如，流程不需要移动通过每个所示的块或状态或者确切地按照本文中所示和描述的相同顺序来进行。
127.本技术不受限于本文中列出的具体细节。实际上，受益于本公开的本领域技术人员将认识到，可以在本技术的范围内对前述描述和附图进行许多其他变型。因此，所附权利要求包括限定本技术的范围的对这些权利要求的任意修改。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种移动智能恒温恒湿小提琴盒的制作方法

使用关键语句适应性地识别语音的制作方法

相关文章

最热文献