一种语音唤醒方法、装置、存储介质及设备与流程

2022-03-23 10:02:33 来源：中国专利 TAG：

1.本技术涉及人工智能(artificial intelligence，ai)技术领域，尤其涉及一种语音唤醒方法、装置、存储介质及设备。

背景技术：

2.随着人工智能的飞速发展，人机交互方式趋于多元化和智能化。一种比较典型的人机交互方式为语音交互。语音交互作为人们最常用的交互方式之一，也越来越多地应用于家居，车载，机器人等各个领域，从而进一步改变着人们的生活方式。
3.语音交互是指基于语音识别、自然语言处理和语音合成等技术实现通过语音进行人机交互。然而，语音交互并不是长时间持续发生的状态。在大部分时间段，电子设备处于待机或不工作状态。如果因为存在语音交互这一功能而让电子设备长期处于工作状态，则会降低电子设备的续航能力，影响用户体验，因此需要增加语音唤醒(keyword spotting，kws)功能。
4.语音唤醒是指在连续的语音数据流中实时检测出包括特定关键词(也即唤醒词)的片段，使电子设备由待机状态转为工作状态。相关技术通常是采用声学模型例如是混合高斯模型(gaussian mixed model，gmm)，或者是神经网络模型对语音数据流进行编码，然后通过(hidden markov model，hmm)对编码的特征向量进行解码，从而检测语音数据流是否包括唤醒词，进而确定是否唤醒电子设备。
5.很多电子设备通常是采用电池供电并使用低端芯片，这就要求用于唤醒电子设备的模型的参数量和计算量尽可能小。然而，模型的参数量减小很大程度上会造成唤醒率的下降，难以满足业务需求，影响用户体验。

技术实现要素：

6.本技术实施例的主要目的在于提供一种语音唤醒方法、装置、存储介质及设备，能够降低模型的参数量并具有较高的准确度。
7.本技术实施例提供了一种语音唤醒方法，包括：
8.接收语音数据流；
9.将所述语音数据流输入第一唤醒模型，获得第一识别结果；
10.当所述第一识别结果表征所述语音数据流中包括唤醒词对应的片段时，将所述语音数据流输入第二唤醒模型，获得第二识别结果，所述第一唤醒模型的功耗低于所述第二唤醒模型的功耗；
11.当所述第二识别结果表征所述语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态，以唤醒所述电子设备。
12.一种可能的实现方式中，所述语音数据流包括多个音频帧，所述第二唤醒模型包括第一预测网络，所述将所述语音数据流输入第二唤醒模型，获得第二识别结果，包括：
13.根据目标音频帧以及所述目标音频帧之前的音频帧，通过所述第一预测网络确定
所述目标音频帧的状态得分，所述目标音频帧为所述多个音频帧中的任意一个或多个；
14.根据所述目标音频帧的状态得分，获得所述目标音频帧的识别结果；
15.根据所述目标音频帧的识别结果，获得第二识别结果。
16.一种可能的实现方式中，所述第二唤醒模型还包括第二预测网络，所述方法还包括：
17.将所述语音数据流输入所述第二预测网络，获得所述语音数据流中所述目标音频帧的状态得分；
18.根据所述状态得分进行解码，获得解码得分；
19.当所述解码得分超过预唤醒门限时，将所述语音数据流输入所述第一预测网络。
20.一种可能的实现方式中，所述第一唤醒模型包括编码网络和解码网络，所述将所述语音数据流输入第一唤醒模型，获得第一识别结果，包括：
21.通过所述编码网络对所述语音数据流中多个音频帧分别进行编码，得到所述多个音频帧的状态得分；
22.根据所述多个音频帧的状态得分，从所述多个音频帧中确定候选音频帧；
23.通过所述解码网络对所述候选音频帧进行解码，获得第一识别结果。
24.一种可能的实现方式中，所述第一唤醒模型通过包括所述唤醒词的样本数据训练得到。
25.一种可能的实现方式中，所述语音数据流来自于用户，所述方法还包括：
26.根据所述语音数据流对所述用户进行身份识别，获得身份识别结果；
27.所述将电子设备切换为工作状态，包括：
28.当所述身份识别结果表征所述用户为许可用户，且所述第二识别结果表征所述语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态。
29.一种可能的实现方式中，所述根据所述语音数据流对所述用户进行身份识别，获得身份识别结果，包括：
30.从所述语音数据流中提取所述用户的声纹特征；
31.将所述用户的声纹特征和特征模板进行匹配，获得身份识别结果，其中，所述特征模板为所述许可用户预先录制的音频中提取的声纹特征。
32.本技术实施例还提供了一种语音唤醒装置，包括：
33.通信单元，用于接收语音数据流；
34.第一识别单元，用于将所述语音数据流输入第一唤醒模型，获得第一识别结果；
35.第二识别单元，用于当所述第一识别结果表征所述语音数据流中包括唤醒词对应的片段时，将所述语音数据流输入第二唤醒模型，获得第二识别结果，所述第一唤醒模型的功耗低于所述第二唤醒模型的功耗；
36.唤醒单元，用于当所述第二识别结果表征所述语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态，以唤醒所述电子设备。
37.一种可能的实现方式中，所述语音数据流包括多个音频帧，所述第二唤醒模型包括第一预测网络，所述第二识别单元可以用于：
38.根据目标音频帧以及所述目标音频帧之前的音频帧，通过所述第一预测网络确定所述目标音频帧的状态得分，所述目标音频帧为所述多个音频帧中的任意一个或多个；
39.根据所述目标音频帧的状态得分，获得所述目标音频帧的识别结果；
40.根据所述目标音频帧的识别结果，获得第二识别结果。
41.一种可能的实现方式中，所述第二唤醒模型还包括第二预测网络，第二识别单元还用于：
42.将所述语音数据流输入所述第二预测网络，获得所述语音数据流中所述目标音频帧的状态得分；
43.根据所述状态得分进行解码，获得解码得分；
44.当所述解码得分超过预唤醒门限时，将所述语音数据流输入所述第一预测网络。
45.一种可能的实现方式中，所述第一识别单元用于：
46.通过所述编码网络对所述语音数据流中多个音频帧分别进行编码，得到所述多个音频帧的状态得分；
47.根据所述多个音频帧的状态得分，从所述多个音频帧中确定候选音频帧；
48.通过所述解码网络对所述候选音频帧进行解码，获得第一识别结果。
49.一种可能的实现方式中，所述第一唤醒模型通过包括所述唤醒词的样本数据训练得到。
50.一种可能的实现方式中，所述语音数据流来自于用户，所述装置还包括身份识别单元，用于：
51.根据所述语音数据流对所述用户进行身份识别，获得身份识别结果；
52.所述唤醒单元，可以用于：
53.当所述身份识别结果表征所述用户为许可用户，且所述第二识别结果表征所述语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态。
54.一种可能的实现方式中，所述身份识别单元具体用于：
55.从所述语音数据流中提取所述用户的声纹特征；
56.将所述用户的声纹特征和特征模板进行匹配，获得身份识别结果，其中，所述特征模板为所述许可用户预先录制的音频中提取的声纹特征。
57.本技术实施例还提供了一种语音唤醒设备，包括：处理器、存储器、系统总线；
58.所述处理器以及所述存储器通过所述系统总线相连；
59.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音唤醒方法中的任意一种实现方式。
60.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音唤醒方法中的任意一种实现方式。
61.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音唤醒方法中的任意一种实现方式。
62.本技术实施例提供的一种语音唤醒方法、装置、存储介质及设备，首先电子设备接收语音数据流，然后将语音数据流输入功耗较低的第一唤醒模型，获取第一识别结果，当第一识别结果表征语音数据流中包括唤醒词对应的片段时，将该语音数据流输入至功耗较高的第二唤醒模型，获得较为精确的第二识别结果，当第二识别结果表征语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态，以唤醒电子设备。如此，由于第一唤醒
模型功耗较低，可以用于对语音数据流的初步识别，当第一唤醒模型识别结果表征语音数据流中包括唤醒词对应的片段时，可以将该语音数据流输入至第二唤醒模型进行二次识别，由于第二唤醒模型精度较高，因此可以实现对于语音数据流的精确识别。并且，通过第一唤醒模型可以过滤掉较多的数据，因此输入至第二唤醒模型的数据大幅减小，如此可以有效降低第二唤醒模型的功耗。因此，基于第二唤醒模型的识别结果对于电子设备进行状态切换，能够实现低功耗、高精度的语音唤醒。
附图说明
63.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
64.图1为本技术实施例提供的一种语音唤醒方法的场景示意图；
65.图2为本技术实施例提供的一种语音唤醒方法的流程示意图；
66.图3为本技术实施例提供的一种基于隐马尔科夫模型的关键词/填充词模型示意图；
67.图4为本技术实施例提供的一种身份识别的语音唤醒方法的示意图；
68.图5为本技术实施例提供的一种第二唤醒模型包括第一预测网络和第二预测网络的语音唤醒方法的流程示意图；
69.图6为本技术实施例提供的一种语音唤醒方法的装置示意图。
具体实施方式
70.随着人工智能的高速发展，语音交互作为人们最常用的交互方式之一，越来越多地应用于家居，车载，机器人等各个领域。用户可以在家中通过语音交互控制家居设备，也可以在车中通过语音交互控制车载设备，甚至可以通过语音交互控制机器人等。例如，电子设备通过对于人声进行语音识别，然后对于所识别的语音通过自然语言处理获得语音内容，然后基于语音内容执行对应操作，如电子设备可以基于语音合成通过语音对于人声内容进行回答。
71.在对于语音交互功能的日常使用中，语音交互并不是长时间持续发生的状态。当在语音交互场景中，电子设备长期处于工作状态时，会影响电子设备的续航能力，影响电子设备的使用寿命，因此大多数情况下，电子设备都处于待机状态，然后通过语音唤醒(keyword spotting，kws)功能将电子设备由待机状态转换为工作状态。
72.语音唤醒是指在连续的语音数据流中实时检测出包括特定醒词的片段，使电子设备由待机状态转为工作状态。通常情况下，语音唤醒技术可以采用声学模型对语音数据流进行编码解码，从而检测语音数据流中是否包括唤醒词，进而确定是否对电子设备进行唤醒。通常情况下，声学模型可以包括混合高斯模型(gaussian mixed model，gmm)和隐马尔科夫模型(hidden markov model，hmm)，其中混合高斯模型用于对语音数据流进行编码，隐马尔科夫模型用于对编码的特征向量进行解码。声学模型也可以包括神经网络模型和隐马尔科夫模型，其中神经网络模型用于对语音数据流进行编码，隐马尔科夫模型用于对编码
的特征向量进行解码。
73.通常情况下，具有语音唤醒功能的电子设备通常采用电池供电并使用低端芯片，因此需要唤醒电子设备的模型的参数量和计算量尽可能小，以降低语音唤醒的功耗。对于模型低功耗的需求一般可以采用模型深度压缩策略，从而减少模型大小，降低功耗。但是模型大小的减小在很大程度上会造成唤醒准确度的下降，难以满足业务需求，影响用户的使用体验。
74.有鉴于此，本技术提供了一种低功耗且具有高准确度的语音唤醒方法，该方法应用于电子设备。电子设备是指具有数据处理能力的设备，例如可以是服务器，或者是终端。其中，终端包括但不限于智能音箱、智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant，pda)或者智能穿戴设备等。
75.以智能音箱为例，该智能音箱可以在被唤醒后，根据语音数据流中包括的指令，执行对应的操作。智能音箱也可以与其他设备进行通信，在唤醒后实现对于其他设备的控制。例如，智能音箱可以应用于智能家居中，在被唤醒后根据语音数据流中包括的用户指令，控制打开卧室台灯。智能音箱也可以应用在车辆中，在被唤醒后根据语音数据流中包括的用户指令控制音乐播放器播放指定音乐。
76.服务器可以是云服务器，例如是中心云计算集群中的中心服务器，或者是边缘云计算集群中的边缘服务器。当然，服务器也可以是本地数据中心中的服务器。本地数据中心是指用户直接控制的数据中心。
77.具体地，电子设备接收语音数据流，将语音数据流输入识别精度较低的第一唤醒模型，获得第一识别结果，当第一识别结果表征语音数据流中包括唤醒词对应的片段时，将该语音数据流输入至第二唤醒模型，获得识别精度较高的第二识别结果，当第二识别结果表征语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态，实现对于电子设备的唤醒。其中，第一唤醒模型为功耗较低的模型，用于对语音数据流进行第一次识别，第二唤醒模型为功耗较高精度较高的模型，用于对通过第一次识别的语音数据流进行二次识别，由于第一唤醒模型过滤了绝大部分音频，因此第二唤醒模型只需要对较少的语音数据流进行识别，从而降低了模型功耗，并且具有较高的识别准确度。
78.该方法的应用场景可以如图1所示，其中，终端100接收用户所发出的语音数据流，将语音数据流输入识别精度较低的第一唤醒模型，获得第一识别结果，当第一识别结果表征语音数据流中包括唤醒词对应的片段时，将该语音数据流输入至第二唤醒模型，获得识别精度较高的第二识别结果，当第二识别结果表征语音数据流中包括唤醒词对应的片段时，将终端切换为工作状态，实现对于终端的唤醒。
79.为了使得本公开的技术方案更加清楚、易于理解，下面以电子设备为终端为例，对本公开实施例提供的语音唤醒方法进行介绍。如图2所示，该方法包括以下步骤：
80.s202：终端接收语音数据流。
81.通常情况下，当终端处于开启状态时，终端可以持续接收用户所发出的语音数据流。语音数据流具体是指连续的语音信号形成的流式数据。语音信号在宏观上是不平稳的，在微观上是平稳的，也即语音信号具有短时平稳性。一般情况下，10
‑‑‑
30毫秒(millisecond，ms)内可以认为语音信号近似不变，基于此，终端可以将语音信号分为一些短段来进行处理，每一个短段称为一帧(chunk)。因此，语音数据流可以包括多个语音帧。
82.在本实施例中，终端接收的语音数据流可以为某一个用户所产生的语音数据流，也可以包括多个用户所产生的语音数据流。例如，在会议场景中，终端接收的语音数据流可以为多个用户说话产生的语音数据流。
83.s204：终端将语音数据流输入第一唤醒模型，获得第一识别结果。
84.第一唤醒模型和第二唤醒模型均具有识别唤醒词进行语音唤醒的功能。其中，第一唤醒模型的功耗低于第二唤醒的模型的功耗。一般情况下，参数量较低的模型具有相对较低的功耗，参数量较高的模型具有相对较高的功耗，但具有较高的精度。基于此，第一唤醒模型可以是参数量相对较低的模型，第二唤醒模型可以是参数量相对较高的模型。第一唤醒模型用于预唤醒。
85.在一些可能的实现方式中，第一唤醒模型可以包括编码网络和解码网络。其中，编码网络用于对语音数据流中的多个音频帧分别进行编码，获得多个音频帧的状态得分。进一步地，编码网络可以根据多个音频帧的状态得分，从多个音频帧中确定候选音频帧，输入至解码网络。解码网络用于对候选音频帧进行解码，获得第一识别结果。
86.解码网络通常是基于隐马尔可夫模型(hidden markov model，hmm)，通过统计学分析实现解码。在一些可能的实现方式中，解码网络可以为基于hmm的关键词/填充词(keyword/filler)模型，也可以简称为filler模型。其中，关键词为用于唤醒模型的唤醒词，该唤醒词可以预先设置。
87.图3提供了keyword/filler模型的一种结构示意图，keyword/filler模型包括keyword结构和filler结构，keyword结构具体为唤醒词对应的hmm，图3中采用填充有图案的圆圈表示，filler结构具体为填充词(除了唤醒词以外的单词)对应的hmm，图3中采用空白的圆圈表示，其中，唤醒词对应的hmm还可以设计成带跳转的、带词间停顿的结构。上述唤醒词对应的hmm和填充词对应的hmm可以拼接为一个hmm。
88.具体地，解码网络可以根据每帧的状态得分，通过维特比(viterbi)算法获取最优路径。keyword结构在解码过程中，如果当前状态的得分高于前一状态，则进行自动跳转至前一状态，如果当前状态的得分低于前一状态，则由前一状态转移到当前状态，从而逐渐从第一个状态转移到最后一个状态。filler结构用于挑选所有状态的最高分减去惩罚项进行累加。当最后一个状态的得分高于filler结构得分时，表明该模型判断语音数据流中包括关键词对应的片段。相比于其他语音唤醒模型，关键词/填充词(keyword/filler)模型能够针对性地对keyword(唤醒词)进行解码，从而能够降低可选路径，减少模型的计算量和内存。
89.上述第一唤醒模型可以预先训练得到。其中，第一唤醒模型可以通过包括唤醒词的训练数据训练得到。具体地，终端可以初始化第一唤醒模型，然后将包括唤醒词的训练数据输入第一唤醒模型，根据第一唤醒模型的输出，更新第一唤醒模型的权重，由此实现对第一唤醒模型的训练。当第一唤醒模型满足训练结束条件时，终端可以停止训练，获得第一唤醒模型。该第一唤醒模型能够识别语音数据流是否包括唤醒词，从而实现预唤醒。
90.s206：终端判断第一识别结果是否表征语音数据流中包括唤醒词对应的片段。
91.第一识别结果用于表征该语音数据流中是否包括唤醒词。在一些可能的实现方式中，终端可以将语音数据流分为多个片段，第一唤醒模型对多个片段进行分别判断，输出对应的第一识别结果。第一识别结果用于表征该片段中是否包括唤醒词。
92.由于第一唤醒模型功耗较低，模型参数量较小，因此可能存在误唤醒的情况，即可能存在语音数据流片段中存在与唤醒词相近的内容，也可能被第一唤醒模型判断通过，因此需要采用更高精度的模型进行二次确认。
93.当第一识别结果表征语音数据流中包括唤醒词对应的片段时，终端执行s208；否则，终端执行s218。
94.s208：终端将语音数据流输入第二唤醒模型，获得第二识别结果。
95.其中，第二唤醒模型为功耗较高的模型，具有较高的识别精度。第二唤醒模型的功耗高于第一唤醒模型的功耗。
96.当第一唤醒模型输出的第一识别结果表征语音数据流中包括唤醒词对应的片段时，为了避免误唤醒情况的发生，终端可以通过第二唤醒模型对于语音数据流进行二次判断。
97.相比于第一唤醒模型，第二唤醒模型的参数量和计算量均较大，因此模型的学习能力较强，能够对一些发音相近的词进行更好的区分。因此，尽管第二唤醒模型的功耗较大，但是只对第一唤醒模型表征语音数据流中包括唤醒词的片段进行判断，相比于对整个语音数据流进行判断，所需进行判断的数据流较少。因此，该方法可以在功耗较小的情况下具有较高的准确度。
98.s210：终端判断第二识别结果是否表征语音数据流中包括唤醒词对应的片段。
99.第二识别结果用于表征该片段中是否包括唤醒词。由于第二唤醒模型为参数量较大、计算量较大的模型，因此模型可以对经过第一唤醒模型判断包括唤醒词的片段进行进一步判断，从而输出准确的判断结果。终端可以基于第二识别结果确定是否需要对电子设备进行唤醒。
100.当第二识别结果表征语音数据流中包括唤醒词对应的片段时，终端执行s212；否则执行s218。
101.s212：终端根据语音数据流对用户进行身份识别，获得身份识别结果。
102.在一些可能的实现方式中，为了避免其他用户对于终端的误唤醒，因此可以预先提取用户的声纹特征，然后根据语音数据流中的声纹特征与预先存储的声纹特征进行匹配，获得身份识别结果。
103.具体地，如图4所示，当用户进行注册时，终端可以向用户发出提供音频请求，根据用户所提供的音频，终端可以利用神经网络模型从音频中提取该用户的特征模板。当在进行语音唤醒操作时，终端从语音数据流中提取用户的声纹特征，将用户的声纹特征和特征模板进行匹配，根据相似度获得身份识别结果。
104.s214：终端判断身份识别结果是否表征用户为许可用户。
105.身份识别结果用于对用户的身份进行确认，当用户为许可用户时，终端根据语音数据流中所包括的唤醒词，将电子设备切换为工作状态，当用户不为许可用户时，终端不执行对应操作。如此，可以排除非许可用户的唤醒行为，使用户产生个性化、定制化的服务体验。其中，许可用户可以为一个或多个用户。
106.当身份识别结果表征用户为许可用户时，执行s216；否则执行s218。
107.s216：终端将电子设备切换为工作状态。
108.在一些可能的实现方式中，电子设备为该终端，因此终端可以在通过上述第一唤
醒模型、第二唤醒模型以及身份验证后后，将自身状态切换为工作状态，实现对该终端自身进行唤醒，进而根据语音数据流中包括的指令执行对应操作。例如，终端可以为智能音箱，当第二识别结果表征语音数据流中包括唤醒词对应的片段时，智能音箱将自身状态切换为工作状态，根据语音数据流中包括的指令播放对应的歌曲。
109.在另一些可能的实现方式中，电子设备为除该终端以外的其他设备，该终端将其他电子设备的状态切换为工作状态，实现对于其他电子设备的唤醒。例如，终端可以为智能音箱，当第二识别结果表征语音数据流中包括唤醒词对应的片段时，智能音箱将智能电视的状态切换为工作状态，根据语音数据流中包括的指令播放对应的电影。
110.s218：终端结束当前流程。
111.当第一识别结果表征语音数据流中不包括唤醒词对应的片段时，即表明语音数据流中不包括对电子设备进行唤醒的指令，因此终端结束当前流程，电子设备保持待机状态。
112.当第二识别结果不表征语音数据流中包括唤醒词对应的片段时，即表明第一唤醒模型判断错误，该语音数据流的片段中不包括唤醒词，因此，终结束当前流程，电子设备保持待机状态。
113.当身份识别结果表征该用户不为许可用户时，即表明该语音数据流不为许可用户所发出的，因此，终端结束当前流程，电子设备保持待机状态。
114.如此，本技术提供了一种语音唤醒方法，该方法通过功耗较低的第一唤醒模型进行初步判断，对于第一唤醒模型判断包括唤醒词的片段，采用精度较高的第二唤醒模型进行进一步判断，由此输出具有较高精度的语音唤醒方法。进一步地，还可以根据语音数据流中的声纹特征进行身份验证，当身份验证通过时，唤醒电子设备，从而提供一种功耗较低、精度较高且个性化的语音唤醒方法。
115.在一些可能的实现方式中，该方法也可以不包括上述s212至s214，即对用户进行身份识别可以为可选步骤。
116.由于大量语音数据采用功耗较低的第一唤醒模型进行判断，输入至第二唤醒模型的数据大幅减小，因此精度较高的第二唤醒模型仅需要对少量的语音数据进行判断，如此可以有效降低第二唤醒模型的功耗。因此，基于第二唤醒模型的识别结果对于电子设备进行状态切换，能够实现低功耗、高精度的语音唤醒。
117.以上对于本技术提供的一种语音唤醒方法中的具体流程进行了介绍，在一些可能的实现方式中，第二唤醒模型可以包括第一预测网络和第二预测网络，终端可以通过第一预测网络和第二预测网络获取第二识别结果，下面如图5所示，对于第二唤醒模型包括第一预测网络和第二预测网络时的s208进行具体介绍。当第二唤醒模型包括第一预测网络和第二预测网络时，该方法包括以下步骤：
118.s502：终端将语音数据流输入第二预测网络，获得语音数据流中目标音频帧的状态得分。
119.语音数据流包括多个音频帧。第二预测网络用于对语音数据流中目标音频帧进行预测，输出该目标音频帧的状态得分。其中，目标音频帧为当前音频帧。在一些可能的实现方式中，第二预测网络可以为神经网络，终端通过神经网络对当前音频帧进行编码，获得当前音频帧的状态得分。
120.s504：终端根据状态得分进行解码，获得解码得分。
121.在一些可能的实现方式中，可以通过基于隐马尔科夫模型的关键词/填充词模型进行解码，获得解码得分。
122.s506：终端判断解码得分是否超过预唤醒门限。
123.预唤醒门限为该音频帧中包括唤醒词的概率门限。解码得分超过预唤醒门限时，表明该音频帧具有较大概率包括唤醒词。其中，预唤醒门限通常低于正常门限。在一些可能的实现方式中，当解码得分超过预唤醒门限时，模型通过第一预测网络根据当前音频帧和当前音频帧以前的音频帧确定目标音频帧的状态得分。当解码得分没有超过预唤醒门限时，模型通过传统高功耗唤醒模型根据当前音频帧、当前音频帧以前的音频帧以及以后的音频帧获确定目标音频帧的状态得分。由于第一预测网络的响应时间短于传统高功耗唤醒模型的响应时间，因此当解码得分超过预唤醒门限时，通过第一预测网络进行预测能够减小响应时间。
124.当解码得分不超过预唤醒门限时，执行s508；否则执行s510。
125.s508：终端通过传统唤醒模型获得第二识别结果。
126.当终端判断解码得分没有超过预唤醒门限时，表明该语音数据流并不具有较大概率包括唤醒词，因此可以采用传统高功耗唤醒模型获得第二识别结果。通常情况下，传统高功耗唤醒模型根据目标音频帧、目标音频帧之前的音频帧以及目标音频帧之后的音频帧获得第二识别结果。具体地，终端通过第二唤醒模型获得目标音频帧的状态得分，根据状态得分获得识别结果，从而获得第二识别结果。
127.s510：终端将语音数据流输入第一预测网络。
128.第一预测网络用于根据当前帧以及当前帧以前的音频帧确定目标音频帧的状态得分。相比于传统高功耗唤醒模型，第一预测网络无需根据当前帧之后的音频帧进行判断，因此右视野为0，响应时间较短。而由于语音数据流的解码得分高于预唤醒门限，即表明该语音数据流中包括唤醒词的概率较高，因此可以通过第一预测网络根据当前帧以及当前帧以前的音频帧确定目标音频帧的状态得分，具有较高的识别精度。
129.s512：终端根据目标音频帧以及目标音频帧之前的音频帧，通过第一预测网络确定目标音频帧的状态得分。
130.由于该目标视频帧具有较大的概率包括唤醒词，因此终端可以根据目标音频帧以及目标音频帧之前的音频帧，通过第一预测网络确定目标音频帧的状态得分。相比于传统高功耗唤醒模型，由于第一预测网络仅需要根据当前音频帧和当前音频帧以前的音频帧即可以对是否包括唤醒词进行判断，第一预测网络的右视野为0，其响应时间较短，因此能够有效减少响应时间。
131.s514：终端根据目标音频帧的状态得分，获得目标音频帧的识别结果。
132.终端可以根据第一预测网络输出的目标音频帧的状态得分，获得对应的目标音频帧的识别结果。其中，不同状态得分与识别结果可以为阶梯对应，也可以为一一对应。例如，当目标音频帧的状态得分低于某一预设阈值时，目标音频帧的识别结果为不包括唤醒词，当目标音频帧的状态得分高于某一预设阈值时，目标音频帧的识别结果为包括唤醒词。又例如，当目标音频帧的状态得分为a，目标音频帧的状态得分的满分为100时，目标音频帧的识别结果为该音频帧中包括唤醒词的概率为a％。
133.s516：终端根据目标音频帧的识别结果，获得第二识别结果。
134.第二识别结果是指第二唤醒模型对于语音数据流中是否包括唤醒词对应的片段所输出的识别结果。当第二唤醒模型包括第一预测网络时，终端可以根据第一预测网络所输出的目标音频帧的状态得分，获得表征语音数据流中是否包括唤醒词的第二识别结果。
135.如此，终端可以通过第二预测网络根据语音数据流中目标音频帧的解码得分进行预判断，当解码得分超过预唤醒门限时，可以采用第一预测网络进行判断，由于第一预测网络仅需要目标音频帧和目标音频帧之前的音频帧，因此响应时间较短，能够有效减少第二唤醒模型的响应时间。并且，由于根据解码得分进行了预判断，在此基础上通过第一预测网络进行预测仍然具有较高的识别精度。
136.在一些可能的实现方式中，通过第二唤醒模型获得第二识别结果可以仅包括上述s510至s516，终端可以直接将语音数据流输入第一预测网络，通过第一预测网络获得目标音频帧的状态得分，进而获取目标音频帧的识别结果以及第二识别结果，从而能够较快地获得第二识别结果。
137.图6是根据一示例性公开实施例示出的一种语音唤醒装置的示意图，如图6所示，所述语音唤醒装置600包括：
138.通信单元602，用于接收语音数据流；
139.第一识别单元604，用于将所述语音数据流输入第一唤醒模型，获得第一识别结果；
140.第二识别单元606，用于当所述第一识别结果表征所述语音数据流中包括唤醒词对应的片段时，将所述语音数据流输入第二唤醒模型，获得第二识别结果，所述第一唤醒模型的功耗低于所述第二唤醒模型的功耗；
141.唤醒单元608，用于当所述第二识别结果表征所述语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态，以唤醒所述电子设备。
142.一种可能的实现方式中，所述语音数据流包括多个音频帧，所述第二唤醒模型包括第一预测网络，所述第二识别单元606可以用于：
143.根据目标音频帧以及所述目标音频帧之前的音频帧，通过所述第一预测网络确定所述目标音频帧的状态得分，所述目标音频帧为所述多个音频帧中的任意一个或多个；
144.根据所述目标音频帧的状态得分，获得所述目标音频帧的识别结果；
145.根据所述目标音频帧的识别结果，获得第二识别结果。
146.一种可能的实现方式中，所述第二唤醒模型还包括第二预测网络，第二识别单元606还用于：
147.将所述语音数据流输入所述第二预测网络，获得所述语音数据流中所述目标音频帧的状态得分；
148.根据所述状态得分进行解码，获得解码得分；
149.当所述解码得分超过预唤醒门限时，将所述语音数据流输入所述第一预测网络。
150.一种可能的实现方式中，所述第一识别单元604用于：
151.通过所述编码网络对所述语音数据流中多个音频帧分别进行编码，得到所述多个音频帧的状态得分；
152.根据所述多个音频帧的状态得分，从所述多个音频帧中确定候选音频帧；
153.通过所述解码网络对所述候选音频帧进行解码，获得第一识别结果。
154.一种可能的实现方式中，所述第一唤醒模型通过包括所述唤醒词的样本数据训练得到。
155.一种可能的实现方式中，所述语音数据流来自于用户，所述装置还包括身份识别单元610，用于：
156.根据所述语音数据流对所述用户进行身份识别，获得身份识别结果；
157.所述唤醒单元608，可以用于：
158.当所述身份识别结果表征所述用户为许可用户，且所述第二识别结果表征所述语音数据流中包括唤醒词对应的片段时，将电子设备切换为工作状态。
159.一种可能的实现方式中，所述身份识别单元610具体用于：
160.从所述语音数据流中提取所述用户的声纹特征；
161.将所述用户的声纹特征和特征模板进行匹配，获得身份识别结果，其中，所述特征模板为所述许可用户预先录制的音频中提取的声纹特征。
162.进一步地，本技术实施例还提供了一种语音唤醒设备，包括：处理器、存储器、系统总线；
163.所述处理器以及所述存储器通过所述系统总线相连；
164.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音唤醒方法的任一种实现方法。
165.进一步地，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述语音唤醒方法的任一种实现方法。
166.进一步地，本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述语音唤醒方法的任一种实现方法。
167.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
168.需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
169.还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
170.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：系统构建、信息录制、模型训练方法、装置、设备及介质与流程

一种语音唤醒方法、装置、存储介质及设备与流程

相关文献

最热文献