识别唤醒词的方法、装置、存储介质及电子装置与流程

2022-12-10 09:09:22 来源：中国专利 TAG：

1.本发明实施例涉及语音唤醒领域，具体而言，涉及一种识别唤醒词的方法、装置、存储介质及电子装置。

背景技术：

2.近年来，随着信息化技术的快速发展，语音识别相关的技术已经极大的方便和丰富了人们的生活。在智能家居设备、视频会议设备、家电设备等中配置了完善的语音唤醒功能。用户可以说出唤醒词，唤醒设备，然后开始与设备的人机语音交互。因此语音唤醒是语音交互的重要环节。
3.目前的唤醒词识别中，常常需要定义多个唤醒词，并对这些不同的唤醒词同时训练，在同一个模型中进行分类任务，这将导致多个唤醒词之间存在串扰，导致会出现识别唤醒词的准确率不高，从而会增加设备误唤醒率。因此，现有技术中存在由于唤醒词之间的串扰导致唤醒词识别的准确率较低的问题。
4.针对相关技术中存在的由于唤醒词之间的串扰导致唤醒词识别的准确率较低的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种识别唤醒词的方法、装置、存储介质及电子装置，以至少解决相关技术中存在的由于唤醒词之间的串扰导致唤醒词识别的准确率较低的问题。
6.根据本发明的一个实施例，提供了一种识别唤醒词的方法，包括：对目标语音信号进行特征提取，得到多帧声学特征向量；通过深度神经网络对所述多帧声学特征向量进行处理，得到目标处理结果；通过解码图对所述多帧声学特征向量进行解码，得到目标解码结果；根据所述目标处理结果和所述目标解码结果，确定所述目标语音信号中唤醒词的识别结果。
7.在一个示例性实施例中，通过深度神经网络对所述多帧声学特征向量进行处理，得到目标处理结果，包括：将所述多帧声学特征向量输入深度神经网络，通过所述深度神经网络对所述多帧声学特征向量中的每帧声学特征向量进行分类，得到各帧声学特征向量对应的音素后验特征向量，其中，所述目标处理结果包括所述各帧声学特征向量对应的音素后验特征向量。
8.在一个示例性实施例中，所述通过解码图对所述多帧声学特征向量进行解码，得到目标解码结果，包括：通过解码图中的多条路径对所述多帧声学特征向量进行解码，得到目标路径；将所述目标路径确定为所述目标解码结果。
9.在一个示例性实施例中，通过解码图中的多条路径对所述多帧声学特征向量进行解码，得到目标路径，包括：通过令牌传递算法在所述解码图的所述多条路径中确定所述目标路径。
10.在一个示例性实施例中，所述根据所述目标处理结果和所述目标解码结果，对所
述目标语音信号中待识别的唤醒词进行识别，包括：在目标路径上包含待识别的唤醒词的情况下，在各帧声学特征向量对应的音素后验特征向量中确定与所述待识别的唤醒词对应的目标音素后验特征向量，其中，所述所述目标处理结果包括所述各帧声学特征向量对应的音素后验特征向量，所述目标解码结果包括所述目标路径；通过所述目标音素后验特征向量对所述待识别的唤醒词进行识别。
11.在一个示例性实施例中，所述通过所述目标音素后验特征向量对所述待识别的唤醒词进行识别，包括：确定所述目标音素后验特征向量与预设的标准模板之间的目标距离；根据所述目标距离与预设的标准距离之间的关系对所述待识别的唤醒词进行识别。
12.在一个示例性实施例中，所述根据所述目标距离与预设的标准距离之间的关系对所述待识别的唤醒词进行识别，包括：在所述目标距离与预设的目标标准距离之间的差值小于或等于预设阈值的情况下，将将所述待识别的唤醒词确定为所述目标语音信号中唤醒词的识别结果。
13.根据本发明的又一个实施例，还提供了一种识别唤醒词的装置，包括：提取模块，用于对目标语音信号进行特征提取，得到多帧声学特征向量；处理模块，用于通过深度神经网络对所述多帧声学特征向量进行处理，得到目标处理结果；解码模块，用于通过解码图对所述多帧声学特征向量进行解码，得到目标解码结果；确定模块，用于根据所述目标处理结果和所述目标解码结果，确定所述目标语音信号中唤醒词的识别结果。
14.根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
15.根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
16.通过本发明，通过对声学特征向量进行解码，得到目标解码结果，通过声学特征向量对应的多帧后验特征向量验证目标结果，不直接将目标解码结果作为识别结果，而是根据目标处理结果对目标解码结果验证后确定目标语音信号中唤醒词的识别结果，避免了由于唤醒词之间的串扰，使将目标语音信号中的唤醒词识别为其他的唤醒词，从而提高了唤醒词识别的准确率。
附图说明
17.图1是根据本发明实施例的识别唤醒词的方法的移动终端硬件结构框图；
18.图2是根据本发明实施例的识别唤醒词的方法的流程图；
19.图3是根据本发明具体实施例的识别唤醒词的方法的流程图；
20.图4是根据本发明实施例的识别唤醒词的装置的结构框图。
具体实施方式
21.下文中将参考附图并结合实施例来详细说明本发明的实施例。
22.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
23.本技术实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是根据本发明实施例的识别唤醒词的方法的移动终端硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102 可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置) 和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
24.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的识别唤醒词的方法对应的计算机程序，处理器 102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
25.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，简称为 nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，简称为rf) 模块，其用于通过无线方式与互联网进行通讯。
26.在本实施例中提供了一种识别唤醒词的方法，图2是根据本发明实施例的识别唤醒词的方法的流程图，如图2所示，该流程包括如下步骤：
27.步骤s202，对目标语音信号进行特征提取，得到多帧声学特征向量；
28.步骤s204，通过深度神经网络对所述多帧声学特征向量进行处理，得到目标处理结果；
29.步骤s206，通过解码图对所述多帧声学特征向量进行解码，得到目标解码结果；
30.步骤s208，根据所述目标处理结果和所述目标解码结果，确定所述目标语音信号中唤醒词的识别结果。
31.在上述步骤s202提供的技术方案中，目标语音信号为语音采集设备采集的语音信号，在进行目标语音信号中的唤醒词识别之前,需要根据语音信号的波形提取有效的声学特征，特征提取对后续唤醒词识别系统的准确性极其关键。
32.提取声学特征向量的模型可以包括以下至少之一：mfcc (mel-frequency cepstral coefficients,梅尔倒谱系数)、fbank (filter bank,滤波器组特征)、plp(perceptual linear predictive, 感知线性预测)、pcen(per-channel energy normalization,通道能量归一化特征)等。
33.在上述步骤s204提供的技术方案中，深度神经网络可以为深度神经网络-隐马尔科夫模型架构(deep neural network-hidden markov model， dnn-hmm)中的深度神经网络，将多帧声学特征向量输入到深度神经网络中，得到多帧声学特征向量中每一帧声学特征向量在预先定义好的k类音素上的后验特征向量，即目标处理结果。
34.在上述步骤s206提供的技术方案中，上述解码图为hclg解码图，hclg 解码图是通过语言模型、词典、上下文音素和hmm构建的一个大的资源图。在hclg中对多帧声学特征向量进行解码，得到目标解码结果。
35.hclg解码图中包含多个路径，通过解码过程在多个路径中选取一个或多个最优路径作为目标解码结果，且每个路径上包括对应单词级别的结果，例如，在hclg上解码的最优路径是路径1，路径1上对应的单词级别的结果为“请开启设备”。
36.在上述步骤s208提供的技术方案中，目标解码结果中判断是否解析到唤醒词，如果没有解析到唤醒词，则确定目标语音信号中不包含唤醒词，不对设备进行唤醒；而如果解析到唤醒词的情况下，根据目标处理结果和目标解码结果确定在解码图中解码到的唤醒词是否为目标语音信号中包含的唤醒词。例如。在hclg解码图中的解码结果为“请开启设备”，则解码结果中包含唤醒词“开启”，进一步的结合目标处理结果和目标解码结果确认目标语音信号中包含“开启”这一唤醒词，确认之后将“开启”作为在目标语音信号中识别到的唤醒词。
37.通过上述步骤，通过对声学特征向量进行解码，得到目标解码结果，通过声学特征向量对应的多帧后验特征向量验证目标结果，不直接将目标解码结果作为识别结果，而是根据目标处理结果对目标解码结果验证后确定目标语音信号中唤醒词的识别结果，由于对声学特征向量处理得到的是音素后验特征，对多帧声学特征向量进行解码后的解码结果与音素后验特征进行音素后验特征匹配，对解码过程得到的解码结果的准确性进行判断，以减少了唤醒词之间的串扰使解码结果出现的误差，从而确定目标语音信号中唤醒词的识别结果，避免了由于唤醒词之间的串扰，使将目标语音信号中的唤醒词识别为其他的唤醒词，从而提高了唤醒词识别的准确率。
38.在一个可选的实施例中，通过深度神经网络对所述多帧声学特征向量进行处理，得到目标处理结果，包括：将所述多帧声学特征向量输入深度神经网络，通过所述深度神经网络对所述多帧声学特征向量中的每帧声学特征向量进行分类，得到各帧声学特征向量对应的音素后验特征向量，其中，所述目标处理结果包括所述各帧声学特征向量对应的音素后验特征向量。
39.在本实施例中，预先定义有k个音素，对唤醒词和非唤醒词进行音素建模，对于唤醒词采用精细建模的方式，即一个唤醒词包含了多个音素；对于非唤醒词则采用粗放建模，即非唤醒词为词建模的方式，一个非唤醒词对应一个音素。
40.深度神经网络的输入是一帧声学特征向量，输出的是该帧对应的音素后验特征向量，例如对目标语音信号进行特征提取得到的多帧声学特征向量为：uo＝{o1,o2,...,on}，其中n为多帧声学特征向量的帧数，将每一帧声学特征向量依次输入深度神经网络得到对应帧的音素后验特征向量，多帧声学特征向量对应多帧音素后验特征向量：第一帧声学特征向量o1对应的音素后验特征向量为第二帧声学特征向量o2对应的音素后验特征向量为以此类推第n帧声学特征向量on对应的音素后验特征向量为
41.一个音素后验特征向量pg表示对应的语音特征向量o在预先定义好的k个音素{c1,c2,...,ck}上的后验概率分布，表示为：
42.pgo＝{p(c1|o),p(c2|o),...p(ck|o)}
43.其中p(c1|o)是特征向量o在第1类音素上的后验概率，p(c2|o)是特征向量o在第2类音素上的后验概率，以此类推，p(ck|o)是特征向量o 在第k类音素上的后验概率。
44.目标处理结果中包含多帧音素后验特征向量，多帧音素后验特征向量中的每帧音素后验特征向量和多帧声学特征向量中的每帧声学特征向量一一对应。
45.在一个可选的实施例中，所述通过解码图对所述多帧声学特征向量进行解码，得到目标解码结果，包括：通过解码图中的多条路径对所述多帧声学特征向量进行解码，得到目标路径；将所述目标路径确定为所述目标解码结果。
46.在本实施例中，在hclg解码图中包含多条路径，每一个路径上所有节点的输出总和，即构成输出的句子或单词。构建了hclg解码图后，根据多帧声学特征向量在hclg解码图中找到最优路径，最优路径上输出标签序列在待识别语音上的代价要尽可能小，在最优路径上取出的输出标签序列就是单词级别识别结果，这个过程就是解码。也可以找到最优的多条路径，最优的多条路径的识别结果被称为n-best列表。
47.在一个可选的实施例中，通过解码图中的多条路径对所述多帧声学特征向量进行解码，得到目标路径，包括：通过令牌传递算法在所述解码图的所述多条路径中确定所述目标路径。
48.在本实施例中，令牌传递算法是通过在起始节点放置令牌，一个起始节点对应一个令牌，如果有多个起始节点，则每个起始节点放置一个令牌。对多帧声学特征向量按帧进行解码，解码第一帧(解码第一个声学特征向量)后，根据解码到的信息将起始节点上的令牌传递到下一节点，并计算传递代价，然后再解码第二帧声学特征向量，根据解码到的信息将令牌从当前节点再传递到下一节点，累积传递代价，依次解码所有声学特征向量，在解码完最后一帧后，查看令牌所在的状态节点，回溯出当前令牌所经过的路径，在每一次传递的过程中计算传递代价并累积。如果一个状态节点有多个跳转，则把令牌复制多份，分别传递。在传递到最后一帧，检查当前解码图中的所有令牌的传递代价，根据传递代价选出最优的一个或多个路径，传递代价越低，则表示对应路径越优。
49.最优路径是指在全局上最优，而全局最优必然局部最优，即如果一条路径是全局最优的，那么该路径必然是其经过任意状态的局部最优路径。所以，当多个令牌传递到同一状态节点上时，只保留最优的令牌(累积代价最小的令牌)即可。
50.在一个可选的实施例中，所述根据所述目标处理结果和所述目标解码结果，对所述目标语音信号中待识别的唤醒词进行识别，包括：在目标路径上包含待识别的唤醒词的情况下，在各帧声学特征向量对应的音素后验特征向量中确定与所述待识别的唤醒词对应的目标音素后验特征向量，其中，所述所述目标处理结果包括所述各帧声学特征向量对应的音素后验特征向量，所述目标解码结果包括所述目标路径；通过所述目标音素后验特征向量对所述待识别的唤醒词进行识别。
51.在本实施例中，判断目标路径对应输出的句子或单词中是否包含唤醒词，在输出的句子或单词中包含唤醒词(即待识别的唤醒词)的情况下，在各帧声学特征向量对应的音素后验特征向量中找到该唤醒词对应的一帧或多帧音素后验特征向量，确定为目标音素后验特征向量，根据目标音素后验特征向量确定是否将该唤醒词作为本次识别的结果。
52.其中，目标音素后验特征向量中包含一帧或多帧音素后验特征向量。
53.举例来说，目标路径中输出的句子为“请开启设备”，而该句子中“请”和“设备”属于非唤醒词，“开启”属于唤醒词，在这种情况下，目标路径上是包含待识别的唤醒词的，在目标处理结果中的多帧音素后验特征向量中找到与“开启”对应的音素后验特征向量，确定为目标音素后验特征向量，假设在对声学特征向量进行分类，得到10帧音素后验特征向量，表示为：假设其中“请”对应于第一个音素后验特征向量“开启”对应于第2～8帧音素后验特征向量设备对应于第9和10帧音素后验特征向量pg
o9
、pg
o10
，则将{pg
o2
,...,pg
o8
}确定为目标音素后验特征向量。
54.在一个可选的实施例中，所述通过所述目标音素后验特征向量对所述待识别的唤醒词进行识别，包括：确定所述目标音素后验特征向量与预设的标准模板之间的目标距离；根据所述目标距离与预设的标准距离之间的关系对所述待识别的唤醒词进行识别。
55.在本实施例中，对于每一个唤醒词都预设一个对应的音素后验特征向量序列(即标准模板)，计算待识别的唤醒词对应的标准模板与目标音素后验特征向量序列之间的目标距离，在目标距离与预设的标准距离之间的关系确认是否将待识别的唤醒词作为本次唤醒词的识别结果。
56.需要说明的是，计算标准模板和目标音素后验特征向量序列之间的目标距离使用动态规整算法。
57.标准模板对应的音素后验特征向量序列为u
x
＝{x1,x2,...,xn}， uy＝{y1,y2,...,ym}，n和m分别表示两个序列音素后验特征向量的帧数，建立一个距离矩阵d，距离矩阵中的元素d(i,j)表示表示标准模板中第i帧向量与目标音素后验特征向量序列第j帧向量之间的距离，使用负对数内积度量表示标准模板中第i帧向量与目标音素后验特征向量序列第j帧向量之间的距离，即第i帧向量和第j帧向量之间的距离为d(i,j)＝-lg(xi·
yj)。
58.用φ表示u
x
与uy之间的一种可能的对应关系:
59.φ(k)＝(ik,jk),k＝1,2,...,t。
60.其中,t表示时间，k为t的自变量，在k时刻u
x
序列中的第i帧向量与uy序列中的第j帧序列对应。
[0061][0062]
在矩阵d中找出一个最优对应序列φ'，最优序列φ'对应的累计失真值最小为：
[0063][0064]
将最小的累积失真值确定为目标音素后验特征向量序列与预设的标准模板之间的目标距离。
[0065]
在一个可选的实施例中，所述根据所述目标距离与预设的标准距离之间的关系对所述待识别的唤醒词进行识别，包括：在所述目标距离与预设的标准距离之间的差值小于或等于预设阈值的情况下，将所述待识别的唤醒词确定为所述目标语音信号中唤醒词的识别结果。
[0066]
在本实施例中，预设的标准距离是通过唤醒词测试集的正样本数据唤醒词标准模板计算得到的，唤醒词测试集中有多个测试样本，测试样本之间存在语调、语速可能存在差异，因此，计算每个测试样本对应的后验特征向量序列与标准模板之间的距离，可以得到多
个匹配距离，根据多个匹配距离得到标准距离。标准距离可以是通过计算多个匹配距离的平均值得到，也可以是其他的确定方法，在此不作限定。
[0067]
以唤醒词为“开启”为例，唤醒词测试集中有10个“开启”的测试样本，在这10个测试样本中，“开启”可能是由不同口音、不用语速说出的语音。获取每个测试样本的后验特征向量序列，标准模板是由普通话和标准语速说出的语音得到的后验特征向量序列。将每个每个测试样本的后验特征向量序列与标准模板进行距离匹配，得到标准距离。
[0068]
在计算的目标距离和标准距离之间的差值小于或等于预设阈值的情况下，将在目标解码结果中的待识别的唤醒词确定为最终的识别结果，即目标语音信号中唤醒词的识别结果。例如，目标解码结果“请开启设备”中待识别的唤醒词为“开启”，在计算的目标距离和标准距离之间的差值小于或等于预设阈值的情况下，将“开启”确定为识别结果，即确定目标语音信号中包含唤醒词“开启”，进而设备根据唤醒词执行对应的操作，即设备执行开启操作。
[0069]
显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。
[0070]
下面结合实施例对本发明进行具体说明：
[0071]
图3是根据本发明具体实施例的识别唤醒词的方法的流程图，如图3 所示，
[0072]
s301：获取语音信号，提取多帧声学特征向量；
[0073]
通过设备上的语音信号采集设备采集语音信号，并在语音信号中提取声学特征；
[0074]
s302：利用深度神经网络对多帧声学特征向量分类，并得到多帧音素后验特征向量；
[0075]
采用训练好的模型对多帧声学特征帧进行分类。训练好的模型为深度神经网络-隐马尔科夫模型(deep neural network-hidden markov model， dnn-hmm)架构，建模的单元为音素。
[0076]
深度神经网络的输入为一帧的声学特征，输出则为一个音素后验特征向量。输入一个声学特征向量o，输出该特征向量在预先定义好的k个类 {c1,c2,...,ck}上的后验概率分布为：
[0077]
pgo＝(p(c1|o)p(c2|o)...p(ck|o))
[0078]
其中p(ci|o)是特征向量o在第i类上的后验概率，这里的类可定义为任何种类的语音单元，比如音素。本专利中使用的即为音素级的后验特征。
[0079]
利用已经训练好的dnn-hmm模型，其中的dnn可以得到以帧为单位的音素后验特征。
[0080]
s303：构建hclg解码图，进行时序解码，得到最优路径；
[0081]
dnn-hmm模型中，根据hclg解码图实现声学特征序列的解码，通过在解码图中找到的最优的多条路径，得到识别结果的列表(n-best列表)。解码图的构建依赖于语言模型、词典、上下文音素和hmm构成的一个大的资源图。令牌传递算法按帧进行，执行到最后一帧时，令牌传递结束，此时查看终止状态上的令牌，取最优的一个或多个令牌，按照其上的信息可以取出或者回溯出这些令牌所对应的路径，这样就得到了识别结果。该路径累积了声学模型和语言模型两部分的似然值，假设似然值最高的路径中解码到唤醒词的若干帧的累积似然值为ph。
[0082]
s304：根据最优路径中是否解码到唤醒词，进行音素后验特征匹配，计算负对数内
积；
[0083]
根据hmm时序解码的结果，决定是否进行音素后验概率的匹配。一旦步骤三中解码到唤醒词，则根据路径上的唤醒词对应的帧进行音素后验概率匹配。
[0084]
音素后验概率即dnn输出的音素分类概率，时序匹配使用动态时间规整算法将唤醒词对应的音素后验概率序列与标准模板进行距离的计算，这里采用内积度量计算两个序列之间的距离。
[0085]
音素特征向量的序列匹配采用如下动态时间规整算法。给定两个连续语音片段的特征向量序列，u
x
＝{x1,x2,...,xn}，uy＝{y1,y2,...,ym}，n和m分别表示两个序列特征向量的帧数，通过定义语音帧的特征向量之间的距离，建立一个距离矩阵d，用φ表示u
x
与uy之间的一种可能的对应关系，φ(k)＝(ik,jk),k＝1,2,...,t，其中,t表示时间，k为t的自变量，在k时刻u
x
序列中的第i帧向量与uy序列中的第j帧序列对应。
[0086]
在矩阵d中找出一个最优对应序列φ
′
，从而最小化累计失真值 dist
φ
(u
x
,uy)，
[0087][0088]
在本实施例中，语音帧用音素后验特征表示，使用负对数内积度量，则：
[0089][0090]
最终待匹配序列与模板序列之间距离记为pd，取值为最小化累计失真值dist
φ
(u
x
,uy)。
[0091]
s305：使用唤醒词测试集的正样本数据与唤醒词的标准模板进行距离匹配，得到距离阈值；
[0092]
通过唤醒词测试集的正样本数据与唤醒词的标准模板进行dtw距离匹配，可以计算得到距离阈值(即标准距离)
[0093]
关于dtw距离的计算可以采用现有技术。
[0094]
s306：比较待匹配序列与模板序列的距离与距离阈值的差值，得到唤醒结果；
[0095]
比较当前待匹配序列与标准模板序列的距离，计算该差值小到超过人为设定的某一阈值，则判定当前唤醒词为识别到的唤醒词，输出唤醒结果。
[0096]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0097]
在本实施例中还提供了一种识别唤醒词的装置，图4是根据本发明实施例的识别唤醒词的装置的结构框图，如图4所示，该装置包括：
[0098]
提取模块402，用于对目标语音信号进行特征提取，得到多帧声学特征向量；
[0099]
处理模块404，用于通过深度神经网络对所述多帧声学特征向量进行处理，得到目标处理结果；
[0100]
解码模块406，用于通过解码图对所述多帧声学特征向量进行解码，得到目标解码结果；
[0101]
确定模块408，用于根据所述目标处理结果和所述目标解码结果，确定所述目标语音信号中唤醒词的识别结果。
[0102]
在一个可选的实施例中，上述装置还用于，将所述多帧声学特征向量输入深度神经网络，通过所述深度神经网络对所述多帧声学特征向量中的每帧声学特征向量进行分类，得到各帧声学特征向量对应的音素后验特征向量，其中，所述目标处理结果包括所述各帧声学特征向量对应的音素后验特征向量。
[0103]
在一个可选的实施例中，上述装置还用于，通过解码图中的多条路径对所述多帧声学特征向量进行解码，得到目标路径；将所述目标路径确定为所述目标解码结果。
[0104]
在一个可选的实施例中，上述装置还用于，通过令牌传递算法在所述解码图的所述多条路径中确定所述目标路径。
[0105]
在一个可选的实施例中，上述装置还用于，在目标路径上包含待识别的唤醒词的情况下，在各帧声学特征向量对应的音素后验特征向量中确定与所述待识别的唤醒词对应的目标音素后验特征向量，其中，所述所述目标处理结果包括所述各帧声学特征向量对应的音素后验特征向量，所述目标解码结果包括所述目标路径；通过所述目标音素后验特征向量对所述待识别的唤醒词进行识别。
[0106]
在一个可选的实施例中，上述装置还用于，确定所述目标音素后验特征向量与预设的标准模板之间的目标距离；根据所述目标距离与预设的标准距离之间的关系对所述待识别的唤醒词进行识别。
[0107]
在一个可选的实施例中，上述装置还用于，在所述目标距离与预设的目标标准距离之间的差值小于或等于预设阈值的情况下，将所述待识别的唤醒词确定为所述目标语音信号中唤醒词的识别结果。
[0108]
需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
[0109]
本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0110]
在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于： u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器 (random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0111]
本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0112]
在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
[0113]
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
[0114]
显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
[0115]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

识别唤醒词的方法、装置、存储介质及电子装置与流程

相关文献

最热文献