关键词识别方法及装置、存储介质、计算机设备与流程

2021-09-17 22:32:00 来源：中国专利 TAG：人工智能识别装置关键词计算机

1.本发明涉及人工智能领域，尤其涉及一种关键词识别方法及装置、存储介质、计算机设备。

背景技术：

2.随着人工智能的发展，目前已越来越多人工智能算法应用于关键词识别。关键词识别(keyword spotting,简称kws)是目前一种重要的人机交互方法，已应用于不同电子产品(如计算机、手机等)，而有的电子产品由于内存容量较小，希望关键词识别方法中的涵盖较少的模型参数，以减小算法运行时使用的内存。然而，减小关键词识别方法使用的模型参数，可能导致识别精度降低。也即，目前的关键词识别方法无法均衡识别精度以及模型参数量。
3.神经网络相对于传统算法可以提升关键词识别的精度以及模型的参数量，如使用深度卷积(depthwise convolution)网络进行关键词识别，以减少模型的参数量，然而，深度卷积网络虽然可以一定程度上减少计算量，但其通道数较大，所以该网络的参数量整体还是较大，对内存限制严格的电子产品仍不适用，且深度卷积网络的识别精度仍待进一步提高。

技术实现要素：

4.本发明解决的技术问题是如何提供一种关键词识别方法，能够在降低模型参数量的同时兼顾识别精度。
5.为解决上述问题，本发明实施例提供了一种关键词识别方法，所述方法包括：获取原始语音信号，对所述原始语音信号进行处理以得到目标语音信号，所述目标语音信号包括多个按时间序列排布的语音帧，所述语音帧基于时域特征和频域特征表示；将所述目标语音信号输入关键词识别网络中进行关键词识别，得到所述目标语音信号中包含的关键词；其中，所述关键词识别网络包括多个串联的卷积网络单元和分类器，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，每一卷积网络单元包括一个或多个卷积层；所述分类器用于对最后一个卷积网络单元的输出特征进行分类，得到所述目标语音信号中包含的关键词。
6.可选的，部分或全部的卷积网络单元采用残差网络结构。
7.可选的，每一卷积网络单元按照特征流转顺序依次包括第一卷积层、第二卷积层和第三卷积层，所述第一卷积层和第二卷积层的通道数为第一数量，所述第三卷积层的通道数为第二数量，所述第一数量与所述第二数量相同或不同。
8.可选的，所述多个串联的卷积网络单元的第一数量按照特征流转顺序逐渐增大；和/或，所述多个串联的卷积网络单元的第二数量按照特征流转顺序逐渐增大。
9.可选的，针对每一卷积网络单元而言，第一卷积层的卷积核为1
×
1，第二卷积层的卷积核为3
×
1，第三卷积层的卷积核为1
×
1。
10.可选的，所述关键词识别网络基于mobilenetv2实现。
11.可选的，所述卷积网络单元的数量为6。
12.可选的，所述对所述原始语音信号进行处理以得到目标语音信号，包括：提取所述原始语音信号的梅尔倒谱系数；将每一帧mfcc作为时间序列进行时间卷积，得到所述目标语音信号；其中，所述mfcc的维度为时间卷积的通道数。
13.本发明实施例还提供一种关键词识别装置，所述装置包括：目标语音信号获取模块，用于获取原始语音信号，对所述原始语音信号进行处理以得到目标语音信号，所述目标语音信号包括多个按时间序列排布的语音帧，所述语音帧基于时域特征和频域特征表示；关键词识别模块，用于将所述目标语音信号输入关键词识别网络中进行关键词识别，得到所述目标语音信号中包含的关键词；其中，所述关键词识别网络包括多个串联的卷积网络单元和分类器，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，每一卷积网络单元包括一个或多个卷积层；所述分类器用于对最后一个卷积网络单元的输出特征进行分类，得到所述目标语音信号中包含的关键词。
14.本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行任一项所述方法的步骤。
15.本发明实施例还提供一种计算机设备，包括所述关键词识别装置，或者，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行任一项所述关键词识别方法的步骤。
16.与现有技术相比，本发明实施例的技术方案具有以下有益效果：
17.本发明实施例提供了一种关键词识别方法，所述方法包括：获取原始语音信号，对所述原始语音信号进行处理以得到目标语音信号，所述目标语音信号包括多个按时间序列排布的语音帧，所述语音帧基于时域特征和频域特征表示；将所述目标语音信号输入关键词识别网络中进行关键词识别，得到所述目标语音信号中包含的关键词；其中，所述关键词识别网络包括多个串联的卷积网络单元和分类器，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，每一卷积网络单元包括一个或多个卷积层；所述分类器用于对最后一个卷积网络单元的输出特征进行分类，得到所述目标语音信号中包含的关键词。
18.较之现有技术，本发明实施例的方案中由于所有低层特征(也即前一卷积网络单元的输出特征)总是参与下一层高层特征(即后一卷积网络单元的输出特征)的形成，可以扩大输入的目标语音信号中音频特征的感受野，从而能够提高关键词识别的精度。另外，该方法经过了多层卷积网络，减小了特征图的尺寸，模型参数量大幅减少。综上，本发明实施例提出了一种能够满足实际应用的精度需求且模型参数量大幅减少的新型关键词识别网络。
19.进一步地，本发明实施例的方案中，部分或全部的卷积网络单元采用残差网络结构，也即在低计算量的关键词识别网络中引入残差网络，能够有效提升识别精度。
20.进一步地，每一卷积网络单元可以包括3层卷积层(即第一卷积层、第二卷积层和第三卷积层)，增加了关键词识别网络的深度，进一步减少了模型参数量，有效节省了关键词识别网络对设备内存的占用量。
21.进一步地，将原始语音信号的mfcc进行时间卷积，在时间卷积中，将每一帧mfcc当成时间序列，而不是灰度图像。此时，时间卷积转换为t
×1×
f，其中，t为时间维度，也即，卷
积核为t
×
1，以mfcc的特征维度f(也即频域特征)作为通道数。由此，卷积核变小，能够有效减少参数量；通道数由1变为了f，使得特征维度f可以往下传递，扩大了特征的感受野。
附图说明
22.图1为本发明实施例的一种关键词识别方法的流程示意图；
23.图2为本发明实施例的一种关键词识别网络的示意图；
24.图3为本发明实施例的一种单个卷积网络单元的示意图；
25.图4为一种经典的mfcc的提取流程图；
26.图5为本发明实施例的一种关键词识别装置的结构示意图。
具体实施方式
27.如背景技术所言，现有的关键词识别方法，无法均衡识别精度以及模型参数量。
28.为解决上述问题，本发明实施例提供了一种关键词识别方法，所述方法包括：获取原始语音信号，对所述原始语音信号进行分帧处理以得到目标语音信号，所述目标语音信号包括多个按时间序列排布的语音帧，所述语音帧基于时域特征和频域特征表示；将所述目标语音信号输入关键词识别网络中进行关键词识别，得到所述目标语音信号中包含的关键词；其中，所述关键词识别网络包括多个串联的卷积网络单元和分类器，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，每一卷积网络单元包括一个或多个卷积层；所述分类器用于对最后一个卷积网络单元的输出特征进行分类，得到所述目标语音信号中包含的关键词。由此，能够在降低模型参数量的同时兼顾识别精度。
29.为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。
30.请参见图1，图1为本发明实施例的一种关键词识别方法的流程示意图，所述方法由终端侧执行，所述终端可以为手机、电脑、移动手表等设备。所述关键词识别方法具体可以包括如下步骤s101和步骤s102，详述如下。
31.步骤s101，获取原始语音信号，对所述原始语音信号进行分帧处理以得到目标语音信号，所述目标语音信号包括多个按时间序列排布的语音帧，所述语音帧基于时域特征和频域特征表示。
32.其中，原始语音信号为音频信号，可以为通过麦克风采集的音频信号，也可以为从内存或者其他终端处获取的音频信号。在一个具体应用场景中，终端能够与人自动对话，例如，所述终端为智能机器人或者包括智能助手的手机等等，通过终端自带的麦克风对外界环境的声音进行采集得到所述原始语音信号。
33.所述对所述原始语音信号进行分帧处理以得到目标语音信号，包括：对原始语音信号分段来分析其特征参数，分段后的每一段语音信号称为一“帧”语音信号，也即语音帧，语音帧的帧长取值可以为10～30毫秒(ms)，也可以按照需要调整。将分帧后的原始语音信号基于时域特征和频域特征两个维度表示，即得到所述目标语音信号。
34.步骤s102，将所述目标语音信号输入关键词识别网络中进行关键词识别，得到所述目标语音信号中包含的关键词。其中，所述关键词识别网络包括多个串联的卷积网络单元和分类器，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，每一卷积网
络单元包括一个或多个卷积层；所述分类器用于对最后一个卷积网络单元的输出特征进行分类，得到所述目标语音信号中包含的关键词。
35.其中，关键词识别网络用于识别输入的目标语音信号中的关键词。关联词识别网络包括多个串联的卷积网络单元，请参见图2，图2为本发明实施例的一种关键词识别网络的示意图，所述关键词识别网络可以包括多个串联的卷积网络单元，所述多个串联的卷积网络单元在图2中以数字20标注。在一个具体实施例中，所述串联的多个卷积网络单元20的卷积网络单元数量为6个，经试验验证，6个卷积网络单元串联使用时，该关键词识别网络的识别精度较高，若继续增加卷积网络单元的数量，对识别精度的影响不大。该6个卷积网络单元包括第一卷积网络单元201、第二卷积网络单元202、第三卷积网络单元203、第四卷积网络单元204、第五卷积网络单元205和第六卷积网络单元206，图2中的箭头方向表示数据在各个卷积网络单元之间的特征流转方向，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，也即，第一卷积网络单元201的输出特征为第二卷积网络单元202的输入特征，第二卷积网络单元202的输出特征为第三卷积网络单元203的输入特征，
…
，以此类推。其中，每一卷积网络单元包括一个或多个卷积层，每一卷积层的卷积核(kernel)和通道数可以相同，也可以不同。
36.请继续参见图2，所述关键词识别网络还包括分类器21，所述分类器21用于根据训练的分类逻辑从卷积网络单元20的输出特征中识别出目标语音信号中的关键词，所述分类器21可以基于逻辑回归模型(softmax)或者支持向量机(support vector machine，简称svm)等模型实现。
37.可选的，关键词识别网络的输入端(用于输入目标语音信号)和卷积网络单元20之间还可以包括卷积核为3
×
1，输出通道数为c的卷积层22(图2中以“conv 3
×
1，c”表示)对输入的语音特征进行增强，其中c的取值为正整数。
38.可选的，卷积网络单元20和分类器21之间还可以包括全局平均池化层(global average pooling，简称gap)23，能够直接实现降维，极大地减少了关键词识别网络的模型参数。
39.可选的，所述关键词识别网络基于mobilenetv2实现。mobilenetv2与mobilenet v1特点相似，主要利用深度卷积(depthwise convolution)与逐点卷积(pointwise convolution)减少参数量，在mobilenetv2中加入残差连接或者倒残差(inverted residual)连接，在网络不断加深进行反向传播时，残差/倒残差连接很好的解决了网络退化的现象。mobiolenetv2实现了准确率与参数之间的平衡性。
40.如上的关键词识别方法中，由于所有低层特征(也即前一卷积网络单元的输出特征)总是参与下一层高层特征(即后一卷积网络单元的输出特征)的形成，可以扩大输入的目标语音信号中音频特征的感受野，从而能够提高关键词识别的精度。另外，该方法经过了多层卷积网络，减小了特征图的尺寸，模型参数量大幅减少。综上，本发明实施例提出了一种能够满足实际应用的精度需求且模型参数量大幅减少的新型关键词识别网络。
41.在一个实施例中，部分或全部的卷积网络单元采用残差网络(residual network，简称resnet)结构。也即，对每一卷积网络单元的输入特征做一个参考(reference),经过机器学习形成残差函数，该残差函数参与生成该卷积网络单元的输出特征。
42.由此，在低计算量的关键词识别网络中下引入残差网络，能够有效提升识别精度。
43.在一个实施例中，每一卷积网络单元按照特征流转顺序依次包括第一卷积层、第二卷积层和第三卷积层，所述第一卷积层和第二卷积层的通道数为第一数量，所述第三卷积层的通道数为第二数量，所述第一数量与所述第二数量相同或不同。
44.具体的，第一卷积层、第二卷积层和第三卷积层串联连接，其特征流转顺序可以表示为，第一卷积层的输出特征作为第二卷积层的输入特征，第二卷积层的输出特征作为第三卷积层的输入特征。
45.可选的，所述多个串联的卷积网络单元的第一数量按照特征流转顺序逐渐增大；和/或，所述多个串联的卷积网络单元的第二数量按照特征流转顺序逐渐增大。
46.在一个具体实施例中，请参见图3，图3为本发明实施例的一种单个卷积网络单元的示意图，该单个网络单元的结构位于虚线框内。每一卷积层(第一/第二/第三卷积层)的第一数量与第二数量相同。多个串联的卷积网络单元的第一数量(也即第二数量)依次增大，以图2为例，6个卷积网络单元20(按照从第一卷积网络单元201至第六卷积网络单元206的顺序)的第一数量(即第二数量)分别为：8、12、14、16、24和48。
47.可选的，针对每一卷积网络单元而言，第一卷积层的卷积核为1
×
1，第二卷积层的卷积核为3
×
1，第三卷积层的卷积核为1
×
1。
48.请继续参见图3的示例，第一卷积层301的卷积核为1
×
1，其通道数为c_in(在图3中以“conv 1
×
1，c_in”表示)；第二卷积层302的卷积核为3
×
1，其通道数为c_in(在图3中以“conv 3
×
1，c_in”表示)；第三卷积层303的卷积核为1
×
1，其通道数为c_out(在图3中以“conv 3
×
1，c_out”表示)。可选的，相邻的两个卷积层之间包含激活函数，所述激活函数可以使用线性整流函数(rectified linear unit，简称relu)。进一步，相邻的两个卷积层之间还可以包括批标准化(batch normalization，简称bn)层。其中，c_in表示每一卷积网络单元的输入通道数，也即前述的第一数量；c_out表示每一卷积网络单元的输出通道数，也即第二数量。c_in和c_out的取值为正整数。
49.本实施例中，每一卷积网络单元又可以包括3层卷积层(即第一卷积层、第二卷积层和第三卷积层)，增加了关键词识别网络的深度，进一步减少了模型参数量，有效节省了关键词识别网络对设备内存的占用量。经实验可知，本发明实施例的关键词识别网络使用的设备内存仅为传统网络的一半左右。
50.在一个实施例中，图1中的步骤s102所述对所述原始语音信号进行处理以得到目标语音信号，可以包括：提取所述原始语音信号的梅尔倒谱系数(mel
‑
scale frequency cepstral coefficients，简称mfcc)；将每一帧mfcc作为时间序列进行时间卷积(temporal convolution)，得到所述目标语音信号；其中，所述mfcc的维度作为关键词识别网络的输入通道数。
51.本领域技术人员应了解，当前通常采用卷积神经网络(convolutional neural networks,cnn)对语音信号进行识别，cnn具有从低级特征抽取高级特征的能力，但目前主流的小核cnn难以同时获取高频和低频信息。本发明实施例将原始语音信号的mfcc送入时间卷积。
52.需要说明的是，传统的时间卷积用于对灰度图像进行处理，若采用传统时间卷积处理原始语音信号的mfcc时，时间卷积可以表示为t
×
f
×
1，其中，t代表时间维度，对应每一帧mfcc的时域特征的值，f代表特征维度，对应mfcc的频域特征的值，正整数1为通道数。
53.而本发明实施例在时间卷积中，将每一帧mfcc当成时间序列，而不是灰度图像。此时，时间卷积转换为t
×1×
f，也即，卷积核为t
×
1，以mfcc的特征维度f(也即频域特征)作为通道数。由此，卷积核变小，能够有效减少参数量；通道数由1变为了f，使得特征维度f可以往下传递，扩大了特征的感受野。
54.在一个具体实施例中，提供了另一种升级的关键词识别网络，该网络可以包括三个部分：mfcc提取、时间卷积网络(tcn)以及图2和图3所述的关键词识别网络结构，使用了时间卷积使得升级的关键词识别网络的特征感受野变大同时减少计算量。
55.请参见图4，图4为一种经典的mfcc的提取流程图，mfcc用于提取原始语音信号的时域与频域特征；对原始语音信号依次执行步骤s401至步骤s407，其中：
56.步骤s401，预加重处理；也即将原始语音信号通过一个高通滤波器。预加重的目的是提升高频部分，使原始语音信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。
57.步骤s402，分帧；将步骤s401的输出信号的n个采样点集合成一个观测单位，称为帧。通常情况下n的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧信号的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了m个取样点，通常m的值约为n的1/2或1/3。一般来说，语音识别中采用的语音信号的采样频率为8千赫兹(khz)或16khz。以8khz为例来说，若帧长度为256个采样点，则对应的时间长度是256/8000
×
1000＝32毫秒(ms)。
58.步骤s403，加窗(hamming window)；将步骤s402分帧后的每一语音帧乘以汉明窗，以增加帧左端和右端的连续性。窗口大小(记作window_size)可以为30ms，窗口步长(window_stride)可以为10ms。
59.步骤s404，进行快速傅里叶变换(fast fourier transform，简称fft)；以得到各语音帧的频谱。
60.步骤s405，通过梅尔(mel)滤波器组；也即将频谱通过一组mel尺度的三角形滤波器组，对频谱进行平滑化，并消除谐波的作用，突显原始语音信号的共振峰。由此，以mfcc为特征的语音辨识系统，并不会受到输入语音的音调不同而有所影响，还可以降低运算量。
61.步骤s406，进行对数运算；计算每个滤波器组输出的对数能量。
62.步骤s407，进行离散余弦变换(discrete cosine transform，简称dct)；将上述的对数能量带入dct，求出mfcc。dct的特征数(记作dct_number_features)取值可以为40。
63.请参见图5，本发明实施例还提供一种关键词识别装置50，包括：目标语音信号获取模块501，用于获取原始语音信号，对所述原始语音信号进行分帧处理以得到目标语音信号，所述目标语音信号包括多个按时间序列排布的语音帧，所述语音帧基于时域特征和频域特征表示；关键词识别模块502，用于将所述目标语音信号输入关键词识别网络中进行关键词识别，得到所述目标语音信号中包含的关键词；其中，所述关键词识别网络包括多个串联的卷积网络单元和分类器，前一卷积网络单元的输出特征为后一卷积网络单元的输入特征，每一卷积网络单元包括一个或多个卷积层；所述分类器用于对最后一个卷积网络单元的输出特征进行分类，得到所述目标语音信号中包含的关键词。
64.可选的，部分或全部的卷积网络单元采用残差网络结构。
65.可选的，每一卷积网络单元按照特征流转顺序依次包括第一卷积层、第二卷积层
和第三卷积层，所述第一卷积层和第二卷积层的通道数为第一数量，所述第三卷积层的通道数为第二数量，所述第一数量与所述第二数量相同或不同。
66.可选的，所述多个串联的卷积网络单元的第一数量按照特征流转顺序逐渐增大；和/或，所述多个串联的卷积网络单元的第二数量按照特征流转顺序逐渐增大。
67.可选的，针对每一卷积网络单元而言，第一卷积层的卷积核为1
×
1，第二卷积层的卷积核为3
×
1，第三卷积层的卷积核为1
×
1。
68.可选的，所述关键词识别网络基于mobilenetv2实现。
69.可选的，所述卷积网络单元的数量为6。
70.在一个实施例中，所述关键词识别模块502可以包括：mfcc提取单元，用于提取所述原始语音信号的梅尔倒谱系数；时间卷积单元，用于将每一帧mfcc作为时间序列进行时间卷积，得到所述目标语音信号；其中，所述mfcc的维度为关键词识别网络的输入通道数。
71.关于关键词识别装置50的工作原理、工作方式的更多内容，可以参照图1至图5关于关键词识别方法的相关描述，这里不再赘述。
72.在具体实施中，上述的关键词识别装置50可以对应于终端中具有关键词识别功能的芯片，或者对应于具有数据处理功能的芯片，例如片上系统(system
‑
on
‑
a
‑
chip，soc)等；或者对应于终端中包括具有关键词识别功能芯片的芯片模组；或者对应于具有数据处理功能芯片的芯片模组，或者对应于终端。
73.本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行图1或图4任一项所述关键词识别方法的步骤。所述存储介质可以是计算机可读存储介质，例如可以包括非挥发性存储器(non
‑
volatile)或者非瞬态(non
‑
transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。
74.本发明实施例还提供一种计算机设备。所述计算机设备可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行图1至图4所述关键词识别方法的步骤。
75.具体地，在本发明实施例中，所述处理器可以为中央处理单元(central processing unit，简称cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现成可编程门阵列(field programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
76.还应理解，本技术实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read
‑
only memory，简称rom)、可编程只读存储器(programmable rom，简称prom)、可擦除可编程只读存储器(erasable prom，简称eprom)、电可擦除可编程只读存储器(electrically eprom，简称eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，简称ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称ram)可用，例如静态随机存取存储器(static ram，简称sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram，简称sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，简
称ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，简称esdram)、同步连接动态随机存取存储器(synchlink dram，简称sldram)和直接内存总线随机存取存储器(direct rambus ram，简称dr ram)。
77.应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。
78.本技术实施例中出现的“多个”是指两个或两个以上。
79.本技术实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本技术实施例中对设备个数的特别限定，不能构成对本技术实施例的任何限制。
80.本技术实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本技术实施例对此不做任何限定。
81.虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种音频修复方法、装置、设备及介质与流程

关键词识别方法及装置、存储介质、计算机设备与流程

相关文章

最热文献