基于相似对对比学习用户自定义关键词识别方法及系统与流程

2022-11-30 14:44:13 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种基于相似对对比学习用户自定义关键词识别方法及系统。

背景技术：

2.目前，在线的语音识别需要通过互联网实时与云端传输数据，这就会有功耗较大，延时大以及用户信息泄露的风险。关键词识别也称为语音唤醒，是语音交互的桥梁。只有在识别到关键词时，才会开启云端的语音交互功能，现有的语音唤醒技术通过提取语音中的关键词来与预设的唤醒词进行对比以确定其是否为唤醒词，其存在以下问题：由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒，降低了使用人员的体验感。

技术实现要素：

3.针对上述所显示出来的问题，本发明提供了一种基于相似对对比学习用户自定义关键词识别方法及系统用以解决背景技术中提到的由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒，降低了使用人员的体验感的问题。
4.一种基于相似对对比学习用户自定义关键词识别方法，包括以下步骤：
5.将待测语音输入端点检测以提取出其语音帧；
6.基于所述语音帧，分别提取出待测语音的声学特征和信噪比；
7.根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量；
8.将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。
9.优选的，所述将待测语音输入端点检测以提取出其语音帧，包括：
10.判断所述待测语音的起始发音位置和终止发音位置；
11.根据所述起始发音位置和终止发音位置提取出待测语音的发音段；
12.对所述发音段进行分帧处理，获取所述发音段对应的多帧语音；
13.提取每帧语音的第一信号幅度和第一能量值，根据每帧语音的第一信号幅度和第一能量值与标准语音帧的第二信号幅度和第二能量值的比较情况确定该帧语音是否为语音帧。
14.优选的，基于所述语音帧，提取出待测语音的信噪比，具体为：
15.根据所述语音帧确定待测语音的语音信号频率；
16.基于所述语音信号频率对所述待测语音进行扩频处理，获取扩频后的待测语音；
17.提取待测语音每个扩频后的语音帧对应的信号能量和噪声能量；
18.计算每个扩频后的语音帧对应的信号能量和噪声能量的比值，取所有语音帧的比值的平均值作为待测语音的信噪比。
19.优选的，提取待测语音的声学特征的方式为mfcc特征提取，其具体包括：对待测语
音进行预加重、分帧、加窗、傅里叶变换、取平方、mel滤波、取对数、离散傅里叶变换。
20.优选的，在根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量之前，所述方法还包括：
21.获取两个标签相同的训练语音信号；
22.将所述两个训练语音信号进行增强以获得模型训练样本；
23.将两个模型训练样本同时输入到待训练嵌入模型中获取模型输出的两个嵌入向量；
24.构建两个嵌入向量之间的互相关矩阵，通过预设训练算法使得互相关矩阵的值趋向于期望互相关矩阵。
25.优选的，所述构建两个嵌入向量之间的互相关矩阵，通过预设训练算法使得互相关矩阵的值趋向于期望互相关矩阵，包括：
26.获取模型训练的样本的样本大小；
27.根据所述样本大小构建两个嵌入向量之间的互相关矩阵：
[0028][0029]
其中，c
ij
表示为嵌入向量a和b之间的互相关矩阵i、j表示网络输出的向量维数，b表示为模型训练的样本的样本大小，za表示为嵌入向量a，zb表示为嵌入向量b；
[0030]
通过预设训练算法l
bt
使得互相关矩阵的值趋向于期望互相关矩阵，其中，损失函数表示为：
[0031][0032]
其中，λ表示为一个正数，是相似项和冗余项的权衡值。
[0033]
优选的，所述根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量，包括：
[0034]
确认所述信噪比对应的目标值是否大于等于第一预设阈值，若是，确认其为高信噪比，若否，确认其为低信噪比；
[0035]
若所述信噪比为低信噪比，为待测语音选择简单嵌入模型；
[0036]
若所述信噪比为高信噪比，为待测语音选择复杂嵌入模型；
[0037]
通过所述简单嵌入模型或复杂嵌入模型对待测语音的声学特征进行处理，获得待测语音的待测向量。
[0038]
优选的，在将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词之前，所述方法还包括：
[0039]
获取三段模板语音依次输入到每个嵌入模型中，获取每个嵌入模型输出的三个第一向量；
[0040]
计算每个嵌入模型输出的三个第一向量的平均值，获得第二向量；
[0041]
将每个嵌入模型的第二向量作为该嵌入模型的模板向量。
[0042]
优选的，所述将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词，包括：
[0043]
分别获取所述待测向量和模板向量各自对应的向量值并根据其计算出待测向量和模板向量的相似度：
[0044][0045]
其中，t(x,y)表示为待测向量和模板向量的相似度，x表示为待测向量，y表示为模板向量，xi表示为待测向量的向量值在第i个维度的向量子值，yi表示为模板向量的向量值在第i个维度的向量子值；
[0046]
确认二者的相似度是否大于等于第二预设阈值，若是，确定待测语音为唤醒词，若否，确定待测语音非唤醒词。
[0047]
一种基于相似对对比学习用户自定义关键词识别系统，该系统包括：
[0048]
第一提取模块，用于将待测语音输入端点检测以提取出其语音帧；
[0049]
第二提取模块，用于基于所述语音帧，分别提取出待测语音的声学特征和信噪比；
[0050]
处理模块，用于根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量；
[0051]
对比模块，用于将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。
[0052]
本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
[0053]
下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
[0054]
附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。
[0055]
图1为本发明所提供的一种基于相似对对比学习用户自定义关键词识别方法的工作流程图；
[0056]
图2为本发明所提供的一种基于相似对对比学习用户自定义关键词识别方法的工作流程图；
[0057]
图3为本发明所提供的一种基于相似对对比学习用户自定义关键词识别方法的工作流程图；
[0058]
图4为根据本发明所提供的一种基于相似对对比学习用户自定义关键词识别方法的实施例流程截图；
[0059]
图5为训练嵌入模型的实施例流程截图；
[0060]
图6为本发明所提供的一种基于相似对对比学习用户自定义关键词识别系统的结构示意图。
具体实施方式
[0061]
这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0062]
目前，在线的语音识别需要通过互联网实时与云端传输数据，这就会有功耗较大，延时大以及用户信息泄露的风险。关键词识别也称为语音唤醒，是语音交互的桥梁。只有在识别到关键词时，才会开启云端的语音交互功能，现有的语音唤醒技术通过提取语音中的关键词来与预设的唤醒词进行对比以确定其是否为唤醒词，其存在以下问题：由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒，降低了使用人员的体验感。为了解决上述问题，本实施例公开了一种基于相似对对比学习用户自定义关键词识别方法。
[0063]
一种基于相似对对比学习用户自定义关键词识别方法，如图1所示，包括以下步骤：
[0064]
步骤s101、将待测语音输入端点检测以提取出其语音帧；
[0065]
步骤s102、基于所述语音帧，分别提取出待测语音的声学特征和信噪比；
[0066]
步骤s103、根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量；
[0067]
步骤s104、将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。
[0068]
上述技术方案的工作原理为：将待测语音输入端点检测以提取出其语音帧，基于所述语音帧，分别提取出待测语音的声学特征和信噪比，根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量，将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。
[0069]
上述技术方案的有益效果为：通过对待测语音进行语音帧提取可以有效准确地获得含用户语音的语音信号，避免干扰信号对于后续语音识别的影响，提高了稳定性，进一步地，通过根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理可以根据待测语音的信噪比提供不同的神经网络模型来实现对于待测语音中噪音的鲁棒性，从而最大化地克服噪音信号的影响，保证了后续进行语音关键词识别的识别精度，解决了现有技术中由于噪音以及背景环境的场景影响导致误识别率较高从而发生误唤醒，降低了使用人员的体验感的问题。
[0070]
在一个实施例中，如图2所示，所述将待测语音输入端点检测以提取出其语音帧，包括：
[0071]
步骤s201、判断所述待测语音的起始发音位置和终止发音位置；
[0072]
步骤s202、根据所述起始发音位置和终止发音位置提取出待测语音的发音段；
[0073]
步骤s203、对所述发音段进行分帧处理，获取所述发音段对应的多帧语音；
[0074]
步骤s204、提取每帧语音的第一信号幅度和第一能量值，根据每帧语音的第一信号幅度和第一能量值与标准语音帧的第二信号幅度和第二能量值的比较情况确定该帧语音是否为语音帧。
[0075]
上述技术方案的有益效果为：通过对发音段进行分帧处理进而对每一帧语音进行
语音帧判定可以更加细化和全面地实现对于待测语音的语音帧判定，提高了判定精度和效率。
[0076]
在一个实施例中，如图3所示，基于所述语音帧，提取出待测语音的信噪比，具体为：
[0077]
步骤s301、根据所述语音帧确定待测语音的语音信号频率；
[0078]
步骤s302、基于所述语音信号频率对所述待测语音进行扩频处理，获取扩频后的待测语音；
[0079]
步骤s303、提取待测语音每个扩频后的语音帧对应的信号能量和噪声能量；
[0080]
步骤s304、计算每个扩频后的语音帧对应的信号能量和噪声能量的比值，取所有语音帧的比值的平均值作为待测语音的信噪比。
[0081]
上述技术方案的有益效果为：通过对待测语音进行扩频处理可以将待测语音对应的语音信号中的微小噪音信号进行放大从而可以更加精确地考虑到微小噪音信号来客观准确地评估出待测语音的信噪比，提高了计算结果精确性和客观性。
[0082]
在一个实施例中，提取待测语音的声学特征的方式为mfcc特征提取，其具体包括：对待测语音进行预加重、分帧、加窗、傅里叶变换、取平方、mel滤波、取对数、离散傅里叶变换。
[0083]
上述技术方案的有益效果为：可以快速准确地提取出待测语音的声学特征，提高了工作效率和稳定性。
[0084]
在一个实施例中，在根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量之前，所述方法还包括：
[0085]
获取两个标签相同的训练语音信号；
[0086]
将所述两个训练语音信号进行增强以获得模型训练样本；
[0087]
将两个模型训练样本同时输入到待训练嵌入模型中获取模型输出的两个嵌入向量；
[0088]
构建两个嵌入向量之间的互相关矩阵，通过预设训练算法使得互相关矩阵的值趋向于期望互相关矩阵。
[0089]
上述技术方案的有益效果为：由于目前现有的使用在语音识别上的对比学习，均需要通过数据增强的方式获得正负样本，这样训练过程繁琐，且容易出现训练的模型性能极度依赖获得正负样本的数据增强的方式以及锚的选择，本技术的信号数据增强不是为了得到正样本或者负样本仅仅是为了拟合现实中噪音的环境，使得模型对噪音有鲁棒性，同时还可以实现对数据增强方式没有依赖性弱的优点，提高了实用性和稳定性。
[0090]
在一个实施例中，所述构建两个嵌入向量之间的互相关矩阵，通过预设训练算法使得互相关矩阵的值趋向于期望互相关矩阵，包括：
[0091]
获取模型训练的样本的样本大小；
[0092]
根据所述样本大小构建两个嵌入向量之间的互相关矩阵：
[0093]
[0094]
其中，c
ij
表示为嵌入向量a和b之间的互相关矩阵i、j表示网络输出的向量维数，b表示为模型训练的样本的样本大小，za表示为嵌入向量a，zb表示为嵌入向量b；
[0095]
通过预设训练算法l
bt
使得互相关矩阵的值趋向于期望互相关矩阵，其中，损失函数表示为：
[0096][0097]
其中，λ表示为一个正数，是相似项和冗余项的权衡值。
[0098]
上述技术方案的有益效果为：通过计算损失函数是为了让训练的嵌入模型可以让相似的样本提取的低维向量相同，也即在嵌入空间更加靠近，通过构建两个嵌入向量之间的互相关矩阵是为了让训练的模型具有消除冗余特征值的能力。这种去相关性减少了输出单元之间的冗余，从而使输出单元不包含关于样本的冗余信息，进一步地提高了实用性。
[0099]
在一个实施例中，所述根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量，包括：
[0100]
确认所述信噪比对应的目标值是否大于等于第一预设阈值，若是，确认其为高信噪比，若否，确认其为低信噪比；
[0101]
若所述信噪比为低信噪比，为待测语音选择简单嵌入模型；
[0102]
若所述信噪比为高信噪比，为待测语音选择复杂嵌入模型；
[0103]
通过所述简单嵌入模型或复杂嵌入模型对待测语音的声学特征进行处理，获得待测语音的待测向量；
[0104]
在本实施例中，简单嵌入模型指参数量少，计算简单但性能较弱的嵌入模型；
[0105]
简单嵌入指模型指使用参数量大，计算复杂但是性能较高的嵌入模型。
[0106]
上述技术方案的有益效果为：对于不同的信噪比会选择不同的嵌入模型，使得整体的性能和功耗比更佳。且对于噪声的鲁棒性更好，适用于多种场景，进一步地提高了实用性。
[0107]
在一个实施例中，在将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词之前，所述方法还包括：
[0108]
获取三段模板语音依次输入到每个嵌入模型中，获取每个嵌入模型输出的三个第一向量；
[0109]
计算每个嵌入模型输出的三个第一向量的平均值，获得第二向量；
[0110]
将每个嵌入模型的第二向量作为该嵌入模型的模板向量。
[0111]
上述技术方案的有益效果为：可以实现用户自定义唤醒词，对于新的唤醒词不需要重新训练嵌入模型。满足用户自定义的需求且方便更新，提高了用户的体验感和实用性。
[0112]
在一个实施例中，所述将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词，包括：
[0113]
分别获取所述待测向量和模板向量各自对应的向量值并根据其计算出待测向量和模板向量的相似度：
[0114][0115]
其中，t(x,y)表示为待测向量和模板向量的相似度，x表示为待测向量，y表示为模板向量，xi表示为待测向量的向量值在第i个维度的向量子值，yi表示为模板向量的向量值在第i个维度的向量子值；
[0116]
确认二者的相似度是否大于等于第二预设阈值，若是，确定待测语音为唤醒词，若否，确定待测语音非唤醒词。
[0117]
上述技术方案的有益效果为：通过对比多维度向量值的相似度来综合地计算出待测向量和模板向量之间的相似度可以更加全方位地获得二者的差异性，为后续确定待测语音非唤醒词奠定了精准的参考条件，进一步地保证了语音关键词识别的识别精度，提高了稳定性和工作效率。
[0118]
在一个实施例中，本实施例根据上述基于相似对对比学习用户自定义关键词识别方法构建了一套关键词识别系统：
[0119]
如图4所示，该系统主要分为四个模块：端点检测，声学特征提取，嵌入模型(embedding model)以及相似度对比计算到最后判断是否唤醒。
[0120]
在注册阶段有3段模板语音依次输入端点检测、声学特征提取以及嵌入模型，得到3个模板向量，求平均之后得到最后的模板向量。待测的语音依次经过端点检测之后同时计算出信噪比以及声学特征，根据不同的信噪比选择合适的嵌入模型。得到待测向量。最终模板向量和测试向量cosine对比得到相似度，如果超过阈值则认为是唤醒词。在推理阶段，端点检测模块如果没有检测到语音信号则不会激活后续的几个模块。这种方式极大的减少了整个系统的功耗。其次，如果检测到不同的信噪比，将会选择与之适应的嵌入模型，达到性能功耗最佳匹配。
[0121]
端点检测部分，本发明采用短时能量和短时过零率搭配的方式(双门限法)。在语音信号中，语音帧和非语音帧的能量不同，该发明利用语音帧的信号幅度大、能量高，判断一帧语音内能量的大小粗略判断是否是语音帧。之后使用短时过零率对语音的起始位置进行最终的精确判断。
[0122]
声学特征提取使用的是mfcc特征提取的方法，该方法主要包括预预加重、分帧、加窗、傅里叶变换、取平方、mel滤波、取对数、离散傅里叶变换。
[0123]
嵌入模型由本发明提出的相似对对比学习训练得到。不同类型以及不同参数量的嵌入模型用来适应不同的应用场景。例如信噪比高的地方可以使用参数量少，计算简单但性能较弱的嵌入模型；相反复杂的环境，使用参数量大，但是性能较高的模型。
[0124]
其中，在训练过程中，一对标签相同的语音信号xa,xb输入到数据增强模块中，产生两个不同增强后的样本这两个样本分别输入相同的端点检测模块、声学特征提取模块、以及待训练的嵌入模型中，分别得到两个嵌入向量za,zb，最后得到这两个嵌入向量的互相关矩阵c，最后通过训练算法l
bt
使得这个矩阵的值趋向于目标互相关矩阵，如图5所示。
[0125]
通过上述系统，可以取得如下有益效果：
[0126]
1.首先本发明提出一种新的相似对对比学习训练方法，该方法不需要像现有对比学习一样有正样本或者负样本。使得该发明的训练过程更加简单便捷。
[0127]
2.其次本发明提出的新的相似对对比学习训练方法，对数据增强方式没有依赖性。数据增强方式仅仅为了拟合现实存在的噪声，为了使得训练的嵌入模型对噪声鲁棒性更好。
[0128]
3.本发明提出的语音唤醒系统，可以实现用户自定义唤醒词，对于新的唤醒词不需要重新训练嵌入模型。满足用户自定义的需求且方便更新。
[0129]
4.本发明的语音唤醒系统通过端点检测，只有在检测到语音信号之后才会激活下一阶段，否则之后的声学特征提取、嵌入模型等功耗大的模块均不会被激活，使得该发明整体系统功耗更低，更适用于iot。
[0130]
5.本发明的语音唤醒系统对于不同的信噪比会选择不同的嵌入模型，使得该系统整体的性能和功耗比更佳。且对于噪声的鲁棒性更好，适用于多种场景。
[0131]
本实施例还公开了一种基于相似对对比学习用户自定义关键词识别系统，如图6所示，该系统包括：
[0132]
第一提取模块601，用于将待测语音输入端点检测以提取出其语音帧；
[0133]
第二提取模块602，用于基于所述语音帧，分别提取出待测语音的声学特征和信噪比；
[0134]
处理模块603，用于根据待测语音的声学特征和信噪比选择适配的嵌入模型进行处理，获得待测语音的待测向量；
[0135]
对比模块604，用于将所述待测向量和模板向量进行相似度对比，根据对比结果确定待测语音是否为唤醒词。
[0136]
上述技术方案的工作原理及有益效果在方法权利要求中已经说明，此处不再赘述。
[0137]
本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。
[0138]
本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0139]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：集外词处理方法、电子设备和存储介质与流程

基于相似对对比学习用户自定义关键词识别方法及系统与流程

相关文献

最热文献