基于语音声学特征压缩的语音对抗样本防御方法及应用与流程

2022-03-26 04:36:36 来源：中国专利 TAG：

1.本发明涉及一种基于语音声学特征压缩的语音对抗样本防御方法。

背景技术：

2.目前机器学习，特别是深度学习，被越来越多地运用到各种应用领域，如图像分类、语音识别和声纹识别，且在某些任务上的表现超过人类。然而，机器学习模型，包括深度神经网络，已经被证明常常缺乏对对抗样本的鲁棒性。以语音识别为例，攻击者向一段包含“播放歌曲xxx”文本内容的语音中加入微小的扰动，生成对抗语音；尽管对人类听觉来说，对抗语音的文本内容没有改变，但是语音识别模型会将其识别为“向yyy转账zzz元”。以声纹识别为例，正常情况下，来自假冒者的语音无法通过受害者的声纹识别模型的验证；攻击者往假冒者的语音中加入扰动，生成对抗语音；尽管对人类听觉来说，对抗语音听起来还是来自假冒者，但是受害者的声纹识别模型会将其识别为来自受害者，从而通过验证，攻击者进而可以获取受害者的权限。
3.为了消除对抗样本带来的安全隐患，研究者提出了各种防御方法，其中包括输入变换。输入变换指的是在模型推理阶段，输入样本馈送给模型进行识别决策前，先对输入样本进行预处理，从而使得输入样本中的对抗扰动丢失，达到防御目的。
4.在图像领域，jpeg压缩和局部平滑等输入变换方法已经被成功应用于消除图像对抗样本的影响。受此启发，mp3压缩和中值平滑等输入变换方法也被用于防御语音对抗样本。然而，现有的防御语音对抗样本的输入变换方法没有考虑图像和语音系统之间的差异。因此，现有的输入变换方法仅作用于语音波形信号，而没有考虑在语音声学特征层面做变换。对于目前主流的基于神经网络的图像识别来说，输入的图像被直接馈送到系统，不需要人工特征工程，换句话说，特征工程由神经网络内部的神经元自动完成。与此相反，语音信号随时间变化的非平稳特性导致其对噪声和其他扰动的鲁棒性较弱，语音波形信号本身不能有效地表征文本内容或说话人的特征。因此，为了获得更好的特征表示能力和系统性能，语音识别、声纹识别等语音系统通常依靠特征工程从语音波形中提取语音声学特征，例如语音频谱图、滤波器组系数(filter-bank)、梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfcc)和感知线性预测系数(perceptuallinear predictive，plp)。
5.由于语音系统的广泛部署，语音对抗样本给部署了语音系统的应用带来了不可忽视的安全隐患。如何有效防御语音对抗样本，进而提高系统的鲁棒性亟待解决。

技术实现要素：

6.本发明要解决的技术问题是：现有的防御语音对抗样本的输入变换方法没有考虑到语音和图像的区别，因此直接在语音波形层级进行变换。
7.为了解决上述技术问题，本发明的技术方案提供了一种基于语音声学特征压缩的语音对抗样本防御方法，其特征在于，包括以下步骤：
8.步骤1：获得输入语音的声学特征矩阵，该声学特征矩阵的维度为n
×
d，n代表该段
输入语音被分帧为n帧，d代表每帧的特征矢量长度；使用聚类算法将声学特征矩阵的n个特征矢量划分为k组，k＜＜n，进而达到将n帧声学特征压缩到k帧的目的；
9.步骤2：计算k组特征矢量中每一组特征矢量的代表特征矢量，由于属于同一组的特征矢量具有相似的属性，而属于不同组的特征矢量具有非常不同的属性，将代表特征矢量定义为能表征同一组的所有特征矢量的共同属性的特征矢量；
10.步骤3：将k个代表特征矢量进行叠加，得到压缩后的语音声学特征矩阵z，该语音声学特征矩阵z的维度为k
×
d；
11.步骤4：将压缩后的语音声学特征矩阵z馈送给语音系统进行后续处理以及识别决策。
12.优选地，k的取值使用软取值方式，即不固定k的取值，而是固定k与n的比值δ，采用k＝δ
×
n计算得到k。
13.本发明的另一个技术方案是提供了一种上述的基于语音声学特征压缩的语音对抗样本防御方法的应用，其特征在于，应用在语音系统上，通过调整所述语音对抗样本防御方法中的可调参数以在语音系统上取得最好的防御效果，所述可调参数包括所述声学特征矩阵、具体采用的所述聚类算法以及所述聚类算法自身的可调参数、k的取值或者k与n的比例δ。
14.考虑到图像和语音的差异以及现有的防御语音对抗样本的输入变换方法存在的局限性，本发明在语音声学特征层级而非语音波形层级对输入语音进行变换，从而实现在语音声学特征层级对语音对抗样本进行防御，在保证语音系统对正常语音的表现性能的基础上，消除语音对抗样本中的对抗扰动，防御语音对抗样本，进而提高语音系统对语音对抗样本的鲁棒性。
附图说明
15.图1为本发明的技术方案的具体步骤；
16.图2为本发明的语音声学特征层级变换与已有方法的语音波形层级变换的区别及对比；
17.图3为常见的基于mfcc的语音系统的声学特征处理流程。
具体实施方式
18.下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本技术所附权利要求书所限定的范围。
19.根据本发明的技术方案，实施重点是对输入语音的声学特征进行压缩，从而消除对抗扰动的影响。本实施例对本发明提供的一种基于语音声学特征压缩的语音对抗样本防御方法作进一步的详细说明。
20.步骤1：获得输入语音的声学特征矩阵，该声学特征矩阵的维度为n
×
d，n代表该段输入语音被分帧为n帧，d代表每帧的特征矢量长度。使用聚类算法将n个特征矢量划分为k组，k＜＜n。
21.不同语音系统可能采用不同的声学特征，并且同一语音系统会存在多种不同的声学特征矩阵。本发明提供的方法适用于任意具有n
×
d形式的声学特征矩阵，包括语音频谱图、滤波器组系数、梅尔频率倒谱系数、感知线性预测系数、加了一阶动态特征的特征、加了二阶动态特征的特征、进行了均值或均值以及方差归一化的特征、语音活性检测后的特征等等。当一个语音系统存在多种声学特征时如图3所示，步骤1中的声学特征矩阵可以选择任意一种或多种声学特征。
22.本实施例中，步骤1具体包括以下步骤：
23.步骤1.1：假设待保护的语音系统的特征处理流程符合图3，本实施方案选择对图3中的原始mfcc特征进行压缩，该声学特征矩阵用x＝{x1，x2，...，xn}表示，对任意i＝1，2，...，n，xi∈rd表示第i个长度为d的特征矢量，该特征矢量为实数向量，r表示所有实数。
24.步骤1.2：为了将声学特征矩阵x划分为k组，本实施例选择k-means算法。 k-means算法从x1，x2，...，xn中随机选取k个特征矢量作为初始的组中心矢量，为了确定剩余的某个特征矢量归属于哪个组，k-means计算当前特征矢量距离每个组的组中心矢量的欧式距离(亦可以选择余弦距离等其他距离代替欧式距离)，把当前特征矢量归属于最小欧式距离对应的组，并且更新组中心矢量。不断迭代上述过程，直至满足最大迭代次数或欧式距离无法再减小。
25.设聚类结果为实数向量表示被分到第i组的第j个特征矢量，i＝1，2，...，k， j＝1，2，...，mi，mi表示被分到第i组的特征矢量的数目，满足
26.步骤1.3：使用软取值方式确定k的值，设定δ＝0.5，则本实施例中，k采用软取值方式，即固定k和n的比值0＜δ＜1，k的取值由δ
×
n决定，其中δ为可调参数。k也可以采用硬取值方式，即对所有语音设定一样固定的k，k为可调参数。由于不同语音的长度不一致(即n值不同)，采用硬取值方式容易导致长度较短的语音识别受影响，因此为了保证语音系统对正常语音的表现性能，本实施例采用软取值，且设定合理的δ值。
27.聚类算法有多种不同的具体实现，包括但不限于k-means、warped-kmeans、soft-kmeans、高斯混合模型(gaussian mixture model,gmm)等。上述步骤以及后续步骤以k-means算法为例对发明做进一步说明，但具体采用何种聚类算法可以根据不同语音系统的要求进行灵活选择，如连续文本语音识别依赖于时序性，为了保证压缩后的语音特征的时序性，可以采用warped-kmeans算法，而不是 k-means算法等其他方法。
28.步骤2：对k组特征矢量的每一组计算出一个代表特征矢量。
29.由于属于同一组的特征矢量具有相似的属性，而属于不同组的特征矢量具有非常不同的属性，本发明中，将代表特征矢量定义为能表征同一组的所有特征矢量的共同属性的特征矢量。代表特征矢量的计算需要根据步骤1中采用的聚类算法决定。本实施例采用k-means聚类算法，因此代表特征矢量为组内所有特征矢量的平均值，即第i组的代表特征矢量zi表示为zi∈rd是长度为 d的实数向量，i＝1，2，...，k。若步骤1采用warped-kmeans算法，则某一组的代表特征矢量同样也是该组所有特征矢量的平均矢量。但
若步骤1采用 soft-kmeans或gmm，则某一组的代表特征矢量不用平均矢量，而是用划分到该组的特征矢量的加权和来表示，权值表示该特征矢量属于该组的置信度。
30.步骤3：将k个代表特征矢量进行叠加，得到压缩后的语音声学特征矩阵z，该语音声学特征矩阵z的维度为k
×
d。
31.将每组的代表特征矢量按顺序叠加，得到压缩后的语音声学特征z {z1，z2，...，zk}。
32.步骤4：将压缩后的语音声学特征矩阵z馈送给语音系统进行后续处理以及识别决策。
33.压缩后的语音声学特征矩阵z继续经过图3中的特征处理流程，最终馈送给语音系统进行识别决策。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于语音声学特征压缩的语音对抗样本防御方法及应用与流程

相关文献

最热文献