一种自适应声纹识别方法及系统

2022-12-07 02:24:10 来源：中国专利 TAG：

1.本发明涉及声纹识别技术领域，具体涉及一种自适应声纹识别方法及系统。

背景技术：

2.声纹识别作为一项重要的生物特征识别技术，以其广泛应用前景，成为了人们近年来关注和研究的焦点。声纹是携带了语音信息的声波频谱，因其具有特定性和相对稳定性的特点，可将语音中的声纹信息作为确定发声目标的有效依据。在实际应用中，可通过提取待检测人的声纹信息进行身份验证。这不仅符合人类的自然习惯，还能满足人们对身份认证便利性的要求。
3.相比于传统的声纹识别方法，基于深度学习的声纹识别方法在声纹识别任务中有更优异的表现，但仍有很多的不足和问题急待解决。现有方法大多网络结构单一，提取的声纹特征表征能力弱，对带有噪音和时长较短的语音数据的识别效果差，难以满足声纹识别的应用需求。如何设计网络结构使其在复杂语音场景下能够提取具有更强表征能力的声纹特征面临着巨大的挑战。
4.本发明使用注意力机制将resnet和tdnn融合，并将注意力机制作用于多尺度时延神经网络。由此，在声纹识别过程中，本发明能够提取更高分辨率的声纹信息，有效结合不同时域范围中的声纹信息，提升了声纹识别效果，在复杂的语音场景下也能够具有良好的表现。

技术实现要素：

5.本发明提供了一种基于resnet和tdnn的自适应声纹识别方法及系统，解决了现有声纹识别方法受环境噪音和语音时长影响大，从而使得声纹识别效果不佳的问题。
6.为实现上述技术目的，本发明通过以下技术方案实现：
7.一方面，一种基于resnet和tdnn的自适应声纹识别方法，包括：
8.输入层，用于接收待处理的语音数据，并计算语音的声学特征；
9.卷积-残差模块，用于接收输入层产生的语音声学特征，并捕捉语音声学特征的频域和时域局部特征；
10.注意力模块，用于对特征图的频域和通道之间的相互依赖关系建模，以自适应地调整局部特征；
11.时延神经网络模块，用于自适应捕获完整频率和通道范围内的声纹特征；
12.注意力策略池模块，用于对声纹特征进行基于自注意力的池化操作；
13.全连接模块，用于接收来自注意力策略池模块的声纹向量，计算得到声纹嵌入向量和分类信息。
14.进一步的，所述卷积-残差模块，包含2个卷积层和2个残差层，执行：
15.根据第一卷积层对语音的声学特征进行卷积处理得到第一特征图；
16.根据第i残差层接收当前特征图，其中，当前特征图为第一特征图或者为第i-1残
差层输出的第二特征图，i大于0且不大于2；
17.根据第二卷积层对第二残差层输出的第三特征图进行卷积处理，并将处理结果的频域和通道特征合并，得到第四特征图；
18.进一步的，所述注意力模块，执行：
19.接收第四特征图或第九特征图，并对其进行全局平均池化操作，使输入特征具有全局感受野；
20.依次通过2个线性层和1个sigmoid层，自适应计算特征权重；
21.将计算得到的权重与第四特征图或第九特征图相乘，得到加权后的第五特征图或第十特征图；
22.进一步的，所述的时延神经网络模块，由3个tdnn层、n个sk-tdnn层组成，n为大于1的整数，i大于0且不大于n，执行：
23.第一tdnn层用于接收第五特征图，并完成特征降维，得到第六特征图；
24.第二tdnn层用于接收第六特征图，提取语音特征在时间上的关系，得到第七特征图；
25.对于n个sk-tdnn层中的第i个sk-tdnn层，执行：
26.接收当前特征图，其中，当前特征图为第六特征图或者为第i-1个sk-tdnn层输出的第十特征图；
27.根据考虑1帧语音信息的第一时延神经单元，对当前特征图进行处理以得到第七特征图；
28.根据考虑相邻3帧和5帧语音信息的第二、三时延神经单元，分别处理第七特征图，将处理结果求和。对于求和后的特征，通过多尺度时延神经单元注意力模块，首先在时域维度进行全局平均池化操作；然后，通过1个全连接层后，再分为两个分支，每个分支包含1个全连接层和1个sigmoid层，自适应计算特征的权重；最后，将计算得到的权重分别与第二、三时延神经单元处理后的结果相乘后求和，得到第八特征图；
29.根据仅考虑1帧语音信息的第四时延神经单元，对第八特征图进行处理以得到第九特征图；
30.根据所述注意力模块处理第九特征图得到第十特征图；
31.第三tdnn层用于接收n个sk-tdnn层的输出，聚合不同层次的语音信息，得到第十一特征图；
32.进一步的，所述注意力策略池模块，用于接收第十一特征图，处理得到语音加权声纹向量，对于一个含有t帧的语音x＝{x1,x2,
…
,x
t
}，经过所述网络可计算得到一个具有t帧的语音向量h＝{h1,h2,
…
,h
t
}，h的尺度为dh×
t，语音特征权重计算方式如下：
33.a＝σ(g(h
t
w1)w2)
34.其中，w1是dh×dr
的矩阵，w2是dr×dh
的矩阵，g(
·
)为激活函数，σ表示sigmoid函数，a＝{a1,a2,
…
,a
t
}，a的尺度为dh×
t。基于注意力策略池计算的得到语音向量的均值为：
35.基于注意力策略池计算的得到语音向量的均值为：
[0036][0037]
其中，a
t
是第t帧语音向量的权重，h
t
是第t帧语音向量，t表示语音总帧数。
[0038]
基于注意力策略池计算的得到语音向量的标准差为：
[0039][0040]
其中，a
t
是第t帧语音向量的权重，h
t
是第t帧语音向量，是语音向量的均值，t表示语音总帧数。
[0041]
经注意力策略池得到的声纹向量，表示为：其中是语音向量的均值，是语音向量的标准差。
[0042]
进一步的，所述全连接模块，包含2个全连接层，执行：
[0043]
第一全连接层，用于接收来自注意力策略池模块的声纹向量，计算得到声纹嵌入向量；
[0044]
第二全连接层，用于接收来自第一全连接层的声纹嵌入向量，预测并输出语音信息对应的分类信息，所述分类信息表示该语音所属说话人。
[0045]
另一方面，一种基于resnet和tdnn的自适应声纹识别系统，其特征在于，包括：
[0046]
语音采集模块：采集语音数据，采集到的语音将用于模型训练，声纹注册和声纹辨认；
[0047]
语音增强模块：为训练集语音数据进行语音增强处理；
[0048]
语音特征提取模块：对语音数据进行预处理和声学特征提取处理；
[0049]
训练模块：训练基于resnet和tdnn的自适应声纹识别方法，得到训练好的声纹识别模型；
[0050]
测试判别模块：使用当前阶段训练得到的声纹识别模型，实时反馈模型训练的效果；调用最终得到的声纹识别模型，判别注册语音和测试语音是否来自同一说话人。
[0051]
进一步的，所述语音采集模块，使用麦克风设备采集语音数据，并对采集到的语音数据进行存储，用作训练的语音包含纯净语音以及自然情况下带有各种噪音的语音数据。
[0052]
进一步的，所述语音增强模块，用于对语音采集模块采集得到的用于模型训练的语音数据进行语音增强处理，处理方式包括：添加混响，模拟不同延迟的信号的叠加；添加噪声，包括音乐、噪音、嘈杂的人声以及电视噪音；添加速度扰动，实现稍慢或稍快的信号。
[0053]
进一步的，所述语音特征提取模块，包括提取语音的声学特征，进行特征正则化以及语谱增强操作。语谱增强操作的处理方式为：在语音声学特征的频域范围内随机挑选0～8的频域宽度进行掩码处理，涉及到的频谱值设置为0；在时域范围内随机挑选0～10的时域宽度进行掩码处理，涉及到的频谱值设置为0。
[0054]
进一步的，所述训练模块采取的基于resnet和tdnn的自适应声纹识别方法架构包括输入层，卷积-残差模块，注意力模块，时延神经网络模块，注意力策略池模块以及全连接模块，其中，
[0055]
进一步的，所述卷积-残差模块，包含2个卷积层和2个残差层，执行：
[0056]
根据第一卷积层对语音的声学特征进行卷积处理得到第一特征图；
[0057]
根据第i残差层接收当前特征图，其中，当前特征图为第一特征图或者为第i-1残差层输出的第二特征图，i大于0且不大于2；
[0058]
根据第二卷积层对第二残差层输出的第三特征图进行卷积处理，并将处理结果的
频域和通道特征合并，得到第四特征图；
[0059]
进一步的，所述注意力模块，执行：
[0060]
接收第四特征图或第九特征图，并对其进行全局平均池化操作，使输入特征具有全局感受野；
[0061]
依次通过2个线性层和1个sigmoid层，自适应计算特征权重；
[0062]
将计算得到的权重与第四特征图或第九特征图相乘，得到加权后的第五特征图或第十特征图；
[0063]
所述的时延神经网络模块，由3个tdnn层、n个sk-tdnn层组成，n为大于1的整数，i大于0且不大于n，执行：
[0064]
第一tdnn层用于接收第五特征图，并完成特征降维，得到第六特征图；
[0065]
第二tdnn层用于接收第六特征图，提取语音特征在时间上的关系，得到第七特征图；
[0066]
对于n个sk-tdnn层中的第i个sk-tdnn层，执行：
[0067]
接收当前特征图，其中，当前特征图为第六特征图或者为第i-1个sk-tdnn层输出的第十特征图；
[0068]
根据考虑1帧语音信息的第一时延神经单元，对当前特征图进行处理以得到第七特征图；
[0069]
根据考虑相邻3帧和5帧语音信息的第二、三时延神经单元，分别处理第七特征图，将处理结果求和。对于求和后的特征，通过多尺度时延神经单元注意力模块，首先在时域维度进行全局平均池化操作；然后，通过1个全连接层后，再分为两个分支，每个分支包含1个全连接层和1个sigmoid层，自适应计算特征的权重；最后，将计算得到的权重分别与第二、三时延神经单元处理后的结果相乘后求和，得到第八特征图；
[0070]
根据仅考虑1帧语音信息的第四时延神经单元，对第八特征图进行处理以得到第九特征图；
[0071]
根据所述注意力模块处理第九特征图得到第十特征图；
[0072]
第三tdnn层用于接收n个sk-tdnn层的输出，聚合不同层次的语音信息，得到第十一特征图；
[0073]
进一步的，所述注意力策略池模块，用于接收第十一特征图，处理得到语音加权声纹向量，对于一个含有t帧的语音x＝{x1,x2,
…
,x
t
}，经过所述网络可计算得到一个具有t帧的语音向量h＝{h1,h2,
…
,h
t
}，h的尺度为dh×
t，语音特征权重计算方式如下：
[0074]
a＝σ(g(h
t
w1)w2)
[0075]
其中，w1是dh×dr
的矩阵，w2是dr×dh
的矩阵，g(
·
)为激活函数，σ表示sigmoid函数，a＝{a1,a2,
…
,a
t
}，a的尺度为dh×
t。
[0076]
基于注意力策略池计算的得到语音向量的均值为：
[0077][0078]
其中，a
t
是第t帧语音向量的权重，h
t
是第t帧语音向量，t表示语音总帧数。
[0079]
基于注意力策略池计算的得到语音向量的标准差为：
[0080][0081]
其中，a
t
是第t帧语音向量的权重，h
t
是第t帧语音向量，是语音向量的均值，t表示语音总帧数。
[0082]
经注意力策略池得到的声纹向量，表示为：其中是语音向量的均值，是语音向量的标准差。
[0083]
进一步的，所述全连接模块，包含2个全连接层，执行：
[0084]
第一全连接层，用于接收来自注意力策略池模块的声纹向量，计算得到声纹嵌入向量；
[0085]
第二全连接层，用于接收来自第一全连接层的声纹嵌入向量，预测并输出语音信息对应的分类信息，所述分类信息表示该语音所属说话人。
[0086]
进一步的，所述测试判别模块，使用当前阶段训练得到的声纹识别模型，实时反馈模型训练的效果；调用最终得到的声纹模型，判别注册语音和测试语音是否来自同一说话人。以等错误率和检测代价函数为评价指标，具体计算方式如下：
[0087]
定义错误接受率far表示不该接受的样本中被接受概率，错误拒绝率frr表示不该拒绝的样本中被拒绝的概率，声纹识别效果判定指标等错误率eer表示当两个错误概率相等时候的值，far和frr的计算公式如下所示：
[0088][0089][0090]
其中，t/f表示判断正/误，p/n表示判为正/负；
[0091]
声纹识别效果判定指标最小检测代价函数mindcf，计算公式表示为如下形式：
[0092]
mindcf＝c
fa
*far*(1-p
target
) c
fr
*frr*p
target
[0093]
其中，c
fa
为错误接收样本的风险系数，c
fr
为错误接收样本的风险系数，p
target
和1-p
target
为正例对和负例对的先验概率。
[0094]
本发明的有益效果：
[0095]
1、本发明采用了残差神经网络与时延神经网络结合的网络架构，相比于单一网络结构的声纹识别方法，本方法可以将语音的频域和时域局部特征与拥有完整频域和通道信息的全局特征相结合，能够提取更高分辨率的声纹信息。
[0096]
2、本发明使用基于频域和通道信息的注意力机制连接残差神经网络与时延神经网络，并结合卷积核为1的一维卷积进行特征降维。在不增加模型参数的情况下，通过重新加权频域和通道强调了重要的声纹信息。
[0097]
3、本发明将注意力机制与多尺度时延神经网络相融合，使网络可以针对目标特征图自适应合适大小的感受野，有效结合了不同时域范围中的声纹信息。在处理带噪语音和短语音时，也可以获取到丰富、有效的声纹信息。
[0098]
4、以voxceleb数据集为例，使用本方法后的等错误率相较于单一网络结构的声纹识别方法降低约36.2％。
[0099]
当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0100]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0101]
图1为本发明的总体流程图；
[0102]
图2为本发明的总体网络结构图；
[0103]
图3为本发明的卷积-残差模块结构图；
[0104]
图4为本发明的注意力模块结构图；
[0105]
图5为本发明的时延神经网络结构图；
[0106]
图6为本发明的sk-tdnn模块结构图；
具体实施方式
[0107]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0108]
实施例1
[0109]
如图1所示，本发明提供了一种基于resnet和tdnn的自适应声纹识别方法及系统，包括以下步骤：
[0110]
1)采集自然环境下的语音信号；2)对采集到的用于模型训练的语音信号进行语音增强处理；3)进行语音预处理，提取语音的声学特征；4)对用于训练的语音语谱特征进行语谱图增强处理；5)将增强后的语音语音特征放入基于resnet和tdnn的自适应声纹识别方法训练；6)使用训练好的声纹识别模型，判别注册语音和测试语音是否来自同一说话人。
[0111]
采集自然环境下的语音信号
[0112]
获取由麦克风设备采集的大量语音数据，由于现实生活中的声纹识别环境可能受到各种复杂噪音的影响，采集到的用作训练的语音包含环境噪声、不同风格、不同时间与不同设备记录以及不同时长的语音。语音的采样频率为16000hz。
[0113]
对用于模型训练的语音信号进行语音增强处理
[0114]
为了提升声纹识别在复杂背景下的识别效果，采用以下方式进行语音增强：添加混响，模拟不同延迟的信号的叠加；添加噪声，包括音乐、噪音、嘈杂的人声以及电视噪音；添加速度扰动，实现稍慢或稍快的信号。
[0115]
进行语音预处理，提取语音的声学特征
[0116]
对于训练集中的每条语音，随机截取200帧，提取80维的fbank特征作为网络输入。
[0117]
对用于训练的语音语谱特征进行语谱图增强处理
[0118]
为防止训练过程出现过拟合现象，对语音的fbank特征数据进行语谱增强处理，所述处理方式为：在fbank特征的频域范围内随机挑选0～8的频域宽度进行掩码处理，涉及到的频谱值设置为0；在fbank特征的时域范围内随机挑选0～10的时域宽度进行掩码处理，涉
及到的频谱值设置为0。
[0119]
将增强后的语音语音特征放入基于resnet和tdnn的自适应声纹识别方法训练
[0120]
搭建基于resnet和tdnn的自适应声纹识别方法的结构，采用aam-softmax函数作为损失函数，使用adam优化器进行梯度计算和反向传播，更新残差网络参数。其中，基于resnet和tdnn的自适应声纹识别方法架构及参数设置如表1所示：
[0121][0122][0123]
表1
[0124]
如上表1所示，基于resnet和tdnn的自适应声纹识别方法可以由卷积-残差模块，注意力模块，时延神经网络模块，注意力策略池模块和全连接层依次相连组成。训练过程中，输入层将经过语谱增强的80维fbank特征首先送入卷积-残差模块，卷积-残差模块中卷积核大小均为3，通道数均为64，两个卷积层步长为(2，1)，残差层步长为1。其次，进入注意力模块进行特征加权处理。然后，进入时延神经网络模块，时延神经网络模块由3个tdnn层和3个sk-tdnn层组成，tdnn层使用一维卷积的形式实现，卷积核大小分别为1，5，1，通道数
为512，512，1536，步长均为1。sk-tdnn层由2个卷积核为1，通道数为512，步长为1的tdnn层、1个含有卷积核为3和5，通道数为512，步长为1的自适应tdnn层以及一个包含3个线性层，1个sigmoid层的注意力模块组成。接着，注意力策略池模块将语音特征进一步加权，为后续的处理做准备。最后，两个全连接层中第一个用于生成语音嵌入特征，尺寸为(batchsize)
×
192，最后一个全连接层用于声纹分类，尺寸为(batchsize)
×
分类数。
[0125]
使用训练好的声纹识别模型，判别注册语音和测试语音是否来自同一说话人；
[0126]
基于resnet和tdnn的自适应声纹识别方法在经过多次迭代更新后，可以得到用于声纹识别的声纹识别网络模型。在测试阶段，使用当前阶段训练得到的声纹识别模型，可以实时反馈模型训练的效果；在判别阶段，使用训练好的声纹识别模型，通过计算不同语音声纹嵌入向量之间的余弦相似度，可以判定注册语音和测试语音是否来自同一说话人。
[0127]
本方法使用的数据集为voxceleb1和voxceleb2大规模语音数据集，使用含有5994名说话人的语音数据进行模型训练，使用不在训练集中的40名说话人的37611个语音对进行说话人验证，如表2所示，使用本方法后的测试结果可以将声纹识别的等错误率降至0.88％。消融实验结果如表2所示。
[0128][0129][0130]
表2
[0131]
以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种自适应声纹识别方法及系统

相关文献

最热文献