一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于交叉门控并行卷积网络的说话人辨识方法

2022-07-30 22:16:12 来源:中国专利 TAG:


1.本发明属于深度学习和说话人辨识技术领域,尤其是涉及一种基于交叉门控并行卷积网络的说话人辨识方法。


背景技术:

2.语音特征的提取是说话人辨识系统中一个重要环节,以往常用的语音特征有梅尔倒谱系数、线性预测编码等。近年来,基于神经网络的语音特征提取方法正逐渐成为研究热点,它通常是将语音特征输入神经网络中,利用神经网络从语音特征中提取深度特征,用于说话人辨识。
3.语音特征的融合是将多种不同类型的语音特征按一定的方法组合,得到融合特征,利用语音信号的融合特征可以提高说话人辨识系统的性能。目前,语音特征的融合方法一般是将两种不同类型的语音特征级联作为融合特征,然后直接输入到神经网络中,提取深度特征,用于说话人辨识。然而直接将不同类型的语音特征级联作为融合特征的方式过于简单且没有对特征进行提炼和筛选,这不利于提高说话人辨识系统的性能。根据神经网络具有强大的特征处理能力,利用神经网络也可以实现有效的特征融合。另外,在单个语音特征的处理方面,门控机制能够提升神经网络的特征提取性能,针对语音特征的融合,门控机制也具备一定应用潜力。


技术实现要素:

4.本发明的目的在于提供一种基于交叉门控并行卷积网络的说话人辨识方法,以解决上述背景技术中提出的问题。
5.该方法首先利用多层交叉门控并行卷积网络对两种不同类型的语音特征进行处理,提取出两个深度特征;然后,拼接两个深度特征并输入卷积神经网络,提取融合特征;最后,以融合特征为输入,利用分类网络,实现说话人辨识。
6.上述说话人辨识方法的具体步骤如下:
7.步骤一:将说话人的语音信号分帧,从每一帧语音信号中提取两种不同类型的语音特征向量,分别构成两个特征矩阵:音特征向量,分别构成两个特征矩阵:其中,h1(t)、h2(t)分别表示第一、二种语音特征的第t帧的特征向量,t表示语音帧的个数,d1、d2分别表示第一、二种特征向量的维数。
8.步骤二:将h1、h2分别作为第一层交叉门控并行卷积网络的两个输入特征分别作为第一层交叉门控并行卷积网络的两个输入特征输入到l层交叉门控并行卷积网络中。
9.其中,对于l层交叉门控并行卷积网络中的第l层,有两个输入特征其中,对于l层交叉门控并行卷积网络中的第l层,有两个输入特征其中,l=1,2,...,l,t
l
表示第l层网络输入特征的帧数,分别表示第l层网络两个输入特征的维数。分别利用两个卷积神经网络,从中提取特征从
中提取特征其中,t
l

、d
l

分别表示特征的帧数和维数。另外,分别利用两个由卷积神经网络和sigmoid激活函数组成的门控权重提取器,从中提取出门控权重矩阵从中提取出门控权重矩阵接着,将门控权重矩阵分别与特征加权,得到第l层交叉门控并行卷积网络的两个输出特征其运算表达式如下:
[0010][0011][0012]
上式中,符号表示两个矩阵对应位置相乘的运算操作。得到的即为第l 1层网络的两个输入特征,继续进行特征处理。
[0013]
按照上述步骤,依次执行第1至l层交叉门控并行卷积网络的特征处理过程,第l层交叉门控并行卷积网络的输出即为深度特征其中,t
l

、d
l

表示深度特征的帧数和每一帧特征的维数。
[0014]
步骤三:将拼接特征输入到卷积神经网络中,提取融合特征t
fusion
、d
fusion
分别表示融合特征的帧数和每一帧特征的维数。
[0015]
步骤四:将h
fusion
输入分类网络,得到预测结果。
[0016]
步骤五:基于预测结果和真实的说话人身份标签,利用交叉熵损失训练整个网络,直至损失函数收敛,保存模型。
[0017]
步骤六:利用保存好的模型,按照步骤一至步骤四实现说话人辨识。
[0018]
本发明的有益效果是:
[0019]
基于并行的网络结构将两种不同的语音特征分开处理,同时,利用交叉门控机制,增强了并行网络中两条并行支路之间的信息交互能力,充分发挥了神经网络的特征处理优势。配合以特征拼接操作和卷积神经网络,实现了一种有效的特征融合方法,并提升了说话人辨识系统的性能。
附图说明
[0020]
图1为本发明提出的基于交叉门控并行卷积网络的说话人辨识系统的整体框架。
[0021]
图2为并行卷积网络的整体框架,用于与本发明提出的交叉门控并行卷积网络的对比。
[0022]
图3为单特征处理网络的整体框架,用于与本发明提出对的交叉门控并行卷积网络对比。
具体实施方式
[0023]
本发明将通过以下实施例作进一步说明。
[0024]
本发明方法首先在频域采用多种由不同个数的三角滤波器构成的梅尔滤波器组从一段语音信号中提取出多种不同类型的语音特征;然后,从中选取两种不同类型的语音特征输入至基于交叉门控并行卷积网络的说话人辨识系统,提取融合特征,实现说话人辨
识。
[0025]
具体步骤为:
[0026]
步骤一:首先,对一段说话人语音进行去除静音、截取3s时长语音、预加重、加汉明窗分帧、快速傅里叶变换、取功率谱,其中,预加重系数设为0.97,语音帧长设为25ms,帧移设为10ms;接着,在0~8000hz频率范围内,分别选取13、26、40个三角滤波器构造梅尔滤波器组;将语音的功率谱经过梅尔滤波器组和取对数操作,提取出三种不同类型的语音特征,从中选取两种语音特征其中,t表示语音信号特征的帧数,d1、d2分别表示两种语音信号特征中每一帧特征的维数。
[0027]
步骤二:将h1、h2输入到基于交叉门控并行卷积网络的说话人辨识系统中。交叉门控并行卷积网络的结构如图1所示,其处理过程包括:
[0028]

将h1、h2分别作为第一层交叉门控并行卷积网络的两个输入特征输入到4层交叉门控并行卷积网络中。
[0029]
对于4层交叉门控并行卷积网络的第l层,有两个输入特征:其中,l=1,2,3,4,t
l
表示第l层网络输入特征的帧数,分别表示第l层网络两个输入特征的维数。利用卷积神经网络,从中提取特征从中提取特征其中,t
l

、d
l

分别表示特征的帧数和维数。另外,利用卷积神经网络和sigmoid激活函数,从中提取出门控权重矩阵从中提取出门控权重矩阵接着,将门控权重矩阵分别与特征加权,得到第l层交叉门控并行卷积网络的两个输出特征其运算表达式如下:
[0030][0031][0032]
上式中,符号表示两个矩阵对应位置相乘的运算操作。接着,将分别作为第l 1层网络的两个输入特征,继续进行特征处理。
[0033]
其中4层交叉门控并行卷积网络中的卷积层均选用一维卷积,其具体参数如下:
[0034]
第一层交叉门控并行卷积网络中的所有卷积神经网络的输入通道数依赖于输入特征的维数,卷积核的大小为5
×
输入特征的维数,输出通道数设为256,膨胀系数为1。
[0035]
第二层交叉门控并行卷积网络中的所有卷积神经网络的输入通道数为256,卷积核的大小为256
×
5,输出通道数为256,膨胀系数为2。
[0036]
第三层交叉门控并行卷积网络中的所有卷积神经网络的输入通道数为256,卷积核的大小为256
×
7,输出通道数为256,膨胀系数为3。
[0037]
第四层交叉门控并行卷积网络中的所有卷积神经网络的输入通道数为256,卷积核的大小为256
×
1,输出通道数为256,膨胀系数为1。
[0038]
四层网络中的卷积神经网络均使用批标准化操作。
[0039]
按照上述方法,依次执行第1至4层交叉门控并行卷积网络的特征处理,取第4层交叉门控并行卷积网络的输出作为深度特征
[0040]

将输入特征拼接层,得到拼接特征
[0041]

将拼接特征h
concate
输入一层卷积神经网络,提取出融合特征h
fusion
∈r
270
×
1500
。其中,卷积神经网络的激活函数选用relu激活函数,且使用批标准化操作,该层卷积网络的输入通道数为512,卷积核的大小为512
×
1,输出通道数为1500,膨胀系数为1。
[0042]

将h
fusion
输入统计池化层,统计融合特征的各通道维度的均值、标准差信息,将统计出的均值和标准差信息作为该语音的语段级特征
[0043]

将输入至由一层全连接层和一层softmax层构成的分类网络实现说话人辨识。
[0044]
步骤三:按照步骤一、步骤二执行,得到说话人身份的预测结果。
[0045]
步骤四:结合该语音对应的说话人真实标签以及神经网络的预测结果,计算交叉熵损失,利用反向传播算法,进行网络训练,直至损失值收敛,停止训练,保存模型。
[0046]
步骤五:利用步骤四保存好的模型,按照步骤三进行预测实现说话人辨识。
[0047]
为评价说话人辨识方法的性能,从librispeech数据集中选取251个说话人,每人选取40句话,其中20句话用于训练网络,剩余的20句话用于测试网络的说话人辨识性能。以说话人识别率为指标,测试说话人辨识系统性能。此外,按照图2所示,将交叉门控并行卷积网络中的交叉门控并行卷积层全部替换为卷积层,每层卷积层都使用relu激活函数以及批标准化操作,构造出并行卷积网络,用于和交叉门控并行卷积网络对比,评估交叉门控并行卷积网络对于说话人辨识的有效性。将13、26、40个滤波器提取出的语音特征两两组合,输入到交叉门控并行卷积网络和并行卷积网络中,每组实验进行10次,并计算10次实验说话人识别率的均值和方差,实验结果如表1所示。另外,按照图3所示,将并行网络的分支去除,同时去除特征拼接层,构造出单特征处理网络,用于评估基于交叉门控并行卷积网络提取出的融合特征和基于并行卷积网络提取出的融合特征的有效性。分别将13、26、40个滤波器提取出的语音特征输入到单特征处理网络中,每组实验进行10次,并计算10次实验说话人识别率的均值和方差,实验结果如表2所示。
[0048]
在适定情况下,从表1中可以看出,当输入为由13、26个滤波器提取出的语音特征时,并行卷积网络的识别率为96.28%,交叉门控并行卷积网络的识别率为96.46%;当输入为由13、40个滤波器提取出的语音特征时,并行卷积网络的识别率为96.64%,交叉门控并行卷积网络的识别率为96.84%;当输入为26、40个滤波器提取出的语音特征时,并行卷积网络的识别率为96.58%,交叉门控并行卷积网络的识别率为96.73%。在输入的语音特征相同的条件下,相比于并行卷积网络,本发明说话人辨识方法取得了更高的说话人识别率,特别是通过13、40个滤波器提取出的语音特征进行组合的条件下,本发明说话人辨识方法的识别率在表1中最高,所以,本发明说话人辨识方法是有效的。
[0049]
在适定情况下,从表2中可以看出,对基于单特征处理网络的说话人辨识系统而言,当输入为由13个滤波器提取出的语音特征时,识别率为94.42%;当输入为由26个滤波器提取出的语音特征时,识别率为95.77%;当输入为由40个滤波器提取出的语音特征时,可以获得最高的识别率,为96.12%。表1中所示的基于并行卷积网络的说话人辨识系统以及基于交叉并行卷积网络的说话人辨识系统的识别率均高于96.12%,所以,基于并行卷积网络和基于交叉门控并行卷积网络提取出的融合特征是有效的。综合表1和表2可以看出,
本发明说话人辨识方法获得了最佳的说话人辨识系统性能。
[0050]
表1基于并行卷积网络和交叉门控并行卷积网络的说话人识别系统的识别率
[0051][0052]
表2基于单特征处理网络的说话人识别系统的识别率
[0053][0054]
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献