一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于循环帧级特征融合的端到端猕猴声纹验证方法及系统与流程

2021-07-16 17:14:00 来源:中国专利 TAG:猕猴 端到 融合 循环 特征

技术特征:
1.一种基于循环帧级特征融合的端到端猕猴声纹验证方法,所述方法包括:对待验证的猕猴语音对进行预处理;所述猕猴语音对为两段猕猴语音段;将预处理后的猕猴语音对输入预先训练好的猕猴声纹验证模型,得到待验证的猕猴语音对是否属于同一个体猕猴的结论,从而实现声纹验证;所述猕猴声纹验证模型包括依次连接的骨干网络、特征融合网络和特征压缩网络;其中,所述骨干网络,用于进行帧级别的特征提取;所述特征融合网络,用于对特征提取的帧级别特征矢量进行循环帧截取并分组,再基于通道加权融合机制将帧级别特征映射为融合帧特征;所述特征压缩网络,用于对融合帧特征进行压缩,得到猕猴语音段对应的句子级特征。2.根据权利要求1所述的基于循环帧级特征融合的端到端猕猴声纹验证方法,其特征在于,所述对待验证的猕猴语音对进行预处理;具体为:将待验证的两段语音段中的静音段裁剪掉,得到预处理后的语音格式数据。3.根据权利要求2所述的基于循环帧级特征融合的端到端猕猴声纹验证方法,其特征在于,所述骨干网络的输入为预处理后的语音格式数据,输出为帧级别特征矢量;所述骨干网络包括依次连接的:1个可学习带通滤波器卷积层,6个一维残差卷积块,1个1
×
1通道转换卷积层和2个多头转换块;具体处理过程为:所述可学习带通滤波器卷积层将语音格式数据的时域信息转化为频域信息,并结合6个一维残差卷积块及其池化操作,在提取特征的同时缩小特征维度,由1个1
×
1通道转换卷积层对残差卷积块的输出特征进行通道转换,然后再进行多头转换输出帧级别特征矢量。4.根据权利要求3所述的基于循环帧级特征融合的端到端猕猴声纹验证方法,其特征在于,所述特征融合网络的输入为帧级别特征矢量,输出为融合帧特征矢量,所述特征融合网络包括循环帧截取分组单元和通道组,所述循环帧截取分组单元将帧级别特征矢量首尾相连,得到特征序列f,以预设步长对f进行分组,得到特征序列的分组表示fg;所述通道组,用于基于通道加权融合机制将fg映射为融合帧特征;所述通道组包括若干个cfm层,每个cfm层包括并联的第一分支和第二分支;其中,所述cfm层的具体处理过程为:将分组后的帧级别特征矢量经第一分支进行转置处理,得到融合帧特征的第一部分;将分组后的帧级别特征矢量经第二分支的2个fc处理后,分别经过1个最大池化层和1个平均池化层,将最大池化层和平均池化层的输出进行矩阵加法计算,然后由sigmoid层进行激活处理,得到融合帧特征的第二部分;将融合帧特征的第一部分与融合帧特征的第二部分进行点乘计算,得到融合帧特征矢量。5.根据权利要求4所述的基于循环帧级特征融合的端到端猕猴声纹验证方法,其特征在于,所述特征压缩网络的输入为融合帧特征矢量,输出为维度为d的句子级特征矢量,所述特征压缩网络包括依次连接的1个门控循环单元和1个全连接层;所述特征压缩网络的输出为维度为d的句子级特征矢量e:e=h(x)e∈r
d
len(x)=l其中,r表示实数,e包括d个实数,x表示帧级的特征矢量矩阵,l为x的长度,h()表示嵌入映射函数,len()表示特征矢量矩阵中的帧数。6.根据权利要求5所述的基于循环帧级特征融合的端到端猕猴声纹验证方法,其特征
在于,所述方法还包括猕猴声纹验证模型的训练步骤和测试步骤;具体包括:步骤1)对猕猴语料库的语音段进行预处理,所述预处理后的猕猴语料库包括t只猕猴的若干语料;步骤2)从预处理后的猕猴语料库随机选取t1只猕猴的语音段作为训练语料库,剩余t

t1只猕猴的语音段作为测试语料库;步骤3)从训练语料库选取数据建立训练集;将训练集数据随机划分为q组,每组包含m只猕猴,每只猕猴有n个语音段;步骤4)从测试语料库抽取数量相等的正样本语音对和负样本语音对构成测试集,所述正样本语音对为同一只猕猴的两段不同语音,所述负样本语音对为两只猕猴各自的一段语音;步骤5)将训练集中的q组数据依次输入猕猴声纹验证模型,设置学习率为0.001,衰减率为0.0001,使用斜率为

0.3的leaky relu激活函数,采用amsgrad进行训练,计算损失函数,通过反向传播算法将损失值反向传播,进行网络参数更新,当q组数据全部输入一遍后,完成一个训练周期;步骤6)将测试集数据依次输入当前训练周期得到的猕猴声纹验证模型,计算得到当前训练周期的准确率结果;步骤7)重复步骤5)和步骤6),直至完成p个训练周期;从p个准确率结果中选取最大值对应的网络参数组合为猕猴声纹验证模型的最优参数组合,从而得到训练好的猕猴声纹验证模型。7.根据权利要求6所述的基于循环帧级特征融合的端到端猕猴声纹验证方法,其特征在于,所述计算损失函数的具体过程为:根据每组猕猴语音段的句子级特征,计算余弦距离dist(a,a')为:其中,a表示一个句子级特征,a'表示另一个句子级特征,||
·
||表示二阶范数;根据余弦距离dist(a,a'),计算类内损失和类间损失,如下式:其中,j表示第i只猕猴的一段语音,k表示另一个语音段,j=k表示两个语音段属于同一只猕猴i,计算得到的损失值s
ji,k
为类内损失;j≠k表示两个语音段属于不同猕猴,计算得到的损失值s
ji,k
为类间损失;w为加权值,b为偏置;由下式计算猕猴声纹验证模型的损失函数loss
ji
为:8.一种基于循环帧级特征融合的端到端猕猴声纹验证系统,其特征在于,所述系统包括:训练好的猕猴声纹验证模型、数据处理模块和验证模块;其中,所述数据处理模块,用于对待验证的猕猴语音对进行预处理;所述猕猴语音对为两段猕猴语音段;
所述验证模块,用于将预处理后的猕猴语音对输入预先训练好的猕猴声纹验证模型,得到待验证的猕猴语音对是否属于同一个体猕猴的结论,从而实现声纹验证。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜