一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法与流程

2021-08-31 17:44:00 来源:中国专利 TAG:语音 听觉 注意力 信号处理 识别

技术特征:

1.一种听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:包括以下步骤:

s1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;

s2:利用3dcnn模型从语谱图中提取情感语音的光谱-时间特征;

s3:将3dcnn的输出作为arnn模型的输入,通过arnn提取光谱-时间特征的长期依赖关系,利用时间注意模型来捕捉每个话语中与情感相关的重要信息;

s4:在模型训练过程中各自更新自身的参数使得损失最小,不断迭代优化,使模型达到最优,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用rmsprop算法对模型参数进行优化;

s5:使用验证集对训练后的模型验证,调整模型的超参数,得到最终网络模型,最后利用softmax层进行语音情感分类。

2.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:所述步骤s1具体步骤如下:

s11:采用听觉滤波器组将语音信号y(t)分解为声音频率分量,作为耳蜗声音频率分析仪对语音信号进行处理,其中第n个声音频率通道的输出为:

sg(n,t)=gc(n,t)*y(t),1≤n≤n

其中,gc(n,t)是第n个信道的脉冲响应,t是时域中的样本数,n是听觉滤波器组中的通道数,*表示卷积操作;所述听觉滤波器的中心频率与其带宽成正比,其特点为等效矩形带宽(erbn),公式如下:

其中,fn是第n个滤波器的中心频率,qear是大频率下的渐近滤波器质量,bmin是低频率下的最小带宽;所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积,公式如下:

其中,ata1-1exp(-2πwferbn(fn)t)是由伽玛分布表示的振幅项,a、a1和wf分别是滤波器的振幅、滤波器顺序和带宽,c1ln(t)项是单调调频项,是原始相位,erbn(fn)是在中心频率为fn时听觉滤波器的带宽;

s12:利用希尔伯特变换提取语音信号的时间包络线,计算第n个通道信号的瞬时振幅se(n,t),se(n,t)是从sg(n,t)计算得出,公式如下:

式中,是一个复杂分析信号。

s13:利用调制滤波器组获得频谱-时间调制信号,使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t),其计算公式如下:

sm(n,m,t)=mf(m,t)*se(n,t),1≤n≤m

其中,mf(m,t)是调制滤波器组的脉冲响应,m是调制滤波器组中的通道数。

3.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:步骤s2中所述3dcnn模型包括三个卷积层、三个池化层及一个reshape层,每个卷积层后加入批规范(batchnormalization,bn)层和relu激活函数层;

所述bn层对深度神经网络中间层激活进行归一化,引入两个可学习参数γ和β:

一个批次中,bn是对每个特征而言的,有m个训练样本,j个维度,即j个神经元节点,对第j维进行规范化:

其中,是第i层第j维的线性计算结果,ε是为了防止方差为0的常数;

relu的计算公式如下:

4.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:步骤s3中所述的arnn模型为双向lstm模型,所述lstm单元包括遗忘门、输入门和输出门;使用遗忘门来确定在前一时刻的单元状态中丢弃的信息,并直接参与更新单元状态,单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关,并将前一个时刻的单元状态作为更新当前状态的参数;

遗忘门算法:ft=σ(wf×[ht-1,xt] bf)

单元状态更新算法:it=σ(wi×[ht-1,xt] bi)

其中ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出,xt是当前时刻的输入,是要被添加到记忆单元的候选值,wf、wi和wc分别是由训练得到的遗忘门、输入门和候选单元的权重,bf、bi和bc是wf、wi和wc的偏差,it是的权重系数,σ表示的是逻辑sigmoid函数:

5.根据权利要求4所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:所述arnn模型设置blstm有512个双向隐藏单元,创建一个形状为l×1024的新序列,将其放入注意力层中,最后产生一个新的序列h。

6.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:所述步骤s4所述的交叉熵定义如下:

其中,为第j个样本的真实标签,yj为第j个样本的网络模型的预测输出;

rmsprop算法的定义如下:

其中,r表示梯度平方值的滑动率,w表示衰减率,α表示学习率,ε表示防止分母为零的常数项,η表示超参数,为常量。

7.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法,其特征在于:步骤s5所述的softmax函数的的公式如下:

该式表示的数组中第i元素的softmax值。


技术总结
本发明涉及一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,属于语音信号处理与模式识别领域,包括:S1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;S2:利用3DCNN模型从语谱图中提取情感语音的光谱‑时间特征;S3:通过ARNN提取光谱‑时间特征的长期依赖关系,利用时间注意模型来捕捉与情感相关的重要信息;S4:更新自身的参数使得损失最小,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;S5:使用验证集对训练后的模型验证,调整超参数,最后利用Softmax层进行语音情感分类。

技术研发人员:黄超;张毅;郑凯
受保护的技术使用者:重庆邮智机器人研究院有限公司
技术研发日:2021.06.04
技术公布日:2021.08.31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜