一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法与流程

2021-08-31 17:44:00 来源：中国专利 TAG：语音听觉注意力信号处理识别

技术特征：

1.一种听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：包括以下步骤：

s1：利用听觉系统对语音信号进行处理，提取出表征语音情感信息的基于时间调制信号的语谱图；

s2：利用3dcnn模型从语谱图中提取情感语音的光谱-时间特征；

s3：将3dcnn的输出作为arnn模型的输入，通过arnn提取光谱-时间特征的长期依赖关系，利用时间注意模型来捕捉每个话语中与情感相关的重要信息；

s4：在模型训练过程中各自更新自身的参数使得损失最小，不断迭代优化，使模型达到最优，使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用rmsprop算法对模型参数进行优化；

s5：使用验证集对训练后的模型验证，调整模型的超参数，得到最终网络模型，最后利用softmax层进行语音情感分类。

2.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：所述步骤s1具体步骤如下：

s11：采用听觉滤波器组将语音信号y(t)分解为声音频率分量，作为耳蜗声音频率分析仪对语音信号进行处理，其中第n个声音频率通道的输出为：

sg(n,t)＝gc(n,t)*y(t),1≤n≤n

其中，gc(n,t)是第n个信道的脉冲响应，t是时域中的样本数，n是听觉滤波器组中的通道数，*表示卷积操作；所述听觉滤波器的中心频率与其带宽成正比，其特点为等效矩形带宽(erbn)，公式如下：

其中，fn是第n个滤波器的中心频率，qear是大频率下的渐近滤波器质量，bmin是低频率下的最小带宽；所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积，公式如下：

其中，at^a1-1exp(-2πwferbn(fn)t)是由伽玛分布表示的振幅项，a、a1和wf分别是滤波器的振幅、滤波器顺序和带宽，c1ln(t)项是单调调频项，是原始相位，erbn(fn)是在中心频率为fn时听觉滤波器的带宽；

s12：利用希尔伯特变换提取语音信号的时间包络线，计算第n个通道信号的瞬时振幅se(n,t)，se(n,t)是从sg(n,t)计算得出，公式如下：

式中，是一个复杂分析信号。

s13：利用调制滤波器组获得频谱-时间调制信号，使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t)，其计算公式如下：

sm(n,m,t)＝mf(m,t)*se(n,t),1≤n≤m

其中，mf(m,t)是调制滤波器组的脉冲响应，m是调制滤波器组中的通道数。

3.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：步骤s2中所述3dcnn模型包括三个卷积层、三个池化层及一个reshape层，每个卷积层后加入批规范(batchnormalization,bn)层和relu激活函数层；

所述bn层对深度神经网络中间层激活进行归一化，引入两个可学习参数γ和β：

一个批次中，bn是对每个特征而言的，有m个训练样本，j个维度，即j个神经元节点，对第j维进行规范化：

其中，是第i层第j维的线性计算结果，ε是为了防止方差为0的常数；

relu的计算公式如下：

4.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：步骤s3中所述的arnn模型为双向lstm模型，所述lstm单元包括遗忘门、输入门和输出门；使用遗忘门来确定在前一时刻的单元状态中丢弃的信息，并直接参与更新单元状态，单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关，并将前一个时刻的单元状态作为更新当前状态的参数；

遗忘门算法：ft＝σ(wf×[ht-1,xt] bf)

单元状态更新算法：it＝σ(wi×[ht-1,xt] bi)

其中ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出，xt是当前时刻的输入，是要被添加到记忆单元的候选值，wf、wi和wc分别是由训练得到的遗忘门、输入门和候选单元的权重，bf、bi和bc是wf、wi和wc的偏差，it是的权重系数，σ表示的是逻辑sigmoid函数：

5.根据权利要求4所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：所述arnn模型设置blstm有512个双向隐藏单元，创建一个形状为l×1024的新序列，将其放入注意力层中，最后产生一个新的序列h。

6.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：所述步骤s4所述的交叉熵定义如下：

其中，为第j个样本的真实标签，yj为第j个样本的网络模型的预测输出；

rmsprop算法的定义如下：

其中，r表示梯度平方值的滑动率，w表示衰减率，α表示学习率，ε表示防止分母为零的常数项，η表示超参数，为常量。

7.根据权利要求1所述的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于：步骤s5所述的softmax函数的的公式如下：

该式表示的数组中第i元素的softmax值。

技术总结
本发明涉及一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法，属于语音信号处理与模式识别领域，包括：S1：利用听觉系统对语音信号进行处理，提取出表征语音情感信息的基于时间调制信号的语谱图；S2：利用3DCNN模型从语谱图中提取情感语音的光谱‑时间特征；S3：通过ARNN提取光谱‑时间特征的长期依赖关系，利用时间注意模型来捕捉与情感相关的重要信息；S4：更新自身的参数使得损失最小，使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用RMSProp算法对模型参数进行优化；S5：使用验证集对训练后的模型验证，调整超参数，最后利用Softmax层进行语音情感分类。

技术研发人员：黄超;张毅;郑凯
受保护的技术使用者：重庆邮智机器人研究院有限公司
技术研发日：2021.06.04
技术公布日：2021.08.31

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法与流程

相关文章

最热文献