农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法与流程

2021-08-31 17:44:00 来源：中国专利 TAG：语音听觉注意力信号处理识别

本发明属于语音信号处理与模式识别领域，涉及一种听觉前端与基于注意力的3dcrnn结合的语音情感识别方法。

背景技术：

人工智能领域的不断发展使得人类与计算机的关系日益密切，情感计算更是其中一个重要研究领域，在人机交互中情感交互具有非常重要的意义。而语言是人类信息交流的直接媒介，所以，语音情感识别(ser)相较于其他情感识别技术来说，在实用性和应用广泛程度上最具有代表性。情感识别过程中的一个关键环节是从语音信号中提取出可以表征人类情感的特征集，迄今为止，仍然没有一个很系统的特征集。

之前很多研究都是直接从语音中提取低层次描述符(llds)，再利用传统的机器学习方法对情感进行分类。但是，由于存在上下文和表达情感的不同方式等因素，从llds选取特征集进行ser的效果不是特别理想。随着科技的发展，图像处理变得易于实现，因此ser研究的新热点是将语音信号转化为语谱图作为ser的识别对象。这种方法避免了手工特征提取的繁琐过程，减少建模和训练工作量。它还能反映语音信号的能量特性和节奏变化的纹理特征，已有许多研究者开始基于谱图开展语音情感识别技术的研究，并取得了良好的效果。tarunika等使用深度神经网络(dnn)从幅度谱中提取高级情感特征表示，并且与传统声学特征相比表现出更好的性能。han等提出一种dnn-elm深度网络模型用于ser，使用能量最高的片段来训练dnn模型，以提取有效的情绪信息。

近几年，cnn和rnn在ser领域应用广泛，深卷积模型可以保持语音信号的谱时平移不变性，rnn在处理时序信息方面表现优异，因此常用于提取情感语音的高级特征。neumann等将无监督自动编码器学习表示集成到crnn情感分类器中，提高了识别精度。但是，cnn从语谱图中学习特征的这种方法，仅仅是对单帧图的cnn特征进行融合，因此往往忽略了相邻的连续语音帧间的联系，因此，一些研究提出了三维卷积模型用于ser，可以更好地捕捉特征表示的短期时空关系。peng等人将谱图信息直接作为三维-crnn的输入，卷积层用于提取高层次表示，递归层则提取用于情感识别的长期依赖关系。针对沉默帧和情感无关帧对ser的干扰，chen等提出了一种基于注意力的3d卷积递归神经网络(acrnn)模型用于学习ser的判别特征，注意力机制的引入有效降低了沉默帧等冗余信息的影响。但是传统调制谱特征存在的纹理特征信息不完善，导致语音情感识别的准确率下降。且在网络结构复杂时，需要训练的参数也逐渐增多，导致计算量非常大。

技术实现要素：

有鉴于此，本发明的目的在于提供一种可获得较高识别率、有效解决原始特征信息表征能力不强以及时空关联性弱的问题的一种听觉前端与基于注意力的3dcrnn结合的语音情感识别方法。

为达到上述目的，本发明提供如下技术方案：

一种听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，包括以下步骤：

s1：利用听觉系统对语音信号进行处理，提取出表征语音情感信息的基于时间调制信号的语谱图；

s2：利用3dcnn模型从语谱图中提取情感语音的光谱-时间特征；

s3：将3dcnn的输出作为arnn模型的输入，通过arnn提取光谱-时间特征的长期依赖关系，利用时间注意模型来捕捉每个话语中与情感相关的重要信息；

s4：在模型训练过程中各自更新自身的参数使得损失最小，不断迭代优化，使模型达到最优，使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用rmsprop算法对模型参数进行优化；

s5：使用验证集对训练后的模型验证，调整模型的超参数，得到最终网络模型，最后利用softmax层进行语音情感分类。

进一步，所述步骤s1具体步骤如下：

s11：采用听觉滤波器组将语音信号y(t)分解为声音频率分量，作为耳蜗声音频率分析仪对语音信号进行处理，其中第n个声音频率通道的输出为：

sg(n,t)＝gc(n,t)*y(t),1≤n≤n

其中，gc(n,t)是第n个信道的脉冲响应，t是时域中的样本数，n是听觉滤波器组中的通道数，*表示卷积操作；所述听觉滤波器的中心频率与其带宽成正比，其特点为等效矩形带宽(erbn)，公式如下：

其中，fn是第n个滤波器的中心频率，qear是大频率下的渐近滤波器质量，bmin是低频率下的最小带宽；所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积，公式如下：

其中，at^a1-1exp(-2πwferbn(fn)t)是由伽玛分布表示的振幅项，a、a1和wf分别是滤波器的振幅、滤波器顺序和带宽，c1ln(t)项是单调调频项，是原始相位，erbn(fn)是在中心频率为fn时听觉滤波器的带宽；

s12：利用希尔伯特变换提取语音信号的时间包络线，计算第n个通道信号的瞬时振幅se(n,t)，se(n,t)是从sg(n,t)计算得出，公式如下：

式中，是一个复杂分析信号。

s13：利用调制滤波器组获得频谱-时间调制信号，使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t)，其计算公式如下：

sm(n,m,t)＝mf(m,t)*se(n,t),1≤n≤m

其中，mf(m,t)是调制滤波器组的脉冲响应，m是调制滤波器组中的通道数。

这种类型的信号为每个子信道生成一个频域特定的时域信号，并且许多子信道包括3d光谱-时间表示。由于光谱-时间表示的高时间分辨率，因此必须减少时域的样本数量。时间分辨率的降低可以简单地通过800hz速率的下采样频谱-时间表示来实现，此操作将序列长度减少了20倍。

进一步，步骤s2中所述3dcnn模型包括三个卷积层、三个池化层及一个reshape层，每个卷积层后加入批规范(batchnormalization,bn)层和relu激活函数层；

所述bn层对深度神经网络中间层激活进行归一化，引入两个可学习参数γ和β：

一个批次中，bn是对每个特征而言的，有m个训练样本，j个维度，即j个神经元节点，对第j维进行规范化：

其中，是第i层第j维的线性计算结果，ε是为了防止方差为0的常数；

relu的计算公式如下：

进一步，步骤s3中所述的arnn模型为双向lstm模型，所述lstm单元包括遗忘门、输入门和输出门；使用遗忘门来确定在前一时刻的单元状态中丢弃的信息，并直接参与更新单元状态，单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关，并将前一个时刻的单元状态作为更新当前状态的参数；

遗忘门算法：ft＝σ(wf×[ht-1,xt] bf)

单元状态更新算法：it＝σ(wi×[ht-1,xt] bi)

其中ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出，xt是当前时刻的输入，是要被添加到记忆单元的候选值，wf、wi和wc分别是由训练得到的遗忘门、输入门和候选单元的权重，bf、bi和bc是wf、wi和wc的偏差，it是的权重系数，σ表示的是逻辑sigmoid函数：

进一步，所述arnn模型设置blstm有512个双向隐藏单元，创建一个形状为l×1024的新序列，将其放入注意力层中，最后产生一个新的序列h。

进一步，所述步骤s4所述的交叉熵定义如下：

其中，为第j个样本的真实标签，yj为第j个样本的网络模型的预测输出；

rmsprop算法的定义如下：

其中，r表示梯度平方值的滑动率，w表示衰减率，α表示学习率，ε表示防止分母为零的常数项，η表示超参数，为常量。

进一步，步骤s5所述的softmax函数的的公式如下：

该式表示的数组中第i元素的softmax值。

本发明的有益效果在于：相同的实验环境下，听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，能够更好的解决原始特征信息表征能力不强，以及时空关联性弱的问题，进一步提取出可以表征语音情感的更深层特征，注意力机制的引入在很大程度上降低了计算量，提升了模型训练和测试速度，且改善了时空关联性不强的问题。总之，本发明提出的听觉前端与基于注意力的3dcrnn结合的语音情感识别方法在较大程度上提升了语音情感识别系统的性能。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1是听觉前端与基于注意力的3dcrnn结合的语音情感识别方法的总体框图；

图2是基于时间调制信号的语谱图提取过程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，如图1所示，本发明提供了一种听觉前端与基于注意力的3dcrnn结合的语音情感识别方法，其特征在于，包括以下步骤：

s1：利用听觉系统对语音信号进行处理，提取出可以表征语音情感信息的基于时间调制信号的语谱图，具体步骤如下：

步骤a1：采用听觉滤波器组将语音信号分解为声音频率分量，作为耳蜗声音频率分析仪对语音信号进行处理。本发明中，使用gammachirp听觉滤波器组对语音信号y(t)进行滤波，其中第n个声音频率通道的输出为：

sg(n,t)＝gc(n,t)*y(t),1≤n≤n

其中，gc(n,t)是第n个信道的脉冲响应，t是时域中的样本数，n是听觉滤波器组中的通道数，*表示卷积操作。这些滤波器的中心频率与其带宽成正比，其特点为等效矩形带宽(erbn)，公式如下：

其中，fn是第n个滤波器的中心频率，qear是大频率下的渐近滤波器质量，本发明取9.26449，bmin是低频率下的最小带宽，本发明取24.7。gammachirp滤波器的脉冲响应是伽玛分布和正弦函数的乘积，公式如下：

其中，at^a1-1exp(-2πwferbn(fn)t)是由伽玛分布表示的振幅项，a、a1和wf分别是滤波器的振幅、滤波器顺序和带宽，c1ln(t)项是单调调频项，是原始相位，erbn(fn)是在中心频率为fn时听觉滤波器的带宽。

步骤a2：利用希尔伯特变换提取语音信号的时间包络线，进而计算第n个通道信号的瞬时振幅se(n,t)。se(n,t)是从sg(n,t)计算得出，公式如下：

式中，是一个复杂分析信号。

步骤a3：利用调制滤波器组获得频谱-时间调制信号，使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t)，其计算公式如下：

sm(n,m,t)＝mf(m,t)*se(n,t),1≤n≤m

其中，mf(m,t)是调制滤波器组的脉冲响应，m是调制滤波器组中的通道数。

这种类型的信号为每个子信道生成一个频域特定的时域信号，并且许多子信道包括3d光谱-时间表示。由于光谱-时间表示的高时间分辨率，因此必须减少时域的样本数量。时间分辨率的降低可以简单地通过800hz速率的下采样频谱-时间表示来实现，此操作将序列长度减少了20倍。

s2：3dcnn模型从语谱图中提取情感语音的光谱-时间特征，本发明设计的3dcnn结构如下表所示：

每个卷积层后加入批规范(batchnormalization,bn)层和relu激活函数层。

bn对深度神经网络中间层激活进行归一化，算法关键在于引入了两个可学习参数γ和β：

一个批次中，bn是对每个特征而言的，有m个训练样本，j个维度(j个神经元节点)。对第j维进行规范化：

其中，是第i层第j维的线性计算结果，ε是为了防止方差为0。

relu的计算公式如下：

s3：将3dcnn的输出作为arnn模型的输入，提取这些光谱-时间特征的长期依赖关系，利用时间注意模型来捕捉每个话语中与情感相关的重要信息，改善时空关联性弱的问题。本发明使用rnn模型的变体结构，即lstm模型，为了能够保持上下文联系，本文使用双向的lstm结构。

lstm单元由三个门结构组成，分别是遗忘门、输入们和输出门。使用遗忘门来确定在前一时刻的单元状态中应该丢弃哪些信息，并直接参与更新单元状态，单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关，并将前一个时刻的单元状态作为更新当前状态的参数。

遗忘门算法：ft＝σ(wf×[ht-1,xt] bf)

单元状态更新算法：it＝σ(wi×[ht-1,xt] bi)

其中ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出，xt是当前时刻的输入，是要被添加到记忆单元的候选值，wf、wi和wc是分别是由训练得到的遗忘门、输入门和候选单元的权重，bf、bi和bc是它们的偏差，it是的权重系数，σ表示的是逻辑sigmoid函数：

本发明为arnn模型设置blstm有512个双向隐藏单元，创建了一个形状为l×1024的新序列，将其放入注意力层中，最后产生一个新的序列h。

s4：用训练集对模型进行训练，采用交叉熵作为损失函数，利用rmsprop算法优化目标函数。

交叉熵算法定义如下：

其中，第j个样本的真实标签

yj：第j个样本的网络模型的预测输出

rmsprop算法的定义如下：

其中，r：梯度平方值的滑动率

w：衰减率

α：学习率

ε：防止分母为零的常数项

η：超参数，常量

s5：利用softmax层进行语音情感分类，softmax函数的的公式如下：

该式表示数组中第i元素的softmax值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法与流程

相关文章

最热文献