一种基于样本均衡和最大均值差异的跨库语音情感识别方法与流程

2021-11-10 04:02:00 来源：中国专利 TAG：

技术特征：
1.本发明提出了一种基于样本均衡和最大均值差异的跨库语音情感识别方法，主要包含以下步骤：(1)语音预处理：对时域连续采样的语音信号进行分帧、加窗及短时离散傅里叶变换处理，提取语谱图，语谱图直观的反映了各个时刻语音频率成分的能量强弱，包含了丰富的语音情感信息；(2)特征提取：步骤(1)提取到的语谱图是一维语音信号在二维时域和频域上的展开，利用alexnet在语谱图上提取深度特征；(3)特征对齐：将步骤(2)中生成的特征矩阵输入mmd模块，此模块将源域和目标域特征映射到再生希尔伯特空间(reproducing kernel hilbert space，rkhs)，寻找映射函数使得变换后的源域和目标域距离最小，源域目标域距离定义如下：(4)样本均衡：步骤(2)中的特征矩阵在经过softmax处理后成为预测概率矩阵p
i，j
，对其进行双重frobenius范数最大化处理，首先，在使用熵最小化法来保证模型预测准确性的方法中，frobenius范数和熵h(x)具有严格相反的单调性，因此，frobenius范数最大化可以保证h(x)最小化，增加模型预测准确性，与此同时，为了弥补因熵最小化法带来的模糊样本误判，计算输出预测矩阵中的每一行与其下方所有行的差值，构造样本间距度量矩阵d，此时，最大化矩阵d的frobenius范数可以在保证模型预测精度的同时使得预测类别更丰富，保护了决策边界上的模糊样本，过程如下：保护了决策边界上的模糊样本，过程如下：保护了决策边界上的模糊样本，过程如下：保护了决策边界上的模糊样本，过程如下：其中，q为batchsize除以分类数j所得的商，r为batchsize除以分类数j所得的余数，d的维度为分类数j列乘以行；(5)模型训练：将步骤(1)得到的语谱图直接输入alexnet网络，将源域和目标域的特征进行mmd度量，得到特征分布差异损失l
mmd
，有标签的源域数据经过分类器后得到分类损失l
cls
，将无标签的目标域数据经过特征提取网络后得到的预测矩阵转化为样本间距度量矩阵，对度量矩阵进行frobenius范数最大化操作，得到损失为l
fnm
，利用反向传播算法对模型
进行训练，总损失如下：l
all
＝l
cls
l
mmd
l
fnm
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)(6)重复步骤(2)(3)(4)，优化网络模型参数；(7)经过一定轮次的迭代后，得到本方法指导下的最优模型，实现跨库语音情感识别性能的提升。

技术总结
本发明提出了一种基于样本均衡和最大均值差异的跨库语音情感识别方法。本方法首先对语音信号进行处理，将其提取为时域与频域信息相结合的语谱图，采用Alexnet网络进一步提取语谱图特征，利用最大均值差异（Maximum Mean Discrepancy,MMD）将源域和目标域特征进行对齐，结合Frobenius范数最大化（Frobenius

技术研发人员：汪洋耿磊傅洪亮陶华伟
受保护的技术使用者：河南工业大学
技术研发日：2021.07.15
技术公布日：2021/11/9

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于样本均衡和最大均值差异的跨库语音情感识别方法与流程

相关文献

最热文献