一种基于双层融合深度网络的语音情感识别方法

2022-07-13 05:46:36 来源：中国专利 TAG：

技术特征：
1.一种基于双层融合深度网络的语音情感识别方法，其特征在于，包括以下步骤：步骤1：对语音信号预处理和文本信号预处理，并做对齐操作，使其符合网络模型的输入要求；步骤2：将步骤1预处理后语音和文本特征向量输入到分解双线性池化融合模块fbp进行初级特征融合；步骤3：将步骤2分解双线性池化融合模块fbp输出的融合后的初级特征分别经过lstm,gru,dnn三个子模型组成的level-1初级特征编码网络；步骤4：然后level-1三个子网络的输出做二次融合，编码高级特征，融合的方法是hadmard积，然后将融合后的特征输入到level-2的bilstm编码网络，最后接分类输出层，预测情感类别；步骤5：最后训练网络模型。2.根据权利要求1所述基于双层融合深度网络的语音情感识别方法，其特征在于，所述文本信号预处理是指采用词嵌入方式，使用预训练的glove模型将每一个单词用一个向量表示。3.根据权利要求1所述基于双层融合深度网络的语音情感识别方法，其特征在于，所述语音信号预处理是指对音频信号进行加窗、分帧，使用的窗长为25ms的汉明窗，10ms的帧移，然后对其进行傅里叶变换，最后进行梅尔滤波操作得到梅尔频谱特征。4.根据权利要求1所述基于双层融合深度网络的语音情感识别方法，其特征在于，所述的对齐操作是通过合并和单词相关的语音帧，得到每个单词所对应的语音特征。5.根据权利要求1所述基于双层融合深度网络的语音情感识别方法，其特征在于，所述网络模型的结构总共包含四个层，第一层是fbp初级特征融合层；第二层是lstm,gru,dnn三个子模型组成的level-1初级特征编码网络层；第三层是hadmard积融合层；第四层是由bilstm组成的高级编码网络层。6.根据权利要求1所述基于双层融合深度网络的语音情感识别方法，其特征在于，所述融合采用融合算法流程，具体是输入音频和文本特征向量，首先通过fbp融合模块，将音频特征，文本特征做交叉融合，将融合后的特征分别经过lstm,gru,dnn三个子模型组成的level-1初级特征编码网络，然后level-1三个子网络的输出做二次融合，编码高级特征，融合的方法是hadmard积，然后将融合后的特征输入到level-2的bilstm编码网络，最后接分类输出层，预测情感类别。7.根据权利要求1所述基于双层融合深度网络的语音情感识别方法，其特征在于，所述的网络模型训练方式是采用adam优化器最小化交叉熵损失函数，学习率设置为0.0001，批次为100，并使用l2正则化防止模型过拟合。

技术总结
本发明涉及一种基于双层融合深度网络的语音情感识别方法，为了获得丰富的交叉模态的信息本发明利用了语音和文本两个模态的特征向量进行寻优融合，捕捉复杂的关联在音频和文本之间进行情感识别。首先将语音和文本信息通过预处理，得到音频和文本特征向量，通过FBP特征融合模块，将音频特征，文本特征做多模态交叉融合，将融合后的特征向量分别经过LSTM,GRU,DNN三个子模型组成的level-1初级特征编码网络，然后level-1三个子网络的输出做二次融合，编码高级特征，融合的方法是hadmard积，最后将融合后的特征输入到level-2的BiLSTM编码网络，最后接分类输出层，预测情感类别。本次提出的融合算法在公开数据集IEMOCAP上实验结果显示达到了80.38％WA和78.62％UA，实现了目前语音情感识别领域较好的结果。前语音情感识别领域较好的结果。前语音情感识别领域较好的结果。

技术研发人员：李飞李斌建李汀
受保护的技术使用者：南京邮电大学
技术研发日：2022.04.21
技术公布日：2022/7/12

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于双层融合深度网络的语音情感识别方法

相关文献

最热文献