基于嵌套深度神经网络的语音情感识别方法和系统与流程

2021-10-29 20:54:00 来源：中国专利 TAG：语音识别情感神经网络嵌套

技术特征：
1.一种基于嵌套深度神经网络的语音情感识别方法，其特征在于，所述识别方法包括以下步骤：s1，输入一定量的从中文语音情感数据库casia中得到的具有情感类型标识的样本语音信号，对每个样本语音信号进行特征的提取，得到对应的梅尔倒谱系数，构建mfcc数据集；s2，基于深度神经网络构建语音情感识别模型，该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数，结合提取特征对导入的语音信号进行情感识别，采用mfcc数据集对语音情感识别模型进行初步训练，遍历得到不同参数组对应的语音情感的识别率；s3，结合不同参数组及其对应的识别率，生成识别率数据集；所述参数组包括学习率、最大迭代次数和损失函数最大值；s4，基于深度神经网络构建参数拟合模型，该参数拟合模型用于对导入的识别率数据集进行拟合，得到最大识别率对应的参数组；s5，将得到的最大识别率对应的参数组导入语音情感识别模型，利用mfcc数据集对语音情感识别模型进行训练，得到最终的语音情感识别模型。2.根据权利要求1所述的基于嵌套深度神经网络的语音情感识别方法，其特征在于，步骤s1中，所述对每个样本语音信号进行特征的提取，得到对应的梅尔倒谱系数，构建mfcc数据集的过程包括以下步骤：s11，对语音信号进行采样，采用端点检测、分帧加窗和预加重技术对语音信号进行预处理，得到预处理后的语音信号；s12，利用mel倒谱分析技术对预处理后的语音信号进行处理，依次进行分帧加窗、离散傅里叶变换和加权滤波处理，提取得到梅尔倒谱系数。3.根据权利要求2所述的基于嵌套深度神经网络的语音情感识别方法，其特征在于，步骤s11中，对语音信号进行采样，采用端点检测、分帧加窗和预加重技术对语音信号进行预处理，得到预处理后的语音信号的过程包括以下步骤：将语音信号通过以下高通滤波器，对语音信号进行预加重处理：h(z)＝1
‑
uz
‑1式中，u值介于0.9
‑
1.0之间，z是语音信号的频域信号。4.根据权利要求2所述的基于嵌套深度神经网络的语音情感识别方法，其特征在于，步骤s12中，利用mel倒谱分析技术对预处理后的语音信号进行处理，依次进行分帧加窗、离散傅里叶变换和加权滤波处理，提取得到梅尔倒谱系数的过程包括以下步骤：s211，对滤波处理后的语音信号进行采样处理，将n个采样点集合成一个观测单位，称为帧；其中，两相邻帧之间有一段重叠区域，该重叠区域包含了m个取样点，m的值约为n的1/2或1/3；s212，将每一帧乘以汉明窗，将语音信号转换成以下格式：s
′
(n)＝s(n)
×
w(n)式中，s(n)是分帧后的信号，n＝0，1，
…
，n
‑
1，n为帧的总数；1，n为帧的总数；不同的a值会产生不同的汉明窗；s213，对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号
的频谱取模平方得到语音信号的功率谱，得到语音信号的dft为：式中s
′
(n)为输入的分帧加窗后的各帧信号，n表示傅里叶变换的点数；s214，对于fft得到的幅度谱，分别跟多个三角带通滤波器进行频率相乘累加，得到的值即为该帧数据在在该滤波器对应频段的能量值；s215，根据下述公式计算每个滤波器组输出的对数能量s(m)为：s216，经离散余弦变换得到mfcc系数c(n)为：式中，l为mfcc系数阶数，m为三角滤波器个数。5.根据权利要求1所述的基于嵌套深度神经网络的语音情感识别方法，其特征在于，步骤s2中，基于深度神经网络构建语音情感识别模型，该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数，结合提取特征对导入的语音信号进行情感识别，采用mfcc数据集对语音情感识别模型进行初步训练，遍历得到不同参数组对应的语音情感的识别率的过程包括以下步骤：s21，采用python3.7实现隐含层自定义且设置多层隐含层的dnn，利用bp算法设计神经网络，构建得到语音情感识别模型；其中隐含层激活函数为sigmoid，输出层激活函数为softmax，损失函数为交叉熵；s22，对训练集进行中心化，并将包括均值和均方差在内的中心化的参数记录用于对测试集进行中心化，得到原始的识别率；s23，提取出参数组：学习率，最大迭代次数，损失函数最大值；s24，对于参数组包含的三类参数进行遍历，分别得到不同参数组对应的识别率。6.根据权利要求1所述的基于嵌套深度神经网络的语音情感识别方法，其特征在于，步骤s4，基于深度神经网络构建参数拟合模型，该参数拟合模型用于对导入的识别率数据集进行拟合，得到最大识别率对应的参数组的过程包括以下步骤：s41，利用matlab设计得到参数拟合模型，将识别率数据集导入参数拟合模型；s42，根据识别率数据集的特性，设定训练集、调整集和测试集的比例，其中训练集、调整集用于对参数拟合模型进行训练学习，自动调整网络参数，测试集用于将测试数据和原始数据进行比较，判断预测的准确度；s43，进行多次测试，输入最优隐藏层参数；s44，选择网络函数levenberg
‑
marquardt，提供数非线性最小化的数值解；s45，利用error histogram模型对参数拟合模型进行评价；提取得到最大识别率对应的参数组。7.根据权利要求1所述的基于嵌套深度神经网络的语音情感识别方法，其特征在于，步骤s5中，将得到的最大识别率对应的参数组导入语音情感识别模型，利用mfcc数据集对语音情感识别模型进行训练，得到最终的语音情感识别模型的过程包括以下步骤：
将得到的最大识别率对应的参数组再重新输入语音情感识别模型，对语音情感识别模型进行优化；设置网络层数和维数，建立五层神经网络；其中，输入层为提取的语音的mfcc参数，隐藏层为三层，分别包含128、64和32个节点，输出层用于输出识别出的情感类型；通过对损失函数用梯度下降法进行迭代优化求极小值，调整权重w和阈值b的值来使预测结果和真实结果之间的差更小。8.一种基于嵌套深度神经网络的语音情感识别系统，其特征在于，所述识别系统包括：mfcc数据集构建模块，用于输入一定量具有情感类型标识的样本语音信号，对每个样本语音信号进行特征的提取，得到对应的梅尔倒谱系数，构建mfcc数据集；语音情感识别模型创建模块，基于深度神经网络构建语音情感识别模型，该语音情感识别模型用于对提取导入的语音信号的梅尔倒谱系数，结合提取特征对导入的语音信号进行情感识别，采用mfcc数据集对语音情感识别模型进行初步训练，遍历得到不同参数组对应的语音情感的识别率；识别率数据集生成模块，结合不同参数组及其对应的识别率，生成识别率数据集；所述参数组包括学习率、最大迭代次数和损失函数最大值；参数拟合模型创建模块，基于深度神经网络构建参数拟合模型，该参数拟合模型用于对导入的识别率数据集进行拟合，得到最大识别率对应的参数组；语音情感识别模型再训练模块，将得到的最大识别率对应的参数组导入语音情感识别模型，利用mfcc数据集对语音情感识别模型进行训练，得到最终的语音情感识别模型。

技术总结
本发明公开了一种基于嵌套深度神经网络的语音情感识别方法和系统，方法包括：构建MFCC数据集；基于深度神经网络构建语音情感识别模型，采用MFCC数据集对语音情感识别模型进行初步训练，遍历得到不同参数组对应的语音情感的识别率；结合不同参数组及其对应的识别率，生成识别率数据集；基于深度神经网络构建参数拟合模型，用于对导入的识别率数据集进行拟合，得到最大识别率对应的参数组；将得到的最大识别率对应的参数组导入语音情感识别模型，利用MFCC数据集对语音情感识别模型进行训练，得到最终的语音情感识别模型。本发明通过利用嵌套式的深度神经网络不断优化输入神经网络的参数，大幅提高了语音情感的识别率。大幅提高了语音情感的识别率。大幅提高了语音情感的识别率。

技术研发人员：蔡芃芃周茜璇孙林慧查亦文
受保护的技术使用者：南京邮电大学
技术研发日：2021.06.17
技术公布日：2021/10/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音增强方法、装置、设备及存储介质与流程

基于嵌套深度神经网络的语音情感识别方法和系统与流程

相关文献

最热文献