一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法与流程

2022-03-19 12:53:02 来源:中国专利 TAG:


1.本发明涉及一种语音情感识别方法,具体涉及一种基于两阶段瓶颈层特征选择和多分类器联合判决(mcjd)算法的语音情感识别方法,涉及人工智能技术领域。


背景技术:

2.随着智能化硬件设备的普及和人工智能技术的进步,如何满足用户日益多样化的使用需求,就成为了业内人士需要研究的重点。语言作为人们表达自身意愿最为直接、也最为自然的方式,将其拓展应用至计算机等智能化硬件设备中,使机器通过语言了解用户的需要,那无疑会是一种极为便捷的技术实现方案,也因此,语音识别技术得到了蓬勃的发展。而在语言的使用过程中,人们会在其中加入自身的情感,不同情感的投入又会使得语言本身的含义发生微妙变化,为了让机器能更准确地了解用户的意愿,同时也用于检测用户自身的情绪,语音情感识别技术开始出现并受到广泛关注。
3.目前,针对语音情感识别技术的研究热点主要集中于以下几个方面:1、语音情感特征,例如针对非个性化特征、语谱图特征的相关研究等。2、分类方法,例如svm,人工神经网络(artificial neutral network,ann),多模态融合识别等。3、语音情感识别的应用,例如其在人机交互的不同领域中的应用等。而为了进一步提高语音情感识别的准确性,就需要全方面地考虑语音信息中情感特征的提取、选择和融合及分类方法等多方面内容。
4.在现阶段的应用中,传统的语音情感特征被广泛使用在语音情感识别任务中,其中所利用的声学特征主要包含有梅尔频率音频特征(mel-frequency cepstral coefficients,mfcc)、基音频率、过零率以及能量幅度等。尽管在某些情况下,上述声学特征能够取得良好的性能效果,但声学特征一般只考虑语音信号的物理层面信息,更深层次、丰富的情感信息尚未被充分提取。因此,业内人士也尝试过使用更能够体现语言情感深层表达的瓶颈层特征对声学特征进行替代。随着研究的不断深入,深度神经网络(deep neural networks,dnn)在对于判别特征的提取方面表现出了优异的性能。与手工提取相比,dnn能够通过监督学习,从大量的训练样本中提取相关的层次特征。例如,schmidt等人采用深度置信网络(deep belief network,dbn)从语音信号的幅度谱中提取深度情感特征,较传统的声学特征而言取得了更好的识别性能;han等人提出利用能量最高的语音帧训练dnn模型,来提取得到有效的语音情感特征;mao等人通过卷积神经网络(convolutional neural networks,cnn)来提取语音情感特征,并在几个标准数据集上进行实验,取得了良好的性能;lee等人通过递归神经网络(recursive neural network,rnn)来提取语音中情感的时序相关特征;trigeorgis等人直接使用原始语音信号训练卷积递归神经网络(convolutional recurrent neural network,crnn),来预测连续唤醒-效价空间。但无论上述哪种技术方案,在具体实施时,均有着十分明显的缺陷。其中最为主要的一项原因就是单一的瓶颈层特征很难完全表征语音中丰富的情感信息。
5.另外,分类是语音情感识别中的另一重要环节,它根据所提取的语音样本的区分
性特征对语音样本进行情感分类。其中最为重要的便是分类器的选择。简单来说,分类技术有很多,应用最广泛的有决策树技术、knn、朴素贝叶斯分类器、ann和svm等。但是,单一的分类技术执行分类任务时不可避免地会存在一定的局限性。因此构建良好的组合分类器也已成为语音情感识别技术中的一个新的研究分支,眼下,多分类器组合技术已广泛应用于如模式识别、网络安全及词义消歧等诸多领域。
6.综上可知,如果能够提出一种全新的语音情感识别方法,着眼于情感特征的提取、选择和融合及分类方法的改进,将从dnn中提取的瓶颈层特征作为语音情感特征、在多种语言场景下均达到较高的识别率,那么必将对人工智能技术的未来发展和应用提供巨大的帮助。


技术实现要素:

7.鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,具体如下。
8.一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:
9.s1、获取语音信号的傅里叶系数特征将其作为深度神经网络的输入,训练多个不同的深度神经网络以提取语音信号中的瓶颈特征,从而得到深层瓶颈层特征及浅层瓶颈层特征;
10.s2、采用遗传算法实现对深层瓶颈层特征与浅层瓶颈层特征的寻优融合;
11.s3、采用最优特征子集选择技术对融合后的深层瓶颈层特征与浅层瓶颈层特征进行特征筛选,降低特征维度,提取情感区分度高的特征;
12.s4、针对不同的分类目标,训练多个分类器并构建组合分类器,提出一种多分类器联合判决算法,通过对组合分类器的结果进行联合判决,得到语音情感的最终判决结果。
13.优选地,s1包括如下步骤:
14.s11、获取语音信号,对每一句输入的时域连续语音信号进行采样,然后分别采用预加重、分帧加窗、端点检测技术对语音信号进行预处理,得到预处理后的语音信号;
15.s12、计算预处理后的语音信号的傅里叶系数特征并将所得到的傅里叶系数特征作为深度神经网络的输入;
16.s13、对多个深度神经网络隐藏层中瓶颈层的位置进行设置,依据深度神经网络隐藏层中瓶颈层的不同位置,将其分别命名为dnn1、dnn2和dnn3,其中,dnn1是指第一个隐藏层为瓶颈层的深度神经网络、依此类推,分别对dnn1、dnn2和dnn3进行无监督的预训练,随后引入有监督的误差反向传播以实现参数微调,得到经过训练后的dnn1、dnn2和dnn3;
17.s14、将预处理后的语音信号重新输入经过训练后的dnn1、dnn2和dnn3中,在每个语音帧上提取对应瓶颈层的特征,并在每条语音上对所提取的对应瓶颈层特征计算最大值、最小值、均值、方差和中位数,得到每条语音的深浅层瓶颈层特征。
18.优选地,s2包括如下步骤:
19.s21、使用遗传算法对深层瓶颈层特征与浅层瓶颈特征进行寻优融合,分别赋予深层瓶颈层特征和浅层瓶颈特征初始权值;
20.s22、将初始权值对瓶颈层特征的加权融合作为遗传算法的初始化输入,设置遗传
算法的目标函数为平均识别率及各类目标情感的识别率,启动遗传算法对融合权值进行寻优;
21.s23、遗传算法输出权值寻优结果并保存,将权值寻优结果用于深层瓶颈层特征与浅层瓶颈特征的加权融合。
22.优选地,s21中所述使用遗传算法对深层瓶颈层特征与浅层瓶颈特征进行寻优融合,包括如下步骤:
23.s211、初始化权重,对权重组合进行二进制编码,并生成初始化的种群;
24.s212、解码得到权重组合,并以加权方式组合特征,将组合特征导入支持向量机进行训练,并将支持向量机获得的语音情感识别结果作为适应度函数;
25.s213、进行选择操作,根据适应度函数模拟适者生存规律,从种群中选取优秀个体作为父代,产生作为子代的新的种群;
26.s214、进行变异操作,从一个种群中随机选择一对个体,并交换他们的部分基因,形成新的个体;
27.s215、对于种群中的每个个体,以固定的突变概率改变个体的基因,形成新个体并重新加入到种群中;
28.s216、解码权重并计算适合度值,随后比较子代和父代的语音情感识别率,以更新最佳个体;
29.s217、检查迭代次数或适合度值是否满足预设的终止条件,若不满足,则重复步骤s213~s216,若满足,则按序进入步骤s218;
30.s218、输出最优权重组合。
31.优选地,s3包括如下步骤:
32.s31、根据融合后的深层瓶颈层特征与浅层瓶颈层特征,采用最优特征子集选择技术进行特征筛选,通过设置不同的阈值,得到不同的降维后特征及对应的情感识别率;
33.s32、根据s31中所得到的不同的降维后特征及对应的情感识别率,选择情感识别率最高的特征集作为特征筛选的结果。
34.6、根据权利要求5所述的一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,其特征在于,s31中所述根据融合后的深层瓶颈层特征与浅层瓶颈层特征,采用最优特征子集选择技术进行特征筛选,包括如下步骤:
35.s311、给定输入样本数据x=(x1,x2,...,xm),计算其协方差矩阵
36.s312、求出协方差矩阵的所有特征值及对应的特征向量,并对所有特征向量进行标准化处理;
37.s313、将求解得到的协方差矩阵的特征值按从大到小排序,k1》k2》
···
》km》0;
38.s314、若要将数据维数降到k维,则取前k个最大的特征值,并将s312中得到的特征向量按对应特征值的大小顺序按行排列成矩阵,组成矩阵w=(w1,w2,...,wk);
39.s315、映射为新的样本,z=wx,即为降维到k维后的数据。
40.优选地,s4包括如下步骤:
41.s41、将融合后的深层瓶颈层特征与浅层瓶颈层特征用于训练支持向量机分类器,得到svm0~svm7这8个基本分类器,其中,svm0的分类目标是平均情感识别率,而svm1~
svm7的分类目标是第i类目标情感的识别率,i为1~7之间的整数;
42.s42、形成一个新的组合分类器,基于多分类器联合判决算法对语音情感的类别做最终判决,当svm0的输出为i种情感时,基于多分类器联合判决算法的过程为:
43.若svm0的预测情感和svmi的预测情感一致,则选择这种情感作为分类器最终判决的结果;
44.若svm0的预测情感和svmi的预测情感不一致,此时若svm1~svm7中有基本分类器的预测结果为其对应的目标情感,则在这些基本分类器结果中,选择目标情感概率最大的那个基本分类器对应的情感为分类器最终判决的结果,若没有则选择svm0的输出为分类器的判决结果。
45.本发明的优点主要体现在:
46.本发明所提出的一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,从多方面克服了现有技术中其他语音情感识别方法的不足。与单一的瓶颈层特征相比,本发明提取了深层瓶颈层特征和浅层瓶颈层特征,并利用ga对这两种特征进行融合,从而弥补了单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升了语音情感识别效果。同时,与传统的svm分类器相比,本发明根据不同的分类目标,构建了多个基本分类器,并通过mcjd算法实现语音情感分类,使系统性能得到了大幅提升,在不同语言场景下均能取得较高的情感识别性能。
47.此外,本发明的方案还为语音情感识别技术的相关研究和应用提供了一种全新的思路,为同领域内的其他相关问题提供了参考,可以此为依据进行拓展延伸和深入研究,具有十分广阔的应用前景。
48.以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
49.图1为本发明方法的语音情感识别系统流程图;
50.图2是本发明中用于提取瓶颈特征的dnn模型示意图;
51.图3是本发明中的基于ga的两阶段特征选择流程图;
52.图4是本发明中的mcjd算法的流程图;
53.图5是本发明中的基于两阶段瓶颈层特征选择的语音情感平均识别率示意图;
54.图6是本发明中pca降维前后的对比结果(dnn1 dnn2)示意图;
55.图7是本发明中瓶颈层特征联合mcjd算法与联合基本svm分类器的性能对比示意图。
具体实施方式
56.本发明揭示了一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,图1为本发明大体的语音情感识别系统流程图。在实际应用中,一般提取语音信号的声学特征,将声学特征输入到分类器中进行训练,然后将训练得到的分类器模型进行情感识别。近几年,深度学习在数据挖掘,模式识别,自然语言处理,多媒体学习,语音推荐和个性化技术,以及其他相关领域都取得了很多成果,其强大的特征提取和建模能力
使得模式识别的性能得到极大提升,因此,本发明将深度神经网络应用于语音情感识别中,用于提取深浅层瓶颈层特征,可构建更高性能的语音情感识别系统。
57.为了有效的提升语音情感识别性能,本发明提出了一种基于两阶段瓶颈层特征选择的语音情感识别方法。在第一阶段的特征选择中,从深度神经网络中提取合适的瓶颈层特征,并实现基于遗传算法的特征融合。语音识别领域中的大量实验证明,使用深度神经网络提取的瓶颈层特征具有很好的鲁棒性和可区分性。而遗传算法能够求出优化问题的全局最优解且具有较强的鲁棒性。因此,基于遗传算法的瓶颈层融合特征具有很好的鲁棒性。在第二阶段的特征选择中,采用最优特征子集选择技术来消除维数灾难问题。基本上,特征选择就是在不显著降低分类器性能的情况下,从给定的n维特征集中找到n《n维特征子集的过程。在特征子集选择中,每个特征都被赋予一个反映其有用性的值。
58.然而,最适宜每一种情感的特征组合是不同的,因此,对于每一种情感,应考虑到每一类情感的独特性。针对每种情感选择不同的适应度函数,遗传算法分别对此进行贡献度权重的参数寻优,得到不同的权重集后,再融合深浅层瓶颈层特征,这样得到的各组融合的特征集,会更有利于对应的情感类别的识别率的提高。基于此思想,本发明提出一种mcjd算法,来对语音情感作最终判决,进一步提升了语音情感识别系统的鲁棒性,以下是对本发明具体实施方式的详细论述。
59.本发明的一种基于两阶段瓶颈层特征选择和多分类器联合判决算法的语音情感识别方法,包括如下步骤:
60.s1、获取语音信号的傅里叶系数特征将其作为深度神经网络(dnn)的输入,训练多个不同的深度神经网络以提取语音信号中的瓶颈特征,从而得到深层瓶颈层特征及浅层瓶颈层特征。
61.s1具体包括如下步骤:
62.s11、获取语音信号,对每一句输入的时域连续语音信号进行采样,然后分别采用预加重、分帧加窗、端点检测技术对语音信号进行预处理,得到预处理后的语音信号;
63.s12、计算预处理后的语音信号的傅里叶系数特征并将所得到的傅里叶系数特征作为深度神经网络(dnn)的输入;
64.s13、对多个深度神经网络隐藏层中瓶颈层的位置进行设置。本发明使用的dnn是一个包含有五层网络的结构,如图2所示。输入层是一个经过归一化处理过后的1280维的傅里叶特征向量,有三个隐藏层,其中一个隐藏层的神经元个数明显小于其他隐层,为瓶颈层,这一层的神经元数设置为100,其他隐藏层的神经元数设置为1280。用softmax作为dnn的输出层,该层的神经元数量与分类的类别一致。根据隐藏层中瓶颈层的不同位置,本发明使用了3个dnn,将其分别命名为dnn1、dnn2和dnn3,其中,dnn1是指第一个隐藏层为瓶颈层的深度神经网络、依此类推。输入层和输出层不变,用于提取基于不同隐层的瓶颈层特征。其中,在emo-db语料库上,dnn1的网络结构为1280-100-1280-1280-7,dnn2的网络结构为1280-1280-100-1280-7,dnn3的网络结构为1280-1280-1280-65.100-7。分别对dnn1、dnn2和dnn3进行无监督的预训练,随后引入有监督的误差反向传播以实现参数微调,得到经过训练后的dnn1、dnn2和dnn3;
66.s14、将预处理后的语音信号重新输入经过训练后的dnn1、dnn2和dnn3中,在每个语音帧上提取对应瓶颈层的特征,并在每条语音上对所提取的对应瓶颈层特征计算最大
值、最小值、均值、方差和中位数,共五个全局统计量,得到每条语音的深浅层瓶颈层特征。
67.s2、采用遗传算法(genetic algorithm,ga)实现对深层瓶颈层特征与浅层瓶颈层特征的寻优融合,以弥补单一的瓶颈层特征不能全面表达情感信息的缺陷,进一步提升语音情感识别效果。
68.s2具体包括如下步骤:
69.s21、使用遗传算法对深层瓶颈层特征与浅层瓶颈特征进行寻优融合,分别赋予深层瓶颈层特征和浅层瓶颈特征初始权值;
70.s22、将初始权值对瓶颈层特征的加权融合作为遗传算法的初始化输入,设置遗传算法的目标函数为平均识别率及各类目标情感的识别率,启动遗传算法对融合权值进行寻优;
71.s23、遗传算法输出权值寻优结果并保存,将权值寻优结果用于深层瓶颈层特征与浅层瓶颈特征的加权融合。
72.再进一步而言,s21中所述使用遗传算法对深层瓶颈层特征与浅层瓶颈特征进行寻优融合,包括如下步骤:
73.s211、初始化权重,对权重组合进行二进制编码,并生成初始化的种群;
74.s212、解码得到权重组合,并以加权方式组合特征,将组合特征导入支持向量机进行训练,并将支持向量机获得的语音情感识别结果作为适应度函数,适应度值越高的个体被保留的可能性越大;
75.s213、进行选择操作,根据适应度函数模拟适者生存规律,从种群中选取优秀个体(一组权重代表一个个体)作为父代,产生作为子代的新的种群;
76.s214、进行变异操作,从一个种群中随机选择一对个体,并交换他们的部分基因,形成新的个体;
77.s215、对于种群中的每个个体,以固定的突变概率改变个体的基因,形成新个体并重新加入到种群中;
78.s216、解码权重并计算适合度值,随后比较子代和父代的语音情感识别率,以更新最佳个体;
79.s217、检查迭代次数或适合度值是否满足预设的终止条件,若不满足,则重复步骤s213~s216,若满足,则按序进入步骤s218;
80.s218、输出最优权重组合。
81.针对上述s2步骤,使用数值、函数相关的表述可以理解为包含如下操作。
82.假设特征集中的第i个特征表示为xi,第i个特征的贡献权值为wi。本发明对深度瓶颈层特征和浅层瓶颈层特征进行了融合处理。融合后的特征集可以表示为x=[w1*x1,w2*x2]。
[0083]
本发明通过ga,加权融合基于不同隐藏层的深浅层瓶颈层特征。当ga用于搜索最优的w1和w2时。x需要作为遗传算法的输入,然后随机初始化,生成多组{w1,w2}的个体。这些个体构成初始化的种群p(0),然后根据ga规则对这些{w1,w2}进行编码。本发明采用二进制编码方法,选取二进制字符串来表示每一个参数,并建立与参数间的关系。再把二进制字符串连接起来就组成一个长的二进制字符串,该字符串为遗传算法可以操作的对象。假设二进制字符串序列是{w1,w2}的二进制编码形式,这些二进制字符串序列在遗传算法中称为染
色体,{w1,w2}代表一个个体。然后对编码后的染色体进行解码,得到个体中需要优化的权重参数,将优化后的参数放入适应度函数中,计算出个体的适应度值。然后判断是否达到迭代次数。如果达到,则终止搜索并输出优化权值。否则,继续遗传算法的选择和交叉操作。
[0084]
通过遗传算法进行参数寻优的过程,其实就是对函数求解极值的过程,最终得到最优的特征权重组合。基于遗传算法的两阶段特征选择流程如图3所示。具体步骤如下:
[0085]
a.首先对语音信号作预处理,训练dnn模型,提取深浅层瓶颈层特征;
[0086]
b.确定参数编码方案,并以二进制编码模式编码特征权重相关参数;
[0087]
c.确定适应度函数;
[0088]
d.遗传算法优化操作;
[0089]
e.通过遗传算法优化后,得到特征权重的最优参数,使得深浅层瓶颈层特征加权融合;
[0090]
f.经过特征降维,分类器预测最终的情感类别。
[0091]
s3、采用最优特征子集选择技术(pca)对融合后的深层瓶颈层特征与浅层瓶颈层特征进行特征筛选,此处利用最优特征子集选择技术不仅减少了输入信息量,降低了特征冗余度,得到冗余度低、情感区分度高的优质特征,而且还能将输入集转换为一组有序的独立成分。
[0092]
s3具体包括如下步骤:
[0093]
s31、根据融合后的深层瓶颈层特征与浅层瓶颈层特征,采用最优特征子集选择技术进行特征筛选,通过设置不同的阈值,得到不同的降维后特征及对应的情感识别率;
[0094]
s32、根据s31中所得到的不同的降维后特征及对应的情感识别率,选择情感识别率最高的特征集作为特征筛选的结果。
[0095]
再进一步而言,s31中所述根据融合后的深层瓶颈层特征与浅层瓶颈层特征,采用最优特征子集选择技术进行特征筛选,包括如下步骤:
[0096]
s311、给定输入样本数据x=(x1,x2,...,xm),计算其协方差矩阵
[0097]
s312、求出协方差矩阵的所有特征值及对应的特征向量,并对所有特征向量进行标准化处理(基向量);
[0098]
s313、将求解得到的协方差矩阵的特征值按从大到小排序,k1》k2》
···
》km》0;
[0099]
s314、若要将数据维数降到k维,则取前k个最大的特征值,并将s312中得到的特征向量按对应特征值的大小顺序按行排列成矩阵,组成矩阵w=(w1,w2,...,wk);
[0100]
s315、映射为新的样本,z=wx,即为降维到k维后的数据。
[0101]
s4、针对不同的分类目标,训练多个分类器并构建组合分类器,提出一种多分类器联合判决(mcjd)算法,得到组合分类器的最终判决结果。以在emo-db语料库上构建基本分类器为例,特征权重集若是遗传算法以平均情感识别率为适应度函数寻优得到的,加权融合的瓶颈层特征集是对7种情感的全局表达,以此训练出来的svm分类模型,它关注的是7种情感的整体表现,我们将其称为svm0。而其他的7个基本分类器,它关注的是某个目标情感的表现,而忽略其他情感,向一个目标情感上侧重。对于svm1~svm7,以一个目标情感的识别率作为遗传算法的适应度函数,得到该情感特征的贡献权重。然后将加权后的融合特征输入传统的支持向量机分类器,分别训练出对应于生气、高兴、无聊、平静、伤心、害怕和厌
恶的svm1~svm7分类模型。各基本分类器的训练目标如表1所示。
[0102]
表1基本分类器的训练目标
[0103][0104][0105]
由表1可知,基本分类器的训练目标和对应ga的适应度函数的选取是一致的,这样直接从分类结果作考虑得到的特征集,更有利于分类器的识别性能的提高。
[0106]
s4具体包括如下步骤:
[0107]
s41、将融合后的深层瓶颈层特征与浅层瓶颈层特征用于训练支持向量机
(support vector machines,svm)分类器,得到svm0~svm7这8个基本分类器,其中,svm0的分类目标是平均情感识别率,而svm1~svm7的分类目标是第i类目标情感的识别率,i为1~7之间的整数;
[0108]
s42、由于单个分类器并不一定对每一种情感都有很好的识别效果,因此,在步骤s41所提出的基本分类器的基础上,进一步形成一个新的组合分类器,基于多分类器联合判决算法对语音情感的类别做最终判决,提出的mcjd算法的目的就是在svm0的基础上进一步提高语音情感识别率,其算法流程图如图4所示,首先查看svm0的输出,如果svm0的输出是生气情感类别,那么找到svm1(svm1是以生气情感识别率作为训练目标的分类器,所以在svm0~svm7中,svm1对生气语音的识别效果最好)。如果svm1的输出也是生气情感类别,那么分类结果就是生气情感。如果不是,则需要一一查看svm1~svm7的输出,如果有判决到其目标分类上的分类器,那么就选择其中概率最高的那个作为分类结果;如果没有,则选择svm0的输出为分类结果。如果svm0的输出是其他六种情感,也可以做类似的决策,这里不再赘述。即当svm0的输出为i种情感时,基于多分类器联合判决算法的过程为,
[0109]
若svm0的预测情感和svmi的预测情感一致,则选择这种情感作为分类器最终判决的结果,
[0110]
若svm0的预测情感和svmi的预测情感不一致,此时若svm1~svm7中有基本分类器的预测结果为其对应的目标情感,则在这些基本分类器结果中,选择目标情感概率最大的那个基本分类器对应的情感为分类器最终判决的结果,若没有则选择svm0的输出为分类器的判决结果。
[0111]
最后,对本发明的上述方法流程的性能进行实验论证,具体操作如下。
[0112]
实验是在casia语音数据库和emo-db语音数据库上进行的。实验中,训练样本和测试样本的数量比例为8:2。由于一次实验结果存在的偶然性太大,所以进行的实验均是采用五折交叉验证的方法,来获得针对每一种语料库更精确的识别率。实验是在matlab r2018a环境下使用libsvm工具进行的。实验中,计算机的cpu型号为intel core i5-8250u,显卡型号为nvidia geforce mx150。
[0113]
首先,为了挑选出对情感分类更有益的特征,在对svm分类器模型训练之前,采用pca特征筛选方法对特征集进行降维,使用降维后的特征训练分类器能有效减少分类器的训练时间,同时,训练出来的分类器对语音情感的识别性能更好。
[0114]
图5总结了采用两阶段瓶颈层特征选择模型后,在casia和emo-db语料库上,不同dnn隐层的瓶颈层特征融合后的平均识别率。通过pca降维后,融合的瓶颈层特征的情感识别率均有所提高。其中,融合的dnn1和dnn2的瓶颈层特征在情感识别率方面表现最好。在emo-db语料库上,降维后的平均识别率为84.89%,比未降维前的识别率高3.78%。实验证明,采用融合dnn1和dnn2的瓶颈层特征的组合特征在语音情感识别任务上表现最好。
[0115]
接下来,实验是用dnn1和dnn2的瓶颈层特征的组合作为情感特征的。图6总结了,在emo-db语料库上,有无pca降维的融合特征对7种情感的分类结果。如图6所示,除悲伤情感外,其他六种情感的识别率都有很大的提高。其中,高兴情感的识别率提高了6.74%。实验结果验证了pca算法在瓶颈特征选择中的有效性。
[0116]
最后,验证mcjd算法的有效性。在基本分类器的构建过程中,为了得到不同的特征权重集,需要在ga的寻优过程中作用不同的适应度函数,来进一步得到适用于不同分类任
务的基本分类器。ga搜索瓶颈层特征的最优权值见表2。
[0117]
表2svms对应的最优瓶颈层特征权重
[0118][0119][0120]
从表2可以看出,每个基于svm的基本分类器对应的最优瓶颈层特征权重集是不同的。以svm0为例,ga寻优得到的权重集为{0.1280,0.8404},因此svm0的特征集为{0.1280x1,0.8404x2}。通过这些不同的特征集训练得到不同的基本分类器svm0-svm7,然后通过mcjd算法将这些基本分类器的初级预测结果集成起来,得到最终的判决结果。
[0121]
基本分类器构建完成后,通过mcjd算法对分类结果作最终的判决。表3为在emo-db语料库上,本发明所提出的基于两阶段瓶颈层特征选择模型和mcjd算法的语音情感识别结果。
[0122]
表3基于两阶段瓶颈层特征选择和mcjd算法的语音情感识别率(%)(emo-db语料库)
[0123]
[0124][0125]
可以看出,平均识别率为87.64%,比使用svm分类器的平均识别率高了2.75%,验证了两阶段瓶颈特征选择模型和mcjd算法的有效性。采用mcjd算法对比采用基本svm分类器在语音情感识别率上的提升如图7所示,通过mcjd算法集成8个基本分类器的判决结果,最终得到的分类结果在7类情感上都有一定的提升,虽然对无聊和悲伤这两类情感的识别仍略有不足,但是通过mcjd算法,有效地提升了这两类情感的识别率。这从一定程度上证明该基于新型的mcjd算法的分类系统,比传统的svm分类可以获得更好的识别结果。
[0126]
以上结果表明:本发明从特征选择和分类模型的构建两个方面提出两种可以提升语音情感识别系统的整体识别率的方法,实验结果验证了这两个方法的合理性和有效性。与其他方法相比,本发明的方法在识别率方面可以得到极大提升,可以克服普通方法对语音情感信息描述不全面的缺点,在实际应用中具有很好的借鉴意义。
[0127]
综上所述,与现有技术相比,本发明的优点主要体现在以下几个方面:
[0128]
1、本发明的语音情感识别方法基于两阶段瓶颈层特征选择,具有一定的理论研究价值和实际应用价值。该方法通过提取语音信号的深浅层瓶颈层特征并进行融合的方式来弥补单一特征不能全面地表征语音情感信息的缺点,使系统性能得到了很大的提升,在不同语言情境下都能达到较高的识别率。
[0129]
2、本发明通过采用pca对特征进行筛选,选取了对情感识别贡献度高的特征,同时降低了特征的冗余度,降低了系统整体的计算复杂度。
[0130]
3、本发明采用了ga对特征进行寻优融合,相比于简单的串联方式进行融合,基于ga的寻优融合可以实现更高的识别率,提升语音情感识别性能。
[0131]
4、本发明的语音情感识别方法还涉及多分类器联合判决算法,由于单个分类器并不一定对每一种情感都有很好的识别效果,因此,本发明在构建基本分类器的基础上,组合它们的初级预测结果,形成一个新的组合分类器,对语音情感的类别作最终的判决,从而进一步提升了语音情感识别性能。
[0132]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
[0133]
最后,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献