一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音情绪识别方法、装置、设备及存储介质与流程

2021-07-23 21:35:00 来源:中国专利 TAG:语音 信号处理 识别 装置 情绪
语音情绪识别方法、装置、设备及存储介质与流程

本发明涉及语音信号处理领域,尤其涉及一种语音情绪识别方法、装置、设备及存储介质。



背景技术:

语音情绪识别是当前研究的热点问题,人类在认知大千世界的时候,会产生多种情绪,比如喜怒哀乐等个人主观的情绪,我们将人对外界世界或者事物的真实态度体验感受及相应的行为称之为情绪,当前常用的情绪分类包括:语音情绪,文本情绪和多模态情绪,即文本,语音,视频三者的任意组合形式,本方案重点研究语音情绪。

现有技术中,语音情绪识别的整体思路为声学特征加上分类器,在声学特征设计阶段有许多不同的策略,通常为传统特征提取,即通过深度网络进行特征提取,但是多数情况下很少考虑到片段与片段之间的相关性,导致语音情绪的全局特征信息丢失。



技术实现要素:

本发明提供了一种语音情绪识别方法、装置、设备及存储介质,用于通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

本发明第一方面提供了一种语音情绪识别方法,包括:获取初始语音数据,并对所述初始语音数据进行预处理,生成预处理后的语音数据;对所述预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,所述每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征;将所述每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据;将所述语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对所述修正后的语音特征数据进行分类处理,输出目标语音特征数据,所述目标语音特征数据用于指示识别到的语音情绪信息。

可选的,在本发明第一方面的第一种实现方式中,所述获取初始语音数据,并对所述初始语音数据进行预处理,生成预处理后的语音数据包括:获取初始语音数据,所述初始语音数据包括用户端发送的录音数据;调用语音端点检测算法vad对所述初始语音数据进行切分,得到语音切分片段,对所述语音切分片段进行过滤处理,删除无效片段,生成过滤后的语音数据,所述无效片段为包含噪音信号的语音片段和静音片段;对所述过滤后的语音数据依次进行预加重、分帧和加窗处理,生成预处理后的语音数据。

可选的,在本发明第一方面的第二种实现方式中,所述对所述预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,所述每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征包括:步骤一、采用预置的窗型和短时能量计算公式计算任意一帧数据的语音短时能量,得到任意一帧数据对应的能量特征,所述预置的窗型包括矩形窗;步骤二、调用自相关函数算法提取任意一帧数据的基频特征,得到任意一帧数据对应的基频特征;步骤三、采用线性预测分析算法提取任意一帧数据的共振峰参数,得到任意一帧数据对应的共振特征,所述共振峰参数包括共振峰频率和共振峰带宽;步骤四、获取任意一帧数据对应的频谱数据,将所述频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征;步骤五、重复执行步骤一至步骤四,生成每一帧数据对应的能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。

可选的,在本发明第一方面的第三种实现方式中,所述获取任意一帧数据对应的频谱数据,将所述频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征包括:对所述任意一帧数据进行傅里叶变换,得到任意一帧数据对应的频谱数据;将所述任意一帧数据对应的频谱数据通过梅尔滤波器进行平滑化处理,并消除谐波的作用,得到平滑处理后的任意一帧数据;计算所述梅尔滤波器输出的对数能量,并将所述平滑处理后的任意一帧数据进行离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征。

可选的,在本发明第一方面的第四种实现方式中,所述将所述每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据包括:将所述每一帧数据对应的多个目标特征输入预置的深度网络模型,提取语音情绪相关数据,得到每一帧数据对应的多个目标语音情绪特征;分别计算每一个目标语音情绪特征的平均值,生成语音特征数据,所述每一个目标语音情绪特征的平均值包括能量特征平均值、基频特征平均值、共振特征平均值和梅尔倒谱系数mfcc特征平均值。

可选的,在本发明第一方面的第五种实现方式中,所述将所述语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对所述修正后的语音特征数据进行分类处理,输出目标语音特征数据,所述目标语音特征数据用于指示识别到的语音情绪信息包括:将所述语音特征数据输入预置的图网络模型,并调用所述预置的图网络模型中的图网络层提取全局信息,生成修正后的语音特征数据;将所述修正后的语音特征数据输入预置的分类器中,按照预设数目的情绪类别对所述修正后的语音特征数据进行分类,输出目标语音特征数据,所述目标语音特征数据用于指示识别到的语音情绪信息。

可选的,在本发明第一方面的第六种实现方式中,在所述获取初始语音数据,并对所述初始语音数据进行预处理,生成预处理后的语音数据之前,所述方法还包括:构建预置的图网络模型。

本发明第二方面提供了一种语音情绪识别装置,包括:获取模块,用于获取初始语音数据,并对所述初始语音数据进行预处理,生成预处理后的语音数据;特征提取模块,用于对所述预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,所述每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征;输入模块,用于将所述每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据;输出模块,用于将所述语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对所述修正后的语音特征数据进行分类处理,输出目标语音特征数据,所述目标语音特征数据用于指示识别到的语音情绪信息。

可选的,在本发明第二方面的第一种实现方式中,所述获取模块包括:获取单元,用于获取初始语音数据,所述初始语音数据包括用户端发送的录音数据;切分单元,用于调用语音端点检测算法vad对所述初始语音数据进行切分,得到语音切分片段,对所述语音切分片段进行过滤处理,删除无效片段,生成过滤后的语音数据,所述无效片段为包含噪音信号的语音片段和静音片段;预处理单元,用于对所述过滤后的语音数据依次进行预加重、分帧和加窗处理,生成预处理后的语音数据。

可选的,在本发明第二方面的第二种实现方式中,所述特征提取模块包括:第一计算单元,用于采用预置的窗型和短时能量计算公式计算任意一帧数据的语音短时能量,得到任意一帧数据对应的能量特征,所述预置的窗型包括矩形窗;第一提取单元,用于调用自相关函数算法提取任意一帧数据的基频特征,得到任意一帧数据对应的基频特征;第二提取单元,用于采用线性预测分析算法提取任意一帧数据的共振峰参数,得到任意一帧数据对应的共振特征,所述共振峰参数包括共振峰频率和共振峰带宽;变换单元,用于获取任意一帧数据对应的频谱数据,将所述频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征;生成单元,用于依次调用第一计算单元、第一提取单元、第二提取单元和变换单元,生成每一帧数据对应的能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。

可选的,在本发明第二方面的第三种实现方式中,所述变换单元具体用于:对所述任意一帧数据进行傅里叶变换,得到任意一帧数据对应的频谱数据;将所述任意一帧数据对应的频谱数据通过梅尔滤波器进行平滑化处理,并消除谐波的作用,得到平滑处理后的任意一帧数据;计算所述梅尔滤波器输出的对数能量,并将所述平滑处理后的任意一帧数据进行离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征。

可选的,在本发明第二方面的第四种实现方式中,所述输入模块包括:第一输入单元,用于将所述每一帧数据对应的多个目标特征输入预置的深度网络模型,提取语音情绪相关数据,得到每一帧数据对应的多个目标语音情绪特征;第二计算单元,用于分别计算每一个目标语音情绪特征的平均值,生成语音特征数据,所述每一个目标语音情绪特征的平均值包括能量特征平均值、基频特征平均值、共振特征平均值和梅尔倒谱系数mfcc特征平均值。

可选的,在本发明第二方面的第五种实现方式中,所述输出模块包括:第二输入单元,用于将所述语音特征数据输入预置的图网络模型,并调用所述预置的图网络模型中的图网络层提取全局信息,生成修正后的语音特征数据;分类单元,用于将所述修正后的语音特征数据输入预置的分类器中,按照预设数目的情绪类别对所述修正后的语音特征数据进行分类,输出目标语音特征数据,所述目标语音特征数据用于指示识别到的语音情绪信息。

可选的,在本发明第二方面的第六种实现方式中,在所述获取模块之前,所述语音情绪识别装置还包括:

构建模块,用于构建预置的图网络模型。

本发明第三方面提供了一种语音情绪识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音情绪识别设备执行上述的语音情绪识别方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的语音情绪识别方法。

本发明提供的技术方案中,获取初始语音数据,并对所述初始语音数据进行预处理,生成预处理后的语音数据;对所述预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,所述每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征;将所述每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据;将所述语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对所述修正后的语音特征数据进行分类处理,输出目标语音特征数据,所述目标语音特征数据用于指示识别到的语音情绪信息。本发明实施例中,通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

附图说明

图1为本发明实施例中语音情绪识别方法的一个实施例示意图;

图2为本发明实施例中语音情绪识别方法的另一个实施例示意图;

图3为本发明实施例中语音情绪识别装置的一个实施例示意图;

图4为本发明实施例中语音情绪识别装置的另一个实施例示意图;

图5为本发明实施例中语音情绪识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种语音情绪识别方法、装置、设备及存储介质,用于通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中语音情绪识别方法的一个实施例包括:

101、获取初始语音数据,并对初始语音数据进行预处理,生成预处理后的语音数据。

服务器获取初始语音数据,并对初始语音数据进行预处理,生成预处理后的语音数据。具体的,服务器获取初始语音数据,初始语音数据包括用户端发送的录音数据;服务器调用语音端点检测算法vad对初始语音数据进行切分,得到语音切分片段,对语音切分片段进行过滤处理,删除无效片段,生成过滤后的语音数据,无效片段为包含噪音信号的语音片段和静音片段;服务器对过滤后的语音数据依次进行预加重、分帧和加窗处理,生成预处理后的语音数据。

语音端点检测算法(voiceactivitydetection,vad)就是将有效的语音信号和无用的语音信号或者噪音信号进行分离,需要从输入信号中找到语音部分的起止点和终止点,从中抽取语音情感识别所需的信号特征,本实施例中通过调用vad算法对初始语音数据进行切分,分离并过滤掉无效片段,生成过滤后的语音数据,预加重处理是将语音信号通过一个高通滤波器,通过预加重处理提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时,也是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰,将n个采样点集合成一个观测单位,称为帧,通常情况下n的值为256或512,涵盖的时间约为20~30ms,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,例如,一段录音的时长为10s,窗的长度为10ms,则不考虑重叠的区域的情况下可以将该段录音分为10s/10ms=100帧,考虑重叠的区域的情况下分为2*10s/10ms=200帧。

可以理解的是,本发明的执行主体可以为语音情绪识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、对预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。

服务器对预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。具体的,步骤一、服务器采用预置的窗型和短时能量计算公式计算任意一帧数据的语音短时能量,得到任意一帧数据对应的能量特征,预置的窗型包括矩形窗;步骤二、服务器调用自相关函数算法提取任意一帧数据的基频特征,得到任意一帧数据对应的基频特征;步骤三、服务器采用线性预测分析算法提取任意一帧数据的共振峰参数,得到任意一帧数据对应的共振特征,共振峰参数包括共振峰频率和共振峰带宽;步骤四、服务器获取任意一帧数据对应的频谱数据,将频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征;步骤五、服务器重复执行步骤一至步骤四,生成每一帧数据对应的能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。

本实施例中提取基频特征的算法包括但不限于自相关函数算法,还可以包括平均幅度差算法等,共振特征的获取包括但不限于线性预测分析算法,还可以包括倒谱法和带通滤波组法等。

103、将每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据。

服务器将每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据。具体的,服务器将每一帧数据对应的多个目标特征输入预置的深度网络模型,提取语音情绪相关数据,得到每一帧数据对应的多个目标语音情绪特征;服务器分别计算每一个目标语音情绪特征的平均值,生成语音特征数据,每一个目标语音情绪特征的平均值包括能量特征平均值、基频特征平均值、共振特征平均值和梅尔倒谱系数mfcc特征平均值。

将每一帧数据对应的多个目标特征共同输入到深度网络模型中,深度网络模型会学习到更多的情绪特征,特征提取到的每一帧数据对应了一个能量特征值,一个基频特征值,一个共振特征值以及13个维度的mfcc特征值,例如,一段语音数据一共有100帧,则对应的能量特征、基频特征和共振特征都各有100个特征值,mfcc特征值有100*13个,分别求出每一个特征值的平均值,最后得到1个能量特征平均值,1个基频特征平均值,1个共振特征平均值和13位mfcc特征平均值。

104、将语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对修正后的语音特征数据进行分类处理,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

服务器将语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对修正后的语音特征数据进行分类处理,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。具体的,服务器将语音特征数据输入预置的图网络模型,并调用预置的图网络模型中的图网络层提取全局信息,生成修正后的语音特征数据;服务器将修正后的语音特征数据输入预置的分类器中,按照预设数目的情绪类别对修正后的语音特征数据进行分类,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

需要说明的是,在获取初始语音数据之前,需要构建预置的图网络模型,包括建立特征层以及将多个滤波器进行组合生成初始模型,通过搭建神经网络框架gcn对初始模型进行调整,最终得到预置的图网络模型,预置的图网络模型包含一个特征层,多个滤波器组合以及神经网络框架gcn,本实施例中采用频谱特征信息,在特征层将语音信息转换到频域,提取频域特征信息,通过神经网络搭建框架并设计出多层网络,从而进行特征的修正,提取到全局信息,将修正后的语音特征数据直接经过softmax层,该层会涉及预设的4个情绪类别:高兴,悲伤,中性,难过,完成分类后最终输出目标语音特征数据。

本发明实施例中,通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

请参阅图2,本发明实施例中语音情绪识别方法的另一个实施例包括:

201、获取初始语音数据,并对初始语音数据进行预处理,生成预处理后的语音数据。

服务器获取初始语音数据,并对初始语音数据进行预处理,生成预处理后的语音数据。具体的,服务器获取初始语音数据,初始语音数据包括用户端发送的录音数据;服务器调用语音端点检测算法vad对初始语音数据进行切分,得到语音切分片段,对语音切分片段进行过滤处理,删除无效片段,生成过滤后的语音数据,无效片段为包含噪音信号的语音片段和静音片段;服务器对过滤后的语音数据依次进行预加重、分帧和加窗处理,生成预处理后的语音数据。

语音端点检测算法(voiceactivitydetection,vad)就是将有效的语音信号和无用的语音信号或者噪音信号进行分离,需要从输入信号中找到语音部分的起止点和终止点,从中抽取语音情感识别所需的信号特征,本实施例中通过调用vad算法对初始语音数据进行切分,分离并过滤掉无效片段,生成过滤后的语音数据,预加重处理是将语音信号通过一个高通滤波器,通过预加重处理提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,同时,也是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰,将n个采样点集合成一个观测单位,称为帧,通常情况下n的值为256或512,涵盖的时间约为20~30ms,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,例如,一段录音的时长为10s,窗的长度为10ms,则不考虑重叠的区域的情况下可以将该段录音分为10s/10ms=100帧,考虑重叠的区域的情况下分为2*10s/10ms=200帧。

202、采用预置的窗型和短时能量计算公式计算任意一帧数据的语音短时能量,得到任意一帧数据对应的能量特征,预置的窗型包括矩形窗。

服务器采用预置的窗型和短时能量计算公式计算任意一帧数据的语音短时能量,得到任意一帧数据对应的能量特征,预置的窗型包括矩形窗。短时能量计算公式为,其中,w(n)是窗口函数,n为窗长,预置的窗型包括但不限于矩形窗。

203、调用自相关函数算法提取任意一帧数据的基频特征,得到任意一帧数据对应的基频特征。

服务器调用自相关函数算法提取任意一帧数据的基频特征,得到任意一帧数据对应的基频特征。自相关函数定义为其中,k是时间的延迟量,n为帧长,短时自相关函数具有以下重要性质,若当原信号具有周期性,那么它的自相关函数也具有周期性,并且周期性与原信号的周期相同,且在k等于周期整数倍时会出现峰值,提取基频特征的算法包括但不限于自相关函数算法,还可以包括平均幅度差算法。

204、采用线性预测分析算法提取任意一帧数据的共振峰参数,得到任意一帧数据对应的共振特征,共振峰参数包括共振峰频率和共振峰带宽。

服务器采用线性预测分析算法提取任意一帧数据的共振峰参数,得到任意一帧数据对应的共振特征,共振峰参数包括共振峰频率和共振峰带宽。共振峰是指在声音的频谱中能量相对集中的一些区域,语音通常包含4到5个稳定的共振峰,一般只需要研究前三个共振峰,该算法对任意频率求得其功率谱幅值响应,并从幅值响应中找到共振峰,相应的求解算法有抛物线内插法和线性预测系数求复数根法,共振特征的获取包括但不限于线性预测分析算法,还可以包括谱包络法、倒谱法、希尔伯特变换法等。

205、获取任意一帧数据对应的频谱数据,将频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征。

服务器获取任意一帧数据对应的频谱数据,将频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征。具体的,服务器对任意一帧数据进行傅里叶变换,得到任意一帧数据对应的频谱数据;服务器将任意一帧数据对应的频谱数据通过梅尔滤波器进行平滑化处理,并消除谐波的作用,得到平滑处理后的任意一帧数据;服务器计算梅尔滤波器输出的对数能量,并将平滑处理后的任意一帧数据进行离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征。

由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性,所以每帧数据还必须再经过快速傅里叶变换以得到在频谱上的能量分布,即任意一帧数据对应的频谱数据,对语音信号的频谱数据取模平方得到语音信号的谱线能量,将能量谱通过一组梅尔尺度的三角形滤波器组,计算滤波器输出的对数能量,将对数能量代入离散余弦变换,求出l阶的梅尔参数,离散余弦变换公式为n=1,2,...,l,其中,l阶指mfcc系数阶数,通常取12-16,m为滤波器的个数。

206、重复执行步骤202至205,生成每一帧数据对应的能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。

服务器重复执行步骤202至205,生成每一帧数据对应的能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。服务器逐帧提取能量特征,基频特征,共振峰特征以及mfcc特征,最终得到每一帧数据对应的多个目标特征。

207、将每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据。

服务器将每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据。具体的,服务器将每一帧数据对应的多个目标特征输入预置的深度网络模型,提取语音情绪相关数据,得到每一帧数据对应的多个目标语音情绪特征;服务器分别计算每一个目标语音情绪特征的平均值,生成语音特征数据,每一个目标语音情绪特征的平均值包括能量特征平均值、基频特征平均值、共振特征平均值和梅尔倒谱系数mfcc特征平均值。

将每一帧数据对应的多个目标特征共同输入到深度网络模型中,深度网络模型会学习到更多的情绪特征,特征提取到的每一帧数据对应了一个能量特征值,一个基频特征值,一个共振特征值以及13个维度的mfcc特征值,例如,一段语音数据一共有100帧,则对应的能量特征、基频特征和共振特征都各有100个特征值,mfcc特征值有100*13个,分别求出每一个特征值的平均值,最后得到1个能量特征平均值,1个基频特征平均值,1个共振特征平均值和13位mfcc特征平均值。

208、将语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对修正后的语音特征数据进行分类处理,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

服务器将语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对修正后的语音特征数据进行分类处理,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。具体的,服务器将语音特征数据输入预置的图网络模型,并调用预置的图网络模型中的图网络层提取全局信息,生成修正后的语音特征数据;服务器将修正后的语音特征数据输入预置的分类器中,按照预设数目的情绪类别对修正后的语音特征数据进行分类,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

需要说明的是,在获取初始语音数据之前,需要构建预置的图网络模型,包括建立特征层以及将多个滤波器进行组合生成初始模型,通过搭建神经网络框架gcn对初始模型进行调整,最终得到预置的图网络模型,预置的图网络模型包含一个特征层,多个滤波器组合以及神经网络框架gcn,本实施例中采用频谱特征信息,在特征层将语音信息转换到频域,提取频域特征信息,通过神经网络搭建框架并设计出多层网络,从而进行特征的修正,提取到全局信息,将修正后的语音特征数据直接经过softmax层,该层会涉及预设的4个情绪类别:高兴,悲伤,中性,难过,完成分类后最终输出目标语音特征数据。

本发明实施例中,通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

上面对本发明实施例中语音情绪识别方法进行了描述,下面对本发明实施例中语音情绪识别装置进行描述,请参阅图3,本发明实施例中语音情绪识别装置的一个实施例包括:

获取模块301,用于获取初始语音数据,并对初始语音数据进行预处理,生成预处理后的语音数据;

特征提取模块302,用于对预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征;

输入模块303,用于将每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据;

输出模块304,用于将语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对修正后的语音特征数据进行分类处理,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

本发明实施例中,通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

请参阅图4,本发明实施例中语音情绪识别装置的另一个实施例包括:

获取模块301,用于获取初始语音数据,并对初始语音数据进行预处理,生成预处理后的语音数据;

特征提取模块302,用于对预处理后的语音数据中的每一帧数据分别进行特征提取,得到每一帧数据对应的多个目标特征,每一帧数据对应的多个目标特征包括能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征;

输入模块303,用于将每一帧数据对应的多个目标特征输入预置的深度网络模型,得到语音特征数据;

输出模块304,用于将语音特征数据输入预置的图网络模型,生成修正后的语音特征数据,并对修正后的语音特征数据进行分类处理,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

可选的,获取模块301包括:

获取单元3011,用于获取初始语音数据,初始语音数据包括用户端发送的录音数据;

切分单元3012,用于调用语音端点检测算法vad对初始语音数据进行切分,得到语音切分片段,对语音切分片段进行过滤处理,删除无效片段,生成过滤后的语音数据,无效片段为包含噪音信号的语音片段和静音片段;

预处理单元3013,用于对过滤后的语音数据依次进行预加重、分帧和加窗处理,生成预处理后的语音数据。

可选的,特征提取模块302包括:

第一计算单元3021,用于采用预置的窗型和短时能量计算公式计算任意一帧数据的语音短时能量,得到任意一帧数据对应的能量特征,预置的窗型包括矩形窗;

第一提取单元3022,用于调用自相关函数算法提取任意一帧数据的基频特征,得到任意一帧数据对应的基频特征;

第二提取单元3023,用于采用线性预测分析算法提取任意一帧数据的共振峰参数,得到任意一帧数据对应的共振特征,所述共振峰参数包括共振峰频率和共振峰带宽;

变换单元3024,用于获取任意一帧数据对应的频谱数据,将所述频谱数据通过梅尔滤波器并经过离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征;

生成单元3025,用于依次调用第一计算单元3021、第一提取单元3022、第二提取单元3023和变换单元3024,生成每一帧数据对应的能量特征、基频特征、共振特征和梅尔倒谱系数mfcc特征。

可选的,变换单元3024还可以具体用于:

对任意一帧数据进行傅里叶变换,得到任意一帧数据对应的频谱数据;将任意一帧数据对应的频谱数据通过梅尔滤波器进行平滑化处理,并消除谐波的作用,得到平滑处理后的任意一帧数据;计算梅尔滤波器输出的对数能量,并将平滑处理后的任意一帧数据进行离散余弦变换,得到任意一帧数据对应的梅尔倒谱系数mfcc特征。

可选的,输入模块303包括:

第一输入单元3031,用于将每一帧数据对应的多个目标特征输入预置的深度网络模型,提取语音情绪相关数据,得到每一帧数据对应的多个目标语音情绪特征;

第二计算单元3032,用于分别计算每一个目标语音情绪特征的平均值,生成语音特征数据,每一个目标语音情绪特征的平均值包括能量特征平均值、基频特征平均值、共振特征平均值和梅尔倒谱系数mfcc特征平均值。

可选的,输出模块304包括:

第二输入单元3041,用于将语音特征数据输入预置的图网络模型,并调用所述预置的图网络模型中的图网络层提取全局信息,生成修正后的语音特征数据;

分类单元3042,用于将修正后的语音特征数据输入预置的分类器中,按照预设数目的情绪类别对修正后的语音特征数据进行分类,输出目标语音特征数据,目标语音特征数据用于指示识别到的语音情绪信息。

可选的,在获取模块301之前,语音情绪识别方法还包括:

构建模块305,用于构建预置的图网络模型。

本发明实施例中,通过建立图网络对特征信息进行修正,从而提升了特征信息片段之间的相关性,提取出语音情绪特征的全局信息。

上面图3和图4从模块化功能实体的角度对本发明实施例中的语音情绪识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中语音情绪识别设备进行详细描述。

图5是本发明实施例提供的一种语音情绪识别设备的结构示意图,该语音情绪识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对语音情绪识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在语音情绪识别设备500上执行存储介质530中的一系列指令操作。

语音情绪识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5示出的语音情绪识别设备结构并不构成对语音情绪识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种语音情绪识别设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述语音情绪识别方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述语音情绪识别方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜