技术特征:
1.一种语音情绪识别方法,其特征在于,所述语音情绪识别方法包括:
获取待识别情绪的语音信号,并提取所述语音信号中的情绪特征,其中,所述情绪特征包括基频特征、能量特征和频谱特征;
采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息;
根据目标场景的预置特征影响力度,对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合,得到语音融合特征;
将所述语音融合特征输入预置分类器中,并通过所述分类器对所述语音信号进行分类,得到所述语音信号对应的语音情绪。
2.根据权利要求1所述的语音情绪识别方法,其特征在于,所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络,所述采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息包括:
采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息,并对所述前后基频信息进行反向传播,得到所述基频特征中的帧间基频信息;
采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息,并对所述前后能量信息进行反向传播,得到所述基频特征中的帧间能量信息;
采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息,并对所述前后频谱信息进行反向传播,得到所述基频特征中的帧间频谱信息。
3.根据权利要求2所述的语音情绪识别方法,其特征在于,所述采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息包括:
将所述基频特征中各帧语音对应的时域转化为频域,得到所述基频特征对应基频序列;
将所述基频序列随机划分为多帧基频区域,并确定每个基频区域的最大频率点;
依次采用各帧基频区域的前后基频区域对当前帧基频区域进行平滑处理,得到各帧基频区域对应的频率分布;
将各帧基频区域对应的频率分布输入所述第一神经网络,并通过所述第一神经网络识别所述基频特征中各帧语音的前后基频信息。
4.根据权利要求2所述的语音情绪识别方法,其特征在于,所述采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息,并对所述前后能量信息进行反向传播,得到所述基频特征中的帧间能量信息包括:
根据所述能量特征中携带的时间戳,将所述能量特征中各帧语音转化为语音能量序列,并对所述语音能量序列进行向量化处理;
将向量化处理后的语音能量序列输入所述第二神经网络中,并通过所述第二神经网络识别所述能量特征中各帧语音的前后能量信息。
5.根据权利要求2所述的语音情绪识别方法,其特征在于,所述采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息包括:
依次提取所述频谱特征中各帧语音的前后预设数量帧的初始频谱信息;
依次采用各帧语音的前后预设数量帧的初始频谱信息计算当前帧对应的均值矢量和方差矢量;
对各帧语音对应的均值矢量和方差矢量进行对数域转换,并采用第三神经网络对转换后的均值矢量和方差矢量进行识别,得到各帧语音的前后频谱信息。
6.根据权利要求1-5中任一项所述的语音情绪识别方法,其特征在于,所述根据目标场景的预置特征影响力度,对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合,得到语音融合特征包括:
根据目标场景的预置特征影响力度,调整所述帧间基频信息对应的基频权重、所述帧间能量信息对应的能量权重和所述帧间频谱信息对应的频谱权重;
通过所述基频权重、所述能量权重和所述频谱权重,对所述帧间基频信息、帧间能量信息和所述帧间频谱信息进行加和处理,得到语音融合特征。
7.一种语音情绪识别装置,其特征在于,所述语音情绪识别装置包括:
提取模块,用于获取待识别情绪的语音信号,并提取所述语音信号中的情绪特征,其中,所述情绪特征包括基频特征、能量特征和频谱特征;
识别模块,用于采用预置神经网络模型提取所述情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息;
融合模块,用于根据目标场景的预置特征影响力度,对所述帧间基频信息、所述帧间能量信息和所述帧间频谱信息进行特征融合,得到语音融合特征;
分类模块,用于将所述语音融合特征输入预置分类器中,并通过所述分类器对所述语音信号进行分类,得到所述语音信号对应的语音情绪。
8.根据权利要求7所述的语音情绪识别方法,其特征在于,所述神经网络模型包含第一神经网络、第二神经网络和第三神经网络,所述识别模块包括:
基频识别单元,用于采用所述第一神经网络识别所述基频特征中各帧语音的前后基频信息,并对所述前后基频信息进行反向传播,得到所述基频特征中的帧间基频信息;
能量识别单元,用于采用所述第二神经网络识别所述能量特征中各帧语音的前后能量信息,并对所述前后能量信息进行反向传播,得到所述基频特征中的帧间能量信息;
频谱识别单元,用于采用所述第三神经网络识别所述频谱特征中各帧语音的前后频谱信息,并对所述前后频谱信息进行反向传播,得到所述基频特征中的帧间频谱信息。
9.一种语音情绪识别设备,其特征在于,所述语音情绪识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述语音情绪识别设备执行如权利要求1-6中任意一项所述的语音情绪识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任一项所述语音情绪识别方法。
技术总结
本发明涉及人工智能领域,公开了一种语音情绪识别方法、装置、设备及存储介质。该方法包括:获取待识别情绪的语音信号,并提取语音信号中的情绪特征,其中,情绪特征包括基频特征、能量特征和频谱特征;采用预置神经网络模型提取情绪特征中的帧间基频信息、帧间能量信息和帧间频谱信息;根据目标场景的预置特征影响力度,对帧间基频信息、帧间能量信息和帧间频谱信息进行特征融合,得到语音融合特征;将语音融合特征输入预置分类器中,并通过分类器对语音信号进行分类,得到语音信号对应的语音情绪。本发明针对不同领域进行语音情绪识别,细分语音中描述情绪的复合特征,以提升语音情绪识别的准确性。
技术研发人员:顾艳梅;马骏;王少军
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.05.27
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。