一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音情感识别方法与流程

2021-09-17 22:53:00 来源:中国专利 TAG:信号处理 语音 识别 方法 情感

技术特征:
1.一种语音情感识别方法,其特征在于,包括:获取包含对话录音内容的音频文件构建语音情感数据库,并基于预设情感类别对所述音频文件进行分类存储;基于预设分割参数对所述音频文件进行切片形成语音片段;基于预设特征描述对所述语音片段进行特征提取;对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征;使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测;使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别。2.根据权利要求1所述的语音情感识别方法,其特征在于,所述预设情感类别包括四个情感类别,分别是激动、积极、消极和中性。3.根据权利要求1所述的语音情感识别方法,其特征在于,所述音频文件为音频格式为单声道、采样率为8000hz的wav文件。4.根据权利要求1所述的语音情感识别方法,其特征在于,所述语音片段的长度由所述预设分割参数的大小决定,其中最小粒度为1s,所述语音文件的最后剩余部分不够参数规定长度时,剩余部分独自成为一个片段。5.根据权利要求1所述的语音情感识别方法,其特征在于,所述基于预设特征描述对所述语音片段进行特征提取包括:五种不同用来表征情绪的特征具体包括:信号帧均方根能量、12阶梅尔频率倒谱系数、时间信号的过零率、谐波噪声比和从倒谱计算的基频。6.根据权利要求1所述的语音情感识别方法,其特征在于,所述对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征包括:应用12个函数进行特征的拼接融合,12个函数分别用于获得平均值、标准偏差、峰度、偏度、最小值、最大值、相对位置、范围、轮廓线性逼近的斜率、轮廓线性逼近的偏移量、线性近似值和实际轮廓的差值,最终经过一阶差分得到总特征向量包含384个属性的初步融合特征。7.根据权利要求6所述的语音情感识别方法,其特征在于,所述对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征还包括:对所述初步融合特征进行进行标准化,减去平均数后除以标准差。8.根据权利要求1所述的语音情感识别方法,其特征在于,所述使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测包括:所述预设卷积神经网络模型包括两层一维卷积,其中卷积核数和卷积的大小分别设置为64和5,每层卷积后带有归一化层和dropout层,最后一层为softmax层。9.根据权利要求1至8任一项所述的语音情感识别方法,其特征在于,使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别包括:对目标语音文件的语音片段进行识别时得到相应的预测标签和对应每个标签的置信度得分,并进行相应的分析合并。

技术总结
本发明涉及一种语音情感识别方法,通过首先对于输入的音频信号进行片段化操作,然后通过音频特征提取方法提取能够表达情感信息的特征,然后使用函数对每种特征进行计算初步拼接融合,融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足,多种表达情绪特征再融合的方法,可以从不同的角度、层次获取语音情感信息,对语音情感信息进行更加全面的描述,这样不但使系统得到更高的识别率,同时提高了系统鲁棒性;音频信号片段化识别可以更加精准的掌握情绪变化,避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。绪变动的问题。绪变动的问题。


技术研发人员:刘远庆 张玉腾 初广辉
受保护的技术使用者:青岛洞听智能科技有限公司
技术研发日:2021.07.06
技术公布日:2021/9/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜