一种语音情感识别方法与流程

2021-09-17 22:53:00 来源：中国专利 TAG：信号处理语音识别方法情感

1.本发明属于信号处理与模式识别技术领域，具体涉及一种语音情感识别方法。

背景技术：

2.随着深度学习在人工智能领域的广泛应用，用于扮演客服角色的人工交互智能机器人层出不穷，人们开始关注是否让机器人感知情感。众所周知，人的情绪是不断变化的，所以为了使客服机器人能够提供舒适的交互环境，消除机器和人之间的障碍给客户提供更好的服务，让智能机器人了解客户的情绪变化是很有必要的，而这个问题的解决方法便是情感识别(emotionrecognition)。人的情绪变化可以引起表情、行为、体温、心率、声音、语言、器官、神经系统等方方面面的变化，这些都可以作为人类情感识别研究的监测信息。但是唯独声音的情绪变化最难隐藏也最容易被察觉，语音情感识别对于和谐的人机交互的促进意义重大。
3.语音中的情绪通过语音参数进行表示，这些参数便是用于情绪识别的情绪特征。随着国内外学者的持续的研究，目前情绪特征的提取分为以下几种：韵律特征、谱特征以及音质特征。韵律特征包括基音频率特征、共振峰特征和能量特征等；目前基于谱的相关特征主要有线性预测倒谱系数(lpcc)、梅尔频率倒谱系数(mfcc)；而长时平均频谱、谐波噪声比和频谱中心矩等参数则属于音质特征范畴。近几年，使用深度学习进行情绪特征提取的方法也大量涌现包括：1、提取音频的梅尔频率倒谱系数特征作为卷积神经网络的输入，利用卷积神经网络进一步去提取特征；2、直接使用深度神经网络从语音的频谱图中提取特征。提取的特征最后通过分类器进行判别属于那种情绪，常用的分类器有支持向量机(svm)、随机森林等。
4.虽然现在单特征的情绪识别已经很成熟，但是由于本身特点的限制，很难具有通用性，无法获得较高的识别率，并且很容易忽略条语音中可能存在情绪变化，最终的结果也只是一个相对模糊的结果，导致结果不够精确。

技术实现要素：

5.为了解决现有技术存在的识别率低、准确性低的问题，本发明提供了一种语音情感识别方法，其具有准确率高、识别率高等特点。
6.根据本发明的具体实施方式的一种语音情感识别方法，包括：
7.获取包含对话录音内容的音频文件构建语音情感数据库，并基于预设情感类别对所述音频文件进行分类存储；
8.基于预设分割参数对所述音频文件进行切片形成语音片段；
9.基于预设特征描述对所述语音片段进行特征提取；
10.对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征；
11.使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测；
12.使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别。
13.进一步地，所述预设情感类别包括四个情感类别，分别是激动、积极、消极和中性。
14.进一步地，所述音频文件为音频格式为单声道、采样率为8000hz的wav文件。
15.进一步地，所述语音片段的长度由所述预设分割参数的大小决定，其中最小粒度为1s，所述语音文件的最后剩余部分不够参数规定长度时，剩余部分独自成为一个片段。
16.进一步地，所述基于预设特征描述对所述语音片段进行特征提取包括：
17.五种不同用来表征情绪的特征具体包括：信号帧均方根能量、12阶梅尔频率倒谱系数、时间信号的过零率、谐波噪声比和从倒谱计算的基频。
18.进一步地，所述对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征包括：应用12个函数进行特征的拼接融合，12个函数分别用于获得平均值、标准偏差、峰度、偏度、最小值、最大值、相对位置、范围、轮廓线性逼近的斜率、轮廓线性逼近的偏移量、线性近似值和实际轮廓的差值，最终经过一阶差分得到总特征向量包含384个属性的初步融合特征。
19.进一步地，所述对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征还包括：
20.对所述初步融合特征进行进行标准化，减去平均数后除以标准差。
21.进一步地，所述使用所述融合特征对预设卷积神经网络模型进行训练以进行情绪的预测包括：
22.所述预设卷积神经网络模型包括两层一维卷积，其中卷积核数和卷积的大小分别设置为64和5，每层卷积后带有归一化层和dropout层，最后一层为softmax层。
23.进一步地，使用训练好的所述预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别包括：
24.对目标语音文件的语音片段进行识别时得到相应的预测标签和对应每个标签的置信度得分，并进行相应的分析合并。
25.本发明的有益效果为：通过首先对于输入的音频信号进行片段化操作，然后通过音频特征提取方法提取能够表达情感信息的特征，然后使用函数对每种特征进行计算初步拼接融合，融合后的特征输入到构建的一维卷积神经网络模型进行训练识别。采用多特征融合弥补了单一特征的单一化和表达能力有限的不足，多种表达情绪特征再融合的方法，可以从不同的角度、层次获取语音情感信息，对语音情感信息进行更加全面的描述，这样不但使系统得到更高的识别率，同时提高了系统鲁棒性；音频信号片段化识别可以更加精准的掌握情绪变化，避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1是根据一示例性实施例提供的语音情感识别方法的流程图；
28.图2是根据一示例性实施例提供的语音情感识别方法的另一流程图；
29.图3是根据一示例性实施例提供的预设卷积神经网络模型的结构图。
具体实施方式
30.为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。
31.参照图1所示本发明的实施例提供了一种语音情感识别方法，具体包括以下步骤：
32.101、获取包含对话录音内容的音频文件构建语音情感数据库，并基于预设情感类别对音频文件进行分类存储；
33.可通过获取客服与客户的对话录音构建语音情感数据库，情感数据库包括多种情感类别，每种情感类别下收集的语音来自不同的说话人的音频文件。
34.102、基于预设分割参数对音频文件进行切片形成语音片段；
35.语音片段化即将一条长语音通过设定的分割参数进行切片，每个片段的长度由设定的参数决定。
36.103、基于预设特征描述对语音片段进行特征提取；
37.对上述语音数据库中片段化语音进行提特征处理，对语音片段分别提取相应的特征。
38.104、对提取到的每种特征基于预设函数进行特征的拼接融合并进行标准化得到融合特征；
39.105、使用融合特征对预设卷积神经网络模型进行训练以进行情绪的预测；
40.106、使用训练好的预设卷积神经网络模型对目标语音文件或目标语音文件的语音片段进行情绪识别。
41.这样通过对于输入的音频信号进行片段化操作，然后通过音频特征提取方法提取出能够表达情感信息的特征，然后使用函数对每种特征进行计算，最后、进行初步拼接融合；融合后的特征输入到构建的一维卷积神经网络模型进行在融合，最后使用相应的分类器进行情绪类型判别，采用多特征融合弥补了单一特征的单一化和表达能力有限的不足，可以从不同的角度、层次获取语音情感信息，对语音情感信息进行更加全面的描述，这样不但使系统得到更高的识别率，同时提高了系统鲁棒性；音频信号片段化识别可以更加精准的掌握情绪变化，避免了整条音频识别只返回概率最大标签而忽略其中情绪变动的问题。
42.参照图2所示，作为上述实施例可行的实现方式，数据库中包含四个情感类别，分别是激动(exciting)、积极(positive)、消极(negative)、中性(neutral)，每种情感类别下收集的语音来自不同的说话人，最终的音频格式为单声道、采样率为8000hz的wav音频文件。
43.每个片段的长度由设定的参数决定，片段化的最小粒度为1s，语音最后剩余部分不够参数规定长度时，剩余部分独自成为一个片段。同样也可以通过参数的改变选择是否对语音采取片段化操作。对于具体的分割参数本发明在此不做限制，本领域技术人员可根据实际应用情况进行设定。
44.对上述语音数据库中片段化语音进行提特征处理。首先提取五种不同用来表征情绪的特征，第一种特征是信号帧均方根能量(rmsenergy)，它是音频信号响度的度量，并且由于响度的变化是新声音事件的重要提示，可以将其用于音频分段，而情绪的改变对产生的语音信号的响度存在影响，因此响度的变化可以看作新情绪事件的重要提示，因此将rmsenergy作为情绪识别特征的一种，用于检测不同情绪之间的边界；第二种特征是12阶梅尔频率倒谱系数，是在mel标度频率域提取出来的倒谱参数，mel标度描述了人耳频率的非线性特性。提取流程：预加重、分帧、加窗、快速傅里叶变换(fft)、经过梅尔滤波器组、对数运算、离散余弦变换、提取差分动态参数。在mel标度频率域提取出倒谱参数，最终只保留前十二个参数；第三种特征是时间信号的过零率；第四种特征是谐波噪声比，谐波噪声比是谐波和噪声成份的比值，作为音质特征的一种通常被用来反映情感的变化，它随着情感在愉悦度上的变化而发生相关的变化，高兴等在愉悦度上偏高的情感,谐波噪声比值也相对较高,悲伤、生气等位于愉悦度负方向的情感在谐波噪声比特征上取值相对较低；第五种特征是从倒谱计算的基频。
45.对上述每种特征应用12个函数进行特征的拼接融合，12个函数主要用来获得平均值，标准偏差，峰度，偏度，最小值和最大值，相对位置和范围以及两个具有均方误差(mse)的线性回归系数(轮廓线性逼近的斜率(m)、轮廓线性逼近的偏移量(t))和计算的二次误差(线性近似值和实际轮廓的差值)。
46.最终经过一阶差分每个语音的总特征向量包含16
·2·
12＝384个属性，然后进行对初步融合的特征的标准化。减去平均数除以标准差，其主要目的是使得不同度量之间的特征具有可比性，对目标函数的影响体现在几何分布上，而不是数值上，此步操作不改变原始数据的分布，x＝(x
‑
μ)
÷
σ，其中μ表示均值，σ表示方差。
47.参照图3所示的卷积神经网络模型(cnn1d)的结构图，使用初步处理好的特征训练卷积神经网络模型(cnn1d)，最终模型一方面进行特征深层融合，另一方面用来进行情绪的预测。具体网络构成分别是两层一维卷积，其中卷积核数和卷积的大小分别设置为64和5，每层卷积后带有批归一化层和dropout层(dropout参数设置为0.5)防止模型过拟合，激活函数均为relu，最后一层为softmax层用于最终的情绪类型判别，每个输出节点对应一个类别。cnn1d模型在训练阶段学习率设置为0.0002、批量设置为32、迭代次数设置为100次，采用交叉熵损失函数(crossentropy,ce)作为模型的调优函数，优化器则采用adam。
[0048][0049]
上式表示第i个节点的输出值，c为输出节点的个数，即分类的类别个数。通过softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布。
[0050]
在本发明的一些具体实施例中，送入到模型进行预测，整个预测阶段有两种方式供选择。一种是片段化情绪识别，每个片段都会得到相应的预测标签和对应每个标签的置信度得分，对于这种片段化的音频最终需要对结果进行分析合并。片段化音频的分析合并存在几种情况：1、上一个片段和当前片段预测结果相同，则需要将结果进行合并，合并时则将多个片段的置信度得分平均值；2、上一个片段与当前片段预测结果不同则不需要合并，只需分别记录。无论是合并的还是不需合并的都会在整条音频中进行时间定位即给出当前片段对应的起止时间节点。最终得到的结果格式为开始时间、结束时间、时长、置信度、情绪
类型，具体的结果形式参照下表内容所示：
[0051]
参数名称类型参数说明startfloat情绪开始时间，单位sendfloat情绪结束时间，单位sdurationfloat时长confidencefloat置信度emotionstring情绪类型
[0052]
另一种是整句情绪识别，输入的音频跳过片段化操作，整体提多特征融合然后进行识别，相应的结果也只给出预测概率最大的那个标签和对应每个标签的得分，返回结果格式为情绪类型(emotion)和得分(score)，最终模型如下表所示：
[0053]
情感类别precisionrecallf1positive0.863134660.853711790.85839737negative0.883610450.875294120.87943262exciting0.895377130.874109260.88461538neutral0.8781250.933554820.90499195
[0054]
precision、recall、f1对应表示精确率、召回率、f1值，使用精确率、召回率、f1值三个指标对模型进行评测，综合分析，模型对于四种情感最终识别率为88％，因此采用多特征融合的方法能够获得较高的语音情感识别率，片段化的加入使系统更加精准的掌握音频中的情绪变化。
[0055]
可以理解的是，本领域技术人员还可采用其他形式的神经网络模型进行情感类别的识别，本发明在此不做限制。
[0056]
本发明上述实施例所提供的语音情感识别方法，通过对输入的音频信号进行片段化操作，然后通过音频特征提取方法提取出五类能够表达情感信息的特征(均方根能量、2阶梅尔频率倒谱系数、过零率、谐波噪声比、基频)，然后使用函数对每种特征计算平均值，标准偏差，峰度，偏度，最小值和最大值，相对位置和范围以及两个具有均方误差(mse)的线性回归系数和二次误差，最后通过进行一阶差分进行初步拼接融合；融合后的特征输入到构建的一维卷积神经网络模型进行在融合，最后使用softmax分类器进行情绪类型判别。弥补了单一特征存在的只对某一类数据有效的单一化和表达能力有限等问题，后端使用卷积神经网络可以让预测模型根据语音数据的隐含特点，自主选择有区分能力的特征，有效提高了识别率。音频信号分割后进行片段化识别的方法解决了整段语音识别下无法准确捕捉情绪变化的问题。
[0057]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0058]
此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0059]
上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0060]
在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0061]
上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
[0062]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于车辆的语音交互方法、装置、车辆和存储介质与流程

一种语音情感识别方法与流程

相关文章

最热文献