基于加权特征融合的语音表情多模态情感识别方法与流程

2023-02-06 16:10:24 来源：中国专利 TAG：

技术特征：
1.一种基于加权特征融合的语音表情多模态情感识别方法，其特征在于，包括：提取情感视频中的语音信息和表情信息进行分帧处理，提取语音关键帧和表情关键帧，并提取语音关键帧的mfcc特征；将提取的语音关键帧和表情关键帧进行对齐处理，并通过利用语音和表情模态的互补性计算加权特征融合中的语音权重和表情权重；利用完成训练的残差网络提取所述语音mfcc特征中的语音高阶情感特征，并利用完成训练的3d-cnn神经网络提取所述表情关键帧中的表情高阶情感特征；利用所述语音权重、所述表情权重分别对所述语音高阶情感特征和所述表情高阶情感特征进行加权，获得加权后的语音高阶情感特征和加权后的表情高阶情感特征；将加权后的语音高阶情感特征和加权后的表情高阶情感特征输入到多层感知机mlp中进行加权特征融合并完成情感分类。2.根据权利要求1所述的情感识别方法，其特征在于，所述提取语音关键帧包括：利用语音vad算法提取语音信息中的关键帧。3.根据权利要求1所述的情感识别方法，其特征在于，所述提取表情关键帧包括：提取表情分帧中的脸部区域并利用信息熵提取表情关键帧。4.根据权利要求1所述的情感识别方法，其特征在于，所述提取语音mfcc特征包括：对语音信息的高频部分进行补偿预处理；采用fft变换将完成预处理的语音信息转为频域，获得语音信息的频谱；利用梅尔滤波器组处理语音信息的频谱得到语音信息的梅尔频谱；对得到语音信息的梅尔频谱进行频率分析，得到语音信息的梅尔倒谱；基于得到语音信息的梅尔倒谱，利用离散余弦变换计算语音信息的mfcc特征；计算语音信息mfcc特征的一阶差分和二阶差分。5.根据权利要求1所述的情感识别方法，其特征在于，所述通过利用语音和表情模态的互补性计算加权特征融合中的语音权重和表情权重，包括：对语音关键帧和表情关键帧进行对齐处理后，判断对齐数据帧中的语音关键帧和表情关键帧是否为包含情感特征的有效关键帧；若对齐数据帧中的语音关键帧和表情关键帧均为有效关键帧，则将语音关键帧和表情关键帧的权重均设置为1；若对齐数据帧中的语音关键帧为有效关键帧，表情关键帧为无效关键帧，则将对齐数据帧中对应的表情关键帧的权重设置为0，并将对齐数据帧中对应的语音关键帧的权重设置为2；若对齐数据帧中的表情关键帧为有效关键帧，语音关键帧为无效关键帧，则将对齐数据帧中对应的语音关键帧的权重设置为0，并将对齐数据帧中对应的表情关键帧的权重设置为2；统计语音关键帧为有效关键帧且表情关键帧为无效关键帧的对齐数据帧的总帧数，以及表情关键帧为有效关键帧且语音关键帧为无效关键帧的对齐数据帧的总帧数；基于表情关键帧的总帧数、语音关键帧的总帧数、表情关键帧为有效关键帧且语音关键帧为无效关键帧的对齐数据帧的总帧数、语音关键帧为有效关键帧且表情关键帧为无效关键帧的对齐数据帧的总帧数，计算加权特征融合中的语音权重和表情权重。
6.根据权利要求5所述的情感识别方法，其特征在于，加权特征融合中的所述语音权重的计算公式为：加权特征融合中的所述表情权重的计算公式为：其中，w
s
为加权特征融合中的语音权重，w
v
为加权特征融合中的表情权重，size(
·
)表示向量的长度，c
v
表示保存表情关键帧的位置参数的矢量，size(c
v
)表示表情关键帧的总帧数，c
s
表示保存语音关键帧的位置参数的矢量，size(c
s
)表示语音关键帧的种帧数，p为表情关键帧为有效关键帧且语音关键帧为无效关键帧的总帧数，q为语音关键帧为有效关键帧且表情关键帧为无效关键帧的对齐数据帧的总帧数。7.根据权利要求6所述的情感识别方法，其特征在于，所述残差网络包括依次连接的5个相同结构的残差块以及2个全连接层，其中，每个所述残差块包括依次连接的2个卷积层、3个relu激活函数层和2个归一化层；其中，最后一个全连接层的神经元个数为2048。8.根据权利要求7所述的情感识别方法，其特征在于，所述3d-cnn神经网络包括依次连接的七个卷积层、五个池化层和2个全连接层；其中，最后一个全连接层的神经元个数为2048。9.根据权利要求8所述的情感识别方法，其特征在于，所述利用所述语音权重、所述表情权重分别对所述语音高阶情感特征和所述表情高阶情感特征进行加权，通过以下公式计算：算：其中，x
w
为加权后的语音高阶情感特征，y
w
为加权后的表情高阶情感特征，w
s
为语音权重，w
v
为表情权重，为所述残差网络输出的语音高阶情感特征，为所述3d-cnn输出的表情高阶情感特征的维度。10.根据权利要求1所述的情感识别方法，其特征在于，所述多层感知机mlp包括输入层、两个隐藏层和输出层，其中，所述输入层包含4096个神经元，两个隐藏层分别包含2048个神经元和1024个神经元，所述输出层的神经元的数量等于情感类别的数量。

技术总结
本发明公开了一种基于加权特征融合的语音表情多模态情感识别方法，包括：提取语音关键帧和表情关键帧，并提取语音关键帧的MFCC特征；将基于提取的语音关键帧和表情关键帧进行对齐处理，通过利用语音和表情模态的互补性计算加权特征融合中的语音权重和表情权重；利用完成训练的残差网络提取语音MFCC特征中的语音高阶情感特征，并利用完成训练的3D-CNN神经网络提取表情关键帧中的表情高阶情感特征；利用语音权重、表情权重分别对语音高阶情感特征和表情高阶情感特征进行加权，获得加权后的语音高阶情感特征和加权后的表情高阶情感特征；将加权后的语音高阶情感特征和加权后的表情高阶情感特征输入到多层感知机MLP中进行加权特征融合并完成情感分类。本发明能够提高语音表情多模态情感识别的识别率。表情多模态情感识别的识别率。表情多模态情感识别的识别率。

技术研发人员：焦爽陈光辉杨亚飞袁世通周旭战韩威李现伟李帅飞马仁婷张明明张璜
受保护的技术使用者：中国大唐集团科学技术研究院有限公司中南电力试验研究院
技术研发日：2022.11.08
技术公布日：2023/2/3

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：编码装置、解码装置、编码方法及解码方法与流程

基于加权特征融合的语音表情多模态情感识别方法与流程

相关文献

最热文献