语音情绪识别方法、装置、电子设备及存储介质与流程

2021-09-18 00:42:00 来源：中国专利 TAG：人工智能电子设备语音识别装置

技术特征：
1.一种语音情绪识别方法，其特征在于，所述方法包括：从预设的多个语音情绪语料库中获取语音样本数据集，其中，所述语音样本数据集中包括大样本数据集和小样本数据集；对所述小样本数据集进行语音数据扩充，得到目标小样本数据集；将所述大样本数据集和所述目标小样本数据集进行融合，得到目标样本数据集；根据所述目标样本数据集训练语音情绪识别模型；获取待识别语音数据；将所述待识别语音数据输入至训练好的语音情绪识别模型中，得到所述待识别语音数据的情绪识别结果。2.如权利要求1所述的语音情绪识别方法，其特征在于，所述语音情绪识别模型包括：密连接神经网络、与所述密连接神经网络连接的长短期记忆网络、与所述长短期记忆网络连接的高速神经网络、及与所述高速神经网络连接的softmax层，其中，所述密连接神经网络包括：第一密集块、与所述第一密集块连接的第一传递层、与所述第一传递层连接的第二密集块、与所述第二密集块连接的第二传递层及与所述第二传递层连接的第三密集块，所述第一传递层包含有批标准化层、与所述批标准化层连接的卷积层及与所述卷积层连接的平均池化层，所述第二传递层与所述第一传递层网络结构相同。3.如权利要求2所述的语音情绪识别方法，其特征在于，所述将所述待识别语音数据输入至训练好的语音情绪识别模型中，得到所述待识别语音数据的情绪识别结果包括：将所述待识别语音数据输入至密连接神经网络中，得到局部语音特征；将所述局部语音特征输入至长短期记忆网络中，通过所述长短期记忆网络对所述局部语音特征进行上下文本聚合，得到全局语音特征；将所述局部语音特征和所述全局语音特征输入至高速神经网络中，得到目标语音特征；对所述目标语音特征输入至softmax层中进行归一化计算，得到每个目标语音特征的情绪标签预测值；根据所述每个目标语音特征的情绪标签预测值和每个目标语音特征的情绪标签真实值，计算每个目标语音特征对应的均方差损失值，并根据每个目标语音特征对应的均方差损失值进行情绪识别，得到所述待识别语音数据的情绪识别结果。4.如权利要求3所述的语音情绪识别方法，其特征在于，所述将所述待识别语音数据输入至密连接神经网络中，得到局部语音特征包括：将所述待识别语音数据输入至所述第一密集块中，得到第一语音特征；将所述第一语音特征输入至所述第一传递层，在所述第一传递层中对所述第一语音特征进行批量归一化处理，将批量归一化处理后的第一语音特征输入至所述卷积层中进行卷积计算，并将卷积计算得到的第一语音特征输入至所述平均池化层中，提取最大的第一语音特征输入至所述第二密集块中，得到第二语音特征；将所述第二语音特征输入至所述第二传递层，在所述第二传递层中对所述第二语音特征进行批量归一化处理，将批量归一化处理后的第二语音特征输入至所述卷积层中进行卷积计算，并将卷积计算得到的第二语音特征输入至所述平均池化层中，提取最大的第二语音特征输入至所述第三密集块中，得到第三语音特征；
合并所述第一语音特征、所述第二语音特征及所述第三语音特征，得到局部语音特征。5.如权利要求1所述的语音情绪识别方法，其特征在于，所述对所述小样本数据集进行语音数据扩充，得到目标小样本数据集包括：从每个所述小样本数据集中的识别出每个语音数据的语速、语调及噪音；对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强，得到第一小样本数据集；将第一小样本数据集与所述小样本数据集进行融合，得到第二小样本数据集；在所述第二小样本数据集中随机添加高斯白噪声，得到第三小样本数据集；提取每个所述第三小样本数据集中的语音特征集，根据所述语音特征集生成连续时间的频谱图，对所述频谱图进行时频域掩膜，得到目标小样本数据集。6.如权利要求5所述的语音情绪识别方法，其特征在于，所述对每个所述小样本数据集中的每个语音数据的语速、语调及噪音分别进行语音数据增强，得到第一小样本数据集包括：对每个所述小样本数据集中的每个语音数据的语速乘以预设的语速增强阈值，得到新语速对应的每个所述小样本数据集中的每个语音数据；对每个所述小样本数据集中的每个语音数据的语调乘以预设的语调增强阈值，得到新语调对应的每个所述小样本数据集中的每个语音数据；对每个所述小样本数据集中的每个语音数据的噪音乘以预设的噪音增强阈值，得到新噪音对应的每个所述小样本数据集中的每个语音数据；合并所述新语速、新语调及新噪音对应的每个所述小样本数据集中的每个语音数据，得到第一小样本数据集。7.如权利要求1所述的语音情绪识别方法，其特征在于，所述根据所述目标样本数据集训练语音情绪识别模型包括：将所述目标样本数据集输入至语音情绪识别模型中进行训练，得到每个语音特征的情绪标签预测值；根据所述每个语音特征的情绪标签预测值和每个语音特征的情绪标签真实值，计算均方差损失值，并根据所述均方差损失值更新所述语音情绪识别模型中的模型参数，训练所述更新后的语音情绪识别模型。8.一种语音情绪识别装置，其特征在于，所述装置包括：第一获取模块，用于从预设的多个语音情绪语料库中获取语音样本数据集，其中，所述语音样本数据集中包括大样本数据集和小样本数据集；数据扩充模块，用于对所述小样本数据集进行语音数据扩充，得到目标小样本数据集；融合模块，用于将所述大样本数据集和所述目标小样本数据集进行融合，得到目标样本数据集；训练模块，用于根据所述目标样本数据集训练语音情绪识别模型；第二获取模块，用于获取待识别语音数据；输入模块，用于将所述待识别语音数据输入至训练好的语音情绪识别模型中，得到所述待识别语音数据的情绪识别结果。9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执
行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的语音情绪识别方法。10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的语音情绪识别方法。

技术总结
本发明涉及人工智能技术领域，提供一种语音情绪识别方法、装置、电子设备及存储介质，所述方法包括：对小样本数据集进行语音数据扩充，得到目标小样本数据集；将大样本数据集和目标小样本数据集进行融合，得到目标样本数据集；根据目标样本数据集训练构建好的语音情绪识别模型；获取待识别语音数据；将待识别语音数据输入至训练好的语音情绪识别模型中，得到待识别语音数据的情绪识别结果。本发明通过对小样本数据集进行语音数据扩充，扩充了小样本数据集的数据分布，增强了模型中的神经网络的鲁棒性，提高了语音情绪识别模型的泛化能力及情绪识别的准确率。情绪识别的准确率。情绪识别的准确率。

技术研发人员：张之勇王健宗
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2021.06.30
技术公布日：2021/9/17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别处理方法、装置、电子设备及存储介质与流程

语音情绪识别方法、装置、电子设备及存储介质与流程

相关文章

最热文献