农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

基于多条路径积分的语音情感识别方法、系统、设备及介质与流程

2021-06-22 17:08:00 来源：中国专利 TAG：语音介质多条路径信号处理

本发明涉及一种基于多条路径积分的语音情感识别方法、系统、设备及介质，属于语音信号处理和模式识别的技术领域。

背景技术：

情感是人类区别于机器的独特特征之一，随着人工智能技术的不断发展，如何让机器能感知人的情绪吸引了越来越多研究者的关注，在人机交互领域有着十分广泛的应用。相比图像而言，语音是人与人之间交流最直接的方式，包含了说话人的语调、语气等信息，能很好地反映出情感特征，因此语音情感识别技术是情感识别领域非常热门的研究方向。在人机交互方面，语音情感识别也有十分广泛的应用，尤其是在教育、医疗等领域已经有了一些实际应用。然而，如何准确地识别语音情感仍然是一个有挑战性的任务，现有的研究大部分将研究方向集中在构建更复杂的神经网络或提取新型特征上，导致网络越来越复杂，计算量越来越大。yao等人提出了一个集合了深度神经网络(dnn)，卷积神经网络(cnn)和递归神经网络(rnn)的网络框架，采用了低层次特征、中层次频谱图特征和高层次统计方法特征多种特征，网络复杂，计算量大。wang等人首次将路径积分引入到语音情感识别任务中，通过一种基于树状的卷积神经网络提取全局和局部路径积分特征，然而需通过二元路径树积分提取结构信息，网络结构较为复杂。

技术实现要素：

有鉴于此，本发明提供了一种基于多条路径积分的语音情感识别方法、系统、设备及介质，其使用普通的语音特征和一种简单的网络架构将路径积分应用在语音情感识别中，能够解决现有语音情感识别方法网络复杂、计算量大、识别准确率不高的技术问题。

本发明的第一个目的在于提供一种基于多条路径积分的语音情感识别方法。

本发明的第二个目的在于提供一种基于多条路径积分的语音情感识别系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于多条路径积分的语音情感识别方法，所述方法包括：

搭建基于多条路径积分的语音情感识别网络；

获取语音情感数据集，并提取语音情感数据集中的语音片段特征；

利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；

调用训练好的语音情感识别网络模型，实现语音情感识别。

进一步的，所述语音情感识别网络包括高层特征提取模块、路径积分模块和情感识别模块；

所述高层特征提取模块，用于对输入的原始语音片段特征进行处理，提取不同高层特征；

所述路径积分模块，用于将提取的不同高层特征和原始语音片段特征分别进行截断路径积分，得到相应的路径积分特征值，并将得到的路径积分特征值进行拼接；

所述情感识别模块，用于对输入的拼接后的路径积分特征值进行情感预测，输出情感预测结果。

进一步的，所述利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型，具体包括：

初始化高层特征提取模块和情感识别模块的网络权值；

将语音情感数据集划分为训练集和测试集，加载训练集和测试集对应的数据特征；

设置学习率、学习率衰减策略以及每一次训练迭代输入的语音片段特征数量；

选用优化器，利用训练集对语音情感识别网络进行训练，取在测试集上准确率最高的语音情感识别网络作为语音情感识别网络模型。

进一步的，所述高层特征提取模块采用机器学习方法、卷积神经网络、循环神经网络和长短期记忆网络中的至少两种对输入的原始语音片段特征进行处理，提取不同高层特征。

进一步的，所述高层特征包括维度间相关信息以及时间相关信息。

进一步的，所述情感识别模块采用机器学习方法或深度神经网络对输入的拼接后的路径积分特征值进行情感预测，输出情感预测结果。

进一步的，所述提取语音情感数据集中的语音片段特征，具体为：

对语音情感数据集中的语音片段进行分帧操作，提取语音片段特征，所述语音片段特征包括mfcc、fbank和语谱图。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于多条路径积分的语音情感识别系统，所述系统包括：

搭建单元，用于搭建基于多条路径积分的语音情感识别网络；

获取单元，用于获取语音情感数据集，并提取语音情感数据集中的语音片段特征；

训练单元，用于利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；

识别单元，用于调用训练好的语音情感识别网络模型，实现语音情感识别。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的语音情感识别方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的语音情感识别方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明通过搭建基于多条路径积分的语音情感识别网络，在语音情感识别网络中引入路径积分方法，在利用语音情感数据集对语音情感识别网络进行训练时，无需增加训练参数，能有效降低计算量，调用训练好的语音情感识别网络模型实现语音情感识别，可以提升语音情感识别准确率。

2、本发明的语音情感识别网络中，利用高层特征提取方法提取高层特征进行路径积分，能有效减少进行路径积分的特征维度，降低路径积分计算时的截断阶数，从而减少计算量，实现快速识别语音情感。

3、本发明的语音情感识别网络中，将语音流中每一帧的原始特征与提取的高层特征在时间上的分布视为不同的路径，进行路径积分计算，结合多条路径的路径积分进行语音情感识别，实现准确率更高的识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的基于多条路径积分的语音情感识别方法的流程图。

图2为本发明实施例1的语音情感识别网络的原理图。

图3为本发明实施例1的高层特征提取模块的原理图。

图4为本发明实施例1的情感识别模块的原理图。

图5为本发明实施例2的基于多条路径积分的语音情感识别系统的结构框图。

图6为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例1：

如图1所示，本实施例提供了一种基于多条路径积分的语音情感识别方法，该方法包括以下步骤：

s101、搭建基于多条路径积分的语音情感识别网络。

本实施例采用的识别网络为基于多条路径积分的语音情感识别网络，该语音情感识别网络如图2所示，包括高层特征提取模块、路径积分模块和情感识别模块。

高层特征提取模块的输入为原始语音片段特征，用于对输入的原始语音片段特征进行处理，提取不同高层特征，具体可以采用机器学习方法、卷积神经网络、循环神经网络和长短期记忆网络等中的至少两种对输入的原始语音片段特征进行处理，提取不同高层特征；其中，语音片段特征包括但不限于mfcc(mel-frequencycepstralcoefficients，梅尔倒谱系数特征)、fbank、语谱图等，高层特征包括维度间相关信息以及时间相关等信息。

进一步地，高层特征提取模块输入为提取的语音片段39维mfcc特征，使用不同方法对输入特征进行处理提取高层特征；在本实施例中，使用两种提取高层特征方法，具体如图3所示，包括一个三个1*1卷积层组，三个卷积层组的神经元数分别为128、128、8，以及一个隐藏层神经元个数为八个的长短期记忆网络(longshort-termmemory，简称lstm)，各提取包含维度间相关及时间相关等信息的8维高层特征。

路径积分模块在高层特征提取模块之后，用于将提取的不同高层特征和原始语音片段特征分别进行截断路径积分，得到相应的路径积分特征值，并将得到的路径积分特征值进行拼接。

进一步地，路径积分模块将1*1卷积层组和长短期记忆网络提取的两种不同高层特征和原始mfcc特征当做三条路径，分别进行2阶截断路径积分，得到相应的路径积分特征值，再将三条路径得到的路径积分特征值进行拼接，由于路径积分模块不包含训练参数，能有效降低计算量。

情感识别模块的输入为拼接后的路径积分特征值，用于对输入的路径积分特征值进行情感预测，输出情感预测结果，包括分类和回归模式，具体可以采用支持向量机(supportvectormachine，简称svm)、随机森林等机器学习方法或深度神经网络等对输入的拼接后的路径积分特征值进行情感预测，输出情感预测结果。

进一步地，情感识别模块的具体实现如图4所示，由三个全连接层以及softmax层组成，神经元数分别为256、128、4，最后一个全连接层的神经元数量为所预测的情感类别数n，在本实施例中为4。

s102、获取语音情感数据集，并提取语音情感数据集中的语音片段特征。

本实施例的语音情感数据集采用了iemocap语料库，采用了四分类实验，利用到的语音情感分别为生气、悲伤、高兴以及中性。iemocap语料库由五个对话组成，每个对话由一个男性讲话者和一个女性讲话者对话组成，总共有十个讲话者；该iemocap语料库中的语音数据分为自发性语音数据和模拟性语音数据，本实施例中只采用了自发性语音数据，可靠性较高。

在获取语音情感数据后，对语音情感数据集中的语音片段进行分帧操作，提取语音片段特征，具体为：采用25ms的帧长和10ms的帧移对语音段进行分帧操作，每一帧的mfcc特征为39维，包括13维mfcc系数，然后计算一阶差分和二阶差分，合并后作为总的特征。

s103、利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型。

该步骤s103包括网络初始化、加载训练数据、设置训练参数和训练优化这四个过程，这四个过程的具体说明如下：

s1031、网络初始化：初始化高层特征提取模块和情感识别模块的网络权值；具体地，将高层特征提取模块中的卷积层组和长短期记忆网络，以及情感识别模块中的全连接层组的网络权值均随机初始化。

s1032、加载训练数据：将语音情感数据集划分为训练集和测试集，加载训练集和测试集对应的数据特征；具体地，根据不同会话将语音情感数据集划分为多个子集，每个对话构成一个子集，其中部分子集作为训练集，剩余子集作为测试集，在训练阶段只输入训练集，使用测试集进行测试，加载训练集和测试集的每个子集对应的数据特征。

在实验时，可以进行五次实验，五次实验采用的模型架构都是相同的，每次实验中，分别用四个子集作为训练集，剩余一个子集作为测试集，利用训练集对语音情感识别网络进行训练，训练后利用测试集进行测试，得到测试结果，将五次实验的测试集测试结果平均值作为最终实验结果，通过将该实验结果与其他方法的实验结果进行对比，以证明本实施例方法的有效性；在实际应用时，划分训练集和测试集后，则直接执行步骤s1033。

s1033、设置训练参数：设置学习率、学习率衰减策略以及每一次训练迭代输入的语音片段特征数量；其中，学习率设置为0.001，学习率衰减策略设置为每一次训练迭代后将学习率减小为原来的95％，每一次训练迭代输入的语音片段特征数量设置为32。

s1034、训练优化：选用adam优化器，利用训练集对语音情感识别网络进行训练，取在测试集上准确率最高的语音情感识别网络作为语音情感识别网络模型。

s104、调用训练好的语音情感识别网络模型，实现语音情感识别。

可以理解，上述步骤s101～s103为离线阶段，即训练阶段，而步骤s104为在线阶段，即应用阶段。可以理解，上述步骤s101～s103在一台计算机设备(如计算机等)完成，可以在该计算机设备上进入步骤s104的应用阶段，也可以将该台计算机设备训练好的语音情感识别网络模型植入其他的计算机设备(如手机、平板电脑等移动设备，或是内存较小的设备)，在其他的计算机设备上进入步骤s104的应用阶段。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读取存储介质中。

实施例2：

如图5所示，本实施例提供了一种基于多条路径积分的语音情感识别系统，该系统包括搭建单元501、获取单元502、训练单元503和识别单元504，各个单元的具体功能如下：

搭建单元501，用于搭建基于多条路径积分的语音情感识别网络。

获取单元502，用于获取语音情感数据集，并提取语音情感数据集中的语音片段特征。

训练单元503，用于利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型。

识别单元504，用于调用训练好的语音情感识别网络模型，实现语音情感识别。

本实施例中各个单元的具体实现可以参见上述实施例1，在此不再一一赘述；需要说明的是，本实施例提供的系统仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配给不同的功能单元完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例3：

如图6所示，本实施例提供了一种计算机设备，该计算机设备可以是计算机、服务器等，包括通过系统总线601连接的处理器602、存储器、输入装置603、显示器604和网络接口605。其中，处理器602用于提供计算和控制能力，存储器包括非易失性存储介质606和内存储器607，该非易失性存储介质606存储有操作系统、计算机程序和数据库，该内存储器607为非易失性存储介质606中的操作系统和计算机程序的运行提供环境，计算机程序被处理器602执行时，实现上述实施例1的语音情感识别方法，如下：

搭建基于多条路径积分的语音情感识别网络；

获取语音情感数据集，并提取语音情感数据集中的语音片段特征；

利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；

调用训练好的语音情感识别网络模型，实现语音情感识别。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，计算机程序被处理器执行时，实现上述实施例1的语音情感识别方法，如下：

搭建基于多条路径积分的语音情感识别网络；

获取语音情感数据集，并提取语音情感数据集中的语音片段特征；

利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；

调用训练好的语音情感识别网络模型，实现语音情感识别。

需要说明的是，本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。

上述计算机可读存储介质可以是计算设备中所包含的；也可以是单独存在，而未装配入该计算设备中。可以以一种或多种程序设计语言或其组合来编写用于执行本实施例的操作的计算机程序，上述程序设计语言包括面向对象的程序设计语言—诸如java、python、c ，还包括常规的过程式程序设计语言—诸如c语言或类似的程序设计语言。程序可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照上述各个实施例的方法、系统和计算机设备的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，该模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。描述于上述实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，上述实施例中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与上述实施例公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

综上所述，本发明实现了一种基于多条路径积分的语音情感识别方法、系统、计算机设备及存储介质，通过不同特征提取方法从原始语音片段特征中提取高层特征，与原始语音片段特征共同进行路径积分，降低网络复杂度，提高语音情感识别的准确率；特别地，本发明的高层特征提取方法采用了卷积神经网络层组和长短期记忆网络两种方法；此外，本发明的路径积分模块不含有需要训练的网络参数。

本领域技术人员应当理解，本发明不限于上述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种在采集音频过程中优化音频信号的方法与流程

基于多条路径积分的语音情感识别方法、系统、设备及介质与流程

相关文章

最热文献