语音情绪识别的方法、装置以及存储介质与流程

2022-02-24 12:11:50 来源：中国专利 TAG：

1.本技术涉及情绪识别技术领域，特别是涉及一种语音情绪识别的方法、装置以及存储介质。

背景技术：

2.在消费金融场景中，每天都会有非常多的热线、回访、催收等业务在客服呼叫中心中处理。客服代表着公司的形象，提升客服服务质量，对客服服务态度进行有效监管十分重要。此外，对客户在对话中的情绪状态进行实时反馈也是提升服务质量的关键。传统上对客服、客户对话情绪进行反馈的方法通常为人工抽检，费时费力且成本高昂。因此，目前消费金融领域中亟需一种可在语音对话中实时准确的获取客服、客户情绪状态的系统。
3.在目前的金融领域客服对话场景中，在进行情绪分类时，可将客户及坐席的情绪分为3种情绪(正向、中性、负向)，其中正向和中性由于语音情绪的相似性，加上容易受到电话信道噪声、方言等因素影响，语音情绪识别的准确率较低，且识别速度较低，难以满足实时性需求，极大的增加了金融客服场景的情绪识别难度。
4.针对上述的现有技术中存在的现有的语音情绪识别方法的准确率低以及识别效率低的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本公开的实施例提供了一种语音情绪识别的方法、装置以及存储介质，以至少解决现有技术中存在的现有的语音情绪识别方法的准确率低以及识别效率低的技术问题。
6.根据本公开实施例的一个方面，提供了一种语音情绪识别的方法，包括：获取与待识别情绪的目标对象相关的语音信息；以及利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别，其中识别模型包括残差网络和门控循环单元。
7.根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。
8.根据本公开实施例的另一个方面，还提供了一种语音情绪识别的装置，包括：获取模块，用于获取与待识别情绪的目标对象相关的语音信息；以及情绪识别模块，用于利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别，其中识别模型包括残差网络和门控循环单元。
9.根据本公开实施例的另一个方面，还提供了一种语音情绪识别的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取与待识别情绪的目标对象相关的语音信息；以及利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别，其中识别模型包括残差网络和门控循环单元。
10.在本公开实施例中，为提升情绪特征分类能力并提升情绪识别效率，使用残差网络(resnet网络)对与语音信息对应的特征进行映射。该残差网络具有参数量小、网络深度深以及特征映射能力强的特点。参数量小使得特征处理速度变快，网络深度深使得网络所
具有的特征映射能力大幅提升，对后续情绪识别准确率提升起到关键作用。并且，在resnet网络后接入门控循环单元(bigru)，将残差网络的输出送入门控循环单元(bigru)，对时序信息进行编码处理，有效结合语音情绪的时序信息，有效降低了网络参数，提升语音情绪识别效率且不影响识别准确率。从而，本实施例通过利用包括残差网络和门控循环单元的识别模型进行目标对象的语音情绪识别，有效提升了识别模型的特征映射能力与序列处理能力，达到了提升情绪识别准确率以及语音情绪识别效率的技术效果。进而解决了现有技术中存在的现有的语音情绪识别方法的准确率低以及识别效率低的技术问题。
附图说明
11.此处所说明的附图用来提供对本公开的进一步理解，构成本技术的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：
12.图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；
13.图2是根据本公开实施例1的第一个方面所述的语音情绪识别的方法的流程示意图；
14.图3是根据本公开实施例1所述的识别模型的结构示意图；
15.图4是根据本公开实施例2所述的语音情绪识别的装置的示意图；以及
16.图5是根据本公开实施例3所述的语音情绪识别的装置的示意图。
具体实施方式
17.为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
18.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
19.首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：
20.mel-spectrogram：梅尔频谱图，一种在语音情绪识别，语音识别，声纹识别，语音合成中广泛使用的特征。首先对对音频信号预加重、分帧和加窗，随后对每帧信号进行短时傅立叶变换stft，得到短时幅度谱，最后短时幅度谱通过mel滤波器组得到梅尔频谱图；
21.resnet：残差网络，深度学习卷积神经网络的一种，为2015年图像识别大赛imagenet比赛的冠军模型。模型最突出的特点就是动态路由层的引入，不仅使得网路层数变深且可训练，还使得网络参数大幅减少，提升了网络性能的同时有效提升了网络效率。针
对业务场景，可进行相关网络设计；
22.bigru：门控循环单元，是对双向lstm网络的改进，其改进了lstm的三个门的机制，变为两个门update和reset，有效减小了参数量。其参数更少因此更容易收敛，且在应用时有效提升了网络运行速度；
23.attention(注意力机制)：一种模拟人类视觉，听觉关注重点信息、适当忽略非重要信息的方法机制。可将经过循环神经网络后的序列信息进行序列对齐操作，在对齐的过程中还可以对不同序列信息分配不同的权重，表征不同的关注能力。
24.实施例1
25.根据本实施例，提供了一种语音情绪识别的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
26.本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现语音情绪识别的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
27.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
28.存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的语音情绪识别的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的语音情绪识别的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
29.传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
30.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
31.此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。
32.在上述运行环境下，根据本实施例的第一个方面，提供了一种语音情绪识别的方法，该方法可以应用到机器人客服系统中，用于识别客户在沟通过程中的情绪。图2示出了该方法的流程示意图，参考图2所示，该方法包括：
33.s202：获取与待识别情绪的目标对象相关的语音信息；以及
34.s204：利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别，其中识别模型包括残差网络和门控循环单元。
35.正如背景技术中所述的，在目前的金融领域客服对话场景中，在进行情绪分类时，可将客户及坐席的情绪分为3种情绪(正向、中性、负向)，其中正向和中性由于语音情绪的相似性，加上容易受到电话信道噪声、方言等因素影响，语音情绪识别的准确率较低，且识别速度较低，难以满足实时性需求，极大的增加了金融客服场景的情绪识别难度。
36.针对背景技术中存在的技术问题，本实施例所提供的语音情绪识别的方法首先获取与待识别情绪的目标对象相关的语音信息，然后利用预设的识别模型对所述语音信息进行情绪识别，确定所述目标对象的情绪类别。其中，该语音信息可以为融领域客服对话场景中产生的语音信息，待识别情绪的目标对象可以为客服或者客户，识别模型包括残差网络和门控循环单元。
37.具体地，在本实施中，为提升情绪特征分类能力并提升情绪识别效率，使用残差网络(resnet网络)对与语音信息对应的特征进行映射。该残差网络具有参数量小、网络深度深以及特征映射能力强的特点。参数量小使得特征处理速度变快，网络深度深使得网络所具有的特征映射能力大幅提升，对后续情绪识别准确率提升起到关键作用。并且，在resnet网络后接入门控循环单元(bigru)，将残差网络的输出送入门控循环单元(bigru)，对时序信息进行编码处理，有效结合语音情绪的时序信息，有效降低了网络参数，提升语音情绪识别效率且不影响识别准确率。从而，本实施例通过利用包括残差网络和门控循环单元的识别模型进行目标对象的语音情绪识别，有效提升了识别模型的特征映射能力与序列处理能力，达到了提升情绪识别准确率以及语音情绪识别效率的技术效果。进而解决了现有技术中存在的现有的语音情绪识别方法的准确率低以及识别效率低的技术问题。
38.可选地，识别模型还包括特征提取网络和分类器，并且利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别的操作，包括：利用特征提取网络对语音信息进行特征提取，生成梅尔频谱图特征、一阶差分特征和二阶差分特征；利用残差网络对梅尔频谱图特征、一阶差分特征和二阶差分特征进行特征映射，生成序列特征；利用门控循环单元，对序列特征进行编码处理；以及将编码处理后的序列特征输入分类器，根据分类器的输出结果确定目标对象的情绪类别。
39.具体地，参照图3所示，识别模型不仅包括残差网络和门控循环单元，还包括特征提取网络和分类器。由于金融场景的客户与客服对话短时且金融语音特征词较多，在本实施例中，利用特征提取网络对语音信息进行特征提取，不仅生成梅尔频谱图特征，还加入了一阶差分特征和二阶差分特征作为深度学习分类网络(残差网络)的输入，然后使用特征提
取能力强和参数量小的残差网络(resnet网络)对特征进行映射，下表1示例性的示出了resnet网络的网络结构。随后将残差网络输出的序列特征送入门控循环单元(bigru)，对时序信息进行编码处理，有效结合语音情绪的时序信息，最后将经过门控循环单元(bigru)的序列特征送入分类器进行情绪分类。
40.从而，通过在梅尔频谱图特征的基础上引入了一阶差分特征与二阶差分特征，一阶差分与二阶差分特征的加入，有效结合了金融场景的客户与客服对话短时且金融语音特征词较多的特点，使得在特定金融对话场景下的准确性能提升。使用特征提取能力强和参数量小的resnet网络对特征进行映射，使得特征处理速度变快，网络所具有的特征映射能力大幅提升，对后续情绪识别准确率提升起到关键作用。使用门控循环单元(bigru)对时序信息进行编码处理，有效结合语音情绪的时序信息，有效降低了网络参数，提升识别效率。
41.表1
[0042][0043]
可选地，识别模型还包括注意力机制层和全连接层，并且将编码处理后的序列特征输入分类器的操作之前，还包括：将编码处理后的序列特征输入注意力机制层进行序列对齐；以及将序列对齐后的序列特征输入全连接层。
[0044]
具体地，参照图3所示，识别模型还包括注意力机制层和全连接层。在本实施例中，还需要将经过bigru进行编码处理后的序列特征送入注意力机制层进行序列对齐，然后将序列对齐后的序列特征输入全连接层，最后送入分类器(例如，softmax分类器)。此外，在进行序列对齐的过程中还可以对不同序列信息分配不同的权重，表征不同的关注能力。
[0045]
可选地，获取与待识别情绪的目标对象相关的语音信息的操作，包括：获取坐席与目标对象之间的对话录音信息；以及对对话录音信息进行声道分离，将单声道的录音信息确定为与待识别情绪的目标对象相关的语音信息。
[0046]
具体地，可以获取客服(坐席)与用户的对话录音，声道分离，分离出客服与用户声道。在待识别情绪的目标对象为客服的情况下，将客服声道的录音信息确定为与待识别情绪的目标对象相关的语音信息。在待识别情绪的目标对象为客户的情况下，将客户声道的录音信息确定为与待识别情绪的目标对象相关的语音信息。通过这种方式，可以准确的获
取到与待识别情绪的目标对象相关的语音信息。
[0047]
可选地，还包括通过以下操作对识别模型进行训练：获取多个样本对话录音数据，其中样本对话录音数据中包含坐席录音数据和用户录音数据；构建识别模型，其中识别模型包括特征提取网络、残差网络、门控循环单元、注意力机制层和分类器；利用识别模型，分别输出多个样本对话录音数据中包含的对象的情绪类别；以及将所输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较，并且根据比较的结果调节识别模型，其中标注情绪类别用于指示样本对话录音数据中包含的对象的实际情绪类别。
[0048]
具体地，将完成情绪类别标注的一千小时金融客服录音数据通过加噪声、加快语速以及增加数据扰动等方式进行数据扩增，生成样本对话录音数据。进一步地，将样本对话录音数据按照训练集与测试集为7:3的比例进行数据划分，其中充分考虑说话人信息，做到训练集与测试集的说话人语音分开。随后分别对训练集中每通语音文件提取梅尔频谱图特征特征和一阶差分特征与二阶差分特征，每个语音形成三通道特征图，存入特征文件。
[0049]
进一步地，在对识别模型进行训练的过程中，分批次读取待训练特征文件，形成data-label的特征数据组合。然后分批次将上述特征组合馈入所设计resnet网络与bigru网络，通过attention机制对齐语音帧级特征。将经过attention的帧级特征送入softmax分类器，以此完成分类网络前向传播过程。最后将softmax分类器输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较，并且根据比较的结果调节识别模型，其中标注情绪类别用于指示样本对话录音数据中包含的对象的实际情绪类别。
[0050]
可选地，将所输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较的操作，包括：计算所输出的情绪类别与标注情绪类别之间的交叉熵损失函数的值，以及根据比较的结果调节识别模型的操作，包括：根据交叉熵损失函数的值，对识别模型进行调节。从而，根据根据交叉熵损失函数的值对识别模型进行反向传播训练，至损失收敛，保存该识别模型，完成了识别模型的调节。
[0051]
此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。
[0052]
此外，本发明主要分为三个阶段，整体流程如下：
[0053]
一、声谱图特征提取阶段
[0054]
1)将完成情绪标注的一千小时金融客服录音数据通过加噪声，加快语速，增加数据扰动等方式进行数据扩增。
[0055]
2)将数据按照训练集与测试集为7:3的比例进行数据划分，其中充分考虑说话人信息，做到训练集与测试集的说话人语音分开。随后分别对训练集中每通语音文件提取mel-spectrogram特征和一阶差分特征与二阶差分特征，每个语音形成三通道特征图，存入特征文件。
[0056]
二、语音情绪识别分类模型训练阶段
[0057]
1)分批次读取待训练特征文件，形成data-label的特征数据组合。
[0058]
2)分批次将上述特征组合馈入所设计resnet与bigru网络序列分类网络，通过attention机制对齐语音帧级特征。将经过attention的帧级特征送入softmax分类器，以此完成分类网络前向传播过程。随后根据交叉熵loss进行反向传播训练，至损失收敛，保存模型。
[0059]
三、语音情绪识别分类模型识别阶段
[0060]
1)获取客服与用户的对话录音，声道分离，分离出客服与用户声道。
[0061]
2)分别对客服与客户声道录音提取特征，包括mel-spectrogram特征和一阶差分特征与二阶差分特征，将所得特征送入所训练网络，调用模型，进行情绪分类。
[0062]
其中，本发明的关键点有：
[0063]
(1)结合金融客服对话场景特定金融语音特征词较多的特点，将mel-spectrogram特征和一阶差分特征与二阶差分特征相结合，形成三维特征，特征覆盖能力增强，有利于深度学习分类网络进行分类学习；
[0064]
(2)对resnet网络进行设计，设计了resblock块，在金融客服对话场景下形成了对应深度学习特征映射网络。该网络具有参数量小，网络深度深，特征映射能力强的特点。参数量小使得特征处理速度变快，网络深度深使得网络所具有的特征映射能力大幅提升，对后续情绪识别准确率提升起到关键作用；
[0065]
(3)在所设计resnet网络后接入双向bigru网络，对时序信息进行编码处理，有效结合语音情绪时序信息的同时，相较于接入bilstm，有效降低了网络参数量，加快网络运行速度而又不对网络准确率产生较大影响。
[0066]
相比于现有技术，本发明在mel-spectrogram特征的基础上引入了一阶差分特征与二阶差分特征，一阶差分特征与二阶差分特征的加入，有效结合了金融场景的客户与客服对话短时且金融语音特征词较多的特点，使得在特定金融对话场景下的准确性能提升。并且，本发明在特定金融对话场景下的情绪识别中，设计了resnet网络结构进行特征映射，并在resnet网络后层加入bigru网络进行序列特征处理，有效提高了金融对话场景下的识别准确性能和识别效率。
[0067]
综上所述，在本发明中，在金融对话场景语音情绪识别任务中，可以产生以下效果：
[0068]
1、所设计的mel-spectrogram特征和一阶差分特征与二阶差分特征相结合的融合特征，有效结合了金融场景对话中客户与客服对话短时且金融语音特征词较多的特点，有效提升场景特征覆盖能力。
[0069]
2、所设计的resnet特征映射网络可对语音数据进行情绪特征映射，提升金融对话场景语音情绪识别准确性能与模型运行效率。此外，该识别模型还可以在语音性别识别，声纹识别等声音分类相关需求场景产生效用。
[0070]
3、在所设计的resnet网络后接入双向bigru序列网络，提升语音序列特征处理能力，相比于接入bilstm序列网络，有效降低了网络参数量，提升整体网络运行效率。
[0071]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0072]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有
技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0073]
实施例2
[0074]
图4示出了根据本实施例所述的语音情绪识别的装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：获取模块410，用于获取与待识别情绪的目标对象相关的语音信息；以及情绪识别模块420，用于利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别，其中识别模型包括残差网络和门控循环单元。
[0075]
可选地，识别模型还包括特征提取网络和分类器，并且情绪识别模块420包括：第一生成子模块，用于利用特征提取网络对语音信息进行特征提取，生成梅尔频谱图特征、一阶差分特征和二阶差分特征；第二生成子模块，用于利用残差网络对梅尔频谱图特征、一阶差分特征和二阶差分特征进行特征映射，生成序列特征；编码处理子模块，用于利用门控循环单元，对序列特征进行编码处理；以及确定子模块，用于将编码处理后的序列特征输入分类器，根据分类器的输出结果确定目标对象的情绪类别。
[0076]
可选地，识别模型还包括注意力机制层和全连接层，并且情绪识别模块420还包括序列对齐子模块，用于在编码处理子模块将编码处理后的序列特征输入分类器的操作之前，将编码处理后的序列特征输入注意力机制层进行序列对齐；以及全连接模块，用于将序列对齐后的序列特征输入全连接层。
[0077]
可选地，获取模块410包括：获取子模块，用于获取坐席与目标对象之间的对话录音信息；以及语音信息确定子模块，用于对对话录音信息进行声道分离，将单声道的录音信息确定为与待识别情绪的目标对象相关的语音信息。
[0078]
可选地，装置400还包括训练模块，用于通过以下操作对识别模型进行训练：获取多个样本对话录音数据，其中样本对话录音数据中包含坐席录音数据和用户录音数据；构建识别模型，其中识别模型包括特征提取网络、残差网络、门控循环单元、注意力机制层和分类器；
[0079]
利用识别模型，分别输出多个样本对话录音数据中包含的对象的情绪类别；以及将所输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较，并且根据比较的结果调节识别模型，其中标注情绪类别用于指示样本对话录音数据中包含的对象的实际情绪类别。
[0080]
可选地，将所输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较的操作，包括：计算所输出的情绪类别与标注情绪类别之间的交叉熵损失函数的值，以及根据比较的结果调节识别模型的操作，包括：根据交叉熵损失函数的值，对识别模型进行调节。
[0081]
从而根据本实施例，为提升情绪特征分类能力并提升情绪识别效率，使用残差网络(resnet网络)对与语音信息对应的特征进行映射。该残差网络具有参数量小、网络深度深以及特征映射能力强的特点。参数量小使得特征处理速度变快，网络深度深使得网络所具有的特征映射能力大幅提升，对后续情绪识别准确率提升起到关键作用。并且，在resnet网络后接入门控循环单元(bigru)，将残差网络的输出送入门控循环单元(bigru)，对时序
信息进行编码处理，有效结合语音情绪的时序信息，有效降低了网络参数，提升语音情绪识别效率且不影响识别准确率。从而，本实施例通过利用包括残差网络和门控循环单元的识别模型进行目标对象的语音情绪识别，有效提升了识别模型的特征映射能力与序列处理能力，达到了提升情绪识别准确率以及语音情绪识别效率的技术效果。进而解决了现有技术中存在的现有的语音情绪识别方法的准确率低以及识别效率低的技术问题。
[0082]
实施例3
[0083]
图5示出了根据本实施例所述的语音情绪识别的装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：获取与待识别情绪的目标对象相关的语音信息；以及利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别，其中识别模型包括残差网络和门控循环单元。
[0084]
可选地，识别模型还包括特征提取网络和分类器，并且利用预设的识别模型对语音信息进行情绪识别，确定目标对象的情绪类别的操作，包括：利用特征提取网络对语音信息进行特征提取，生成梅尔频谱图特征、一阶差分特征和二阶差分特征；利用残差网络对梅尔频谱图特征、一阶差分特征和二阶差分特征进行特征映射，生成序列特征；利用门控循环单元，对序列特征进行编码处理；以及将编码处理后的序列特征输入分类器，根据分类器的输出结果确定目标对象的情绪类别。
[0085]
可选地，识别模型还包括注意力机制层和全连接层，并且存储器520还用于为处理器510提供处理以下处理步骤的指令：将编码处理后的序列特征输入分类器的操作之前，将编码处理后的序列特征输入注意力机制层进行序列对齐；以及将序列对齐后的序列特征输入全连接层。
[0086]
可选地，获取与待识别情绪的目标对象相关的语音信息的操作，包括：获取坐席与目标对象之间的对话录音信息；以及对对话录音信息进行声道分离，将单声道的录音信息确定为与待识别情绪的目标对象相关的语音信息。
[0087]
可选地，存储器520还用于为处理器510提供处理以下处理步骤的指令：通过以下操作对识别模型进行训练：获取多个样本对话录音数据，其中样本对话录音数据中包含坐席录音数据和用户录音数据；构建识别模型，其中识别模型包括特征提取网络、残差网络、门控循环单元、注意力机制层和分类器；利用识别模型，分别输出多个样本对话录音数据中包含的对象的情绪类别；以及将所输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较，并且根据比较的结果调节识别模型，其中标注情绪类别用于指示样本对话录音数据中包含的对象的实际情绪类别。
[0088]
可选地，将所输出的情绪类别与预先设置的与多个样本对话录音数据对应的标注情绪类别进行比较的操作，包括：计算所输出的情绪类别与标注情绪类别之间的交叉熵损失函数的值，以及根据比较的结果调节识别模型的操作，包括：根据交叉熵损失函数的值，对识别模型进行调节。
[0089]
从而根据本实施例，为提升情绪特征分类能力并提升情绪识别效率，使用残差网络(resnet网络)对与语音信息对应的特征进行映射。该残差网络具有参数量小、网络深度深以及特征映射能力强的特点。参数量小使得特征处理速度变快，网络深度深使得网络所具有的特征映射能力大幅提升，对后续情绪识别准确率提升起到关键作用。并且，在resnet
网络后接入门控循环单元(bigru)，将残差网络的输出送入门控循环单元(bigru)，对时序信息进行编码处理，有效结合语音情绪的时序信息，有效降低了网络参数，提升语音情绪识别效率且不影响识别准确率。从而，本实施例通过利用包括残差网络和门控循环单元的识别模型进行目标对象的语音情绪识别，有效提升了识别模型的特征映射能力与序列处理能力，达到了提升情绪识别准确率以及语音情绪识别效率的技术效果。进而解决了现有技术中存在的现有的语音情绪识别方法的准确率低以及识别效率低的技术问题。
[0090]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0091]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0092]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0093]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0094]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0095]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0096]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音情绪识别的方法、装置以及存储介质与流程

相关文献

最热文献