一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置

2022-12-13 23:24:57 来源：中国专利 TAG：

1.本发明涉及语音情感识别技术领域，尤其涉及一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置。

背景技术：

2.语音是人类最常见的交流形式，人工智能够从语音中学习情感信息和分析信息，因而变得越来越重要。从字面表达中获取信息也不能满足日益增长的要求，因为很大一部分的信息都是由人类的情感来传达的，从字面上获得的信息不一定能够满足人们的需求，例如一些短词可能与字面意思完全相反，所以促进了语音情感识别(ser)的发展，这一研究课题在工业界和学术界都引起了越来越大的兴趣。
3.现有的方法中，由于缺乏大型和自然的标记数据集，以及无法从语音信号中提取出最优的特征，因此导致识别性能欠佳。

技术实现要素：

4.本发明提供了一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置，用以解决或者至少部分解决现有技术中的方法存识别性能不佳的技术问题。
5.为了解决上述技术问题，本发明第一方面提供了一种基于注意力特征融合的多通道自编码器的语音情感识别方法，包括：
6.获取来自不同领域的语音数据和目标数据，其中，目标数据为与语音情感识别任务相关的数据；
7.构建语音情感识别模型，包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器，其中，域对抗多通道自编码器包括多通道自编码器和域对抗神经网络，多通道自编码器考虑不同特征之间的独立性和相关性，对输入的特征进行处理后，得到处理后的特征，域对抗神经网络用于消除处理后的特征中的非情感信息，得到第一特征；深度卷积神经网络用于从输入的数据中提取出第二特征，第一特征融合模块用于将第一特征和第二特征进行融合，得到融合后的特征，第二特征融合模块用于根据第一特征、第二特征和融合后的特征，得到融合结果，分类器用于根据融合结果，得到语音情感识别结果；
8.利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练；
9.将目标数据输入深度卷积神经网络，根据模型识别效果对构建语音情感识别模型进行微调，得到训练好的语音情感识别模型；
10.利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
11.在一种实施方式中，多通道自编码器通过多个局部分类器和全局分类器来对输入的特征进行处理，最后将所有的局部分类器和全局分类器的输出进行结合得到处理后的特征，其中局部分类器包括去噪编码器、瓶颈层、隐藏层和分类器层。
12.在一种实施方式中，域对抗神经网络包含情绪标签判别器、说话者域分类器和语料库域分类器，通过域对抗对处理后的特征施加约束，消除处理后的特征中的非情感性信息，获取更优的特征，作为第一特征。
13.在一种实施方式中，第二特征融合模块的处理过程包括：
14.分别对第一特征、第二特征和融合后的特征进行线性处理；
15.将线性处理后的第一特征、第二特征和融合后的特征通过点积注意力进行计算，得到计算结果；
16.将计算结果经过concat进行融合，得到融合结果。
17.在一种实施方式中，分类器采用双向长短期记忆网络分类器。
18.在一种实施方式中，利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练，包括：
19.从来自不同领域的语音数据中提取出梅尔倒频谱、线谱对和声音强度；
20.将提取出的特征输入多通道自编码器进行处理，得到处理后的特征，利用域对抗神经网络消除处理后的特征中的非情感信息，得到第一特征。
21.基于同样的发明构思，本发明第二方面提供了一种基于注意力特征融合的多通道自编码器的语音情感识别装置，包括：
22.数据获取模块，用于获取来自不同领域的语音数据和目标数据，其中，目标数据为与语音情感识别任务相关的数据；
23.模型构建模块，用于构建语音情感识别模型，包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器，其中，域对抗多通道自编码器包括多通道自编码器和域对抗神经网络，多通道自编码器考虑不同特征之间的独立性和相关性，对输入的特征进行处理后，得到处理后的特征，域对抗神经网络用于消除处理后的特征中的非情感信息，得到第一特征；深度卷积神经网络用于从输入的数据中提取出第二特征，第一特征融合模块用于将第一特征和第二特征进行融合，得到融合后的特征，第二特征融合模块用于根据第一特征、第二特征和融合后的特征，得到融合结果，分类器用于根据融合结果，得到语音情感识别结果；
24.预训练模块，用于利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练，
25.微调模块，用于将目标数据输入深度卷积神经网络，根据模型识别效果对构建语音情感识别模型进行微调，得到训练好的语音情感识别模型；
26.识别模块，用于利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
27.基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。
28.基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。
29.相对于现有技术，本发明的优点和有益的技术效果如下：
30.本发明提供的一种基于注意力特征融合的多通道自编码器的语音情感识别方法，
构建了构建语音情感识别模型，首先通过对语音情感识别(ser)模型进行预训练来学习额外的特征以解决数据集不足的问题，然后通过语音情感识别(ser)模型当中的多通道自编码器(mtc-ae)考虑不同特征之间的独立性和相关性以此提高特征的质量，然后在多通道自编码器(mtc-ae)处理后得到的特征r
l
，并附加上域对抗神经网络(dann)来消除特征r
l
当中的非情感性的信息，最后引入多头注意力(mha)来减少特征融合阶段期间的信息丢失，从而可以得到最优的特征，有效地提升了语音情感识别性能。
附图说明
31.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
32.图1为本发明实施例中基于注意力特征融合的多通道自编码器的语音情感识别方法的整体流程示意图；
33.图2为本发明实施例中多通道自编码器的特征提取过程示意图。
具体实施方式
34.本技术发明人通过大量的研究与实践发现：目前存在两个主要的问题限制了ser系统的识别能力，首先是缺乏大型和自然的标记数据集，因为记录和注释与情感相关的数据集是一件非常耗时的事情。其次就是如何从语音信号中提取出最优的特征。
35.因此，本发明主要关注如何处理缺乏数据集和如何从语音信号中提取出最优的特征。首先通过对语音情感识别(ser)模型进行预训练来学习额外的特征以解决数据集不足的问题，然后通过语音情感识别(ser)模型当中的多通道自编码器(mtc-ae)考虑不同特征之间的独立性和相关性以此提高特征的质量，然后在多通道自编码器(mtc-ae)处理后得到的特征r
l
之上附加上域对抗神经网络(dann)来消除特征征r
l
当中的非情感性的信息，最后引入多头注意力(mha)来减少特征融合阶段期间的信息丢失，可以提取出最优特征，因此有效的提升了语音情感识别性能。
36.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
37.实施例一
38.本发明实施例提供了一种基于注意力特征融合的多通道自编码器的语音情感识别方法，包括：
39.获取来自不同领域的语音数据和目标数据，其中，目标数据为与语音情感识别任务相关的数据；
40.构建语音情感识别模型，包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器，其中，域对抗多通道自编码器包括多通道自编码器和域对抗神经网络，多通道自编码器考虑不同特征之间的独立性和相关性，对输入的特
征进行处理后，得到处理后的特征，域对抗神经网络用于消除处理后的特征中的非情感信息，得到第一特征；深度卷积神经网络用于从输入的数据中提取出第二特征，第一特征融合模块用于将第一特征和第二特征进行融合，得到融合后的特征，第二特征融合模块用于根据第一特征、第二特征和融合后的特征，得到融合结果，分类器用于根据融合结果，得到语音情感识别结果；
41.利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练；
42.将目标数据输入深度卷积神经网络，根据模型识别效果对构建语音情感识别模型进行微调，得到训练好的语音情感识别模型；
43.利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
44.具体来说，来自不同领域的语音数据包括各种语音数据，与目标任务不直接相关。目标数据是指与目标任务(语音情感识别任务相关)直接相关的数据，也就是经过标注的与情感相关的数据集，通过迁移学习，可以在一些数据量比较大的数据(与目标任务不直接相关的数据)上预训练，然后在数据量比较小的数据(和目标任务直接相关的数据，也就是目标数据)上进行模型微调，从而可以从pretrain数据(预训练数据，即来自不同领域的语音数据)中学到大量知识，又可以适应目标数据的特定任务。
45.请参见图1，为本发明实施例中基于注意力特征融合的多通道自编码器的语音情感识别方法的整体流程示意图。concatenate表示contact操作。
46.具体实施过程中，域对抗神经网络采用dann。
47.处理后的特征为r
l
，目标数据x经过深度卷积神经网络进行特征提取后再经过flatten(展平)得到第二特征rd，r
l
与rd通过contact进行融合后通过一个全连接层，得到rc。
48.在模型的微调过程中，根据实际应用场景和模型识别效果，对模型中的域对抗多通道自编码器进行调整，从而可以得到最优的模型，以提升情感识别的性能。
49.在一种实施方式中，多通道自编码器通过多个局部分类器和全局分类器来对输入的特征进行处理，最后将所有的局部分类器和全局分类器的输出进行结合得到处理后的特征，其中局部分类器包括去噪编码器、瓶颈层、隐藏层和分类器层。
50.请参见图2，为本发明实施例中多通道自编码器的特征提取过程示意图。
51.具体来说，多通道自编码器包括多个局部分类器和一个全局分类器，在多通道自编码器(mtc-ae)每个局部分类器中(rnn)中最低的两层都是通过无监督的方式使用堆叠去噪编码器(sdae)进行预训练，然后将瓶颈层、隐藏层和分类器层连接起来形成一个局部分类器。各个局部分类器的分类结果联合高级特征，从而得到处理后的特征。
52.在一种实施方式中，域对抗神经网络包含情绪标签判别器、说话者域分类器和语料库域分类器，通过域对抗对处理后的特征施加约束，消除处理后的特征中的非情感性信息，获取更优的特征，作为第一特征。
53.具体来说，通过域对抗对处理后的特征施加约束，可以消除处理后的特征中的非情感性信息，得到情感识别中的最优特征。其中，情绪标签判别器、说话者域分类器和语料库域分类器在图1中分别用情感分类器、speaker分类器和corpora分类器表示。
54.在一种实施方式中，第二特征融合模块的处理过程包括：
55.分别对第一特征、第二特征和融合后的特征进行线性处理；
56.将线性处理后的第一特征、第二特征和融合后的特征通过点积注意力进行计算，得到计算结果；
57.将计算结果经过concat进行融合，得到融合结果。
58.具体实施过程中，第一特征、第二特征和融合后的特征分别为r
l
、rd和rc，三种特征分别进行线性处理后，进行点积注意力计算，得到计算结果，再通过concat得到融合结果。
59.在一种实施方式中，分类器采用双向长短期记忆网络分类器。
60.双向长短期记忆网络分类器为bi-lstm classifier。
61.在一种实施方式中，利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练，包括：
62.从来自不同领域的语音数据中提取出梅尔倒频谱、线谱对和声音强度；
63.将提取出的特征输入多通道自编码器进行处理，得到处理后的特征，利用域对抗神经网络消除处理后的特征中的非情感信息，得到第一特征。
64.具体实施过程中，将获取的来自不同领域的语音数据作为预训练样本，首先进行预处理，提取出梅尔倒频谱(mfcc)、线谱对(lsp)和脉冲编码调制声音强度(pcm loudness)等语音特征，然后将提取出的特征输入多通道自编码器。
65.在多通道自编码器(mtc-ae)的预训练阶段，该编码器通过将p(x)重构为p’(x)来更新多通道自动编码器的权值，多通道自动编码器(mtc-ae)的目标函数定义为：
66.l
mtc-ae
＝argmin||p(x)-p’(x)||267.其中，p(x)表示预训练数据，p’(x)为将预训练数据进行重构后得到的数据。
68.将域对抗神经网络(dann)附加到处理后的特征r
l
上，域对抗神经网络(dann)定义如下：
69.ld＝l
e-λ(βls (1-β)lc)其中le、ls和lc是域对抗神经网络(dann)中情感、说话者和语料库分类任务的损失函数，β是权衡参数来控制每个损失项的权重，λ为负常数。
70.域对抗多通道自编码器(damtc-ae)由多通道自编码器(mtc-ae)和域对抗神经网络(dann)组成，最终的目标函数定义如下：
71.l
damtc-ae
＝l
mtc-ae
αld，l
mtc-ae
是预训练好的多通道自编码器的重建损失，α是权重。
72.在具体实施例中，将r
l
、rd和rc三种特征进行线性处理然后通过点积注意力进行计算，其中第i个注意力头headi的得分的定义如下：
[0073][0074][0075][0076][0077]
特征rd、r
l
和rc分别对应query、key和value，和为第i个head的可训练参数矩阵。qi、ki、vi分别表示线性处理后的特征，headi中的q、k、v为通用的表示，在公式中具体是指qi、ki、vi，将它们(qi、ki、vi)代入headi的公式中，可以得到第i个注意力头headi的得分，作为计算结果。
[0078]
将每一个注意力头的得分经过concat进行融合，得到融合结果，过程如下：
[0079]
mh(q，k，v)＝concat(head1，head2，...，headn)
[0080]
最终，将融合结果输入到双向长短期记忆网络分类器(bi-lstm classifier)中从而得到在本模型下最优的结果，实现了语音情感识别性能的提升。
[0081]
与现有技术相比，本发明具有以下有益效果：
[0082]
1、相比基于深度去噪自编码器的方法，由于采用多通道自编码器的方法，不仅能够去噪而且能够同时考虑特征的独立性和相关性，得到了更优的特征。
[0083]
2、通过对模型中的多通道域对抗自编码器进行预训练，能够从其他语料库中提取潜在特征，从而解决了训练数据不足的问题。
[0084]
3、由于可以利用多通道自编码器得到更优的特征，并通过预训练可以提取出潜在特征，从而可以得出最优的模型，因此可以提高模型的识别性能。
[0085]
实施例二
[0086]
基于同样的发明构思，本实施例提供了一种基于注意力特征融合的多通道自编码器的语音情感识别装置，包括：
[0087]
数据获取模块，用于获取来自不同领域的语音数据和目标数据，其中，目标数据为与语音情感识别任务相关的数据；
[0088]
模型构建模块，用于构建语音情感识别模型，包括域对抗多通道自编码器、深度卷积神经网络、第一特征融合模块、第二特征融合模块和分类器，其中，域对抗多通道自编码器包括多通道自编码器和域对抗神经网络，多通道自编码器考虑不同特征之间的独立性和相关性，对输入的特征进行处理后，得到处理后的特征，域对抗神经网络用于消除处理后的特征中的非情感信息，得到第一特征；深度卷积神经网络用于从输入的数据中提取出第二特征，第一特征融合模块用于将第一特征和第二特征进行融合，得到融合后的特征，第二特征融合模块用于根据第一特征、第二特征和融合后的特征，得到融合结果，分类器用于根据融合结果，得到语音情感识别结果；
[0089]
预训练模块，用于利用来自不同领域的语音数据对域对抗多通道自编码器进行预训练，
[0090]
微调模块，用于将目标数据输入深度卷积神经网络，根据模型识别效果对构建语音情感识别模型进行微调，得到训练好的语音情感识别模型；
[0091]
识别模块，用于利用训练好的语音情感识别模型对待识别的语音数据进行情感识别。
[0092]
由于本发明实施例二所介绍的装置为实施本发明实施例一中基于注意力特征融合的多通道自编码器的语音情感识别方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
[0093]
实施例三
[0094]
基于同一发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现如实施例一中所述的方法。
[0095]
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于注意力特征融合的多通道自编码器的语音情感识别方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质
的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
[0096]
实施例四
[0097]
基于同一发明构思，本技术还提供了一种计算机设备，包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时实现实施例一中的方法。
[0098]
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于图像检索增强的航拍图像分类所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
[0099]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0100]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0101]
尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0102]
显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：语音交互信息的处理方法及装置、存储介质及电子装置与流程

一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置

相关文献

最热文献