语音情感分类方法、装置、设备及介质与流程

2021-09-08 01:43:00 来源：中国专利 TAG：语音语义人工智能装置计算机

1.本发明涉及人工智能的语音语义技术领域，尤其涉及一种语音情感分类方法、装置、计算机设备及存储介质。

背景技术：

2.情绪识别是人工智能领域的重要分支，尤其是对话场景中的情绪识别格外重要。在对话过程中，说话人会收到两方面的情绪影响，一方面是来自其他说话人的情绪影响，这一情绪影响试图改变说话人的情绪，另一方面是来自说话人自身的情绪影响，这一情绪影响试图保持说话人的情绪。为建模这两类情绪影响，既有的方法使用“扁平”和“层次”两种基于“循环神经网络”的模型结构进行建模。
3.然而，1)既有方法均基于“循环神经网络”，没有利用强大的预训练bert模型。2)“扁平”模型通过将不同说话人的情绪表达串联在同一个时间序列中，无法区分不同的说话人；3)“层次”模型虽然通过“分支层”将相同说话人的情绪表达串联在同一时间序列中，但不同说话人的情绪影响仍然被混合在“主干层”同一个时间序列中无法区分。

技术实现要素：

4.本发明实施例提供了一种语音情感分类方法、装置、计算机设备及存储介质，旨在解决现有技术中基于现有的模型对多人对话场景中的对话进行情感识别的结果不准确的问题。
5.第一方面，本发明实施例提供了一种语音情感分类方法，其包括：
6.响应于语音情感分类指令，根据所述语音情感分类指令获取待识别语音数据并进行语音识别，得到语音识别结果；其中，所述语音识别结果中包括多个按时序升序排列的语音识别子结果，每一语音识别子结果对应一个说话人及相应的说话内容数据；
7.获取预先训练的目标bert模型，及所述目标bert模型所相应的字符预处理策略；
8.将在所述待识别语音数据中所选定的目标语音识别子结果根据所述字符预处理策略进行预处理得到预处理结果，通过所述目标bert模型对预处理结果进行特征提取得到最终向量表达结果；以及
9.调用预先训练的情绪分类模型，将所述最终向量表达结果输入至所述情绪分类模型进行运算，得到对应的情绪分类结果。
10.第二方面，本发明实施例提供了一种语音情感分类装置，其包括：
11.说话人识别单元，用于若检测到用户端或其他服务器发送的待识别语音数据，说话人识别单元，用于响应于语音情感分类指令，根据所述语音情感分类指令获取待识别语音数据并进行语音识别，得到语音识别结果；其中，所述语音识别结果中包括多个按时序升序排列的语音识别子结果，每一语音识别子结果对应一个说话人及相应的说话内容数据；
12.目标模型选定单元，用于获取预先训练的目标bert模型，及所述目标bert模型所相应的字符预处理策略；
13.最终向量获取单元，用于将在所述待识别语音数据中所选定的目标语音识别子结果根据所述字符预处理策略进行预处理得到预处理结果，通过所述目标bert模型对预处理结果进行特征提取得到最终向量表达结果；以及
14.情绪分类单元，用于调用预先训练的情绪分类模型，将所述最终向量表达结果输入至所述情绪分类模型进行运算，得到对应的情绪分类结果。
15.第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的语音情感分类方法。
16.第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的语音情感分类方法。
17.本发明实施例提供了一种语音情感分类方法、装置、计算机设备及存储介质，先获取待识别语音数据并进行语音识别，得到语音识别结果，然后在所述待识别语音数据中所选定的目标语音识别子结果根据字符预处理策略进行预处理得到预处理结果，通过目标bert模型对预处理结果进行特征提取得到最终向量表达结果，最后将最终向量表达结果输入至预先训练的情绪分类模型进行运算，得到对应的情绪分类结果。实现了更深层的网络结构进行特征提取，而且还可以显示地区分说话人的情绪影响，并为特征进行神经元和向量两个粒度的加权，特征融合粒度更精细，最终得到的情绪识别结果更加准确。
附图说明
18.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1为本发明实施例提供的语音情感分类方法的应用场景示意图；
20.图2为本发明实施例提供的语音情感分类方法的流程示意图；
21.图2a为本发明具体实施例提供的语音情感分类方法的扁平bert模型的模型结构图；
22.图2b为本发明具体实施例提供的语音情感分类方法中层次bert模型的模型结构图；
23.图2c为本发明具体实施例提供的语音情感分类方法中时空bert模型的模型结构图；
24.图2d为本发明实施例提供的语音情感分类方法的子流程示意图；
25.图3为本发明实施例提供的语音情感分类装置的示意性框图；
26.图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
27.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例，都属于本发明保护的范围。
28.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
30.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
31.请参阅图1和图2，图1为本发明实施例提供的语音情感分类方法的应用场景示意图；图2为本发明实施例提供的语音情感分类方法的流程示意图，该语音情感分类方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。
32.如图2所示，该方法包括步骤s101～s106。
33.s101、响应于语音情感分类指令，根据所述语音情感分类指令获取待识别语音数据并进行语音识别，得到语音识别结果；其中，所述语音识别结果中包括多个按时序升序排列的语音识别子结果，每一语音识别子结果对应一个说话人及相应的说话内容数据。
34.在本实施例中，为了更清楚的理解本技术的技术方案，下面对所涉及到的执行主体进行详细介绍。本技术是以服务器为执行主体描述技术方案。
35.用户端，在用户端处可以现场采集到多人交流的待识别语音数据，也可以是多个用户端参与同一在线视频会议，同一视频会议场景下多人交流时后台服务器是接收基于多个用户端收集并上传的待识别语音数据。当服务器接收到了待识别语音数据之后，可对所述待识别语音数据进行说话人识别。
36.服务器，在服务器中存储有说话人识别模型以对用户端上传的待识别语音数据进行说话人识别，得到语音识别结果；而且在服务器中还存储有预先训练的bert模型集合，以对所述语音识别结果进行基于说话人上下文的情绪识别。
37.具体实施时，说话人识别(即speaker recognition，简记为sr)技术又称声纹识别(voiceprint recognition，简记为vpr)技术，声纹识别技术主要采用mfcc特征(mfcc即梅尔频率倒谱系数)和gmm模型(即高斯混合模型)框架，通过说话人识别技术可以有效对待识别语音数据进行说话人识别，得到与所述待识别语音数据对应的语音识别结果；其中，所述语音识别结果中包括多个按时序升序排列的语音识别子结果，每一语音识别子结果对应一个说话人及相应的说话内容数据。
38.例如一段待识别语音数据对应的语音识别结果用u表示，u的表达式如下具体的表示语音识别结果u包括8段按时序升序排列的对话，其中第一段对话是说话者1所说(用表示，其中下标1表示时序顺序1，上标1表示说话者1的说话者序号标识，整体表示说话者1的说话内容)，第二段对话是说话者2所说(用表示，其中下标2表示时序顺序2，上标2表示说话者2的说话者序号标识)，第三段对话是说话者1所说(用表示，其中下标3表示时序顺序3，上标1表示说话者1的说话者序号标识)，第
四段对话是说话者1所说(用表示，其中下标4表示时序顺序4，上标1表示说话者1的说话者序号标识)，第五段对话是说话者3所说(用表示，其中下标5表示时序顺序5，上标3表示说话者3的说话者序号标识)，第六段对话是说话者2所说(用表示，其中下标6表示时序顺序6，上标2表示说话者2的说话者序号标识)，第七段对话是说话者1所说(用表示，其中下标7表示时序顺序7，上标1表示说话者1的说话者序号标识)，第八段对话是说话者2所说(用表示，其中下标8表示时序顺序2，上标2表示说话者2的说话者序号标识)。通过上述说话人识别技术，有效区分了多人对话中每一说话人的说话内容。
39.s102、获取预先训练的目标bert模型，及所述目标bert模型所相应的字符预处理策略。
40.在本实施例中，在服务器的本地存储有预先训练的bert模型集合，其中所述bert模型集合至少包括扁平bert模型、层次bert模型、时空bert模型。当服务器进行bert模型选择时，是随机从扁平bert模型、层次bert模型、时空bert模型中选择一个。通过这三种模型都能有效的提取语音识别结果中的有效向量表达结果，以进行后续精准的情绪识别。而且若所述目标bert模型为扁平bert模型，所述字符预处理策略为第一字符预处理策略；若所述目标bert模型为层次bert模型，所述字符预处理策略为第二字符预处理策略；若所述目标bert模型为时空bert模型，所述字符预处理策略为第三字符预处理策略。
41.s103、将在所述待识别语音数据中所选定的目标语音识别子结果根据所述字符预处理策略进行预处理得到预处理结果，通过所述目标bert模型对预处理结果进行特征提取得到最终向量表达结果。
42.在本实施例中，当在所述待识别语音数据中任意选定一个目标语音识别子结果，例如在上述语音识别结果u中选定这一语音识别子结果作为目标语音识别子结果，此时可以先将该目标语音识别子结果根据相应的字符预处理策略进行预处理得到预处理结果，这样最终将预处理结果输入到目标bert模型以对预处理结果进行特征提取得到最终向量表达结果。也就是当确定了采用不同的目标bert模型进行特征提取时，之前对目标语音识别子结果时采取相应的字符预处理策略进行预处理得到预处理结果，这样可以增加目标语音识别子结果的信息维度，使得特征提取更加准确。
43.在一实施例中，如图2d所示，步骤s103包括：
44.s1031、获取预先训练的bert模型集合中任意一个bert模型作为目标bert模型；其中，所述bert模型集合至少包括扁平bert模型、层次bert模型、时空bert模型；
45.s1032、确定所述目标bert模型为扁平bert模型时，将所述语音识别结果中所选定的第一目标语音识别子结果根据预先存储的第一字符预处理策略进行预处理得到第一预处理结果，通过所述目标bert模型对第一预处理结果进行特征提取得到最终向量表达结果；其中，所述第一字符预处理策略用于在第一目标语音识别子结果中增加混合上下文序列；
46.s1033、确定所述目标bert模型为层次bert模型时，将所述语音识别结果中所选定的第二目标语音识别子结果根据预先存储的第二字符预处理策略进行预处理得到第二预处理结果，通过所述目标bert模型对第二预处理结果进行特征提取得到最终向量表达结
果；其中，所述第二字符预处理策略用于获取第二目标语音识别子结果的前文结果、并将前文结果中每一语音识别子结果和第二目标语音识别子结果中分别增加内部上下文序列；
47.s1034、确定所述目标bert模型为时空bert模型时，将所述语音识别结果中所选定的第三目标语音识别子结果根据预先存储的第三字符预处理策略进行预处理得到第三预处理结果，通过所述目标bert模型对第三预处理结果进行特征提取得到最终向量表达结果；其中，所述第三字符预处理策略用于在第三目标语音识别子结果中分别增加标准上下文序列和内部上下文序列。
48.在本实施例中，扁平bert模型对应一种扁平结构的bert模型，基于语音识别结果中所选定的第一目标语音识别子结果处理为一个输入变量后直接输入到bert模型中进行运算，即可得到与该第一目标语音识别子结果对应的最终向量表达结果，具体的扁平bert模型的模型结构图如图2a。这一最终向量表达结果是语音识别子结果中最有效特征的提取，能为后续情绪识别提供有效输入特征。
49.在一实施例中，步骤s1032包括：
50.根据预设的上下文窗口大小值及所选定的第一目标语音识别子结果在所述语音识别结果中获取混合上下文序列；
51.将所述第一目标语音识别子结果及所述混合上下文序列根据预设的第一拼接策略拼接为第一时序序列；
52.将所述第一时序序列输入至扁平bert模型进行运算，得到对应的第一向量表达结果，将所述第一向量表达结果作为与所述第一目标语音识别子结果对应的最终向量表达结果。
53.在本实施例中，为了更加清楚的理解后续的技术方案，下面将提取语音识别结果u中所涉及的三种上下文序列进行详细介绍：
54.混合上下文序列(即conv
‑
context)，用ψ表示，例如表示从语音识别结果u中，以为第一目标语音识别子结果，并以5为预设的上下文窗口大小值k进行混合上下文序列提取。在提取混合上下文序列时，是直接以第一目标语音识别子结果为起点向前倒推5位得到点向前倒推5位得到其中混合上下文序列获取时并不区分说话者，而是直接按照预设的上下文窗口大小值倒序向前推获取即可。
55.标准上下文序列(即inter
‑
context)，用φ表示，例如表示从语音识别结果u中，以为第一目标语音识别子结果，并以5为预设的上下文窗口大小值k进行标准上下文序列提取，其目的在于以第一目标语音识别子结果为起点向前倒推5位得到一个初始序列并去掉其中所有与第一目标语音识别子结果为相同说话人的语音识别子结果，从而得到标准上下文序列果，从而得到标准上下文序列
56.内部上下文序列(即intra
‑
context)，用表示，例如表示从语音识别结果u中，以为第一目标语音识别子结果，并以5为预设的上下文窗口大小值k进行内部上下文序列提取，其目的在于以第一目标语音识别子结果为起点向前倒推5位得到一个初始序列并去掉其中所有与第一目标语音识别子结果为不相同说话人的语音识别子
结果，从而得到内部上下文序列结果，从而得到内部上下文序列
57.其中，根据预设的上下文窗口大小值及所选定的第一目标语音识别子结果在所述语音识别结果中获取混合上下文序列，即是以所选定的第一目标语音识别子结果为起点倒序在所述语音识别结果中获取具有与上下文窗口大小值相同个数的语音识别子结果组成混合上下文序列。
58.在一实施例中，所述将所述第一目标语音识别子结果及所述混合上下文序列根据预设的第一拼接策略拼接为第一时序序列，包括：
59.将所述第一目标语音识别子结果中包括的字符通过双字节编码得到对应的第一编码结果，在所述第一编码结果的尾端拼接预先存储的第一类词嵌入向量得到第一处理结果；
60.将所述混合上下文序列中包括的字符通过双字节编码得到对应的第二编码结果，在所述第二编码结果的尾端拼接预先存储的第二类词嵌入向量得到第二处理结果；
61.在所述第一处理结果之前增加第一预设字符串、在将所述第一处理结果及所述第二处理结果之间增加第二预设字符串、在所述第二处理结果之后增加第二预设字符串，得到第一初始时序序列；
62.将所述第一初始时序序列中每一字符的末尾处均拼接对应的位置嵌入向量，得到第一时序序列。
63.在本实施例中，即针对扁平bert模型，目标是预测第i个语音识别子结果的情绪，输入构造为：
[0064][0065]
其中，代表包含t个词的表达序列，代表包含个词的混合上下文序列，k是预设的上下文窗口大小值。通过拼接并转换为embedding后输入bert模型，得到向量表示：r
i
＝bert(x
i
)。
[0066]
确定所述目标bert模型为扁平bert模型时，该扁平bert模型的输入包括以下关键点：1)将第一目标语音识别子结果(第一目标语音识别子结果也可以理解为所选定的目标表达)与混合上下文序列拼接为一个时间序列；2)在时间序列的头部增加[cls]特殊字符(其中[cls]可以理解为第一预设字符串)用于明确输出位置；3)使用[sep]特殊字符(其中[sep]可以理解为第二预设字符串)区分目标表达和混合上下文序列；4)将所有字符转换为wordpiece embeddings；5)为第一目标语音识别子结果的字符拼接a类embedding(也即预先存储的第一类词嵌入向量)，为混合上下文序列分字符拼接b类embedding(也即预先存储的第二类词嵌入向量)，以加强二者的区分程度；6)为每个字符拼接位置embedding，以保留时间序列的位置信息。通过上述方式构造的第一时序序列可以进行更长的时间序列建模，而且挖掘了更深层的网络结构。
[0067]
之后将第一时序序列输入至扁平bert模型进行特征提取时，得到的第一向量表达结果是以bert最后一层[cls]位置的输出作为整个时间序列的向量表达。
[0068]
在本实施例中，确定所述目标bert模型为层次bert模型时，层次bert模型对应一
种多层结构的bert模型，至少包括bert层和transformer层，基于语音识别结果中所选定的第二目标语音识别子结果及所筛选得到的语音识别子结果进行预处理后分别输入到bert层的bert模型中进行运算，即可得到与第二目标语音识别子结果及所筛选得到的语音识别子结果分别对应的第二向量表达结果，将由第二向量表达结果对应组成的第二向量表达结果集作为与所述第二目标语音识别子结果对应的最终向量表达结果，具体的层次bert模型的模型结构图如图2b。这一最终向量表达结果是语音识别子结果中最有效特征的提取，能为后续情绪识别提供有效输入特征。
[0069]
在一实施例中，步骤s1033包括：
[0070]
根据预设的上下文窗口大小值在所述语音识别结果中以所选定的第二目标语音识别子结果为起点倒序向前获取与所述上下文窗口大小值相等个数的语音识别子结果组成目标语音识别子结果集，将所述第二目标语音识别子结果及所述目标语音识别子结果集根据预先存储的第二字符预处理策略进行预处理得到第二预处理结果，通过所述目标bert模型对第二预处理结果进行特征提取得到最终向量表达结果。
[0071]
即将所述第二目标语音识别子结果及所述目标语音识别子结果集分别对应的预处理结果依次输入至目标bert模型中的bert层和transformer层进行特征提取，得到与所述第二目标语音识别子结果及所述目标语音识别子结果集对应的第二向量表达结果。
[0072]
在提取与所述第二目标语音识别子结果及所述目标语音识别子结果集对应的第二向量表达结果时，需要将所述第二目标语音识别子结果及所述目标语音识别子结果集对应的预处理结果输入至目标bert模型的bert层和transformer层进行特征提取，经过上述两层模型的提取，得到的第二向量表达结果因进行神经元和向量两个粒度的加权，融合了更精细粒度的特征，特征更具有“层次”感。
[0073]
在一实施例中，所述将所述第二目标语音识别子结果及所述目标语音识别子结果集根据预先存储的第二字符预处理策略进行预处理得到第二预处理结果，通过所述目标bert模型对第二预处理结果进行特征提取得到最终向量表达结果，包括：
[0074]
获取所述目标语音识别子结果集中第i个目标语音识别子结果；其中，i的初始值为1；
[0075]
根据预设的上下文窗口大小值及第i个目标语音识别子结果在所述语音识别结果中获取第i个内部上下文序列；
[0076]
将所述第i个目标语音识别子结果及所述第i个内部上下文序列根据预设的第二拼接策略拼接为第i个子时序序列；
[0077]
将i增加1更新i值，判断i值是否超出所述上下文窗口大小值；若i值未超出所述上下文窗口大小值，返回执行所述获取所述目标语音识别子结果集中第i个目标语音识别子结果的步骤；
[0078]
若i值超出所述上下文窗口大小值，依序获取第1个子时序序列至第i
‑
1个子时序序列；
[0079]
将所述第二目标语音识别子结果及对应的目标内部上下文序列根据所述第二拼接策略拼接为第i个子时序序列；
[0080]
将第1个子时序序列至第i个子时序序列分别输入至目标bert模型中的bert层进行特征提取，得到与第1个子时序序列至第i个子时序分别对应的第二向量初始表达结果；
[0081]
将第1个子时序序列至第i个子时序分别对应的第二向量初始表达结果进行拼接，得到第一拼接结果；
[0082]
将所述第一拼接结果输入至目标bert模型中的transformer层进行特征提取，得到第二向量表达结果。
[0083]
在本实施例中，例如预设的上下文窗口大小值k＝5，且语音识别结果在本实施例中，例如预设的上下文窗口大小值k＝5，且语音识别结果则所述目标语音识别子结果集中第1个目标语音识别子结果是其对应的第1个内部上下文序列是空集；同理，所述目标语音识别子结果集中第2个目标语音识别子结果是其对应的第2个内部上下文序列所述目标语音识别子结果集中第3个目标语音识别子结果是其对应的第3个内部上下文序列所述目标语音识别子结果集中第4个目标语音识别子结果是其对应的第4个内部上下文序列是空集；所述目标语音识别子结果集中第5个目标语音识别子结果是其对应的第5个内部上下文序列
[0084]
其中，将所述第i个目标语音识别子结果及所述第i个内部上下文序列根据预设的第二拼接策略拼接为第i个子时序序列时，具体是：将所述第i个目标语音识别子结果中包括的字符通过双字节编码得到对应的第i组第一子编码结果，在所述第i组第一子编码结果的尾端拼接预先存储的第一类词嵌入向量得到第i组第一处理结果；将第i个内部上下文序列中包括的字符通过双字节编码得到对应的第i组第二子编码结果，在所述第i组第二子编码结果的尾端拼接预先存储的第二类词嵌入向量得到第i组第二处理结果；在所述第i组第一子编码结果之前增加[cls]字符、在将所述第i组第一子编码结果及所述第i组第二处理结果之间增加[sep]字符、在所述第i组第二处理结果之后增加[sep]字符，得到第i组初始时序序列；将所述第i组初始时序序列中每一字符的末尾处均拼接对应的位置嵌入向量，得到第i个子时序序列。针对层次循环神经网络改进的层次bert模型，层次结构相比于扁平结构可以有效的区分说话人。
[0085]
依序获取第1个子时序序列至第i个子时序序列后并输入至目标bert模型中的bert层进行特征提取，得到说话人在每个时刻的带上下文的第二向量初始表达结果，即将第1个子时序序列输入至目标bert模型中的bert层进行特征提取得到(为)，即将第2个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第3个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第4个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第5个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第6个子时序序列输入至目标bert模型中的bert层进行特征提取得到在得到了上述6个第二向量初始表达结果后再按下角标的升序顺序进行拼接，得到第一拼接结果。最后将所述第一拼接结果输入至目标bert模型中的
transformer层进行特征提取(具体实施输入transformer层的encode部分，transformer层的encode部分的层数为6)，得到第二向量表达结果。
[0086]
得到的第二向量表达结果是以transformer层的encode部分最后一层在位置的输出作为最终用于情绪分类的向量表达。
[0087]
在本实施例中，确定所述目标bert模型为时空bert模型时，层次bert模型对应一种从时间角度和空间角度双重角度综合考虑的bert模型，基于语音识别结果中所选定的第三目标语音识别子结果处理为两个输入变量(一个输入变量是基于第三目标语音识别子结果及其对应的当前标准上下文序列经过拼接处理得到，另一个输入变量是基于第三目标语音识别子结果及其对应的当前内部上下文序列经过拼接处理得到)后直接输入到bert模型中进行运算将各自得到的运算结果经过融合模型的融合处理，即可得到与该第三目标语音识别子结果对应的第三向量表达结果以作为最终向量表达结果，具体的时空bert模型的模型结构图如图2c。同样的，这一最终向量表达结果是语音识别子结果中最有效特征的提取，能为后续情绪识别提供有效输入特征。
[0088]
在一实施例中，步骤s1034中所述将所述语音识别结果中所选定的第三目标语音识别子结果根据预先存储的第三字符预处理策略进行预处理得到第三预处理结果，通过所述目标bert模型对第三预处理结果进行特征提取得到最终向量表达结果，包括：
[0089]
获取所述第三目标语音识别子结果在所述语音识别结果中分别对应的当前标准上下文序列和当前内部上下文序列，由所述第三目标语音识别子结果与所述当前标准上下文序列和所述当前内部上下文序列分别拼接为当前第一时序序列和当前第二时序序列，将所述第一时序序列和所述当前第二时序序列分别输入至目标bert模型中的bert层及融合模型层进行特征提取，得第三向量表达结果。
[0090]
在本实施例中，在提取所述第三目标语音识别子结果对应的第三向量表达结果时，先是从时间角度获取由所述第三目标语音识别子结果经处理分别输入到目标bert模型中的bert层而得到的当前第一时序序列和当前第二时序序列，然后从空间角度来拼接所述第一时序序列和所述当前第二时序序列(即将当前第一时序序列和当前第二时序序列输入到目标bert模型中的融合模型层进行融合)得到第三向量表达结果。从时间角度，可以显示地区分说话人的情绪影响；从空间角度，可以为特征进行神经元和向量两个粒度的加权，特征融合粒度更精细。
[0091]
在一实施例中，所述获取所述第三目标语音识别子结果在所述语音识别结果中分别对应的当前标准上下文序列和当前内部上下文序列，由所述第三目标语音识别子结果与所述当前标准上下文序列和所述当前内部上下文序列分别拼接为当前第一时序序列和当前第二时序序列，将所述第一时序序列和所述当前第二时序序列分别输入至目标bert模型中的bert层及融合模型层进行特征提取，得第三向量表达结果，包括：
[0092]
根据预设的上下文窗口大小值及所选定的第三目标语音识别子结果在所述语音识别结果中分别获取当前标准上下文序列和当前内部上下文序列；
[0093]
将所述第三目标语音识别子结果及所述当前标准上下文序列根据预设的第三拼接策略拼接为当前第一时序序列，并将所述第三目标语音识别子结果及所述当前内部上下文序列根据所述第三拼接策略拼接为当前第二时序序列；
[0094]
将所述当前第一时序序列输入至目标bert模型中的bert层进行特征提取得到当
前第一向量初始表达结果，并将所述当前第二时序序列输入至目标bert模型中的bert层进行特征提取得到当前第二向量初始表达结果；
[0095]
将所述当前第一向量初始表达结果及所述当前第二向量初始表达结果进行纵向拼接，得到当前拼接结果；
[0096]
将所述当前拼接结果输入至目标bert模型中的融合模型层进行融合处理，得到与所述第三目标语音识别子结果对应的第三向量表达结果。
[0097]
在本实施例中，根据预设的上下文窗口大小值及所选定的第三目标语音识别子结果在所述语音识别结果中获取当前标准上下文序列，即是以所选定的第三目标语音识别子结果为起点倒序在所述语音识别结果中获取具有与上下文窗口大小值相同个数的语音识别子结果，并去掉其中所有与第三目标语音识别子结果为相同说话人的语音识别子结果，组成当前标准上下文序列。
[0098]
根据预设的上下文窗口大小值及所选定的第三目标语音识别子结果在所述语音识别结果中获取当前内部上下文序列，即是以所选定的第三目标语音识别子结果为起点倒序在所述语音识别结果中获取具有与上下文窗口大小值相同个数的语音识别子结果，并去掉其中所有与第三目标语音识别子结果为不相同说话人的语音识别子结果，组成当前内部上下文序列。
[0099]
将所述当前第一时序序列输入至目标bert模型中的bert层进行特征提取得到当前第一向量初始表达结果，并将所述当前第二时序序列输入至目标bert模型中的bert层进行特征提取得到当前第二向量初始表达结果，均是以bert最后一层[cls]位置的输出作为整个时间序列的向量表达。
[0100]
将所述第三目标语音识别子结果及所述当前标准上下文序列根据预设的第三拼接策略拼接为当前第一时序序列，具体是：将所述第三目标语音识别子结果中包括的字符通过双字节编码得到对应的当前第一编码结果，在所述当前第一编码结的尾端拼接预先存储的第一类词嵌入向量得到当前第一处理结果；将所述当前标准上下文序列中包括的字符通过双字节编码得到对应的当前第二编码结果，在所述当前第二编码结果的尾端拼接预先存储的第二类词嵌入向量得到当前第二处理结果；在所述当前第一处理结果之前增加[cls]字符、在将所述当前第一处理结果及所述当前第二处理结果之间增加[sep]字符、在所述当前第二处理结果之后增加[sep]字符，得到当前第一初始时序序列；将所述第一当前初始时序序列中每一字符的末尾处均拼接对应的位置嵌入向量，得到当前第一时序序列。将所述第三目标语音识别子结果及所述当前内部上下文序列根据预设的第三拼接策略拼接为当前第二时序序列的拼接获取过程也是参考当前第一时序序列的获取过程。
[0101]
例如，第三目标语音识别子结果为且预设的上下文窗口大小值为5，则当前标准上下文序列且当前内部上下文序列且当前内部上下文序列第三目标语音识别子结果为与当前标准上下文序列与当前标准上下文序列经过预设的第三拼接策略拼接为当前第一初始时序序列，第三目标语音识别子结果为与当前内部上下文序列经过预设的第三拼接策略拼接为当前第二初始时序序列，将当前第一初始时序序列输入至目标bert模型中
的bert层进行特征提取得到当前第一向量初始表达结果并将所述当前第二时序序列输入至目标bert模型中的bert层进行特征提取得到当前第二向量初始表达结果其中且d
f
为向量维度，当前第一向量初始表达结果和当前第二向量初始表达结果是两种从时间维度获得的情绪影响向量表达。
[0102]
将所述当前第一向量初始表达结果及所述当前第二向量初始表达结果进行纵向拼接，得到当前拼接结果最后将当前拼接结果输入至目标bert模型中的融合模型层进行融合处理时具体实施可采用张量运算，即：
[0103][0104]
其中，relu()表示线性整流函数，w
b
为中每个神经元分配神经元级别的权值(即所有神经元的权值各不相同)，w
a
为中的两个行向量分配向量级别的权值(即一行向量中神经元分配的权值相同)，且表示偏置项。故将当前拼接结果输入至目标bert模型中的融合模型层进行张量运算后得到第三向量表达结果。
[0105]
s104、调用预先训练的情绪分类模型，将所述最终向量表达结果输入至所述情绪分类模型进行运算，得到对应的情绪分类结果。
[0106]
在本实施例中，步骤s1032、步骤s1033或步骤s1034中获取的最终向量表达结果均可用r
i
表示(例如上述具体实例得到的都是用r7表示)，调用预先训练的情绪分类模型，将最终向量表达结果输入至所述情绪分类模型进行运算，具体如下：
[0107]
o
i
＝tanh(w
o
r
i
)
[0108][0109][0110]
其中，tanh()是双曲正切函数，w
o
是r
i
对应的第一权重值，softmax()可以理解为一种线性分类器，是o
i
对应的第二权重值，是最终预测的情绪分类结果。
[0111]
该方法实现了更深层的网络结构进行特征提取，而且还可以显示地区分说话人的情绪影响，并为特征进行神经元和向量两个粒度的加权，特征融合粒度更精细，最终得到的情绪识别结果更加准确。
[0112]
本发明实施例还提供一种语音情感分类装置，该语音情感分类装置用于执行前述语音情感分类方法的任一实施例。具体地，请参阅图3，图3是本发明实施例提供的语音情感分类装置的示意性框图。该语音情感分类装置100可以配置于服务器中。
[0113]
如图3所示，语音情感分类装置100包括：说话人识别单元101、目标模型选定单元102、最终向量获取单元103、情绪分类单元104。
[0114]
说话人识别单元101，用于响应于语音情感分类指令，根据所述语音情感分类指令
获取待识别语音数据并进行语音识别，得到语音识别结果；其中，所述语音识别结果中包括多个按时序升序排列的语音识别子结果，每一语音识别子结果对应一个说话人及相应的说话内容数据。
[0115]
在本实施例中，说话人识别(即speaker recognition，简记为sr)技术又称声纹识别(voiceprint recognition，简记为vpr)技术，声纹识别技术主要采用mfcc特征(mfcc即梅尔频率倒谱系数)和gmm模型(即高斯混合模型)框架，通过说话人识别技术可以有效对待识别语音数据进行说话人识别，得到与所述待识别语音数据对应的语音识别结果；其中，所述语音识别结果中包括多个按时序升序排列的语音识别子结果，每一语音识别子结果对应一个说话人及相应的说话内容数据。
[0116]
例如一段待识别语音数据对应的语音识别结果用u表示，u的表达式如下具体的表示语音识别结果u包括8段按时序升序排列的对话，其中第一段对话是说话者1所说(用表示，其中下标1表示时序顺序1，上标1表示说话者1的说话者序号标识，整体表示说话者1的说话内容)，第二段对话是说话者2所说(用表示，其中下标2表示时序顺序2，上标2表示说话者2的说话者序号标识)，第三段对话是说话者1所说(用表示，其中下标3表示时序顺序3，上标1表示说话者1的说话者序号标识)，第四段对话是说话者1所说(用表示，其中下标4表示时序顺序4，上标1表示说话者1的说话者序号标识)，第五段对话是说话者3所说(用表示，其中下标5表示时序顺序5，上标3表示说话者3的说话者序号标识)，第六段对话是说话者2所说(用表示，其中下标6表示时序顺序6，上标2表示说话者2的说话者序号标识)，第七段对话是说话者1所说(用表示，其中下标7表示时序顺序7，上标1表示说话者1的说话者序号标识)，第八段对话是说话者2所说(用表示，其中下标8表示时序顺序2，上标2表示说话者2的说话者序号标识)。通过上述说话人识别技术，有效区分了多人对话中每一说话人的说话内容。
[0117]
目标模型选定单元102，用于获取预先训练的目标bert模型，及所述目标bert模型所相应的字符预处理策略。
[0118]
在本实施例中，在服务器的本地预先存储有预先训练的bert模型集合，其中所述bert模型集合至少包括扁平bert模型、层次bert模型、时空bert模型。当服务器进行bert模型选择时，是随机从扁平bert模型、层次bert模型、时空bert模型中选择一个。通过这三种模型都能有效的提取语音识别结果中的有效向量表达结果，以进行后续精准的情绪识别。而且若所述目标bert模型为扁平bert模型，所述字符预处理策略为第一字符预处理策略；若所述目标bert模型为层次bert模型，所述字符预处理策略为第二字符预处理策略；若所述目标bert模型为时空bert模型，所述字符预处理策略为第三字符预处理策略。
[0119]
最终向量获取单元103，用于将在所述待识别语音数据中所选定的目标语音识别子结果根据所述字符预处理策略进行预处理得到预处理结果，通过所述目标bert模型对预处理结果进行特征提取得到最终向量表达结果。
[0120]
在本实施例中，当在所述待识别语音数据中任意选定一个目标语音识别子结果，
例如在上述语音识别结果u中选定这一语音识别子结果作为目标语音识别子结果，此时可以先将该目标语音识别子结果根据相应的字符预处理策略进行预处理得到预处理结果，这样最终将预处理结果输入到目标bert模型以对预处理结果进行特征提取得到最终向量表达结果。也就是当确定了采用不同的目标bert模型进行特征提取时，之前对目标语音识别子结果时采取相应的字符预处理策略进行预处理得到预处理结果，这样可以增加目标语音识别子结果的信息维度，使得特征提取更加准确。
[0121]
在一实施例中，如图3所示，所述最终向量获取单元103包括：
[0122]
目标模型获取单元1031，用于获取预先训练的bert模型集合中任意一个bert模型作为目标bert模型；其中，所述bert模型集合至少包括扁平bert模型、层次bert模型、时空bert模型；
[0123]
第一模型处理单元1032，用于确定所述目标bert模型为扁平bert模型时，将所述语音识别结果中所选定的第一目标语音识别子结果根据预先存储的第一字符预处理策略进行预处理得到第一预处理结果，通过所述目标bert模型对第一预处理结果进行特征提取得到最终向量表达结果；其中，所述第一字符预处理策略用于在第一目标语音识别子结果中增加混合上下文序列；
[0124]
第二模型处理单元1033，用于确定所述目标bert模型为层次bert模型时，将所述语音识别结果中所选定的第二目标语音识别子结果根据预先存储的第二字符预处理策略进行预处理得到第二预处理结果，通过所述目标bert模型对第二预处理结果进行特征提取得到最终向量表达结果；其中，所述第二字符预处理策略用于获取第二目标语音识别子结果的前文结果、并将前文结果中每一语音识别子结果和第二目标语音识别子结果中分别增加内部上下文序列；
[0125]
第三模型处理单元1034，用于确定所述目标bert模型为时空bert模型时，将所述语音识别结果中所选定的第三目标语音识别子结果根据预先存储的第三字符预处理策略进行预处理得到第三预处理结果，通过所述目标bert模型对第三预处理结果进行特征提取得到最终向量表达结果；其中，所述第三字符预处理策略用于在第三目标语音识别子结果中分别增加标准上下文序列和内部上下文序列。
[0126]
在本实施例中，扁平bert模型对应一种扁平结构的bert模型，基于语音识别结果中所选定的第一目标语音识别子结果处理为一个输入变量后直接输入到bert模型中进行运算，即可得到与该第一目标语音识别子结果对应的最终向量表达结果，具体的扁平bert模型的模型结构图如图2a。这一最终向量表达结果是语音识别子结果中最有效特征的提取，能为后续情绪识别提供有效输入特征。
[0127]
在一实施例中，第一模型处理单元1032包括：
[0128]
混合上下文序列获取单元，用于根据预设的上下文窗口大小值及所选定的第一目标语音识别子结果在所述语音识别结果中获取混合上下文序列；
[0129]
第一时序序列获取单元，用于将所述第一目标语音识别子结果及所述混合上下文序列根据预设的第一拼接策略拼接为第一时序序列；
[0130]
第一运算单元，用于将所述第一时序序列输入至扁平bert模型进行运算，得到对应的第一向量表达结果，将所述第一向量表达结果作为与所述第一目标语音识别子结果对应的最终向量表达结果。
[0131]
在本实施例中，为了更加清楚的理解后续的技术方案，下面将提取语音识别结果u中所涉及的三种上下文序列进行详细介绍：
[0132]
混合上下文序列(即conv
‑
context)，用ψ表示，例如表示从语音识别结果u中，以为第一目标语音识别子结果，并以5为预设的上下文窗口大小值k进行混合上下文序列提取。在提取混合上下文序列时，是直接以第一目标语音识别子结果为起点向前倒推5位得到向前倒推5位得到其中混合上下文序列获取时并不区分说话者，而是直接按照预设的上下文窗口大小值倒序向前推获取即可。
[0133]
标准上下文序列(即inter
‑
context)，用φ表示，例如表示从语音识别结果u中，以为第一目标语音识别子结果，并以5为预设的上下文窗口大小值k进行标准上下文序列提取，其目的在于以第一目标语音识别子结果为起点向前倒推5位得到一个初始序列并去掉其中所有与第一目标语音识别子结果为相同说话人的语音识别子结果，从而得到标准上下文序列果，从而得到标准上下文序列
[0134]
内部上下文序列(即intra
‑
context)，用表示，例如表示从语音识别结果u中，以为第一目标语音识别子结果，并以5为预设的上下文窗口大小值k进行内部上下文序列提取，其目的在于以第一目标语音识别子结果为起点向前倒推5位得到一个初始序列并去掉其中所有与第一目标语音识别子结果为不相同说话人的语音识别子结果，从而得到内部上下文序列下文序列
[0135]
其中，根据预设的上下文窗口大小值及所选定的第一目标语音识别子结果在所述语音识别结果中获取混合上下文序列，即是以所选定的第一目标语音识别子结果为起点倒序在所述语音识别结果中获取具有与上下文窗口大小值相同个数的语音识别子结果组成混合上下文序列。
[0136]
在一实施例中，所述第一时序序列获取单元，包括：
[0137]
第一拼接单元，用于将所述第一目标语音识别子结果中包括的字符通过双字节编码得到对应的第一编码结果，在所述第一编码结果的尾端拼接预先存储的第一类词嵌入向量得到第一处理结果；
[0138]
第二拼接单元，用于将所述混合上下文序列中包括的字符通过双字节编码得到对应的第二编码结果，在所述第二编码结果的尾端拼接预先存储的第二类词嵌入向量得到第二处理结果；
[0139]
第三拼接单元，用于在所述第一处理结果之前增加第一预设字符串、在将所述第一处理结果及所述第二处理结果之间增加第二预设字符串、在所述第二处理结果之后增加第二预设字符串，得到第一初始时序序列；
[0140]
第四拼接单元，用于将所述第一初始时序序列中每一字符的末尾处均拼接对应的位置嵌入向量，得到第一时序序列。
[0141]
在本实施例中，即针对扁平bert模型，目标是预测第i个语音识别子结果的情绪，输入构造为：
[0142][0143]
其中，代表包含t个词的表达序列，代表包含个词的混合上下文序列，k是预设的上下文窗口大小值。通过拼接并转换为embedding后输入bert模型，得到向量表示：r
i
＝bert(x
i
)。
[0144]
确定所述目标bert模型为扁平bert模型时，该扁平bert模型的输入包括以下关键点：1)将第一目标语音识别子结果(第一目标语音识别子结果也可以理解为所选定的目标表达)与混合上下文序列拼接为一个时间序列；2)在时间序列的头部增加[cls]特殊字符用于明确输出位置；3)使用[sep]特殊字符区分目标表达和混合上下文序列；4)将所有字符转换为wordpiece embeddings；5)为第一目标语音识别子结果的字符拼接a类embedding(也即预先存储的第一类词嵌入向量)，为混合上下文序列分字符拼接b类embedding(也即预先存储的第二类词嵌入向量)，以加强二者的区分程度；6)为每个字符拼接位置embedding，以保留时间序列的位置信息。通过上述方式构造的第一时序序列可以进行更长的时间序列建模，而且挖掘了更深层的网络结构。
[0145]
之后将第一时序序列输入至扁平bert模型进行特征提取时，得到的第一向量表达结果是以bert最后一层[cls]位置的输出作为整个时间序列的向量表达。
[0146]
在本实施例中，确定所述目标bert模型为层次bert模型时，层次bert模型对应一种多层结构的bert模型，至少包括bert层和transformer层，基于语音识别结果中所选定的第二目标语音识别子结果及所筛选得到的语音识别子结果分别输入到bert层的bert模型中进行运算，即可得到与第二目标语音识别子结果及所筛选得到的语音识别子结果分别对应的第二向量表达结果，将由第二向量表达结果对应组成的第二向量表达结果集作为与所述第二目标语音识别子结果对应的最终向量表达结果，具体的层次bert模型的模型结构图如图2b。这一最终向量表达结果是语音识别子结果中最有效特征的提取，能为后续情绪识别提供有效输入特征。
[0147]
在一实施例中，第二模型处理单元1033还用于：
[0148]
根据预设的上下文窗口大小值在所述语音识别结果中以所选定的第二目标语音识别子结果为起点倒序向前获取与所述上下文窗口大小值相等个数的语音识别子结果组成目标语音识别子结果集，将所述第二目标语音识别子结果及所述目标语音识别子结果集根据预先存储的第二字符预处理策略进行预处理得到第二预处理结果，通过所述目标bert模型对第二预处理结果进行特征提取得到最终向量表达结果。
[0149]
即将所述第二目标语音识别子结果及所述目标语音识别子结果集分别对应的预处理结果依次输入至目标bert模型中的bert层和transformer层进行特征提取，得到与所述第二目标语音识别子结果及所述目标语音识别子结果集对应的第二向量表达结果。
[0150]
在提取与所述第二目标语音识别子结果及所述目标语音识别子结果集对应的第二向量表达结果时，需要将所述第二目标语音识别子结果及所述目标语音识别子结果集对应的预处理结果输入至目标bert模型的bert层和transformer层进行特征提取，经过上述两层模型的提取，得到的第二向量表达结果因进行神经元和向量两个粒度的加权，融合了
更精细粒度的特征，特征更具有“层次”感。
[0151]
在一实施例中，，第二模型处理单元1033还用于：
[0152]
获取所述目标语音识别子结果集中第i个目标语音识别子结果；其中，i的初始值为1；
[0153]
根据预设的上下文窗口大小值及第i个目标语音识别子结果在所述语音识别结果中获取第i个内部上下文序列；
[0154]
将所述第i个目标语音识别子结果及所述第i个内部上下文序列根据预设的第二拼接策略拼接为第i个子时序序列；
[0155]
将i增加1更新i值，判断i值是否超出所述上下文窗口大小值；若i值未超出所述上下文窗口大小值，返回执行所述获取所述目标语音识别子结果集中第i个目标语音识别子结果的步骤；
[0156]
若i值超出所述上下文窗口大小值，依序获取第1个子时序序列至第i
‑
1个子时序序列；
[0157]
将所述第二目标语音识别子结果及对应的目标内部上下文序列根据所述第二拼接策略拼接为第i个子时序序列；
[0158]
将第1个子时序序列至第i个子时序序列分别输入至目标bert模型中的bert层进行特征提取，得到与第1个子时序序列至第i个子时序分别对应的第二向量初始表达结果；
[0159]
将第1个子时序序列至第i个子时序分别对应的第二向量初始表达结果进行拼接，得到第一拼接结果；
[0160]
将所述第一拼接结果输入至目标bert模型中的transformer层进行特征提取，得到第二向量表达结果。
[0161]
在本实施例中，例如预设的上下文窗口大小值k＝5，且语音识别结果在本实施例中，例如预设的上下文窗口大小值k＝5，且语音识别结果则所述目标语音识别子结果集中第1个目标语音识别子结果是其对应的第1个内部上下文序列是空集；同理，所述目标语音识别子结果集中第2个目标语音识别子结果是其对应的第2个内部上下文序列所述目标语音识别子结果集中第3个目标语音识别子结果是其对应的第3个内部上下文序列所述目标语音识别子结果集中第4个目标语音识别子结果是其对应的第4个内部上下文序列是空集；所述目标语音识别子结果集中第5个目标语音识别子结果是其对应的第5个内部上下文序列
[0162]
其中，将所述第i个目标语音识别子结果及所述第i个内部上下文序列根据预设的第二拼接策略拼接为第i个子时序序列时，具体是：将所述第i个目标语音识别子结果中包括的字符通过双字节编码得到对应的第i组第一子编码结果，在所述第i组第一子编码结果的尾端拼接预先存储的第一类词嵌入向量得到第i组第一处理结果；将第i个内部上下文序列中包括的字符通过双字节编码得到对应的第i组第二子编码结果，在所述第i组第二子编
码结果的尾端拼接预先存储的第二类词嵌入向量得到第i组第二处理结果；在所述第i组第一子编码结果之前增加[cls]字符、在将所述第i组第一子编码结果及所述第i组第二处理结果之间增加[sep]字符、在所述第i组第二处理结果之后增加[sep]字符，得到第i组初始时序序列；将所述第i组初始时序序列中每一字符的末尾处均拼接对应的位置嵌入向量，得到第i个子时序序列。针对层次循环神经网络改进的层次bert模型，层次结构相比于扁平结构可以有效的区分说话人。
[0163]
依序获取第1个子时序序列至第i个子时序序列后并输入至目标bert模型中的bert层进行特征提取，得到说话人在每个时刻的带上下文的第二向量初始表达结果，即将第1个子时序序列输入至目标bert模型中的bert层进行特征提取得到(为)，即将第2个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第3个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第4个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第5个子时序序列输入至目标bert模型中的bert层进行特征提取得到即将第6个子时序序列输入至目标bert模型中的bert层进行特征提取得到在得到了上述6个第二向量初始表达结果后再按下角标的升序顺序进行拼接，得到第一拼接结果。最后将所述第一拼接结果输入至目标bert模型中的transformer层进行特征提取(具体实施输入transformer层的encode部分，transformer层的encode部分的层数为6)，得到第二向量表达结果。
[0164]
得到的第二向量表达结果是以transformer层的encode部分最后一层在位置的输出作为最终用于情绪分类的向量表达。
[0165]
在本实施例中，确定所述目标bert模型为时空bert模型时，层次bert模型对应一种从时间角度和空间角度双重角度综合考虑的bert模型，基于语音识别结果中所选定的第三目标语音识别子结果处理为两个输入变量(一个输入变量是基于第三目标语音识别子结果及其对应的当前标准上下文序列经过拼接处理得到，另一个输入变量是基于第三目标语音识别子结果及其对应的当前内部上下文序列经过拼接处理得到)后直接输入到bert模型中进行运算将各自得到的运算结果经过融合模型的融合处理，即可得到与该第三目标语音识别子结果对应的第三向量表达结果以作为最终向量表达结果，具体的时空bert模型的模型结构图如图2c。同样的，这一最终向量表达结果是语音识别子结果中最有效特征的提取，能为后续情绪识别提供有效输入特征。
[0166]
在一实施例中，第三模型处理单元1034还包括：
[0167]
第二分层提取单元，用于获取所述第三目标语音识别子结果在所述语音识别结果中分别对应的当前标准上下文序列和当前内部上下文序列，由所述第三目标语音识别子结果与所述当前标准上下文序列和所述当前内部上下文序列分别拼接为当前第一时序序列和当前第二时序序列，将所述第一时序序列和所述当前第二时序序列分别输入至目标bert模型中的bert层及融合模型层进行特征提取，得第三向量表达结果。
[0168]
在本实施例中，在提取所述第三目标语音识别子结果对应的第三向量表达结果时，先是从时间角度获取由所述第三目标语音识别子结果经处理分别输入到目标bert模型
中的bert层而得到的当前第一时序序列和当前第二时序序列，然后从空间角度来拼接所述第一时序序列和所述当前第二时序序列(即将当前第一时序序列和当前第二时序序列输入到目标bert模型中的融合模型层进行融合)得到第三向量表达结果。从时间角度，可以显示地区分说话人的情绪影响；从空间角度，可以为特征进行神经元和向量两个粒度的加权，特征融合粒度更精细。
[0169]
在一实施例中，所述第三模型处理单元1034还用于：
[0170]
根据预设的上下文窗口大小值及所选定的第三目标语音识别子结果在所述语音识别结果中分别获取当前标准上下文序列和当前内部上下文序列；
[0171]
将所述第三目标语音识别子结果及所述当前标准上下文序列根据预设的第三拼接策略拼接为当前第一时序序列，并将所述第三目标语音识别子结果及所述当前内部上下文序列根据所述第三拼接策略拼接为当前第二时序序列；
[0172]
将所述当前第一时序序列输入至目标bert模型中的bert层进行特征提取得到当前第一向量初始表达结果，并将所述当前第二时序序列输入至目标bert模型中的bert层进行特征提取得到当前第二向量初始表达结果；
[0173]
将所述当前第一向量初始表达结果及所述当前第二向量初始表达结果进行纵向拼接，得到当前拼接结果；
[0174]
将所述当前拼接结果输入至目标bert模型中的融合模型层进行融合处理，得到与所述第三目标语音识别子结果对应的第三向量表达结果。
[0175]
在本实施例中，根据预设的上下文窗口大小值及所选定的第三目标语音识别子结果在所述语音识别结果中获取当前标准上下文序列，即是以所选定的第三目标语音识别子结果为起点倒序在所述语音识别结果中获取具有与上下文窗口大小值相同个数的语音识别子结果，并去掉其中所有与第三目标语音识别子结果为相同说话人的语音识别子结果，组成当前标准上下文序列。
[0176]
根据预设的上下文窗口大小值及所选定的第三目标语音识别子结果在所述语音识别结果中获取当前内部上下文序列，即是以所选定的第三目标语音识别子结果为起点倒序在所述语音识别结果中获取具有与上下文窗口大小值相同个数的语音识别子结果，并去掉其中所有与第三目标语音识别子结果为不相同说话人的语音识别子结果，组成当前内部上下文序列。
[0177]
将所述当前第一时序序列输入至目标bert模型中的bert层进行特征提取得到当前第一向量初始表达结果，并将所述当前第二时序序列输入至目标bert模型中的bert层进行特征提取得到当前第二向量初始表达结果，均是以bert最后一层[cls]位置的输出作为整个时间序列的向量表达。
[0178]
将所述第三目标语音识别子结果及所述当前标准上下文序列根据预设的第三拼接策略拼接为当前第一时序序列，具体是：将所述第三目标语音识别子结果中包括的字符通过双字节编码得到对应的当前第一编码结果，在所述当前第一编码结的尾端拼接预先存储的第一类词嵌入向量得到当前第一处理结果；将所述当前标准上下文序列中包括的字符通过双字节编码得到对应的当前第二编码结果，在所述当前第二编码结果的尾端拼接预先存储的第二类词嵌入向量得到当前第二处理结果；在所述当前第一处理结果之前增加[cls]字符、在将所述当前第一处理结果及所述当前第二处理结果之间增加[sep]字符、在
所述当前第二处理结果之后增加[sep]字符，得到当前第一初始时序序列；将所述第一当前初始时序序列中每一字符的末尾处均拼接对应的位置嵌入向量，得到当前第一时序序列。将所述第三目标语音识别子结果及所述当前内部上下文序列根据预设的第三拼接策略拼接为当前第二时序序列的拼接获取过程也是参考当前第一时序序列的获取过程。
[0179]
例如，第三目标语音识别子结果为且预设的上下文窗口大小值为5，则当前标准上下文序列且当前内部上下文序列且当前内部上下文序列第三目标语音识别子结果为与当前标准上下文序列与当前标准上下文序列经过预设的第三拼接策略拼接为当前第一初始时序序列，第三目标语音识别子结果为与当前内部上下文序列经过预设的第三拼接策略拼接为当前第二初始时序序列，将当前第一初始时序序列输入至目标bert模型中的bert层进行特征提取得到当前第一向量初始表达结果并将所述当前第二时序序列输入至目标bert模型中的bert层进行特征提取得到当前第二向量初始表达结果其中且d
f
为向量维度，当前第一向量初始表达结果和当前第二向量初始表达结果是两种从时间维度获得的情绪影响向量表达。
[0180]
将所述当前第一向量初始表达结果及所述当前第二向量初始表达结果进行纵向拼接，得到当前拼接结果最后将当前拼接结果输入至目标bert模型中的融合模型层进行融合处理时具体实施可采用张量运算，即：
[0181][0182]
其中，relu()表示线性整流函数，w
b
为中每个神经元分配神经元级别的权值(即所有神经元的权值各不相同)，w
a
为中的两个行向量分配向量级别的权值(即一行向量中神经元分配的权值相同)，且表示偏置项。故将当前拼接结果输入至目标bert模型中的融合模型层进行张量运算后得到第三向量表达结果。
[0183]
情绪分类单元104，用于调用预先训练的情绪分类模型，将所述最终向量表达结果输入至所述情绪分类模型进行运算，得到对应的情绪分类结果。
[0184]
在本实施例中，第一模型处理单元1032、第二模型处理单元1033或第三模型处理单元1034获取的最终向量表达结果均可用r
i
表示(例如上述具体实例得到的都是用r7表示)，调用预先训练的情绪分类模型，将最终向量表达结果输入至所述情绪分类模型进行运算，具体如下：
[0185][0186]
[0187][0188]
其中，tanh()是双曲正切函数，w
o
是r
i
对应的第一权重值，softmax()可以理解为一种线性分类器，是o
i
对应的第二权重值，是最终预测的情绪分类结果。
[0189]
该装置实现了更深层的网络结构进行特征提取，而且还可以显示地区分说话人的情绪影响，并为特征进行神经元和向量两个粒度的加权，特征融合粒度更精细，最终得到的情绪识别结果更加准确。
[0190]
上述语音情感分类装置可以实现为计算机程序的形式，该计算机程序可以在如图4所示的计算机设备上运行。
[0191]
请参阅图4，图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。
[0192]
参阅图4，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。
[0193]
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行语音情感分类方法。
[0194]
该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。
[0195]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行语音情感分类方法。
[0196]
该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0197]
其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的语音情感分类方法。
[0198]
本领域技术人员可以理解，图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图4所示实施例一致，在此不再赘述。
[0199]
应当理解，在本发明实施例中，处理器502可以是中央处理单元(central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0200]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的语音情感分类方法。
[0201]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0202]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
[0203]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0204]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0205]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0206]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音情感分类方法、装置、设备及介质与流程

相关文章

最热文献