语音数据情感检测方法、装置、电子设备和存储介质与流程

2021-11-24 21:50:00 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及一种语音数据情感检测方法、装置、电子设备和存储介质。

背景技术：

2.语音数据情感检测就是对原始的音频信息进行分析得到该段音频中说话人所表达的感情信息。语音记录了说话者完整的声音信息，它包含了说话人的语言内容、语音语调等信息。说话人往往是通过说话的内容和语音语调共同作用来表达出内心的感情的，因此相比于通过文字进行感情分析，使用语音进行感情分析更有优势。
3.在生活中，长时连续的对话语音十分常见，比如客服热线、心理援助热线等服务、救助场景，通过对长对话语音感情分析获得的来电者的感情变化，并最终得到一个整体评价。目前对长时连续对话的感情分析的主要方法是对每句对话进行感情分类，然而心理感情的表达是一个时序过程，是需要多句话按时间顺序依次表达得出的一个累计结果，而判断这个感情所需要的话语数量往往是难以确定的，因此该方法由于没有考虑每种感情产生的起止位置，忽略了感情表达的过程性和阶段性，从而无法准确进行情感检测。

技术实现要素：

4.本发明提供一种语音数据情感检测方法、装置、电子设备和存储介质，用以解决现有技术中语音数据情感检测精度较低的缺陷。
5.本发明提供一种语音数据情感检测方法，包括：
6.确定待检测的语音数据，所述语音数据包括至少一个完整语句；
7.将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果；
8.其中，所述情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；所述情感检测模型用于在提取所述语音数据的语音特征后，将所述语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到所述情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
9.根据本发明提供的一种语音数据情感检测方法，所述将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果，包括：
10.将所述语音数据输入至所述情感检测模型的特征提取层，得到所述特征提取层输出的所述语音数据的语音特征；
11.将所述语音特征输入至所述情感检测模型的候选区域检测层，得到所述候选区域检测层输出的所述多个候选感情区域特征；
12.将所述多个候选感情区域特征输入至所述情感检测模型的目标区域检测层，由所述目标区域检测层对所述多个候选感情区域特征进行非极大抑制处理，得到所述目标区域
检测层输出的所述目标感情区域特征；
13.将所述目标感情区域特征输入至所述情感检测模型的情感分类层，得到所述情感分类层输出的所述情感检测结果。
14.根据本发明提供的一种语音数据情感检测方法，所述将所述语音数据输入至所述情感检测模型的特征提取层，得到所述特征提取层输出的所述语音数据的语音特征，包括：
15.将所述语音数据输入至所述特征提取层的声谱图转换层，得到所述声谱图转换层输出的所述语音数据对应的声谱图；
16.将所述声谱图输入至所述特征提取层的上采样层，由所述上采样层对所述声谱图进行上采样，得到所述上采样层输出的高维特征；
17.将所述高维特征输入至所述特征提取层的上下文融合层，由所述上下文融合层对所述高维特征进行上下文信息融合，得到所述上下文融合层输出的所述语音数据的语音特征。
18.根据本发明提供的一种语音数据情感检测方法，所述将所述语音数据输入至所述特征提取层的声谱图转换层，得到所述声谱图转换层输出的所述语音数据对应的声谱图，包括：
19.将所述语音数据输入至所述特征提取层的声谱图转换层，由所述声谱图转换层依次对所述语音数据进行分帧处理、加窗处理以及傅里叶变换，得到所述声谱图转换层输出的所述语音数据对应的声谱图。
20.根据本发明提供的一种语音数据情感检测方法，所述将所述语音特征输入至所述情感检测模型的候选区域检测层，得到所述候选区域检测层输出的所述多个候选感情区域特征，包括：
21.将所述语音特征输入至所述候选区域检测层的感情区域预测层，得到所述感情区域预测层输出的多个初始候选感情区域特征；
22.将各初始候选感情区域特征输出至所述候选区域检测层的端点检测层，由所述端点检测层对各初始候选感情区域特征的起始端点和/或终止端点进行调整，得到所述端点检测层输出的所述多个候选感情区域特征。
23.根据本发明提供的一种语音数据情感检测方法，所述得到所述目标区域检测层输出的所述目标感情区域特征，之后还包括：
24.将所述目标感情区域特征以及所述语音特征输入至危险程度预测模型，得到所述危险程度预测模型输出的危险程度预测结果；
25.其中，所述危险程度预测模型是基于样本感情区域特征以及所述样本感情区域特征对应的危险程度训练得到的。
26.根据本发明提供的一种语音数据情感检测方法，所述将所述目标感情区域特征输入至危险程度预测模型，得到所述危险程度预测模型输出的危险程度预测结果，包括：
27.将所述目标感情区域特征以及所述语音特征输入至所述危险程度预测模型的特征融合层，得到所述特征融合层输出的融合特征；
28.将所述融合特征输入至所述危险程度预测模型的结果预测层，得到所述结果预测层输出的所述危险程度预测结果。
29.本发明还提供一种语音数据情感检测装置，包括：
30.确定单元，用于确定待检测的语音数据，所述语音数据包括至少一个完整语句；
31.检测单元，用于将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果；
32.其中，所述情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；所述情感检测模型用于在提取所述语音数据的语音特征后，将所述语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到所述情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
33.本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音数据情感检测方法的步骤。
34.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音数据情感检测方法的步骤。
35.本发明提供的语音数据情感检测方法、装置、电子设备和存储介质，通过情感检测模型提取语音数据的语音特征后，将语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到情感检测结果。由于各候选感情区域特征对应的语音数据为一个或多个完整语句，从而可以基于完整语句进行情感检测，避免传统方法中对每句对话进行感情分类，没有考虑每种感情产生的起止位置，忽略感情表达的过程性和阶段性导致无法准确进行情感检测问题。
附图说明
36.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本发明提供的语音数据情感检测方法的流程示意图之一；
38.图2是本发明提供的语音数据情感检测方法的流程示意图之二；
39.图3是本发明提供的语音数据情感检测装置的结构示意图；
40.图4是本发明提供的电子设备的结构示意图。
具体实施方式
41.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.目前，对长时连续对话的情感检测的主要方法是对每句对话进行感情分类。虽然该方法在这个过程中会考虑上下文信息，但是没有考虑每种感情产生的起止位置，忽略了感情表达的过程性和阶段性。因为心理感情的表达是一个时序过程，是需要多句话按时间
顺序依次表达得出的一个累计结果，而判断这个感情所需要的话语数量往往是难以确定的，因此需要一种基于长语音分析的情感区域检测方法，将语音中的不同感情进行定位分析，得到不同的感情区域，然后给出每个区域内的感情判断，并在此基础上给出整段对话的一个最终评价。
43.例如心理援助热线是一种重要的长对话语音场景，既往大多依靠各种临床评估量表来筛查和评估心理援助热线中语音数据的情感危险程度。然而这种传统量表式的评估，需要来电者密切配合，真实而全面地报告各种相关情况，不仅花费大量的时间，还容易引发来电者的不满。如果可以利用人工智能手段，通过话者在通话过程中声音的起伏变化和情绪波动，来发现话者隐藏的心理状况，不仅可以在正常干预过程中减少人工评估时间，提高热线服务质量，而且当话者不配合进行评估时也能很好的检测出话者情感。
44.对此，本发明提供一种语音数据情感检测方法。图1是本发明提供的语音数据情感检测方法的流程示意图，如图1所示，该方法包括如下步骤：
45.步骤110、确定待检测的语音数据，语音数据包括至少一个完整语句。
46.具体地，待检测的语音数据指待进行情感检测语音数据。其中，待检测语音数据中包括至少一个完整语句，完整语句是指意思和结构均完整的语句。结构完整的句子一般有两个部分，前一部分主要讲“谁”或“什么”，后一部分主要讲“干什么”、“是什么”或“怎么样”等。要清楚表达一个完整的意思，需要同时包含上述两个部分。例如“姐姐，学打字”这句话，“姐姐”用来解释前一部分“谁”，“学打字”用来解释后一部分“干什么”，从而“姐姐，学打字”构成了一个完整语句。此外，完整语句也可以基于标点符号“。”、“？”、“！”等来进行划分，本发明实施例对此不作具体限定。
47.待检测语音数据可以是通过语音设备采集的语音数据。此外，可以理解的是，由于通过语音设备采集的语音数据会受周围环境各种各样的噪声干扰，因此采集的原始语音并非纯净的语音数据，而是受噪声污染的带噪语音数据，甚至在噪声干扰较大的情况下，原始语音中的有用语音数据会被噪声淹没，因此可以对含噪的原始语音进行降噪处理，从噪声背景中提取有用的语音数据，抑制并降低噪声干扰，从而可以基于纯净的语音数据准确进行情感检测。其中，可以采用降噪算法(如omlsa算法、ltsa算法等)对语音设备采集的语音数据进行降噪处理，本发明实施例对此不作具体限定。
48.步骤120、将语音数据输入至情感检测模型，得到情感检测模型输出的情感检测结果；
49.其中，情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；情感检测模型用于在提取语音数据的语音特征后，将语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
50.具体地，将语音数据输入至情感检测模型后，情感检测模型首先提取语音数据的语音特征，并对语音特征进行感情区域检测，将包含同一种感情的一句或多句话对应的语音特征作为一个候选感情区域特征，从而实现将语音特征划分为多个候选感情区域特征。由于多个候选感情区域特征中可能存在冗余候选框，因此本发明实施例基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，然后对目标感情区域特征进行情感分
类，得到情感检测结果。其中，情感检测结果可以为各目标感情区域对应各类情感的概率(如分别对应高兴、悲伤、愤怒等的概率)，也可以直接输出各目标感情区域对应的情感分类，本发明实施例对此不作具体限定。
51.需要说明的是，各候选感情区域特征对应的语音数据为一个或多个完整语句，从而可以基于完整语句进行情感检测，避免传统方法中对每句对话进行感情分类，没有考虑每种感情产生的起止位置，忽略感情表达的过程性和阶段性导致无法准确进行情感检测问题。
52.本发明实施例提供的语音数据情感检测方法，通过情感检测模型提取语音数据的语音特征后，将语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到情感检测结果。由于各候选感情区域特征对应的语音数据为一个或多个完整语句，从而可以基于完整语句进行情感检测，避免传统方法中对每句对话进行感情分类，没有考虑每种感情产生的起止位置，忽略感情表达的过程性和阶段性导致无法准确进行情感检测问题。
53.基于上述实施例，将语音数据输入至情感检测模型，得到情感检测模型输出的情感检测结果，包括：
54.将语音数据输入至情感检测模型的特征提取层，得到特征提取层输出的语音数据的语音特征；
55.将语音特征输入至情感检测模型的候选区域检测层，得到候选区域检测层输出的多个候选感情区域特征；
56.将多个候选感情区域特征输入至情感检测模型的目标区域检测层，由目标区域检测层对多个候选感情区域特征进行非极大抑制处理，得到目标区域检测层输出的目标感情区域特征；
57.将目标感情区域特征输入至情感检测模型的情感分类层，得到情感分类层输出的情感检测结果。
58.具体地，在确定待检测的语音数据后，将语音数据输入至特征提取层，由特征提取层将语音数据转换为声谱图，并基于声谱图提取语音特征。
59.在得到语音特征之后，将语音特征输入至候选区域检测层，由候选区域检测层进行感情区域检测。需要说明的是，候选区域检测层进行感情区域检测时得到的初始候选感情区域特征可能不是完整语句，为了保证后续情感检测结果的精度，候选区域检测层对初始候选感情区域特征进行端点检测，以对初始候选感情区域特征对应的起止点进行调整，从而使得候选感情区域特征对应的是一个或多个完整语句。
60.由于得到的多个候选感情区域特征中存在冗余候选框，为了进一步准确提取感情区域特征，可以对多个候选感情区域特征进行非极大抑制处理，得到目标感情区域特征，然后基于情感分类层对目标感情区域特征进行分类，得到情感检测结果。其中，情感分类层可以基于循环神经网络(rnn)对目标感情区域特征进行情感分类预测。
61.基于上述任一实施例，将语音数据输入至情感检测模型的特征提取层，得到特征提取层输出的语音数据的语音特征，包括：
62.将语音数据输入至特征提取层的声谱图转换层，得到声谱图转换层输出的语音数据对应的声谱图；
63.将声谱图输入至特征提取层的上采样层，由上采样层对声谱图进行上采样，得到上采样层输出的高维特征；
64.将高维特征输入至特征提取层的上下文融合层，由上下文融合层对高维特征进行上下文信息融合，得到上下文融合层输出的语音数据的语音特征。
65.具体地，将语音数据输入到声谱图转换层，得到相应的声谱图s
n
。然后，通过上采样层对声谱图进行上采样，获取高维特征g
ct
。随之，基于上下文融合层，将提取的高维特征向量g
ct
进一步融合上下文信息，获得最终的语音数据的语音特征g
t
。
66.其中，上采样层可以基于卷积神经网络(cnn)构建得到，上下文融合层可以基于双向循环神经网络(bilstm)构建得到，本发明实施例对此不作具体限定。
67.基于上述任一实施例，将语音数据输入至特征提取层的声谱图转换层，得到声谱图转换层输出的语音数据对应的声谱图，包括：
68.将语音数据输入至特征提取层的声谱图转换层，由声谱图转换层依次对语音数据进行分帧处理、加窗处理以及傅里叶变换，得到声谱图转换层输出的语音数据对应的声谱图。
69.具体地，声谱图转换层对语音数据x
n
进行分帧、加窗w
n
‑
m
操作，然后对每一帧n做短时快速傅里叶变换(stft)，之后把每一帧的结果沿时间维度堆叠生成一个声谱图，短时傅里叶变换公式如下，其中m表示窗宽。
[0070][0071]
基于上述任一实施例，将语音特征输入至情感检测模型的候选区域检测层，得到候选区域检测层输出的多个候选感情区域特征，包括：
[0072]
将语音特征输入至候选区域检测层的感情区域预测层，得到感情区域预测层输出的多个初始候选感情区域特征；
[0073]
将各初始候选感情区域特征输出至候选区域检测层的端点检测层，由端点检测层对各初始候选感情区域特征的起始端点和/或终止端点进行调整，得到端点检测层输出的多个候选感情区域特征。
[0074]
具体地，端点检测层能够检测出完整的一句话所在的时间位置。感情区域预测层能够检测出包含某种感情的多句话所在的时间区域。在感情区域预测的过程中，端点检测层作为辅助任务可以帮助调整感情区域的边界，使得预测的感情区域包含完整的语音内容，具体检测过程如下：
[0075]
(a)输入数据：接收特征提取层输出的语音数据的语音特征g
t
。
[0076]
(b)端点检测和感情区域预测：使用全连接神经网络(fc)，来得到预测感情区域和语音端点将预测的结果使用损失函数计算损失值l，用于反向传播，该损失函数共分为两部分，分别为端点损失l
vad
和边界框损失l
loc
，使用平衡系数λ1,λ2，对两种损失进行平衡，具体函数表达式如下：
[0077][0078]
其中，e
tloc
真实标注的感情区域，e
tvad
表示真实标注的端点，l
vad
损失使用交叉熵损失函数(cross entropy loss function)计算，边界框损失l
loc
使用如下公式计算：
[0079][0080]
其中，t表示感情区域的起止时间，下标start表示开始时间，下标end表示结束时间,下标i表示的是预测的候选框序号，上标pred表示预测值，上标truth表示标注值。
[0081]
基于上述任一实施例，得到目标区域检测层输出的目标感情区域特征，之后还包括：
[0082]
将目标感情区域特征以及语音特征输入至危险程度预测模型，得到危险程度预测模型输出的危险程度预测结果；
[0083]
其中，危险程度预测模型是基于样本感情区域特征以及样本感情区域特征对应的危险程度训练得到的。
[0084]
具体地，在得到目标感情区域特征之后，可以将目标感情区域特征以及语音特征输入至危险程度预测模型，得到危险程度预测模型输出的危险程度预测结果，从而可以基于该预测结果判断待检测语音数据中携带负面情绪的危险程度，进而能够进一步准确了解语音数据用户的情绪状态。
[0085]
在将目标感情区域特征以及语音特征输入至危险程度预测模型之前，还可以预先训练得到危险程度预测模型，具体可以通过执行如下步骤实现：首先，收集大量样本感情区域特征，通过人工标注确定样本感情区域特征对应的危险程度。随即，基于样本感情区域特征以及样本感情区域特征对应的危险程度对初始模型进行训练，从而得到危险程度预测模型。
[0086]
基于上述任一实施例，将目标感情区域特征输入至危险程度预测模型，得到危险程度预测模型输出的危险程度预测结果，包括：
[0087]
将目标感情区域特征以及语音特征输入至危险程度预测模型的特征融合层，得到特征融合层输出的融合特征；
[0088]
将融合特征输入至危险程度预测模型的结果预测层，得到结果预测层输出的危险程度预测结果。
[0089]
具体地，特征融合层将做感情分类时，每个区域最终输出的目标感情区域特征做时域维度的拼接，并作为键值(k,v)，将特征提取层得到的语音特征的最后一维作为查询值(q)，使用如下函数进行注意力融合：
[0090][0091]
其中，d为q的时间维数。
[0092]
然后结果预测层使用全连接神经网络(fcn)对融合后的融合特征进行危险程度预测，得到危险程度预测结果。
[0093]
基于上述任一实施例，本发明还提供一种语音数据情感检测方法，如图2所示，该方法包括：
[0094]
首先，将原始音频文件输入到声谱图转换模块(sfm)，得到相应的声谱图s
n
。在得到声谱图s
n
后，使用特征提取模块(fem)对声谱图进行特征提取，得到特征向量g
t
。接着，将高维特征向量g
t
输入到感情区域预测模块(epm)，预测出不同的感情区域e
loc
。采用区域感
情分类模块(ecm)对每一个预测的感情区域进行感情分类，最后将感情分类过程中得到的感情特征向量与特征提取模块得到的特征向量进行融合，再使用危险程度预测模块(dpm)来预测危险程度d。
[0095]
其中，特征提取模块采用卷积神经网络(cnn)加双向循环神经网络(bilstm)的模型结构，其中卷积神经网络(cnn)对声谱图进行上采样，获取高维特征g
ct
，双向循环神经网(bilstm)采用双层结构，将卷积神经网络提取的高维特征向量g
ct
进一步融合上下文信息，获得最终的特征向量g
t
。
[0096]
此外，感情区域预测模块(epm)能够检测出包含某种感情的多句话所在的时间区域。在感情区域预测的过程中，端点检测模块(vadm)作为辅助任务可以帮助调整感情区域的边界，使得预测的感情区域包含完整的语音内容。其中，端点检测模块(vadm)能够检测出完整的一句话所在的时间位置。
[0097]
下面对本发明提供的语音数据情感检测装置进行描述，下文描述的语音数据情感检测装置与上文描述的语音数据情感检测方法可相互对应参照。
[0098]
基于上述任一实施例，本发明提供一种语音数据情感检测装置，如图3所示，该装置包括：
[0099]
确定单元310，用于确定待检测的语音数据，所述语音数据包括至少一个完整语句；
[0100]
检测单元320，用于将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果；
[0101]
其中，所述情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；所述情感检测模型用于在提取所述语音数据的语音特征后，将所述语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到所述情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
[0102]
基于上述任一实施例，所述检测单元320，包括：
[0103]
特征提取单元，用于将所述语音数据输入至所述情感检测模型的特征提取层，得到所述特征提取层输出的所述语音数据的语音特征；
[0104]
候选区域检测单元，用于将所述语音特征输入至所述情感检测模型的候选区域检测层，得到所述候选区域检测层输出的所述多个候选感情区域特征；
[0105]
目标区域检测单元，用于将所述多个候选感情区域特征输入至所述情感检测模型的目标区域检测层，由所述目标区域检测层对所述多个候选感情区域特征进行非极大抑制处理，得到所述目标区域检测层输出的所述目标感情区域特征；
[0106]
情感分类单元，用于将所述目标感情区域特征输入至所述情感检测模型的情感分类层，得到所述情感分类层输出的所述情感检测结果。
[0107]
基于上述任一实施例，所述特征提取单元，包括：
[0108]
声谱图转换单元，用于将所述语音数据输入至所述特征提取层的声谱图转换层，得到所述声谱图转换层输出的所述语音数据对应的声谱图；
[0109]
上采样单元，用于将所述声谱图输入至所述特征提取层的上采样层，由所述上采样层对所述声谱图进行上采样，得到所述上采样层输出的高维特征；
[0110]
上下文融合单元，用于将所述高维特征输入至所述特征提取层的上下文融合层，由所述上下文融合层对所述高维特征进行上下文信息融合，得到所述上下文融合层输出的所述语音数据的语音特征。
[0111]
基于上述任一实施例，所述声谱图转换单元，用于：
[0112]
将所述语音数据输入至所述特征提取层的声谱图转换层，由所述声谱图转换层依次对所述语音数据进行分帧处理、加窗处理以及傅里叶变换，得到所述声谱图转换层输出的所述语音数据对应的声谱图。
[0113]
基于上述任一实施例，所述候选区域检测单元，包括：
[0114]
感情区域预测单元，用于将所述语音特征输入至所述候选区域检测层的感情区域预测层，得到所述感情区域预测层输出的多个初始候选感情区域特征；
[0115]
端点检测单元，用于将各初始候选感情区域特征输出至所述候选区域检测层的端点检测层，由所述端点检测层对各初始候选感情区域特征的起始端点和/或终止端点进行调整，得到所述端点检测层输出的所述多个候选感情区域特征。
[0116]
基于上述任一实施例，还包括危险程度预测单元，用于
[0117]
在得到所述目标区域检测层输出的所述目标感情区域特征之后，将所述目标感情区域特征以及所述语音特征输入至危险程度预测模型，得到所述危险程度预测模型输出的危险程度预测结果；
[0118]
其中，所述危险程度预测模型是基于样本感情区域特征以及所述样本感情区域特征对应的危险程度训练得到的。
[0119]
基于上述任一实施例，所述危险程度预测单元，包括：
[0120]
特征融合单元，用于将所述目标感情区域特征以及所述语音特征输入至所述危险程度预测模型的特征融合层，得到所述特征融合层输出的融合特征；
[0121]
结果预测单元，用于将所述融合特征输入至所述危险程度预测模型的结果预测层，得到所述结果预测层输出的所述危险程度预测结果。
[0122]
图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、存储器(memory)420、通信接口(communications interface)430和通信总线440，其中，处理器410，存储器420，通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令，以执行语音数据情感检测方法，该方法包括：确定待检测的语音数据，所述语音数据包括至少一个完整语句；将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果；其中，所述情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；所述情感检测模型用于在提取所述语音数据的语音特征后，将所述语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到所述情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
[0123]
此外，上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以
使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0124]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的确定待检测的语音数据，所述语音数据包括至少一个完整语句；将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果；其中，所述情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；所述情感检测模型用于在提取所述语音数据的语音特征后，将所述语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到所述情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
[0125]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的确定待检测的语音数据，所述语音数据包括至少一个完整语句；将所述语音数据输入至情感检测模型，得到所述情感检测模型输出的情感检测结果；其中，所述情感检测模型是基于包含至少一个完整语句的样本语音数据及其对应的样本情感检测结果训练得到的；所述情感检测模型用于在提取所述语音数据的语音特征后，将所述语音特征划分为多个候选感情区域特征，并基于非极大抑制从多个候选感情区域特征中确定目标感情区域特征，以及对各目标感情区域特征进行情感分类，得到所述情感检测结果；各候选感情区域特征对应的语音数据为一个或多个完整语句。
[0126]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0127]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0128]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别模型训练方法、装置、计算机设备和存储介质与流程

语音数据情感检测方法、装置、电子设备和存储介质与流程

相关文献

最热文献