语音情感识别方法、装置、设备及存储介质与流程

2021-09-22 18:23:00 来源：中国专利 TAG：人工智能语音识别装置方法

1.本发明涉及人工智能技术领域，尤其涉及一种语音情感识别方法、装置、设备及存储介质。

背景技术：

2.为了提高客户满意度，通常需要对客服人员的工作进行考评。目前主要通过语音识别技术及语义分析技术对客服电话进行内容质检，然而，由于客服电话中通常存在大量的背景噪声、方言口音、信道干扰等干扰信息，造成语音识别不准确，从而无法准确的识别出客服电话中所表征出的情感。

技术实现要素：

3.鉴于以上内容，有必要提供一种语音情感识别方法、装置、设备及存储介质，能够准确的识别出用户语音所表征出的语音情感。
4.一方面，本发明提出一种语音情感识别方法，所述语音情感识别方法包括：
5.获取情感语音样本，所述情感语音样本包括样本音频及所述样本音频的标注结果；
6.获取预设学习器，并基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型；
7.当接收到识别请求时，根据所述识别请求获取用户语音；
8.基于预先训练好的降噪模型对所述用户语音进行降噪处理，得到目标语音；
9.对所述目标语音进行预处理，得到所述目标语音的梅谱信息；
10.将所述梅谱信息输入至所述情感识别模型中，得到语音输出向量；
11.根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感。
12.根据本发明优选实施例，所述预设学习器包括卷积网络层、循环神经网络层及全连接层，所述基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型包括：
13.确定所述样本音频所在的样本编号，并根据所述样本编号获取所述样本音频在预设标签中对应的信息作为音频梅尔信息；
14.基于所述卷积网络层提取所述音频梅尔信息中的特征信息，并将所述特征信息转换为时序信息；
15.基于所述循环神经网络层提取所述时序信息中的特征，得到目标特征；
16.基于所述全连接层处理所述目标特征，得到所述样本音频的样本输出向量；
17.根据所述预设结果映射表确定所述标注结果所对应的标注向量；
18.基于所述样本输出向量与所述标注向量的相似度调整所述网络参数，直至所述相似度不再升高，停止调整所述网络参数，得到所述情感识别模型。
19.根据本发明优选实施例，所述方法还包括：
20.获取多个录制音频，并获取多个预设音频；
21.对每个所述录制音频及每个所述预设音频进行合成处理，得到每个录制音频所对应的多个加工音频；
22.获取预设分割网络；
23.基于每个加工音频及每个加工音频所对应的录制音频调整所述预设分割网络，直至调整后的预设分割网络收敛，得到所述降噪模型。
24.根据本发明优选实施例，所述对所述目标语音进行预处理，得到所述目标语音的梅谱信息包括：
25.以第一预设时长为时间窗口，第二预设时长为滑动窗口对所述目标语音进行切分，得到多个音频片段；
26.提取每个音频片段中的音频信息；
27.对所述音频信息进行傅里叶变换处理，得到每个音频片段的频谱图；
28.基于梅尔尺度滤波器处理所述频谱图，得到所述梅谱信息。
29.根据本发明优选实施例，所述根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感包括：
30.对所述语音输出向量进行归一化处理，得到概率向量；
31.将所述概率向量中取值最大的元素所在的维度确定为目标维度；
32.从所述预设结果映射表中获取与所述目标维度对应的情感作为所述语音情感。
33.根据本发明优选实施例，所述根据所述识别请求获取用户语音包括：
34.获取所述识别请求的接收时刻，并根据所述接收时刻及预设时段生成目标时段；
35.解析所述识别请求的报文头，得到所述报文头携带的地址信息；
36.从所述地址信息中获取与配置标签对应的信息作为发送地址，所述配置标签用于指示发送；
37.将与所述发送地址对应的终端确定为发送终端，并确定所述发送终端的语音存储路径；
38.从所述语音存储路径中获取与所述目标时段对应的语音作为所述用户语音。
39.根据本发明优选实施例，在根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感之后，所述方法还包括：
40.确定所述语音情感所属的情感类型；
41.若所述情感类型为预设类型，根据所述语音情感及所述识别请求的请求编号生成告警信息；
42.基于对称加密算法对所述告警信息进行加密处理，得到密文；
43.将所述密文发送至所述发送终端。
44.另一方面，本发明还提出一种语音情感识别装置，所述语音情感识别装置包括：
45.获取单元，用于获取情感语音样本，所述情感语音样本包括样本音频及所述样本音频的标注结果；
46.调整单元，用于获取预设学习器，并基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型；
47.所述获取单元，用于当接收到识别请求时，根据所述识别请求获取用户语音；
48.处理单元，用于基于预先训练好的降噪模型对所述用户语音进行降噪处理，得到目标语音；
49.预处理单元，用于对所述目标语音进行预处理，得到所述目标语音的梅谱信息；
50.输入单元，用于将所述梅谱信息输入至所述情感识别模型中，得到语音输出向量；
51.生成单元，用于根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感。
52.另一方面，本发明还提出一种电子设备，所述电子设备包括：
53.存储器，存储计算机可读指令；及
54.处理器，执行所述存储器中存储的计算机可读指令以实现所述语音情感识别方法。
55.另一方面，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现所述语音情感识别方法。
56.由以上技术方案可以看出，本发明直接对用户语音中的情感信息进行分析，由于无需对用户语音所表征的语音文本进行分析，因此，能够避免由于语音识别不准确造成语音情感分析不准确，同时，本发明通过所述降噪模型对所述用户语音进行降噪处理，能够避免背景噪声等干扰信息对情感识别的影响，从而能够提高所述语音情感的准确性。
附图说明
57.图1是本发明语音情感识别方法的较佳实施例的流程图。
58.图2是本发明语音情感识别装置的较佳实施例的功能模块图。
59.图3是本发明实现语音情感识别方法的较佳实施例的电子设备的结构示意图。
具体实施方式
60.为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
61.如图1所示，是本发明语音情感识别方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。
62.所述语音情感识别方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的计算机可读指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程门阵列(field－programmable gate array，fpga)、数字信号处理器(digital signal processor，dsp)、嵌入式设备等。
63.所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant，pda)、游戏机、交互式网络电视(internet protocol television，iptv)、智能穿戴式设备等。
64.所述电子设备可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(cloud computing)的由大量主机或网络电子设备构成的云。
65.所述电子设备所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network，vpn)等。
66.s10，获取情感语音样本，所述情感语音样本包括样本音频及所述样本音频的标注结果。
67.在本发明的至少一个实施例中，所述情感语音样本是指用于训练情感识别模型的样本信息。
68.所述样本音频可以是任意客服电话中客服所属的音频。
69.所述标注结果可以是用户根据预设规则对所述样本音频进行标注的结果。所述标注结果包括，但不限于：生气、难过、开心等。
70.s11，获取预设学习器，并基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型。
71.在本发明的至少一个实施例中，所述预设学习器包括卷积网络层、循环神经网络层及全连接层。
72.所述网络参数包括所述卷积网络层中的配置参数、所述循环神经网络层中的配置参数及所述全连接层中的配置参数。
73.所述情感识别模型是指所述网络参数经过调整后的预设学习器。
74.需要说明的是，所述调整后的预设学习器收敛是指所述调整后的预设学习器训练所述样本音频所得到的训练结果与所述标注结果的相似度不再升高。
75.所述情感识别模型用于直接识别音频中的情感状态。
76.在本发明的至少一个实施例中，所述电子设备基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型包括：
77.确定所述样本音频所在的样本编号，并根据所述样本编号获取所述样本音频在预设标签中对应的信息作为音频梅尔信息；
78.基于所述卷积网络层提取所述音频梅尔信息中的特征信息，并将所述特征信息转换为时序信息；
79.基于所述循环神经网络层提取所述时序信息中的特征，得到目标特征；
80.基于所述全连接层处理所述目标特征，得到所述样本音频的样本输出向量；
81.根据所述预设结果映射表确定所述标注结果所对应的标注向量；
82.基于所述样本输出向量与所述标注向量的相似度调整所述网络参数，直至所述相似度不再升高，停止调整所述网络参数，得到所述情感识别模型。
83.其中，所述样本编号用于唯一标识所述样本音频所在的样本。
84.所述预设标签用于指示梅尔信息。
85.所述样本输出向量是指所述预设学习器预测所述样本音频所得到的信息。
86.所述预设结果映射表中存储有向量维度与情感状态的映射关系。例如，所述预设结果映射表中的所述情感状态包括：生气、高兴、难过三种情感，并且，情感状态“生气”与第一个维度关联，情感状态“高兴”与第二个维度关联，情感状态“难过”与第三个维度关联，若标注结果为生气，则所述标注向量为(1，0，0)。
87.通过所述样本编号及所述预设标签能够准确的获取到与所述样本音频对应的音频梅尔信息，进而根据所述卷积网络层、所述循环神经网络层及所述全连接层能够准确的
确定出所述预设学习器对所述样本音频的预测结果，进而根据所述标注结果与所述样本输出向量的相似度调整所述网络参数，提高所述情感识别模型的识别准确性。
88.s12，当接收到识别请求时，根据所述识别请求获取用户语音。
89.在本发明的至少一个实施例中，所述识别请求可以是在发送终端检测到用户与客户建立通话连接时触发生成的请求。
90.所述识别请求中携带有所述发送终端的地址信息及请求编号等信息。
91.所述用户语音是指需要进行情感识别的音频信息。所述用户语音中仅包含有单方用户的音频信息。
92.在本发明的至少一个实施例中，所述电子设备根据所述识别请求获取用户语音包括：
93.获取所述识别请求的接收时刻，并根据所述接收时刻及预设时段生成目标时段；
94.解析所述识别请求的报文头，得到所述报文头携带的地址信息；
95.从所述地址信息中获取与配置标签对应的信息作为发送地址，所述配置标签用于指示发送；
96.将与所述发送地址对应的终端确定为发送终端，并确定所述发送终端的语音存储路径；
97.从所述语音存储路径中获取与所述目标时段对应的语音作为所述用户语音。
98.其中，所述接收时刻是指所述电子设备接收到所述识别请求的时刻。
99.所述预设时段是根据网络延迟的延迟时间设定的。
100.所述配置标签可以是from。
101.所述语音存储路径是指所述发送终端中存储客服音频的路径。
102.通过所述接收时刻及所述预设时段生成所述目标时段，能够避免由于网络延迟而导致获取到与所述识别请求不对应的检测音频，从而提高所述用户语音的获取准确性，通过所述语音存储路径的定位能够快速获取到所述用户语音。
103.具体地，所述电子设备根据所述接收时刻及预设时段生成目标时段包括：
104.获取所述目标时段中左区间所对应的时刻作为第一时刻，并获取所述目标时段中右区间所对应的时刻作为第二时刻；
105.计算所述接收时刻与所述第二时刻的差值，得到第三时刻，并计算所述接收时刻与所述第一时刻的差值，得到第四时刻；
106.将所述第三时刻作为左区间，所述第四时刻作为右区间生成所述目标时段。
107.s13，基于预先训练好的降噪模型对所述用户语音进行降噪处理，得到目标语音。
108.在本发明的至少一个实施例中，所述降噪模型用于对音频进行降噪处理，所述用户语音经过所述降噪模型处理，能够得到所述目标语音。
109.所述目标语音中不包含所述用户语音中的背景语音等干扰信息。
110.在本发明的至少一个实施例中，所述方法还包括：
111.获取多个录制音频，并获取多个预设音频；
112.对每个所述录制音频及每个所述预设音频进行合成处理，得到每个录制音频所对应的多个加工音频；
113.获取预设分割网络；
114.基于每个加工音频及每个加工音频所对应的录制音频调整所述预设分割网络，直至调整后的预设分割网络收敛，得到所述降噪模型。
115.其中，所述多个录制音频是单方用户的纯净语音。
116.所述多个预设音频可以包括，但不限于：汽笛声等。
117.通过在不具有干扰信息的录制音频中合成多个预设音频，能够提高所述降噪模型的降噪准确性。
118.s14，对所述目标语音进行预处理，得到所述目标语音的梅谱信息。
119.在本发明的至少一个实施例中，所述梅谱信息基于所述目标语音中的声音频率而生成的信息。
120.在本发明的至少一个实施例中，所述电子设备对所述目标语音进行预处理，得到所述目标语音的梅谱信息包括：
121.以第一预设时长为时间窗口，第二预设时长为滑动窗口对所述目标语音进行切分，得到多个音频片段；
122.提取每个音频片段中的音频信息；
123.对所述音频信息进行傅里叶变换处理，得到每个音频片段的频谱图；
124.基于梅尔尺度滤波器处理所述频谱图，得到所述梅谱信息。
125.通过对所述目标语音进行滑动切分，能够实现对所述目标语音进行动态时序预测，通过对所述音频信息进行傅里叶变换处理，能够使生成的所述频谱图具有时频信息，通过所述梅尔尺度滤波器处理所述频谱图，为后续所述情感识别模型提取特征信息提供了便利。
126.具体地，所述电子设备以第一预设时长为时间窗口，第二预设时长为滑动窗口对所述目标语音进行切分，得到多个音频片段。
127.例如：所述目标语音包含有60s的信息，所述第一预设时长为30s，所述第二预设时长为5s，则经过切分所述目标语音，得到第0s
‑
第30s的信息、第5s
‑
第35s的信息、第10s
‑
第40s的信息、第15s
‑
第45s的信息、第20s
‑
第50s的信息、第25s
‑
第55s的信息、第30s
‑
第60s的信息。
128.s15，将所述梅谱信息输入至所述情感识别模型中，得到语音输出向量。
129.在本发明的至少一个实施例中，所述语音输出向量是指所述情感识别模型对所述梅谱信息进行预测而生成的信息。
130.在本发明的至少一个实施例中，所述情感识别模型预测所述梅谱信息的具体过程与所述预设学习器预测所述样本音频的具体过程相同，本发明对此不再赘述。
131.s16，根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感。
132.在本发明的至少一个实施例中，所述语音情感是指所述情感识别模型对所述用户语音的预测结果。所述语音情感可以包括所述标注结果中其中一种结果。例如，所述语音情感可以是：失望、生气、高兴或者难过。
133.需要强调的是，为进一步保证上述语音情感的私密和安全性，上述语音情感还可以存储于一区块链的节点中。
134.在本发明的至少一个实施例中，所述电子设备根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感包括：
135.对所述语音输出向量进行归一化处理，得到概率向量；
136.将所述概率向量中取值最大的元素所在的维度确定为目标维度；
137.从所述预设结果映射表中获取与所述目标维度对应的情感作为所述语音情感。
138.通过调整训练所述情感识别模型时使用的所述预设结果映射表对所述目标维度进行映射处理，能够提高所述语音情感的准确性。
139.在本发明的至少一个实施例中，在根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感之后，所述方法还包括：
140.确定所述语音情感所属的情感类型；
141.若所述情感类型为预设类型，根据所述语音情感及所述识别请求的请求编号生成告警信息；
142.基于对称加密算法对所述告警信息进行加密处理，得到密文；
143.将所述密文发送至所述发送终端。
144.其中，所述情感类型可以包括：消极情感、积极情感及中性情感。
145.所述预设类型通常设置为消极情感。
146.通过对所述语音情感进行分类，能够快速确定出是否需要告警，通过对所述告警信息进行加密，提高所述密文的安全性。
147.由以上技术方案可以看出，本发明直接对用户语音中的情感信息进行分析，由于无需对用户语音所表征的语音文本进行分析，因此，能够避免由于语音识别不准确造成语音情感分析不准确，同时，本发明通过所述降噪模型对所述用户语音进行降噪处理，能够避免背景噪声等干扰信息对情感识别的影响，从而能够提高所述语音情感的准确性。
148.如图2所示，是本发明语音情感识别装置的较佳实施例的功能模块图。所述语音情感识别装置11包括获取单元110、调整单元111、处理单元112、预处理单元113、输入单元114、生成单元115、确定单元116、加密单元117及发送单元118。本发明所称的模块/单元是指一种能够被处理器13所获取，并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。
149.获取单元110获取情感语音样本，所述情感语音样本包括样本音频及所述样本音频的标注结果。
150.在本发明的至少一个实施例中，所述情感语音样本是指用于训练情感识别模型的样本信息。
151.所述样本音频可以是任意客服电话中客服所属的音频。
152.所述标注结果可以是用户根据预设规则对所述样本音频进行标注的结果。所述标注结果包括，但不限于：生气、难过、开心等。
153.调整单元111获取预设学习器，并基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型。
154.在本发明的至少一个实施例中，所述预设学习器包括卷积网络层、循环神经网络层及全连接层。
155.所述网络参数包括所述卷积网络层中的配置参数、所述循环神经网络层中的配置参数及所述全连接层中的配置参数。
156.所述情感识别模型是指所述网络参数经过调整后的预设学习器。
157.需要说明的是，所述调整后的预设学习器收敛是指所述调整后的预设学习器训练所述样本音频所得到的训练结果与所述标注结果的相似度不再升高。
158.所述情感识别模型用于直接识别音频中的情感状态。
159.在本发明的至少一个实施例中，所述调整单元111基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型包括：
160.确定所述样本音频所在的样本编号，并根据所述样本编号获取所述样本音频在预设标签中对应的信息作为音频梅尔信息；
161.基于所述卷积网络层提取所述音频梅尔信息中的特征信息，并将所述特征信息转换为时序信息；
162.基于所述循环神经网络层提取所述时序信息中的特征，得到目标特征；
163.基于所述全连接层处理所述目标特征，得到所述样本音频的样本输出向量；
164.根据所述预设结果映射表确定所述标注结果所对应的标注向量；
165.基于所述样本输出向量与所述标注向量的相似度调整所述网络参数，直至所述相似度不再升高，停止调整所述网络参数，得到所述情感识别模型。
166.其中，所述样本编号用于唯一标识所述样本音频所在的样本。
167.所述预设标签用于指示梅尔信息。
168.所述样本输出向量是指所述预设学习器预测所述样本音频所得到的信息。
169.所述预设结果映射表中存储有向量维度与情感状态的映射关系。例如，所述预设结果映射表中的所述情感状态包括：生气、高兴、难过三种情感，并且，情感状态“生气”与第一个维度关联，情感状态“高兴”与第二个维度关联，情感状态“难过”与第三个维度关联，若标注结果为生气，则所述标注向量为(1，0，0)。
170.通过所述样本编号及所述预设标签能够准确的获取到与所述样本音频对应的音频梅尔信息，进而根据所述卷积网络层、所述循环神经网络层及所述全连接层能够准确的确定出所述预设学习器对所述样本音频的预测结果，进而根据所述标注结果与所述样本输出向量的相似度调整所述网络参数，提高所述情感识别模型的识别准确性。
171.当接收到识别请求时，所述获取单元110根据所述识别请求获取用户语音。
172.在本发明的至少一个实施例中，所述识别请求可以是在发送终端检测到用户与客户建立通话连接时触发生成的请求。
173.所述识别请求中携带有所述发送终端的地址信息及请求编号等信息。
174.所述用户语音是指需要进行情感识别的音频信息。所述用户语音中仅包含有单方用户的音频信息。
175.在本发明的至少一个实施例中，所述获取单元110根据所述识别请求获取用户语音包括：
176.获取所述识别请求的接收时刻，并根据所述接收时刻及预设时段生成目标时段；
177.解析所述识别请求的报文头，得到所述报文头携带的地址信息；
178.从所述地址信息中获取与配置标签对应的信息作为发送地址，所述配置标签用于指示发送；
179.将与所述发送地址对应的终端确定为发送终端，并确定所述发送终端的语音存储
路径；
180.从所述语音存储路径中获取与所述目标时段对应的语音作为所述用户语音。
181.其中，所述接收时刻是指所述电子设备接收到所述识别请求的时刻。
182.所述预设时段是根据网络延迟的延迟时间设定的。
183.所述配置标签可以是from。
184.所述语音存储路径是指所述发送终端中存储客服音频的路径。
185.通过所述接收时刻及所述预设时段生成所述目标时段，能够避免由于网络延迟而导致获取到与所述识别请求不对应的检测音频，从而提高所述用户语音的获取准确性，通过所述语音存储路径的定位能够快速获取到所述用户语音。
186.具体地，所述获取单元110根据所述接收时刻及预设时段生成目标时段包括：
187.获取所述目标时段中左区间所对应的时刻作为第一时刻，并获取所述目标时段中右区间所对应的时刻作为第二时刻；
188.计算所述接收时刻与所述第二时刻的差值，得到第三时刻，并计算所述接收时刻与所述第一时刻的差值，得到第四时刻；
189.将所述第三时刻作为左区间，所述第四时刻作为右区间生成所述目标时段。
190.处理单元112基于预先训练好的降噪模型对所述用户语音进行降噪处理，得到目标语音。
191.在本发明的至少一个实施例中，所述降噪模型用于对音频进行降噪处理，所述用户语音经过所述降噪模型处理，能够得到所述目标语音。
192.所述目标语音中不包含所述用户语音中的背景语音等干扰信息。
193.在本发明的至少一个实施例中，所述获取单元110获取多个录制音频，并获取多个预设音频；
194.处理单元112对每个所述录制音频及每个所述预设音频进行合成处理，得到每个录制音频所对应的多个加工音频；
195.所述获取单元110获取预设分割网络；
196.所述调整单元111基于每个加工音频及每个加工音频所对应的录制音频调整所述预设分割网络，直至调整后的预设分割网络收敛，得到所述降噪模型。
197.其中，所述多个录制音频是单方用户的纯净语音。
198.所述多个预设音频可以包括，但不限于：汽笛声等。
199.通过在不具有干扰信息的录制音频中合成多个预设音频，能够提高所述降噪模型的降噪准确性。
200.预处理单元113对所述目标语音进行预处理，得到所述目标语音的梅谱信息。
201.在本发明的至少一个实施例中，所述梅谱信息基于所述目标语音中的声音频率而生成的信息。
202.在本发明的至少一个实施例中，所述预处理单元113对所述目标语音进行预处理，得到所述目标语音的梅谱信息包括：
203.以第一预设时长为时间窗口，第二预设时长为滑动窗口对所述目标语音进行切分，得到多个音频片段；
204.提取每个音频片段中的音频信息；
205.对所述音频信息进行傅里叶变换处理，得到每个音频片段的频谱图；
206.基于梅尔尺度滤波器处理所述频谱图，得到所述梅谱信息。
207.通过对所述目标语音进行滑动切分，能够实现对所述目标语音进行动态时序预测，通过对所述音频信息进行傅里叶变换处理，能够使生成的所述频谱图具有时频信息，通过所述梅尔尺度滤波器处理所述频谱图，为后续所述情感识别模型提取特征信息提供了便利。
208.具体地，所述预处理单元113以第一预设时长为时间窗口，第二预设时长为滑动窗口对所述目标语音进行切分，得到多个音频片段。
209.例如：所述目标语音包含有60s的信息，所述第一预设时长为30s，所述第二预设时长为5s，则经过切分所述目标语音，得到第0s
‑
第30s的信息、第5s
‑
第35s的信息、第10s
‑
第40s的信息、第15s
‑
第45s的信息、第20s
‑
第50s的信息、第25s
‑
第55s的信息、第30s
‑
第60s的信息。
210.输入单元114将所述梅谱信息输入至所述情感识别模型中，得到语音输出向量。
211.在本发明的至少一个实施例中，所述语音输出向量是指所述情感识别模型对所述梅谱信息进行预测而生成的信息。
212.在本发明的至少一个实施例中，所述情感识别模型预测所述梅谱信息的具体过程与所述预设学习器预测所述样本音频的具体过程相同，本发明对此不再赘述。
213.生成单元115根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感。
214.在本发明的至少一个实施例中，所述语音情感是指所述情感识别模型对所述用户语音的预测结果。所述语音情感可以包括所述标注结果中其中一种结果。例如，所述语音情感可以是：失望、生气、高兴或者难过。
215.需要强调的是，为进一步保证上述语音情感的私密和安全性，上述语音情感还可以存储于一区块链的节点中。
216.在本发明的至少一个实施例中，所述生成单元115根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感包括：
217.对所述语音输出向量进行归一化处理，得到概率向量；
218.将所述概率向量中取值最大的元素所在的维度确定为目标维度；
219.从所述预设结果映射表中获取与所述目标维度对应的情感作为所述语音情感。
220.通过调整训练所述情感识别模型时使用的所述预设结果映射表对所述目标维度进行映射处理，能够提高所述语音情感的准确性。
221.在本发明的至少一个实施例中，在根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感之后，确定单元116确定所述语音情感所属的情感类型；
222.若所述情感类型为预设类型，所述生成单元115根据所述语音情感及所述识别请求的请求编号生成告警信息；
223.加密单元117基于对称加密算法对所述告警信息进行加密处理，得到密文；
224.发送单元118将所述密文发送至所述发送终端。
225.其中，所述情感类型可以包括：消极情感、积极情感及中性情感。
226.所述预设类型通常设置为消极情感。
227.通过对所述语音情感进行分类，能够快速确定出是否需要告警，通过对所述告警信息进行加密，提高所述密文的安全性。
228.由以上技术方案可以看出，本发明直接对用户语音中的情感信息进行分析，由于无需对用户语音所表征的语音文本进行分析，因此，能够避免由于语音识别不准确造成语音情感分析不准确，同时，本发明通过所述降噪模型对所述用户语音进行降噪处理，能够避免背景噪声等干扰信息对情感识别的影响，从而能够提高所述语音情感的准确性。
229.如图3所示，是本发明实现语音情感识别方法的较佳实施例的电子设备的结构示意图。
230.在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令，例如语音情感识别程序。
231.本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
232.所述处理器13可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
233.示例性的，所述计算机可读指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如，所述计算机可读指令可以被分割成获取单元110、调整单元111、处理单元112、预处理单元113、输入单元114、生成单元115、确定单元116、加密单元117及发送单元118。
234.所述存储器12可用于存储所述计算机可读指令和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器，例如：硬盘、内存、插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
235.所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、tf卡(trans
‑
flash card)等等。
236.所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的
产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。
237.其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)。
238.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
239.结合图1，所述电子设备1中的所述存储器12存储计算机可读指令实现一种语音情感识别方法，所述处理器13可执行所述计算机可读指令从而实现：
240.获取情感语音样本，所述情感语音样本包括样本音频及所述样本音频的标注结果；
241.获取预设学习器，并基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型；
242.当接收到识别请求时，根据所述识别请求获取用户语音；
243.基于预先训练好的降噪模型对所述用户语音进行降噪处理，得到目标语音；
244.对所述目标语音进行预处理，得到所述目标语音的梅谱信息；
245.将所述梅谱信息输入至所述情感识别模型中，得到语音输出向量；
246.根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感。
247.具体地，所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
248.在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
249.所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器13执行时用以实现以下步骤：
250.获取情感语音样本，所述情感语音样本包括样本音频及所述样本音频的标注结果；
251.获取预设学习器，并基于所述样本音频及所述标注结果调整所述预设学习器的网络参数，直至调整后的预设学习器收敛，得到情感识别模型；
252.当接收到识别请求时，根据所述识别请求获取用户语音；
253.基于预先训练好的降噪模型对所述用户语音进行降噪处理，得到目标语音；
254.对所述目标语音进行预处理，得到所述目标语音的梅谱信息；
255.将所述梅谱信息输入至所述情感识别模型中，得到语音输出向量；
256.根据所述语音输出向量及预设结果映射表生成所述用户语音的语音情感。
257.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
258.另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
259.因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
260.此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。
261.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音唤醒方法、系统、设备及存储介质与流程

语音情感识别方法、装置、设备及存储介质与流程

相关文章

最热文献