农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

基于上下文的语音情感检测方法、装置、设备及存储介质与流程

2021-06-18 20:18:00 来源：中国专利 TAG：语义上下文电子设备语音检测方法

本发明涉及语义分析技术领域，尤其涉及一种基于上下文的语音情感检测方法、装置、电子设备及计算机可读存储介质。

背景技术：

语音情感检测一直是人们关注的热门领域，语音情感检测是从语音文件中获得说话人情绪变化信息。例如，从客户与客服的对话录音中检测出客户的情感，以实现根据客户情感对客户提供相应的对话语句。

现有的语音情感检测多为基于对话内容的情感预测，即根据客户与客服之间对话的详细内容，如对话中出现的词语词性等来判断客户情感，但在真实的业务场景中，我们发现客户的情感还会受到客服的情感的影响。因此仅基于对话内容对客户的情感进行检测，会造成情感检测的精确度不高的问题。

技术实现要素：

本发明提供一种基于上下文的语音情感检测方法、装置及计算机可读存储介质，其主要目的在于解决情感检测的精确度不高的问题。

为实现上述目的，本发明提供的一种基于上下文的语音情感检测方法，包括：

获取输入语音流，对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征；

根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段；

分别提取所述客服语音段与所述客户语音段的语音时刻；

选取预设的第一时刻下的所述客服语音段为第一语音段，选取预设的第二时刻下的所述客户语音段为第二语音段，其中，所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻；

利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感；

将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感。

可选地，所述对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征，包括：

对不同语音时刻下的输入语音流进行卷积处理，得到卷积语音流；

对所述卷积语音流进行全局最大池化处理，得到池化语音流；

对所述池化语音流进行全连接处理，得到全连接语音流；

对所述全连接语音流进行全连接处理，得到所述输入语音流的声纹特征。

可选地，所述根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段，包括：

计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值；

将所述输入语音流中距离值小于预设距离阈值的语音段汇集为客服语音段；

将所述距离值大于或等于所述预设距离阈值的的语音段汇集为客户语音段。

可选地，所述利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感，包括：

检测所述第一语音段的语音时长和语音语调；

持续检测所述第一语音段的语音强度，根据所述语音时长和所述语音强度计算所述第一语音段的语音音量；

对所述第一语音段进行语音内容识别，统计语音内容识别结果中用户的语音字数；

根据所述语音时长和所述语音字数计算所述第一语音段的语音语速；

根据所述语音语调、所述语音音量和所述语音语速计算客服情感值；

根据所述客服情感值所在的数值区间确定客服情感。

可选地，所述将所述客服情感作为参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感，包括：

对所述客服情感进行参数转化，得到情感参数；

利用所述情感参数对所述情感分析模型进行参数赋值，得到带有参数的情感分析模型；

利用所述带有参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感。

可选地，所述对所述客服情感进行参数转化，得到情感参数，包括：

对所述客服情感进行词向量数值转化，得到客服情感参数；

获取所述情感分析模型的配置文件；

解析所述配置文件得到配置项，并提取所述配置项中的配置参数；

利用所述客服情感参数对所述配置参数进行赋值，得到赋值参数；

将所述赋值参数输入至所述情感分析模型，得到含参数的情感分析模型；

利用所述含参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感。

可选地，所述利用所述客服情感参数对所述配置参数进行赋值，得到赋值参数，包括：

遍历所述客服情感参数并确定所述客服情感参数中的第一标识符；

遍历所述配置参数并确定所述配置参数中的第二标识符；

将所述第一标识符与所述第二标识符进行对比分析，得到对比分析结果；

当所述对比分析结果为所述第一标识符与所述第二标识符不相同时，重新遍历所述配置参数并确定所述配置参数中的第二标识符；

当所述对比分析结果为所述第一标识符与所述第二标识符相同时，利用所述第一标识符对应的客服情感参数对所述第二标识符对应的配置参数进行赋值，得到赋值参数。

为了解决上述问题，本发明还提供一种基于上下文的语音情感检测装置，所述装置包括：

特征提取模块，用于获取输入语音流，对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征；

语音划分模块，用于根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段；

时刻提取模块，用于分别提取所述客服语音段与所述客户语音段的语音时刻；

语音选取模块，用于选取预设的第一时刻下的所述客服语音段为第一语音段，选取预设的第二时刻下的所述客户语音段为第二语音段，其中，所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻；

第一检测模块，用于利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感；

第二检测模块，用于将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的基于上下文的语音情感检测方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于上下文的语音情感检测方法。

本发明实施例通过提取输入语音流的声纹特征，并根据声纹特征将输入语音流划分为客服语音段与客户语音段，可实现将输入语音流中客服语音段与客户语音段的分离，有利于后续针对性的对不同的语音段进行情感检测，进而提高情感检测的精确度；检测语音时刻在前的客服语音段中的客服情绪，再利用客服情绪作为参数对语言时刻在后的客户语音段中的客户情绪进行检测，考虑到了客服情绪对客户情绪的影响，有利于提高检测客户语音段中客户情绪的精确度。因此本发明提出的基于上下文的语音情感检测方法、装置、电子设备及计算机可读存储介质，可以解决情感检测的精确度不高的问题。

附图说明

图1为本发明一实施例提供的基于上下文的语音情感检测方法的流程示意图；

图2为本发明一实施例提供的基于上下文的语音情感检测装置的功能模块图；

图3为本发明一实施例提供的实现所述基于上下文的语音情感检测方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于上下文的语音情感检测方法。所述基于上下文的语音情感检测方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于上下文的语音情感检测方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示，为本发明一实施例提供的基于上下文的语音情感检测方法的流程示意图。在本实施例中，所述基于上下文的语音情感检测方法包括：

s1、获取输入语音流，对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征。

本发明实施例中，所述输入语音流包括但不限于通话录音，例如，客户针对产品或服务提出客服售后时，客户与客服之间的通话录音。

详细地，所述输入语音流可由具有数据抓取功能的python语句从预先存储所述输入语音流的区块链节点中获取。利用区块链对数据的高吞吐性，可提高获取所述输入语音流的效率。

本发明实施例中，所述对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征，包括：

对不同语音时刻下的输入语音流进行卷积处理，得到卷积语音流；

对所述卷积语音流进行全局最大池化处理，得到池化语音流；

利用第一全连接层对所述池化语音流进行全连接处理，得到全连接语音流；

利用第二全连接层对所述全连接语音流进行全连接处理，得到所述输入语音流的声纹特征。

具体地，由于语音流中包含大量语音信息，直接对语音流进行分析会占用大量计算资源，造成分析效率低下，本发明实施例将语音流进行卷积处理，可提取出语音流的声纹特征，进而减少需要分析的数据量，提高后续分析效率；但卷积得到的卷积语音流的声纹特征依然存在着多维的情况，本发明实施例利用全局最大池化可进一步减少卷积得到的卷积语音流中声纹特征的维度，减少后续对池化语音流进行声纹特征提取时计算资源的占用，提高提取声纹特征的效率。

本发明实施例利用包含双全连接层的densenet201网络对对所述输入语音流进行卷积、池化及全连接处理，所述densenet201网络是一种密集连接卷积神经网络，包括多个卷积层，网络中每一目标卷积层的输入均为该目标卷积层之前所有网络层次的输出，以此减少需要设定的参数，从而提高网络对语音流处理的效率。

本发明实施例利用双全连接层级联对池化语音流进行双全连接处理，可提高网络复杂度，进而提高获得的所述语音流的声纹特征的精确度，有利于提高后续基于所述语音流的特征进行情感分析的精确度。

s2、根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段。

本发明实施例中，所述根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段，包括：

计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值；

将所述输入语音流中距离值小于预设距离阈值的语音段汇集为客服语音段；

将所述距离值大于或等于所述预设距离阈值的的语音段汇集为客户语音段。

详细地，所述标准客服声纹特征一般是指根据客服语音段预先确定的声纹特征，所述标准客服声纹特征由用户预先给定。

具体地，所述计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值，包括：

利用如下距离算法计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值：

其中，l(x，y)为所述距离值，x为所述标准客服声纹，yi为所述输入语音流中第i个语音段。

本发明实施例将输入语音流中距离值小于预设距离阈值的语音段汇集为客服语音段，将距离值大于或等于预设距离阈值的时刻下的语音段汇集为客户语音段，例如，输入语音流中存在语音段a、语音段b、语音段c和语音段d，其中，语音段a的声纹特征与标准客服声纹特征的距离值为20，语音段b的声纹特征与标准客服声纹特征的距离值为35，语音段c的声纹特征与标准客服声纹特征的距离值为66，语音段d的声纹特征与标准客服声纹特征的距离值为72，当预设距离阈值为50时，将语音段a和语音段b汇集为客服语音段，将语音段c和语音段d汇集为客户语音段。

本发明实施例根据所述声纹特征将输入语音流划分为客服语音段与客户语音段，可实现将输入语音流中客服语音段与客户语音段的分离，有利于后续针对性的对不同的语音段进行情感检测，进而提高情感检测的精确度。

s3、分别提取所述客服语音段与所述客户语音段的语音时刻。

本发明实施例中，所述语音时刻是指不同语音段的中间时刻，例如，客服语音段a的时间为9点10分至9点20分，则所述客服语音段a的语音时刻为9点15分，再例如，客户语音段e的时间为10点30分至10点40分，则所述客户语音段e的语音时刻为10点35分。

详细地，所述分别提取所述客服语音段与所述客户语音段的语音时刻，包括：

利用如下时刻提取算法提取所述客服语音段与客户语音段的语音时刻：

其中，bu(t)为所述语音时刻，du为所述输入语音流中第u个客服语音段或客服语音段，i为所述输入语音流中所述客服语音段与客户语音段的总数量，t0为所述输入语音流中第u个客服语音段或客服语音段的开始时间，t1为所述输入语音流中第u个客服语音段或客服语音段的结束时间，为取中间时刻的运算符号。

s4、选取预设的第一时刻下的所述客服语音段为第一语音段，选取预设的第二时刻下的所述客户语音段为第二语音段，其中，所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻。

本发明实施例中，选取预设的第一时下的客服语音段为第一语音段，选取预设的第二时刻下的客户语音段为第二语音段，且所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻。

例如，存在语音时刻为8点10分的客服语音段1，语音时刻为8点12分的客户语音段2，语音时刻为8点14分的客服语音段3，语音时刻为8点16分的客户语音段4，则可选取客服语音段1为第一语音段，选取客户语音段2为第二语音段；或者，选取客服语音段3为第一语音段，选取客户语音段4为第二语音段。

详细地，在客服、客户的对话场景中，一般情况是客服与客户的语音轮流出现，例如，客服语音：您需要什么帮助呢？客户：我需要为产品a申请售后服务。客服语音：您需要申请保修还是退货服务呢？客户语音：我需要申请保修服务。

上述情况下，由于客户的情绪可能会随着客服所说的内容而变化，例如客服的语音内容或语调等让客户产生误解，导致后续客户语音包含的情感为负面情感，因此本发明实施例选取预设的第一时刻下的客服语音段为第一语音段并选取在第一时刻之后的第二时刻的客户语音段为第二语音段，有利于后续基于第一语音段分析第二语音段中客户的情感，以提高情感检测的精确度。

s5、利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感。

本发明实施例中，所述预先训练完成的情感分析模型具有音频语言处理的卷积神经网络。

详细地，所述利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感，包括：

利用所述情感分析模型检测所述第一语音段的语音时长和语音语调；

持续检测所述第一语音段的语音强度，根据所述语音时长和所述语音强度计算所述第一语音段的语音音量；

对所述第一语音段进行语音内容识别，统计语音内容识别结果中用户的语音字数；

根据所述语音时长和所述语音字数计算所述第一语音段的语音语速；

根据所述语音语调、所述语音音量和所述语音语速计算客服情感值；

根据所述客服情感值所在的数值区间确定客服情感。

详细地，本发明实施例利用预先安装于情感分析模型中的音频强度检测工具来持续检测所述第一语音段的语音强度，所述音频强度检测工具包括pocketrta分贝测试仪、siasmaartlive分贝测试工具等。

本发明实施例通过预先训练完成的情感分析模型提取所述第一语音段的语调特征来实现检测所述第一语音段的语音语调。

具体地，根据所述语音时长和所述语音强度计算所述第一语音段的语音音量是计算所述第一语音段在所述语音时长内的平均音量，本发明实施例利用如下均值算法计算所述平均音量：

其中，l为所述平均音量，n为所述语音时长，pt为所述第一语音段在t时刻的语音强度。

进一步地，本发明实施例中利用asr(automaticspeechrecognition，自动语音内容识别)技术对所述第一语音段进行文本转换，得到语音内容识别，并统计语音内容识别的结果中用户的语音字数。

详细地，根据所述语音时长和所述语音字数计算所述第一语音段的语音语速是通过速率算法计算所述第一语音段在所述第一语音段的语音时长内的说话语速，所述速率算法为：

其中，v为所述语音语速，n为所述语音时长，n为所述语音字数。

本发明实施例中，所述根据所述语音语调、所述语音音量和所述语音语速计算客服情感值，包括：

利用如下积极度算法根据所述语音语调、所述语音音量和所述语音语速计算客服情感值：

其中，j为所述客服情感值，w为所述语音语调，l为所述平均音量，v为所述语音语速，α为预设权重系数。

详细地，计算获取所述客服情感值后，将所述客服情感值与预设的数值区间进行比较，根据所述客服情感值所在的数值区间确定客服情感，例如，当所述客服情感值在预设的数值区间[a，b)内时，确定客服情感为积极情感，当所述客服情感值在预设的数值区间(b，c]内时，确定客服情感为消极情感。

s6、将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感。

本发明实施例中，所述将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感，包括：

对所述客服情感进行参数转化，得到情感参数；

利用所述情感参数对所述情感分析模型进行参数赋值，得到带有参数的情感分析模型；

利用所述带有参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感。

详细地，所述对所述客服情感进行参数转化，得到情感参数，包括：

对所述客服情感进行词向量数值转化，得到客服情感参数；

获取所述情感分析模型的配置文件；

解析所述配置文件得到配置项，并提取所述配置项中的配置参数；

利用所述客服情感参数对所述配置参数进行赋值，得到赋值参数；

将所述赋值参数输入至所述情感分析模型，得到含参数的情感分析模型；

利用所述含参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感。

本发明实施例利用预先构建的词向量转化模型对所述客服情感进行词向量数值转化，得到客服情感参数，所述词向量转化模型包括但不限于word2vec词向量模型和doc2vec词向量模型。

具体地，本发明实施例可利用具有文件调用功能的java语句从所述情感分析模型中调用所述配置文件，所述配置文件是所述情感分析模型框架中用于记录模型数据的文件。

本发明实施例利用预设的解析器对所述配置文件进行解析，得到所述配置项，其中，所述解析器包括但不限于carakanc/c 解析器，squirrelfishc 解析器和squirrelfishextremec 。

进一步地，本发明实施例利用具有数据提取功能的python语句提取所述配置项中的配置参数。

详细地，所述利用所述客服情感参数对所述配置参数进行赋值，得到赋值参数，包括：

遍历所述客服情感参数并确定所述客服情感参数中的第一标识符；

遍历所述配置参数并确定所述配置参数中的第二标识符；

将所述第一标识符与所述第二标识符进行对比分析；

当所述第一标识符与所述第二标识符不相同时，重新遍历所述配置参数并确定所述配置参数中的第二标识符；

当所述第一标识符与所述第二标识符相同时，利用所述第一标识符对应的客服情感参数对所述第二标识符对应的配置参数进行赋值，得到赋值参数。

本发明实施例中，所述第一标识符和所述第二标识符为预先设定的用于标记参数类型或名称的唯一标识。

例如，存在客服情感参数的第一标识符为a；存在配置参数α、存在配置参数β和存在配置参数γ，遍历三个配置参数得到：配置参数α的第二标识符为c，配置参数β的第二标识符为a，配置参数γ的第二标识符为b。分别将三个客服情感参数的第一标识符与三个配置参数的第二标识符进行对比分析，得到客服情感参数的第一标识符与配置参数β的第二标识符相同，则利用客服情感参数对配置参数β进行赋值。

进一步地，所述利用所述带有参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感的步骤，与步骤s5中利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感的步骤一致，在此不做赘述。

本发明实施例通过提取输入语音流的声纹特征，并根据声纹特征将输入语音流划分为客服语音段与客户语音段，可实现将输入语音流中客服语音段与客户语音段的分离，有利于后续针对性的对不同的语音段进行情感检测，进而提高情感检测的精确度；检测语音时刻在前的客服语音段中的客服情绪，再利用客服情绪作为参数对语言时刻在后的客户语音段中的客户情绪进行检测，考虑到了客服情绪对客户情绪的影响，有利于提高检测客户语音段中客户情绪的精确度。因此本发明提出的基于上下文的语音情感检测方法，可以解决情感检测的精确度不高的问题。

如图2所示，是本发明一实施例提供的基于上下文的语音情感检测装置的功能模块图。

本发明所述基于上下文的语音情感检测装置100可以安装于电子设备中。根据实现的功能，所述基于上下文的语音情感检测装置100可以包括特征提取模块101、语音划分模块102、时刻提取模块103、语音选取模块104、第一检测模块105和第二检测模块106。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述特征提取模块101，用于获取输入语音流，对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征。

本发明实施例中，所述输入语音流包括但不限于通话录音，例如，客户针对产品或服务提出客服售后时，客户与客服之间的通话录音。

详细地，所述输入语音流可由具有数据抓取功能的python语句从预先存储所述输入语音流的区块链节点中获取。利用区块链对数据的高吞吐性，可提高获取所述输入语音流的效率。

本发明实施例中，所述特征提取模块101具体用于：

对不同语音时刻下的输入语音流进行卷积处理，得到卷积语音流；

对所述卷积语音流进行全局最大池化处理，得到池化语音流；

利用第一全连接层对所述池化语音流进行全连接处理，得到全连接语音流；

利用第二全连接层对所述全连接语音流进行全连接处理，得到所述输入语音流的声纹特征。

具体地，由于语音流中包含大量语音信息，直接对语音流进行分析会占用大量计算资源，造成分析效率低下，本发明实施例将语音流进行卷积处理，可提取出语音流的声纹特征，进而减少需要分析的数据量，提高后续分析效率；但卷积得到的卷积语音流的声纹特征依然存在着多维的情况，本发明实施例利用全局最大池化可进一步减少卷积得到的卷积语音流中声纹特征的维度，减少后续对池化语音流进行声纹特征提取时计算资源的占用，提高提取声纹特征的效率。

本发明实施例利用包含双全连接层的densenet201网络对对所述输入语音流进行卷积、池化及全连接处理，所述densenet201网络是一种密集连接卷积神经网络，包括多个卷积层，网络中每一目标卷积层的输入均为该目标卷积层之前所有网络层次的输出，以此减少需要设定的参数，从而提高网络对语音流处理的效率。

本发明实施例利用双全连接层级联对池化语音流进行双全连接处理，可提高网络复杂度，进而提高获得的所述语音流的声纹特征的精确度，有利于提高后续基于所述语音流的特征进行情感分析的精确度。

所述语音划分模块102，用于根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段。

本发明实施例中，所述语音划分模块102具体用于：

计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值；

将所述输入语音流中距离值小于预设距离阈值的语音段汇集为客服语音段；

将所述距离值大于或等于所述预设距离阈值的的语音段汇集为客户语音段。

详细地，所述标准客服声纹特征一般是指根据客服语音段预先确定的声纹特征，所述标准客服声纹特征由用户预先给定。

具体地，所述计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值，包括：

利用如下距离算法计算所述输入语音流的所述声纹特征与标准客服声纹特征之间的距离值：

其中，l(x，y)为所述距离值，x为所述标准客服声纹，yi为所述输入语音流中第i个语音段。

本发明实施例将输入语音流中距离值小于预设距离阈值的语音段汇集为客服语音段，将距离值大于或等于预设距离阈值的时刻下的语音段汇集为客户语音段，例如，输入语音流中存在语音段a、语音段b、语音段c和语音段d，其中，语音段a的声纹特征与标准客服声纹特征的距离值为20，语音段b的声纹特征与标准客服声纹特征的距离值为35，语音段c的声纹特征与标准客服声纹特征的距离值为66，语音段d的声纹特征与标准客服声纹特征的距离值为72，当预设距离阈值为50时，将语音段a和语音段b汇集为客服语音段，将语音段c和语音段d汇集为客户语音段。

本发明实施例根据所述声纹特征将输入语音流划分为客服语音段与客户语音段，可实现将输入语音流中客服语音段与客户语音段的分离，有利于后续针对性的对不同的语音段进行情感检测，进而提高情感检测的精确度。

所述时刻提取模块103，用于分别提取所述客服语音段与所述客户语音段的语音时刻。

本发明实施例中，所述语音时刻是指不同语音段的中间时刻，例如，客服语音段a的时间为9点10分至9点20分，则所述客服语音段a的语音时刻为9点15分，再例如，客户语音段e的时间为10点30分至10点40分，则所述客户语音段e的语音时刻为10点35分。

详细地，所述时刻提取模块103具体用于：

利用如下时刻提取算法提取所述客服语音段与所述客户语音段的语音时刻：

其中，bu(t)为所述语音时刻，du为所述输入语音流中第u个客服语音段或客服语音段，i为所述输入语音流中所述客服语音段与客户语音段的总数量，t0为所述输入语音流中第u个客服语音段或客服语音段的开始时间，t1为所述输入语音流中第u个客服语音段或客服语音段的结束时间，为取中间时刻的运算符号。

所述语音选取模块104，用于选取预设的第一时刻下的所述客服语音段为第一语音段，选取预设的第二时刻下的所述客户语音段为第二语音段，其中，所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻。

本发明实施例中，选取预设的第一时下的客服语音段为第一语音段，选取预设的第二时刻下的客户语音段为第二语音段，且所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻。

例如，存在语音时刻为8点10分的客服语音段1，语音时刻为8点12分的客户语音段2，语音时刻为8点14分的客服语音段3，语音时刻为8点16分的客户语音段4，则可选取客服语音段1为第一语音段，选取客户语音段2为第二语音段；或者，选取客服语音段3为第一语音段，选取客户语音段4为第二语音段。

详细地，在客服、客户的对话场景中，一般情况是客服与客户的语音轮流出现，例如，客服语音：您需要什么帮助呢？客户：我需要为产品a申请售后服务。客服语音：您需要申请保修还是退货服务呢？客户语音：我需要申请保修服务。

上述情况下，由于客户的情绪可能会随着客服所说的内容而变化，例如客服的语音内容或语调等让客户产生误解，导致后续客户语音包含的情感为负面情感，因此本发明实施例选取预设的第一时刻下的客服语音段为第一语音段并选取在第一时刻之后的第二时刻的客户语音段为第二语音段，有利于后续基于第一语音段分析第二语音段中客户的情感，以提高情感检测的精确度。

所述第一检测模块105，用于利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感。

本发明实施例中，所述预先训练完成的情感分析模型具有音频语言处理的卷积神经网络。

详细地，所述第一检测模块105具体用于：

利用所述情感分析模型检测所述第一语音段的语音时长和语音语调；

持续检测所述第一语音段的语音强度，根据所述语音时长和所述语音强度计算所述第一语音段的语音音量；

对所述第一语音段进行语音内容识别，统计语音内容识别结果中用户的语音字数；

根据所述语音时长和所述语音字数计算所述第一语音段的语音语速；

根据所述语音语调、所述语音音量和所述语音语速计算客服情感值；

根据所述客服情感值所在的数值区间确定客服情感。

详细地，本发明实施例利用预先安装于情感分析模型中的音频强度检测工具来持续检测所述第一语音段的语音强度，所述音频强度检测工具包括pocketrta分贝测试仪、siasmaartlive分贝测试工具等。

本发明实施例通过预先训练完成的情感分析模型提取所述第一语音段的语调特征来实现检测所述第一语音段的语音语调。

具体地，根据所述语音时长和所述语音强度计算所述第一语音段的语音音量是计算所述第一语音段在所述语音时长内的平均音量，本发明实施例利用如下均值算法计算所述平均音量：

其中，l为所述平均音量，n为所述语音时长，pt为所述第一语音段在t时刻的语音强度。

进一步地，本发明实施例中利用asr(automaticspeechrecognition，自动语音内容识别)技术对所述第一语音段进行文本转换，得到语音内容识别，并统计语音内容识别的结果中用户的语音字数。

详细地，根据所述语音时长和所述语音字数计算所述第一语音段的语音语速是通过速率算法计算所述第一语音段在所述第一语音段的语音时长内的说话语速，所述速率算法为：

其中，v为所述语音语速，n为所述语音时长，n为所述语音字数。

本发明实施例中，所述根据所述语音语调、所述语音音量和所述语音语速计算客服情感值，包括：

利用如下积极度算法根据所述语音语调、所述语音音量和所述语音语速计算客服情感值：

其中，j为所述客服情感值，w为所述语音语调，l为所述平均音量，v为所述语音语速，α为预设权重系数。

详细地，计算获取所述客服情感值后，将所述客服情感值与预设的数值区间进行比较，根据所述客服情感值所在的数值区间确定客服情感，例如，当所述客服情感值在预设的数值区间[a，b)内时，确定客服情感为积极情感，当所述客服情感值在预设的数值区间(b，c]内时，确定客服情感为消极情感。

所述第二检测模块106，用于将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感。

本发明实施例中，所述第二检测模块106具体用于：

对所述客服情感进行参数转化，得到情感参数；

利用所述情感参数对所述情感分析模型进行参数赋值，得到带有参数的情感分析模型；

利用所述带有参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感。

详细地，所述对所述客服情感进行参数转化，得到情感参数，包括：

对所述客服情感进行词向量数值转化，得到客服情感参数；

获取所述情感分析模型的配置文件；

解析所述配置文件得到配置项，并提取所述配置项中的配置参数；

利用所述客服情感参数对所述配置参数进行赋值，得到赋值参数；

将所述赋值参数输入至所述情感分析模型，得到含参数的情感分析模型；

利用所述含参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感。

本发明实施例利用预先构建的词向量转化模型对所述客服情感进行词向量数值转化，得到客服情感参数，所述词向量转化模型包括但不限于word2vec词向量模型和doc2vec词向量模型。

具体地，本发明实施例可利用具有文件调用功能的java语句从所述情感分析模型中调用所述配置文件，所述配置文件是所述情感分析模型框架中用于记录模型数据的文件。

本发明实施例利用预设的解析器对所述配置文件进行解析，得到所述配置项，其中，所述解析器包括但不限于carakanc/c 解析器，squirrelfishc 解析器和squirrelfishextremec 。

进一步地，本发明实施例利用具有数据提取功能的python语句提取所述配置项中的配置参数。

详细地，所述利用所述客服情感参数对所述配置参数进行赋值，得到赋值参数，包括：

遍历所述客服情感参数并确定所述客服情感参数中的第一标识符；

遍历所述配置参数并确定所述配置参数中的第二标识符；

将所述第一标识符与所述第二标识符进行对比分析；

当所述第一标识符与所述第二标识符不相同时，重新遍历所述配置参数并确定所述配置参数中的第二标识符；

当所述第一标识符与所述第二标识符相同时，利用所述第一标识符对应的客服情感参数对所述第二标识符对应的配置参数进行赋值，得到赋值参数。

本发明实施例中，所述第一标识符和所述第二标识符为预先设定的用于标记参数类型或名称的唯一标识。

例如，存在客服情感参数的第一标识符为a；存在配置参数α、存在配置参数β和存在配置参数γ，遍历三个配置参数得到：配置参数α的第二标识符为c，配置参数β的第二标识符为a，配置参数γ的第二标识符为b。分别将三个客服情感参数的第一标识符与三个配置参数的第二标识符进行对比分析，得到客服情感参数的第一标识符与配置参数β的第二标识符相同，则利用客服情感参数对配置参数β进行赋值。

进一步地，所述利用所述带有参数的情感分析模型对所述第二语音段进行情感检测，得到客户情感的步骤，与步骤s5中利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感的步骤一致，在此不做赘述。

本发明实施例通过提取输入语音流的声纹特征，并根据声纹特征将输入语音流划分为客服语音段与客户语音段，可实现将输入语音流中客服语音段与客户语音段的分离，有利于后续针对性的对不同的语音段进行情感检测，进而提高情感检测的精确度；检测语音时刻在前的客服语音段中的客服情绪，再利用客服情绪作为参数对语言时刻在后的客户语音段中的客户情绪进行检测，考虑到了客服情绪对客户情绪的影响，有利于提高检测客户语音段中客户情绪的精确度。因此本发明提出的基于上下文的语音情感检测装置，可以解决情感检测的精确度不高的问题。

如图3所示，是本发明一实施例提供的实现基于上下文的语音情感检测方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于上下文的语音情感检测程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡(smartmediacard，smc)、安全数字(securedigital，sd)卡、闪存卡(flashcard)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如基于上下文的语音情感检测程序12的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(centralprocessingunit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(controlunit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如基于上下文的语音情感检测程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于上下文的语音情感检测程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

获取输入语音流，对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征；

根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段；

分别提取所述客服语音段与所述客户语音段的语音时刻；

选取预设的第一时刻下的所述客服语音段为第一语音段，选取预设的第二时刻下的所述客户语音段为第二语音段，其中，所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻；

利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感；

将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感。

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

获取输入语音流，对所述输入语音流进行声纹特征提取，得到所述输入语音流的声纹特征；

根据所述声纹特征将所述输入语音流划分为客服语音段与客户语音段；

分别提取所述客服语音段与所述客户语音段的语音时刻；

选取预设的第一时刻下的所述客服语音段为第一语音段，选取预设的第二时刻下的所述客户语音段为第二语音段，其中，所述第二时刻在所述第一时刻之后，所述第一时刻和所述第二时刻均为提取到的所述语音时刻；

利用预先训练完成的情感分析模型对所述第一语音段进行情感检测，得到客服情感；

将所述客服情感作为所述情感分析模型的参数，使用所述情感分析模型对所述第二语音段进行情感检测，得到客户情感。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种激活音检测VAD判决中信噪比门限的调整方法及装置与流程

基于上下文的语音情感检测方法、装置、设备及存储介质与流程

相关文章

最热文献