一种端到端语音客服工单智能分类方法及装置与流程

2022-05-08 05:50:01 来源：中国专利 TAG：

1.本发明属于电力客户服务领域，具体涉及一种端到端的智能语音工单分类方法及装置。

背景技术：

2.传统的客服电话处理一般由人工进行分类识别，但是随着用户和服务种类的增加，对服务效率及品质需求也提出了更高的要求。随着机器学习应用的深入，越来越多的智能化方法服务到工单分类中，但是目前的方法主要还是先将用户的语音信息转化为文字，然后对文本进行分类，例如专利cn202011194254.3和专利cn201810755334.8。早期文本分类主要是通过建立词向量字典对文本进行表示，然后采用传统的机器学习方法，例如决策树等对文本进行分类，该类方法由于词向量固定且不会关联上下文，导致效果较差。后来随着nlp技术的发展，通过更加精准的深入的深度学习模型对文本进行分类。但是这样两段式的分类方法，存在以下问题，首先该方法需要两个模型配合才能完成语音工单的分类，一个语音识别模型和一个文本分类模型，考虑后期的应用部署，将占据更大的空间和内存；两阶段的分析存在误差累积的问题，不能达到整体任务的最优化。目前也存在针对语音信息直接进行分类的深度学习模型，例如cn201911244364.3，该专利通过模型对客服和客户的语音序列开展情绪分析，用于语音服务质量评分，该模型并不能达到对语音工单内容进行分类的目的。cn201811346110.8专利针对语音分类问题，提出多任务的胶囊网络架构，结合高低层的特征进行损失定义，没有从语音内容的角度出发，不能充分理由语音信息中与工单分类相关的特征。

技术实现要素：

3.为了克服上述现有工单分类技术的不足，本发明提供一种端到端的智能语音工单分类方法。该方法包括如下步骤：
4.s1：接收客户输入的语音信息；
5.s2：提取语音信息中的语音特征；
6.s3：构建语音分类模型，并对模型进行训练；
7.s4：将所述语音特征输入到分类模型中，输出分类的结果。
8.相应地，本发明还提出一种端到端的智能语音工单分类装置，该装置包括：
9.信息接收模块：接收客户输入的语音信息；
10.特征提取模块：提取语音信息中的语音特征；
11.模型构建模块：构建语音分类模型，并对模型进行训练；
12.分类模块：将所述语音特征输入到分类模型中，输出分类的结果。
13.进一步地，本发明还提出一种终端，包括处理器及存储介质；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行本发明所述方法的步骤。
14.进一步地，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，其特
征在于，该程序被处理器执行时实现本发明所述方法的步骤。
15.相比于先语音识别，后进行文本分类，本发明通过端到端的建模技术，将该问题进行整体优化，已达到全局最优；
16.相比于先由人工进行语音信息的初步分析整体成文字后，在进行工单分类建模，本发明通过直接对语音信息进行分析处理，减少人为介入的工作量，进一步降低基层服务人员的工作量；
17.相比于其他语音分类技术，本发明构建的多任务针模型，其中一个任务针对语音信息中的文本内容，更加符合工单分类的任务。
18.进一步地，到后期模型应用部署阶段，本发明的模型部署占用更小的空间。
附图说明
19.图1是本发明方法的整体流程图。
20.图2是本发明提供的一个实施例的模型架构。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
22.本发明提供一种端到端的语音客服工单智能分类方法，如图1琐事，具体包括：
23.工单中信息：地址、姓名、联系方式、涉及专业、客户诉求、户号、来电时间、办结时间
24.步骤1，接收客户输入的语音信息
25.该步骤主要用麦克风设备将客户的语音信息采集，便于后续的分析。
26.步骤2，提取语音信息中的语音特征
27.具体地，为了方便后续模型的处理，需要对每帧语音信号进行预处理，该步骤的主要目的是将连续的时域信号转化为离散的频域信号，这里的特征提取方式不限，目前语音识别技术领域存在多种特征提取方法，本发明采用mfcc(梅尔倒谱系数)特征提取方法，将接收到的一定采样频率下的语音信号经过mfcc特征提取，得到二维特征，主要包括叠帧和下采样；
28.1)叠帧：n个连续的帧拼接在一起作为一个新帧；
29.2)下采样：每间隔m帧，仅保留一帧信息；
30.3)经过叠帧和下采样的处理，原始语音信号(t,p)变换为(t/m，p*n)。
31.通过叠帧和下采样，可以在初始语音中的信息保留的前提下，降低特征的维度，使得后续模型的训练和预测可行。
32.步骤3，将处理后的语音特征输入到模型中，输出分类的结果。
33.具体地，包括以下步骤：
34.1)向语音分类模型输入一条待识别音频特征序列和启动标签，语音识别模型输出初始时刻预测结果；
35.2)将启动标签同初始时刻预测结果拼接，作为解码下一时刻历史预测结果；
36.3)向语音分类模型输入下一时刻待识别音频特征序列和历史预测结果，通过解码器计算解码各时刻预测结果序列；
37.4)将各时刻预测结果序列同该时刻预测结果做拼接，更新历史预测结果；
38.5)重复步骤上述，直至音识别模型预测出终止标签，此时解码完成，最终的历史预测结果中第一个位置为分类标签，将该分类标签输入到后续的全连接层，进行分类结果的预测，输出分类结果；最终历史预测结果中的其他位置对应各个时刻的音素识别结果，经过解码后可获取语音预测结果。
39.上述的语音分类过程的关键在于语音分类模型，下面详细描述训练该模型的过程，图2是模型架构的一个例子，采用的是基于transformer的模型架构，
40.以上述transformer网络架构为例，具体的训练过程包括以下步骤：
41.a.数据预处理
42.所述方法需要数据包括语音、文本以及该条语音所属的类别。目前国网95598非抢修类工单包括：咨询、投诉、举报、意见、建议、服务申请、表扬8大类别，每个类型下面还分有更细致的小类。前期积累了大量的数据内容，需要人工进行梳理打标签。
43.将梳理后的数据集划分为训练集、测试集和验证集，按照8：1：1的比例进行划分。
44.b.网络架构的确定
45.所述方法的网络模型相当于一个声学模型，一般语音识别的过程包括声学模型和语言模型(lm)，声学模型是将语音信号转化为音素(发音特征)，而语言模型是根据发音特征形成对应的文本过程，一个好的语音识别模型需要这两个模型都具备较高的精度。
46.本发明的目的不是语音识别，而是语音分类，故所述网络架构只需识别至音素即可，通过简化语音识别的过程，增加网络的拟合能力和泛化性能。本发明使用的网络架构可以有多种，不局限于transformer，包括cnn(卷积神经网络),rnn(循环神经网络)等常用的深度学习网络架构均可以。
47.本实例，采用的是基于transformer的网络结构，主体包括自注意力层(self-attention)，注意力机制(self-attention)和前馈层(feed forward),其中自注意力机制后通归一化层(add&norm)。具体来说，语音特征经过四层网络，每一层都是由自注意力层和前馈层构成；文本特征经过六层网络，每层包括自注意力层、注意力层和前馈层。经过深度神经网络架构后，提取到语音特征的抽象高阶特征，然后经过线性层，得到每帧语音特征对应的音素概率特征，其中为了达到语音分类的目的，借鉴bert本文分类算法，在输出特征的维度增加一维特征，作为分类向量，此分类向量经过线性层变化后，得到各类别的概率。综上，针对每一帧语音特征的输入，输出对应音素的概率和分类概率，为二维矩阵，其中长度为输入帧 1，其中1是增加的分类向量，宽度为所识别语音的音素个数和分类个数中较大的值。通过设置特定的损失函数，训练模型，让模型模型输出正确的分类结果。当模型训练完成后，将待分类语音样本输入到模型后，通过查看新增的分类向量中可以得到最终所属类别。
48.c.损失函数的定义
49.本发明训练目标有两个，一是模型准确预测对应的音素，二是模型准确进行类别的判断。针对这两个目的，构建对应的损失函数，目的一的准确预测对目的二有很大的帮
助，类型的判断主要还是依据该条语音中的内容信息，准确的音素序列代表更精确的内容，所以两个优化目标是一致的。
50.综上所述，该模型是一个多任务训练过程，针对音素的损失函数可以是ctc(连续时序分类)，输入长度为t的语音序列，语音编码器的输出为{q1,q2...q
t
}，其中q
t
是一个向量，表征t时刻，1-n个音素出现的概率，n个音素包括识别的音素和空标志φ，ctc方法通过使用一个额外的空输出φ，使得后续解码更精准。
51.ctc_loss＝-log p(y|x)
[0052][0053][0054]
其中a表示模型输出的一条长度为t的音素序列，p(a|x)表示形成一个长度为t的音素序列a的概率，表示第t帧语音音素预测音素为n的概率，p(y|x)表示给定输入语音x，预测输出为标签序列y的条件概率，定义多对一映射b(a)＝l，l为去除序列a中的连续和空输入后的序列。
[0055]
第二个任务是分类任务，采用交叉熵损失函数
[0056][0057]
其中，p＝[p0,p1,p2...pc]是一个概率分布，每个元素pi表示样本属于第i类的概率y＝[y1,y2,y3...y
c-1
]是样本标签的one-hot表示，当样本属于第i类别时，yi＝1，否则yi＝0。本发明的任务是二者结合的，所以总的损失函数为：
[0058]
loss＝loss_k ctc_loss
[0059]
d.模型训练
[0060]
进行若干轮迭代训练后，当模型精度达到要求，连续10个迭代精度不变时，可认为模型已训练完成，此时即可输出训练好的模型。
[0061]
应用场景，除了解决传统的电话类客服工单分类，本发明还可以应用于线上工单处理系统，支持客户直接语音留言所需要解决的问题，然后直接对客户语音进行分类派发，方便快捷。
[0062]
相应地，本发明还提出一种端到端的智能语音工单分类装置，该装置包括：
[0063]
信息接收模块：接收客户输入的语音信息；
[0064]
特征提取模块：提取语音信息中的语音特征；
[0065]
模型构建模块：构建语音分类模型，并对模型进行训练；
[0066]
分类模块：将所述语音特征输入到分类模型中，输出分类的结果。
[0067]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0068]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的
更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0069]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0070]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c 等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。
[0071]
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0072]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其它设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0073]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0074]
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0075]
申请人结合说明书附图对本发明的实施例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数字声音重构方法、系统、设备及介质与流程

一种端到端语音客服工单智能分类方法及装置与流程

相关文献

最热文献