一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于知识蒸馏和多模态结合的质检方法与流程

2022-02-20 06:15:27 来源:中国专利 TAG:


1.本发明涉及自然语言处理和语音识别技术领域,具体涉及一种基于知识蒸馏和多模态结合的质检方法。


背景技术:

2.传统的呼叫中心或者人工客服业务繁重,海量的通话量也增加了配套的质检工作。质检员每天需要听8个小时的录音,即便每个录音5分钟也难以完成日常工作。不仅行业的质检覆盖率低,人工抽检效率也低。另外公司对质检员岗位招聘难,培训时间长,重复的工作量使质检员感到疲劳不堪,人员流动性大,进一步增加了企业相关成本。质检标准受质检员认知和主观影响大,质检标准难以做到统一和质检工作做到公平公正。人工质检容易忽略通话中蕴含的价值和风险,无法及时发现问题并解决问题。
3.随着大数据、云计算和ai技术的发展,机器质检能很好的解决这一问题。机器质检能在拿到通话数据后进行语音识别转换,将语音文件转换成准确的文本文件,再通过自然语言处理技术根据预设的质检规则对文本数据进行识别处理,最终输出公正标准化的质检任务结果。
4.对客户和客服的情绪识别是质检任务中的重要部分,主要通过客户和客服的情绪分析通话服务质量,及时发现质检中存在的问题。通过语音识别技术将语音文件转换成文本文件,对文本数据通过关键字检查和文本相似度检查,来挖掘敏感词汇中隐藏的客户和客服的情绪;通过抢话检查和非正常挂机、能量检查来分析客户和客服在通话中是否有大的情绪波动。因为准确地标注客户和客服的情感标签运营成本高且耗时,对标注者也有着较高的专业领域要求,因此在机器质检中缺乏足够的标签数据和使用类别不均衡的标签数据,这就造成机器质检识别客户、客服情绪的困难。


技术实现要素:

5.本发明提供了一种基于知识蒸馏和多模态结合的质检方法,采用如下的技术方案:
6.一种基于知识蒸馏和多模态结合的质检方法,包含:
7.搭建质检音频模型并对其进行训练;
8.搭建质检文本模型并对其进行训练;
9.将音频数据输入训练好的质检音频模型进行学习得到音频特征向量;
10.将文本数据输入训练好的质检文本模型进行学习得到文本特征向量;
11.将音频特征向量和文本特征向量融合形成新的融合特征向量;
12.根据融合特征向量进行情绪预测。
13.进一步地,质检音频模型为第一教师-学生知识蒸馏模型。
14.进一步地,第一教师-学生知识蒸馏模型的教师模型t为squeezebert,学生模型s为cnn模型。
15.进一步地,对第一教师-学生知识蒸馏模型进行训练的方法为:
16.使用原始音频数据m对教师模型t进行微调得到适用于质检情绪分类任务的教师模型t1;
17.通过教师模型t1预测新音频数据m1得到硬标签对学生模型s进行预训练引导;
18.将预训练引导得到的参数进行共享得到学生模型s1;
19.用教师模型t1对原始音频数据m和新音频数据m1进行预测得到一组软标签和一组硬标签;
20.用学生模型s1对原始音频数据m和新音频数据m1进行预测得到一组软标签和一组硬标签;
21.将交叉熵作为总损失反向传播训练学生模型s1得到音频模型s2。
22.进一步地,将上述的原始音频数据m处理成mel频谱作为模型的输入。
23.进一步地,质检文本模型为第二教师-学生知识蒸馏模型。
24.进一步地,第二教师-学生知识蒸馏模型的教师模型r为squeezebert,学生模型p为textcnn模型。
25.进一步地,对第二教师-学生知识蒸馏模型进行训练的方法为:
26.使用原始文本数据q对教师模型r进行微调得到适用于质检情绪分类任务的教师模型r1;
27.通过教师模型r1预测新文本数据q1得到硬标签对学生模型p进行预训练引导;
28.将预训练引导得到的参数进行共享得到学生模型p1;
29.用教师模型r1和学生模型p1分别对原始文本数据q和新文本数据q1进行预测得到两组软、硬标签;
30.将交叉熵作为总损失反向传播训练学生模型p1得到文本模型p2。
31.进一步地,将上述的原始文本数据q经过词向量处理后作为模型的输入。
32.进一步地,根据融合特征向量进行情绪预测的具体方法为:
33.将融合特征向量输入全连接层进行情绪预测。
34.本发明的有益之处在于所提供的基于知识蒸馏和多模态结合的质检方法,针对质检中的音频数据和文本数据,利用squeezebert模型作为教师模型,再结合数据增强的方法对学生模型进行预训练引导,利用网络参数共享提升学生模型的复杂性,最后使用交叉熵损失函数联合软、硬标签对学生模型进行训练,分别得到音频模型和文本模型,然后将两模型特征融合预测最后的质检情绪分类结果,有效提高模型识别精度。
附图说明
35.图1是本发明的基于知识蒸馏和多模态结合的质检方法的示意图。
具体实施方式
36.以下结合附图和具体实施例对本发明作具体的介绍。
37.如图1所示为本发明的一种基于知识蒸馏和多模态结合的质检方法,主要包含以下步骤:s1:搭建质检音频模型并对其进行训练。s2:搭建质检文本模型并对其进行训练。s3:将音频数据输入训练好的质检音频模型进行学习得到音频特征向量。s4:将文本数据输
入训练好的质检文本模型进行学习得到文本特征向量。s5:将音频特征向量和文本特征向量融合形成新的融合特征向量。s6:根据融合特征向量进行情绪预测。通过上述方法,将两模型特征融合预测最后的质检情绪分类结果,有效提高模型识别精度。以下具体介绍上述方法。
38.对于步骤s1:搭建质检音频模型并对其进行训练。
39.优选的,在本实施例中,质检音频模型为第一教师-学生知识蒸馏模型。知识蒸馏作为一种模型压缩方法,使用“教师-学生”框架,将教师模型进行softmax分类后得到介于0和1之间的概率分布作为软标签,真实标注作为硬标签,联合软、硬标签对学生模型进行训练使其得到更多教师模型中的知识。
40.在本实施例中,第一教师-学生知识蒸馏模型的教师模型t为squeezebert,学生模型s为cnn模型。
41.作为一种优选的实施方式,对第一教师-学生知识蒸馏模型进行训练的方法为:
42.使用原始音频数据m对教师模型t进行微调得到适用于质检情绪分类任务的教师模型t1。squeezebert是在通用语料上训练的,需要用特定领域的语料进行微调,在预训练模型squeezebert的基础上只需更新后面几层的参数。根据预训练好的模型,将数据处理成模型所需格式,然后传入模型进行训练得到微调后的模型。
43.通过教师模型t1预测新音频数据m1得到硬标签对学生模型s进行预训练引导。新音频数据m1由新的外部质检音频数据标注得到。
44.将预训练引导得到的参数进行共享得到学生模型s1。
45.用教师模型t1对原始音频数据m和新音频数据m1进行预测得到一组软标签和一组硬标签。用学生模型s1对原始音频数据m和新音频数据m1进行预测得到一组软标签和一组硬标签。
46.教师模型t1的预测输出预测值(硬标签)之后,再做softmax(多分类)或sigmoid(二分类)变换,可以获得软化的概率分布(软标签),数值介于0-1之间,取值分布较为缓和,硬标签则是样本的真实标注。总损失设计为软标签与硬标签所对应的交叉熵的加权平均(ce loss),其中软标签交叉熵的加权系数越大,表明迁移诱导越依赖教师模型t1的贡献,有助于让学生模型s1更轻松的鉴别简单样本,但训练后期需要适当减小软目标的比重,让真实标注帮助鉴别困难样本。另外,教师模型t1的推理性能通常要优于学生模型s1。
47.total_loss=λ
×
ce(ti,si) (1-λ)
×
ce(yi,si)
48.其中,λ是平衡参数,ce为交叉熵,si为学生模型s1当前的输出,ti为教师模型t1当前的软标签输出,yi为原数据硬标签。联合软、硬标签的交叉熵损失作为总损失反向传播训练学生模型s1,作为最终的音频模型s2。
49.优选的,将上述的原始音频数据m处理成mel频谱作为模型的输入。
50.对于步骤s2:搭建质检文本模型并对其进行训练。
51.和步骤s1相似的,质检文本模型为第二教师-学生知识蒸馏模型。
52.作为一种优选的实施方式,第二教师-学生知识蒸馏模型的教师模型r为squeezebert,学生模型p为textcnn模型。
53.作为一种优选的实施方式,对第二教师-学生知识蒸馏模型进行训练的方法为:
54.使用原始文本数据q对教师模型r进行微调得到适用于质检情绪分类任务的教师
模型r1。
55.通过教师模型r1预测新文本数据q1得到硬标签对学生模型p进行预训练引导。
56.将预训练引导得到的参数进行共享得到学生模型p1。
57.用教师模型r1和学生模型p1分别对原始文本数据q和新文本数据q1进行预测得到两组软、硬标签。
58.将交叉熵作为总损失反向传播训练学生模型p1得到文本模型p2。
59.作为一种优选的实施方式,将上述的原始文本数据q经过词向量处理后作为模型的输入。
60.对于步骤s3:将音频数据输入训练好的质检音频模型进行学习得到音频特征向量。
61.具体地,将待分析的音频数据输入训练好的质检音频模型,通过质检音频模型的卷积层学习得到音频特诊向量。
62.优选的,将待分析的音频数据输入训练好的质检音频模型之前先对其进行数据预处理。
63.对于步骤s4:将文本数据输入训练好的质检文本模型进行学习得到文本特征向量。
64.同样地,将待分析的文本数据输入训练好的质检文本模型,通过质检文本模型的卷积层学习得到文本特诊向量。
65.优选的,将待分析的文本数据输入训练好的质检音频模型之前先对其进行数据预处理。
66.对于步骤s5:将音频特征向量和文本特征向量融合形成新的融合特征向量。
67.将上述两个模型学习得到的音频特征向量和文本特征向量进行拼接融合得到新的融合特征向量。
68.对于步骤s6:根据融合特征向量进行情绪预测。
69.将步骤s5得到的融合特征向量传入全连接层进行预测,得到预测结果。
70.具体地,情绪标签预测最终结果是n分段的平均。输入音频按固定长度被切割成n段,音频特征也分为n段,特征融合后也是融合成n个片段,所以模型最后的情感标签输出由n段片段平均获得。
71.以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献