技术特征:
1.一种语音质检方法,包括:
获取待质检音频信息;
对所述待质检音频信息进行语音识别,得到所述待质检音频信息对应的多个文本段,并获取所述多个文本段分别对应的时间戳信息;
根据所述待质检音频信息和所述多个文本段对应的所述时间戳信息对所述待质检音频信息进行声纹聚类,以生成多个说话人的文本内容;
从所述多个说话人的文本内容之中获取目标说话人的文本内容;
对所述目标说话人的文本内容进行质检。
2.根据权利要求1所述的方法,其中,所述对所述待质检音频信息进行语音识别,得到所述待质检音频信息对应的多个文本段,包括:
采用经过训练的语音识别模型对所述待质检音频信息进行语音识别,以生成语音识别内容;
对所述语音识别内容进行断句,以生成多个文本段。
3.根据权利要求1所述的方法,其中,所述从所述多个说话人的文本内容之中获取目标说话人的文本内容,包括:
对所述多个说话人的文本内容进行识别,以确定各所述说话人的文本内容中包含的预设关键词的个数;
对各所述说话人的文本内容中包含的预设关键词的个数从大到小排序,将排序在前的所述说话人的文本内容作为所述目标说话人的文本内容。
4.根据权利要求3所述的方法,其中,所述确定各所述说话人的文本内容中包含的预设关键词的个数之后,还包括:
从各所述说话人的文本内容中确定所述预设关键词的个数大于个数阈值的目标说话人的文本内容。
5.根据权利要求1-4任一项所述的方法,其中,所述根据所述待质检音频信息和所述多个文本段对应的所述时间戳信息对所述待质检音频信息进行声纹聚类,以生成多个说话人的文本内容,包括:
将所述待质检音频信息和所述多个文本段对应的所述时间戳信息输入声纹聚类模型,得到所述多个说话人的音频信息;
根据所述多个说话人的音频信息对所述多个文本段重新划分,以生成所述多个说话人的文本内容。
6.根据权利要求1-4任一项所述的方法,其中,所述对所述目标说话人的文本内容进行质检,包括:
将所述目标说话人的文本内容输入经过训练的质检模型,以根据所述质检模型的输出确定质检结果;其中,所述质检模型是采用人工标注违规关键词的训练样本训练得到的。
7.一种语音质检装置,包括:
获取模块,用于获取待质检音频信息;
识别模块,用于对所述待质检音频信息进行语音识别,得到所述待质检音频信息对应的多个文本段,并获取所述多个文本段分别对应的时间戳信息;
生成模块,用于根据所述待质检音频信息和所述多个文本段对应的所述时间戳信息对所述待质检音频信息进行声纹聚类,以生成多个说话人的文本内容;
处理模块,用于从所述多个说话人的文本内容之中获取目标说话人的文本内容;
质检模块,用于对所述目标说话人的文本内容进行质检。
8.根据权利要求7所述的装置,其中,所述识别模块,还用于:
采用经过训练的语音识别模型对所述待质检音频信息进行语音识别,以生成语音识别内容;
对所述语音识别内容进行断句,以生成多个文本段。
9.根据权利要求7所述的装置,其中,所述处理模块,还用于:
对所述多个说话人的文本内容进行识别,以确定各所述说话人的文本内容中包含的预设关键词的个数;
对各所述说话人的文本内容中包含的预设关键词的个数从大到小排序,将排序在前的所述说话人的文本内容作为所述目标说话人的文本内容。
10.根据权利要求9所述的装置,其中,所述处理模块,还用于:
从各所述说话人的文本内容中确定所述预设关键词的个数大于个数阈值的目标说话人的文本内容。
11.根据权利要求7-10任一项所述的装置,其中,所述生成模块,还用于:
将所述待质检音频信息和所述多个文本段对应的所述时间戳信息输入声纹聚类模型,得到所述多个说话人的音频信息;
根据所述多个说话人的音频信息对所述多个文本段重新划分,以生成所述多个说话人的文本内容。
12.根据权利要求7-10任一项所述的装置,其中,所述质检模块,还用于:
将所述目标说话人的文本内容输入经过训练的质检模型,以根据所述质检模型的输出确定质检结果;其中,所述质检模型是采用人工标注违规关键词的训练样本训练得到的。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语音质检方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的语音质检方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的语音质检方法。
技术总结
本申请公开了一种语音质检方法、装置、电子设备及介质,涉及数据处理领域的语音技术和深度学习技术领域。具体实现方案为:通过获取待质检音频信息,对待质检音频信息进行语音识别,得到待质检音频信息对应的多个文本段,获取多个文本段分别对应的时间戳信息,根据待质检音频信息和多个文本段对应的时间戳信息对待质检音频信息进行声纹聚类,以生成多个说话人的文本内容,从多个说话人的文本内容之中获取目标说话人的文本内容,对目标说话人的文本内容进行质检。由此,通过将待质检音频信息转换为文本内容,以对识别得到坐席的文本内容进行质检,不仅实现了自动化的质检,还大大降低了人工成本,有利于提高语音质检的效率和精准度。
技术研发人员:赵情恩;曾新贵;熊新雷;陈蓉;肖岩
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.02.26
技术公布日:2021.06.11
本文用于企业家、创业者技术爱好者查询,结果仅供参考。