基于人工智能的语音质检方法、装置、设备及存储介质与流程

2022-02-20 00:23:53 来源：中国专利 TAG：

技术特征：
1.一种基于人工智能的语音质检方法，其特征在于，所述基于人工智能的语音质检方法包括：当接收到质检请求时，根据所述质检请求获取待质检音频，所述待质检音频中包括第一用户与第二用户的多轮对话信息；根据所述多轮对话信息中所述第一用户的音频时长及预设时长从所述待质检音频中提取关键音频；获取预先训练好的语音情感识别模型，所述语音情感识别模型包括语音处理网络及情感处理网络；基于所述语音处理网络提取所述关键音频中的语音特征参数；基于所述情感处理网络识别所述语音特征参数及所述关键音频，得到目标情感；剔除所述关键音频中所述第一用户的对话信息，得到目标音频；对所述目标音频进行静音检测，得到所述第二用户的静音检测结果；对所述目标音频进行语速检测，得到所述第二用户的语速检测结果；根据所述目标情感、所述静音检测结果及所述语速检测结果生成质检结果。2.如权利要求1所述的基于人工智能的语音质检方法，其特征在于，所述根据所述多轮对话信息中所述第一用户的音频时长及预设时长从所述待质检音频中提取关键音频包括：对于任一轮对话信息进行傅里叶变换处理，得到多个变换结果；根据预设特征模板对所述多个变换结果进行映射处理，得到多个音频特征；计算每个音频特征与预设特征的特征相似度，并将所述特征相似度最大的音频特征确定为用户音频特征；根据所述用户音频特征统计每轮对话信息中所述第一用户的语音时长作为所述音频时长；将取值大于所述预设时长的音频时长所在的轮次确定为目标轮次；根据所述目标轮次从所述待质检音频中提取所述关键音频。3.如权利要求1所述的基于人工智能的语音质检方法，其特征在于，所述基于所述语音处理网络提取所述关键音频中的语音特征参数包括：从所述语音处理网络中获取传递函数及加窗函数；基于所述传递函数对所述关键音频进行预加重处理，得到第一音频；对所述第一音频进行分帧处理，得到多个语音帧；获取每个语音帧的帧元素，并计算所述帧元素与所述加窗函数的乘积，得到声谱图；将所述声谱图输入至所述语音处理网络中的卷积特征提取层，得到所述语音特征参数。4.如权利要求1所述的基于人工智能的语音质检方法，其特征在于，所述情感处理网络包括语气识别层及语义解析层，所述基于所述情感处理网络识别所述语音特征参数及所述关键音频，得到目标情感包括：基于所述语气识别层识别所述语音特征参数，得到语气信息；将所述关键音频转换为文本信息，并基于所述语义解析层对所述文本信息进行解析，得到语义信息；获取所述语气信息所对应的第一情感，并获取所述语义信息所对应的第二情感；
若所述第一情感与所述第二情感相同，则将所述第一情感或者所述第二情感确定为所述目标情感；或者若所述第一情感与所述第二情感不同，获取所述语气信息所对应的语气分数及所述语义信息所对应的语义分数，对所述语气分数及所述语义分数进行加权和处理，得到情感分数，并将所述情感分数所对应的类型确定为所述目标情感。5.如权利要求4所述的基于人工智能的语音质检方法，其特征在于，所述对所述目标音频进行语速检测，得到所述第二用户的语速检测结果包括：从所述文本信息中提取与所述目标音频对应的信息作为目标文本；统计所述目标文本的文本量，并统计所述目标音频的时长作为目标时长；计算所述文本量在所述目标时长中的比值，得到所述语速检测结果。6.如权利要求1所述的基于人工智能的语音质检方法，其特征在于，所述对所述目标音频进行静音检测，得到所述第二用户的静音检测结果包括：从所述目标音频中获取多个目标帧；从每个目标帧中提取目标语音特征；将所述目标语音特征输入至预先训练好的静音分类器中，得到每个目标帧的类别结果；根据所述类别结果及每个目标帧在所述目标音频中的时序信息检测所述目标音频中的语音出现帧及语音消失帧；计算所述语音消失帧与所述语音出现帧之间的距离帧数；计算所述距离帧数与所述多个目标帧的数量的比值，得到所述静音检测结果。7.如权利要求1所述的基于人工智能的语音质检方法，其特征在于，所述根据所述目标情感、所述静音检测结果及所述语速检测结果生成质检结果包括：获取所述目标情感所对应的分数区间，所述分数区间包括第一分数及第二分数，所述第一分数小于所述第二分数；根据下列公式计算所述第一分数、所述静音检测结果及所述语速检测结果，得到第一质检信息：其中，y是指所述第一质检信息，h是指所述第一分数，f是指所述静音检测结果，x是指所述语速检测结果；分析所述第二分数、所述静音检测结果及所述语速检测结果，得到第二质检信息；根据所述第一质检信息及所述第二质检信息生成所述质检结果。8.一种基于人工智能的语音质检装置，其特征在于，所述基于人工智能的语音质检装置包括：获取单元，用于当接收到质检请求时，根据所述质检请求获取待质检音频，所述待质检音频中包括第一用户与第二用户的多轮对话信息；提取单元，用于根据所述多轮对话信息中所述第一用户的音频时长及预设时长从所述待质检音频中提取关键音频；所述获取单元，还用于获取预先训练好的语音情感识别模型，所述语音情感识别模型
包括语音处理网络及情感处理网络；所述提取单元，还用于基于所述语音处理网络提取所述关键音频中的语音特征参数；识别单元，用于基于所述情感处理网络识别所述语音特征参数及所述关键音频，得到目标情感；剔除单元，用于剔除所述关键音频中所述第一用户的对话信息，得到目标音频；检测单元，用于对所述目标音频进行静音检测，得到所述第二用户的静音检测结果；所述检测单元，还用于对所述目标音频进行语速检测，得到所述第二用户的语速检测结果；生成单元，用于根据所述目标情感、所述静音检测结果及所述语速检测结果生成质检结果。9.一种电子设备，其特征在于，所述电子设备包括：存储器，存储有计算机可读指令；及处理器，执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的语音质检方法。10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的基于人工智能的语音质检方法。

技术总结
本发明涉及人工智能，提供一种基于人工智能的语音质检方法、装置、设备及存储介质。该方法能够根据多轮对话信息中第一用户的音频时长及预设时长提取关键音频，获取语音情感识别模型，语音情感识别模型包括语音处理网络及情感处理网络，基于语音处理网络提取关键音频中的语音特征参数，基于情感处理网络识别语音特征参数及关键音频，得到目标情感，剔除关键音频中第一用户的对话信息，得到目标音频，对目标音频进行静音检测及语速检测，得到第二用户的静音检测结果及语速检测结果，根据目标情感、静音检测结果及语速检测结果生成质检结果，能够提高语音质检的准确性及效率。此外，本发明还涉及区块链技术，所述质检结果可存储于区块链中。区块链中。区块链中。

技术研发人员：周冰为
受保护的技术使用者：中国平安人寿保险股份有限公司
技术研发日：2021.09.29
技术公布日：2022/1/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声源定位模型的训练与声源定位方法、装置与流程

基于人工智能的语音质检方法、装置、设备及存储介质与流程

相关文献

最热文献