基于声纹识别的语音分类方法、装置及相关设备与流程

2021-09-25 04:32:00 来源：中国专利 TAG：数据处理介质语音识别装置

技术特征：
1.一种基于声纹识别的语音分类方法，其特征在于，所述基于声纹识别的语音分类方法包括：预处理历史语音会话数据，得到预设时长的语音会话片段集；调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据；获取初始音频编码模型，并删除所述初始音频编码模型中的无用通道数，得到改进后的初始音频编码模型；调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据，得到频谱特征；以所述频谱特征为输入向量，所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型，得到训练好的目标音频编码模型；调用所述目标音频编码模型处理所有代理人的音频数据，得到每个代理人的代理音频编码，并根据所述代理音频编码创建对应所有代理人的声纹库；接收待验证语音会话数据，并调用所述目标音频编码模型处理所述待验证会话数据，得到待验证音频编码集；计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值，并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值；当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时，确定所述待验证语音会话数据为真实语音会话数据。2.根据权利要求1所述的基于声纹识别的语音分类方法，其特征在于，所述预处理历史语音会话数据，得到预设时长的语音会话片段集包括：获取所述历史语音会话数据中每段语音会话的对话开启时间与对话结束时间，并根据所述对话开启时间与所述对话结束时间确定所述语音会话的会话时长；删除所述历史语音会话数据中所述会话时长未超过预设语音时长阈值的语音会话，得到第一语音会话数据；调用vad语音检测技术检测所述第一语音会话数据中每段语音会话的噪声片段，并删除噪声片段的数量超过预设数量阈值的语音会话，得到第二语音会话数据；按照预设时长裁剪所述第二语音会话数据，得到语音会话片段集。3.根据权利要求1所述的基于声纹识别的语音分类方法，其特征在于，所述调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据包括：提取所述语音会话片段集中每一语音会话片段的频谱信息；根据所述频谱信息生成对应于时域的第一波形图，并将所述第一波形图进行分帧处理，得到若干第一单帧波形图；对每个第一单帧波形图进行快速傅里叶变换操作，以得到多个第一单帧频谱图，其中，每个第一单帧频谱图的横轴用于表示频率，每个第一单帧频谱图的纵轴用于表示振幅；将每个第一单帧频谱图的进行反转操作和灰度操作，以得到多个第一一维灰度振幅图；合成若干所述第一一维灰度振幅图，以得到语音频谱图，并基于所述语音频率图中的坐标信息得到目标频谱数据。
4.根据权利要求1所述的基于声纹识别的语音分类方法，其特征在于，所述删除所述初始音频编码模型中的无用通道数，得到改进后的初始音频编码模型包括：预先设置无用通道数；检测所述初始音频编码模型的每一层的最后一个维度中是否存在所述无用通道数；当检测结果为所述初始音频编码模型的每一层的最后一个维度中存在所述无用通道数时，删除所述无用通道数，得到改进后的初始音频编码模型。5.根据权利要求1所述的基于声纹识别的语音分类方法，其特征在于，所述调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据，得到频谱特征包括：获取目标频谱数据，并从所述目标频谱数据中提取出预设数量的频谱帧，得到频谱帧集合，每一频谱帧对应目标频谱数据中的唯一时间戳；向量化处理所述频谱帧集合中的每一频谱帧，得到帧特征向量；聚合分析所述帧特征向量，得到与所述目标频谱数据对应的频谱特征。6.根据权利要求1所述的基于声纹识别的语音分类方法，其特征在于，在调用所述目标音频编码模型处理所述待验证会话数据，得到待验证音频编码集之前，所述方法还包括：根据预设规则将所述待验证语音会话数据划分为若干数据帧；统计当前数据帧的频谱能量,并将所述频谱能量与所述预设能量阈值进行比对；若所述频谱能量小于或等于所述预设能量阈值,则确定当前数据帧为正常音频信号；若所述频谱能量大于所述预设能量阈值,则确定当前数据帧包含异常信号。7.根据权利要求1所述的基于声纹识别的语音分类方法，其特征在于，所述计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值包括：将所述待验证音频编码与所述代理音频编码转换为向量形式；采用预设夹角余弦值计算模型处理向量形式的所述待验证音频编码与所述代理音频编码，得到夹角余弦值；根据所述夹角余弦值确定所述待验证音频编码与所述代理音频编码的相似度值。8.一种基于声纹识别的语音分类装置，其特征在于，所述基于声纹识别的语音分类装置包括：数据预处理模块，用于预处理历史语音会话数据，得到预设时长的语音会话片段集；数据变换模块，用于调用快速傅里叶变换算法将所述语音会话片段集中每一语音会话片段变换为目标频谱数据；模型改进模块，用于获取初始音频编码模型，并删除所述初始音频编码模型中的无用通道数，得到改进后的初始音频编码模型；聚合处理模块，用于调用改进后的所述初始音频编码模型聚合处理所述目标频谱数据，得到频谱特征；模型训练模块，用于以所述频谱特征为输入向量，所述频谱特征对应的音频编码为输出向量训练改进后的所述初始音频编码模型，得到训练好的目标音频编码模型；声纹库创建模块，用于调用所述目标音频编码模型处理所有代理人的音频数据，得到每个代理人的代理音频编码，并根据所述代理音频编码创建对应所有代理人的声纹库；编码获取模块，用于接收待验证语音会话数据，并调用所述目标音频编码模型处理所
述待验证会话数据，得到待验证音频编码集；相似度计算模块，用于计算所述待验证音频编码集中每一待验证音频编码与所述声纹库中每一代理音频编码的相似度值，并检测是否存在目标待验证音频编码与所述代理音频编码的相似度未超过预设相似度阈值；数据确定模块，用于当检测结果为存在目标待验证音频编码与所述代理音频编码的相似度未超过所述预设相似度阈值时，确定所述待验证语音会话数据为真实语音会话数据。9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于声纹识别的语音分类方法。10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于声纹识别的语音分类方法。

技术总结
本申请涉及数据处理技术，提供一种基于声纹识别的语音分类方法、装置、计算机设备与存储介质，包括：预处理历史语音会话数据；将语音会话片段变换为目标频谱数据；训练目标音频编码模型；调用目标音频编码模型处理所有代理人的音频数据，得到代理音频编码，创建声纹库；接收待验证语音会话数据，调用目标音频编码模型处理待验证会话数据，得到待验证音频编码集；计算待验证音频编码与声纹库中代理音频编码的相似度，检测是否存在目标待验证音频编码与代理音频编码的相似度未超过预设相似度阈值；当结果为否时，确定待验证语音会话数据为真实语音会话数据。本申请能够提高语音分类准确性与效率，促进智慧城市快速发展。促进智慧城市快速发展。促进智慧城市快速发展。

技术研发人员：李少军杨杰
受保护的技术使用者：中国平安人寿保险股份有限公司
技术研发日：2021.07.30
技术公布日：2021/9/24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于声纹识别的语音分类方法、装置及相关设备与流程

相关文章

最热文献