说话人识别方法、装置、计算机设备和存储介质与流程

2022-02-22 18:54:19 来源：中国专利 TAG：

技术特征：
1.一种说话人识别方法，其特征在于，所述方法包括：获取待进行说话人识别的目标语音；对所述目标语音进行质量特征提取，得到所述目标语音对应的目标嗓音质量特征，以及对所述目标语音进行韵律特征提取，得到所述目标语音对应的目标语音韵律特征；基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取，提取得到目标声纹特征；基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。2.根据权利要求1所述的方法，其特征在于，所述对所述目标语音进行质量特征提取，得到所述目标语音对应的目标嗓音质量特征包括：确定已训练的嗓音损伤分类模型，所述嗓音损伤分类模型包括已训练的损伤特征提取层以及已训练的损伤程度分类层；将所述目标语音输入到所述嗓音损伤分类模型中，利用所述损伤特征提取层进行特征提取，并跳过所述损伤程度分类层，将提取得到的语音损伤特征作为所述目标语音对应的目标嗓音质量特征。3.根据权利要求2所述的方法，其特征在于，训练得到所述嗓音损伤分类模型的步骤包括：获取训练语音以及所述训练语音对应的损伤程度标签；将所述训练语音输入到待训练的损伤特征提取层对所述训练语音进行特征提取，得到训练提取特征；将所述训练提取特征输入到待训练的损伤程度分类层进行损伤程度预测，得到候选损伤程度对应的概率分布；基于候选损伤程度对应的概率分布以及所述损伤程度标签对应的概率分布的差异得到模型损失值，所述模型损失值与所述差异成正相关关系；基于所述模型损失值对待训练的损伤特征提取层以及待训练的损伤程度分类层进行参数调整，得到已训练的损伤特征提取层以及已训练的损伤程度分类层。4.根据权利要求1所述的方法，其特征在于，所述对所述目标语音进行质量特征提取，得到所述目标语音对应的目标嗓音质量特征包括：确定已训练的嗓音恢复分类模型，所述嗓音恢复分类模型包括已训练的恢复特征提取层以及已训练的恢复程度分类层；将所述目标语音输入到所述嗓音恢复分类模型中进行处理，利用所述恢复特征提取层进行特征提取，并跳过所述恢复程度分类层，将提取得到的语音恢复特征作为所述目标语音对应的目标嗓音质量特征。5.根据权利要求1所述的方法，其特征在于，所述目标声纹特征是通过目标声纹识别模型提取得到的，通过目标特征类型集合中各个目标特征类型对应的特征对所述声纹识别模型进行训练；得到所述目标特征类型集合的步骤包括：获取候选特征类型集合；所述候选特征类型集合包括多个嗓音质量类型分别对应的特征类型以及多个语音韵律类型分别对应的特征类型；获取所述候选特征类型集合对应的特征类型数量，生成特征维度为所述特征类型数量
的多个当前特征类型选取向量，所述多个当前特征类型选取向量组成当前轮次的当前特征类型选取向量集合；所述当前特征类型选取向量中的特征数值表示所在位置对应的候选特征类型的被选取度；不同当前特征类型选取向量中，相同位置对应的候选特征类型一致；对所述当前特征类型选取向量集合中的当前特征类型选取向量分别进行进化处理，得到进化后的进化特征类型选取向量；基于所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度，从所述进化特征类型选取向量以及所述当前特征类型选取向量中选取得到下一轮次的选取向量，直至得到满足声纹识别准确度条件的目标特征类型选取向量；基于所述目标特征类型选取向量从所述候选特征类型集合中选取得到目标特征类型，组成所述目标特征类型集合。6.根据权利要求5所述的方法，其特征在于，得到所述进化特征类型选取向量对应的第一声纹识别准确度以及所述当前特征类型选取向量对应的第二声纹识别准确度的步骤包括：将基于所述当前特征类型选取向量从所述候选特征类型集合中选取得到的特征集合，作为第一特征类型集合；将基于所述进化特征类型选取向量从所述候选特征类型集合中选取得到的特征类型集合，作为第二特征类型集合；获取所述第一特征类型集合的各个第一特征类型，获取所述训练用户在所述第一特征类型所对应的特征，各个所述第一特征类型所对应的特征组成所述训练用户对应的第一特征集合；获取所述第二特征类型集合的各个第二特征类型，获取所述训练用户在所述第二特征类型所对应的特征，各个所述第二特征类型所对应的特征组成所述训练用户对应的第二特征集合；获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度。7.根据权利要求6所述的方法，其特征在于，所述获取所述第一特征集合对应的所述第一声纹识别准确度以及所述第二特征集合对应的所述第二声纹识别准确度包括：基于所述第一特征集合训练得到的第一声纹识别模型，以及基于所述第二特征集合训练得到的第二声纹识别模型；将测试用户对应的测试语音输入到所述第一声纹识别模型中进行声纹识别，基于识别结果得到所述第一声纹识别准确度；将所述测试用户对应的测试语音输入到所述第二声纹识别模型中进行声纹识别，基于识别结果得到所述第二声纹识别准确度。8.一种说话人识别装置，其特征在于，所述装置包括：目标语音获取模块，用于获取待进行说话人识别的目标语音；第一特征提取模块，用于对所述目标语音进行质量特征提取，得到所述目标语音对应的目标嗓音质量特征，以及对所述目标语音进行韵律特征提取，得到所述目标语音对应的目标语音韵律特征；
目标声纹特征提取模块，用于基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取，提取得到目标声纹特征；说话人识别模块，用于基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种说话人识别方法、装置、计算机设备和存储介质。所述方法包括：获取待进行说话人识别的目标语音；对所述目标语音进行质量特征提取，得到所述目标语音对应的目标嗓音质量特征，以及对所述目标语音进行韵律特征提取，得到所述目标语音对应的目标语音韵律特征；基于所述目标嗓音质量特征以及所述目标语音韵律特征进行声纹特征提取，提取得到目标声纹特征；基于所述目标声纹特征识别得到所述目标语音对应的说话人身份。采用本方法能够提高说话人识别准确度。说话人识别准确度。说话人识别准确度。

技术研发人员：黎雨星刘强吴少忠王文耀
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2021.11.05
技术公布日：2022/2/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于对象音频包格式元数据和产生方法、设备及介质与流程

说话人识别方法、装置、计算机设备和存储介质与流程

相关文献

最热文献