语音检测模型的训练方法以及相关方法、装置、设备与流程

2021-09-28 23:36:00 来源：中国专利 TAG：语音方法信号处理装置模型

技术特征：
1.一种语音检测模型的训练方法，其特征在于，所述语音检测模型的训练方法包括：对样本语音进行特征提取，得到至少一个初始真伪特征以及至少一个初始声纹特征；通过语音检测模型将所述至少一个初始真伪特征以及所述至少一个初始声纹特征进行特征融合，得到融合特征；分别对所述融合特征进行特征抽取，得到第一嵌入表征以及第二嵌入表征；利用所述第一嵌入表征对所述样本语音的真伪进行预测，得到第一预测结果，并利用所述第二嵌入表征对所述样本语音的说话人进行预测，得到第二预测结果；利用所述第一预测结果、所述第二预测结果与所述样本语音的标签之间的误差调整所述语音检测模型的参数。2.根据权利要求1所述的语音检测模型的训练方法，其特征在于，所述通过语音检测模型将所述至少一个初始真伪特征以及所述至少一个初始声纹特征进行特征融合，得到融合特征的步骤，包括：分别对所述至少一个初始真伪特征以及所述至少一个初始声纹特征进行深层特征提取，得到至少一个真伪语音特征以及至少一个声纹语音特征；将所述至少一个真伪语音特征以及所述至少一个声纹语音特征进行特征融合，得到所述融合特征。3.根据权利要求2所述的语音检测模型的训练方法，其特征在于，所述分别对所述至少一个初始真伪特征以及所述至少一个初始声纹特征进行深层特征提取，得到至少一个真伪语音特征以及至少一个声纹语音特征的步骤包括：通过相同网络权重的深度神经网络和非线性激活函数分别对所述至少一个初始真伪特征以及所述至少一个初始声纹特征进行帧层面的深层特征提取，得到所述至少一个真伪语音特征以及所述至少一个声纹语音特征。4.根据权利要求3所述的语音检测模型的训练方法，其特征在于，所述将所述至少一个真伪语音特征以及至少一个声纹语音特征进行特征融合，得到所述融合特征的步骤，包括：将所述至少一个真伪语音特征以及所述至少一个声纹语音特征进行特征拼接，得到串联特征；对所述串联特征进行特征转换得到所述融合特征。5.根据权利要求1所述的语音检测模型的训练方法，其特征在于，所述分别对所述融合特征进行特征抽取，得到第一嵌入表征以及第二嵌入表征的步骤包括：分别通过不同的网络特征层对所述融合特征进行特征抽取，以得到所述第一嵌入表征以及第二嵌入表征；其中，所述第一嵌入表征包括真伪嵌入特征，所述第二嵌入特征包括声纹嵌入特征。6.根据权利要求1或5所述的语音检测模型的训练方法，其特征在于，所述利用所述第一嵌入表征对所述样本语音的真伪进行预测，得到第一预测结果，并利用所述第二嵌入表征对所述样本语音的说话人进行预测，得到第二预测结果包括：将所述第一嵌入表征以及所述第二嵌入表征进行交叉融合，得到第一样本嵌入表征以及第二样本嵌入表征；利用所述第一样本嵌入表征对所述样本语音的真伪进行预测，得到所述第一预测结果，并利用所述第二样本嵌入表征对所述样本语音的说话人进行预测，得到所述第二预测
结果。7.根据权利要求6所述的语音检测模型的训练方法，其特征在于，所述将所述第一嵌入表征以及第二嵌入表征进行交叉融合，得到第一样本嵌入表征以及第二样本嵌入表征包括：分别将所述第一嵌入表征以及所述第二嵌入表征进行加权叠加，得到所述第一样本嵌入表征以及所述第二样本嵌入表征。8.根据权利要求1所述的语音检测模型的训练方法，其特征在于，所述利用所述第一预测结果、所述第二预测结果与所述样本语音的标签之间的误差调整所述语音检测模型的参数步骤包括：基于所述第一预测结果、所述第二预测结果与所述样本语音的标签构建损失函数；利用所述损失函数调整所述语音检测模型的参数。9.一种语音检测方法，其特征在于，所述语音检测方法包括：对待检测语音进行特征提取，得到至少一个初始真伪特征以及至少一个初始声纹特征；通过语音检测模型将所述至少一个初始真伪特征以及所述至少一个初始声纹特征进行特征融合，得到融合特征；分别对所述融合特征进行特征抽取，得到第一嵌入表征以及第二嵌入表征；基于第一嵌入表征以及第二嵌入表征与真实语音的第一标准嵌入表征以及第二标准嵌入表征之间的相似度确定所述待检测语音的真伪；其中，所述真实语音的第一标准嵌入表征和第二标准嵌入表征的获取方式与所述待检测语音的第一嵌入表征和第二嵌入表征的获取方式相同；其中，所述语音检测模型为采用权利要求1
‑
9中任一项所述的语音检测方法训练得到的语音检测模型。10.根据权利要求9所述的语音检测方法，其特征在于，所述基于第一嵌入表征以及第二嵌入表征与真实语音的第一标准嵌入表征以及第二标准嵌入表征之间的相似度确定所述待检测语音的语音类型的步骤包括：分别计算所述第一待检测嵌入表征与所述第一标准嵌入表征以及所述第二待检测嵌入表征与所述第二标准嵌入表征之间的余弦相似度；响应于所述第一待检测嵌入表征与所述第一标准嵌入表征之间的余弦相似度与所述第二待检测嵌入表征与所述第二标准嵌入表征之间的余弦相似度之间的乘积超过预设阈值，将所述真实语音的语音类型确定为所述待检测语音的语音类型。11.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至8任一项所述的语音检测模型的训练方法或如权利要求9
‑
10所述的语音检测方法。12.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至8任一项所述的语音检测模型的训练方法或如权利要求9
‑
10所述的语音检测方法。

技术总结
本申请公开了语音检测模型的训练方法以及相关方法、装置、设备，其中，语音检测模型的训练方法包括：对样本语音进行特征提取，得到至少一个初始真伪特征以及至少一个初始声纹特征；通过语音检测模型将至少一个初始真伪特征以及至少一个初始声纹特征进行特征融合，得到融合特征；分别对融合特征进行特征抽取，得到第一嵌入表征以及第二嵌入表征；利用第一嵌入表征对样本语音的真伪进行预测，得到第一预测结果，并利用第二嵌入表征对样本语音的说话人进行预测，得到第二预测结果；利用第一预测结果、第二预测结果与样本语音的标签之间的误差调整语音检测模型的参数。上述方案，能够提高训练后的语音检测模型对语音进行预测的准确性和可靠性。确性和可靠性。确性和可靠性。

技术研发人员：夏翔
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.05.18
技术公布日：2021/9/27

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种伴奏生成方法、系统及计算机存储介质与流程

语音检测模型的训练方法以及相关方法、装置、设备与流程

相关文章

最热文献