一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种层级分类的生成音频溯源方法及存储介质、计算机设备与流程

2021-10-09 03:51:00 来源:中国专利 TAG:溯源 层级 图像处理 语音 生成

技术特征:
1.一种层级分类的生成音频溯源方法,其特征在于,所述方法包括:s1:提取训练音频的声学特征;s2:将所述训练音频的声学特征输入二分类模型,进行二分类模型训练,得到训练后的二分类模型;s3:将生成的训练音频依据其生成的方法打上不同标签,再将生成的训练音频的声学特征输入多分类模型进行训练,得到训练后的多分类模型;s4:提取测试音频的声学特征,将所述测试音频的声学特征输入所述训练后的二分类模型,进行真实/生成语音的判别,如果判别为真实,则预测终止,如果判别为生成,则将生成的测试音频的声学特征输入所述训练后的多分类模型预测其生成来源类型。2.根据权利要求1所述的层级分类的生成音频溯源方法,其特征在于,所述提取训练音频的声学特征的具体方法包括:将训练音频进行采样的到原始波形点,然后进行预加重、分帧、加窗、快速傅里叶变换、通过线性滤波器组、取对数和进行离散余弦变换,得到音频的60维线性系数倒谱特征。3.根据权利要求2所述的层级分类的生成音频溯源方法,其特征在于,所述加窗的窗口长度为25帧。4.根据权利要求3所述的层级分类的生成音频溯源方法,其特征在于,所述快速傅里叶变换为512维快速傅里叶变换。5.根据权利要求1所述的层级分类的生成音频溯源方法,其特征在于,所述二分类模型采用轻量级卷积神经网络。6.根据权利要求5所述的层级分类的生成音频溯源方法,其特征在于,所述二分类模型训练150轮,选择自适应矩估计优化器,初始学习率设为0.001,批数据大小为128。7.根据权利要求1所述的层级分类的生成音频溯源方法,其特征在于,所述多分类模型采用18层残差神经网络。8.根据权利要求7所述的层级分类的生成音频溯源方法,其特征在于,所述多分类模型训练100轮,选择自适应矩估计优化器,初始学习率设为0.001,批数据大小为128。9.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,实现如权利要求1

8任一项所述的层级分类的生成音频溯源方法的步骤。10.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器,用于存放计算机程序;所述处理器,用于执行存储在所述存储器上的计算机程序时,实现如权利要求1

8任一项所述的层级分类的生成音频溯源方法的步骤。

技术总结
本发明提供层级分类的生成音频溯源方法及存储介质、计算机设备,包括:提取训练音频的声学特征;将所述训练音频的声学特征输入二分类模型,进行二分类模型训练,得到训练后的二分类模型;将生成的训练音频依据其生成的方法打上不同标签,再将生成的训练音频的声学特征输入多分类模型进行训练,得到训练后的多分类模型;提取测试音频的声学特征,将所述测试音频的声学特征输入所述训练后的二分类模型,进行真实/生成语音的判别,如果判别为真实,则预测终止,如果判别为生成,则将生成的测试音频的声学特征输入所述训练后的多分类模型预测其生成来源类型。其生成来源类型。其生成来源类型。


技术研发人员:陶建华 马浩鑫 易江燕
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2021.09.08
技术公布日:2021/10/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜