一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练素材挑选方法、装置、电子设备及存储介质与流程

2022-04-13 20:42:35 来源:中国专利 TAG:

技术特征:
1.一种模型训练素材挑选方法,其特征在于,所述模型训练素材挑选方法包括:对干音素材进行分割,得到多个音频语句,所述干音素材中包含多个用于模型训练的音频;提取每个所述音频语句的信噪比,并将信噪比大于目标信噪比的所述音频语句作为候选音频;从所述候选音频中确定参考音频语句,并根据所述参考音频语句确定所述候选音频中的目标音频语句,所述目标音频语句为所述模型的训练素材,所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值,且所述参考音频语句与所述目标音频语句不为同一音频。2.根据权利要求1所述的方法,其特征在于,对干音素材进行分割,得到多个音频语句,包括:获取所述干音素材的音轨,以及预设音频切分范围,所述预设音频切分范围用于限定最长切分长度和最短切分长度;以所述预设音频切分范围为限制,根据所述干音素材的静音段对所述音轨进行切分,以将所述干音素材切分为多个所述音频语句。3.根据权利要求1所述的方法,其特征在于,提取每个所述音频语句的信噪比,并将信噪比大于目标信噪比的所述音频语句作为候选音频,包括:确定每个所述音频语句中的静音段与语音段,并提取所述静音段的信号能量和所述语音段的信号能量;根据所述音频语句的信号能量与所述静音段的信号能量求出所述音频语句的信噪比;将所述音频语句的信噪比与所述目标信噪比进行比较,当所述音频语句的信噪比大于所述目标信噪比时,将所述音频语句作为所述候选音频。4.根据权利要求1所述的方法,其特征在于,从所述候选音频中确定参考音频语句,包括:确定候选发音人,所述候选发音人为所述干音素材中任一音频语句对应的发音人;获取所述候选发音人对应的n条所述候选音频,并将获取的所述候选发音人对应的所述候选音频作为所述参考音频语句。5.根据权利要求1所述的方法,其特征在于,根据所述参考音频语句确定所述候选音频中的目标音频语句,包括:提取所述参考音频语句的声纹特征,并提取每个所述候选音频声纹特征;分别获取所述参考音频语句的声纹特征与每个所述候选音频声纹特征的声纹相似度;当所述声纹相似度大于声纹特征相似度阈值时,将所述候选音频作为所述目标音频语句。6.根据权利要求5所述的方法,其特征在于,将所述候选音频作为所述目标音频语句之前,所述方法还包括:获取所述干音素材对应的视频文件,从所述视频文件中获取所述参考音频语句对应的人脸图像,以及从所述视频文件中获取所述候选音频的对应的人脸图像;计算所述参考音频语句对应的人脸图像与所述候选音频的对应的人脸图像的人脸识别相似度;
当所述声纹相似度大于声纹特征相似度阈值时,将所述候选音频作为所述目标音频语句,包括:当所述声纹相似度大于声纹特征相似度阈值,且所述人脸识别相似度大于人脸相似阈值时,将所述候选音频作为所述目标音频语句。7.根据权利要求1所述的方法,其特征在于,根据所述参考音频语句确定所述候选音频中的目标音频语句之后,所述方法还包括:通过不同发音人对应的所述目标音频语句对所述模型进行训练。8.一种模型训练素材挑选装置,其特征在于,所述模型训练素材挑选装置,包括:分割模块,所述分割模块用于对干音素材进行分割,得到多个音频语句,所述干音素材中包含多个用于模型训练的音频;提取模块,所述提取模块用于提取每个所述音频语句的信噪比,并将信噪比大于目标信噪比的所述音频语句作为候选音频;确定模块,所述确定模块用于从所述候选音频中确定参考音频语句,并根据所述参考音频语句确定所述候选音频中的目标音频语句,所述目标音频语句为所述模型训练的训练素材,所述目标音频语句与所述参考音频语句之间的相似度大于相似度阈值,且所述参考音频语句与所述目标音频语句不为同一音频。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的模型训练素材挑选方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的模型训练素材挑选方法的步骤。

技术总结
本申请涉及一种模型训练素材挑选方法、装置、电子设备及存储介质,其中方法包括:对干音素材进行分割,得到多个音频语句,所述干音素材中包含多个用于模型训练的音频;提取每个所述音频语句的信噪比,并将信噪比大于目标信噪比的所述音频语句作为候选音频;从所述候选音频中确定参考音频语句,并根据所述参考音频语句确定所述候选音频中的目标音频语句,所述目标音频语句为所述模型的训练素材,通过上述方法,通过计算声纹相似度的方式,自动从干音素材中挑选出能够用于模型训练的音频,作为模型训练素材,避免了人工根据模型训练需求对发音人进行分类,并收集发音人的音频导致工作周期长的问题。长的问题。长的问题。


技术研发人员:闫影 文博龙 甘文东 陈海涛 李海
受保护的技术使用者:成都爱奇艺智能创新科技有限公司
技术研发日:2021.12.31
技术公布日:2022/4/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献