一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音乐识别方法、音乐特征提取模型的训练方法及装置与流程

2022-02-22 19:21:40 来源:中国专利 TAG:

技术特征:
1.一种音乐识别方法,包括:确定待识别音频中的音乐片段,其中所述音乐片段为包含音乐成分的音频片段;提取所述音乐片段的第一特征向量;以及基于所述第一特征向量,从音乐库中确定与所述待识别音频相匹配的至少一个目标音乐。2.根据权利要求1所述方法,其中,所述待识别音频为音频数据流,并且其中,所述确定待识别音频中的音乐片段包括:从所述音频数据流中依次截取预设时长的音频帧;对于所截取出的每一个音频帧,检测所述音频帧是否包含音乐成分;响应于包含音乐成分的连续的多个音频帧的数量达到第一阈值,将所述多个音频帧之后的音频数据确定为所述音乐片段。3.根据权利要求1所述的方法,其中,所述待识别音频为音频文件,并且其中,所述确定待识别音频中的音乐片段包括:将所述音频文件划分为多个音频帧;对于所述多个音频帧中的每一个音频帧,检测所述音频帧是否包含音乐成分;将包含音乐成分的一个或多个连续的音频帧确定为一个候选音乐片段,以得到所述音频文件对应的至少一个候选音乐片段;以及将所述至少一个候选音乐片段中包括的音频帧数量最多的候选音乐片段确定为所述音乐片段。4.根据权利要求2或3所述的方法,其中,所述检测所述音频帧是否包含音乐成分包括:提取所述音频帧的频谱特征;以及将所述频谱特征输入预设的音乐检测模型,以得到所述音乐检测模型输出的所述音频帧是否包含音乐成分的检测结果。5.根据权利要求1-4中任一项所述的方法,其中,所述提取所述音乐片段的第一特征向量包括:提取所述音乐片段的频谱特征;以及将所述频谱特征输入预设的音乐特征提取模型,以得到所述音乐特征提取模型输出的所述音乐片段的第一特征向量。6.根据权利要求1-5中任一项所述的方法,其中,所述音乐库包括多个候选音乐,并且其中,所述基于所述第一特征向量,从音乐库中确定与所述待识别音频相匹配的至少一个目标音乐包括:对于所述多个候选音乐中的每一个候选音乐:获取所述候选音乐对应的多个第二特征向量,其中所述候选音乐被划分为多个片段,所述多个片段与所述多个第二特征向量分别对应;分别计算所述第一特征向量与所述多个第二特征向量中的每一个第二特征向量的距离;以及基于所述距离,确定所述待识别音频与所述候选音乐的匹配度;以及将匹配度最大或匹配度大于第二阈值的一个或多个候选音乐作为所述至少一个目标音乐。
7.根据权利要求6所述的方法,其中,基于所述距离,确定所述待识别音频与所述候选音乐的匹配度包括:将与所述第一特征向量的距离小于第三阈值的第二特征向量对应的片段作为匹配片段;以及将所述候选音乐中的匹配片段的数量与所述多个片段的总数量的比值确定为所述匹配度。8.根据权利要求1-7中任一项所述的方法,还包括:按照预设频率获取网络中的新增音乐;以及将所述新增音乐添加至所述音乐库中。9.一种音乐特征提取模型的训练方法,包括:获取样本片段元组,其中,所述样本片段元组包括第一样本音乐片段和第二样本音乐片段,所述样本片段元组标注有匹配标签,所述匹配标签用于表示所述第一样本音乐片段和所述第二样本音乐片段是否属于相同的样本音乐;提取所述第一样本音乐片段的第一频谱特征和所述第二样本音乐片段的第二频谱特征;分别将所述第一频谱特征和所述第二频谱特征输入所述音乐特征提取模型,以得到所述第一样本音乐片段对应的第一样本特征向量和所述第二样本音乐片段对应的第二样本特征向量;基于所述匹配标签和所述第一样本特征向量与所述第二样本特征向量的距离,计算所述音乐特征提取模型的损失值;以及基于所述损失值,调整所述音乐特征提取模型的参数。10.根据权利要求9所述的方法,在提取所述第一样本音乐片段的第一频谱特征和所述第二样本音乐片段的第二频谱特征之前,还包括:分别对所述第一样本音乐片段和所述第二样本音乐片段进行数据增强处理。11.根据权利要求9或10所述的方法,其中,所述样本片段元组还包括第三样本音乐片段,所述第三样本音乐片段在所述第一样本音乐片段和第二样本音乐片段属于相同的样本音乐的情况下与所述第一样本音乐片段属于不同的样本音乐,在所述第一样本音乐片段和第二样本音乐片段属于不同的样本音乐的情况下与所述第一样本音乐片段属于相同的样本音乐;所述方法还包括:提取所述第三样本音乐片段的第三频谱特征;以及将所述第三频谱特征输入所述音乐特征提取模型,以得到所述第三样本音乐片段对应的第三样本特征向量;所述基于所述匹配标签和所述第一样本特征向量与所述第二样本特征向量的距离,计算所述音乐特征提取模型的损失值包括:基于所述匹配标签、所述第一样本特征向量与所述第二样本特征向量的距离和所述第一样本特征向量与所述第三样本特征向量的距离,计算所述音乐特征提取模型的损失值。12.根据权利要求11所述的方法,其中,在提取所述第三样本音乐片段的第三频谱特征之前,还包括:
对所述第三样本音乐片段进行数据增强处理。13.根据权利要求10或12所述的方法,其中,所述数据增强处理包括以下至少一种:添加噪声、添加室内混响效果、进行时间偏移、调整音量。14.根据权利要求9-13中任一项所述的方法,还包括:按照预设频率获取网络中的新增音乐;以及将所述新增音乐作为用于训练所述音乐特征提取模型的样本音乐。15.一种音乐识别装置,包括:第一确定模块,被配置为确定待识别音频中的音乐片段,其中所述音乐片段为包含音乐成分的音频片段;提取模块,被配置为提取所述音乐片段的第一特征向量;以及第二确定模块,被配置为基于所述第一特征向量,从音乐库中确定与所述待识别音频相匹配的至少一个目标音乐。16.一种音乐特征提取模型的训练装置,包括:获取模块,被配置为获取样本片段元组,其中,所述样本片段元组包括第一样本音乐片段和第二样本音乐片段,所述样本片段元组标注有匹配标签,所述匹配标签用于表示所述第一样本音乐片段和第二样本音乐片段是否属于相同的样本音乐;提取模块,被配置为提取所述第一样本音乐片段的第一频谱特征和所述第二样本音乐片段的第二频谱特征;输入模块,被配置为分别将所述第一频谱特征和所述第二频谱特征输入所述音乐特征提取模型,以得到所述第一样本音乐片段对应的第一样本特征向量和所述第二样本音乐片段对应的第二样本特征向量;计算模块,被配置为基于所述匹配标签和所述第一样本特征向量与所述第二样本特征向量的距离,计算所述音乐特征提取模型的损失值;以及调整模块,被配置为基于所述损失值,调整所述音乐特征提取模型的参数。17.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-14中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述的方法。

技术总结
本公开提供了一种音乐识别方法、音乐特征提取模型的训练方法及装置,涉及人工智能技术领域,尤其涉及音频处理和智能推荐技术领域。实现方案为:确定待识别音频中的音乐片段,音乐片段为包含音乐成分的音频片段;提取音乐片段的第一特征向量;以及基于第一特征向量,从音乐库中确定与待识别音频相匹配的至少一个目标音乐。目标音乐。目标音乐。


技术研发人员:刘云峰 王艺鹏
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.11.09
技术公布日:2022/2/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献