一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于迁移学习的音频自动标注方法与流程

2021-10-16 02:03:00 来源:中国专利 TAG:迁移 学习 标注 音频 方法


1.本发明涉及音乐信息研究领域和迁移学习领域,具体来说是一种基于迁移学习的音频自动标注方法。


背景技术:

2.近年来,随着互联网规模的扩大和数字多媒体技术的快速发展,音乐数字化已经成为趋势。在线音乐资源呈爆炸式增长,人们对音乐服务的质量要求也越来越高。数字化音乐网站的检索、推荐和页面导航的服务质量很大程度上依赖于音乐标签的质量:音乐检索通常以歌曲的音乐标签作为分类检索的依据,音乐推荐通常依据用户的收听历史为其推荐相似歌曲。然而,数字化音乐网站新上架的歌曲、冷门歌曲具有较少的标签信息,从而导致热度较低的长尾音乐很少被推荐或访问,得到用户或社区标注的机会就更少,形成负反馈效应。虽然专家标注能够解决歌曲长尾问题,但成本高昂,无法应用于大规模音乐曲库。因此,根据音乐音频进行音乐标签自动标注具有极高的研究价值。
3.音乐标签指能够表达音乐特性的高层次描述性词语,是数字化音乐服务的重要组成部分,常见的音乐标签类别有流派(例如古典、爵士、摇滚、乡村等)、演奏乐器(例如吉他、弦乐、钢琴、鼓等)、情绪(例如开心、舒缓、愤怒、紧张、哀伤等)、演唱者信息(性别、演唱者人数等)等。音乐自动标注需要从音频信息中预测音频标签,主要包含两个重要的子任务:获取有效表示音乐自身属性的音频描述性特征;学习从音乐特征到高层语义标签之间的映射。传统的音频自动标注方法直接通过信号处理系统从时域或频域计算出表示声音的相关特征(例如基频、共振峰、mel频率倒谱系数等),而后作为机器学习阶段的输入信号,进行模型训练。但人工特征的设计十分繁重,需要较多专业知识,而且很难充分描述音乐各方面的特点。随着深度学习在模式识别的各个领域都取得了巨大成就,新的音乐标注方法被提出,通过组合卷积神经网络、循环神经网络等网络结构,学习从音频特征到文本标签之间的映射关系,但仍存在标注单一、准确性低的问题。
4.目前,公开的音频自动标注数据集包含流派、情感、演奏乐器、演唱者信息等标签,主要通过人工标注的方式进行标注,大都存在标注缺失、数据稀疏的问题。针对该问题,有必要设计一种方法合理扩充标签数据,一定程度上完善音乐的属性。迁移学习可以从相关领域中迁移标注数据或者知识结构完成或改进目标领域或任务的学习效果,主要分为基于实例的迁移、基于特征的迁移、基于共享参数的迁移,例如学会骑自行车,就比较容易学摩托车。对于原始集,可以依据一级标签将其划分为多个子数据集,这些子数据集分别对应不同一级标签下的音频自动标注任务。vgg、resnet在图像识别领域中表现较好,将其迁移至音频分类任务中,一定程度上可以提高音频自动标注的效果,可以预测出数据集中缺失的标签。相较于其他音频自动标注研究方法,该方法弥补了原始数据集数据缺失的问题,同时使得数据更加均衡,提高了标签的多样性和平衡性。
5.考虑到音频在时域、频域包含着丰富的信息,在时域可以观察幅度(音量)随时间的变化,频域可以体现声音频率的变化,与音色相关。以音频的不同表示形式(音频时域信
号、音频梅尔频谱图)作为输入,构造音频自动标注分类器学习音频在时域、频域的特征,最后进行决策级融合。相较于直接利用音频波形或音频声谱图进行自动标注研究,这不仅提高了音频信息的利用率,还提高了音频自动标注的准确率。


技术实现要素:

6.发明目的:针对目前音乐自动标注研究中存在的标注缺失、数据稀疏问题,提出基于迁移学习的音频自动标注方法,提高了音频标注的多样性和均衡性;同时,以音频的不同表示形式作为输入构建音频自动标注分类器,学习到了音频更加丰富的时频域特征,这不仅提高了音频信息的利用率,还提高了音频自动标注的准确率,为音乐检索系统、音乐推荐系统提供了更好的数据支持。
7.技术方案:一种基于迁移学习的音频自动标注方法具体实施以下步骤:
8.step1:数据预处理
9.读取原始音频标注数据集并进行清洗,删除其中的问题数据文件(例如:数据为空),并将标签数据按照出现频率由高到低进行排序。以11025hz的采样频率对mp3音频文件进行重采样,通过短时傅里叶变换将音频信号从时域映射到频域,得到声谱图,获得频率随时间的变化。
10.依据原始音频标注数据集中标签的分布情况,构建m个一级标签(例如:流派、乐器、情感、演唱者信息),将其划分成m个子数据集,每个子数据集对应n个二级标签(例如:流派分为古典、爵士、摇滚、乡村),其中二级标签为数据集中原始存在的标注。
11.step2:迁移学习
12.经过step1,将音频自动标注问题转换为多个音频子集自动标注问题。选取子数据集m1,对应n1个二级标签,以梅尔频谱图为模型输入,搭建端到端的多分类模型,以roc

auc为评价标准,进行知识学习。vgg、resnet等网络模型在图像识别领域表现效果较好,将其迁移至音频分类中,进行微调,转换成适用于音频自动标注的模型。
13.选取子数据集m
i
(i>1),对应n
i
个二级标签,将图像识别网络模型迁移到数据集m
i
上,以梅尔频谱图为模型输入,对模型进行训练与微调,得到其在m
i
数据集上的训练参数,同时可以预测出其他子数据集m
j
(j≠i)对应的n
i
个二级标签。如此,可以得到一个较为均衡的标注数据集,即每个音频文件至少被标注了m个标签。
14.step3:音频自动标注
15.对于扩充标注后的音频数据集进行m分类。考虑到音频信号在时域、频域具有不同的特征,分别以时域波形、频域声谱图为输入,构建音频自动标注分类器进行知识学习,应用lstm学习音频的时序特性,应用resnet学习声谱图的频域特性,而后将两个模型的输出进行决策级融合,具体公式如(1)所示,最终生成音频自动标注分类器,
[0016][0017]
其中,n表示模型个数,weight
i
表示模型i的权重,p
i
表示模型i的预测概率值。
[0018]
本发明的有益效果具体表述如下:
[0019]
1)对音频数据,通过短时傅里叶变换,将其转换至频域,获得音频在频域中的表示形式。
[0020]
2)依据原始数据集的标签分布,构建一级标签,对应若干个二级标签,并依据一级
标签将数据集划分为多个子数据集。
[0021]
3)将图像识别领域中表现效果较好的网络模型迁移至音频自动标注任务,进行微调和模型的优化,针对单个一级标签下的音频,提高了音频分类任务的准确率。
[0022]
4)对每个音频子集,应用3)中的模型进行分类预测,分别对未标注一级标签的数据进行标注,从而扩充音频标注数据集,提高了音频标注的多样性和均衡性。
[0023]
5)对于扩充后的数据集进行多分类,考虑到音频信号在时域、频域都包含着有效信息,分别以音频时域信号、声谱图作为输入,构建音频自动标注分类器,对于分类器的输出进行决策级融合,以真实标注数据集为目标,进行模型的训练与测试,不仅提高了音频信息的利用率,还大幅度提高了音频自动标注的准确率。
附图说明
[0024]
图1为本发明基于迁移学习的音频自动标注方法流程图。
[0025]
图2为本发明音频自动标注流程示意图。
具体实施方式
[0026]
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
[0027]
参见图1,该图中给出了本发明实施例的算法流程,包括以下步骤:
[0028]
步骤1,音频预处理:进行数据清洗,去除无效数据;对mp3音频数据以11025hz的采样率重新采样,同时利用短时傅里叶变换将音频信号转换为声谱图,得到音频信号在频域的表示;对于数据集标签进行同义词合并,并按出现频率由高到低进行排序。
[0029]
步骤2,划分数据集:查看数据集标签的分布情况,选择出现频率前50的标签作为二级标签,构建一级标签(流派、情感、乐器、演唱者信息),分别对应50个二级标签的一部分,以此将数据集划分为4个子数据集(流派数据集、情感数据集、乐器数据集、演唱者信息数据集)。
[0030]
步骤3,迁移学习模型训练:将在图像领域中表现效果较好的resnet迁移至音频分类任务中,分别对于得到的4个子数据集进行模型的微调(冻结除全连接层之外的网络权重,提取图像特征,基于不同子数据集进行全连接层参数的训练),提高了音频分类的准确率。
[0031]
步骤4,扩充标签数据集:在步骤3的基础上,应用在不同子数据集上微调后的不同模型对不包含该一级标签的其他数据集进行标签预测和标注,例如:应用在流派数据集上微调后的模型预测不包含流派标注的数据集。重复上述操作,直至每个音频数据都至少被标注4个标注,从而扩充标注数据集,提高了标注数据集的多样性与均衡性。
[0032]
步骤5,音频自动标注:构建音频自动标注模型,将时域波形、声谱图分别作为音频信号在时域、频域的表示。将音频信号输送进入lstm网络学习音频的时序特征,输出对应50标签的概率分布;将声谱图输送进入resnet网络提取图片的深层特征,输出对应50标签的概率分布。而后,对lstm、resnet的输出进行决策级融合,主要公式如(2):
[0033]
[0034]
以扩充后的标签数据集为目标,对自动标注模型进行训练,生成音频自动标注模型,该模型不仅提高了音频信息的利用率,还提高了音频自动标注的准确率,可用于对未知标注的歌曲添加多个标签。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜