技术特征:
1.一种节拍检测模型的训练方法,其特征在于,包括:
获取训练音频数据集,其中,所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;
获取所述音频数据的梅尔谱特征;
获取所述音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率;
将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率;
基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数;
通过所述目标损失函数调整所述节拍检测模型的参数,对所述节拍检测模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述将所述音符起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据是节拍点概率,包括:
将所述音频数据中每帧数据的音符起始点概率与对应的梅尔谱特征进行拼接;
将拼接结果输入所述节拍检测模型,得到所述音频数据中每帧数据的节拍点概率。
3.如权利要求1所述的训练方法,其特征在于,所述音符起始点概率是利用频域差分方法对所述音频数据执行音频节奏检测得到的。
4.如权利要求3所述的训练方法,其特征在于,所述利用频域差分方法对所述音频数据执行音频节奏检测,包括:
基于所述音频数据的梅尔谱特征对所述音频数据中相邻两帧数据进行归一化处理;
针对所述音频数据中每帧数据,对归一化处理后的当前帧数据的特征与上一帧数据的特征进行差分运算,得到当前帧数据所有频率点上的差分运算后的特征,其中,归一化处理后的第一帧数据的差分运算后的特征为预先设定的;
获取差分运算后的每帧数据所有频率点上的特征的平均值;
将所述平均值输入双曲正切函数,得到所述音频数据中每帧数据的音符起始点概率。
5.一种节拍检测方法,其特征在于,包括:
获取待检测音频数据;
获取所述待检测音频数据的梅尔谱特征;
获取所述待检测音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述待检测音频数据中每帧数据是音符起始点的概率;
将所述音符起始点概率与所述梅尔谱特征输入到训练好的节拍检测模型中,得到估计的所述待检测音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述待检测音频数据中每帧数据是节拍点的概率。
6.一种节拍检测模型的训练装置,其特征在于,包括:
第一获取单元,用于获取训练音频数据集,其中,所述训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;
第二获取单元,用于获取所述音频数据的梅尔谱特征;
第三获取单元,用于获取所述音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述音频数据中每帧数据是音符起始点的概率;
估计单元,用于将所述音频起始点概率与所述梅尔谱特征输入节拍检测模型,得到估计的所述音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述音频数据中每帧数据是节拍点的概率;
确定单元,用于基于所述节拍点概率和所述音频数据对应的节拍标注信息确定目标损失函数;
训练单元,用于通过所述目标损失函数调整所述节拍检测模型的参数,对所述节拍检测模型进行训练。
7.一种节拍检测装置,其特征在于,包括:
第一获取单元,用于获取待检测音频数据;
第二获取单元,用于获取所述待检测音频数据的梅尔谱特征;
第三获取单元,用于获取所述待检测音频数据中每帧数据的音符起始点概率,其中,所述音符起始点概率表示所述待检测音频数据中每帧数据是音符起始点的概率;
估计单元,用于将所述音符起始点概率与所述梅尔谱特征输入到训练好的节拍检测模型中,得到估计的所述待检测音频数据中每帧数据的节拍点概率,其中,所述节拍点概率表示所述待检测音频数据中每帧数据是节拍点的概率。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至4中任一项所述的节拍检测模型的训练方法和权利要求5所述的节拍检测方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1至4中任一项所述的节拍检测模型的训练方法和权利要求5所述的节拍检测方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1至4中任一项所述的节拍检测模型的训练方法和权利要求5所述的节拍检测方法。
技术总结
本公开关于一种节拍检测模型的训练方法、节拍检测方法及装置。该训练方法包括:获取训练音频数据集,其中,训练音频数据集包括多个音频数据和每个音频数据对应的节拍标注信息;获取音频数据的梅尔谱特征;获取音频数据中每帧数据的音符起始点概率,其中,音符起始点概率表示音频数据中每帧数据是音符起始点的概率;将音符起始点概率与梅尔谱特征输入节拍检测模型,得到估计的音频数据中每帧数据的节拍点概率,其中,节拍点概率表示音频数据中每帧数据是节拍点的概率;基于节拍点概率和音频数据对应的节拍标注信息确定目标损失函数,通过目标损失函数调整节拍检测模型的参数,对节拍检测模型进行训练。
技术研发人员:崔凡;张晨
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2021.04.28
技术公布日:2021.08.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。