技术特征:
1.一种基于图神经网络的声乐打分方法,其特征在于,包括以下步骤:
s1:将歌曲音频通过librosa声音处理库转换成声音图形,分析声音图形获取歌曲音频的声音特征;
s2:根据得到的声音特征利用图卷积神经网络进行男女声分类;
s3:将分类后的歌曲音频利用异质图注意力网络进行打分。
2.根据权利要求1所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤s1中获取的声音特征包括:色谱图、局部自相关、节奏、频谱图。
3.根据权利要求2所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤s1中声音特征提取的具体步骤为:
s101:利用librosa库的librosa.load函数,提取歌曲的音频;
s102:利用librosa库的librosa.feature.chroma_stft函数,计算歌曲音频的色谱图,其中利用音频时间序列y,y的采样率sr,产生的色度仓数n_chroma,fft窗口大小n_fft;
s103:利用librosa库的librosa.feature.tempogram函数,计算起始强度包络的局部自相关,其中利用可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length;
s104:利用librosa库的librosa.feature.tempo函数,计算节奏,其中利用了可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length
s105:利用librosa库的librosa.display.specshow函数,显示频谱图,其中利用了用于确定x轴时间刻度的采样率,y的采样率sr,连续测量之间的音频样本数量hop_length,自动颜色图检测cmap。
4.根据权利要求1所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤s2中图卷积神经网络的数学表达式为:
其中,x是声音特征,a是对称邻接矩阵,w是权重矩阵。
5.根据权利要求1所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤s3所述的异质图注意力网络包括两部分:特征级注意力和语义级注意力,
所述特征级注意力用于计算每个实例的不同特征之间的相关性,以捕捉特征对当前实例的影响,计算方法如公式(2):
zi=σ(∑j∈nαijxj)(2)
其中,xj是上述过程经过歌曲数字化和男女声分类后的第i个特征,αij是特征j对当前实例的影响力权重,zi是经过特征级注意力机制后的实例表示;
所述语义级注意力捕捉异质图上的实例邻居对当前实例的影响,经过语义级注意力机制,计算出每个实例邻居的影响即计算出实例权重,从而得到当前实例的全面表示;
要得到每个实例之间的权重,首先使用一层的mlp将实例表示zi进行非线性变换,通过实例级的注意力矩阵q来衡量多个实例之间的相似性,如公式(3)所示:
其中,m表示实例个数,b表示偏置;
将多个实例之间的相似性经过softmax函数,得到实例权重,如公式(4)所示:
将特征级注意力下的实例表示与实例权重结合得到语义层的实例表示,如公式(5)所示:
最后构建损失函数,利用全连接网络进行打分。
技术总结
本发明公开了一种基于图神经网络的声乐打分方法,包括以下步骤:S1:将歌曲音频通过librosa声音处理库转换成声音图形,分析声音图形获取歌曲音频的声音特征;S2:根据得到的声音特征利用图卷积神经网络进行男女声分类;S3:将分类后的歌曲音频利用异质图注意力网络进行打分。本发明利用librosa库提取大量的声音特征,然后借助于图卷积神经网络对局部结构的建模能力及图上普遍存在的节点依赖关系,使用图卷积神经网络和异质图注意力网络来进行打分,以使打分结果更加精确。
技术研发人员:李风环;李轶;吴缺;梁爽;黄浩诚;陈铭钧
受保护的技术使用者:广东工业大学
技术研发日:2021.04.14
技术公布日:2021.07.20
本文用于企业家、创业者技术爱好者查询,结果仅供参考。