技术特征:
1.一种音频处理方法,其特征在于,所述方法包括:
提取待处理音频中每个音频帧的频域特征,并基于所述频域特征确定所述待处理音频对应的初始相似度矩阵;
获取每个所述音频帧在所述待处理音频中的时间顺序,按照所述时间顺序修正所述初始相似度矩阵,以得到融合时间关系的目标相似度矩阵;
根据所述目标相似度矩阵构建所述待处理音频对应的音频特征图谱;
对所述音频特征图谱进行谱聚类,得到多个簇,并根据多个所述簇的聚类边界确定所述待处理音频的多个分割边界;
根据所述分割边界对所述待处理音频进行分割,以得到多个音频段。
2.根据权利要求1所述的方法,其特征在于,所述提取待处理音频中每个音频帧的频域特征,包括:
按照cqt提取每个所述音频帧的频域特征;
所述基于所述频域特征确定所述待处理音频对应的初始相似度矩阵,包括:
根据每个所述音频帧的频域特征,确定每两个所述音频帧在频域特征上的相似度;
根据每两个所述音频帧在频域特征上的相似度,生成所述初始相似度矩阵,并对所述初始相似度矩阵进行平滑滤波。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述音频帧的频域特征,确定每两个所述音频帧在频域特征上的相似度,包括:
利用高斯核函数计算每两个所述音频帧的频域特征之间的第一相似度;
按照预设的邻近算法确定每个所述音频帧在频域特征上对应的邻近音频帧;
若第一音频帧属于第二音频帧对应的所述邻近音频帧,将所述第一音频帧的频域特征与所述第二音频帧的频域特征之间的第一相似度,作为所述第一音频帧与所述第二音频帧在频域特征上的相似度;若所述第一音频帧不属于所述第二音频帧对应的所述邻近音频帧,将所述第一音频帧与所述第二音频帧在频域特征上的相似度置零;
其中,所述第一音频帧与所述第二音频帧不同。
4.根据权利要求1所述的方法,其特征在于,所述根据所述分割边界对所述待处理音频进行分割,以得到多个音频段,包括:
提取所述待处理音频中对应的节拍时刻序列,所述节拍时刻序列包括所述待处理音频中的每个节拍对应的时刻;
针对每个所述分割边界,在所述节拍时刻序列中查找,对应的时刻与该分割边界之间的时间差最小的目标节拍;
按照每个所述分割边界对应的所述目标节拍对应的时刻,对所述待处理音频进行分割,以得到多个所述音频段。
5.根据权利要求4所述的方法,其特征在于,所述提取所述待处理音频中对应的节拍时刻序列,包括:
根据每个所述音频帧的短时能量,确定所述待处理音频中每个音符的起始点;
根据每个所述音符的起始点,确定所述待处理音频的速度和节拍;
根据每个所述音频帧的短时能量、所述待处理音频的速度和节拍,确定所述待处理音频中的每个节拍对应的时刻。
6.根据权利要求1所述的方法,其特征在于,所述按照所述时间顺序,修正所述初始相似度矩阵,以得到融合时间关系的目标相似度矩阵,包括:
根据每个所述音频帧在所述待处理音频中的时间顺序,和每两个所述音频帧在频域特征上的相似度,确定每两个所述音频帧之间的目标相似度;
根据每两个所述音频帧之间的目标相似度,生成所述目标相似度矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据每个所述音频帧在所述待处理音频中的时间顺序,和每两个所述音频帧在频域特征上的相似度,确定每两个所述音频帧之间的目标相似度,包括:
若第一音频帧与第二音频帧的时间差小于预设的时间阈值,将所述第一音频帧与所述第二音频帧之间的目标相似度置为1;若第一音频帧与第二音频帧的时间差大于或等于所述时间阈值,将所述第一音频帧与所述第二音频帧在频域特征上的相似度,作为所述第一音频帧与所述第二音频帧之间的目标相似度;
其中,所述第一音频帧与所述第二音频帧不同。
8.根据权利要求1所述的方法,其特征在于,所述根据多个所述簇的聚类边界确定所述待处理音频的多个分割边界,包括:
针对每个所述簇,根据该簇中包括的多个音频帧对应的时间进行聚类,以得到该簇包括的至少一个时间簇;
将多个所述簇包括的所述时间簇,按照时间顺序进行排列;
根据每两个相邻的所述时间簇的聚类边界,确定多个所述分割边界。
9.根据权利要求8所述的方法,其特征在于,所述根据所述分割边界对所述待处理音频进行分割,以得到多个音频段,包括:
将多个所述分割边界按照时间顺序进行排列,并按照排序后的所述分割边界对所述待处理音频进行分割,以得到第一数量个初始音频段;
针对每个所述初始音频段,根据该初始音频段两端分别对应的两个分割边界,确定该初始音频段所属的目标时间簇,所述目标时间簇的聚类边界与所述目标时间簇之前的一个时间簇的聚类边界,确定了该初始音频段起始端对应的分割边界,所述目标时间簇的聚类边界与所述目标时间簇之后的一个时间簇的聚类边界,确定了该初始音频段结束端对应的分割边界;
根据所述目标时间簇所属的目标簇,确定该初始音频段属于所述目标簇;
根据每个所述初始音频段所属的所述目标簇,对第一数量个所述初始音频段进行合并,以得到第二数量个所述音频段。
10.一种音频处理装置,其特征在于,所述装置包括:
第一确定模块,用于提取待处理音频中每个音频帧的频域特征,并基于所述频域特征确定所述待处理音频对应的初始相似度矩阵;
第二确定模块,用于获取每个所述音频帧在所述待处理音频中的时间顺序,按照所述时间顺序修正所述初始相似度矩阵,以得到融合时间关系的目标相似度矩阵;
图谱构建模块,用于根据所述目标相似度矩阵构建所述待处理音频对应的音频特征图谱;
聚类模块,用于对所述音频特征图谱进行谱聚类,得到多个簇,并根据多个簇的聚类边界确定多个分割边界;
分割模块,用于根据所述分割边界对所述待处理音频进行分割,以得到多个音频段。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
技术总结
本公开涉及一种音频处理方法、装置、可读介质和电子设备,涉及音频信号处理技术领域,该方法包括:提取待处理音频中每个音频帧的频域特征,并基于频域特征确定待处理音频对应的初始相似度矩阵,获取每个音频帧在待处理音频中的时间顺序,按照时间顺序修正初始相似度矩阵,以得到融合时间关系的目标相似度矩阵,根据目标相似度矩阵构建待处理音频对应的音频特征图谱,对音频特征图谱进行谱聚类,得到多个簇,并根据多个簇的聚类边界确定待处理音频的多个分割边界,根据分割边界对待处理音频进行分割,以得到多个音频段。本公开能够提高音频分割的准确度和适应度。
技术研发人员:徐怡廷;王素珍;丁锐
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2021.05.27
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。