基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质与流程

2021-06-25 16:36:00 来源：中国专利 TAG：互联网矩阵剪辑装置方法

技术特征：
1.一种基于相似矩阵的音乐自动剪辑实现方法，其特征在于，包括：s1.获取待剪辑的音频文件和预设剪辑时长范围；s2.将所述音频文件转换为对应的色谱图，并利用相似矩阵对副歌片段进行定位；s3.通过预设窗口对所述副歌片段的能量进行分析，获取所述副歌片段中的高潮片段；s4.通过微调窗口对所述高潮片段进行微调，获取所述高潮片段的起始时间点；s5.通过人声检测模型进行人声检测，获取所述高潮片段的结束时间点；s6.根据所述起始时间点和所述结束时间点剪辑得到对应的音频片段。2.根据权利要求1所述的方法，其特征在于，所述s2包括：以一帧为单位构建所述音频文件的色谱图；根据所述色谱图分析各帧歌曲的相似度；将所述相似度按照时间维度构建相似矩阵；根据所述相似矩阵分析最优副歌片段。3.根据权利要求2所述的方法，其特征在于，将所述相似度按照时间维度构建相似矩阵的步骤包括：根据公式(1)计算两帧歌曲的相似度；根据公式(2)构建相似矩阵：m[x][y]＝similarity(x,y)
ꢀꢀꢀꢀ
(2)式中，x和y表示不同的两帧歌曲对应的音符向量；similarity表示相似度；m表示相似度矩阵。4.根据权利要求3所述的方法，其特征在于，根据所述相似矩阵分析最优副歌片段的步骤包括：根据所述相似度矩阵构建延时矩阵，将所述相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线；根据设置的阈值对所述延时矩阵进行降噪平滑处理；将降噪平滑处理后的延时矩阵中的线条按照时间点进行统计；定义每一条直线的权重，根据各个时间点重叠的线条数进行加权求和，计算该直线的总权重；将总权重最大的直线对应的歌曲片段作为最优副歌片段。5.根据权利要求4所述的方法，其特征在于，根据所述相似度矩阵构建延时矩阵，将所述相似度矩阵中倾斜的对角线通过线性变换转换为平铺的直线的步骤通过公式(3)进行线性变换：t[x][y]＝m[x][x
‑
y]＝similarity(x,x
‑
y)
ꢀꢀꢀ
(3)式中，t表示延时矩阵；m表示相似度矩阵；x和y表示不同的两帧歌曲对应的音符向量；similarity表示相似度。6.根据权利要求1所述的方法，其特征在于，所述s3包括：根据获取音频文件时的文件采样率和最小切片时长设置预设窗口；根据所述预设窗口将所述副歌片段划分为多个片段；
计算各个所述片段中的平均能量值，并将平均能量值最高的片段作为高潮片段。7.根据权利要求6所述的方法，其特征在于，所述s4包括：获取高潮片段的起点作为初步起始时间点；根据设置的检测片段时间长度和所述文件采样率设置微调窗口；根据预设的滑动检测区域和所述初步起始时间点构建目标检测区域；根据所述微调窗口将所述目标检测区域划分为多个检测片段；计算各个所述检测片段中的平均能量值，并将平均能量值最小的检测片段对应的起点作为所述高潮片段的最终起始时间点。8.根据权利要求1所述的方法，其特征在于，所述s5包括：采用五个卷积层块和一个全连接层构建神经网络模型；利用含有人声和不含人声的环境音、噪音和纯音乐音频样本对所述神经网络模型进行训练得到对应的人声检测模型；根据所述起始时间点和所述剪辑时长范围的最小值计算剪辑结束的预估位置；从所述预估位置开始按照预设时间间隔获取所述音频文件中的数字信号对应的mel频谱图；利用所述人声检测模型对所述预估位置对应的mel频谱图进行分析，确认是否含有人声；若含有人声，则逐帧向后进行检测，直到连续多帧未检测到人声时以当前的时间点作为结束时间点。9.一种基于相似矩阵的音乐自动剪辑实现系统，其特征在于，包括：获取模块，用于获取待剪辑的音频文件和预设剪辑时长范围；副歌片段定位模块，用于将所述音频文件转换为对应的色谱图，并利用相似矩阵对副歌片段进行定位；高潮片段定位模块，用于通过预设窗口对所述副歌片段的能量进行分析，获取所述副歌片段中的高潮片段；起始时间点分析模块，用于通过微调窗口对所述高潮片段进行微调，获取所述高潮片段的起始时间点；结束时间点分析模块，用于通过人声检测模型进行人声检测，获取所述高潮片段的结束时间点；剪辑模块，用于根据所述起始时间点和所述结束时间点进行剪辑得到对应的音频片段。10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被执行时实现权利要求1
‑
8任一项所述方法的步骤。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于相似矩阵的音乐自动剪辑实现方法、装置及存储介质与流程

相关文章

最热文献