音频转换方法、音频转换装置及设备与流程

2021-10-22 23:37:00 来源：中国专利 TAG：计算机音频转换装置可读公开

技术特征：
1.一种音频转换方法，包括：获取待转换音频以及指定转换类型；对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨；基于所述主旋律音轨预测所述待转换音频的乐谱，以生成预测乐谱；以及基于所述预测乐谱生成所述指定转换类型的转换音频。2.根据权利要求1所述的音频转换方法，其中，获取待转换音频包括：输入包含音频的多媒体内容或者所述多媒体内容的链接；以及提取所述多媒体内容中的音频作为所述待转换音频。3.根据权利要求2所述的音频转换方法，其中，所述多媒体内容是视频文件、音频文件、视频流、音频流中的任一种，所述预测乐谱包括用符号表示的乐曲信息，所述乐曲信息包括具有音高、起始时间和终止时间的不同节拍。4.根据权利要求1所述的音频转换方法，其中，对所述待转换音频进行音源分离处理以获取所述待转换音频的主旋律音轨包括：将所述待转换音频划分为至少两个分离音轨，所述至少两个分离音轨包括主旋律音轨和至少一个非主旋律音轨，所述至少一个非主旋律音轨包括：人声音轨、贝斯音轨、鼓点音轨、以及其他音轨中的至少一部分；从所述至少两个分离音轨中提取所述主旋律音轨。5.根据权利要求4所述的音频转换方法，还包括：确定所述至少一个非主旋律音轨中的、要加入到所述转换音频中的目标非主旋律音轨；将所述目标非主旋律音轨添加到所述转换音频中。6.根据权利要求1所述的音频转换方法，其中，基于所述主旋律音轨预测所述待转换音频的乐谱以生成预测乐谱包括：提取所述主旋律音轨的声音特征参数；以及将所述声音特征参数输入到深度神经网络中进行预测，以生成所述预测乐谱。7.根据权利要求1所述的音频转换方法，其中，在基于所述预测乐谱生成所述指定转换类型的转换音频之前，所述音频转换方法还包括：确定所述预测乐谱中的细碎节拍的数量与节拍的总数的比例，所述细碎节拍为持续时间小于预定时间阈值的节拍；以及在所述比例超过预定比例阈值时，对所述预测乐谱进行优化处理。8.根据权利要求7所述的音频转换方法，其中，对所述预测乐谱进行优化处理包括：对于处于同一音高的、同一小节内部的细碎节拍，执行以下处理中的一项或多项：合并临近的细碎节拍；将细碎节拍分配至附近节拍；延长细碎节拍；以及删除细碎节拍，其中，所述小节为所述预测乐谱中包括预定数量的节拍或者具有预定时间长度的单位。9.根据权利要求1所述的音频转换方法，其中，基于所述预测乐谱生成所述指定转换类型的转换音频包括：在所述预测乐谱中的乐曲信息的控制下，利用所述指定转换类型的音色器文件来合成所述指定转换类型的转换音频，其中，所述音色器文件为存储乐器的真实声音样本的文件。
10.根据权利要求1
‑
9中任一项所述的音频转换方法，还包括：输出所述转换音频，其中，输出所述转换音频还包括以下至少一项：以文件或链接的形式输出所述转换音频；以及将所述转换音频添加到对应的视频内容中以生成编辑后的视频内容，并输出所述编辑后的视频内容。11.根据权利要求1所述的音频转换方法，其中，对所述待转换音频进行音源分离处理以获取所述待转换音频的主旋律音轨包括：利用音源分离网络对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨，其中，所述音源分离网络通过以下方法进行训练：获取训练音频数据，所述训练音频数据包括多个训练音频，其中每个训练音频是通过合成已知主旋律音轨和已知非主旋律音轨得到的；利用所述音源分离网络对所述多个训练音频进行音源分离处理，以得到训练分离结果；以及利用所述多个训练音频的已知主旋律音轨和已知非主旋律音轨对所述训练分离结果进行监督训练。12.一种音频转换装置，所述装置包括：获取单元，被配置为获取待转换音频以及指定转换类型；分离单元，被配置为对所述待转换音频进行音源分离处理，以获取所述待转换音频的主旋律音轨；预测单元，被配置为基于所述主旋律音轨预测所述待转换音频的乐谱，以生成预测乐谱；以及转换单元，被配置为基于所述预测乐谱生成所述指定转换类型的转换音频。13.一种音频转换设备，包括:一个或多个处理器；和一个或多个存储器，其中所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行如权利要求1
‑
11中任一项所述的方法。14.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如权利要求1
‑
11中任一项所述的方法。15.一种计算机程序产品，其包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如权利要求1
‑
11中任一项所述的方法。

技术总结
本公开提供了一种音频转换方法、音频转换装置及设备、计算机可读存储介质以及计算机程序产品。音频转换方法包括：获取待转换音频以及指定转换类型；对待转换音频进行音源分离处理，以获取待转换音频的主旋律音轨；基于主旋律音轨预测待转换音频的乐谱，以生成预测乐谱；以及基于预测乐谱生成指定转换类型的转换音频。本公开提供的音频转换方法扩大了可输入的待转换音频的范围，能够生成没有杂音、辨识度高的高质量转换音频，并且大大缩短了开发成本，提高了音频转换效率。提高了音频转换效率。提高了音频转换效率。

技术研发人员：田思达
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2020.12.29
技术公布日：2021/10/21

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种适用于低幼儿童的加嘴可变音弧形排箫的制作方法

音频转换方法、音频转换装置及设备与流程

相关文章

最热文献