基于旋律的歌曲信息合成方法、装置、设备及存储介质与流程

2021-07-02 21:13:00 来源：中国专利 TAG：人工智能信号处理合成装置旋律

技术特征：

1.一种基于旋律的歌曲信息合成方法，其特征在于，所述基于旋律的歌曲信息合成方法包括：

获取预处理语音信息和目标旋律信息，所述预处理语音信息包括时域语音信号对应的对数幅度谱，所述目标旋律信息包括目标旋律轮廓；

通过预置的目标歌唱合成模型中的编码器，分别对所述对数幅度谱和所述目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，所述编码器包括一维卷积的下采样层和基于门控循环单元的递归层；

通过所述目标歌唱合成模型中的跳跃连接网络，将所述语音音素和所述旋律音素传递至所述目标歌唱合成模型中的解码器，其中，所述解码器中的上采样层的卷积核为转置的一维卷积核；

通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

2.根据权利要求1所述的基于旋律的歌曲信息合成方法，其特征在于，所述获取预处理语音信息和目标旋律信息，包括：

获取时域语音信号，以及从预置数据库中匹配与所述时域语音信号对应的目标旋律轮廓，得到目标旋律信息；

对所述时域语音信号进行无声帧移除，得到候选语音信号；

对所述候选语音信号进行对数幅度谱转换，得到预处理语音信息。

3.根据权利要求2所述的基于旋律的歌曲信息合成方法，其特征在于，所述对所述时域语音信号进行无声帧移除，得到候选语音信号，包括：

对所述时域语音信号进行固定量的基音偏移处理，得到初始语音信号；

对所述初始语音信号依次进行声音能量判断、无声帧标记和无声帧移除，得到候选语音信号。

4.根据权利要求2所述的基于旋律的歌曲信息合成方法，其特征在于，所述对所述候选语音信号进行对数幅度谱转换，得到预处理语音信息，包括：

通过预置相位声码器，将所述候选语音信号的时长与所述目标旋律信息的旋律时长进行对齐处理，得到对齐时域语音信号；

通过预置转换函数，将所述对齐时域语音信号转换为对数幅度谱，得到预处理语音信号。

5.根据权利要求1所述的基于旋律的歌曲信息合成方法，其特征在于，所述通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息，包括：

通过所述解码器中的上采样层，分别对所述语音音素和所述旋律音素进行基于转置的一维卷积核的卷积处理，得到语音采样音素和旋律采样音素；

将所述语音采样音素和所述旋律采样音素进行组合，得到组合音素；

通过预置音素字典，从所述组合音素中匹配对应的目标音素，并对所述目标音素进行解码，得到目标歌曲信息。

6.根据权利要求1-5中任一项所述的基于旋律的歌曲信息合成方法，其特征在于，所述获取预处理语音信息和目标旋律信息之前，还包括：

获取经过预处理的训练语音信息和训练旋律信息，所述训练语音信息包括训练时域语音信号对应的训练对数幅度谱，所述训练旋律信息包括训练旋律轮廓；

通过预置的初始歌唱合成模型中的编码器-解码器网络，对所述训练对数幅度谱和所述训练旋律轮廓依次进行音素编码和解码处理，得到预测幅度谱和预测歌曲信息，所述编码器-解码器网络包括音素编码器、音素解码器和音素字典对应的解码器；

通过预置的基于多任务学习的目标损失函数，计算所述预测幅度谱和所述预测歌曲信息的目标损失函数值，所述基于多任务学习的目标损失函数包括均方误差损失函数和平均交叉熵损失函数；

根据所述目标损失函数值，对所述初始歌唱合成模型进行迭代更新，直至所述目标损失函数值收敛，得到目标歌唱合成模型。

7.根据权利要求6所述的基于旋律的歌曲信息合成方法，其特征在于，所述根据所述目标损失函数值，对所述初始歌唱合成模型进行迭代更新，直至所述目标损失函数值收敛，得到目标歌唱合成模型，包括：

根据所述目标损失函数值，对所述初始歌唱合成模型的模型参数进行迭代更新，直至所述目标损失函数值收敛，得到候选歌唱合成模型，所述模型参数用于指示所述音素编码器、所述音素解码器和所述音素字典对应的解码器的输出；

获取所述候选歌唱合成模型的听力测试投票分数；

根据所述听力测试投票分数，对所述候选歌唱合成模型的多个预设指标进行检测，所述多个预设指标包括所述预测歌曲信息的歌词音素可懂程度、自然度，所述预测歌曲信息与目标旋律的相似性，以及所述预测歌曲信息与所述训练语音信息的音色相似度；

将检测通过的候选歌唱合成模型确定为目标歌唱合成模型。

8.一种基于旋律的歌曲信息合成装置，其特征在于，所述基于旋律的歌曲信息合成装置包括：

第一获取模块，用于获取预处理语音信息和目标旋律信息，所述预处理语音信息包括时域语音信号对应的对数幅度谱，所述目标旋律信息包括目标旋律轮廓；

编码模块，用于通过预置的目标歌唱合成模型中的编码器，分别对所述对数幅度谱和所述目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素，所述编码器包括一维卷积的下采样层和基于门控循环单元的递归层；

传送模块，用于通过所述目标歌唱合成模型中的跳跃连接网络，将所述语音音素和所述旋律音素传递至所述目标歌唱合成模型中的解码器，其中，所述解码器中的上采样层的卷积核为转置的一维卷积核；

解码模块，用于通过所述解码器，对所述语音音素和所述旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。

9.一种基于旋律的歌曲信息合成设备，其特征在于，所述基于旋律的歌曲信息合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于旋律的歌曲信息合成设备执行如权利要求1-7中任意一项所述的基于旋律的歌曲信息合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于旋律的歌曲信息合成方法。

技术总结
本发明涉及人工智能技术领域，提供一种基于旋律的歌曲信息合成方法、装置、设备及存储介质，用于提高对歌曲信息合成的普适性。基于旋律的歌曲信息合成方法包括：获取包括对数幅度谱的预处理语音信息和目标旋律信息，通过目标歌唱合成模型中的编码器，分别对对数幅度谱和目标旋律轮廓进行音素编码处理，得到语音音素和旋律音素；通过目标歌唱合成模型中的跳跃连接网络，将语音音素和旋律音素传递至目标歌唱合成模型中的解码器，解码器包括转置的一维卷积核的上采样层；通过解码器，对语音音素和旋律音素依次进行合成、音素筛选和解码处理，得到目标歌曲信息。此外，本发明还涉及区块链技术，预处理语音信息和目标旋律信息可存储于区块链中。

技术研发人员：刘奡智;陈政培;韩宝强;肖京
受保护的技术使用者：平安科技(深圳)有限公司
技术研发日：2021.03.24
技术公布日：2021.07.02

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于神经网络的混合式主动降噪叠加方法和装置与流程

基于旋律的歌曲信息合成方法、装置、设备及存储介质与流程

相关文章

最热文献