一种说唱音乐生成方法、系统、装置与存储介质与流程

2022-02-22 18:14:54 来源：中国专利 TAG：

1.本技术涉及音乐生成技术领域，尤其是一种说唱音乐生成方法、系统、装置与存储介质。

背景技术：

2.近年来，说唱文化逐渐进入大众的视野，也收到越来越多人的欢迎，说唱音乐的特点是创作者一种在背景音乐下快速有节奏的说出一连串押韵的文字。
3.相关技术中，在说唱音乐领域，说唱者创作说唱音乐都是靠自己的灵感，缺乏可以自动生成带节拍的说唱歌词的方法和工具，这使得说唱音乐的创作需要很多拥有专业技能的专业人士才能完成，一般说唱爱好者无法根据自身要求创造属于自己的说唱音乐。因此，亟需一种新的说唱音乐的生成方法。

技术实现要素：

4.本技术的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
5.为此，本技术实施例的一个目的在于提供一种说唱音乐生成方法，该方法可以根据用户的输入的词语或者句子，结合用户的声音生成说唱音乐，可以降低说唱音乐的创作难度，使用户可以创造出自己专属的说唱音乐，提高用户体验。
6.为了达到上述技术目的，本技术实施例所采取的技术方案包括：
7.第一方面，本技术实施例提供了一种说唱音乐生成方法，包括以下步骤：
8.构建说唱歌词生成器；
9.获取第一输入数据或第二输入数据；其中所述第一输入数据为用户输入的词语；所述第二输入数据为用户输入的句子；
10.将所述第一输入数据或所述第二输入数据输入至所述说唱歌词生成器得到说唱歌词；
11.获取用户语音样本并提取所述语音样本的声音特征；
12.根据所述说唱歌词与所述声音特征生成说唱音乐。
13.另外，根据本发明中上述实施例的一种网络切片场景甄别与配置的方法，还可以有以下附加的技术特征：
14.进一步地，本技术实施例中，所述将所述第一输入数据或所述第二输入数据输入至所述说唱歌词生成器得到说唱歌词这一步骤包括：通过语音输入或者文字输入将所述第一输入数据或所述第二输入数据输入至所述说唱歌词生成器得到说唱歌词。
15.进一步地，本技术实施例中，所述构建说唱歌词生成器包括以下步骤：获取包含歌词数据和音频数据的说唱歌曲库；根据所述说唱歌词库构建说唱歌词数据集；所述说唱歌词数据集输入至回归语言模型进行训练，得到说唱歌词生成器。
16.进一步地，本技术实施例中，所述根据所述说唱歌词库构建说唱歌词数据集包括以下步骤：分离所述音频数据中的人声数据与节拍数据；对齐所述歌词数据与人声数据以
及对齐所述歌词数据与所述节拍数据，得到说唱歌词数据集。
17.进一步地，本技术实施例中，所述对齐所述人声数据与所述歌词数据包括：获取人声数据的抒情声音数据；获取所述人声数据的音素数据，将所述抒情声音数据与所述歌词数据对齐以及将所述音素数据与所述歌词数据对齐。
18.进一步地，本技术实施例中，所述获取用户语音样本并提取所述语音样本的声音特征包括：获取用户语音样本；通过语音克隆技术从所述用户语音样本中提取声音特征。
19.另一方面，本技术实施例还提供一种说唱音乐生成系统，包括
20.第一获取单元，用于获取第一输入数据或第二输入数据；
21.第二获取单元，用于获取用户语音样本；
22.第一处理单元，用于根据用户语音样本提取声音特征；
23.第二处理单元，用于将所述第一输入数据或所述第二输入数据输入至所述说唱歌词生成器得到说唱歌词；并结合声音特征和说唱歌词合成得到说唱音乐。
24.另一方面，本技术还提供一种说唱音乐生成装置，包括：
25.至少一个处理器；
26.至少一个存储器，用于存储至少一个程序；
27.当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如发明内容中任一项所述一种说唱音乐生成方法。
28.此外，本技术还提供一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上述任一项所述一种说唱音乐生成方法。
29.本技术的优点和有益效果将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到：
30.本技术可以根据用户的输入的词语或者句子，结合用户的声音生成说唱音乐，可以降低说唱音乐的创作难度，使用户可以创造出自己专属的说唱音乐，提高用户体验。
附图说明
31.图1为本发明中一种具体实施例中一种说唱音乐生成方法的步骤示意图；
32.图2为本发明中一种具体实施例中构建说唱歌词生成器的步骤示意图；
33.图3为本发明中一种具体实施例中一种说唱音乐生成系统的结构示意图；
34.图4为本发明中一种具体实施例中一种说唱音乐生成装置的结构示意图。
具体实施方式
35.下面结合附图详细描述本发明的实施例对本发明实施例中的说唱音乐生成方法、系统、装置和存储介质的原理和过程作以下说明。
36.参照图1，本发明一种说唱音乐生成方法，包括以下步骤：
37.s1、构建说唱歌词生成器；
38.在一般的音乐创造过程中，如何根据某一个词语或者某一个句子得到包含的该词语或者该句子的一段歌词一直是一个难题，而且，往往有的人能想到一段歌词却不押韵，很多的音乐爱好者也是因此而放弃创作，而本技术实施例中，构建说唱歌词生成器可以方便用户通过歌词和句子生成对应的一段歌词，得到一段具有韵律的歌词。
39.s2、获取第一输入数据或第二输入数据；其中所述第一输入数据为用户输入的词语；所述第二输入数据为用户输入的句子；具体地，在本技术实施例中，获取的第一数据为用户输入的词语，其中第二输入数据为用户输入的句子，获取的用户输入的词语或者句子可以用于后续的歌词生成。
40.s3、将所述第一输入数据或所述第二输入数据输入至所述说唱歌词生成器得到说唱歌词；具体地，在本技术实施例中，将获取得到的用户输入的词语或者句子输入至说唱歌词生成器得到说唱歌词，为了更好的押韵及训练，根据用户输入的词语或者句子从左到右生成歌词句子、统一长度等规则对说唱歌词数据集进行标准化转换，说唱音乐通常包含不同的拍频，例如，总字数之间的比率以及说唱歌曲的总节拍数。以训练模型对所述说唱歌词数据集进行训练，构建带节拍的说唱歌词生成器。
41.s4、获取用户语音样本并提取所述语音样本的声音特征；具体地，在本技术实施例中，可以通过录音笔，手机等录音设备对用户的语音样本进行获取并存储，提取语音样本可以通过音频处理软件获取用户的声音特征。
42.s5、根据所述说唱歌词与所述声音特征生成说唱音乐。具体地，在本技术实施例中，将用户的声音特征和带有节拍的说唱歌词结合，生成对应的说唱音乐。
43.另外，在本技术的一些实施例中，在将第一输入数据或者第二输入数据输入说唱歌词生成器时，也可以通过语音或者文字的输入，具体地，可以通过语音或者文字输入“喝彩”，说唱歌词生成器可以生成与喝彩有关的歌词。
44.在本技术的一些实施例中，构建说唱歌词生成器可以包括一下步骤：
45.s31、获取包含歌词数据和音频数据的说唱歌词库；具体地，可以通过网络音乐库的导入说唱歌词，也可以网络下载说唱歌词库。
46.s32、根据所述说唱歌词库构建说唱歌词数据集；具体地，在本技术实施例中，可以将说唱歌词数据库里的说唱歌词的人声数据与节拍数据分离，将分离出来的人声按照声音的大小分为句子层次、每个抒情句子的开始和结束时间，这样可以在句子层次上获得抒情的声音对齐。我们把歌词转换成歌曲，通过音素化器phonemizer的音素，并利用蒙特利尔强制对准器mfa获得声音抒情对齐音素水平。基于这些音素水平和声乐歌词对齐，我们获得相应的时间戳，实现人声与歌词对齐，对齐歌词数据与节拍数据，具体地，使用节拍轨迹检测工具librosa到跟踪每个节拍的时间戳；根据时间戳对齐歌词与节拍，最终得到说唱歌词数据集。
47.s33、所述说唱歌词数据集输入至回归语言模型进行训练得到说唱歌词生成器。具体地，在本技术实施例中，为了更好的押韵及训练，以从左到右生成歌词句子、统一长度等规则对说唱歌词数据集进行标准化转换，说唱音乐通常包含不同的拍频，通过歌词总字数之间的比率以及说唱歌曲的总节拍数。以自回归语言模型使用transformer对所述说唱歌词数据集进行训练，构建带节拍的说唱歌词生成器。进一步地，自回归语言模型可以采用显式建模，显式建模可以生成具有不同拍频，在一首说唱歌曲中使用三个标记[s]、[m]和[f]代表慢拍、中拍和快拍频率，将[s]、[m]和[f]分配给有节拍的歌曲频率小于3，等于3，大于3，transformer的层数设为768、12、12，进行训练，训练后得到带节拍的说唱歌词生成器。
[0048]
进一步地，在本技术的另一些实施例中，所述根据所述说唱歌词库构建说唱歌词数据集可以包括：分离所述音频数据中的人声数据与节拍数据；具体地，使用音轨分离软件
sp leeter等工具实现人声与节拍分离；对齐所述歌词数据与人声数据和对齐所述歌词数据与所述节拍数据，得到说唱歌词数据集。将分离后的节拍数据、人声数据分别与歌词结合得到说唱歌词数据集
[0049]
进一步地，在本技术实施例中，人声数据包括抒情声音数据和音素数据，将所述抒情声音数据与所述音素数据与所述歌词数据对齐。
[0050]
进一步地，在本技术实施例中，所述获取用户语音样本并提取所述语音样本的声音特征包括：获取用户语音样本；通过语音克隆技术从所述用户语音样本中提取声音特征。语音样本可以通过录音设备获取，语音克隆可以从用户语音样本中提取到声音特征，通过声音特征与歌词结合，生成属于用户自己声音的说唱音乐。
[0051]
此外、参照图3，与图1的方法相对应，本技术的实施例中还提供一种说唱音乐生成系统，包括：
[0052]
第一获取单元，用于获取第一输入数据或第二输入数据；第二获取单元，用于获取用户语音样本；第一处理单元，用于根据用户语音样本提取声音特征；第二处理单元，用于将所述第一输入数据或所述第二输入数据输入至所述说唱歌词生成器得到说唱歌词；并结合声音特征和说唱歌词合成得到说唱音乐。
[0053]
与图1的方法相对应，本技术实施例还提供了一种说唱音乐生成装置，其具体结构可参照图4，包括：
[0054]
至少一个处理器；
[0055]
至少一个存储器，用于存储至少一个程序；
[0056]
当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的说唱音乐生成方法。
[0057]
上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0058]
与图1的方法相对应，本技术实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的说唱音乐生成方法。
[0059]
在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本技术的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0060]
此外，虽然在功能性模块的背景下描述了本技术，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度
试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本技术的范围，本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
[0061]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-on ly memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0062]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行程序的定序列表，可以具体实现在任何计算机可读介质中，以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用，或结合这些程序执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。
[0063]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0064]
应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
[0065]
在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0066]
尽管已经示出和描述了本技术的实施方式，本领域的普通技术人员可以理解：在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本技术的范围由权利要求及其等同物限定。
[0067]
以上是对本技术的较佳实施进行了具体说明，但本技术并不限于所述实施例，熟悉本领域的技术人员在不违背本技术精神的前提下还可做作出种种的等同变形或替换，这
些等同的变形或替换均包含在本技术权利要求所限定的范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于音频信息的烧结机尾关键帧提取方法与流程

一种说唱音乐生成方法、系统、装置与存储介质与流程

相关文献

最热文献