多语种的带韵律歌词生成方法、系统、设备及存储介质与流程

2022-03-23 02:27:27 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及一种多语种的带韵律歌词生成方法、系统、设备及存储介质。

背景技术：

2.语音识别方向目前已经较为成熟，在大多数语种中都能够得到相对准确的识别结果。文本生成也是最近自然语言处理中的热门领域，在基于大规模语料库预训练语言模型的加持下，gpt等自回归语言模型已经能在文本生成任务上有着很好的表现。
3.通过多语种文本生成，一方面可以面向不同语言的人群进行生成任务，另一方面通过多语种的夹杂能够带来更多的创造性，为歌词创作提供更多的灵感。
4.但是，目前歌词生成模型缺少歌曲的灵魂—韵律。目前文本生成模型已经能够产生一些较为流畅的歌词，但是在歌词的韵律方面与人创作相比存在较大差距。尤其在面对一些强调歌词韵律的场景下，如当下在全球比较流行的嘻哈歌词(说唱歌词)，模型能力稍显不足。
5.目前说唱歌词的生成建模方法如图1所示。
6.生成歌词过程中首先确定歌曲主题，根据主题从预定义的歌词中选择第一句作为生成歌词的首句，将其送入训练好的文本生成模型进行歌词生成，最终生成整个歌词。其说唱歌词建模过程的是其方案的主要创新点，模型采用基于lstm的神经网络结构，语料库来自网易云说唱歌词语料库，通过使用现代汉语拼音体系的声母韵母提取每句歌词的最后1～5个字的拼音，使用结巴分词工具对每句歌词进行分词抽取歌词的关键词语。通过word2vec获取歌词的词向量，获得的词向量和每句后几个词的拼音信息作为训练集对模型进行训练。
7.除此之外，该方案中还实现了一套辅助作词系统，通过搜索基于知识的词语，基于语料库的词语和相关韵律词构成的词库中的候选词对目标词进行替换，从而选择性的提供一些候选操作。
8.上述方案过程较为简单直观，整个生成模型的参数量不大，生成速度较快，便于上线使用。同时将生成过程分为两个模块，提高了方案的灵活性和可复用性。歌词生成模块可用于生成任意风格的歌词，辅助作词模块一方面可以用来对生成模型中不押韵的词做替换提高歌词的生成质量，一方面可以用来辅助修改词语提高生成句子的多样性。
9.上述方案虽然简单可用，但是存在如下缺陷：
10.1)使用纯文本建模对韵脚的捕捉能力有限，因此在生成模型中押韵词对生成效果不是很理想，需要辅助作词模块对其进行一定的修正。
11.2)方案只针对中文文本，但目前说唱界流行多语种混合说唱，经常在中文中夹杂一些英文单词，也能形成很好的押韵且格调更高。
12.3)使用词库进行词语提交虽然具有较高的稳定性，但是由于词库大小的限制会让其多样性相对较差。

技术实现要素：

13.本发明的目的是提供一种多语种的带韵律歌词生成方法、系统、设备及存储介质，可以生成更有节奏感的多语种歌词。
14.本发明的目的是通过以下技术方案实现的：
15.一种多语种的带韵律歌词生成方法，包括：
16.从前文歌词中需要押韵的句子中抽取待若干押韵词；对于每一待押韵词，通过语音生成技术生成待押韵词的语音信号，并通过押韵对生成技术生成待押韵词多种新的语音信号，再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词，将每一候选词与所述待押韵词组成押韵队，筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词；
17.根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法，生成歌词文本。
18.一种多语种的带韵律歌词生成系统，基于前述的方法实现，该系统包括：
19.多语种押韵词生成模块，用于从前文歌词中需要押韵的句子中抽取若干待押韵词；对于每一待押韵词，通过语音生成技术生成待押韵词的语音信号，并通过押韵对生成技术生成待押韵词多种新的语音信号，再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词，将每一候选词与所述待押韵词组成押韵队，筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词；
20.多语种带韵律的歌词文本生成模块，用于根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法，生成歌词文本。
21.一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；
22.其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。
23.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现前述的方法。
24.由上述本发明提供的技术方案可以看出，采用语音生成模型对词语发音进行捕捉，然后生成押韵词对，大大提高生成词的韵脚质量，同时生成过程中采用以韵脚为起始输入的自编码模型(也即后文介绍的自回归文本生成模型)，能生成语义更连贯的歌词；而且支持多语种歌词生成，使得生成的押韵词更加多样。
附图说明
25.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
26.图1为本发明背景技术提供的目前说唱歌词生成建模方法的流程图；
27.图2为本发明实施例提供的一种多语种的带韵律歌词生成方法的流程图；
28.图3为本发明实施例提供的一种多语种的带韵律歌词生成方法的详细流程图；
29.图4为本发明实施例提供的多语种tts模型结构示意图；
30.图5为本发明实施例提供的transformer结构的多语种押韵对生成模型示意图；
31.图6为本发明实施例提供的las语音识别模型的结构示意图；
32.图7为本发明实施例提供的发音信息的bert结构语言模型向量部分设计示意图；
33.图8为本发明实施例提供的生成模型示意图；
34.图9为本发明实施例提供的一种多语种的带韵律歌词生成系统的示意图；
35.图10为本发明实施例提供的一种处理设备的示意图。
具体实施方式
36.下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
37.首先对本文中可能使用的术语进行如下说明：
38.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。
39.下面对本发明所提供的一种多语种的带韵律歌词生成方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。
40.实施例一
41.如图1所示，一种多语种的带韵律歌词生成方法，主要包括如下步骤：
42.步骤1、从前文歌词中需要押韵的句子中抽取若干待押韵词；对于每一待押韵词，通过语音生成技术生成待押韵词的语音信号，并通过押韵对生成技术生成待押韵词多种新的语音信号，再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词，将每一候选词与所述待押韵词组成押韵队，筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词。
43.步骤2、根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法，生成歌词文本。
44.为了便于理解，下面结合图3所示的详细流程图对上述两个步骤的优选实施方式做详细的介绍。
45.一、多语种押韵词生成。
46.此阶段对应前述步骤1，主要是通过押韵规则选取押韵词，随后语音生成模型生成词发音，语音信号送入语音生成模块生成押韵词发音，最终由多语种语音识别模型生成对应的押韵词并给出多个不同的候选词。将所有候选词通过押韵词判别模型判断最合适的押韵词。
47.此外，考虑到句首词的重大意义，首句歌词由用户输入。本发明以说唱歌词创作为例，展示整个多语种的带韵律歌词生成流程，当然，同样适应于其他类型的歌曲创作。
48.此阶段各部分的优选实施方式如下：
49.1、押韵单句抽取。
50.本发明实施例中，需要押韵的句子在前文歌词中随机选取，选取概率跟当前待生成句子所在位置之间的距离满足如下关系：
[0051][0052]
其中，dis(i)、dis(j)分别表示前文歌词中句子i、句子j与当前待生成句子所在位置之间的距离，一般使用间隔句子数；α为超参数，值越大越倾向与距离近的句子。
[0053]
示例性的，当前待生成句子所在位置为歌曲中的第六句歌词，则从之前的五句歌词中随机选取一个句子进行押韵，增加生成的多样性。
[0054]
2、替换词抽取。
[0055]
本发明实施例中，对抽取的需要押韵的句子进行分词(可使用结巴分词工具实现)，将需要押韵的句子分成一个一个的词语，并用空格隔开，然后再对词进行处理，这种处理方式比处理单个字的效果更好。在说唱歌曲创作过程中，根据不同的押韵技巧从分词后的需要押韵的句子中抽取不同的替换词作为待押韵词；比如中文的双押，三押，英文的半谐音，辅音韵等。
[0056]
本发明实施例中，对于句尾词使用押韵生成策略，如果分词后的句尾词长度为1，则连同前词组成新词后再一同押韵。
[0057]
此部分提取的待押韵词的数目可根据需要押韵的句子的实际内容确定，或者用户也可根据经验或者实际要求来设定，本发明不对提取的待押韵词的数目做出限定。
[0058]
3、语音生成模型。
[0059]
本发明实施例中，采用端到端的语音生成模型对输入的待押韵词文本的发音进行捕捉，获得对应的发声，形成语音信号。
[0060]
示例性的，可以采用采用基于tacotron的多语种语音生成模型，通过utf-8格式的多语种文本输入直接合成对应的发音。语音生成模型可采用公开数据集进行训练，也可采用公司内部私有的英语，中文等多语种语料进行训练。
[0061]
如图4所示，展示了多语种tts模型(即前文提到的基于tacotron的多语种语音生成模型)结构。
[0062]
4、押韵对生成模型。
[0063]
本发明实施例中，使用押韵对生成模型对输入的语音信号进行编解码，获得待押韵词a种新的语音信号(即发音)；a为大于1的整数；示例性的，可以设置a＝5。
[0064]
考虑到押韵对长度较短，押韵对生成模型可以采用如图5所示的transformer结构的多语种押韵对生成模型，直接生成相应的多语种押韵对发音，其输入数据采用语音生成模型生成的语音信号，输出端直接生成待押韵词多种新的语音信号，此部分可以理解为一个语音-语音的生成过程，通过语音信号直接建模，能够更好的捕捉韵律信息。多种新的语音信号可以是同语种，也可以是不同语种，由于生成是语音信号，因此，此时可以不区分语种。
[0065]
训练数据可通过各种说唱歌词收集多语种的押韵对，然后送入模型进行训练，获得捕捉相应押韵规则的能力。
[0066]
5、语音识别模型。
[0067]
本发明实施例中，可以采用端到端的语音识别模型对待押韵词每一种新的语音信号进行还原，待押韵词每一种新的语音信号生成与之最接近的b个词，总共产生a
×
b个候选词，此处的候选词可以是同语种，也可以是不同语种，其中，a表示押韵词发音的总数，b为大于1的整数；示例性的，可设置b＝2。
[0068]
本发明实施例中，与待押韵词每一种新的语音信号最接近的词可以根据发音规则进行相应的判断，利用语音信号为“厉害”，则可以生成相应的两个中文词“厉害、立害”等。
[0069]
所述语音识别模型采用标注好的多语种语音识别数据训练。如图6所示，展示了las语音识别模型的结构。
[0070]
6、押韵词判别器。
[0071]
本发明实施例中，将每一候选词分别与待押韵词组成押韵对，使用押韵词判别器对所有押韵对进行打分，选取得分最高的押韵对即为最佳押韵队，最佳押韵队中的候选词作为用来生成句子的多语种押韵词；其中，在不同语种的歌曲中提取若干押韵词，同时用一些非押韵词以及敏感词作为训练数据，使用神经网络模型训练出押韵词判别器。
[0072]
以上3～6部分介绍了针对单个待押韵词生成相应多语种押韵词的方式，所有待押韵词都通过以上方式处理，从而得到所有待押韵词对应的多语种押韵词。
[0073]
通过押韵词判别器输出最终的多语种押韵词，核心部分(即前述的押韵对生成模型)通过语音-语音的生成方式，可以有效捕捉不同语种的押韵词之间的发音规律，甚至实现不同语种说唱歌词的混合押韵生成(比如中文-英文的押韵)。
[0074]
本发明实施例中，此阶段生成的是多语种押韵词，多语种押韵词是相对于前述提取的带押韵词而言的，也就是说，押韵词判别器筛选出的押韵词与前述提取的带押韵词可以是不同语种的；例如，抽取的待押韵词是中文，但是仍然可以用英文押韵词与之组成押韵对，以待押韵词为“揩油”为例，筛选出的押韵词可以是“hello”，由“揩油-hello”组成一组押韵对；后一阶段的歌词文本生成过程中主语种识别为中文，仍然会按照中文方式生成，但是句子中可以夹杂其他语种(例如，此处举例的英文)，因此，本发明实现的是多语种的带韵律歌词生成。
[0075]
本领域技术人员可以理解，训练数据中的敏感词主要是指一些非法词汇或者广告类的词汇。
[0076]
二、多语种带韵律的歌词文本生成。
[0077]
本发明实施例中，基于自回归文本生成算法构造自回归文本生成模型，采用从后往前的倒序文本生成策略，从句末的押韵词开始反向生成歌词，并在生成过程中引入单词的音素信息。
[0078]
此阶段对应前述步骤2，其主要包括两个部分：第一个部分是利用mbert预训练模型生成前文歌词以及前一阶段获得的所有多语种押韵词对应的词向量表示；第二个部分是对识别出的前文歌词的语种信息(通过图3中的歌词主语种识别获得)进行处理，并结合mbert预训练模型输出的两类词向量表示，再通过自回归文本生成模型生成歌词文本。各部分的优选实施方式如下：
[0079]
1、生成前文歌词以及前一阶段获得的多语种押韵词对应的词向量表示，为了进一步提高歌词的韵律，在生成过程中利用了每个字符的音素信息，获得的是带有音素信息的
词向量表示。
[0080]
本发明实施例中，在预训练过程在mbert预训练模型的基础上引入了多个音素符号(例如，66个)对所有单词的发音进行描述，并且对embedding(词向量)部分进行了改进，将原有的nsp部分的segmentid用于区分文本部分和发音部分，位置向量用来对齐词与词对应的发音。训练在mbert的基础上使用少量的多语种数据进行微调，用于获得音素符号的向量表示。训练过程同时对相同位置向量处的词向量和发音向量进行遮盖。
[0081]
如图7所示，使用过程中，将前文歌词以及多语种押韵词中词的向量与相应音素的向量进行加权平均后得到最终的词向量表示，并将其用于生成模型编码和解码端的词向量表示，以此引入文本的音素信息。如下式所示：
[0082]efinal
[你]＝αe
word
[你] β(e
speech
[n] e
speech
[i])
[0083]
其中，α，β是可调节的超参数。e
final
指的是词融合了文本和音素信息的embedding将作为生成模型的输入，e
word
是指前文歌词文本或者多语种押韵词文本对应的embedding，e
speech
指的是相应音素对应的embedding。
[0084]
需要说明的是，上面式子中带入的文本“你”，以及相关的音素“n”、“i”仅为示例，并非构成限制，在实际应用中，根据实际的文本内容带入相应文本及音素信息。
[0085]
2、如图8所示，自回归文本生成模型采用从后往前的倒序文本生成策略，从句末的多语种押韵词开始反向从右向左生成歌词。自回归文本生成模型可采用mbart多语种预训练模型为基础的编码器-解码器结构，将处理后的语种信息，以及前文歌词与所有多语种押韵词的带有音素信息的词向量表示输入模型生成最终的歌词文本。
[0086]
本发明实施例中，所述mbart多语种预训练模型对语种信息进行处理的方式，在现有mbart多语种预训练模型介绍中有相关说明，故不做赘述，对语种信息进行处理可以是补全语种信息，通过在输入和输出中主动添加语种信息符号，例如，补全的语种信息中，中文为zh_cn，英文en_xx等。
[0087]
自回归文本生成模型中输入的语种信息指的是需要生成的歌词文本的语种，即生成的歌词文本主语种需要与输入的语种信息保持一致，但是，可以包含其他语种的文本。示例性的：当前待生成句子所在位置为歌曲中的第六句歌词，则识别前五句歌词确定语种信息，如果识别的语种信息为中文，因此，生成的歌词文本的语种为中文，由于当前述阶段获得的多语种押韵词可以是多语种的，假设为英文语种，则生成歌词文本可包含中文与英文，例如，生成的歌词文本为“你在say hi”。
[0088]
需要说明的是，以上各模型对照的附图中所出现的文本内容(例如，“你好”等)以及文中所出现的歌词的具体文本内容均为举例，并非构成限制，在应用中，可根据实际情况将相关的文本内容输入至相关模型中。
[0089]
此外，关于各模型其及训练方式未做详细说明，则表示均可通过常规实现，因而不做赘述。
[0090]
本发明实施例上述方案，主要获得如下有益效果：
[0091]
1)采用语音生成模型对词语发音进行捕捉，然后生成押韵词对，大大提高生成词的韵脚质量，同时生成过程中采用以韵脚为起始输入的自编码模型，能生成语义更连贯的歌词。
[0092]
2)以mbart预训练模型为基础，采用大参数的多语种自回归模型生成歌词，同时在
生成过程中引入单词的音素信息，让生成的歌词质量更高。
[0093]
3)支持多语种歌词生成，同时使用多语种对押韵词匹配模型训练，使得生成的押韵词更加多样。
[0094]
实施例二
[0095]
本发明还提供一种多语种的带韵律歌词生成系统，其主要基于前述实施例提供的方法实现，如图9所示，该系统主要包括：
[0096]
多语种押韵词生成模块，用于从前文歌词中需要押韵的句子中抽取若干待押韵词；对于每一待押韵词，通过语音生成技术生成待押韵词的语音信号，并通过押韵对生成技术生成待押韵词多种新的语音信号，再通过语音识别技术生成所述待押韵词多种新的语音信号对应的多个不同的候选词，将每一候选词与所述待押韵词组成押韵队，筛选出最佳押韵队对应的候选词作为用来生成句子的多语种押韵词；
[0097]
多语种带韵律的歌词文本生成模块，用于根据筛选出的所有多语种押韵词、前文歌词以及识别出的前文歌词的语种信息采用自回归文本生成算法，生成歌词文本。
[0098]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
[0099]
上述系统各模块所涉及的相关技术细节在之前的方法实施例中已经做了详细的介绍，故不再赘述。
[0100]
实施例三
[0101]
本发明还提供一种处理设备，如图10所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。
[0102]
进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。
[0103]
本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：
[0104]
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；
[0105]
输出设备可以为显示终端；
[0106]
存储器可以为随机存取存储器(random access memory，ram)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。
[0107]
实施例四
[0108]
本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。
[0109]
本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-only memory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0110]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范
围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多音区语音交互方法、装置、设备以及存储介质与流程

多语种的带韵律歌词生成方法、系统、设备及存储介质与流程

相关文献

最热文献