首页 > 乐器声学设备的制造及制作,分析技术 > 正文

歌曲音频标注与对齐模型训练方法、设备及存储介质与流程

2022-04-20 22:02:04 来源：中国专利 TAG：

本申请涉及音频处理技术领域，尤其涉及一种歌曲音频标注与对其模型训练方法、设备及存储介质。

背景技术

歌曲合成作为语音合成的一个分支，具有较为广阔的发展前景。歌曲合成采用的算法模型在训练时需要大量的标注数据。对于歌曲标注来说，需要标注歌曲的歌词信息，也需要标注歌曲中的每个发音的音素时长信息。

歌曲中的音素时长不固定，基频范围广，与说话语音的差异是歌曲标注的难题。目前，针对歌曲的标注一般采用人工标注，标注效率低，耗费大量的成本。

技术实现要素：

本申请提供一种歌曲音频标注与对齐模型训练方法、设备及存储介质，对歌曲音频进行自动化标注，标注效率高，成本较低。本申请的技术方案如下：

本申请实施例提供一种歌曲音频标注方法，包括：

获取待标注歌曲数据，其中，待标注歌曲数据包括唱歌音频和与歌词文本，所述唱歌音频包含人声和与所述人声重叠的伴奏声，所述歌词文本对应所述唱歌音频中的人声所歌唱的内容，所述歌词文本包括多个已切分好的歌词片段，每个所述歌词片段包括一个开始时间戳；

对所述唱歌音频中的所述人声和伴奏声进行分离，得到人声音频；

根据每个所述歌词片段的开始时间戳和所述人声音频的能量信息，确定所述人声音频的切分点；

根据所述切分点对所述人声音频进行切分，得到至少一个人声音频片段，其中，每个所述人声音频片段对应一个所述歌词片段；

将每个所述人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个所述人声音频片段对应的标注结果，其中，每个所述标注结果包括所述人声音频片段中每个音素以及与每个音素对应的时间信息。

可选地，所述根据每个所述歌词片段的开始时间戳和所述人声音频的能量信息，确定所述人声音频的切分点，包括：

对于每个所述歌词片段，从所述人声音频中取与所述开始时间戳对应的时间节点的前和/或后预定时长的音频数据作为取样数据；

计算每个所述取样数据中各个时间节点的音频能量；

对于每个所述取样数据，将音频能量最小的时间节点作为当前所述取样数据的切分点。

可选地，每个所述歌词片段包括多个音节；

在所述根据所述切分点对所述人声音频进行切分得到至少一个人声音频片段之后，还包括：对于每个所述歌词片段，在每两个相邻的音节之间增加一个静音音素，得到更新的歌词片段。

可选地，在得到与每个所述人声音频片段对应的标注结果之后，还包括：

对每个所述人声音频片段提取基频；

根据提取的基频和预设基频阈值对所述标注结果进行调整。

可选地，所述根据提取的基频和预设基频阈值对所述标注结果进行调整，包括：

根据提取的基频和预设基频阈值，判断所述更新的音频歌词片段中的每个静音音素是否是真静音音素；

如果是真静音音素，则保留所述静音音素对应的时间信息；

如果不是真静音音素，则修改所述静音音素对应的时间信息。

可选地，所述对每个所述人声音频片段提取基频包括：

根据预设时间长度将每个所述音频片段划分为多个音频帧；

对每个所述音频片段，以帧为单位提取与每个音频帧对应的基频。

可选地，所述根据提取的基频和预设基频阈值，判断所述更新的音频歌词片段中的每个静音音素是否是真静音音素，包括：

如果与一个静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且所述N个音频帧的总体时间长度大于预设时间阈值，则确定所述静音音素为真静音音素，其中，N的取值范围为2或3。

可选地，如果一个静音音素不是真静音音素，则根据如下步骤修改所述静音音素对应的时间信息：

如果与所述静音音素的时间信息对应的人声音频段中没有连续出现N个基频大于或等于预设基频阈值的音频帧，则在所述标注结果中删除所述静音音素，并将所述静音音素的时长划分到当前静音音素的前一个音素；

如果与所述静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且所述N个音频帧的总体时间长度不大于预设时间阈值，则在所述标注结果中删除所述静音音素，并将所述静音音素的时长划分到当前静音音素的后一个音素。

本申请实施例还提供一种对齐模型训练方法，包括：

收集音频样本数据和所述音频样本数据对应的文本样本数据；

对所述音频样本数据和所述文本样本数据进行切分，得到所述音频样本数据包含的第一音频片段样本和所述第一音频片段样本对应的第一文本片段样本；

对所述第一音频片段样本和所述第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本；

对所述第二音频片段样本进行标注，得到所述第二音频片段样本包含的音素样本和与所述音素样本对应的时间信息；

利用所述第二音频片段样本、所述第二文本片段样本、所述第二音频片段样本包含的音素样本和与所述音素样本对应的时间信息对初始对齐模型进行训练，得到训练完成的对齐模型。

可选地，所述第一音频片段样本和所述第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本，包括：

从所述第一音频片段样本和所述第一文本片段样本中去除设定语种的音频片段样本以及对应的文本片段样本，得到所述第二音频片段样本和所述第二文本片段样本；

或者，

根据所述第一音频片段样本的基频信息，从所述第一音频片段样本和所述第一文本片段样本中去除所述基频信息不满足基频信息条件的音频片段样本以及对应的文本片段样本，得到所述第二音频片段样本和所述第二文本片段样本。

本申请实施例还提供一种歌曲音频标注装置，包括：

获取模块，获取待标注歌曲数据，其中，待标注歌曲数据包括唱歌音频和与歌词文本，所述唱歌音频包含人声和与所述人声重叠的伴奏声，所述歌词文本对应所述唱歌音频中的人声所歌唱的内容，所述歌词文本包括多个已切分好的歌词片段，每个所述歌词片段包括一个开始时间戳；

分离模块，用于对所述唱歌音频中的所述人声和伴奏声进行分离，得到人声音频；

确定模块，根据每个所述歌词片段的开始时间戳和所述人声音频的能量信息，确定所述人声音频的切分点；

切分模块，根据所述切分点对所述人声音频进行切分，得到至少一个人声音频片段，其中，每个所述人声音频片段对应一个所述歌词片段；

对齐模型模块，将每个所述人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个所述人声音频片段对应的标注结果，其中，每个所述标注结果包括所述人声音频片段中每个音素以及与每个音素对应的时间信息。

本申请实施例还提供一种电子设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以上述的方法中的各步骤。

本申请实施例还提供一种对齐模型训练装置，包括：

收集模块，用于收集音频样本数据和所述音频样本数据对应的文本样本数据；

切分模块，用于对所述音频样本数据和所述文本样本数据进行切分，得到所述音频样本数据包含的第一音频片段样本和所述第一音频片段样本对应的第一文本片段样本；

过滤模块，用于对所述第一音频片段样本和所述第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本；

标注模块，用于对所述第二音频片段样本进行标注，得到所述第二音频片段样本包含的音素样本和与所述音素样本对应的时间信息；

训练模块，用于利用所述第二音频片段样本、所述第二文本片段样本、所述第二音频片段样本包含的音素样本和与所述音素样本对应的时间信息对初始对齐模型进行训练，得到训练完成的对齐模型。

本申请实施例还提供一种电子设备，包括：存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的方法中的各步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的方法中的各步骤。

本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的方法中的各步骤。

本申请的实施例提供的技术方案至少带来以下有益效果：

在本申请的一些实施例中，获取待标注歌曲，其中，待标注歌曲包括唱歌音频与歌词文本，唱歌音频包含人声和人声重叠的伴奏声；对唱歌音频中的人声和伴奏声进行分离，得到人声音频；根据每个歌词片段的开始时间戳和人声音频的能量信息，将人声音频进行句子级别的切分，得到至少一个人声音频片段，提高人声音频片段切分的合理性；将人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到每个人声音频片段对应的标注结果，利用对齐模型自动对人声音频片段和对应的歌词片段进行标注，提升标注效率，降低成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理，并不构成对本申请的不当限定。

图1为本申请示例性实施例提供的一种歌曲音频标注方法的流程示意图；

图2为本申请示例性实施例提供的一种对齐模型训练方法的流程示意图；

图3为本申请示例性实施例提供的另一种歌曲音频标注方法的流程示意图；

图4为本申请示例性实施例提供的另一种歌曲音频标注方法的流程示意图；

图5是本申请示例性实施例提供的一种歌曲音频标注装置的结构框图；

图6是本申请示例性实施例提供的一种对齐模型训练装置的结构框图；

图7为本申请示例性实施例提供的一种电子设备的结构示意图；

图8为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

歌曲的获取和自动标注一直是歌唱合成及相关领域研发的瓶颈，可用于训练的歌唱数据非常少，一般是找专人录制，成本很高，而且对歌唱数据标注的人工成本和时间成本很高，标注效率低。

目前说话语音的获取和自动标注有很多，但是不适用于歌唱数据，歌曲中的音素时长不固定，基频范围广，与说话语音的差异是歌曲标注的难题。目前，针对歌曲的标注一般采用人工标注，标注效率低，耗费大量的成本。

针对上述存在的技术问题，在本申请的一些实施例中，获取待标注歌曲，其中，待标注歌曲包括唱歌音频与歌词文本，唱歌音频包含人声和人声重叠的伴奏声；对唱歌音频中的人声和伴奏声进行分离，得到人声音频；根据每个歌词片段的开始时间戳和人声音频的能量信息，将人声音频进行句子级别的切分，得到至少一个人声音频片段，提高人声音频片段切分的合理性；将人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到每个人声音频片段对应的标注结果，利用对齐模型自动对人声音频片段和对应的歌词片段进行标注，提升标注效率，降低成本。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种歌曲音频标注方法的流程示意图。如图1所示，该方法包括：

S101：获取待标注歌曲数据，其中，待标注歌曲数据包括唱歌音频和与歌词文本，唱歌音频包含人声和与人声重叠的伴奏声，歌词文本对应唱歌音频中的人声所歌唱的内容，歌词文本包括多个已切分好的歌词片段，每个歌词片段包括一个开始时间戳；

S102：对唱歌音频中的人声和伴奏声进行分离，得到人声音频；

S103：根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点；

S104：根据切分点对人声音频进行切分，得到至少一个人声音频片段，其中，每个人声音频片段对应一个歌词片段；

S105：将每个人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个人声音频片段对应的标注结果，其中，每个标注结果包括人声音频片段中每个音素以及与每个音素对应的时间信息。

在本实施例中，上述方法的执行主体包括但不限于以下任意一种：个人电脑，平板电脑，笔记本电脑，手机，智能手环，智能电视，智能手表和智能音响。

在本实施例中，获取待标注歌曲，其中，待标注歌曲包括唱歌音频与歌词文本，唱歌音频包含人声和人声重叠的伴奏声；对唱歌音频中的人声和伴奏声进行分离，得到人声音频；根据每个歌词片段的开始时间戳和人声音频的能量信息，将人声音频进行句子级别的切分，得到至少一个人声音频片段，提高人声音频片段切分的合理性；将人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到每个人声音频片段对应的标注结果，利用对齐模型自动对人声音频片段和对应的歌词片段进行标注，提升标注效率，降低成本。

需要说明的是，待标注歌曲的歌词文本包含多个以句子为单位预先切分好的歌词片段，每个歌词片段包括一个开始时间戳。

人声音频的能量信息，为人声音频在传播介质中振动产生的能量。

人声音频片段对应的音素，包括但不限于以下几种：人声音频片段对应的各音素文本、人声音频片段对应的拼音文本中的声母文本与韵母文本和人声音频片段对应的各音素音频。

在本实施例中，获取待标注歌曲。包括但不限于以下几种获取方式：

获取方式一：从互联网中爬取多首歌曲，从多首歌曲中选择出待标注歌曲。

获取方式二：获取本地存储的待标注歌曲。

获取方式三：响应歌曲录制操作，获取录制好的待标注歌曲。

在上述获取方式一中，一种可选实施例为，利用爬虫工具从互联网中爬取多首歌曲，从多首歌曲中随机选择出一首歌曲作为待标注歌曲；另一种实施例中，利用爬虫工具从互联网中爬取多首歌曲，从多首歌曲中选择出满足设定条件的一首歌曲作为待标注歌曲。本申请实施例中，利用爬虫工具从互联网中爬取多首歌曲，对歌曲数据的获取快捷，且成本较低。需要说明的是，本申请实施例对设定条件不作限定，设定条件可以根据实际情况作出调整。例如，设定条件包括但不限于以下几种：设定序号，时长最长，时长最短，歌曲能量值最高和歌曲评分最高。

在上述获取方式二中，可以从本地存储的歌曲数据库中获取任意一首作为待标注歌曲。

在上述获取方式三中，利用歌曲录制应用进行歌曲录制，响应歌曲录制操作，获取录制好的待标注歌曲。

在本实施例中，对歌唱音频中的人声和伴奏声进行分离，得到人声音频。一种可实现的方式为，将歌唱音频输入已有的人声分离模型中，进行人声音频和伴奏音频的分离，得到人声音频。另一种可实现的方式为，利用分离工具进行人声音频和伴奏音频的分离，得到人声音频。

在本实施例中，根据歌词中的歌词片段的开始时间戳和人声音频的能量信息，对人声音频和歌词重新切分，得到至少一个人声音频片段和至少一个人声音频片段。一种可实现的方式为，根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点；根据切分点对人声音频进行切分，得到至少一个人声音频片段。

在上述实施例中，每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点；根据切分点对人声音频进行切分，得到至少一个人声音频片段。一种可实现的方式为，对于每个歌词片段，从人声音频中取与开始时间戳对应的时间节点的前和/或后预定时长的音频数据作为取样数据；计算每个取样数据中各个时间节点的音频能量；对于每个取样数据，将音频能量最小的时间节点作为当前取样数据的切分点；利用切分点对人声音频进行切分，得到至少一个人声音频片段。

例如，根据歌词中的歌词片段的开始时间戳，将人声音频进行切分，得到10个音频片段；从开始时间戳对应的位置按照500ms步长的音频数据作为取样数据；分别计算每个取样数据中各个时间节点的能量值；对每个取样数据，将音频能量最小的时间节点作为当前取样数据的切分点，对人声音频切分，得到10个声音频片段。需要说明的是，本申请实施例对设定音频步长不作限定，可以根据实际情况对设定音频步长作出限定。

在得到至少一个人声音频片段之后，将人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到每个人声音频片段对应的标注结果，其中，每个标注结果包括人声音频片段中每个音素以及与每个音素对应的时间信息。其中，每个音素对应的时间信息包括每个音素对应的起止时间。对齐模型输出两种类别的数据：一部分是能够对齐的高质量的目标人声音频片段，另一部分是无法对齐的低质量人声音频片段。无法对齐的原因可能有：歌词文本错误，噪声大，伴奏分离不干净，合唱对唱和音质差等。

在上述及下述各实施例中，利用目标人声音频片段和目标人声音频片段对应的歌词片段，对已有的对齐模型进行训练，得到更新的对齐模型。其中，利用高质量的目标人声音频片段对对齐模型进行迭代训练，使得对齐模型更加鲁棒，对带燥数据、音质较差的数据容度更高，同时也扩充了整个对齐模型的数据多样性，使得对齐效果得到提升。

在上述及下述各实施例中，在根据切分点对人声音频进行切分得到至少一个人声音频片段之后，对于每个歌词片段，在每两个相邻的音节之间增加一个静音音素，得到更新的歌词片段。

在上述及下述各实施例中，在得到人声音频片段对应的标注结果之后，对每个人声音频片段提取基频；根据提取的基频和预设基频阈值对标注结果进行调整。一种可实现的方式为，根据预设时间长度将每个音频片段划分为多个音频帧；对每个音频片段，以帧为单位提取与每个音频帧对应的基频；根据提取的基频和预设基频阈值，判断更新的音频歌词片段中的每个静音音素是否是真静音音素；如果是真静音音素，则保留静音音素对应的时间信息；如果不是真静音音素，则修改静音音素对应的时间信息。需要说明的是，本申请对预设时间不作限定，预设时间可以为1毫秒、2毫秒和5毫秒等，预设时间可以根据实际情况作出调整。本申请对预设基频阈值不作限定，预设基频阈值可以为20赫兹、50赫兹和60赫兹等，预设基频阈值可以根据实际情况作出调整。

在上述实施例中，根据提取的基频和预设基频阈值，判断更新的音频歌词片段中的每个静音音素是否是真静音音素。一种可实现的方式为，如果与一个静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且N个音频帧的总体时间长度大于预设时间阈值，则确定静音音素为真静音音素，其中，N的取值范围为2或3；反之，该静音音素不是真静音音素。需要说明的是，本申请对预设时间阈值不作限定，预设时间阈值可以是50毫秒、100毫秒和200毫秒等，预设时间阈值可以根据实际情况作出调整。

在上述实施例中，如果一个静音音素不是真静音音素，则根据如下步骤修改静音音素对应的时间信息。一种可实现的方式为，如果与静音音素的时间信息对应的人声音频段中没有连续出现N个基频大于或等于预设基频阈值的音频帧，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的前一个音素；如果与静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且N个音频帧的总体时间长度不大于预设时间阈值，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的后一个音素。

例如，针对第一音频片段，获取第一音频片段中的多个音频帧，以帧为单位提取每个音频帧对应的基频，统计音频帧对应的基频小于60Hz的连续音频帧的数量，若连续帧的数量小于三帧，则不是真的静音，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的前一个音素。若连续音频帧的数量大于等于三帧，继续判断多个音频帧的总体时间长度，若多个音频帧的总体时间长度小于100ms，则不是真的静音，在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的后一个音素；若第一静音音素的时长大于100ms，则认为该段为真的静音音素，保留第一静音音素。

在上述实施例中，经过修正后的与每个人声音频片段对应的标注结果可用于模型训练，以得到质量较好的模型。例如，经过修正后的与每个人声音频片段对应的标注结果可用于模型训练，得到语音合成模型。

在上述及下述各实施例中，在使用对齐模型之前，需要利用训练样本数据训练得到对齐模型，图2为本申请示例性实施例提供的一种对齐模型训练方法的流程示意图。如图2所示，该对齐模型训练方法包括：

S201：收集音频样本数据和音频样本数据对应的文本样本数据；

S202：对音频样本数据和文本样本数据进行切分，得到音频样本数据包含的第一音频片段样本和第一音频片段样本对应的第一文本片段样本；

S203：对第一音频片段样本和第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本；

S204：对第二音频片段样本进行标注，得到第二音频片段样本包含的音素样本和与音素样本对应的时间信息；

S205：利用第二音频片段样本、第二文本片段样本、第二音频片段样本包含的音素样本和与音素样本对应的时间信息对初始对齐模型进行训练，得到训练完成的对齐模型。

在本实施例中，首先收集大量的音频样本数据，尽可能地覆盖多种音频处理场景中可能遇到的不同类型的音频，以提升样本覆盖率。例如，音频样本数据可以为正常说话语调的音频，也可以是歌唱语调的音频。

在本实施例中，对音频样本数据和文本样本数据进行切分，得到音频样本数据包含的第一音频片段样本和第一音频片段样本对应的第一文本片段样本。

在本实施例中，对第一音频片段样本和第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本。包括但不限于以下几种过滤方式：

过滤方式一，从第一音频片段样本和第一文本片段样本中去除设定语种的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本；

过滤方式二，根据第一音频片段样本的基频信息，从第一音频片段样本和第一文本片段样本中去除基频信息不满足基频信息条件的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本。

在上述过滤方式一中，例如，若实际情况中只需要中文人声音频片段，则将第一音频片段样本中的英文的音频片段进行过滤，去除英文的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本。

在上述过滤方式二中，基频信息包括但不限于以下几种：非静音段基频中低频占比率、非静音段基频中高频占比率和基频为零的帧数占总帧数的比例，基频均值、基频方差和基频标准差。例如，非静音段基频中低频占比率小于等于0.04％，非静音段基频中高频占比率小于等于0.04％，基频为零的帧数占总帧数的比例小于等于0.3％，基频均值大于等于150，基频方差大于等于10且小于100，基频标准差小于等于500。根据实际情况，对第一音频片段样本中的不满足上述至少一个基频信息的音频片段样本进行过滤，得到第二音频片段样本和第二文本片段样本。需要说明的是，本申请实施例对基频信息条件不作限定，可以根据实际情况作出调整。

在本实施例中，对第二音频片段样本进行标注，得到第二音频片段样本包含的音素样本和与音素样本对应的时间信息；将第二音频片段样本、第二文本片段样本、第二音频片段样本包含的音素样本和与音素样本对应的时间信息输入初始对齐模型。在初始对齐模型内部，根据模型参数对训练样本进行计算操作，并由初始对齐模型的输出层输出音频片段样本的标注结果。接着，初始对齐模型的损失函数层，可根据输出层的音频片段样本的标注结果和训练样本上的真实的标注结果的差别，计算损失函数。若损失函数不满足设定的要求，则可调整模型参数，继续迭代训练。当初始对齐模型的损失函数满足设定的要求时，可得到训练完成的对齐模型。

图3为本申请示例性实施例提供的另一种歌曲音频标注方法的流程示意图。如图3所示，该方法包括：

S301：从互联网中爬取待标注歌曲，其中，待标注歌曲数据包括唱歌音频和与歌词文本，唱歌音频包含人声和与人声重叠的伴奏声，歌词文本对应唱歌音频中的人声所歌唱的内容，歌词文本包括多个已切分好的歌词片段，每个歌词片段包括一个开始时间戳；

S302：对待标注歌曲中的唱歌音频中的人声和伴奏声进行分离，得到人声音频；

S303：根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点；

S304：根据切分点对人声音频进行切分，得到至少一个人声音频片段，其中，每个人声音频片段对应一个歌词片段；

S305：将每个人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个人声音频片段对应的标注结果，其中，每个标注结果包括人声音频片段中每个音素以及与每个音素对应的时间信息。

在本实施例中，上述方法的各执行步骤的实现方式可参见前述各实施例相应部分的描述，在此不再赘述。

图4为本申请示例性实施例提供的另一种歌曲音频标注方法的流程示意图。如图4所示，该方法包括：

S401：从互联网中爬取待标注歌曲，其中，待标注歌曲数据包括唱歌音频和与歌词文本，唱歌音频包含人声和与人声重叠的伴奏声，歌词文本对应唱歌音频中的人声所歌唱的内容，歌词文本包括多个已切分好的歌词片段，每个歌词片段包括一个开始时间戳；

S402：对待标注歌曲中的唱歌音频中的人声和伴奏声进行分离，得到人声音频；

S403：根据每个歌词片段的开始时间戳和人声音频的能量信息，对人声音频进行切分，得到至少一个人声音频片段，其中，每个人声音频片段对应一个歌词片段；

S404：将每个人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个人声音频片段对应的标注结果；其中，每个标注结果包括人声音频片段中每个音素以及与每个音素对应的时间信息。

在本申请的上述方法实施例中，获取待标注歌曲，其中，待标注歌曲包括唱歌音频与歌词文本，唱歌音频包含人声和人声重叠的伴奏声；对唱歌音频中的人声和伴奏声进行分离，得到人声音频；根据每个歌词片段的开始时间戳和人声音频的能量信息，将人声音频进行句子级别的切分，得到至少一个人声音频片段，提高人声音频片段切分的合理性；将人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到每个人声音频片段对应的标注结果，利用对齐模型自动对人声音频片段和对应的歌词片段进行标注，提升标注效率，降低成本。

图5是本申请示例性实施例提供的一种歌曲音频标注装置50的结构框图。参照图5，该装置包括获取模块51，分离模块52，确定模块53，切分模块54和对齐模型模块55。

其中，获取模块51，用于获取待标注歌曲数据，其中，待标注歌曲数据包括唱歌音频和与歌词文本，唱歌音频包含人声和与人声重叠的伴奏声，歌词文本对应唱歌音频中的人声所歌唱的内容，歌词文本包括多个已切分好的歌词片段，每个歌词片段包括一个开始时间戳；

分离模块52，用于对唱歌音频中的人声和伴奏声进行分离，得到人声音频；

确定模块53，根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点；

切分模块54，根据切分点对人声音频进行切分，得到至少一个人声音频片段，其中，每个人声音频片段对应一个歌词片段；

对齐模型模块55，将每个人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个人声音频片段对应的标注结果，其中，每个标注结果包括人声音频片段中每个音素以及与每个音素对应的时间信息。

可选地，确定模块53在根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点时，用于：对于每个歌词片段，从人声音频中取与开始时间戳对应的时间节点的前和/或后预定时长的音频数据作为取样数据；计算每个取样数据中各个时间节点的音频能量；对于每个取样数据，将音频能量最小的时间节点作为当前取样数据的切分点。

可选地，每个歌词片段包括多个音节；切分模块54在根据切分点对人声音频进行切分得到至少一个人声音频片段之后，还用于：对于每个歌词片段，在每两个相邻的音节之间增加一个静音音素，得到更新的歌词片段。

可选地，对齐模型模块55在得到与每个人声音频片段对应的标注结果之后，还用于：对每个人声音频片段提取基频；根据提取的基频和预设基频阈值对标注结果进行调整。

可选地，对齐模型模块55在根据提取的基频和预设基频阈值对标注结果进行调整时，用于：根据提取的基频和预设基频阈值，判断更新的音频歌词片段中的每个静音音素是否是真静音音素；如果是真静音音素，则保留静音音素对应的时间信息；如果不是真静音音素，则修改静音音素对应的时间信息。

可选地，对齐模型模块55在对每个人声音频片段提取基频用于：根据预设时间长度将每个音频片段划分为多个音频帧；对每个音频片段，以帧为单位提取与每个音频帧对应的基频。

可选地，对齐模型模块55在根据提取的基频和预设基频阈值，判断更新的音频歌词片段中的每个静音音素是否是真静音音素时，用于：如果与一个静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且N个音频帧的总体时间长度大于预设时间阈值，则确定静音音素为真静音音素，其中，N的取值范围为2或3。

可选地，如果一个静音音素不是真静音音素，则对齐模型模块55在根据如下步骤修改静音音素对应的时间信息：如果与静音音素的时间信息对应的人声音频段中没有连续出现N个基频大于或等于预设基频阈值的音频帧，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的前一个音素；如果与静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且N个音频帧的总体时间长度不大于预设时间阈值，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的后一个音素。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是本申请示例性实施例提供的一种对齐模型训练装置60的结构框图。参照图6，该对齐模型训练装置包括收集模块61，切分模块62，过滤模块63，标注模块64和训练模块65。

其中，收集模块61，用于收集音频样本数据和音频样本数据对应的文本样本数据；

切分模块62，用于对音频样本数据和文本样本数据进行切分，得到音频样本数据包含的第一音频片段样本和第一音频片段样本对应的第一文本片段样本；

过滤模块63，用于对第一音频片段样本和第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本；

标注模块64，用于对第二音频片段样本进行标注，得到第二音频片段样本包含的音素样本和与音素样本对应的时间信息；

训练模块65，用于利用第二音频片段样本、第二文本片段样本、第二音频片段样本包含的音素样本和与音素样本对应的时间信息对初始对齐模型进行训练，得到训练完成的对齐模型。

可选地，过滤模块63在对第一音频片段样本和第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本时，用于：

从第一音频片段样本和第一文本片段样本中去除设定语种的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本；

或者，

根据第一音频片段样本的基频信息，从第一音频片段样本和第一文本片段样本中去除基频信息不满足基频信息条件的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本。

图7为本申请示例性实施例提供的一种电子设备的结构示意图。如图7所示，该电子设备包括：存储器701和处理器702。另外，该电子设备还包括电源组件703、通信组件704和显示屏705等必要组件。

存储器701，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于电子设备上操作的任何应用程序或方法的指令。

存储器701，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件704，用于与其他设备进行数据传输。

处理器702，可执行存储器701中存储的计算机指令，以用于：获取待标注歌曲数据，其中，待标注歌曲数据包括唱歌音频和与歌词文本，唱歌音频包含人声和与人声重叠的伴奏声，歌词文本对应唱歌音频中的人声所歌唱的内容，歌词文本包括多个已切分好的歌词片段，每个歌词片段包括一个开始时间戳；对唱歌音频中的人声和伴奏声进行分离，得到人声音频；根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点；根据切分点对人声音频进行切分，得到至少一个人声音频片段，其中，每个人声音频片段对应一个歌词片段；将每个人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到与每个人声音频片段对应的标注结果，其中，每个标注结果包括人声音频片段中每个音素以及与每个音素对应的时间信息。

可选地，处理器702在根据每个歌词片段的开始时间戳和人声音频的能量信息，确定人声音频的切分点时，用于：

对于每个歌词片段，从人声音频中取与开始时间戳对应的时间节点的前和/或后预定时长的音频数据作为取样数据；

计算每个取样数据中各个时间节点的音频能量；

对于每个取样数据，将音频能量最小的时间节点作为当前取样数据的切分点。

可选地，每个歌词片段包括多个音节；

处理器702在根据切分点对人声音频进行切分得到至少一个人声音频片段之后，还可用于：对于每个歌词片段，在每两个相邻的音节之间增加一个静音音素，得到更新的歌词片段。

可选地，处理器702在得到与每个人声音频片段对应的标注结果之后，还用于：

对每个人声音频片段提取基频；

根据提取的基频和预设基频阈值对标注结果进行调整。

可选地，处理器702在根据提取的基频和预设基频阈值对标注结果进行调整时，用于：

根据提取的基频和预设基频阈值，判断更新的音频歌词片段中的每个静音音素是否是真静音音素；

如果是真静音音素，则保留静音音素对应的时间信息；

如果不是真静音音素，则修改静音音素对应的时间信息。

可选地，处理器702在对每个人声音频片段提取基频，用于：

根据预设时间长度将每个音频片段划分为多个音频帧；

对每个音频片段，以帧为单位提取与每个音频帧对应的基频。

可选地，处理器702在根据提取的基频和预设基频阈值，判断更新的音频歌词片段中的每个静音音素是否是真静音音素时，用于：

如果与一个静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且N个音频帧的总体时间长度大于预设时间阈值，则确定静音音素为真静音音素，其中，N的取值范围为2或3。

可选地，如果一个静音音素不是真静音音素，则处理器702在根据如下步骤修改静音音素对应的时间信息：

如果与静音音素的时间信息对应的人声音频段中没有连续出现N个基频大于或等于预设基频阈值的音频帧，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的前一个音素；

如果与静音音素的时间信息对应的人声音频段中连续出现N个基频大于或等于预设基频阈值的音频帧，且N个音频帧的总体时间长度不大于预设时间阈值，则在标注结果中删除静音音素，并将静音音素的时长划分到当前静音音素的后一个音素。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图1方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序/指令，计算机程序/指令被处理器执行图1的方法实施例中的各步骤。

图8为本申请示例性实施例提供的一种电子设备的结构示意图。如图8所示，该电子设备包括：存储器801和处理器802。另外，该电子设备还包括电源组件803和通信组件804等必要组件。

存储器801，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于电子设备上操作的任何应用程序或方法的指令。

存储器801，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件804，用于与其他设备进行数据传输。

处理器802，可执行存储器801中存储的计算机指令，以用于：收集音频样本数据和音频样本数据对应的文本样本数据；对音频样本数据和文本样本数据进行切分，得到音频样本数据包含的第一音频片段样本和第一音频片段样本对应的第一文本片段样本；对第一音频片段样本和第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本；对第二音频片段样本进行标注，得到第二音频片段样本包含的音素样本和与音素样本对应的时间信息；利用第二音频片段样本、第二文本片段样本、第二音频片段样本包含的音素样本和与音素样本对应的时间信息对初始对齐模型进行训练，得到训练完成的对齐模型。

可选地，处理器802在对第一音频片段样本和第一文本片段样本进行过滤，得到用于模型训练的第二音频片段样本和第二文本片段样本时，用于：从第一音频片段样本和第一文本片段样本中去除设定语种的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本；或者，根据第一音频片段样本的基频信息，从第一音频片段样本和第一文本片段样本中去除基频信息不满足基频信息条件的音频片段样本以及对应的文本片段样本，得到第二音频片段样本和第二文本片段样本。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图2方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序/指令，计算机程序/指令被处理器执行图2的方法实施例中的各步骤。

上述图7和图8中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图7和图8中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图7中的显示屏包括屏幕，其屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电子设备还包括音频组件。

音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在本申请的上述装置、设备、存储介质及程序产品实施例中，获取待标注歌曲，其中，待标注歌曲包括唱歌音频与歌词文本，唱歌音频包含人声和人声重叠的伴奏声；对唱歌音频中的人声和伴奏声进行分离，得到人声音频；根据每个歌词片段的开始时间戳和人声音频的能量信息，将人声音频进行句子级别的切分，得到至少一个人声音频片段，提高人声音频片段切分的合理性；将人声音频片段和对应的歌词片段输入到预设的对齐模型中，得到每个人声音频片段对应的标注结果，利用对齐模型自动对人声音频片段和对应的歌词片段进行标注，提升标注效率，降低成本。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种汉英口语翻译题评分方法及系统与流程

歌曲音频标注与对齐模型训练方法、设备及存储介质与流程

相关文献

最热文献