农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

音符音高值的确定方法、装置、设备及存储介质与流程

2021-07-20 17:10:00 来源：中国专利 TAG：音高音符音频处理装置特别

本申请实施例涉及音频处理技术领域，特别涉及一种音符音高值的确定方法、装置、设备及存储介质。

背景技术：

随着歌声合成技术的不断发展，其已经衍生出多种多样的应用，这其中就包括声学模型。利用某一对象实际演唱歌曲时的音频数据训练完成的声学模型，可以模拟该对象演唱其它歌曲时的音频数据。

训练声学模型过程中使用的一项重要特征是字词的音符音高特征。音符音高特征是指字词的音符的音高特征，相比于字词的音高特征，音符音高特征不仅可以指示音的高度，还可以指示音的长度，因而，字词的音符音高特征能够比字词的音高特征更加准确地表示字词的演唱特点。音符音高特征通常采用音符音高值来表示，相关技术中，字词的音符音高值的提取，依赖于字词的音高值的提取。一种提取音符音高值的方案是：先提取字词的音高信息，然后对字词的音高信息求取平均值，得到字词的音高值，再将字词的音高值转换为字词的音符音高值。另一种提取音符音高值的方案是：先提取字词的音高信息，然后将字词的音高信息转换为字词的音符音高信息，再对字词的音符音高信息求取平均值，得到字词的音符音高值。

发明人在实现本申请的过程中发现，由于演唱过程中极有可能出现气息不稳定、不同字词切换不畅等情况，导致字词的音符音高信息中部分音符音高信息并非是对象实际想要演唱达到的音符音高值，进而导致字词的音符音高值的计算存在较大偏差。

技术实现要素：

本申请实施例提供了一种音符音高值的确定方法、装置、设备及存储介质，可用于提高字词的音符音高值的计算准确性。所述技术方案如下：

一方面，本申请实施例提供了一种音符音高值的确定方法，所述方法包括：

获取音频数据对应的第一歌曲中歌词元素的音高信息；

基于每个所述歌词元素的音高信息，确定相应所述歌词元素的音符音高信息，所述歌词元素的音符音高信息包括所述歌词元素的音符对应的音高信息；

获取每个所述歌词元素的稳定发声部分的音符音高信息，得到相应所述歌词元素的目标音符音高信息；

基于每个所述歌词元素的目标音符音高信息，确定相应所述歌词元素的音符音高值。

另一方面，本申请实施例提供了一种音符音高值的确定装置，所述装置包括：

第一信息获取模块，用于获取音频数据对应的第一歌曲中歌词元素的音高信息；

第二信息确定模块，用于基于每个所述歌词元素的音高信息，确定相应所述歌词元素的音符音高信息，所述歌词元素的音符音高信息包括所述歌词元素的音符对应的音高信息；

第二信息获取模块，用于获取每个所述歌词元素的稳定发声部分的音符音高信息，得到相应所述歌词元素的目标音符音高信息；

音符音高值确定模块，用于基于每个所述歌词元素的目标音符音高信息，确定相应所述歌词元素的音符音高值。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音符音高值的确定方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音符音高值的确定方法。

还一方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行上述音符音高值的确定方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过从歌曲的音频数据中提取歌曲中的字词对应的音高信息，并将字词的音高信息转换为字词的音符音高信息，以更加准确地表示字词的演唱特点；之后，先对字词的音符音高信息进行截取处理，以得到字词的稳定发声部分的音符音高信息，再基于字词的稳定发声部分的音符音高信息，确定字词的音符音高值。本申请实施例通过字词的音符音高信息的截取处理，实现了有效去除字词的音符音高信息中，由于演唱对象气息不稳定、不同字词切换不畅等导致的偏差较大的音符音高信息，使得字词的音符音高信息更加贴近演唱对象实际想要演唱到的音符音高值，从而提高字词的音符音高值的计算准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的音符音高值的确定方法的流程图；

图2是本申请另一个实施例提供的音符音高值的确定方法的流程图；

图3是本申请一个实施例提供的音符音高值的确定装置的框图；

图4是本申请另一个实施例提供的音符音高值的确定装置的框图；

图5是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的技术方案，各步骤的执行主体可以是计算机设备，如具有计算能力的服务器，或者是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、pc(personalcomputer，个人计算机)、智能电视、智能车载等终端，还可以是其它计算机设备。可选地，在计算机设备实现为服务器的情况下，计算机设备可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

在对本申请的技术方案进行介绍说明之前，先对本申请实施例中出现的一些名词进行简单介绍。

歌词元素：是指歌曲的歌词中包括的元素，如文字、单词、词语等。不同类型的歌曲所对应的歌词元素的类型也有所不同。歌曲包括但不限定于以下几种类型：中文歌曲、英文歌曲、日文歌曲、韩文歌曲等。基于歌曲的类型，本申请实施例中，歌词元素包括但不限定于以下几种类型：中文文字、英文单词、日文单词、韩文符号等。可选地，一首歌曲可能是多种歌曲类型的混合，进而一首歌曲对应的歌词元素也可能是多种歌词元素类型的混合，示例性地，在歌曲为中文歌曲与英文歌曲的混合时，该歌曲对应的歌词元素为中文文字和英文单词的混合，即该歌曲对应的歌词元素包括中文文字和英文单词。

歌词元素的音高信息：用于反映歌词元素的音高特征。对象(如人、机器人等)在演唱歌曲时，针对某一具体的歌词元素，演唱时音的高度可能会发生变化。基于此，本申请实施例中，歌曲的歌词中每个歌词元素对应至少一个音高信息，该至少一个音高信息即用于反映相应歌词元素的音高特征，即歌词元素的音的高度特征。

歌词元素的音符音高信息：用于反映歌词元素的音符音高特征。对象(如人、机器人等)在演唱歌曲时，针对某一具体的歌词元素，演唱时音的高度可能会发生变化，且音的不同高度所对应的长度也可能不同。基于此，本申请实施例提出了歌词元素的音符音高信息这一特征，歌曲的歌词中每个歌词元素对应至少一个音符音高信息，该至少一个音符音高信息即用于反映相应歌词元素的音符音高特征，即歌词元素的音的高度特征和音的长度特征。在一些实现中，针对一个具体的歌词元素，该歌词元素的一个音符音高信息可能对应多个音高信息，也可能对应一个音高信息，本申请实施例对此不作限定。

歌词元素的音符音高值：用于反映歌词元素的音符音高特征。歌词元素的音符音高信息与歌词元素的音符音高值之间的区别在于：歌词元素的音符音高信息未经过本申请提供的音符音高值的确定方法的标准化处理，而歌词元素的音符音高值是歌词元素的音符音高信息经过本申请提供的音符音高值的确定方法的标准化处理后得到的音符音高值。针对某一具体的歌词元素，该歌词元素的音符音高值，可以是该歌词元素的音符音高信息中的某一音符音高信息，也可以是基于该歌词元素的音符音高信息重新确定的音符音高信息。

歌词元素的音符音高众数：是指歌词元素的目标音符音高信息中出现次数最多的目标音符音高信息。

歌词元素的音符音高最大值：是指歌词元素的目标音符音高信息中音符音高值最大的目标音符音高信息。

歌词元素的稳定发声部分：是指对象(如人、机器人等)演唱歌词元素时稳定发声的部分。由于对象(如人、机器人等)在演唱歌曲时，演唱到某一具体的歌词元素，可能由于上一个歌词元素至该歌词元素之间发生切换、对象演唱的气息气流不稳定等，导致对象在演唱该歌词元素时的初始发声不稳定，为了得到该歌词元素准确的音符音高值，则需要去除不稳定的发声部分。

请参考图1，其示出了本申请一个实施例提供的音符音高值的确定方法的流程图。该方法可应用于上述计算机设备中。该方法可以包括如下几个步骤。

步骤110，获取音频数据对应的第一歌曲中歌词元素的音高信息。

第一歌曲是目标对象实际演唱的歌曲，其可以包括一首歌曲，也可以包括多首歌曲。本申请实施例中，第一歌曲中包括至少一个歌词元素，每个歌词元素对应至少一个音高信息。有关歌词元素以及歌词元素的音高信息等的介绍说明，请参见上述名词介绍，此处不多赘述。

目标对象演唱第一歌曲时会生成相应的音频数据，计算机设备可以获取该音频数据，本申请实施例对计算机设备获取第一歌曲对应的音频数据的方式不作限定。在一个示例中，计算机设备在目标对象演唱第一歌曲的过程中进行音频录制等处理，从而获取第一歌曲对应的音频数据；在另一个示例中，计算机设备从另一计算机设备处获取第一歌曲对应的音频数据，该另一计算机设备在目标对象演唱第一歌曲的过程中进行音频录制等处理得到该音频数据。

计算机设备在获取第一歌曲对应的音频数据之后，可以基于第一歌曲包括的歌词元素，从第一歌曲对应的音频数据中提取第一歌曲中歌词元素的音高信息。在一个示例中，计算机设备从第一歌曲对应的音频数据中提取出的音高信息所对应的歌词元素数量，可以等于第一歌曲所包括的歌词元素数量，也即，计算机设备从第一歌曲对应的音频数据中提取第一歌曲所包括的歌词元素中每一个歌词元素对应的音高信息。在另一个示例中，计算机设备从第一歌曲对应的音频数据中提取出的音高信息所对应的歌词元素数量，可以小于第一歌曲所包括的歌词元素数量，也即，计算机设备从第一歌曲对应的音频数据中提取第一歌曲所包括的歌词元素中部分歌词元素对应的音高信息。

步骤120，基于每个歌词元素的音高信息，确定相应歌词元素的音符音高信息，歌词元素的音符音高信息包括歌词元素的音符对应的音高信息。

歌词元素的音符音高信息能够比歌词元素的音高信息更加准确地表示歌词元素的演唱特点，因此，本申请实施例中，计算机设备在提取出歌词元素的音高信息之后，进一步基于每个歌词元素的音高信息，确定相应歌词元素的音符音高信息，也即，计算机设备将每个歌词元素的音高信息转换为相应歌词元素的音符音高信息。示例性地，假设歌词元素的音高信息为f0[f01,f02,...f0n]，则歌词元素的音符音高信息为或者，歌词元素的音符音高信息为其中，a、b、c均为正数，示例性地，a为69.5，b为12，c为440。

步骤130，获取每个歌词元素的稳定发声部分的音符音高信息，得到相应歌词元素的目标音符音高信息。

由于目标对象演唱第一歌曲的过程中极有可能出现气息不稳定、不同歌词元素切换不畅等情况，从而导致歌词元素的音符音高信息中部分音符音高信息并非是目标对象实际想要演唱达到的音符音高值。因此，本申请实施例中，计算机设备在得到歌词元素的音符音高信息后，从每个歌词元素的音符音高信息中截取相应歌词元素的稳定发声部分的音符音高信息，得到相应歌词元素的目标音符音高信息，这样可以有效弥补由于目标对象气息不稳定、不同歌词元素切换不畅等带来的偏差，使得歌词元素的音符音高信息更加贴近目标对象实际想要演唱到的音符音高值。

在目标对象实际演唱第一歌曲的过程中，呈现出的演唱规律是：针对某一歌词元素，在该歌词元素的发声部分的靠后部分，气息基本稳定，提取的音高信息也是较为稳定的。因此，在一个示例中，假设每个歌词元素的发声时间段为第一时间段，相应歌词元素的稳定发声部分的时间段为第二时间段，则上述步骤130，包括：以第一时间段中晚于第一时间段的起始时刻的时刻，作为第二时间段的起始时刻；以第一时间段中早于或等于第一时间段的结束时刻的时刻，作为第二时间段的结束时刻；基于第二时间段的起始时刻和第二时间段的结束时刻，从每个歌词元素的音符音高信息中截取相应歌词元素的稳定发声部分的音符音高信息，得到相应歌词元素的目标音符音高信息。可选地，第二时间段的起始时刻等于第一时间段的中间时刻，或者，第二时间段的起始时刻早于或晚于第一时间段的中间时刻。

以第一歌曲包括的歌词元素的类型包括中文文字为例，歌词元素的发声部分包括声母部分和韵母部分，韵母部分一般都是有对应的音高信息的，而歌词元素的发声部分的偏后部分一般也为歌词元素的韵母部分。基于此，在一个示例中，歌词元素包括中文文字，上述步骤130，包括：获取每个中文文字的韵母部分的音符音高信息，得到相应中文文字的目标音符音高信息。也即，中文文字的稳定发声部分包括中文文字的韵母部分。可选地，上述获取每个中文文字的韵母部分的音符音高信息，得到相应中文文字的目标音符音高信息，包括：获取每个中文文字的韵母部分中目标部分的音符音高信息，得到相应中文文字的目标音符音高信息，目标部分的起始时刻晚于韵母部分的起始时刻。即中文文字的稳定发声部分包括中文文字的韵母部分中目标部分。可选地，目标部分的结束时刻早于或等于韵母部分的结束时刻。基于此，在对歌词元素的音符音高信息进行截取处理时，可以基于时长比例关系进行截取处理，例如，截取歌词元素的发声时长的后n％所对应的音符音高信息作为目标音符音高信息，n为正数，例如，n包括以下任意一项：20、30、40、50、60、70、80。

步骤140，基于每个歌词元素的目标音符音高信息，确定相应歌词元素的音符音高值。

在进行截取处理得到每个歌词元素的目标音符音高信息之后，计算机设备即可基于每个歌词元素的目标音符音高信息，确定相应歌词元素的音符音高值。可选地，计算机设备可以对每个歌词元素的目标音符音高信息求取平均值，得到相应歌词元素的音符音高值；或者，计算机设备可以将每个歌词元素的目标音符音高信息中的众数，确定为相应歌词元素的音符音高值；或者，计算机设备可以将每个歌词元素的目标音符音高信息中的最大值，确定为相应歌词元素的音符音高值。有关每个歌词元素的音符音高值的确定过程的其它介绍说明，请参见下述实施例，此处不多赘述。

由上述介绍说明可知，歌词元素的音符音高值是歌声合成技术中的一项重要特征，可以用于训练声学模型。基于此，在一个示例中，上述步骤140之后，还包括：基于第一歌曲中歌词元素的音符音高值，重构音频数据，得到第一歌曲的重构数据；获取第一歌曲的乐谱数据；基于第一歌曲的乐谱数据以及第一歌曲的重构数据，构建模型训练样本；通过模型训练样本训练模拟演唱模型；其中，模拟演唱模型用于按照第二歌曲的乐谱数据，模拟目标对象演唱第二歌曲时生成的音频数据。

基于模拟演唱模型，可以实现通过第二歌曲的乐谱，来合成目标对象演唱第二歌曲的歌声(音频数据)。其中，第二歌曲既可以为目标对象未演唱过的歌曲，即第二歌曲是不同于第一歌曲的歌曲；也可以为目标对象已经演唱过的歌曲，即第二歌曲可以与第一歌曲包括相同的歌曲。模拟演唱模型的训练过程中使用的模型训练样本包括第一歌曲的乐谱数据和第一歌曲的重构数据，可选地，本申请实施例以第一歌曲的乐谱数据为输入，以第一歌曲的重构数据为输出，调整模拟演唱模型的参数，使得模拟演唱模型的损失函数收敛，从而完成模拟演唱模型的训练。

综上所述，本申请实施例提供的技术方案，通过从歌曲的音频数据中提取歌曲中歌词元素的音高信息，并将歌词元素的音高信息转换为歌词元素的音符音高信息，以更加准确地表示字词的演唱特点；之后，先对歌词元素的音符音高信息进行截取处理，以得到歌词元素的稳定发声部分的音符音高信息，再基于歌词元素的稳定发声部分的音符音高信息，确定歌词元素的音符音高值。本申请实施例通过歌词元素的音符音高信息的截取处理，实现了有效去除歌词元素的音符音高信息中，由于演唱对象气息不稳定、不同歌词元素切换不畅等导致的偏差较大的音符音高信息，使得歌词元素的音符音高信息更加贴近演唱对象实际想要演唱到的音符音高值，从而提高歌词元素的音符音高值的计算准确性。

下面，对本申请实施例提供的一种歌词元素的音符音高值的确定方法进行介绍说明。在一个示例中，上述步骤140，包括：

(1)基于每个歌词元素的目标音符音高信息，确定相应歌词元素的音符音高众数和相应歌词元素的音符音高最大值。

其中，歌词元素的音符音高众数为歌词元素的目标音符音高信息中，重复次数最多的目标音符音高信息；歌词元素的音符音高最大值为歌词元素的目标音符音高信息中，音符音高值最大的目标音符音高信息。

然而，歌词元素的目标音符音高信息中可能同时有多组目标音符音高信息的重复次数相同且最多，在一个示例中，在歌词元素的目标音符音高信息中，同时有多组目标音符音高信息的重复次数最多的情况下，取音符音高值最大的目标音符音高信息作为歌词元素的音符音高众数。例如，歌词元素的目标音符音高信息中，目标音符音高信息1和目标音符音高信息2重复次数最多，且均出现了3次，那么，在目标音符音高信息1的音符音高值大于目标音符音高信息2的音符音高值的情况下，将目标音符音高信息1作为歌词元素的音符音高众数；在目标音符音高信息2的音符音高值大于目标音符音高信息1的音符音高值的情况下，将目标音符音高信息2作为歌词元素的音符音高众数。

(2)基于相应歌词元素的音符音高众数和相应歌词元素的音符音高最大值，确定相应歌词元素的音符音高值。

计算机设备在确定了歌词元素的音符音高众数和歌词元素的音符音高最大值之后，即可基于歌词元素的音符音高众数和歌词元素的音符音高最大值之间的大小关系等，确定将歌词元素的音符音高众数作为歌词元素的音符音高值，或者，确定将歌词元素的音符音高最大值作为歌词元素的音符音高值。下面，分别对几种可能的情况进行介绍说明。

在一个示例中，上述步骤(2)包括：在歌词元素的音符音高众数等于歌词元素的音符音高最大值的情况下，将歌词元素的音符音高众数确定为歌词元素的音符音高值；或者，在歌词元素的音符音高众数等于歌词元素的音符音高最大值的情况下，将歌词元素的音符音高最大值确定为歌词元素的音符音高值。

在另一个示例中，上述步骤(2)包括：在歌词元素的音符音高众数不等于歌词元素的音符音高最大值的情况下，获取歌词元素的音符音高最大值对应的索引值；基于歌词元素的音符音高最大值对应的索引值，确定歌词元素的音符音高最大值是否连续出现；在歌词元素的音符音高最大值连续出现的情况下，将歌词元素的音符音高最大值确定为歌词元素的音符音高值；在歌词元素的音符音高最大值非连续出现的情况下，将歌词元素的音符音高众数确定为歌词元素的音符音高值。

由于在目标对象的演唱过程中，可能会在某些歌词元素的演唱过程中唱出颤音，而颤音颤动到的音符音高值，可能会比目标对象实际想要演唱到的音符音高值更高，因此，需要避免将颤音对应的目标音符音高信息确定为歌词元素的音符音高值。又由于颤音通常是间隔出现的，因此，可以基于歌词元素的音符音高最大值的索引值，确定歌词元素的音符音高最大值是否连续出现，进而确定歌词元素的音符音高最大值是否为颤音。在歌词元素的音符音高最大值连续出现，则歌词元素的音符音高最大值不是颤音，进而可以将歌词元素的音符音高最大值确定为歌词元素的音符音高值；在歌词元素的音符音高最大值非连续出现，则歌词元素的音符音高最大值是颤音，进而可以将歌词元素的音符音高众数确定为歌词元素的音符音高值。

计算机设备在确定歌词元素的音符音高最大值的同时，可以获取歌词元素的音符音高最大值对应的索引值，再基于歌词元素的音符音高最大值对应的索引值，确定歌词元素的音符音高最大值是否连续出现。应理解，在歌词元素的音符音高最大值仅有一个的情况下，通常，不认为歌词元素的音符音高最大值为颤音。

可选地，本申请实施例中，歌词元素的音高信息对应的索引值，是按照音高信息出现时间从早到晚的顺序进行加一标注处理得到的；上述基于歌词元素的音符音高最大值对应的索引值，确定歌词元素的音符音高最大值是否连续出现，包括：基于歌词元素的音符音高最大值对应的索引值，确定最大索引值和最小索引值；对最大索引值和最小索引值的差值进行加一处理，得到对照值；在歌词元素的音符音高最大值对应的目标音符音高信息的个数，等于对照值的情况下，确定歌词元素的音符音高最大值连续出现；在歌词元素的音符音高最大值对应的目标音符音高信息的个数，不等于对照值的情况下，确定歌词元素的音符音高最大值非连续出现。

应理解，在本申请实施例中，仅以歌词元素的目标音符音高信息为多个为例，对本申请实施例提供的一种歌词元素的音符音高值的确定方法进行举例说明，在歌词元素的目标音符音高信息仅为一个的情况下，可以直接将这一个目标音符音高信息作为歌词元素的音符音高值。

综上所述，本申请实施例提供的技术方案，通过基于歌词元素的稳定发声部分的音符音高信息，确定歌词元素的音符音高众数和字词的音符音高最大值；再基于音符音高众数和音符音高最大值，确定歌词元素的音符音高值。相比于将稳定发声部分的音符音高信息的平均值作为歌词元素的音符音高值，可能会导致稳定发声部分的音符音高信息中不存在计算得出的音符音高值，从而确定出的音符音高值与演唱对象实际想要演唱到的音符音高值之间存在较大偏差，本申请实施例提供的方式则在充分保留演唱对象演唱特征的基础上对歌词元素的音符音高信息进行优化，最终计算的音符音高值也是演唱对象实际唱出的音符音高值，从而提高了音符音高值的计算准确性。

下面，以第一歌曲中的歌词元素包括中文文字为例，对本申请实施例提供的技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的音符音高值的确定方法的流程图。该方法可应用于上述计算机设备中。该方法可以包括如下几个步骤。

步骤210，获取音频数据对应的第一歌曲中歌词元素的音高信息。第一歌曲对应的音频数据是指目标对象演唱第一歌曲时生成的音频数据，计算机设备可以提取第一歌曲中每一个歌词元素的音高信息。步骤220，基于每个歌词元素的音高信息，确定相应歌词元素的音符音高信息。示例性地，假设歌词元素的音高信息为f0[f01,f02,...f0n]，则歌词元素的音符音高信息为

步骤230，获取每个歌词元素的稳定发声部分的音符音高信息，得到相应歌词元素的目标音符音高信息。可选地，计算机设备获取每个歌词元素的韵母部分中目标部分的音符音高信息，得到相应歌词元素的目标音符音高信息，所述目标部分的起始时刻晚于所述韵母部分的起始时刻。

步骤240，基于每个歌词元素的目标音符音高信息，确定相应歌词元素的音符音高众数和相应歌词元素的音符音高最大值。歌词元素的音符音高众数为歌词元素的目标音符音高信息中，重复次数最多的目标音符音高信息；歌词元素的音符音高最大值为歌词元素的目标音符音高信息中，音符音高值最大的目标音符音高信息。

步骤250，在歌词元素的音符音高众数等于歌词元素的音符音高最大值的情况下，将歌词元素的音符音高众数或者歌词元素的音符音高最大值确定为歌词元素的音符音高值。

步骤260，在歌词元素的音符音高众数不等于歌词元素的音符音高最大值的情况下，获取歌词元素的音符音高最大值对应的索引值。本申请实施例中，歌词元素的音高信息对应的索引值，是按照音高信息出现时间从早到晚的顺序进行加一标注处理得到的。

步骤270，基于歌词元素的音符音高最大值对应的索引值，确定歌词元素的音符音高最大值是否连续出现。可选地，上述步骤270，包括：基于歌词元素的音符音高最大值对应的索引值，确定最大索引值和最小索引值；对最大索引值和最小索引值的差值进行加一处理，得到对照值；在歌词元素的音符音高最大值对应的目标音符音高信息的个数，等于对照值的情况下，确定歌词元素的音符音高最大值连续出现；在歌词元素的音符音高最大值对应的目标音符音高信息的个数，不等于对照值的情况下，确定歌词元素的音符音高最大值非连续出现。

步骤280，在歌词元素的音符音高最大值连续出现的情况下，将歌词元素的音符音高最大值确定为歌词元素的音符音高值。

步骤290，在歌词元素的音符音高最大值非连续出现的情况下，将歌词元素的音符音高众数确定为歌词元素的音符音高值。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图3，其示出了本申请一个实施例提供的音符音高值的确定装置的框图。该装置300具有实现上述方法实施例的功能，该功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置300可以是上述计算机设备，也可以设置在上述计算机设备中。该装置300可以包括：第一信息获取模块310、第二信息确定模块320、第二信息获取模块330和音符音高值确定模块340。

第一信息获取模块310，用于获取音频数据对应的第一歌曲中歌词元素的音高信息。

第二信息确定模块320，用于基于每个所述歌词元素的音高信息，确定相应所述歌词元素的音符音高信息，所述歌词元素的音符音高信息包括所述歌词元素的音符对应的音高信息。

第二信息获取模块330，用于获取每个所述歌词元素的稳定发声部分的音符音高信息，得到相应所述歌词元素的目标音符音高信息。

音符音高值确定模块340，用于基于每个所述歌词元素的目标音符音高信息，确定相应所述歌词元素的音符音高值。

在一个示例中，所述歌词元素包括中文文字；所述第二信息获取模块330，用于：获取每个所述中文文字的韵母部分的音符音高信息，得到相应所述中文文字的目标音符音高信息。

在一个示例中，所述第二信息获取模块330，用于：获取每个所述中文文字的韵母部分中目标部分的音符音高信息，得到相应所述中文文字的目标音符音高信息，所述目标部分的起始时刻晚于所述韵母部分的起始时刻。

在一个示例中，每个所述歌词元素的发声时间段为第一时间段，相应所述歌词元素的稳定发声部分的时间段为第二时间段；所述第二信息获取模块330，用于：以所述第一时间段中晚于所述第一时间段的起始时刻的时刻，作为所述第二时间段的起始时刻；以所述第一时间段中早于或等于所述第一时间段的结束时刻的时刻，作为所述第二时间段的结束时刻；基于所述第二时间段的起始时刻和所述第二时间段的结束时刻，从每个所述歌词元素的音符音高信息中截取相应所述歌词元素的稳定发声部分的音符音高信息，得到相应所述歌词元素的目标音符音高信息。

在一个示例中，如图4所示，所述音符音高值确定模块340，包括：参考信息确定单元342，用于基于每个所述歌词元素的目标音符音高信息，确定相应所述歌词元素的音符音高众数和相应所述歌词元素的音符音高最大值；音符音高值确定单元344，用于基于相应所述歌词元素的音符音高众数和相应所述歌词元素的音符音高最大值，确定相应所述歌词元素的音符音高值；其中，所述歌词元素的音符音高众数为所述歌词元素的目标音符音高信息中重复次数最多的目标音符音高信息；所述歌词元素的音符音高最大值为所述歌词元素的目标音符音高信息中音符音高值最大的目标音符音高信息。

在一个示例中，如图4所示，所述音符音高值确定单元344，用于：在相应所述歌词元素的音符音高众数等于相应所述歌词元素的音符音高最大值的情况下，将相应所述歌词元素的音符音高众数确定为相应所述歌词元素的音符音高值；或者，在相应所述歌词元素的音符音高众数等于相应所述歌词元素的音符音高最大值的情况下，将相应所述歌词元素的音符音高最大值确定为相应所述歌词元素的音符音高值。

在一个示例中，如图4所示，所述音符音高值确定单元344，用于：在相应所述歌词元素的音符音高众数不等于相应所述歌词元素的音符音高最大值的情况下，获取相应所述歌词元素的音符音高最大值对应的索引值；基于相应所述歌词元素的音符音高最大值对应的索引值，确定相应所述歌词元素的音符音高最大值是否连续出现；在相应所述歌词元素的音符音高最大值连续出现的情况下，将相应所述歌词元素的音符音高最大值确定为相应所述歌词元素的音符音高值；在相应所述歌词元素的音符音高最大值非连续出现的情况下，将相应所述歌词元素的音符音高众数确定为相应所述歌词元素的音符音高值。

在一个示例中，所述歌词元素的音高信息对应的索引值，是按照音高信息出现时间从早到晚的顺序进行加一标注处理得到的；所述基于相应所述歌词元素的音符音高最大值对应的索引值，确定相应所述歌词元素的音符音高最大值是否连续出现，包括：基于相应所述歌词元素的音符音高最大值对应的索引值，确定最大索引值和最小索引值；对所述最大索引值和所述最小索引值的差值进行加一处理，得到对照值；在相应所述歌词元素的音符音高最大值对应的目标音符音高信息的个数，等于所述对照值的情况下，确定相应所述歌词元素的音符音高最大值连续出现；在相应所述歌词元素的音符音高最大值对应的目标音符音高信息的个数，不等于所述对照值的情况下，确定相应所述歌词元素的音符音高最大值非连续出现。

在一个示例中，如图4所示，所述装置还包括：音频数据重构模块350，用于基于所述第一歌曲中所述歌词元素的音符音高值，重构所述音频数据，得到所述第一歌曲的重构数据；乐谱数据获取模块360，用于获取所述第一歌曲的乐谱数据；训练样本构建模块370，用于基于所述第一歌曲的乐谱数据以及所述第一歌曲的重构数据，构建模型训练样本；演唱模块训练模块380，用于通过所述模型训练样本训练模拟演唱模型；其中，所述模拟演唱模型用于按照第二歌曲的乐谱数据，模拟目标对象演唱所述第二歌曲时生成的音频数据。

综上所述，本申请实施例提供的技术方案，通过从歌曲的音频数据中提取歌曲中歌词元素的音高信息，并将歌词元素的音高信息转换为歌词元素的音符音高信息，以更加准确地表示字词的演唱特点；之后，先对歌词元素的音符音高信息进行截取处理，以得到歌词元素的稳定发声部分的音符音高信息，再基于歌词元素的稳定发声部分的音符音高信息，确定歌词元素的音符音高值。本申请实施例通过歌词元素的音符音高信息的截取处理，实现了有效去除歌词元素的音符音高信息中，由于演唱对象气息不稳定、不同歌词元素切换不畅等导致的偏差较大的音符音高信息，使得歌词元素的音符音高信息更加贴近演唱对象实际想要演唱到的音符音高值，从而提高歌词元素的音符音高值的计算准确性。

需要说明的是，本申请实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图5，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述音符音高值的确定方法。具体来讲：

该计算机设备500包括处理单元(如cpu(centralprocessingunit，中央处理器)、gpu(graphicsprocessingunit，图像处理器)和fpga(fieldprogrammablegatearray，现场可编程门阵列)等)501、包括ram(random-accessmemory，随机存取存储器)502和rom(read-onlymemory，只读存储器)503的系统存储器504，以及连接系统存储器504和处理单元501的系统总线505。该计算机设备500还包括帮助计算机设备内的各个器件之间传输信息的i/o系统(inputoutputsystem，基本输入/输出系统)506，和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。

该i/o系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中，该显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到处理单元501。该i/o系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到处理单元501。该大容量存储设备507及其相关联的计算机可读介质为计算机设备500提供非易失性存储。也就是说，该大容量存储设备507可以包括诸如硬盘或者cd-rom(compactdiscread-onlymemory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasableprogrammableread-onlymemory，可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，cd-rom、dvd(digitalvideodisc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。

根据本申请实施例，该计算机设备500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备500可以通过连接在该系统总线505上的网络接口单元511连接到网络512，或者说，也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述音符音高值的确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音符音高值的确定方法。

在示例性实施例中，还提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行上述音符音高值的确定方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：伴奏音生成装置、电子乐器、伴奏音生成方法及伴奏音生成程序与流程

音符音高值的确定方法、装置、设备及存储介质与流程

相关文章

最热文献