首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

音频合成模型生成方法及装置、音频合成方法及装置与流程

2021-07-30 17:59:00 来源：中国专利 TAG：音频合成装置方法数据处理

本公开涉及音频数据处理技术领域，尤其涉及一种音频合成模型生成方法及装置、音频合成方法及装置。

背景技术：

近年来，音频合成技术及其应用中的歌声合成越来越受到人们的喜爱，例如，在虚拟唱歌应用程序、智能导航应用程序中，音频合成技术均被广泛应用。

现有技术中，歌声的音频合成主要是通过预先录制大量的歌曲，对这些录制歌曲进行标注训练，然后输入预先训练好的合成模型中进行训练，得到多种声学参数，基于这些声学参数，来合成歌声的音频。

但是，上述歌声的音频合成的过程，不仅需要预先录制大量的歌曲，还需要请专业的歌手在特定的环境进行录制，导致在没有大量标注的专业歌手录制的情况下，歌声的音频合成的真实性差。

技术实现要素：

本公开提供一种音频合成模型生成方法及装置、音频合成方法及装置，以至少解决相关技术中歌声的音频合成的真实性差的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频合成模型生成方法，包括：音频合成模型生成装置获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息；样本音频为第一音频数据和第二音频数据合成得到；第一音频数据包括语音音频和语音文本，第二音频数据包括唱歌音频和歌词文本；第一音频数据和第二音频数据基于第一音频数据的特征和第二音频数据的特征进行特征合并，得到目标特征，目标特征用于表征第一音频数据和第二音频数据所合成的目标音频的特征；基于目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息；根据样本音频的类型信息和目标音频的类型信息，确定第一信息，并根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息；第一信息用于表征样本音频的类型信息与目标音频的类型信息之间的反向差异，第二信息用于表征样本音频的频谱信息和目标音频的频谱信息之间的差异；根据第一信息和第二信息，生成音频合成模型。

可选的，音频合成模型生成装置获取第一音频数据的特征，包括：对第一音频数据进行音素识别，得到第一音频数据的音素特征；对第一音频数据进行基频识别，得到第一音频数据的基频特征；将第一音频数据的音素特征和第一音频数据的基频特征进行拼接，得到第一音频数据的特征。

可选的，本公开实施例中，音频合成模型生成装置获取第二音频数据的特征，包括：对第二音频数据进行音素识别，得到第二音频数据的音素特征；对第二音频数据进行基频识别，得到第二音频数据的基频特征；将第二音频数据的音素特征和第二音频数据的基频特征进行拼接，得到第二音频数据的特征。

可选的，本公开实施例中，音频合成模型生成装置在第一信息最小且第二信息最小的情况下，更新音频合成模型中的特征提取网络的参数。

可选的，本公开实施例中，音频合成模型生成装置根据样本音频的类型信息和目标音频的类型信息，确定第一信息，包括：根据样本音频的类型信息和目标音频的类型信息，计算样本音频的类型信息和目标音频的类型信息之间差异值；根据差异值以及反向传播算法得到第一信息。

可选的，本公开实施例中，根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息，包括：根据样本音频的频谱信息和目标音频的频谱信息，计算样本音频的频谱信息和目标音频的频谱信息之间的差异值，差异值为第二信息。

根据本公开实施例的第二方面，提供一种音频合成方法，包括：音频合成装置获取目标第一音频数据的特征和目标第二音频数据；将目标第一音频数据的特征和目标第二音频数据的特征输入音频合成模型，得到合成音频，其中，音频合成模型为采用如上述第一方面中的音频合成模型生成方法得到的模型。

根据本公开实施例的第三方面，提供一种音频合成模型生成装置，包括获取模块、特征提取模块、第一处理模块、第二处理模块和生成模块。获取模块，被配置为执行获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息；样本音频为第一音频数据和第二音频数据合成得到；第一音频数据包括语音音频和语音文本，第二音频数据包括唱歌音频和歌词文本；特征提取模块被配置为执行基于第一音频数据的特征和第二音频数据的特征进行特征合并，得到目标特征，目标特征用于表征第一音频数据和第二音频数据所合成的目标音频的特征；第一处理模块被配置为执行基于目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息；第二处理模块被配置为执行根据样本音频的类型信息和目标音频的类型信息，确定第一信息，并根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息；第一信息用于表征样本音频的类型信息与目标音频的类型信息之间的反向差异，第二信息用于表征样本音频的频谱信息和目标音频的频谱信息之间的差异样本音频第一信息第二信息；生成模块，被配置为执行根据第一信息和第二信息，生成音频合成模型。

可选的，本公开实施例中，获取模块被配置为执行获取第一音频数据的特征，具体包括：对第一音频数据进行音素识别，得到第一音频数据的音素特征；对第一音频数据进行基频识别，得到第一音频数据的基频特征；将第一音频数据的音素特征和第一音频数据的基频特征进行拼接，得到第一音频数据的特征。

可选的，本公开实施例中，获取模块被配置为执行获取第二音频数据的特征，具体包括：对第二音频数据进行音素识别，得到第二音频数据的音素特征；对第二音频数据进行基频识别，得到第二音频数据的基频特征；将第二音频数据的音素特征和第二音频数据的基频特征进行拼接，得到第二音频数据的特征。

可选的，本公开实施例中，音频合成模型生成装置还包括更新模块，更新模块被配置为执行在第一信息最小且第二信息最小的情况下，更新音频合成模型中的特征提取网络的参数。

可选的，本公开实施例中，第二处理模块被配置为执行根据样本音频的类型信息和目标音频的类型信息，确定第一信息，具体包括：根据样本音频的类型信息和目标音频的类型信息，计算样本音频的类型信息与目标音频的类型信息之间差异值；根据差异值以及反向传播算法得到第一信息。

可选的，本公开实施例中，第二处理模块被配置为执行根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息，具体包括：根据样本音频的频谱信息和目标音频的频谱信息，计算样本音频的频谱信息和目标音频的频谱信息之间的差异值，差异值为第二信息。

根据本公开实施例的第四方面，提供一种该音频合成装置，包括获取单元和处理单元。获取单元，被配置为获取目标第一音频数据的特征和目标第二音频数据的特征；处理单元，被配置为将目标第一音频数据的特征和目标第二音频数据的特征输入音频合成模型，得到合成音频，其中，所述音频合成模型为采用上述第三方面的音频合成模型生成装置得到的模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行指令，以实现如上述第一方面或第一方面的任一种可能实现方式的音频合成模型生成方法，和/或如上述第二方面或第二方面的任一种可能实现方式的音频合成方法。

根据本公开实施例的第六方面，提供一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面或第一方面的任一种可能实现方式的音频合成模型生成方法，和/或如上述第二方面或第二方面的任一种可能实现方式的音频合成方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，当该计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面或第一方面的任一种可能实现方式的音频合成模型生成方法，和/或如上述第二方面或第二方面的任一种可能实现方式的音频合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过该方案，获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息；样本音频为第一音频数据和第二音频数据合成得到；第一音频数据包括语音音频和语音文本，第二音频数据包括唱歌音频和歌词文本，提取第一音频数据和第二音频数据的公共特征，得到目标特征，并基于该目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息，可以与样本音频的类型信息和频谱信息进行比较，确定第一信息和第二信息，根据该第一信息和第二信息生成音频合成模型，从而确保得到的音频合成模型生成的目标音频相对于样本音频的真实度，提高音频合成模型生成合成音频的真实性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开实施例提供的电子设备的硬件示意图。

图2是根据一示例性实施例示出的一种音频合成模型生成方法的流程图一。

图3是根据一示例性实施例示出的一种音频合成模型生成方法的流程图二。

图4是根据一示例性实施例示出的一种音频合成模型生成方法的流程图三。

图5是根据一示例性实施例示出的一种音频合成模型生成方法的流程图四。

图6是根据一示例性实施例示出的一种音频合成模型生成装置的框图一。

图7是根据一示例性实施例示出的一种音频合成模型生成装置的框图二。

图8是根据一示例性实施例示出的一种音频合成装置的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面首先对本公开实施例中涉及的术语/名词进行解释说明。

语音语料(speechcorpus)：由语音和该语音对应的文本组成。通常，产生一条语音语料的方法包括两种，一种是对已知的文本进行朗读得到语音；另一种是对已知的语音进行识别得到文本。应理解，从文本获得语音的过程是文本转语音(text-to-speech，tts)，从语音获得文本的过程是语音识别(asr)。上述文本转换为语音或者语音转换为文本可以基于机器实现，也可以由人工实现，或者机器和人工配合实现。

唱歌语料(singcorpus)：由歌声和该歌声对应的文本组成。通常，产生一条歌声语料的方法包括两种，一种是对已知的文本进行歌唱得到歌声；另一种是对已知的歌声进行识别得到文本。

本公开实施例中，通过提取第一音频数据和第二音频数据的公共特征进行特征合并，得到目标特征，并基于该目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息，可以与样本音频的类型信息和频谱信息进行比较，确定第一信息和第二信息，根据该第一信息和第二信息生成音频合成模型，从而确保得到的音频合成模型生成的目标音频相对于样本音频的真实度，提高音频合成模型生成合成音频的真实性。

需要说明的是，本公开实施例提供的音频合成方法可以应用于以下场景中，分别为：唱歌、聊天室、直播间以及地图导航等。当然，实际实现时，本公开实施例提供的音频合成方法还可以应用于其它任意可能的场景中，具体可以根据实际使用需求确定，本公开实施例不作限定。

本公开实施例提供的音频合成模型生成方法的执行主体可以为本公开实施例提供的音频合成模型生成装置，也可以为包括该音频合成模型生成装置的电子设备，具体的可以根据实际使用需求确定，本公开实施例不作限定。

图1是本公开实施例提供的电子设备的硬件示意图。电子设备100包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备以及计步器等。如图1所示，电子设备包括处理器101、存储器102、网络接口103和总线104。其中，处理器101、存储器102以及网络接口103之间可以通过总线104连接，或采用其他方式相互连接。

处理器101是电子设备的控制中心，处理器101可以是通用中央处理单元(centralprocessingunit，cpu)，也可以是其他通用处理器等，其中，通用处理器可以是微处理器或者是任何常规的处理器等。示例性的，处理器101可以包括一个或多个cpu。该cpu为单核cpu(single-cpu)或多核cpu(multi-cpu)。

存储器102包括但不限于是随机存取存储器(randomaccessmemory，ram)、只读存储器(readonlymemory，rom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory，eprom)、快闪存储器、或光存储器、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。

一种可能的实现方式中，存储器102可以独立于处理器101存在。存储器102可以通过总线104与处理器101相连接，用于存储数据、指令或者程序代码。处理器101调用并执行存储器102中存储的指令或程序代码时，能够实现本申请实施例提供的语音语料的处理方法。

另一种可能的实现方式中，存储器102也可以和处理器101集成在一起。

网络接口103是有线接口(端口)，例如光纤分布式数据接口(fiberdistributeddatainterface，fddi)、千兆以太网(gigabitethernet，ge)接口。或者，网络接口103是无线接口。应理解，网络接口103包括多个物理端口，网络接口103可以用于接收或发送语音。

可选地，电子设备还包括输入输出接口105，输入输出接口105用于与输入设备连接，接收用户通过输入设备输入的信息。输入设备包括但不限于键盘、触摸屏、麦克风等等。输入输出接口105还用于与输出设备连接，输出处理器101的处理结果(例如一条语音语料可用或者不可用)。输出设备包括但不限于显示器、打印机等等。

总线104，可以是工业标准体系结构(industrystandardarchitecture，isa)总线、外部设备互连(peripheralcomponentinterconnect，pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture，eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图1中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图1中示出的结构并不构成对该电子设备的限定，除图1所示部件之外，该电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面以音频合成模型生成装置为例，结合各个附图，对本公开实施例提供的音频合成模型生成方法进行示例性的说明。

图2是根据一示例性实施例示出的一种音频合成模型生成方法的流程图，如图2所示，音频合成模型生成方法用于音频合成模型生成装置中，该方法包括以下步骤s21-步骤s25。

在步骤s21中，音频合成模型生成装置获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息。

具体的，样本音频为第一音频数据和第二音频数据合成得到；第一音频数据包括语音音频和语音文本，第二音频数据包括唱歌音频和歌词文本。

本公开实施例中，第一音频数据可以称为语音语料，包括语音音频和语音文本，可以是录制的语音音频和语音文本，例如，对于“今天天气真好！”的语音语料，“今天天气真好！”是语音文本，语音音频是这段文字对应的音频文件。第二音频数据可以称为唱歌语料，包括唱歌音频和歌词文本，可以是录制的唱歌音频和歌词文本，例如，对于“今天天气真好！”的唱歌语料，“今天天气真好！”是歌词文本，唱歌音频是唱出这段文字的歌声所对应的音频文件。需要说明的是，一条语音语料或者唱歌语料的文本可以只包含文字，例如，“我愿意为你”、“还在等你呀”、“新年好呀”等，还可以包括符号、数字中一种或多种等,例如，“你拍一，我拍一”、“一千零一夜”、“啦啦啦……”等。另外，对于第一音频数据和第二音频数据可以来自同一用户，也可以来自不同的用户，具体可以根据实际情况确定。

在步骤s22中，音频合成模型生成装置基于第一音频数据的特征和第二音频数据的特征进行特征合并，得到目标特征。

具体的，目标特征用于表征第一音频数据和第二音频数据所合成的目标音频的特征。

本公开实施例中，音频合成模型生成装置可以提取第一音频数据和第二音频数据的公共特征进行特征合并，得到目标特征，该目标特征用于表征第一音频数据和第二音频数据所合成的目标音频的特征，可以是声音特征和/或音频信号特征。声音特征可以包括基频、音节、音素和音位等，音频信号特征可以包括时域特性和/或频域特征，时域特性可以包括短时能量、短时幅度和短时过零率等，频域特性包括音频信号分类、频谱、功率谱密度、频谱密度和能量谱密度等。

示例性的，结合上述图2，如图3、图4所示，上述步骤s21中的获取第一音频数据的特征，具体可以通过下述的步骤s201-步骤s203实现，而步骤s21的获取第二音频数据的特征具体可以通过下述的步骤s204-步骤s206实现。

在步骤s201中，音频合成模型生成装置对第一音频数据进行音素识别，得到第一音频数据的音素特征。

在步骤s202中，音频合成模型生成装置对第一音频数据进行基频识别，得到第一音频数据的基频特征。

在步骤s203中，音频合成模型生成装置将第一音频数据的音素特征和第一音频数据的基频特征进行拼接，得到第一音频数据的特征。

在步骤s204中，音频合成模型生成装置对第二音频数据进行音素识别，得到第二音频数据的音素特征。

在步骤s205中，音频合成模型生成装置对第二音频数据进行基频识别，得到第二音频数据的基频特征。

在步骤s206中，音频合成模型生成装置将第二音频数据的音素特征和第二音频数据的基频特征进行拼接，得到第二音频数据的特征。

本公开实施例中，可以对上述第一音频数据和第二音频数据分别进行预处理，分别获取语音语料的语音音频以及对应的语音文本，以及唱歌语料的唱歌音频以及对应歌词歌词文本，对语音文本和歌词文本经过文本分析提取出音素序列，然后对音素序列进行转换，转换成音素的特征向量。对语音和歌声进行分帧和加窗处理，进行基频识别，得到基谱信息，对基谱信息进行转换，转换成基频的特征向量。其中，对于音素识别和基频识别的具体处理方式，在此不作限定。

示例性，提取“今天天气真好”的音素序列p＝(jintiantianqizhenhao)，获取基频信息m＝迷笛值(midinumber)69，可以对第一音频数据和第二音频数据中识别的特征采用独热编码(onehot)、目标编码(targetencoding)、留一法(leave-one-out)编码等方式对上述识别特征进行特征拼接，作为特征提取网络的输入。

本公开实施例中，通过对第一音频数据和第二音频数据进行预处理，便于特征提取网络提取目标特征。

需要说明的是，本公开实施例可以不限定步骤s201和步骤s202之间、以及步骤s203和步骤s204之间的执行顺序，可以不限定步骤s201分别与步骤s203、步骤s204之间的执行顺序，可以不限定步骤s203分别与步骤s201、步骤s202之间的执行顺序。示例性的，可以先执行步骤s201，后执行步骤s202；也可以先执行步骤s202，后执行步骤s201；还可以同时执行步骤s201和步骤s202，具体可以根据实际使用需求确定。

本公开实施例中，通过对第一音频数据和第二音频数据分别进行音素识别和基频识别，分别得到第一音频数据和第二音频数据的公共特征，即音素特征和基频特征，由于目标特征为根据第一音频数据和第二音频数据的公共特征拼接得到的，且该目标特征可以表征第一音频数据和第二音频数据所合成的目标音频的公共特征，从而便于更好地比较目标音频和样本音频之间地类型信息和频谱信息。

在步骤s23中，音频合成模型生成装置基于目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息。

在本公开实施例中，可以将目标特征输入类型判别网络对目标音频进行类型识别，同时将目标特征输入频谱判别网络对目标音频进行频谱识别，分别得到目标音频的类型信息和频谱信息，该类型信息可以用于领域标注进行标记，标记目标音频来源语音语料或唱歌语料，其中，语音语料作为源领域，唱歌语料可以作为目标领域；该频谱信息可以为梅尔频谱，用于反编译得到该目标音频。

在步骤s24中，音频合成模型生成装置根据样本音频的类型信息和目标音频的类型信息，确定第一信息，并根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息。

具体的，第一信息用于表征样本音频的类型信息与目标音频的类型信息之间的反向差异，第二信息用于表征样本音频的频谱信息和目标音频的频谱信息之间的差异。

在本公开实施例中，结合上述图2，如图5所示，上述步骤s24中的“根据样本音频的类型信息和目标音频的类型信息，确定第一信息”，具体可以通过下述的步骤s211-步骤s212实现。

在步骤s211中，音频合成模型生成装置根据样本音频的类型信息和目标音频的类型信息，计算样本音频的类型信息和目标音频的类型信息之间差异值。

在步骤s212中，音频合成模型生成装置根据差异值以及反向传播算法得到第一信息。

示例性的，用e表示特征提取网络，e(xi)表示特征提取网络提取的目标音频xi的特征，d表示类型判别网络，其输出为d(e(xi)),h(d(e(xi)))表示目标音频xi来自源领域的概率，则1-h(d(e(xi)))代表图像来自目标领域的概率，获取目标音频的领域标注相对于样本音频的领域标注的差异值，可以通过公式(1)计算得到差异值：

其中，ld表示差异值函数，xs表示源领域的样本集合，xt表示目标领域的样本集合。

在本公开实施例中，通过上述公式(1)计算得到差异值，可以对该差异值根据反向传播算法进行取反处理，例如，可以通过梯度反转层用一个系数“-λ”进行取反处理，得到第一信息，确定第一信息。这样可以使得特征提取网络和类型判别网络进行对抗学习，使类型判别网络尽可能地区分语音语料的音频和唱歌语料的音频，使特征提取网络提取域不变特征，从而混淆类型判别网络，使类型判别网络误判，即类型判别网络不能区分目标音频来自于语音语料还是唱歌语料。

当然，实际实现时，上述系数还可以包括其它任意可能的系数，具体可以根据实际使用需求确定，本公开实施例不作限定。

在本公开实施例中，通过计算样本音频和目标音频类型信息之间差异值，并通过反向传播算法进行对抗学习，得到第一信息，该第一信息可以使得对目标音频的类型判别进行混淆，进而使得目标音频与样本音频的类型更接近。

在本公开实施例中，结合上述图2，上述步骤s24中的“根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息”，具体可以根据样本音频的频谱信息和目标音频的频谱信息，计算样本音频的频谱信息和目标音频的频谱信息之间的差异值，差异值为第二信息。

示例性的，用e表示特征提取网络，e(xi)表示特征提取网络提取的目标音频xi的特征，y表示频谱判别网络，预设有k个梅尔频谱的类别，则频谱判别网络输出转换为目标音频为各个梅尔频谱类别的概率为：pk(xi)，则计算出目标音频为各个类别的概率后，可以通过公式(2)得到目标音频xi的预测概率最大的梅尔频谱如下：

其中，目标音频xi的梅尔频谱预测标签。对于有梅尔频谱标注的样本音频，获取目标音频的梅尔频谱相对于样本音频的梅尔频谱之间的差异，可以通过公式(3)和公式(4)计算：

h(p(xi),yi)＝-yilog(p(xi))-(1-yi)log(1-p(xi))公式(4)

其中，ly表示第二信息函数，(xs，ys)表示源领域的语音语料和梅尔频谱的分布，h表示交叉熵函数，p(xi)表示目标音频为各个梅尔频谱的概率，xi表示源领域的语音语料，yi表示梅尔频谱的类别标签，h表示交叉熵函数。

在本公开实施例中，通过上述公式(2)计算得到差异值，得到第二信息。这样可以使得特征提取网络和频谱判别网络进行差异学习，使频谱判别网络尽可能地区分语音语料的音频和唱歌语料的音频，使特征提取网络提取两者之间的频谱差异，从而使得目标音频的频谱信息与样本音频的频谱信息能够区分开来。

在本公开实施例中，通过计算样本音频和目标音频频谱信息之间差异值，并通过反向传播算法进行对抗学习，得到第二信息，该第二信息可以使得对目标音频的频谱信息的判别更准确。

在步骤s25中，音频合成模型生成装置根据第一信息和第二信息，生成音频合成模型。

本公开实施例中，音频合成模型生成装置将上述目标音频输入类型判别网络和频谱判别网络之后，可以得到第一信息和第二信息。如果该第一信息小于或等于第一预设阈值，且该第二信息小于或等于第二预设阈值，那么音频合成模型生成装置可以确定当前的特征提取网络符合条件。如果该第一信息大于预设阈值，或该第二信息大于预设阈值，那么音频合成模型生成装置可以更新特征提取网络的参数，并重新将第一音频数据和第二音频数据输入更新参数后的特征提取网络，直至特征提取网络生成的目标音频相对于样本音频的第一信息小于或等于第一预设阈值，且第二信息小于或等于第二预设阈值。

在本公开实施例中，音频合成模型生成装置在第一信息最小且第二信息最小的情况下，更新音频合成模型中的特征提取网络的参数。

示例的，对特征提取网络e的优化目标是最小化第一信息函数，类型判别网络d的优化目标是最大化差异值函数，如公式(5)所示：

其中，θe特征提取网络的参数，θd表示类型判别网络的参数，表示优化特征提取网络的参数θe和类型判别网络的参数θd，其中，优化特征提取网络使得第一信息最小，优化类型判别网络使得第一信息最大。

频谱判别网络y的优化目标是最小化第二信息函数，如公式(6)所示：

其中，θe特征提取网络的参数，θy表示频谱判别网络的参数，表示优化特征提取网络的参数θe和频谱判别网络的参数θy，使得第二信息最小。

由上述可知，可以通过上述公式(5)和公式(6)获取第一信息的最小值以及第二信息的最小值，更新特征提取网络的参数，从而可以优化音频合成模型，使得音频合成模型得到的合成音频更加真实。

可选的，本公开实施例中，音频合成模型生成装置可以包括特征提取网络、类型判别网络和频谱判别网络，特征提取网络、类型判别网络和频谱判别网络可以是卷积神经网络(convolutionalneuralnetworks,cnn)或者深度神经网络(deepneuralnetworks,dnn)。

可选的，在特征提取网络的训练过程，音频合成模型生成装置可以先更新生成特征提取网络的参数，再更新类型判别网络和频谱判别网络的参数；也可以先更新类型判别网络和频谱判别网络的参数，再更新特征提取网络的参数。具体可以根据实际使用需求确定，本公开实施例不作限定。

本公开实施例中，需要保证目标音频与样本音频相近，因此在训练过程中，可以固定类型判别网络和频谱判别网络的参数，只优化特征提取网络的参数，以使得上述第一信息最小和第二信息最小。

本公开实施例中，由于类型判别网络的目标在于使得领域标注损失极小化，因此，在训练过程中，可以固定特征提取网络的参数，只优化类型判别网络的参数，使得领域标注损失最小化。而频谱判别网络的目标在于使得频谱信息损失极小化，因此，在训练过程中，可以固定特征提取网络的参数，只优化频谱判别网络的参数，使得频谱信息损失最小化。

也就是说，在训练过程中，音频合成模型生成装置可以分别更新特征提取网络、类型判别网络以及频谱判别网络的参数，从而可以得到能够生成比较真实的音频合成模型。

本公开实施例中，由于音频合成模型是通过对特征提取网络、类型判别网络以及频谱判别网络的交替优化得到的，因此通过本公开实施例训练得到的音频合成模型生成的合成音频清晰，且真实。

需要说明的是，本公开实施例中，上述各个附图所示的音频合成模型生成方法均是以结合本公开实施例中的一个附图为例示例性的说明的。具体实现时，上述各个附图所示音频合成模型生成方法还可以结合上述实施例中示意的其它可以结合的任意附图实现，此处不再赘述。

图6是根据一示例性实施例示出的一种音频合成模型生成装置的框图。参照图6，该音频合成模型生成装置60包括获取模块61、特征提取模块62、第一处理模块63、第二处理模块64和生成模块65。获取模块61，被配置为执行获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息；样本音频为第一音频数据和第二音频数据合成得到；第一音频数据包括语音音频和语音文本，第二音频数据包括唱歌音频和歌词文本；特征提取模块62被配置为执行基于第一音频数据的特征和第二音频数据的特征进行特征合并，得到目标特征，目标特征用于表征第一音频数据和第二音频数据所合成的目标音频的特征，第一处理模块63被配置为执行基于目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息；第二处理模块64被配置为执行根据样本音频的类型信息和目标音频的类型信息，确定第一信息，并根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息；第一信息用于表征样本音频的类型信息与目标音频的类型信息之间的反向差异，第二信息用于表征样本音频的频谱信息和目标音频的频谱信息之间的差异样本音频第一信息第二信息；生成模块65，用于被配置为执行根据第一信息和第二信息，生成音频合成模型。

可选的，本公开实施例中，获取模块61被配置为执行获取第一音频数据的特征，具体包括：对第一音频数据进行音素识别，得到第一音频数据的音素特征；对第一音频数据进行基频识别，得到第一音频数据的基频特征；将第一音频数据的音素特征和第一音频数据的基频特征进行拼接，得到第一音频数据的特征。

可选的，本公开实施例中，获取模块61被配置为执行获取第二音频数据的特征，具体包括：对第二音频数据进行音素识别，得到第二音频数据的音素特征；对第二音频数据进行基频识别，得到第二音频数据的基频特征；将第二音频数据的音素特征和第二音频数据的基频特征进行拼接，得到第二音频数据的特征。

可选的，本公开实施例中，第二处理模块64被配置为执行根据样本音频的类型信息和目标音频的类型信息，确定第一信息，具体包括：根据样本音频的类型信息和目标音频的类型信息，计算样本音频的类型信息与目标音频的类型信息之间差异值；根据差异值以及反向传播算法得到第一信息。

可选的，本公开实施例中，第二处理模块64被配置为执行根据样本音频的频谱信息和目标音频的频谱信息，确定第二信息，具体包括：根据样本音频的频谱信息和目标音频的频谱信息，计算样本音频的频谱信息和目标音频的频谱信息之间的差异值，差异值为第二信息。

可选的，本公开实施例中，参照图7，还包括更新模块66，更新模块66被配置为执行在第一信息的最小值以及第二信息的最小值的情况下，更新音频合成模型中的特征提取网络的参数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例中，通过获取第一音频数据的特征、第二音频数据的特征、样本音频的类型信息和频谱信息；基于第一音频数据的特征和第二音频数据的特征进行特征合并，得到目标特征，并基于目标特征对目标音频的进行类型识别和频谱识别，分别得到目标音频的类型信息和频谱信息，进而可以确定第一信息和第二信息，根据该第一信息和第二信息生成音频合成模型，从而确保得到的音频合成模型生成的目标音频相对于样本音频的真实度，提高音频合成模型生成合成音频的真实性。

图7是根据一示例性实施例示出的一种音频合成装置的框图。参照图8，该音频合成装置80包括获取单元81和处理单元82。获取单元81，被配置为获取目标第一音频数据的特征和目标第二音频数据的特征；处理单元82，被配置为将目标第一音频数据的特征和目标第二音频数据的特征输入音频合成模型，得到合成音频，其中，所述音频合成模型为采用上述图6-图7所述的音频合成模型生成装置得到的模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例提供一种音频合成装置，由于上述音频合成模型是通过提取第一音频数据和第二音频数据的公共特征，因此，音频合成模型生成的合成音频的真实性较高，如此将第一音频数据和第二音频数据输入音频合成模型可以得到比较真实的合成音频。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在音频合成模型生成装置上运行时，使得音频合成装置执行上述方法实施例所示的方法流程中音频合成方法执行的各个步骤，或，当计算机指令在音频合成装置上运行时，使得音频合成装置执行上述方法实施例所示的方法流程中音频合成方法执行的各个步骤。

本申请另一实施例还提供一种芯片系统，该芯片系统应用于音频合成模型训练。芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从音频合成装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，音频合成模型生成装置执行上述方法实施例所示的方法流程中音频合成模型生成方法执行的各个步骤。或，该芯片系统应用于音频合成装置的情况下，音频合成装置执行上述方法实施例所示的方法流程中音频合成方法执行的各个步骤。

在本申请另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在音频合成模型生成装置上运行时，使得音频合成装置执行上述方法实施例所示的方法流程中音频合成方法执行的各个步骤，或，当计算机指令在音频合成装置上运行时，使得音频合成装置执行上述方法实施例所示的方法流程中音频合成方法执行的各个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline，dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solidstatedisk，ssd))等。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于MFCC-CNN的矿井提升机故障声学分析方法与流程

音频合成模型生成方法及装置、音频合成方法及装置与流程

相关文章

最热文献