一种语音合成方法、装置、计算机设备和存储介质与流程

2021-08-31 17:44:00 来源：中国专利 TAG：

本发明实施例涉及语音处理的
技术领域：
：，尤其涉及一种语音合成方法、装置、计算机设备和存储介质。
背景技术：
：：tts(texttospeech，文字转语音)旨在将文字转换为语音，是人机对话的一部分，让机器能够说话，近年来，随着声学模型和声码器技术的飞速发展，tts在语音助手，有声读物和口语对话系统等许多领域都发挥着重要作用。tts可以为拥有大量高质量语音的说话者生成自然语音，几乎可以以假乱真，目前，tts受限于训练集，对已训练的说话者的音色进行克隆，但是，说话者的音色较难获取，尤其是在跨语种的tts的场景中，难以采集说话者的音色，并且，众多说话者的音色均有所不同，采集众多说话者的音色将会大大增加训练集的数据量，导致训练的难度大大增加。技术实现要素：本发明实施例提出了一种语音合成方法、装置、计算机设备和存储介质，以解决在未见音色的情况下如何克隆音色进行语言合成的问题。第一方面，本发明实施例提供了一种语音合成方法，包括：接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息；识别所述参考语音信号中表征音色的特征，作为目标音色；确定为所述目标语言训练的语音合成器，所述语音合成器包括声学模型、声码器；在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征；在所述声码器中，将所述目标频谱特征转换为属于所述目标语言的目标语音信号。第二方面，本发明实施例还提供了一种语音合成装置，包括：合成信息接收模块，用于接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息；目标音色提取模块，用于识别所述参考语音信号中表征音色的特征，作为目标音色；语音合成器确定模块，用于确定为所述目标语言训练的语音合成器，所述语音合成器包括声学模型、声码器；目标频谱特征生成模块，用于在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征；目标语音信号生成模块，用于在所述声码器中，将所述目标频谱特征转换为属于所述目标语言的目标语音信号。第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的语音合成方法。第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音合成方法。在本实施例中，接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息，识别参考语音信号中表征音色的特征，作为目标音色，确定为目标语言训练的语音合成器，语音合成器包括声学模型、声码器，在声学模型中，将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征，作为目标频谱特征，在声码器中，将目标频谱特征转换为属于目标语言的目标语音信号，作为非目标语言的参考语音信号的音色并未用于针对目标语言训练语音合成器，在实现跨语种的语音合成的场景中，可实现未见说话者的音色克隆，使得语音合成器并不受限于训练集，可以保证训练集的数据量合适，降低训练的难度。附图说明图1为本发明实施例一提供的一种语音合成方法的流程图；图2为本发明实施例一提供的一种；图3是本发明实施例二提供的一种语音合成方法的流程图；图4为本发明实施例三提供的一种语音合成装置的结构示意图；图5为本发明实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。实施例一图1为本发明实施例一提供的一种语音合成方法的流程图，本实施例可适用于在未见音色的情况下训练语音合成器中的声学模型的情况，该方法可以由语音合成装置来执行，该语音合成装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑，等等，具体包括如下步骤：步骤101、获取样本语音信号、表达样本语音信号内容的样本文本信息、由样本语音信号转换的样本频谱特征。传统跨语言合成的tts模型通常使用说话者数量较少(如几个或十几个说话者)，本实施例的语音合成器的架构鲁棒性更强，可支持使用大型多说话者语料(如上百上千说话者)进行训练，从而在合成时保证跨语言的语音信号口音准确、发音可懂度高、表现力强。为便于采集足够数量的数据集，可以在一些大型的开源数据库和/或开源项目等通用的渠道中采集说话者在指定风格下说话时记录的音频信号、表达音频信号内容的文本信息，即，说话者说出“文本信息”时记录音频信号，为便于区分，该音频信号记为样本音频信号，该文本信息记为样本文本信息。此外，可通过傅立叶变换(fouriertransform，ft)、快速傅立叶变换(fastfouriertransform，fft)等方式将样本音频信号转换为频谱特征，如melspectrogram(梅尔频谱图)，记为样本频谱特征。当然，为提高tts在业务场景的性能，也可以通过业务场景(如短视频、游戏、新闻、小说等)的渠道采集说话者在说话时记录的音频信号、作为样本音频信号，并将该样本音频信号内容通过人工标注、语音识别等方式转换为文本信息、作为样本文本信息，傅立叶变换、快速傅立叶变换等方式将样本音频信号转换为频谱特征、作为样本频谱信号，本实施例对此不加以限制。目前的tts模型，通常是共同使用不同语言的语料进行训练，包括待合成的目标语言的语料，也包括非目标语言的语料，容易引入非目标语言的口音，例如，中国人在说中文时，如果夹杂英文，英文会带有中文的口音，这样子会使得合成目标语言的语音信号时，尤其是跨语种合成语音信号，容易出现错误的口音的情况。在本实施例中，设定作为tts的目标的语言，记为目标语言，样本语言信号、样本文本信息均全部属于目标语言，即，本实施例仅使用属于目标语言的语料训练语音合成器，并不使用非目标语言的语料训练语音合成器，可以保证准确的目标语言(口音，发音可懂度)被单纯的目标语言的语料训练出来。进一步而言，对于样本文本信息，可以使用目标语言的因素、韵律结构等惯用表示，例如，如果目标语言为英文语言，则使用英文因素表示样本文本信息。步骤102、识别样本语音信号中表征音色的特征，作为样本音色。在本实施例中，可以实时从样本语音信号中表征音色的特征，记为样本音色。一般情况下，每个说话者的音色均有所差异，一个说话者可以表征一种音色，对说话者可以配置唯一的标识信息(如speakerid)，即该标识信息(如speakerid)可以用于表征音色。在一种提取方式中，可以复用asv(automaticspeakerverification，说话者识别任务)识别音色，从样本语音信号提取声学的特征，作为样本声学特征，例如，频谱参数、基频参数，等等，从样本声学特征中提取用于对说话者进行分类的特征，作为样本音色。所谓用于对说话者进行分类，可以指通过softmax(逻辑回归)等函数映射至说话者的标识(如speakerid)，从而确定说话者的身份。若使用one-hotembedding表示音色，可能无法应对未见说话者的情况，在本方式中，使用说话者识别任务提取样本语音信号的音色，使得语音合成器可应对未见说话者的情况，为跨语言合成语音信号提供实现的基础。步骤103、以样本文本信息、样本音色作为样本，以样本频谱特征作为标签，训练声学模型。在本实施例中，可以应用未见音色克隆模型(ttsbasedonspeakerverification，sv-tts)训练语言合成器，在训练阶段使用的音色(以说话者表示)被称为“看见说话者”，在训练阶段中未出现的、但合成阶段出现的音色(以说话者表示)被称为“未见说话者”，未见音色克隆模型的音色迁移合成能力为合成阶段合成目标语言的未见说话者的音色提供了支持，使得该语言合成器用于将属于目标语言的目标文本信息合成符合目标音色的、属于目标语言的目标语音信号。所谓未见音色，可以指合成阶段的目标音色并未出现在训练阶段，即训练阶段的样本音色与合成阶段的目标音色并不相同，合成阶段的目标音色为除训练阶段的样本音色之外的其他音色。在语音合成器中包括两部分，分别为声学模型和声码器，其中，声学模型用于将文本信息转换为属于指定语言的、且符合指定音色的频谱特征。针对某个说话者，以其样本文本信息、样本音色作为训练的样本，以其样本频谱特征作为标签tag，通过监督学习训练声学模型。进一步而言，将样本文本信息、样本音色输入至声学模型中，声学模块对样本文本信息、样本音色进行处理，从而将样本文本信息转换为属于目标语言的、且符合样本音色的频谱特征(如梅尔频谱图)，记为预测频谱特征。在本发明的一个实施例中，考虑到未见说话人者进行跨语言合成语音信号时，合成时的输入与训练时的输入不同，未见说话者在音色和语言上均波动性更大，tacotron-2(语音合成端到端神经网络的一个模型)对于这种情况容易产生发音可懂度差的问题，若使用传统的声学模型，会在合成阶段出现更多的发音可懂度错误。为应对未见说话者的情况，如图2所示，本实施例中的声学模型可包括作为编码器encoder的cbhg模块、逐步单调注意力机制(stepwisemonotonicattention，sma)、作为解码器decoder的三个循环神经网络、post-net网络，相比于tacotron-2，加强了编码器encoder的编码能力，加强了解码器decoder的解码能力，增加了注意力机制的鲁棒性，并且，这几个结构之间取得平衡，从而增加了语音合成器中声学模型的鲁棒性，根据实验结果，可表明该声学模型对于badcase(异常场景)的产生有明显的抑制作用。则在本实施例中，步骤103包括如下步骤：步骤1031、在编码器中，调用cbhg模块将样本文本信息编码为样本文本特征。在本实施例中，使用cbhg模块作为编码器encoder，cbhg模块包括1-dconvolutionbank(一维卷积层滤器组)、highwaynetwork(高速公路网络)、bidirectionalgru(双向门控循环单元)等结构，它的功能是从输入中提取有价值的特征，可将样本文本信息编码为样本文本特征，有利于提高模型的泛化能力，cbhg模块的结构比tacotron-2模型的cnn(卷积神经网络，convolutionalneuralnetworks)、rnn(recurrentneuralnetwork，循环神经网络)的结构更加复杂，编码能力更强。进一步而言，如图2所示，编码器encoder用于提取文本信息的鲁棒序列表达，包括prenet网络(预处理网络)、cbhg模块，则在本实施例中，可通过look-uptable(查找表)等方式查询样本文本信息(character)中每个文字的向量、作为第一样本向量序列。prenet网络包括两个层网络，每层网络均包括fc(全连接层)、relu(激活函数)、dropout(在训练过程，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃)等结构，在prenet网络中，可对第一样本向量序列进行非线性转换，获得第二样本向量序列。在cbhg模块中，从第二样本向量序列中提取特征，作为样本文本特征(contentfeature)。其中，cbhg模块的处理过程如下：s1、输入二样本向量序列，经过k个一维卷积层，第k个卷积核(filter)通道为k，这些卷积核可以对当前以及上下文信息有效建模；s2、一维卷积层输出被堆叠(stack)一起，沿着时间轴最大池化(maxpooling)以增加当前信息不变性，stride取为1维持时间分辨率；s3、输入到几个固定宽度的一维卷积层，将输出增加到起始的输入序列(参考resnet连接方式)，所有的卷积都采用batchnormalization(bn算子，用于规范化)；s4、输入多层的highwaynetwork，用以提取更高级别的特征；s5、最后在顶部加入bidirectionalgru，用于提取序列的上下文特征，作为样本文本特征。步骤1032、拼接样本文本特征与样本音色，获得样本组合特征。如图2所示，将样本文本特征(contentfeature)与样本音色(speakerembedding)进行拼接，记为样本组合特征。步骤1033、执行逐步单调注意力机制，对样本组合特征添加转换为频谱特征时的注意力，生成样本注意力特征。如图2所示，逐步单调注意力机制sma作为注意力机制(attention)，对样本组合特征添加转换为频谱特征时的注意力，生成样本注意力特征(context)。在具体实现中，可执行逐步单调注意力机制，计算将当前帧样本组合特征转换为频谱特征时、对每一帧样本组合特征的注意力，将注意力进行线性融合(如配置权重之后，计算和值)，得到样本注意力特征，其中，在逐步单调注意力机制中，样本组合特征与样本注意力特征之间的顺序维持单调，并且，不允许跳过作为输入的样本组合特征，从而增强语音合成的鲁棒性。步骤1034、在解码器中，依次调用三个循环神经网络将样本注意力特征解码为多帧预测频谱特征。将样本注意力特征输入到解码器decoder，解码器decoder进行自回归的方式解码，得到多帧样本频谱特征，作为tts的中间输出。在本实施例的一个示例中，如图2所示，解码器decoder除了三个循环神经网络之外，还包括prenet网络(预处理网络)，而三个循环神经网络分别为第一长短期记忆网络lstm、第二长短期记忆网络lstm、门控循环单元gru，按照正向传播的顺序排序依次为prenet网络、门控循环单元gru、第一长短期记忆网络lstm、第二长短期记忆网络lstm。在本示例中，步骤1034可以包括如下步骤：步骤10341、在prenet网络中，对上一帧预测频谱特征进行非线性转换。如图2所示，将上一帧预测频谱特征输入到prenet网络中，prenet网络对上一帧预测频谱特征进行非线性转换，输出门控循环单元gru。对于首次循环，上一帧预测频谱特征为空(即全零帧)，记为<go>frame，对于非首次循环，上一帧预测频谱特征不为空，记为lastframe。步骤10342、在门控循环单元中，对预测频谱特征进行处理，获得预测注意力上下文。门控循环单元gru为了解决长期记忆和反向传播中的梯度等问题而提出来的，将上一帧预测频谱特征输入门控循环单元gru，门控循环单元gru用门控机制控制输入、记忆等信息而在当前时间步做出预测，输出与注意力相关的向量，记为预测注意力上下文。进一步而言，门控循环单元gru对上一帧频谱特征进行处理，获得用于注意力机制的查询向量，该查询向量代表频谱信息，并将会和注意力机制中代表文本特征的向量进行相关性运算，得到经过注意力加权和处理的特征(context)如图2所示，在首次迭代中，预测注意力上下文可以辅助sma计算样本组合特征。进一步而言，门控循环单元gru有两个有两个门，即一个重置门(resetgate)和一个更新门(updategate)，重置门决定了如何将新的输入信息与前面的记忆相结合，更新门定义了前面记忆保存到当前时间步的量，重置门和更新门决定了哪些信息最终能作为门控循环单元gru的输出。重置门和更新门控机制能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除，从而解决标准rnn的梯度消失问题。步骤10343、在第一长短期记忆网络中，对预测注意力上下文进行解码，获得候选频谱特征。步骤10344、在第二长短期记忆网络中，对样本注意力特征或候选频谱特征进行解码，获得当前帧预测频谱特征、下一帧预测频谱特征。如图2所示，将预测注意力上下文输入第一长短期记忆网络lstm，第一长短期记忆网络lstm对预测注意力上下文进行解码，输出候选频谱特征至第二长短期记忆网络lstm。在首次迭代，由于预测频谱特征为空，第二长短期记忆网络lstm对样本注意力特征进行解码，输出当前帧预测频谱特征、下一帧预测频谱特征；在非首次迭代，第二长短期记忆网络lstm对候选频谱特征进行解码，输出当前帧预测频谱特征、下一帧预测频谱特征。其中，第一长短期记忆网络lstm、第二长短期记忆网络lstm均属于短期记忆网络(longshort-termmemory，lstm)，lstm是为了解决一般的rnn存在的长期依赖问题而专门设计出来的。lstm具有三个门，输入门(forgetgate)、遗忘门(inputgate)、输出门(outputgate)，输入门决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct，输入门决定了当前时刻网络的输入xt有多少保存到单元状态ct，输出门控制单元状态ct有多少输出到lstm的当前输出值ht。步骤10345、判断是否完成解码操作；若是，则执行步骤10346，若否，则执行步骤10347。由于每次迭代生成两帧预测频谱特征，使得迭代的次数为样本频谱特征总帧数的一半，即可完成生成预测频谱特征，因此，可设预测频谱特征总帧数的一半为迭代阈值，判断当前迭代的次数是否到达该迭代阈值，如果当前迭代的次数到达该迭代阈值，则确定完成解码操作，如果当前迭代的次数小于该迭代阈值，则确定未完成解码操作。步骤10346、输出所有预测频谱特征。如果已完成解码操作，则可以输出每次迭代生成的预测频谱特征，从而组成完整的预测频谱特征。步骤10347、提取下一帧预测频谱特征，返回执行步骤10341。如果未完成解码操作，则可以提取下一帧预测频谱特征，作为下一次迭代的上一帧预测频谱特征，进入下一次迭代。步骤1035、在post-net网络中，在时序的维度下，对多帧预测频谱特征进行修正。如图2所示，post-net网络用来将作为中间输出的预测频谱特征转换成样本输出(即预测频谱特征)，在本实施例中，输出与声码器匹配的预测频谱特征，一般情况下，循环神经网络是按照时序处理预测频谱特征，第i帧预测频谱特征对第i 1帧预测频谱特征产生影响，经过post-net网络的修正，可以使得第i 1帧预测频谱特征对第i 2帧预测频谱特征产生影响，从而提高预测频谱特征的精确度。步骤1036、计算预测频谱特征与样本频谱特征之间的差异，作为损失值。将预测频谱特征与样本频谱特征输入预设的损失函数中，计算损失值loss。示例性地，损失值l包括两部分，计算方式如下：其中，t为频谱特征的帧数，y为样本频谱特征，y＇为预测频谱特征，r为y＇输入post-net网络的残差信息，(y＇ r)可理解为增加了残差信息的频谱特征。步骤1037、判断损失值是否收敛；若是，则执行步骤1038，若否，则执行步骤1039。步骤1038、确定声学模型完成训练。步骤1039、更新声学模型，返回执行步骤1031。在本实施例中，可预先对于损失值可以设置表示收敛的条件，例如，损失值小于第一频谱阈值，相邻损失值之间的差异记为变化幅度、连续多个变化幅度均小于第二频谱阈值，迭代损失值的次数超过第三频谱阈值，等等。在每次迭代中，可以判断当前的损失值是否满足该条件。如果满足该条件，则可认为损失值收敛，此时，确认声学模型训练完成，存储该频谱预测网络的结构及其参数。如果不满足该条件，则对频谱预测网络进行反向传播，通过以随机梯度下降算法为代表的手动设定学习率的优化方式，或者，以自适应矩估计为代表的自适应设定学习率更新频谱预测网络的参数，在反向传播时，截止频谱预测网络，并不更新时间预测网络，进入下一次迭代。步骤104、以预测频谱特征作为样本，以样本音频信号作为标签，训练声码器。在具体实现中，语音合成器中的声码器用于将频谱特征(如梅尔频谱图)转换为语音信号。训练语音合成器中的声码器主要有两个挑战，一是语音数据集的嘈杂数据集和有限数量的样本，在本实施例中，可选择合成质量高、速度快的hifi-gan(generativeadversarialnetworksforefficientandhighfidelityspeechsynthesis，高效、高保真语音合成的生成对抗网络)作为语音合成器中的声码器。hifi-gan包括一个生成器、两个鉴别器，每个鉴别器有子鉴别器来生成一段固定周期的音频信号，该鉴别器分别为尺度检测器、多周期检测器。其中，生成器是一个卷积神经网络，输入是频谱特征(如梅尔频谱图)，提升采样，直到输出帧数与指定的时长相同。语音信号由很多不同周期的正弦信号组成，hifi-gan对于音频周期模式进行建模可提高音频质量，并且，hifi-gan生成语音信号的速度快。当然，除了hifi-gan之外，还可以使用其他网络作为声码器，例如，wavenet，parallelwavenet，wavernn，lpcnet，multibandwavernn，等等，本实施例对此不加以限制。针对某个说话者，以预测的频谱特征(即预测频谱特征)作为训练的样本、说话时的真实的频谱特征(即样本频谱特征)作为标签tag，通过监督学习训练声码器。若完成hifi-gan网络，则可以将hifi-gan网络设置为语音合成器中的声码器，存储hifi-gan网络的结构及其参数。一般情况下，可以使用与训练声学模型相同的数据集训练声码器，可以保证声学模型与声码器应用于tts的性能，当然，为了提高训练效率，也可以使用其他数据集训练声码器，使得可以直接转用其他项目已完成训练的声码器，本实施例对此不加以限制。进一步而言，在训练声码器之前，为了获得更高的合成质量，可以对数据集进行如下至少一种预先处理：1、利用基于能量的vad(voiceactivitydetection，语音活动检测)等方式删除样本音频信号中表示静音的、较长的信号(即静音段)。2、在样本音频信号中添加一些噪声信号，从而进行数据增强，以此来稳定训练过程并改善tts的性能。3、通过μ-law(μ律)等方式对样本音频信号进行非线性变换，使tts在零附近具有更高的分辨率。实施例二图3为本发明实施例一提供的一种语音合成方法的流程图，本实施例可适用于应用使用语音合成器跨语种进行语音合成的情况，该方法可以由语音合成装置来执行，该语音合成装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、工作站、个人电脑、移动终端(如手机、平板电脑、智能穿戴设备等)，等等，具体包括如下步骤：步骤301、接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息。在本实施例中，计算机设备中的操作系统包括windows、android、ios等，在这些操作系统中可支持运行语音合成的客户端，例如，小说应用、新闻应用、直播应用、短视频引用、即时通讯工具、会议应用，等等。用户在客户端中通过录音、上传文件等方式提供待克隆音色的语音信号，记为参考语音信号，以及，在客户端中选定待合成语音的文本信息，记为目标文本信息，例如，小说中的内容、新闻中的内容、网页中的内容，等等。在跨语种进行语音合成的场景下，参考语音信号属于非目标语言，而目标文本信息属于目标语言，例如，参考语音信号属于英文，而目标文本信息属于中文。进一步而言，对于目标文本信息，可以使用目标语言的因素、韵律结构等惯用表示，例如，如果目标语言为英文语言，则使用英文因素表示目标文本信息。当然，在非跨语种进行语音合成的场景下，参考语音信号可以属于目标语言，例如，参考语音信号属于中文，而目标文本信息属于中文，本实施例对此不加以限制。步骤302、识别参考语音信号中表征音色的特征，作为目标音色。在具体实现中，可以从参考语音信号提取声学的特征，作为目标声学特征，从目标声学特征中提取用于对说话者进行分类的特征，作为目标音色。使用说话者识别任务提取目标语音信号的音色，使得语音合成器在合成语音信号时可应对未见说话者的情况，从而实现跨语言合成语音信号。在本实施例中，由于在合成语音信号时提取目标音色的方式与训练语音合成器时提取目标音色的方式的基本相似，所以描述的比较简单，相关之处参见训练语音合成器时提取目标音色的方式的部分说明即可，本实施例在此不加以详述。步骤303、确定为目标语言训练的语音合成器。在本实施例中，可以预先针对多种语言分别训练语音合成器，即每种语言对应训练一个语言合成器，记录语言(以id、名称等信息标识)与语音合成器(以id等信息标识)之间的映射关系。若用户确定了目标语言，则可以在该映射关系中，查询该目标语言映射的语音合成器，将该目标语言及其参数加载到内存中运行。进一步而言，语音合成器基于未见音色克隆模型训练，因此，一般情况下，待克隆的目标音色并未用于训练语音合成器。步骤304、在声学模型中，将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征，作为目标频谱特征。在本实施例中，语音合成器包括声学模型，将目标文本信息、目标音色输入声学模型中，声学模型将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征，记为目标频谱特征。在本发明的一个实施例中，为应对未见说话者的情况，本实施例中的声学模型可包括作为编码器的cbhg模块、逐步单调注意力机制(stepwisemonotonicattention，sma)、作为解码器的三个循环神经网络、post-net网络，相比于tacotron-2，加强了编码器的编码能力，加强了解码器的解码能力，增加了注意力机制的鲁棒性，并且，这几个结构之间取得平衡，从而增加了语音合成器中声学模型的鲁棒性，根据实验结果，可表明该声学模型对于badcase(异常场景)的产生有明显的抑制作用。则在本实施例中，步骤304可以包括如下步骤：步骤3041、在编码器中，调用cbhg模块将目标文本信息编码为目标文本特征。进一步而言，编码器除了cbhg模块之外，还包括prenet网络，则在实际应用中，可查询目标文本信息中每个文字的向量、作为第一目标向量序列，在prenet网络中，对第一目标向量序列进行非线性转换，获得第二目标向量序列，在cbhg模块中，从第二目标向量序列中提取特征，作为目标文本特征。步骤3042、拼接目标文本特征与目标音色，获得目标组合特征。步骤3043、执行逐步单调注意力机制，对目标组合特征添加转换为频谱特征时的注意力，生成目标注意力特征。在具体时间中，执行逐步单调注意力机制，计算将当前帧目标组合特征转换为频谱特征时、对每一帧目标组合特征的注意力；将注意力进行线性融合，得到目标注意力特征，其中，在逐步单调注意力机制中，目标组合特征与目标注意力特征之间的顺序维持单调。步骤3044、在解码器中，依次调用三个循环神经网络将目标注意力特征解码为多帧目标频谱特征。进一步而言，解码器除了三个循环神经网络之外，还包括prenet网络，而三个循环神经网络包括第一长短期记忆网络、第二长短期记忆网络、门控循环单元；则在实际应用中，在prenet网络中，对上一帧目标频谱特征进行非线性转换；在门控循环单元中，对上一帧目标频谱特征进行处理，获得目标注意力上下文；在第一长短期记忆网络中，对目标注意力上下文进行解码，获得候选频谱特征；在第二长短期记忆网络中，对候选频谱特征进行解码，获得当前帧目标频谱特征、下一帧目标频谱特征；判断是否完成解码操作；若是，则输出所有目标频谱特征；若否，则提取下一帧目标频谱特征，返回执行在prenet网络中，对上一帧目标频谱特征进行非线性转换。步骤3045、在post-net网络中，在时序的维度下，对多帧目标频谱特征进行修正。在本实施例中，由于在合成语音信号时作为声学模型的运行方式与训练语音合成器时声学模型的运行方式的基本相似，所以描述的比较简单，相关之处参见训练语音合成器时声学模型的运行方式的部分说明即可，本实施例在此不加以详述。步骤305、在声码器中，将目标频谱特征转换为属于目标语言的目标语音信号。在本实施例中，语音合成器包括声码器，将声学模型输出的目标频谱特征输入声码器中，声码器将目标频谱特征进行处理、将其转换为属于目标语言的目标语音信号。在本实施例中，接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息，识别参考语音信号中表征音色的特征，作为目标音色，确定为目标语言训练的语音合成器，语音合成器包括声学模型、声码器，在声学模型中，将目标文本信息转换为属于目标语言的、且符合目标音色的频谱特征，作为目标频谱特征，在声码器中，将目标频谱特征转换为属于目标语言的目标语音信号，作为非目标语言的参考语音信号的音色并未用于针对目标语言训练语音合成器，在实现跨语种的语音合成的场景中，可实现未见说话者的音色克隆，使得语音合成器并不受限于训练集，可以保证训练集的数据量合适，降低训练的难度。需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。实施例三图4为本发明实施例三提供的一种语音合成装置的结构框图，具体可以包括如下模块：合成信息接收模块401，用于接收属于非目标语言的参考语音信号、属于目标语言的目标文本信息；目标音色提取模块402，用于识别所述参考语音信号中表征音色的特征，作为目标音色；语音合成器确定模块403，用于确定为所述目标语言训练的语音合成器，所述语音合成器包括声学模型、声码器；目标频谱特征生成模块404，用于在所述声学模型中，将所述目标文本信息转换为属于所述目标语言的、且符合所述目标音色的频谱特征，作为目标频谱特征；目标语音信号生成模块405，用于在所述声码器中，将所述目标频谱特征转换为属于所述目标语言的目标语音信号。在本发明的一个实施例中，所述目标音色提取模块402包括：目标声学特征提取模块，用于从所述参考语音信号提取声学的特征，作为目标声学特征；目标分类特征提取模块，用于从所述目标声学特征中提取用于对说话者进行分类的特征，作为目标音色。在本发明的一个实施例中，所述声学模型包括作为编码器的cbhg模块、逐步单调注意力机制、作为解码器的三个循环神经网络、post-net网络；所述目标频谱特征生成模块404包括：目标编码器调用模块，用于在所述编码器中，调用所述cbhg模块将所述目标文本信息编码为目标文本特征；目标特征拼接模块，用于拼接所述目标文本特征与所述目标音色，获得目标组合特征；目标注意力机制执行模块，用于执行所述逐步单调注意力机制，对所述目标组合特征添加转换为频谱特征时的注意力，生成目标注意力特征；目标解码器调用模块，用于在所述解码器中，依次调用三个所述循环神经网络将所述目标注意力特征解码为多帧目标频谱特征；目标频谱修正模块，用于在所述post-net网络中，在时序的维度下，对多帧所述目标频谱特征进行修正。在本发明的一个实施例中，所述编码器还包括prenet网络；所述目标编码器调用模块包括：第一目标向量序列查询模块，用于查询所述目标文本信息中每个文字的向量、作为第一目标向量序列；第二目标向量序列转换模块，用于在所述prenet网络中，对所述第一目标向量序列进行非线性转换，获得第二目标向量序列；目标文本特征提取模块，用于在所述cbhg模块中，从所述第二目标向量序列中提取特征，作为目标文本特征。在本发明的一个实施例中，所述目标注意力机制执行模块包括：目标注意力转换模块，用于执行所述逐步单调注意力机制，计算将当前帧所述目标组合特征转换为频谱特征时、对每一帧所述目标组合特征的注意力；目标注意力特征融合模块，用于将所述注意力进行线性融合，得到目标注意力特征，其中，在所述逐步单调注意力机制中，所述目标组合特征与所述目标注意力特征之间的顺序维持单调。在本发明的一个实施例中，所述解码器还包括prenet网络，三个所述循环神经网络包括第一长短期记忆网络、第二长短期记忆网络、门控循环单元；所述目标解码器调用模块包括：目标非线性转换模块，用于在所述prenet网络中，对上一帧目标频谱特征进行非线性转换；目标注意力上下文计算模块，用于在所述门控循环单元中，对上一帧所述目标频谱特征进行处理，获得目标注意力上下文；候选频谱特征解码模块，用于在所述第一长短期记忆网络中，对所述目标注意力上下文进行解码，获得候选频谱特征；目标频谱特征解码模块，用于在所述第二长短期记忆网络中，对所述目标注意力特征或所述候选频谱特征进行解码，获得当前帧所述目标频谱特征、下一帧所述目标频谱特征；解码操作判断模块，用于判断是否完成解码操作；若是，则调用目标频谱特征输出模块，若否，则调用目标频谱特征提取模块；目标频谱特征输出模块，用于输出所有所述目标频谱特征；目标频谱特征提取模块，用于提取下一帧所述目标频谱特征，返回调用所述目标非线性转换模块。在本发明的一个实施例中，所述语音合成器确定模块403包括：数据集获取模块，用于获取样本语音信号、表达所述样本语音信号内容的样本文本信息、由所述样本语音信号转换的样本频谱特征，所述样本语言信号、所述样本文本信息均全部属于目标语言；样本音色识别模块，用于识别所述样本语音信号中表征音色的特征，作为样本音色；声学模型训练模块，用于以所述样本文本信息、所述样本音色作为样本，以所述样本频谱特征作为标签，训练声学模型；声码器训练模块，用于以所述预测频谱特征作为样本，以所述样本音频信号作为标签，训练声码器。在本发明的一个实施例中，所述声学模型包括作为编码器的cbhg模块、逐步单调注意力机制、作为解码器的三个循环神经网络、post-net网络；所述声学模型训练模块包括：样本编码器调用模块，用于在所述编码器中，调用所述cbhg模块将所述样本文本信息编码为样本文本特征；样本特征拼接模块，用于拼接所述样本文本特征与所述样本音色，获得样本组合特征；样本注意力机制执行模块，用于执行所述逐步单调注意力机制，对所述样本组合特征添加转换为频谱特征时的注意力，生成样本注意力特征；样本解码器调用模块，用于在所述解码器中，依次调用三个所述循环神经网络将所述样本注意力特征解码为多帧预测频谱特征；样本频谱修正模块，用于在所述post-net网络中，在时序的维度下，对多帧所述预测频谱特征进行修正；损失值计算模块，用于计算所述预测频谱特征与所述样本频谱特征之间的差异，作为损失值；损失值判断模块，用于判断所述损失值是否收敛；若是，则执行完成确定模块，若否，则调用更新模块；完成确定模块，用于确定所述声学模型完成训练；更新模块，用于更新所述声学模型，返回调用所述样本编码器调用模块。在本发明的一个实施例中，所述编码器还包括prenet网络；所述样本编码器调用模块包括：第一样本向量序列查询模块，用于查询所述样本文本信息中每个文字的向量、作为第一样本向量序列；第二样本向量序列转换模块，用于在所述prenet网络中，对所述第一样本向量序列进行非线性转换，获得第二样本向量序列；样本文本特征提取模块，用于在所述cbhg模块中，从所述第二样本向量序列中提取特征，作为样本文本特征。在本发明的一个实施例中，所述样本注意力机制执行模块包括：样本注意力转换模块，用于执行所述逐步单调注意力机制，计算将当前帧所述样本组合特征转换为频谱特征时、对每一帧所述样本组合特征的注意力；样本注意力特征融合模块，用于将所述注意力进行线性融合，得到目标注意力特征，其中，在所述逐步单调注意力机制中，所述样本组合特征与所述目标注意力特征之间的顺序维持单调。在本发明的一个实施例中，所述解码器还包括prenet网络，三个所述循环神经网络包括第一长短期记忆网络、第二长短期记忆网络、门控循环单元；所述样本解码器调用模块包括：预测非线性转换模块，用于在所述prenet网络中，对上一帧预测频谱特征进行非线性转换；预测注意力上下文计算模块，用于在所述门控循环单元中，对上一帧所述预测频谱特征进行处理，获得预测注意力上下文；候选频谱特征解码模块，用于在所述第一长短期记忆网络中，对所述预测注意力上下文进行解码，获得候选频谱特征；预测频谱特征解码模块，用于在所述第二长短期记忆网络中，对所述样本注意力特征或所述候选频谱特征进行解码，获得当前帧所述预测频谱特征、下一帧所述；解码操作判断模块，用于判断是否完成解码操作；若是，则调用预测频谱特征输出模块，若否，则调用预测频谱特征提取模块；预测频谱特征输出模块，用于输出所有所述预测频谱特征；预测频谱特征提取模块，用于提取下一帧所述预测频谱特征，返回调用所述预测非线性转换模块。本发明实施例所提供的语音合成装置可执行本发明任意实施例所提供的语音合成方法，具备执行方法相应的功能模块和有益效果。实施例四图5为本发明实施例四提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音合成方法。实施例五本发明实施例五还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音合成方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于深度神经网络的自动语音识别方法与流程

一种语音合成方法、装置、计算机设备和存储介质与流程

相关文章

最热文献