一种语音合成方法和装置、电子设备与流程

2021-11-09 22:35:00 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，包括：调用第一编码模型对文本信息进行编码，得到文本特征，其中，所述第一编码模型至少包含级联的n层第一编码器，所述文本特征包含所述n层第一编码器中至少一个的输出编码，且对任何1≤i<n，第i 1层第一编码器的输入编码包含第i层编码器第一编码器的输出编码；以及，调用第一解码模型基于所述文本特征进行解码，得到语音信息，其中，所述第一解码模型至少包含级联的m层解码器，所述m层解码器中至少一个的第一输入编码从所述文本特征中获取，且对任何1≤j<m，第j层第一解码器的第二输入编码包含第j 1层第一解码器的输出编码；其中，i、j、m、n均为正整数。2.根据权利要求1所述的语音合成方法，其特征在于，对每层第一编码器，所述文本信息能够按照该第一编码器的对应的文本粒度进行切分以获得至少一个文本切分段，且该层第一编码器的所述输出编码用于表征各文本切分段的特征；以及，对每层第一解码器，所述语音信息能够按照该第一解码器对应的语音粒度进行切分以获得至少一个语音切分段，且该层第一解码器的所述第二输入编码用于表征各语音切分段的特征。3.根据权利要求2所述的语音合成方法，其特征在于，针对任何1≤i<n，第i层第一编码器对应的文本粒度g
i
小于第i 1层第一编码器对应的文本粒度g
i 1
，且文本粒度g
i
下获得的各文本切分段均由一个或多个文本粒度g
i 1
下获得的文本切分段构成；而且，针对任何1≤j<m，第j层第一解码器的对应的语音粒度g
j
小于第j 1层第一解码器对应的语音粒度g
j 1
，且语音粒度g
j
下的各语音切分段均由一个或多个语音粒度g
j 1
下的语音切分段构成。4.根据权利要求3中所述的语音合成方法，其特征在于，所述n层第一编码器中的k层第一编码器与所述m层第一解码器中的k层第一解码器一一对应，k为正整数；所述k层第一解码器中的每层第一解码器的所述第一输入编码包含与其对应的第一编码器的输出编码；而且，针对每一对相互对应的第一解码器和第一编码器，所述文本信息按照该第一编码器对应的文本粒度进行切分后获得的文本切分段与所述语音信息按照该第一解码器对应的语音粒度进行切分后获得的语音切分段一一对应。5.根据权利要求4所述的语音合成方法，其特征在于，所述调用第一解码模型基于所述文本特征进行解码的步骤包含：获取第j层第一解码器的所述输出编码，其中，第i层第一编码器和第j层第一解码器分别属于所述k层第一编码器和所述k层第一解码器、且相互对应，第i层第一编码器的所述输出编码为用于表征各第一文本切分段的特征的输入文本编码序列，第j层第一解码器的所述第二输入编码为用于表征各第一语音切分段的特征的输入语音编码序列，第j层第一解码器的所述输出编码为用于表征各第二语音切分段的特征的输出语音编码序列，按照所述
第i层第一编码器所对应的文本粒度切割所述文本信息获得各第一文本切分段，按照所述第j层第一解码器所对应的语音粒度切割所述语音信息获得各第一语音切分段，且每个第一语音切分段均由一个或多个第二语音切分段构成。6.根据权利要求1至5中任一项所述的语音合成方法，其特征在于，还包括：当i＝1时，根据所述文本信息，获得第j层第一编码器对应的各文本切分段所对应的音素序列；而且，所述利用第一解码模型对所述文本特征进行解码得到语音信息的步骤包括，当j＝1时：调用所述第一解码模型对所述文本特征进行解码，获得第j层第一解码器的输出编码；根据第j层第一解码器的输出编码和所述音素序列，得到所述语音信息的声学特征；以及，根据所述声学特征，通过声码器得到所述语音信息的波形信号。7.根据权利要求1至5中任一项所述的语音合成方法，其特征在于，还包括：对初始第一编码模型和/或初始第一解码模型进行训练，获得所述第一编码模型和/或所述第一解码模型。8.根据权利要求7所述的语音合成方法，其特征在于，所述对初始第一解码模型进行训练的步骤包括：对语音样本集中的每个语音样本进行预处理，获得该语音样本的切分信息，其中，所述切分信息用于指示该语音样本在各层第一解码器对应语音粒度下的语音切分段；以及，基于所述语音样本集和所述切分信息对所述初始第一解码模型进行训练，获得所述第一解码模型；其中，所述语音样本集包含至少一个语音样本，所述初始第一解码模型至少包含分别与所述m层第一解码器对应的m层级联的初始第一解码器，且对任何1≤j<m，第j层初始第一解码器的第二输入编码包含第j 1层初始第一解码器的输出编码。9.根据权利要求8所述的语音合成方法，其特征在于，所述对初始第一解码模型进行训练的步骤包括：将所述语音样本集输入自动编解码网络，其中，所述自动编解码网络包含初始第二编码模型和所述初始第一解码模型，所述初始第二编码模型至少包含分别与所述m层初始第一编码器对应的m层级联的初始第二编码器，且对任何1≤j<m，第j 1层初始第二编码器的输入编码包含第j层初始第二编码器的输出编码；以及，对所述初始第二编码模型和所述初始第一解码模型的参数进行调整，直到所述语音样本集的重构损失符合预设条件。10.根据权利要求9所述的语音合成方法，其特征在于，所述重构损失的计算包括：调用所述初始第二编码器模型对各语音样本进行编码，获得每层初始第二编码器输出的第一分布参数，其中，所述第一分布参数用于表征各语音样本在该层初始第二编码器对应的语音粒度下依据所述切分信息进行切分后所获得的所述语音切分段的特征的第一分布；针对各语音样本，基于每层初始第二编码器对应的所述第一分布进行采样，获得每层初始第二编码器对应的采样编码；调用所述初始第一解码模型对各语音样本的采样编码进行解码，其中，第m层初始第一
解码器的第一输入编码包含第m层初始第二编码器对应的采样编码，且对任意1≤j<m，第j层初始第一解码器的第一输入编码包含第j层初始第二编码器对应的采样编码；当j＝1时，根据第j层初始第一解码器的输出获得各语音样本对应的重构样本，其中，各语音样本对应的重构样本构成重构样本集；基于所述语音样本集和所述重构样本集，计算第一差异；基于所述第一分布和预设目标分布，计算第二差异；以及，基于所述第一差异和所述第二差异，获得所述重构损失。11.根据权利要求7所述的语音合成方法，其特征在于，所述对初始第一编码模型进行训练的步骤包括：基于文本样本集对初始第一编码模型进行训练，获得所述第一编码模型；其中，所述文本样本集包含至少一个文本样本，所述初始第一编码模型至少包含分别与所述n层第一编码器其对应的n层级联的初始第一编码器，且对任何1≤i<n，第i 1层初始第一初始编码器的输入编码包含第i层初始第一编码器的输出编码。12.根据权利要求11所述的语音合成方法，其特征在于，所述基于文本样本集对初始第一编码模型进行训练的步骤，包括：将前序信息输入第i层初始第一编码器，其中，i＝1时所述前序信息为各文本样本中的文本序列，i>1时所述前序信息为第i
‑
1层第一编码器的输出编码；对第i层初始第一编码器的参数进行调整，直到所述前序信息的预设损失符合预设条件。13.根据权利要求12所述的语音合成方法，其特征在于，所述预设损失的计算包括：调用第i层初始第一编码器对应的特征抽取网络对所述前序信息进行处理，得到特征编码；选取所述特征编码中至少一个元素作为锚点；确定所述前序信息中、所述锚点对应的元素所对应的目标语音切分段，其中，所述目标语音切分段所对应的文本粒度大于所述前序信息对应的文本粒度；调用第i层初始第一编码器对应的反向支撑向量提取网络，在所述前序信息中从对应所述目标语音切分段中的其他元素中选择正样本、并从不对应所述目标语音切分段中的元素中选择至少一个负样本；基于所述锚点、所述正样本和所述负样本，计算噪声对比估计；以及，基于所述噪声对比估计，获得所述预设损失。14.根据权利要求7所述的语音合成方法，其特征在于，所述对初始第一编码模型和/或初始第一解码模型进行训练的步骤包括：基于文本样本集和语音样本集对初始第一编码器和初始第一解码器进行联合训练，获得所述第一编码模型和所述第一解码模型；其中，所述文本样本集包含至少一个文本样本，所述语音样本集包含至少一个语音样本，所述至少一个文本样本和所述至少一个语音样本之间一一对应；其中，所述初始第一编码模型至少包含分别与所述n层第一编码器对应的n层级联的初始第一编码器，且对任何1≤i<n，第i 1层初始第一解码器的输入编码包含第i层初始第一编码器的输出编码；
其中，所述初始第一解码模型至少包含分别与所述m层第一解码器对应的m层级联的初始第一解码器，且对任何1≤j<m，第j层初始第一解码器的第二输入编码包含第j 1层初始第一解码器的输出编码。15.根据权利要求14所述的语音合成方法，其特征在于，所述基于文本样本集和语音样本集对初始第一编码器和初始第一解码器进行同时训练的步骤，包括：将所述文本样本集输入所述初始第一编码模型，其中，各文本样本经所述初始第一编码模型处理后得到中间文本特征，所述中间文本特征经所述初始第一解码模型处理后得到预测语音样本，各文本样本的预测语音样本构成预测语音样本集；以及，调整所述初始第一编码器和所述初始第一解码器的参数，直到所述语音样本集和所述预测语音样本集之间的差异符合预设条件。16.一种语音合成装置，其特征在于，包括；编码模块，用于调用第一编码模型对文本信息进行编码，得到文本特征，其中，所述第一编码模型至少包含级联的n层第一编码器，所述文本特征包含所述n层第一编码器中至少一个的输出编码，且对任何1≤i<n，第i 1层第一编码器的输入编码包含第i层编码器第一编码器的输出编码；以及，解码模块，用于调用第一解码模型基于所述文本特征进行解码，得到语音信息，其中，所述第一解码模型至少包含级联的m层解码器，所述m层解码器中至少一个的第一输入编码从所述文本特征中获取，且对任何1≤j<m，第j层第一解码器的第二输入编码包含第j 1层第一解码器的输出编码；其中，i、j、m、n均为正整数。17.一种电子设备，包含处理器和存储器，其中，所述存储器存储有指令，且所述指令被所述处理器执行时使得所述电子设备执行根据权利要求1至5、8至17中任一项所述的语音合成方法。18.一种计算机可读存储介质，存储有计算机指令，且所述计算机指令被处理器执行时使得计算机执行根据权利要求1至5、8至17中任一项所述的语音合成方法。19.一种计算机程序产品，包含计算机指令，且所述计算机指令在计算机上运行时使得所述计算机执行根据权利要求1至5、8至17中任一项所述的语音合成方法。

技术总结
本申请提供了一种语音合成方法和装置。首先调用第一编码模型对文本信息进行编码得到文本特征，然后再调用第一解码模型基于所述文本特征进行解码得到语音信息。其中，该第一编码模型和该第一解码模型分别至少包含级联的N层第一编码器和级联的M层第一解码器。对任何1≤i<N，第i 1层第一编码器的输入编码包含第i层编码器第一编码器的输出编码，对任何1≤j<M，第j层第一解码器的输入编码包含第j 1层第一解码器的输出编码，其中i、j、M、N均为正整数。该文本特征包含所述N层第一编码器中至少一个的输出编码，且所述M层解码器中至少一个的输入编码从该文本特征中获取。该方案能够为用户提供更加富有节奏变化、更贴近真实人声韵律的合成语音。合成语音。合成语音。

技术研发人员：陈凌辉伍芸荻刘丹
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.08.12
技术公布日：2021/11/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种信息转换方法和装置、电子设备与流程

一种语音合成方法和装置、电子设备与流程

相关文献

最热文献