语音合成方法、装置、设备及存储介质与流程

2021-09-29 03:56:00 来源：中国专利 TAG：语音合成装置方法设备存储介质

1.本技术涉及语音合成领域，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术：

2.随着计算机技术的不断发展，在日常生活中逐渐开始使用合成语音来进行客户服务、广播通知、新闻播报等服务。现有技术中通常使用文本转语音的方式来利用输入文本合成高质量的语音，这种方式的优点在于不需要显著的特征提取，但这种方式无法完全代表韵律语言的特征，并导致了平坦的基频率变化，这导致在合成语音时会出现梅尔频谱的失真，降低合成出语音的准确度。

技术实现要素：

3.本技术提供了一种语音合成方法、装置、设备及存储介质，以提高合成语音的准确度。
4.第一方面，本技术提供了一种语音合成方法，所述方法包括：
5.获取待合成文本，并对所述待合成文本进行音素嵌入，得到所述待合成文本对应的音素嵌入文本；
6.将所述音素嵌入文本输入至预先训练的分类器中进行预测，得到所述待合成文本对应的语言特征；
7.对所述音频嵌入文本和所述语言特征进行编码，得到编码序列；
8.对所述编码序列进行注意力计算，得到注意力输出；
9.将所述注意力输出输入至预先训练的解码器进行解码，得到所述待合成文本对应的梅尔频谱；
10.对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
11.第二方面，本技术还提供了一种语音合成装置，所述装置包括：
12.文本获取模块，用于获取待合成文本，并对所述待合成文本进行音素嵌入，得到所述待合成文本对应的音素嵌入文本；
13.特征预测模块，用于将所述音素嵌入文本输入至预先训练的分类器中进行预测，得到所述待合成文本对应的语言特征；
14.特征编码模块，用于对所述音频嵌入文本和所述语言特征进行编码，得到编码序列；
15.注意计算模块，用于对所述编码序列进行注意力计算，得到注意力输出；
16.频谱生成模块，用于将所述注意力输出输入至预先训练的解码器进行解码，得到所述待合成文本对应的梅尔频谱；
17.语音合成模块，用于对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
18.第三方面，本技术还提供了一种计算机设备，所述计算机设备包括存储器和处理
器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音合成方法。
19.第四方面，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语音合成方法。
20.本技术公开了一种语音合成方法、装置、设备及存储介质，通过获取待合成文本，并对待合成文本进行音素嵌入，从而得到待合成文本的音素嵌入文本，然后将音素嵌入文本输入至预先训练的分类器中进行预测，得到待合成文本的语言特征，再将音素嵌入文本和语言特征进行编码，并对得到的编码序列进行注意力计算，得到注意力输出，最终将注意力输出输入至预先训练的解码器中进行解码，得到待合成文本对应的梅尔频谱，并对梅尔频谱进行音频转换，从而得到待合成文本对应的合成语音。利用预先训练的分类器来得到待合成文本语言特征，从而根据语言特征以及音素嵌入文本的结合来进行语音合成，提高了合成语音的自然度，并且在合成语音和自然语音之间实现较高的基频轮廓相关性和较低的梅尔倒谱失真。
附图说明
21.为了更清楚地说明本技术实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1是本技术实施例提供的一种语音合成方法的示意流程图；
23.图2是本技术实施例提供的语音合成方法的框架流程图；
24.图3是本技术实施例提供的语音合成方法的另一种框架流程图；
25.图4是本技术实施例提供的解码器的结构示意图；
26.图5为本技术实施例提供的一种语音合成装置的示意性框图；
27.图6为本技术实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
28.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。
30.应当理解，在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
31.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
32.本技术的实施例提供了一种语音合成方法、装置、计算机设备及存储介质。语音合成方法可用于对待合成文本进行语音合成，从而提高合成语音的自然度。
33.下面结合附图，对本技术的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。
34.请参阅图1和图2，图1是本技术实施例提供的一种语音合成方法的示意流程图，图2是本技术实施例提供的语音合成方法的框架流程图。该语音合成方法通过利用预先训练的分类器来提取语言特征，并将提取出的语言特征和音素嵌入文本进行结合来进行语音合成，从而达到提高合成语音的自然度的目的。
35.如图1所示，该语音合成方法，具体包括：步骤s101至步骤s105。
36.s101、获取待合成文本，并对所述待合成文本进行音素嵌入，得到所述待合成文本对应的音素嵌入文本。
37.获取需要进行语音合成的待合成文本，待合成文本可以是文字文本，也可以是拼音文本，当待合成文本时文字文本时，需要先对待合成文本进行预处理，将文字文本转换为对应的拼音文本，然后再对拼音文本进行音素嵌入。
38.音素嵌入，也即将语素转换为音素，得到待合成文本对应的音素嵌入文本，在一实施例中，所述对所述待合成文本进行音素嵌入，包括：采用预先构建的音素字典对所述待合成文本进行语素和音素转换，得到所述待合成文本对应的音素嵌入文本。
39.对于一些词语，具有相同的拼写，但发音却完全不同，因此，可以通过使用不同的表达方式来展示有关发音的更多信息，也即音素。人所发出的声音是由不同的音素单位组成，将它们结合在一起后就以重新创建几乎所有词语的发音。
40.因此，可以根据预先构建的音素字典，对待合成文本进行语素和音素转换，也即将待合成文本转换为待合成文本的音素表示，从而得到待合成文本对应的音素嵌入文本。其中，预先构建的音素字典可以是cmu的音素字典。
41.s102、将所述音素嵌入文本输入至预先训练的分类器中进行预测，得到所述待合成文本对应的语言特征。
42.将得到的音素嵌入文本输入至预先训练的分类器中进行预测，得到待合成文本对应的语言特征，其中，得到的语言特征是一个二维的二进制向量，语言特征中包括了待合成文本的韵律特征。其中，韵律特征又称超音段特征或者超语言学特征，韵律特征中包含了大量语音情感的特征。
43.在一实施例中，该语音合成方法还包括：获取训练样本，并对所述训练样本进行预处理，得到所述训练样本对应的韵律特征和音素嵌入样本；将所述韵律特征和所述音素嵌入样本输入多层神经网络，对所述多层神经网络进行无监督学习，得到预先训练的分类器。
44.其中，多层神经网络包括两层双向循环网络和一个全连接网络。其中，全连接网络使用sigmod激活函数。获取用于训练分类器的训练样本，然后对训练样本进行预处理，从而得到训练样本所对应的韵律特征和音素嵌入样本，以便于对多层神经网络进行学习训练。
45.在具体实施过程中，所述对所述训练样本进行预处理，得到所述训练样本对应的韵律特征和音素嵌入样本的步骤可以包括：对所述训练样本进行基频检测，得到所述训练样本对应的韵律特征；对所述训练样本进行音素嵌入，得到所述训练样本对应的音素嵌入样本。
46.在对训练样本进行基频检测时，可以采用自相关函数法和平均幅度差法等来提取出训练样本所对应的韵律特征。然后再根据预先构建的音素字典对训练样本进行音素嵌入，得到音素嵌入样本。
47.在具体实施过程中，还可以使用festival工具对训练样本进行文本数据的规范化，从而提取出训练样本的韵律特征。
48.将韵律特征和音素嵌入样本共同输入多层神经网络中，对多层神经网络进行无监督学习，在多层神经网络的损失函数值达到最小时，将训练完成的多层神经网络作为预先训练的分类器。
49.由于预先训练的分类器在训练时使用了音素嵌入样本和韵律特征来进行训练，因此，将音素嵌入文本输入至预先训练的分类器中进行预测后，得到的语言特征中包括了该待合成文本的韵律特征。
50.s103、对所述音频嵌入文本和所述语言特征进行编码，得到编码序列。
51.利用编码器对音频嵌入文本和语言特征共同进行编码，使得到的编码序列中包括语言特征，也即得到的编码序列中包括待合成文本的韵律特征。
52.在一实施例中，对所述音频嵌入文本和所述语言特征进行编码，得到编码序列的步骤可以包括：对所述音频嵌入文本进行预编码，得到所述音频嵌入文本的嵌入向量；将所述嵌入向量和所述语言特征进行拼接，得到拼接向量，并对所述拼接向量进行编码，得到编码序列。
53.对音频嵌入文本进行预编码，得到与音频嵌入文本相对应的嵌入向量，然后再将嵌入向量与语言特征进行拼接，得到拼接向量，最后再对拼接向量进行编码，得到编码序列。
54.s104、对所述编码序列进行注意力计算，得到注意力输出。
55.将编码序列输入至注意力网络中进行注意力计算，从而将编码序列归纳为一个定长上下文向量，并将得到的定长上下文向量作为注意力输出。其中，注意力网络可以使用位置敏感注意力机制。
56.在具体实施过程中，注意力计算发生在输出编码序列的每一个时间步上，首先根据源状态，也即音频嵌入文本和语言特征，和对应的编码序列生成注意力权重，也即进行对齐处理。其中，在此过程中可以使用位置敏感注意力机制，也可以使用基于内容的注意力机制、混合注意力机制或其他类型的注意力机制。
57.然后基于生成的注意力权重计算上下文向量作为源状态的加权平均，再将得到的注意力向量作为下一个时间步的输出，循环执行该步骤，直至对整个编码序列完成注意力计算。
58.s105、将所述注意力输出输入至预先训练的解码器进行解码，得到所述待合成文本对应的梅尔频谱。
59.预先训练的解码器中包括一个自回归的循环神经网络，将注意力输出输入至该预先训练的解码器中进行解码，从而预测出待合成文本所对应的梅尔频谱。每次解码预测的过程预测出一个梅尔频谱帧。
60.在一实施例中，所述将所述注意力输出输入至预先训练的解码器中进行解码的步骤可以包括：将所述注意力输出输入所述双层循环网络得到预测的梅尔频谱；根据所述后
处理网络对所述预测的梅尔频谱进行优化，得到所述待合成文本对应的梅尔频谱。
61.其中，如图3所示，为本技术实施例提供的解码器的结构示意图。预先训练的解码器中包括双层循环网络(双层lstm网络)、后处理网络(post
‑
net)以及信息瓶颈层(pre
‑
net)。
62.将注意力输出输入至双层循环网络中，将预测出的当前步的梅尔频谱帧输入至一个双层pre
‑
net中，在具体实施过程中，pre
‑
net可以是每层由256个隐藏relu单元组成的双层全连接的信息瓶颈层。
63.将pre
‑
net的输出与当前步的注意力输出进行拼接，并将拼接结果再次输入至双层循环网络，再次将双层循环网络的输出和当前步的注意力输出拼接在一起，对此时的拼接结果经过线性变换投影来预测目标梅尔频谱帧。
64.同时，并行于梅尔频谱帧的预测，双层循环网络的输出与注意力输出进行拼接，投影成一个标量后传递给sigmod激活函数，来预测解码过程是否已经结束。循环执行该过程，直至预测到停止标志时，结束梅尔频谱帧的生成。此时根据生成的多个梅尔频谱帧得到预测的梅尔频谱。
65.然后将预测的梅尔频谱帧经过后处理网络来预测一个残差叠加到卷积前的梅尔频谱帧上，从而改善频谱重构的过程，得到待合成文本所对应的梅尔频谱。其中，后处理网络是由多个卷积层所组成的。
66.在一实施例中，如图4所示，为本技术实施例提供的语音合成方法的另一种框架流程图。将注意力输出输入至预先训练的解码器中进行语音合成的步骤可以包括：将所述注意力输出和所述语言特征进行拼接，并将拼接后的特征输入至预先训练的解码器中进行语音合成，得到所述待合成文本对应的合成语音。
67.将注意力输出和语言特征进行拼接，其中，由于注意力输出为一个上下文向量，语言特征也是一个向量，因此，可以直接将注意力输出与语言特征进行拼接，然后将拼接后的特征向量输入至预先训练的解码器中进行处理，从而进行语音合成，得到合成语音。
68.将拼接后的向量输入至双层循环网络中，将预测出的当前步的梅尔频谱帧输入至一个双层pre
‑
net中，在具体实施过程中，pre
‑
net可以是每层由256个隐藏relu单元组成的双层全连接的信息瓶颈层。
69.将pre
‑
net的输出与当前步的注意力输出进行拼接，并将拼接结果再次输入至双层循环网络，再次将双层循环网络的输出和当前步的注意力输出拼接在一起，对此时的拼接结果经过线性变换投影来预测目标梅尔频谱帧。
70.同时，并行于梅尔频谱帧的预测，双层循环网络的输出与拼接后的向量再进行拼接，投影成一个标量后传递给sigmod激活函数，来预测解码过程是否已经结束。循环执行该过程，直至预测到停止标志时，结束梅尔频谱帧的生成。此时根据生成的多个梅尔频谱帧得到预测的梅尔频谱。
71.然后将预测的梅尔频谱帧经过后处理网络来预测一个残差叠加到卷积前的梅尔频谱帧上，从而改善频谱重构的过程，得到待转换梅尔频谱。其中，后处理网络是由多个卷积层所组成的。
72.s106、对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
73.在得到待合成文本对应的梅尔频谱后，对梅尔频谱进行转换，将梅尔频谱特征表
达逆变换为时域波形样本，从而得到合成语音。在具体实施过程中，可以使用wavenet来实现音频转换，生成待合成文本对应的合成语音。
74.在一实施例中，所述对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音的步骤包括：将所述语音特征与所述梅尔频谱进行拼接，得到拼接梅尔频谱；对所述拼接梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
75.将语音特征和待合成文本对应的梅尔频谱进行拼接，使得到的拼接梅尔频谱中包括待合成文本的韵律信息。然后在生成合成语音时，基于拼接梅尔频谱进行语音合成，从而得到合成语音。这使得在合成语音时考虑到了待合成文本的韵律信息，从而提高了语音合成的自然度。
76.另外，在一实施例中，在对解码器进行预先训练时，可以使用训练多层神经网络，也即对分类器进行训练时的训练样本来对解码器进行训练。将分类器中的网络参数与解码器中的网络参数使用同一训练样本来进行同时训练。
77.训练过程可以为：将训练样本所对应的韵律特征和音素嵌入样本输入多层神经网络，得到语言特征。然后将语言特征和音素嵌入样本进行拼接，输入编码器中进行编码，将编码器的输出输入至注意力网络中进行注意力计算，得到注意力输出。然后将注意力输出与语言特征进行拼接，并将拼接后的结果输入至解码器中。同时，将语言特征也与解码器中后网的输出进行拼接，从而最终得到合成的样本语音。根据该过程不断对多层神经网络和解码器进行学习训练，直至训练完成后，将多层神经网络作为预先训练的分类器，将解码器作为预先训练的解码器。
78.在具体实施过程中，可以将训练过程中解码器所输出的合成的样本语音添加至训练样本中，重复的参与多层神经网络和解码器的学习训练。
79.在训练过程中分别将包括有韵律信息的语言特征与音频嵌入文本、注意力输出以及待转换梅尔频谱进行拼接，在语音合成的多个阶段结合语言特征来进行联合训练，以增强合成语音的韵律腾讯，从而实现合成语音的高自然度，提升用户对合成语音的体验感。
80.上述实施例提供的语音合成方法，通过获取待合成文本，并对待合成文本进行音素嵌入，从而得到待合成文本的音素嵌入文本，然后将音素嵌入文本输入至预先训练的分类器中进行预测，得到待合成文本的语言特征，再将音素嵌入文本和语言特征进行编码，并对得到的编码序列进行注意力计算，得到注意力输出，最终将注意力输出输入至预先训练的解码器中进行解码，得到待合成文本对应的梅尔频谱，并对梅尔频谱进行音频转换，从而得到待合成文本对应的合成语音。利用预先训练的分类器来得到待合成文本语言特征，从而根据语言特征以及音素嵌入文本的结合来进行语音合成，提高了合成语音的自然度，并且在合成语音和自然语音之间实现较高的基频轮廓相关性和较低的梅尔倒谱失真。
81.请参阅图5，图5是本技术的实施例还提供一种语音合成装置的示意性框图，该语音合成装置用于执行前述的语音合成方法。其中，该语音合成装置可以配置于服务器或终端中。
82.其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
83.如图5所示，语音合成装置200包括：文本获取模块201、特征预测模块202、特征编码模块203、注意计算模块204、频谱生成模块205和语音合成模块206。
84.文本获取模块201，用于获取待合成文本，并对所述待合成文本进行音素嵌入，得到所述待合成文本对应的音素嵌入文本。
85.特征预测模块202，用于将所述音素嵌入文本输入至预先训练的分类器中进行预测，得到所述待合成文本对应的语言特征。
86.特征编码模块203，用于对所述音频嵌入文本和所述语言特征进行编码，得到编码序列。
87.注意计算模块204，用于对所述编码序列进行注意力计算，得到注意力输出。
88.频谱生成模块205，用于将所述注意力输出输入至预先训练的解码器进行解码，得到所述待合成文本对应的梅尔频谱。
89.语音合成模块206，用于对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
90.需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音合成装置和各模块的具体工作过程，可以参考前述语音合成方法实施例中的对应过程，在此不再赘述。
91.上述的语音合成装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的计算机设备上运行。
92.请参阅图6，图6是本技术实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
93.参阅图6，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。
94.非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音合成方法。
95.处理器用于提供计算和控制能力，支撑整个计算机设备的运行。
96.内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音合成方法。
97.该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
98.应当理解的是，处理器可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
99.其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：
100.获取待合成文本，并对所述待合成文本进行音素嵌入，得到所述待合成文本对应的音素嵌入文本；将所述音素嵌入文本输入至预先训练的分类器中进行预测，得到所述待
合成文本对应的语言特征；对所述音频嵌入文本和所述语言特征进行编码，得到编码序列；对所述编码序列进行注意力计算，得到注意力输出；将所述注意力输出输入至预先训练的解码器进行解码，得到所述待合成文本对应的梅尔频谱；对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
101.在一个实施例中，所述处理器在实现所述对所述待合成文本进行音素嵌入时，用于实现：
102.采用预先构建的音素字典对所述待合成文本进行语素和音素转换，得到所述待合成文本对应的音素嵌入文本。
103.在一个实施例中，所述处理器在实现所述将所述注意力输出输入至预先训练的解码器中进行解码时，用于实现：
104.将所述注意力输出和所述语言特征进行拼接，并将拼接后的特征输入至预先训练的解码器中进行解码。
105.在一个实施例中，所述解码器包括双层循环网络和后处理网络；所述处理器在实现所述将所述注意力输出输入至预先训练的解码器中进行解码，得到所述待合成文本对应的梅尔频谱时，用于实现：
106.将所述注意力输出输入所述双层循环网络得到预测的梅尔频谱；根据所述后处理网络对所述预测的梅尔频谱进行优化，得到所述待合成文本对应的梅尔频谱。
107.在一个实施例中，所述处理器在实现所述对所述梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音时，用于实现：
108.将所述语音特征与所述梅尔频谱进行拼接，得到拼接梅尔频谱；对所述拼接梅尔频谱进行音频转换，得到所述待合成文本对应的合成语音。
109.在一个实施例中，所述处理器用于实现：
110.获取训练样本，并对所述训练样本进行预处理，得到所述训练样本对应的韵律特征和音素嵌入样本；将所述韵律特征和所述音素嵌入样本输入多层神经网络，对所述多层神经网络进行无监督学习，得到预先训练的分类器。
111.在一个实施例中，所述处理器在实现所述对所述训练样本进行预处理，得到所述训练样本对应的韵律特征和音素嵌入样本时，用于实现：
112.对所述训练样本进行基频检测，得到所述训练样本对应的韵律特征；对所述训练样本进行音素嵌入，得到所述训练样本对应的音素嵌入样本。
113.本技术的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本技术实施例提供的任一项语音合成方法。
114.其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。
115.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利
要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声纹识别的方法、电子设备和系统与流程

语音合成方法、装置、设备及存储介质与流程

相关文章

最热文献