一种语音合成方法、装置及电子设备与流程

2022-04-02 06:26:41 来源：中国专利 TAG：

1.本发明涉及语音技术领域，尤其涉及一种语音合成方法、装置及电子设备。

背景技术：

2.当前，端到端语音合成(text to speech，tts)技术越来越流行。将整条文本转化为音节序列，然后输入到tts模型的编码器得到隐含序列，然后输入到解码器中生成梅尔频谱(mel spectrogram)，得到合成的语音。其中，所述tts模型可以为自回归模型。
3.但由于自回归模型的性质，推理时间成本与文本长度成正比，文本越长，生成语音的时间就越长，合成速度无法满足语音合成的响应要求。为此，通过韵律分析结果将长文本切割为合适长度的短文本集合，同时记录文本切割的顺序，进行分批合成，再进行拼接。
4.单纯的根据韵律规则将文本分成若干份，进行分批合成，再进行拼接，缺少合成语音的自然度和上下文的相关性，使合成的语音效果不佳。

技术实现要素：

5.本发明实施例的目的是提供一种语音合成方法、装置及电子设备，以解决缺少合成语音的自然度和上下文的相关性，使合成的语音效果不佳的问题。
6.为了解决上述技术问题，本发明实施例是这样实现的：
7.第一方面，本发明实施例提供了一种语音合成方法，包括：
8.从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；
9.将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；
10.根据各待合成短句的语音片段得到所述输入文本的语音文件；
11.其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；
12.所述编码模块，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；
13.所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；其中，所述上下文信息包括所述上下文短句中文字的语义信息和位置信息；
14.所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。
15.第二方面，本发明实施例提供了一种语音合成装置，包括：
16.预处理单元，用于从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；
17.语音合成单元，用于将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；
18.语音输出单元，用于根据各待合成短句的语音片段得到所述输入文本的语音文
件；
19.其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；
20.所述编码模块，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；
21.所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；其中，所述上下文信息包括所述上下文短句中文字的语义信息和位置信息；
22.所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。
23.第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如第一方面所述的语音合成方法步骤。
24.第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的语音合成方法步骤。
25.由以上本发明实施例提供的技术方案可见，本发明实施例通过从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句，从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；根据各待合成短句的语音片段得到所述输入文本的语音文件。通过本发明实施例，在基于分段处理提高了语音合成效率的情况下，通过嵌入参考语音和上下文短句的特征信息，保证了合成语音中各语音片段的韵律关系，以及语言风格的一致性，提升了语音合成的效果，更接近真实语音。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
27.图1为本发明实施例提供的语音合成方法的一种流程示意图；
28.图2为本发明实施例提供的语音合成模型的一种结构示意图；
29.图3为本发明实施例提供的输入文本的分段方式示意图；
30.图4为本发明实施例提供的语音合成模型的另一种结构示意图；
31.图5为本发明实施例提供的第一嵌入模块的一种结构示意图；
32.图6为本发明实施例提供的第二嵌入模块的一种结构示意图；
33.图7为本发明实施例提供的语音合成装置的结构示意图；
34.图8为本发明实施例提供的电子设备的结构示意图。
具体实施方式
35.本发明实施例提供了一种语音合成方法、装置及电子设备。
36.为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
37.现有的端到端语音合成技术主要采用基于自回归算法的语音合成模型，但由于自回归算法的语音合成模型的推理时间成本与文本长度成正比，文本越长，生成语音的时间就越长。为了能够提高语音合成的效率，可以将输入文件进行分段操作，通过语音合成模型分别对分段得到的短句进行语音合成得到语音片段，再将各语音片段进行拼接后，得到与输入文件对应的语音文件。但由于各短句进行语音合成是独立进行的，因此，将语音片段拼接后得到的语音文件由于缺少语音的自然度和上下文的相关性，语音片段之间容易产生音色突变和风格变化的问题。为此，本技术实施例在对各短句进行语音合成的过程中，通过获取参考语音的语音特征信息和与该短句对应的上下文信息用于进行对该短句进行语音合成，从而解决了缺少语音的自然度和上下文相关性的问题。
38.如图1-图2所示，本发明实施例提供一种语音合成方法，该方法的执行主体可以为预先部署了语音合成模型的本地服务器或在线服务器，其中，该服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤：
39.步骤s110、从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；
40.先对所述输入文本进行文字预处理(text process)，对所述输入文本进行分段处理，将整条输入文本划分为合适长度的短句集合，并每次从所述短句集合中依次选取一个或多个连续的短句作为待合成短句，并将所述短句集合中与所述待合成短句相邻的短句作为上下文短句。将所述待合成短句和上下文短句输入到所述语音合成模型中用于对所述待合成短句进行语音合成。
41.步骤s120、将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段。
42.如图2所示，本技术实施例的采用的语音合成模型200包括编码模块230、嵌入模块240和解码模块250。
43.其中，所述编码模块230，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；
44.所述嵌入模块240，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；其中，所述上下文信息包括所述上下文短句中文字的语义信息和位置信息；
45.所述解码模块250，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段，从而在语音特征信息和上下文信息的辅助下，有效得到提升合成语音的自然度和上下文的相关性。
46.应理解的是，所述语音特征信息为通过对参考语音进行预设的特征提取方法得到
参考语音中各个语音帧的特征信息，具体地可以通过将参考语音转换为梅尔频谱，再从所述梅尔频谱提取语音特征信息。所述语音特征信息可以通过一组编码序列表示。
47.应理解的是，所述上下文信息为通过对上下文短句进行预设的特征提取方法得到所述上下文短句中包含的词语和文字的特征信息，通过所述上下文信息可用于指示所述上下文短句中包含的词语和文字的语义信息和以及在所述上下文短句中位置信息等。所述上下文信息可通过一组编码序列表示。
48.应理解的是，本技术实施例的语音合成模型中的编码模块和解码模块可以采用其他语音合成模型的编码模块和解码模块，例如tacotron2模型，在所述tacotron2模型的编码模块(encoder)和解码模块的基础上增加嵌入模块来构建本技术实施例的语音合成模型200。
49.所述解码模块250可以包括基于注意力机制的第一解码单元(attention)和用于解码的第二解码单元(decoder)。
50.进一步地，所述步骤s110，包括：
51.对输入文本进行分段操作，得到所述输入文本的短句集合；如图2所示，可以通过文本预处理模块210中对输入文本进行分段操作，将所述输入文本分割为若干个短句(phrase)，得到按照所述输入文本的顺序排列的短句集合。
52.根据预设的窗口大小，从所述短句集合中依次选取待合成短句(current phrase)a1和对应的上下文短句a2；其中，所述待合成短句a1可以包括一个或多个连续的短句，所述上下文短句为与所述待合成短句相邻的至少一个短句。将所述待合成短句a1输入到编码模块230中进行编码，得到对应的第一编码序列b1。
53.在一种实施方式中，所述上下文短句a2可以包括位于所述待合成短句a1前的第一短句(previous phrase)a
2_1
和/或位于所述待合成短句a1后的第二短句(next phrase)a
2_2
。为了简便起见，在下面的实施例中均以所述上下文短句包含第一短句a
2_1
和第二短句a
2_2
为例进行举例说明。
54.所述窗口的大小以可以根据实际的需要进行设定，可以包括第一窗口和第二窗口；其中，所述第一窗口用于表示所述待合成短句包含的短句数量，所述第二窗口用于表示所述上下文短句包含的短句数量。通过在所述短句集合中划动所述第一窗口和第二窗口，选取每次的待合成短句和上下文短句。如图3所示，设定所述待合成短句a1对应的第一窗口的大小为三个短句，所述第一短句a
2_1
和第二短句a
2_2
对应的第二窗口的大小为一个短句，则根据所述短句合集中的排序，依次按照第一窗口的大小选取待合成短句，并按照第二窗口的大小确定对应的第一短句和第二短句。
55.每次选取待合成短句和上下文短句的窗口平移步长可以根据实际的需要进行设定，可以将所述窗口平移步长设定为所述第一窗口的大小或者设定为小于所述第一窗口的大小等。
56.应理解的是，选取待合成短句和对应的上下文短句的过程，可以由所述文本预处理模块210执行，然后依次将选择的待合成短句和上下文短句输入到所述编码模块230中；或者，也可以由编码模块230执行，文本预处理模块210将得到的输入文本的短句合集发送给编码模块230，由编码模块230依次选取待合成短句和对应的上下文短句进行编码。为了简便起见，在下面的实施例中，均以所述文本预处理模块210执行选取待合成短句和对应的
上下文短句的过程为例进行举例说明。
57.应理解的是，所述参考语音可以为从预先设置的不同类型人物的语音模型中选择得到，例如，男声、女声、老人、小孩等，具体的分类方式可根据实际的需要进行设定。在对输入文本进行语音合成时，可以根据实际期望得到的语言风格选择对应的参考语音。
58.在一种实施方式中，可以预先对所述参考语音l进行语音预处理(audio process)，通过如图2所示的语音预处理模块220得到与所述参考语音对应的声学特征序列m，所述声学特征序列m可以为通过梅尔频谱图(mel spectrogram)表示的梅尔频率倒谱系数(mel-frequency cepstral coefficients，mfcc)。再通过嵌入模块240提取所述声学特征序列m的语音特征信息。
59.应理解的是，所述嵌入模块240可以为由多层神经网络构成的网络模型，可以包括卷积网络、多头注意力机制的神经网络、长短期记忆(long short-termmemory,lstm)网络、循环神经网络(recurrent neural networks，rnn)等。
60.进一步地，在所述步骤s110之前，所述方法还包括：
61.以训练文本为样本，以与所述训练文本对应的语音训练文件为标签和与所述训练文本对应的参考语音，对本技术实施例的语音合成模型200进行训练。
62.预先获取的大量的训练文本和对应的语音训练文件，其中，所述语音训练文件可通过人工录制所述训练文本的录音得到。
63.分别对训练文本和语音训练文件进行文件预处理和语音预处理，将从所述训练文本中提取到的待合成短句和上下文短句依次输入到编码模块230中，将从语音训练文件中提取到的与所述待合成短句对应的语音训练片段的声学特征序列输入到嵌入模块中，然后将解码模块得到语音文件与所述语音训练文件进行比对，并根据比对结果更新所述语音合成模型200。
64.将训练完成后的语音合成模型200部署到服务器中，根据经过预处理的输入文本和参考语音，输出得到与所述输入文本对应的语音文件。
65.步骤s130、根据各待合成短句对应的语音片段得到所述输入文本的语音文件。
66.所述步骤s130可以由所述解码模块250执行，由解码模块250将各语音片段进行拼接，得到语音文件并输出；或者，也可以设置拼接模块来执行。
67.由以上本发明实施例提供的技术方案可见，本发明实施例通过从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句，从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；根据各待合成短句的语音片段得到所述输入文本的语音文件。通过本发明实施例，在基于分段处理提高了语音合成效率的情况下，通过嵌入参考语音和上下文短句的特征信息，保证了合成语音中各语音片段的韵律关系，以及语言风格的一致性，提升了语音合成的效果，更接近真实语音(ground truth)。
68.基于上述实施例，进一步地，所述编码模块230还用于对所述上下文短句进行编码，得到第二编码序列。在对所述输入文本进行文本预处理后，依次将所述待合成短句a1和对应的上下文短句a2输入到编码模块中分别进行编码，得到所述待合成短句的第一编码b1和第二编码序列b2。其中，由于所述上下文短句包括第一短句a
2_1
和第二短句a
2_2
，相应地得
到的第二编码序列也包括两个部分b
2_1
和b
2_2
。
69.所述嵌入模块240用于根据输入的参考语音l的声学特征序列m和所述第二编码序列b
2_1
、b
2_2
，输出得到与所述参考语音对应的第三编码序列c3和与所述上下文短句对应的第四编码序列c4；其中，所述第三编码序列c3包括所述参考语音的语音特征信息，所述第四编码序列c4包括所述上下文短句中文字的语义信息和位置信息。
70.进一步地，所述解码模块250用于将输入的所述第一编码序列、第三编码序列和第四编码序列进行拼接后解码，输出得到与所述待合成短句对应的语音片段，再根据各待合成短句的语音片段得到与所述输入文本对应的语音文件。
71.进一步地，如图4所示，所述嵌入模块240可以根据实际的需要进行设定，可以设定为一个神经网络模块，对输入的第二编码序列和声学特征序列进行特征提取得到对应的第三编码序列和第四编码序列的神经网络模型，也可以设定为多个独立的神经网络模型的组合。本技术实施例给出了其中的一种实施方式，所述嵌入模块240包括与所述参考语音对应的第一嵌入模块241和与所述上下文短句对应的第二嵌入模块242；
72.将参考语音l的声学特征序列m输入所述第一嵌入模块241，输出得到与所述参考语音对应的第三编码序列c3，并将所述第二编码序列b
2_1
、b
2_2
输入所述第二嵌入模块242，输出得到与所述上下文短句对应的第四编码序列c4。
73.进一步地，所述第一嵌入模块241和第二嵌入模块242可以为预设的神经网络模型，本技术实施例仅给出了其中的一种举例说明，如图5和图6所示，所述第一嵌入模块241和第二嵌入模块242均包括：第一单元、第二单元和第三单元，其中，所述第一单元包括两层卷积网络和对应的激活函数，所述第二单元包括用于学习位置信息的编码模块，所述第三单元包括多头注意力机制的神经网络。所述第一单元可以表示为2conv 2d relu，即包括两层二维卷积网络和relu激活函数，所述第二单元可以表示为position encoding，所述第三单元可以表示为multi-head attention。
74.如图5所示，参考语音的声学特征序列m经过两层的二维卷积网络和激活函数relu，这样可以学到m中相邻帧之间的语音特征信息，再分别经过position encoding，学习到各个帧之间相对位置关系的位置信息得到d3，再经过多头注意力机制multi head attention可以学习到各方面、多层的语音特征信息，输出第三编码序列c3，所述位置信息包括相邻帧或者语音特征信息各个帧之间的位置关系的相关信息。
75.如图6所示，第二编码序列b
2_1
和b
2_2
分别经过两层二维卷积网络和relu激活函数得到上下文短句的语义信息，所述语义信息包含所述上下文短句中词语和文字之间的关联程度，再分别经过position encoding，学习到每个词语或者文字之间的相对位置关系的位置信息得到d1、d2。将d1和d2信息融合，可以将d1和d2简单相加起来得到d，再经过多头注意力机制multi head attention可以学习到各方面、多层的文本特征信息，输出第四编码序列c4。
76.由以上本发明实施例提供的技术方案可见，本发明实施例通过所述编码模块对所述上下文短句进行编码，得到第二编码序列；将参考语音的声学特征序列和所述第二编码序列输入嵌入模块，输出得到与所述参考语音对应的第三编码序列和与所述上下文短句对应的第四编码序列；将所述第一编码序列、第三编码序列和第四编码序列进行拼接后输入解码模块，输出得到与所述待合成短句对应的语音片段。通过本发明实施例，能够更好得提
取上下文信息用于保证合成语音中各语音片段的韵律关系，提升了语音合成的效果。
77.对应上述实施例提供的语音合成方法，基于相同的技术构思，本发明实施例还提供了一种语音合成装置，图7为本发明实施例提供的语音合成装置的模块组成示意图，该语音合成装置用于执行图1至图6描述的语音合成方法，如图7所示，该语音合成装置包括：预处理单元701、语音合成单元702、语音输出单元704。
78.所述预处理单元701用于预处理单元，用于从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；所述语音合成单元702用于将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；所述语音输出单元703用于根据各待合成短句的语音片段得到所述输入文本的语音文件；
79.其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；
80.所述编码模块，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；
81.所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；其中，所述上下文信息包括所述上下文短句中文字的语义信息和位置信息；
82.所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。
83.进一步地，所述预处理单元701用于：对输入文本进行分段操作，得到所述输入文本的短句集合；根据预设的窗口大小，从所述短句集合中依次选取待合成短句和对应的上下文短句；其中，所述待合成短句包括至少一个短句，所述上下文短句为与所述待合成短句相邻的至少一个短句。
84.进一步地，所述语音合成单元702还用于以训练文本为样本，以与所述训练文本对应的语音训练文件为标签和与所述训练文件本对应的参考语音，对所述语音合成模块进行训练。
85.由以上本发明实施例提供的技术方案可见，本发明实施例通过从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句，从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；根据各待合成短句的语音片段得到所述输入文本的语音文件。通过本发明实施例，在基于分段处理提高了语音合成效率的情况下，通过嵌入参考语音和上下文短句的特征信息，保证了合成语音中各语音片段的韵律关系，以及语言风格的一致性，提升了语音合成的效果，更接近真实语音。
86.基于上述实施例，进一步地，所述编码模块还用于对所述上下文短句进行编码，得到第二编码序列；
87.所述嵌入模块，用于根据输入的所述参考语音的声学特征序列和所述第二编码序列，输出得到与所述参考语音对应的第三编码序列和与所述上下文短句对应的第四编码序列；其中，所述第三编码序列包括所述参考语音的语音特征信息，所述第四编码序列包括所述上下文短句中文字的语义信息和位置信息。
88.进一步地，所述解码模块用于将所述第一编码序列、第三编码序列和第四编码序列进行拼接后解码，输出得到与所述待合成短句对应的语音片段。
89.进一步地，所述嵌入模块包括与所述参考语音对应的第一嵌入模块和与所述上下文短句对应的第二嵌入模块；
90.所述第一嵌入模块，用于根据输入的参考语音的声学特征序列，输出得到与所述参考语音对应的第三编码序列；
91.所述第二嵌入模块，用于根据输入的所述第二编码序列，输出得到与所述上下文短句对应的第四编码序列。
92.进一步地，所述第一嵌入模块和第二嵌入模块均包括：第一单元、第二单元和第三单元，其中，所述第一单元包括两层卷积网络和对应的激活函数，所述第二单元包括用于学习位置信息的编码模块，所述第三单元包括多头注意力机制的神经网络。
93.由以上本发明实施例提供的技术方案可见，本发明实施例通过对所述上下文短句进行编码，得到第二编码序列；将参考语音的声学特征序列和所述第二编码序列输入嵌入模块，输出得到与所述参考语音对应的第三编码序列和与所述上下文短句对应的第四编码序列；将所述第一编码序列、第三编码序列和第四编码序列进行拼接后进行解码，得到与所述待合成短句对应的语音片段。通过本发明实施例，能够更好得提取上下文信息用于保证合成语音中各语音片段的韵律关系，提升了语音合成的效果。
94.本发明实施例提供的语音合成装置能够实现上述语音合成方法对应的实施例中的各个过程，为避免重复，这里不再赘述。
95.需要说明的是，本发明实施例提供的语音合成装置与本发明实施例提供的语音合成方法基于同一发明构思，因此该实施例的具体实施可以参见前述语音合成方法的实施，重复之处不再赘述。
96.对应上述实施例提供的语音合成方法，基于相同的技术构思，本发明实施例还提供了一种电子设备，该电子设备用于执行上述的语音合成方法，图8为实现本发明各个实施例的一种电子设备的结构示意图，如图8所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器801和存储器802，存储器802中可以存储有一个或一个以上存储应用程序或数据。其中，存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器801可以设置为与存储器802通信，在电子设备上执行存储器802中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源803，一个或一个以上有线或无线网络接口804，一个或一个以上输入输出接口805，一个或一个以上键盘806。
97.具体在本实施例中，电子设备包括有处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现以下方法步骤：
98.从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；
99.将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；
100.根据各待合成短句的语音片段得到所述输入文本的语音文件；
101.其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；
102.所述编码模块，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；
103.所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；其中，所述上下文信息包括所述上下文短句中文字的语义信息和位置信息；
104.所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。
105.本技术实施例还提供一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下方法步骤：
106.从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；
107.将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；
108.根据各待合成短句的语音片段得到所述输入文本的语音文件；
109.其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；
110.所述编码模块，用于对所述待合成短句进行编码，得到所述待合成短句的第一编码序列；
111.所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；其中，所述上下文信息包括所述上下文短句中文字的语义信息和位置信息；
112.所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。
113.本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
114.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
115.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
116.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
117.在一个典型的配置中，电子设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
118.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
119.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
120.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
121.本领域技术人员应明白，本技术的实施例可提供为方法、装置或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
122.以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种合律的十二平均律的七孔笛子的制作方法

一种语音合成方法、装置及电子设备与流程

相关文献

最热文献