基于人工智能的语音合成方法、装置、计算机设备及介质与流程

2022-09-07 17:07:24 来源：中国专利 TAG：

1.本发明适用于语音合成技术领域，尤其涉及基于人工智能的语音合成方法、装置、计算机设备及介质。

背景技术：

2.语音合成是一种将文本信息转换为语音信息的技术，即将文字信息转换为任意的可听的语音，涉及到声学、语言学和计算机科学等多门学科。
3.随着深度学习技术的发展，目前主流的端到端语音合成系统大都采用注意力机制来隐式地学习文本到语音的对齐关系，同时采用自回归的语音生成模式，要求后一语音帧的生成以前一语音帧作为输入，对语音帧有较强的前后依赖关系和时序性，因此，对语音样本的数据量和质量要求很高，基于零语音样本或轻量级语音样本进行语音合成时，合成语音的音色与用户本身音色差异较大，导致语音合成效果较差。
4.因此，在语音合成技术领域，如何在零语音样本或轻量级语音样本下，降低合成语音的音色与目标用户音色之间的差异，提升语音合成效果成为亟待解决的问题。

技术实现要素：

5.有鉴于此，本发明实施例提供了基于人工智能的语音合成方法、装置、计算机设备及介质，以解决现有技术在零语音样本或轻量级语音样本下，合成语音的音色与目标用户音色的差异较大的问题。
6.第一方面，本发明实施例提供一种语音合成方法，所述语音合成方法包括：
7.获取目标用户的参考语音频谱和目标语音音素，基于训练好的语音合成模型对所述参考语音频谱和所述目标语音音素进行处理，所述语音合成模型包括训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器；所述处理包括：
8.将所述参考语音频谱输入至所述训练好的频谱编码器，得到参考音色内容特征，将所述目标语音音素输入至所述训练好的音素编码器，得到目标内容特征；
9.将所述参考音色内容特征和所述目标内容特征输入至所述训练好的识别编码器，得到目标音色内容特征；
10.对所述目标音色内容特征进行采样，将采样结果输入至所述训练好的用户表征预测器，得到用户身份内容特征；
11.将所述目标音色内容特征和所述用户身份内容特征进行特征融合，将得到的融合特征输入至所述训练好的频谱解码器，得到目标用户的语音合成结果。
12.第二方面，本发明实施例提供一种语音合成装置，所述语音合成装置包括：
13.数据获取模块：用于获取目标用户的参考语音频谱和目标语音音素；
14.频谱编码器，用于输入所述参考语音频谱，输出参考音色内容特征；
15.音素编码器，用于输入所述目标语音音素，输出目标内容特征；
16.识别编码器，用于输入所述参考音色内容特征和所述目标内容特征，输出目标音色内容特征；
17.用户表征预测器，用于对所述目标音色内容特征进行采样，根据得到的采样结果输出用户身份内容特征；
18.频谱解码器：用于将所述目标音色内容特征和所述用户身份内容特征进行特征融合，根据得到的融合特征输出目标用户的语音合成结果。
19.第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的语音合成方法。
20.第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音合成方法。
21.本发明实施例与现有技术相比存在的有益效果是：通过获取目标用户的参考语音频谱和目标语音音素，将参考语音频谱输入至训练好的频谱编码器，得到参考音色内容特征，将目标语音音素输入至训练好的音素编码器，得到目标内容特征，然后将参考音色内容特征和目标内容特征输入至训练好的识别编码器，得到目标音色内容特征，通过对目标音色内容特征进行采样，将采样结果输入至训练好的用户表征预测器，得到用户身份内容特征，然后将目标音色内容特征和用户身份内容特征进行特征融合，将融合特征输入至训练好的频谱解码器，得到目标用户的语音合成结果，通过一一对应的目标音色内容特征和用户身份内容特征融合得到的融合特征，来表征目标用户音色和目标内容，以得到目标用户的语音合成结果，降低了合成语音的音色与用户本身音色的差异，优化了语音合成效果。
附图说明
22.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
23.图1是本发明实施例一提供的一种语音合成方法的一应用环境示意图；
24.图2是本发明实施例一提供的一种语音合成方法的流程示意图；
25.图3是本发明实施例二提供的一种语音合成装置的结构示意图；
26.图4是本发明实施例三提供的一种计算机设备的结构示意图。
具体实施方式
27.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。
28.应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、
步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
30.如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0031]
另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0032]
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0033]
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0034]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0035]
应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0036]
为了说明本发明的技术方案，下面通过具体实施例来进行说明。
[0037]
本发明实施例一提供的一种语音合成方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、云端计算机设备、个人数字助理(personal digital assistant，pda)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0038]
参见图2，是本发明实施例一提供的一种语音合成方法的流程示意图，上述语音合成方法可以应用于图1中的客户端，该语音合成方法可以包括以下步骤：
[0039]
步骤s201，获取目标用户的参考语音频谱和目标语音音素，基于训练好的语音合成模型对参考语音频谱和目标语音音素进行处理，语音合成模型包括训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器。
[0040]
其中，目标用户的参考语音频谱可以根据目标用户对参考文本的真实发音得到，
参考文本可以是一句话，也可以是一个字词，以保证轻量级语音样本或者接近零语音样本，参考语音频谱根据既包含了目标用户的音色信息，也包含了参考文本的内容信息。
[0041]
目标语音音素可以由目标语音文本按照发音字典完成文字到音素的查找得到，目标语音文本可以是一句话，可以是一个字词，也可以是一段话，以使得目标用户生成的语音频谱中包含该目标语音音素的内容信息。
[0042]
语音合成模型中所使用的编码器均为预先训练好的编码器，包括训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器，用于对参考语音频谱和目标语音音素进行特征提取和处理，以得到目标用户的语音合成结果。
[0043]
可选的是，在语音合成模型训练时，在语音合成模型中添加临时嵌入层和预训练好的临时编码器，以样本用户的样本语音频谱、样本语音音素和样本用户编号作为训练样本，以真实样本频谱作为训练标签；
[0044]
语音合成模型的训练过程包括：
[0045]
将样本语音频谱输入至频谱编码器进行特征提取，得到样本频谱特征；
[0046]
将样本语音音素输入至音素编码器进行特征提取，得到样本音素特征；
[0047]
将样本用户编号输入至临时嵌入层进行特征提取，得到样本嵌入向量；
[0048]
将样本频谱特征和样本音素特征进行特征融合，将得到的第一融合特征输入识别编码器，得到样本音色内容特征；
[0049]
将样本嵌入向量和样本音素特征进行特征融合，将得到的第二融合特征输入至预训练好的临时编码器，得到样本身份内容特征；
[0050]
对样本音色内容特征进行高斯采样，将采样结果输入至用户表征预测器，得到样本预测编号；
[0051]
将采样结果与样本用户编号相乘，得到融合样本频谱特征；
[0052]
将融合样本频谱特征输入至频谱解码器，得到预测语音频谱。
[0053]
其中，语音合成模型的训练样本包括样本用户的样本语音频谱、样本语音音素和样本用户编号，训练标签为真实样本频谱，其中，训练集中包含大量的样本用户，样本语音频谱可以根据样本用户对样本参考文本的真实发音得到，样本参考文本可以是一句话，也可以是一个字词，样本语音频谱既包含了样本用户的音色信息，也包含了样本参考文本的内容信息。
[0054]
样本语音音素可以由样本语音文本按照发音字典完成文字到音素的查找得到，样本语音文本可以是一句话，可以是一个字词，也可以是一段话，以指示样本用户的真实样本频谱中包含该样本语音音素的内容信息。
[0055]
样本用户编号是样本用户的身份认证信息，样本用户编号、样本用户音色和样本用户一一对应。
[0056]
真实样本频谱根据目标用户对样本语音文本的真实发音得到，既包含了样本用户的音色信息，也包含了样本语音文本的内容信息。
[0057]
在进行语音合成模型训练时，在语音合成模型中添加临时嵌入层和预训练好的临时编码器，因此，训练过程中的语音合成模型包括频谱编码器、音素编码器、临时嵌入层、识别编码器、临时编码器、用户表征预测器以及频谱解码器，语音合成模型的具体训练过程如
下：
[0058]
首先，将样本语音频谱输入至频谱编码器进行特征提取，得到样本频谱特征，该样本频谱特征用来表示样本用户的音色信息和样本参考文本的内容信息，将样本语音音素输入至音素编码器进行特征提取，得到样本音素特征，该样本音素特征用来表示样本语音音素的内容信息，将样本用户编号输入至临时嵌入层进行特征提取，得到样本嵌入向量，用来表示样本用户的身份认证信息，其中，同一样本用户的音色信息和身份认证信息一一对应。
[0059]
其次，将样本频谱特征和样本音素特征进行特征融合，得到第一融合特征，将第一融合特征输入识别编码器，得到样本音色内容特征，该样本音色内容特征用来表示样本用户的音色信息、样本参考文本的内容信息以及样本语音音素的内容信息，将样本嵌入向量和样本音素特征进行特征融合，得到第二融合特征，将第二融合特征输入至预训练好的临时编码器，得到样本身份内容特征，该样本身份内容特征用来表示样本用户的身份认证信息以及样本语音音素的内容信息。
[0060]
再次，对样本音色内容特征进行高斯采样，将采样结果输入至用户表征预测器，得到样本预测编号，该样本预测编号用来表征预测的样本用户的身份认证信息，同时，将采样结果与样本用户编号相乘，得到融合样本频谱特征，用来根据样本用户的音色信息和样本用户的身份认证信息的融合得到融合样本频谱特征，提高对样本用户音色的表征程度。
[0061]
最后，将融合样本频谱特征输入至频谱解码器，得到预测语音频谱，该预测语音频谱用来表征预测的样本用户的音色信息和预测的样本语音文本的内容信息，以通过表征程度更强的融合样本频谱特征生成预测语音频谱，降低生成的预测语音频谱的音色与样本用户真实样本频谱的音色之间的差异，优化该语音合成模型的语音合成效果。
[0062]
在语音合成模型的训练过程中，为了保证模型训练的质量，在训练过程中根据得到的样本音色内容特征、样本身份内容特征、样本预测编号、样本用户编号、预测语音频谱和真实样本频谱计算损失函数，并以损失函数为依据，通过梯度下降法更新频谱编码器、音素编码器、识别编码器、用户表征预测器和频谱解码器的参数，以得到训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器，从而实现根据轻量级语音样本或者接近零语音样本，生成目标用户的高质量语音合成结果的目的。
[0063]
可选的是，损失函数包括：
[0064]
相对熵，相对熵根据样本音色内容特征和样本身份内容特征计算得到，以相对熵为依据，通过梯度下降法更新频谱编码器、音素编码器和识别编码器的参数，直至相对熵收敛，得到预训练好的频谱编码器、预训练好的音素编码器和预训练好的识别编码器。
[0065]
其中，样本音色内容特征以特征分布的形式存在，表示样本用户的音色信息、样本参考文本的内容信息以及样本语音音素的内容信息，样本身份内容特征同样以特征分布的形式存在，表示样本用户的身份认证信息以及样本语音音素的内容信息，且样本用户的音色信息与样本用户的身份认证信息一一对应。
[0066]
因此，计算样本音色内容特征以及样本身份内容特征之间的相对熵，用相对熵来表征样本音色内容特征和样本身份内容特征之间的相近程度，且相对熵越小，表示样本音色内容特征和样本身份内容特征越相近，说明样本音色内容特征对样本参考文本的内容信息的表征程度越小，相对熵越大，表示样本音色内容特征和样本身份内容特征的差异越大，
说明样本音色内容特征对样本参考文本的内容信息的表征程度越大。
[0067]
则通过梯度下降法更新频谱编码器、音素编码器和识别编码器的参数后，重新计算样本音色内容特征以及样本身份内容特征之间的相对熵，直至相对熵收敛，使得样本音色内容特征尽可能接近样本身份内容特征，以保证频谱编码器可以滤除样本参考文本的内容信息，尽可能地学习样本用户的音色信息，以提高频谱编码器对样本用户音色信息的表征程度。
[0068]
在一实施方式中，将样本音色内容特征记为p(x)，将样本身份内容特征记为q(x)，将样本音色内容特征p(x)以及样本身份内容特征q(x)之间的相对熵记为d
kl
(p‖q)，则有：
[0069]dkl
(p‖q)＝e[logp(x)-logq(x)]
[0070]
式中，p(x)是样本音色内容特征，q(x)是样本身份内容特征，e[logp(x)-logq(x)]为样本音色内容特征p(x)和样本身份内容特征q(x)之间的对数差值的期望。
[0071]
相对熵d
kl
(p‖q)越小，样本音色内容特征p(x)与样本身份内容特征q(x)越相近，说明样本音色内容特征p(x)对样本参考文本的内容信息的表征程度越小，则通过梯度下降法更新频谱编码器、音素编码器和识别编码器的参数后，得到参数更新后的样本音色内容特征记为p(x)
′
和样本身份内容特征q(x)
′
，重新计算样本音色内容特征记为p(x)
′
和样本身份内容特征q(x)
′
之间的相对熵d
kl
(p‖q)
′
，直至相对熵收敛，以保证频谱编码器可以滤除样本参考文本的内容信息，尽可能地学习样本用户的音色信息，以提高频谱编码器对样本用户音色信息的表征程度。
[0072]
可选的是，损失函数包括：
[0073]
第一均方差损失，第一均方差损失根据预测编号和样本用户编号计算得到，以第一均方差损失为依据，通过梯度下降法更新用户表征预测器的参数，直至第一均方差损失收敛，得到预训练好的用户表征预测。
[0074]
其中，预测编号表征预测的样本用户的身份认证信息，样本用户编号是样本用户的身份认证信息，计算预测编号和样本用户编号之间的第一均方差损失，用第一均方差损失来表征预测编号和样本用户编号之间的相近程度，且第一均方差损失越小，表示预测编号和样本用户编号之间越相近，说明用户表征预测器对样本音色内容特征的表征效果越好，第一均方差损失越大，表示预测编号和样本用户编号之间的差异越大，说明用户表征预测器对样本音色内容特征的表征效果越差。
[0075]
因此，通过梯度下降法更新用户表征预测器的参数后，重新计算预测编号和样本用户编号之间的第一均方差损失，直至第一均方差损失收敛，使得预测编号尽可能接近样本用户编号，以提高用户表征预测器对样本音色内容特征的表征程度。
[0076]
在一实施方式中，将预测编号记为y，将样本用户编号记为b，将预测编号y以及样本用户编号b之间的第一均方差损失记为s1，则第一均方差损失s1为：
[0077][0078]
式中，y为预测编号，b为样本用户编号。
[0079]
预测编号y以及样本用户编号b之间的第一均方差损失s1越小，说明用户表征预测器对样本音色内容特征的表征效果越好，则通过梯度下降法更新用户表征预测器的参数后，得到参数更新后的预测编号y
′
以及样本用户编号b
′
，重新计算更新后的预测编号y
′
以
及样本用户编号b
′
之间的第一均方差损失s1′
，直至第一均方差损失收敛，以提高用户表征预测器对样本音色内容特征的表征程度。
[0080]
可选的是，损失函数包括：
[0081]
第二均方差损失，第二均方差损失根据预测语音频谱和真实样本频谱计算得到，以第二均方差损失为依据，通过梯度下降法更新频谱解码器的参数，直至第二均方差损失收敛，得到预训练好的频谱解码器。
[0082]
其中，预测语音频谱表征预测的样本用户的音色信息和预测的样本语音文本的内容信息，真实样本频谱是样本用户的音色信息和样本语音文本的内容信息，计算预测语音频谱和真实样本频谱之间的第二均方差损失，用第二均方差损失来表征预测语音频谱和真实样本频谱之间的相近程度，且第二均方差损失越小，表示预测语音频谱和真实样本频谱之间越相近，说明频谱解码器对样本音色内容特征和样本用户编号的融合特征的表征效果越好，第二均方差损失越大，表示预测语音频谱和真实样本频谱之间的差异越大，说明频谱解码器对样本音色内容特征和样本用户编号的融合特征的表征效果越差。
[0083]
因此，通过梯度下降法更新频谱解码器的参数后，重新计算预测语音频谱和真实样本频谱之间的第二均方差损失，直至第二均方差损失收敛，使得预测语音频谱尽可能接近真实样本频谱，以提高频谱解码器对样本音色内容特征和样本语音音素的内容信息的表征程度，降低合成语音的音色与用户本身音色的差异，优化该语音合成模型的语音合成效果。
[0084]
在一实施方式中，将预测语音频谱记为j，将真实样本频谱记为z，将预测语音频谱j以及真实样本频谱z之间的第二均方差损失记为s2，则第二均方差损失s2为：
[0085][0086]
式中，j为预测语音频谱，z为真实样本频谱。
[0087]
预测语音频谱j以及真实样本频谱z之间的第二均方差损失s2越小，表示预测语音频谱j以及真实样本频谱z越相近，说明频谱解码器对样本音色内容特征和样本用户编号的融合特征的表征效果越好，则通过梯度下降法更新频谱解码器的参数后，得到参数更新后的预测语音频谱j
′
以及真实样本频谱z
′
，重新计算更新后的预测语音频谱j
′
以及真实样本频谱z
′
之间的第二均方差损失s2′
，直至第二均方差损失收敛，以提高频谱解码器对样本音色内容特征和样本语音音素的内容信息的表征程度，降低合成语音的音色与用户本身音色的差异，优化该语音合成模型的语音合成效果。
[0088]
根据上述语音合成模型的训练过程，完成对频谱编码器、音素编码器、识别编码器、用户表征预测器以及频谱解码器的训练，得到训练好的频谱编码器、训练好的音素编码器、训练好的识别编码器、训练好的用户表征预测器以及训练好的频谱解码器，用于根据轻量级语音样本或者接近零语音样本，生成目标用户的语音合成结果。
[0089]
步骤s202，将参考语音频谱输入至训练好的频谱编码器，得到参考音色内容特征，将目标语音音素输入至训练好的音素编码器，得到目标内容特征。
[0090]
其中，参考语音频谱可以根据目标用户对参考文本的真实发音得到，参考文本可以是一句话，也可以是一个字词，以保证轻量级语音样本或者接近零语音样本，获得语音合成模型中训练好的频谱编码器，将参考语音频谱输入至训练好的频谱编码器，得到参考音
色内容特征，该参考音色内容特征用来表示目标用户的音色信息和参考文本的内容信息。
[0091]
目标语音音素可以根据目标语音文本按照发音字典完成文字到音素的查找得到，目标语音文本可以是一句话，可以是一个字词，也可以是一段话，获得语音合成模型中训练好的音素编码器，将目标语音音素输入至训练好的音素编码器，得到目标内容特征，该目标内容特征用来表示对应目标语音因素的内容信息。
[0092]
步骤s203，将参考音色内容特征和目标内容特征输入至训练好的识别编码器，得到目标音色内容特征。
[0093]
其中，参考音色内容特征表示目标用户的音色信息和参考文本的内容信息，目标内容特征表示对应目标语音因素的内容信息，获得语音合成模型中训练好的识别编码器，将参考音色内容特征和目标内容特征共同输入至训练好的识别编码器，得到目标音色内容特征，训练好的识别编码器已滤除目标音色内容特征中的参考文本的内容信息，因此，该目标音色内容特征表示目标用户的音色信息和样本语音音素的内容信息。
[0094]
步骤s204，对目标音色内容特征进行采样，将采样结果输入至训练好的用户表征预测器，得到用户身份内容特征。
[0095]
其中，目标音色内容特征以特征分布的形式存在，表示样本用户的音色信息和样本语音音素的内容信息，对该目标音色内容特征进行采样，得到采样结果，获得语音合成模型中训练好的用户表征预测器，将得到的采样结果输入至训练好的用户表征预测器，得到用户身份内容特征，且该用户身份内容特征与目标音色内容特征一样，均能够表示目标用户的音色信息和样本语音音素的内容信息。
[0096]
步骤s205，将目标音色内容特征和用户身份内容特征进行特征融合，将得到的融合特征输入至训练好的频谱解码器，得到目标用户的语音合成结果。
[0097]
其中，目标音色内容特征和用户身份内容特征均表示目标用户的音色信息和样本语音音素的内容信息，将目标音色内容特征和用户身份内容特征进行特征融合，得到融合特征，该融合特征根据不同表征形式的特征融合得到，对目标用户的音色信息和样本语音音素的内容信息的表征程度更强。
[0098]
获得语音合成模型中训练好的频谱解码器，将该融合特征输入至训练好的频谱解码器，得到目标用户的语音合成结果。
[0099]
本发明实施例通过获取目标用户的参考语音频谱和目标语音音素，将参考语音频谱输入至训练好的频谱编码器，得到参考音色内容特征，将目标语音音素输入至训练好的音素编码器，得到目标内容特征，然后将参考音色内容特征和目标内容特征输入至训练好的识别编码器，得到目标音色内容特征，通过对目标音色内容特征进行采样，将采样结果输入至训练好的用户表征预测器，得到用户身份内容特征，然后将目标音色内容特征和用户身份内容特征进行特征融合，将融合特征输入至训练好的频谱解码器，得到目标用户的语音合成结果，通过一一对应的目标音色内容特征和用户身份内容特征融合得到的融合特征，来表征目标用户音色和目标内容，以得到目标用户的语音合成结果，降低了合成语音的音色与用户本身音色的差异，优化了语音合成效果。
[0100]
对应于上文实施例的语音合成方法，图3给出了本发明实施例二提供的语音合成装置的结构框图，为了便于说明，仅示出了与本发明实施例相关的部分。
[0101]
参见图3，该语音合成装置包括：
[0102]
数据获取模块31：用于获取目标用户的参考语音频谱和目标语音音素；
[0103]
频谱编码器32，用于输入参考语音频谱，输出参考音色内容特征；
[0104]
音素编码器33，用于输入目标语音音素，输出目标内容特征；
[0105]
识别编码器34，用于输入参考音色内容特征和目标内容特征，输出目标音色内容特征；
[0106]
用户表征预测器35，用于对目标音色内容特征进行采样，根据得到的采样结果输出用户身份内容特征；
[0107]
频谱解码器36：用于将目标音色内容特征和所述用户身份内容特征进行特征融合，根据得到的融合特征输出目标用户的语音合成结果。
[0108]
可选的是，该语音合成装置还包括：
[0109]
所述频谱编码器32，用于在进行模型训练时，输入样本语音频谱，输出样本频谱特征；
[0110]
所述音素编码器33，用于在进行模型训练时，输入样本语音音素，输出样本音素特征；
[0111]
临时嵌入层，用于在进行模型训练时，输入样本用户编号，输出样本嵌入向量；
[0112]
所述识别编码器34，用于在进行模型训练时，将样本频谱特征和样本音素特征进行特征融合，根据得到的第一融合特征输出样本音色内容特征；
[0113]
临时编码器，用于在进行模型训练时，将样本嵌入向量和样本音素特征进行特征融合，根据得到的第二融合特征输出样本身份内容特征；
[0114]
所述用户表征预测器35，用于在进行模型训练时，对样本音色内容特征进行采样，根据得到的采样结果输出样本预测编号；
[0115]
特征融合模块，用于在进行模型训练时，将采样结果与样本用户编号相乘，得到融合样本频谱特征；
[0116]
所述频谱解码器36，用于在进行模型训练时，输入融合样本频谱特征，输出预测语音频谱。
[0117]
参数更新模块，用于在进行模型训练时，根据样本音色内容特征、样本身份内容特征、样本预测编号、样本用户编号、预测语音频谱和真实样本频谱计算损失函数，以损失函数为依据，通过梯度下降法更新频谱编码器、音素编码器、识别编码器、用户表征预测器和频谱解码器的参数。
[0118]
可选的是，上述参数更新模块包括：
[0119]
相对熵计算子模块，用于根据样本音色内容特征和样本身份内容特征计算得到，以相对熵为依据，通过梯度下降法更新频谱编码器、音素编码器和识别编码器的参数，直至相对熵收敛，得到预训练好的频谱编码器、预训练好的音素编码器和预训练好的识别编码器；
[0120]
第一均方差损失子模块，用于根据预测编号和样本用户编号计算得到，以第一均方差损失为依据，通过梯度下降法更新用户表征预测器的参数，直至第一均方差损失收敛，得到预训练好的用户表征预测；
[0121]
第二均方差损失子模块，用于根据预测语音频谱和真实样本频谱计算得到，以第二均方差损失为依据，通过梯度下降法更新频谱解码器的参数，直至第二均方差损失收敛，
得到预训练好的频谱解码器。
[0122]
需要说明的是，上述模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。
[0123]
图4为本发明实施例三提供的一种计算机设备的结构示意图。如图4所示，该实施例的计算机设备包括：至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序，处理器执行计算机程序时实现上述任意各个语音合成方法实施例中的步骤。
[0124]
该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图4仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。
[0125]
所称处理器可以是cpu，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0126]
存储器包括可读存储介质、内存储器等，其中，内存储器可以是计算机设备的内存，内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘，在另一些实施例中也可以是计算机设备的外部存储设备，例如，计算机设备上配备的插接式硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等，该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
[0127]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够携带计算机程序代码的任何实体
或装置、记录介质、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。
[0128]
本发明实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现可实现上述方法实施例中的步骤。
[0129]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0130]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0131]
在本发明所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0132]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0133]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于单调性约束函数进行序列语音合成的方法及装置与流程

基于人工智能的语音合成方法、装置、计算机设备及介质与流程

相关文献

最热文献