技术特征:
1.一种语音合成方法,包括:
对待合成的第一文本进行文本编码,获得第一合成特征;
对第一声学特征进行声学编码,获得第二合成特征;
对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;以及
对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。
2.如权利要求1所述的方法,其中,对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,以获得第三合成特征,包括:
对所述第一合成特征的一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理,获得对齐合成特征;
在所述第一合成特征的另一部分中嵌入所述发音人标识信息;
针对嵌有所述发音人标识信息的所述第一合成特征的另一部分、所述对齐合成特征和所述第二合成特征进行矩阵乘运算和拼接处理,获得所述第三合成特征。
3.如权利要求2所述的方法,其中,对所述第一合成特征的一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理,包括:
在通道维度上均分所述第一合成特征,获得第一子特征和第二子特征;
对所述第一子特征和所述第二合成特征进行矩阵乘运算,获得第四合成特征;
对所述第四合成特征进行归一化指数函数处理,获得所述对齐合成特征。
4.如权利要求1所述的方法,还包括:
在停止合成标记指示停止所述第一文本的语音合成时,生成所述第一文本的声学特征序列,所述第一文本的声学特征序列包括所述第一文本的所有第二声学特征;或者,
在所述停止合成标记指示继续所述第一文本的语音合成时,利用当前获得的所述第二声学特征重置所述第一声学特征,并重复所述声学编码、对齐处理和声学解码的步骤,获得所述第一文本的下一第二声学特征。
5.一种语音合成模型的训练方法,包括:
设置语音合成模型中的语音合成参数为当前值,所述语音合成参数至少包括如下之一:文本编码参数、声学编码参数和声学解码参数;
利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成,获得所述第二文本的预测声学特征,所述语音合成模型的语音合成包括依次执行的文本编码、声学编码、对齐处理和声学解码;以及
根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值。
6.如权利要求5所述的方法,其中,根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值,包括:
根据所述第二文本的预测声学特征和真实声学特征,确定第一损失值;
根据所述对齐处理产生的对齐训练特征,确定第二损失值;以及
至少基于所述第一损失值、第二损失值,确定语音合成参数的更新值。
7.如权利要求5所述的方法,其中,在获得所述第二文本的预测声学特征的同时,还获得预测的停止合成标记向量;
根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值,包括:
根据所述第二文本的预测声学特征和真实声学特征,确定第一损失值;
根据所述对齐处理产生的对齐训练特征,确定第二损失值;
根据所述预测的停止合成标记向量和预先获得的真实声音标记向量,确定第三损失值;以及
基于所述第一损失值、第二损失值和第三损失值,确定所述语音合成参数的更新值。
8.如权利要求7所述的方法,其中,基于所述第一损失值、第二损失值和第三损失值,确定语音合成参数的更新值,包括:
对所述第一损失值、第二损失值和第三损失值进行加权求和,以获得总损失值;
根据所述总损失值和所述语音合成参数中各个参数的当前值,确定所述语音合成参数中各个参数的梯度值;
利用所述语音合成参数中各个参数的梯度值计算所述语音合成参数中相应参数的更新值。
9.一种语音合成装置,包括:
文本编码单元,配置为对待合成的第一文本进行文本编码,获得第一合成特征;
声学编码单元,配置为对第一声学特征进行声学编码,获得第二合成特征;
对齐处理单元,配置为对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;
声学解码单元,配置为对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。
10.一种电子设备,包括:
一个或多个处理器;以及
存储器,存储有计算机程序,所述计算机程序在被所述处理器运行时使所述处理器执行根据权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时使得所述处理器执行如权利要求1至8中任一项所述的方法。
技术总结
公开了一种语音合成方法及语音合成模型的训练方法、装置、设备。本公开的一实施例中,语音合成方法可以包括:对待合成的第一文本进行文本编码,获得第一合成特征;对第一声学特征进行声学编码,获得第二合成特征;对所述第一合成特征、第二合成特征和预先选定的发音人标识信息进行对齐处理,获得第三合成特征;以及,对所述第三合成特征进行声学解码,获得所述第一文本的第二声学特征。本公开实施例通过一语音合成模型即可实现多发音人的语音合成。
技术研发人员:胡大盟
受保护的技术使用者:北京地平线机器人技术研发有限公司
技术研发日:2020.01.13
技术公布日:2021.07.30
本文用于企业家、创业者技术爱好者查询,结果仅供参考。