语音合成方法及装置与流程

2021-12-14 20:51:00 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，包括：确定待转换文本对应的每个音素的时长范围；将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；根据所述待转换文本和每个所述音素的音素时长，生成语音数据。2.如权利要求1所述的语音合成方法，其特征在于，所述确定待转换文本对应的每个音素的时长范围，包括：确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度；根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个所述音素的时长范围。3.如权利要求2所述的语音合成方法，其特征在于，所述确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，包括：将所述待转换文本输入预先设置的文本分析模型，得到所述文本分析模型输出的每个所述音素的发音时长分布密度；将所述待转换文本输入预先设置的时长模型，得到所述时长模型输出的每个所述音素的平均发音时长和发音时长方差。4.如权利要求2所述的语音合成方法，其特征在于，所述根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个所述音素的时长范围，包括：根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，通过正态分布算法确定每个所述音素的时长范围。5.如权利要求1所述的语音合成方法，其特征在于，所述将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长，包括：对于每个所述音素，根据所述音素对应的文字在所述待转换文本中的位置，获取所述音素的文本语义信息；基于所述音素的时长范围和所述音素的文本语义信息，确定所述音素的音素时长。6.如权利要求1所述的语音合成方法，其特征在于，所述将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长，包括：获取用户数据，所述用户数据包括用户的年龄信息和性格信息；基于所述音素的时长范围和所述用户数据，确定每个所述音素的音素时长。7.如权利要求1至6任一所述的语音合成方法，其特征在于，所述根据所述待转换文本和每个所述音素的音素时长，生成语音数据，包括：根据所述待转换文本和每个所述音素的音素时长，通过预先设置的声学模型和声码器生成所述语音数据。8.一种语音合成装置，其特征在于，包括：范围确定模块，用于确定待转换文本对应的每个音素的时长范围；时长确定模块，用于将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；生成模块，用于根据所述待转换文本和每个所述音素的音素时长，生成语音数据。9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上
运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结
本申请适用于终端人工智能技术领域及从文本到语音技术领域，提供了一种语音合成方法及装置，包括：确定待转换文本对应的每个音素的时长范围；将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；根据所述待转换文本和每个音素的音素时长，生成语音数据。针对相同待转换文本的多个语音数据，多个语音数据中同一音素的音素时长可能基于相同的时长范围取值不同，则可以合成得到多种不同的语音数据，避免了针对同一待转换文本每次合成得到相同的语音数据，降低了语音合成的机械性，提高了语音合成的自然度和多样性。提高了语音合成的自然度和多样性。提高了语音合成的自然度和多样性。

技术研发人员：别凡虎
受保护的技术使用者：华为技术有限公司
技术研发日：2020.05.26
技术公布日：2021/12/13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于多模态语音识别结果纠错方法及相关设备与流程

语音合成方法及装置与流程

相关文献

最热文献