语音合成方法、语音交互方法、装置及设备与流程

2021-08-24 16:08:00 来源：中国专利 TAG：语音方法交互装置申请

技术特征：

1.一种语音合成方法，其特征在于，包括：

对待合成文本进行切分，得到其已合成片段和待合成片段；

以所述待合成片段中的音素为单元，确定所述音素的语音片段；

通过查询预设音库获得所述已合成片段的语音片段；所述预设音库基于端到端语音合成模型生成；

根据所述音素及所述已合成片段的语音片段，得到合成语音。

2.根据权利要求1所述的方法，其特征在于，所述待合成文本基于自然语言生成模型对结构化数据处理得到；所述待合成片段包括所述结构化数据中参数值对应的文本片段；所述已合成片段包括所述自然语言生成模型针对所述结构化数据所扩展的文本片段。

3.根据权利要求2所述的方法，其特征在于，所述预设音库包括：所述端到端语音合成模型基于至少一个样本文本生成的生成语音，以及各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的第一对应关系；其中，所述样本文本为所述自然语言生成模型处理样本结构化数据所得到的文本，所述特定样本片段包括已合成样本片段和/或待合成样本片段。

4.根据权利要求3所述的方法，其特征在于，所述通过查询预设音库获得所述已合成片段的语音片段，包括：通过查询所述预设音库获得与所述待合成文本匹配的目标生成语音以及不同特定样本文本片段与所述目标生成语音中语音片段的目标第一对应关系，并根据所述目标第一对应关系从所述目标生成语音中截取与所述已合成片段匹配的语音片段；

所述根据所述音素及所述已合成片段的语音片段，得到合成语音，包括：通过对所述音素及所述已合成片段的语音片段进行拼接，以得到合成语音。

5.根据权利要求3所述的方法，其特征在于，所述通过查询预设音库获得所述已合成片段的语音片段，包括：通过查询所述预设音库获得与所述待合成文本匹配的目标生成语音以及不同特定样本文本片段与所述目标生成语音中语音片段的目标第一对应关系，所述目标生成数据中包括所述已合成片段的语音片段；

所述根据所述音素及所述已合成片段的语音片段，得到合成语音，包括：根据所述目标第一对应关系，使用所述音素的语音片段替换所述目标生成语音中相应的语音片段，以得到合成语音。

6.根据权利要求4或5所述的方法，其特征在于，所述样本结构化数据的个数为多个，且多个所述样本结构化数据与多个数据结构一一对应；所述预设音库还包括：不同生成语音与结构化标识的第二对应关系，所述结构化标识用于标识对应的数据结构；

通过查询所述预设音库获得与所述目标生成语音以及所述目标第一对应关系，包括：

通过将所述待合成文本对应结构化数据的结构化标识作为索引，查询所述预设音库获得与所述目标生成语音以及所述目标第一对应关系。

7.根据权利要求3所述的方法，其特征在于，所述预设音库的生成过程包括如下步骤：

将所述至少一个样本文本分别输入所述端到端语音合成模型，经所述端到端语音合成模型处理，以得到各样本文本的生成语音；

标注各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的对应关系，以得到所述第一对应关系。

8.根据权利要求7所述的方法，其特征在于，所述标注各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的对应关系，包括：

标注各样本文本的音素序列中各音素与各所述样本文本的生成语音中语音帧的第三对应关系；

根据所述第三对应关系，标注各样本文本的不同特定样本片段与各所述样本文本的生成语音中语音片段的对应关系。

9.根据权利要求8所述的方法，其特征在于，所述标注各样本文本的音素序列中各音素与各所述样本文本的生成语音中语音帧的第三对应关系，包括：

将所述样本文本对应的音素序列中各音素的文本特征分别输入特征分类模型，经所述特征分类模型处理得到各所述音素的音频特征；

根据各音素的音频特征以及所述样本文本的生成语音中各语音帧的音频特征，按照所述音素序列的顺序，依次确定出所述生成语音中与各音素匹配的至少一个语音帧；

建立各音素与所述至少一个语音帧的对应关系。

10.一种语音交互方法，其特征在于，包括：

获得针对待合成文本的合成语音，所述合成语音是采用如下方式合成：对所述待合成文本进行切分，得到其已合成片段和待合成片段，以所述待合成片段中的音素为单元，确定所述音素的语音片段，通过查询预设音库获得所述已合成片段的语音片段；所述预设音库基于端到端语音合成模型生成；以及，根据所述音素及所述已合成片段的语音片段，得到所述合成语音；

播放所述合成语音。

11.一种语音合成装置，其特征在于，包括：

切分模块，用于对待合成文本进行切分，得到其已合成片段和待合成片段；

确定模块，用于以所述待合成片段中的音素为单元，确定所述音素的语音片段；

获得模块，用于通过查询预设音库获得所述已合成片段的语音片段；所述预设音库基于端到端语音合成模型生成；

合成模块，用于根据所述音素及所述已合成片段的语音片段，得到合成语音。

12.一种语音交互装置，其特征在于，包括：

获得模块，用于获得针对待合成文本的合成语音，所述合成语音是采用如下方式合成：对所述待合成文本进行切分，得到其已合成片段和待合成片段，以所述待合成片段中的音素为单元，确定所述音素的语音片段，通过查询预设音库获得所述已合成片段的语音片段；所述预设音库基于端到端语音合成模型生成；以及，根据所述音素及所述已合成片段的语音片段，得到所述合成语音；

播放模块，用于播放所述合成语音。

13.一种计算机设备，其特征在于，包括：存储器、处理器；所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至9中任一项所述的方法。

14.一种终端，其特征在于，包括：存储器、处理器；所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求10所述的方法。

技术总结
本申请实施例提供一种语音合成方法、语音交互方法、装置及设备，该方法包括：对待合成文本进行切分，得到其已合成片段和待合成片段；以所述待合成片段中的音素为单元，确定所述音素的语音片段；通过查询预设音库获得所述已合成片段的语音片段；所述预设音库基于端到端语音合成模型生成；根据所述音素及所述已合成片段的语音片段，得到合成语音。本申请能够在实时语音场景下，提高合成语音的流畅度及自然度。

技术研发人员：盖于涛;曹元斌;张斌
受保护的技术使用者：菜鸟智能物流控股有限公司
技术研发日：2020.02.06
技术公布日：2021.08.24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种图像生成方法、装置、设备以及存储介质与流程

语音合成方法、语音交互方法、装置及设备与流程

相关文章

最热文献