一种语音合成方法、装置及电子设备与流程

2022-04-02 06:26:41 来源：中国专利 TAG：

技术特征：
1.一种语音合成方法，其特征在于，所述方法包括：从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；根据各待合成短句的语音片段得到所述输入文本的语音文件；其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；所述编码模块，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。2.根据权利要求1所述的方法，其特征在于，所述编码模块还用于对所述上下文短句进行编码，得到第二编码序列；所述嵌入模块，用于根据输入的所述参考语音的声学特征序列和所述第二编码序列，输出得到与所述参考语音对应的第三编码序列和与所述上下文短句对应的第四编码序列；其中，所述第三编码序列包括所述参考语音的语音特征信息，所述第四编码序列包括所述上下文短句中文字的语义信息和位置信息。3.根据权利要求2所述的方法，其特征在于，所述解码模块具体用于将所述第一编码序列、第三编码序列和第四编码序列进行拼接后解码，输出得到所述待合成短句对应的语音片段。4.根据权利要求2所述的方法，其特征在于，所述嵌入模块包括与所述参考语音对应的第一嵌入模块和与所述上下文短句对应的第二嵌入模块；所述第一嵌入模块，用于根据输入的参考语音的声学特征序列，输出得到与所述参考语音对应的第三编码序列；所述第二嵌入模块，用于根据输入的所述第二编码序列，输出得到与所述上下文短句对应的第四编码序列。5.根据权利要求4所述的方法，其特征在于，所述第一嵌入模块和第二嵌入模块均包括：第一单元、第二单元和第三单元，其中，所述第一单元包括两层卷积网络和对应的激活函数，所述第二单元包括用于学习位置信息的编码模块，所述第三单元包括多头注意力机制的神经网络。6.根据权利要求1所述的方法，其特征在于，所述从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句，包括：对输入文本进行分段处理，得到所述输入文本的短句集合；根据预设的窗口大小，从所述短句集合中依次选取待合成短句和对应的上下文短句；其中，所述待合成短句包括至少一个短句，所述上下文短句为与所述待合成短句相邻的至少一个短句。7.根据权利要求1-6任一所述的方法，其特征在于，在从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句之前，所述方法还包括：
以训练文本为样本，以与所述训练文本对应的语音训练文件为标签和与所述训练文件对应的参考语音，对所述语音合成模块进行训练。8.一种语音合成装置，其特征在于，所述装置包括：预处理单元，用于从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；语音合成单元，用于将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；语音输出单元，用于根据各待合成短句的语音片段得到所述输入文本的语音文件；其中，所述语音合成模型包括：编码模块、嵌入模块和解码模块；所述编码模块，用于对所述待合成短句进行编码，得到与所述待合成短句的第一编码序列；所述嵌入模块，用于提取与所述待合成短句对应的参考语音的语音特征信息和与所述上下文短句对应的上下文信息；所述解码模块，用于根据所述语音特征信息和上下文信息，对所述第一编码序列进行解码，得到与所述待合成短句对应的语音片段。9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线；其中，所述处理器、所述通信接口以及所述存储器通过总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序，实现如权利要求1-7任一项所述的语音合成方法步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音合成方法步骤。

技术总结
本发明实施例提供了一种语音合成方法、装置及电子设备，该方法包括：从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句，从输入文本中选取待合成短句和与所述待合成短句对应的上下文短句；将选取的待合成短句和上下文短句，以及与所述待合成短句对应的参考语音输入到预设的语音合成模型，输出得到所述待合成短句的语音片段；根据各待合成短句的语音片段得到所述输入文本的语音文件。通过本发明实施例，在基于分段处理提高了语音合成效率的情况下，通过嵌入参考语音和上下文短句的特征信息，保证了合成语音中各语音片段的韵律关系，以及语言风格的一致性，提升了语音合成的效果，更接近真实语音。更接近真实语音。更接近真实语音。

技术研发人员：刘鹏飞蒋宁吴海英王洪斌刘敏
受保护的技术使用者：马上消费金融股份有限公司
技术研发日：2021.12.16
技术公布日：2022/4/1

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种合律的十二平均律的七孔笛子的制作方法

一种语音合成方法、装置及电子设备与流程

相关文献

最热文献