一种语音合成方法及装置与流程

2021-09-25 03:23:00 来源：中国专利 TAG：语音合成装置方法

技术特征：
1.一种语音合成方法，其特征在于，包括：获取文本，所述文本包括需要强调的文本；在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音，使得对所述需要强调的文本对应的语音进行强调。2.根据权利要求1所述的方法，其特征在于，所述在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音，使得对所述需要强调的文本对应的语音进行强调，包括：在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语音属性，使得对所述需要强调的文本对应的语音进行强调，所述语音属性包括语速、基频、能量中至少一种。3.根据权利要求2所述的方法，其特征在于，所述语音属性包括语速，所述在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语音属性，使得对所述需要强调的文本对应的语音进行强调，包括：在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语速，使得在所述语音中，越靠近所述需要强调的文本对应的语音，语速越慢。4.根据权利要求3所述的方法，其特征在于，所述在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语速，使得在所述语音中，越靠近所述需要强调的文本对应的语音，语速越慢，包括：将所述文本输入语音合成模型得到音频特征序列，使得在所述音频特征序列中，越靠近所述需要强调的文本对应的音频特征，语速越慢；所述语音合成模型是以文本样本为输入，所述文本样本对应的音频特征序列样本为输出训练获得，所述文本样本携带需要强调的文本在所述文本样本中的位置；基于所述音频特征序列合成所述文本对应的语音。5.根据权利要求4所述的方法，其特征在于，所述语音合成模型包括前向注意力模块，所述将所述文本输入语音合成模型得到音频特征序列，使得在所述音频特征序列中，越靠近所述需要强调的文本对应的音频特征，语速越慢，包括：将所述文本转换成音素序列；将所述需要强调的文本对应的强调向量和当前帧的对齐函数进行点积，得到所述当前帧的强调特征；所述强调向量表征所述需要强调的文本对应的音素在所述音素序列中的位置；将所述当前帧的强调特征作为偏置，添加到所述前向注意力模块的输入中，得到在所述当前帧时移动到下一个音素上的概率；根据所述在所述当前帧时移动到下一个音素上的概率，以及所述音素序列，生成所述音频特征序列。6.根据权利要求2所述的方法，其特征在于，所述语音属性包括语速，所述在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语音属性，使得对所述需要强调的文本对应的语音进行强调，包括：在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述需要强调的文本对应的语音的语速，使得在所述语音中，所述需要强调的文本对应的语音的语速为预
设语速、或逐渐增加或减少至预设语速。7.根据权利要求2所述的方法，其特征在于，所述语音属性包括基频和/或能量，所述在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语音属性，使得对所述需要强调的文本对应的语音进行强调，包括：在所述语音中，加强所述需要强调的文本对应的语音的基频和/或能量；或者，在所述语音中，减弱所述需要强调的文本对应的语音的基频和/或能量。8.一种语音合成装置，其特征在于，包括：文本获取模块，用于获取文本，所述文本包括需要强调的文本；语音合成模块，用于在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音，使得对所述需要强调的文本对应的语音进行强调。9.根据权利要求8所述的装置，其特征在于，所述语音合成模块，包括：属性调整子模块，用于在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语音属性，使得对所述需要强调的文本对应的语音进行强调，所述语音属性包括语速、基频、能量中至少一种。10.根据权利要求9所述的装置，其特征在于，所述语音属性包括语速，所述属性调整子模块，包括：语速调整单元，用于在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音的语速，使得在所述语音中，越靠近所述需要强调的文本对应的语音，语速越慢。11.根据权利要求10所述的装置，其特征在于，所述语速调整单元，包括：模型处理子单元，用于将所述文本输入语音合成模型得到音频特征序列，使得在所述音频特征序列中，越靠近所述需要强调的文本对应的音频特征，语速越慢；所述语音合成模型是以文本样本为输入，所述文本样本对应的音频特征序列样本为输出训练获得，所述文本样本携带需要强调的文本在所述文本样本中的位置；语音合成子单元，用于基于所述音频特征序列合成所述文本对应的语音。12.根据权利要求11所述的装置，其特征在于，所述语音合成模型包括前向注意力模块，所述模型处理子单元，具体用于：将所述文本转换成音素序列；将所述需要强调的文本对应的强调向量和当前帧的对齐函数进行点积，得到所述当前帧的强调特征；所述强调向量表征所述需要强调的文本对应的音素在所述音素序列中的位置；将所述当前帧的强调特征作为偏置，添加到所述前向注意力模块的输入中，得到在所述当前帧时移动到下一个音素上的概率；根据所述在所述当前帧时移动到下一个音素上的概率，以及所述音素序列，生成所述音频特征序列。13.根据权利要求9所述的装置，其特征在于，所述语音属性包括语速，所述语速调整单元，包括：预设语速调整子单元，用于在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述需要强调的文本对应的语音的语速，使得在所述语音中，所述需要强调的文
本对应的语音的语速为预设语速、或逐渐增加或减少至预设语速。14.根据权利要求9所述的装置，其特征在于，所述语音属性包括基频和/或能量，所述属性调整子模块，包括：加强单元，用于在所述语音中，加强所述需要强调的文本对应的语音的基频和/或能量；或者，减弱单元，用于在所述语音中，减弱所述需要强调的文本对应的语音的基频和/或能量。

技术总结
本申请实施例提供了一种语音合成方法及装置。所述方法包括：获取文本，所述文本包括需要强调的文本，在将所述文本合成为语音的过程中，根据所述需要强调的文本，调整所述语音，使得对所述需要强调的文本对应的语音进行强调，使得在合成语音时，对语音进行调整，从而让文本中需要强调的部分对应的语音得到强调的效果，避免语音合成时语气平淡、没有起伏停顿，难以抓住重点的问题，实现了可控制的合成有强调的语音。的语音。的语音。

技术研发人员：贺宇佟子健
受保护的技术使用者：北京葡萄智学科技有限公司
技术研发日：2021.05.27
技术公布日：2021/9/24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音合成方法及装置与流程

相关文章

最热文献