一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音合成和语音识别的制作方法

2022-02-20 19:17:52 来源:中国专利 TAG:

技术特征:
1.一种计算机实现的方法,包括:获取支持至少一种语言的语音合成(tts)模型和自动语音识别(asr)模型;基于目标语言的第一组配对数据来调整所述tts模型和所述asr模型以支持所述目标语言,其中所述第一组配对数据包括来自多个说话者的所述目标语言的语音数据及其对应的文本数据;以及基于所述第一组配对数据和所述目标语言的第一组合成配对数据来优化所述tts模型,同时基于所述第一组配对数据和所述目标语言的第二组合成配对数据来优化所述asr模型,其中所述第一组合成配对数据包括来自多个说话者的第一组语音数据和由所述asr模型基于所述第一组语音数据而生成的第一组文本数据,并且所述第二组合成配对数据包括第二组文本数据和由所述tts模型基于所述第二组文本数据而生成的多个说话者的第二组语音数据。2.根据权利要求1所述的方法,其中获取所述tts模型和所述asr模型包括:基于所述至少一种语言的第二组配对数据来训练所述tts模型和所述asr模型,其中所述第二组配对数据包括来自多个说话者的所述至少一种语言的语音数据及其对应的文本数据。3.根据权利要求1所述的方法,还包括:基于所述第一组配对数据以及由经优化的所述tts模型和所述asr模型生成的所述目标语言的多组合成配对数据,训练目标tts模型和目标asr模型。4.根据权利要求3所述的方法,其中训练所述目标tts模型包括:从所述第一组配对数据中获取与所述多个说话者中的目标说话者相关联的第三组配对数据,其中所述第三组配对数据包括来自所述目标说话者的所述目标语言的语音数据及其对应的文本数据;利用经优化的所述tts模型来生成所述目标语言的第三组合成配对数据,其中所述第三组合成配对数据包括第三组文本数据和由经优化的所述tts模型基于所述第三组文本数据而生成的所述目标说话者的第三组语音数据;以及基于所述第三组配对数据和所述第三组合成配对数据来训练目标tts模型,以使得所述目标tts模型能够基于所述目标语言的文本数据来生成与所述文本数据对应的所述目标说话者的语音数据。5.根据权利要求4所述的方法,其中基于所述第三组配对数据和所述第三组合成配对数据来训练所述目标tts模型包括:过滤所述第三组语音数据中的不合格语音数据和所述第三组文本数据中与所述不合格语音数据对应的文本数据,以得到第四组合成配对数据;以及基于所述第三组配对数据和所述第四组合成配对数据来训练所述目标tts模型。6.根据权利要求5所述的方法,其中所述不合格语音数据包括以下至少一项:出现词语遗漏的语音数据;出现词语重复的语音数据;以及无法理解的语音数据。7.根据权利要求5所述的方法,其中过滤所述不合格语音数据包括:过滤所述第三组语音数据中单词覆盖率(wcr)低于预定阈值的语音数据,其中所述wcr
与所述语音数据出现词语遗漏或词语重复的可能性负相关。8.根据权利要求5所述的方法,其中过滤所述不合格语音数据包括:过滤所述第三组语音数据中注意力对角比(adr)低于预定阈值的语音数据,其中所述adr指示所述语音数据与所述第三组文本数据中用于生成所述语音数据的文本数据之间的对齐程度。9.根据权利要求3所述的方法,其中训练所述目标asr模型包括:利用经优化的所述tts模型来生成所述目标语言的第五组合成配对数据,其中所述第五组合成配对数据包括第三组文本数据和由经优化的所述tts模型基于所述第三组文本数据而生成的多个说话者的第四组语音数据;利用经优化的所述asr模型来生成所述目标语言的第六组合成配对数据,其中所述第六组合成配对数据包括来自多个说话者的第五组语音数据和由经优化的所述asr模型基于所述第五组语音数据而生成的第四组文本数据;以及基于所述第一组配对数据、所述第五组合成配对数据和所述第六组合成配对数据来训练目标asr模型,以使得所述目标asr模型能够基于来自多个说话者的所述目标语言的语音数据来生成与所述语音数据对应的文本数据。10.根据权利要求1所述的方法,其中所述目标语言与所述至少一种语言不同。11.一种电子设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时,使得所述电子设备执行动作,所述动作包括:获取支持至少一种语言的语音合成(tts)模型和自动语音识别(asr)模型;基于目标语言的第一组配对数据来调整所述tts模型和所述asr模型以支持所述目标语言,其中所述第一组配对数据包括来自多个说话者的所述目标语言的语音数据及其对应的文本数据;以及基于所述第一组配对数据和所述目标语言的第一组合成配对数据来优化所述tts模型,同时基于所述第一组配对数据和所述目标语言的第二组合成配对数据来优化所述asr模型,其中所述第一组合成配对数据包括来自多个说话者的第一组语音数据和由所述asr模型基于所述第一组语音数据而生成的第一组文本数据,并且所述第二组合成配对数据包括第二组文本数据和由所述tts模型基于所述第二组文本数据而生成的多个说话者的第二组语音数据。12.根据权利要求11所述的电子设备,其中获取所述tts模型和所述asr模型包括:基于所述至少一种语言的第二组配对数据来训练所述tts模型和所述asr模型,其中所述第二组配对数据包括来自多个说话者的所述至少一种语言的语音数据及其对应的文本数据。13.根据权利要求11所述的电子设备,其中所述动作还包括:基于所述第一组配对数据以及由经优化的所述tts模型和所述asr模型生成的所述目标语言的多组合成配对数据,训练目标tts模型和目标asr模型。14.根据权利要求13所述的电子设备,其中训练所述目标tts模型包括:从所述第一组配对数据中获取与所述多个说话者中的目标说话者相关联的第三组配
对数据,其中所述第三组配对数据包括来自所述目标说话者的所述目标语言的语音数据及其对应的文本数据;利用经优化的所述tts模型来生成所述目标语言的第三组合成配对数据,其中所述第三组合成配对数据包括第三组文本数据和由经优化的所述tts模型基于所述第三组文本数据而生成的所述目标说话者的第三组语音数据;以及基于所述第三组配对数据和所述第三组合成配对数据来训练目标tts模型,以使得所述目标tts模型能够基于所述目标语言的文本数据来生成与所述文本数据对应的所述目标说话者的语音数据。15.根据权利要求14所述的电子设备,其中基于所述第三组配对数据和所述第三组合成配对数据来训练所述目标tts模型包括:过滤所述第三组语音数据中的不合格语音数据和所述第三组文本数据中与所述不合格语音数据对应的文本数据,以得到第四组合成配对数据;以及基于所述第三组配对数据和所述第四组合成配对数据来训练所述目标tts模型。16.根据权利要求15所述的电子设备,其中所述不合格语音数据包括以下至少一项:出现词语遗漏的语音数据;出现词语重复的语音数据;以及无法理解的语音数据。17.根据权利要求15所述的电子设备,其中过滤所述不合格语音数据包括:过滤所述第三组语音数据中单词覆盖率(wcr)低于预定阈值的语音数据,其中所述wcr与所述语音数据出现词语遗漏或词语重复的可能性负相关。18.根据权利要求15所述的电子设备,其中过滤所述不合格语音数据包括:过滤所述第三组语音数据中注意力对角比(adr)低于预定阈值的语音数据,其中所述adr指示所述语音数据与所述第三组文本数据中用于生成所述语音数据的文本数据之间的对齐程度。19.根据权利要求13所述的电子设备,其中训练所述目标asr模型包括:利用经优化的所述tts模型来生成所述目标语言的第五组合成配对数据,其中所述第五组合成配对数据包括第三组文本数据和由经优化的所述tts模型基于所述第三组文本数据而生成的多个说话者的第四组语音数据;利用经优化的所述asr模型来生成所述目标语言的第六组合成配对数据,其中所述第六组合成配对数据包括来自多个说话者的第五组语音数据和由经优化的所述asr模型基于所述第五组语音数据而生成的第四组文本数据;以及基于所述第一组配对数据、所述第五组合成配对数据和所述第六组合成配对数据来训练目标asr模型,以使得所述目标asr模型能够基于来自多个说话者的所述目标语言的语音数据来生成与所述语音数据对应的文本数据。20.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行动作,所述动作包括:获取支持至少一种语言的语音合成(tts)模型和自动语音识别(asr)模型;基于目标语言的第一组配对数据来调整所述tts模型和所述asr模型以支持所述目标
语言,其中所述第一组配对数据包括来自多个说话者的所述目标语言的语音数据及其对应的文本数据;以及基于所述第一组配对数据和所述目标语言的第一组合成配对数据来优化所述tts模型,同时基于所述第一组配对数据和所述目标语言的第二组合成配对数据来优化所述asr模型,其中所述第一组合成配对数据包括来自多个说话者的第一组语音数据和由所述asr模型基于所述第一组语音数据而生成的第一组文本数据,并且所述第二组合成配对数据包括第二组文本数据和由所述tts模型基于所述第二组文本数据而生成的多个说话者的第二组语音数据。

技术总结
根据本公开的实现,提出了用于语音合成和语音识别的方案。根据该方案,支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型,以支持目标语言。然后,基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型,同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式,该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。性的TTS模型和ASR模型。性的TTS模型和ASR模型。


技术研发人员:谭旭 秦涛 干俊伟 赵晟 刘铁岩
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:2020.06.30
技术公布日:2022/1/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献