技术特征:
1.一种语音合成方法,其特征在于,包括:
获取用户输入的当前语音;
根据所述当前语音,利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签;
根据带有风格标签和/或情感标签的应答文本,得到应答合成语音,用于与所述当前语音进行交互。
2.根据权利要求1所述的方法,其特征在于,根据所述当前语音,利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签,包括:
根据所述当前语音,得到所述当前语音的交互文本和应答文本;
利用预设风格情感匹配模型对所述交互文本和应答文本进行处理,得到所述应答文本的风格标签和/或情感标签。
3.根据权利要求2所述的方法,其特征在于,根据所述当前语音,得到所述当前语音的交互文本和应答文本,包括:
通过语音识别模块将所述当前语音转换为交互文本;
利用语义理解模块、对话管理模块和语音生成模块对所述交互文本进行处理,生成应答文本。
4.根据权利要求2所述的方法,其特征在于,利用预设风格情感匹配模型对所述交互文本和应答文本进行处理,得到所述应答文本的风格标签和/或情感标签,包括:
将所述交互文本和应答文本进行拼接,得到目标文本;
将所述目标文本和风格标签作为第一输入,和/或,将所述目标文本和情感标签作为第二输入,利用预设风格情感匹配模型对所述第一输入和/或第二输入进行风格情感匹配,将匹配度最大的风格标签和/或情感标签作为应答文本的风格标签和/或情感标签。
5.根据权利要求1所述的方法,其特征在于,所述预设风格情感匹配模型包括bert模型;其中,所述bert模型用于对匹配输出应答文本的风格标签和/或情感标签。
6.根据权利要求1所述的方法,其特征在于,所述风格标签包括甜美、自然、严厉和活泼;所述情感标签包括喜、怒、哀和乐。
7.根据权利要求1所述的方法,其特征在于,根据带有风格标签和/或情感标签的应答文本,得到应答合成语音,包括:
利用语音合成模块对带有风格标签和/或情感标签的应答文本进行语音合成处理,得到应答合成语音。
8.一种语音合成装置,其特征在于,包括:
当前语音获取单元,用于获取用户输入的当前语音;
标签获得单元,用于根据所述当前语音,利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签;
应答合成语音得到单元,用于根据带有风格标签和/或情感标签的应答文本,得到应答合成语音,用于与所述当前语音进行交互。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的语音合成方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的语音合成方法。
技术总结
本申请实施例公开了一种语音合成方法、装置、存储介质及电子设备。该方法包括:获取用户输入的当前语音;根据所述当前语音,利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签;根据带有风格标签和/或情感标签的应答文本,得到应答合成语音,用于与所述当前语音进行交互。本技术方案,可以根据客户输入语音实时调整应答合成语音的风格标签与情感标签,提高应答合成语音的表现力,从而提高智能语音交互中的客户体验。
技术研发人员:杨辰雨
受保护的技术使用者:建信金融科技有限责任公司
技术研发日:2021.03.31
技术公布日:2021.07.02
本文用于企业家、创业者技术爱好者查询,结果仅供参考。