技术特征:
1.一种语音看护方法,其特征在于,包括:
获取语音播报触发信息;
根据所述语音播报触发信息,通过语言习惯模仿模型和/或音色模仿模型,生成待播报音频信息;
播放所述待播报音频信息。
2.如权利要求1所述的方法,其特征在于,所述语音播报触发信息为目标对象的语音信息;
根据所述语音播报触发信息,通过语言习惯模仿模型和/或所述音色模仿模型,生成待播报音频信息,包括:
将所述语音信息转换为目标文本信息;
根据所述目标文本信息和所述语言习惯模仿模型,获得所述语音信息对应的应答语句信息;
将所述应答语句信息转换为目标音频信息;
将所述目标音频信息输入至所述音色模仿模型,获得所述音色模仿模型输出的待播报音频信息;
所述待播报音频信息的音色和/或语言习惯与目标对象的关联用户的音色和/或语言习惯的相似程度大于或等于预设阈值。
3.如权利要求2所述的方法,其特征在于,所述语言习惯模仿模型为包括transformer-xl模型和rnn生成模型的模型;
根据所述目标文本信息和所述语言习惯模仿模型,获得所述语音信息对应的应答语句信息,包括:
对所述目标文本信息进行编码,获得编码信息,所述编码信息包括每个文字的向量表示、每个文字的位置编码和在每个句子的标签;
将目标编码信息输入至所述transformer-xl模型,获得所述transformer-xl模型的输出结果,所述目标编码信息为对所述编码信息执行数据隐藏操作后得到的编码信息;
将所述输出结果和所述标签输入至所述rnn生成模型,获得所述rnn生成模型输出的应答语句信息。
4.如权利要求2所述的方法,其特征在于,所述音色模仿模型为生成式对抗网络中的生成器;
将所述目标音频信息输入至所述音色模仿模型,获得所述音色模仿模型输出的待播报音频信息,包括:
将所述目标音频信息输入至所述生成器,以使所述生成器对所述目标音频信息进行傅里叶变换获得语谱图后,再通过卷积层和池化层生成伪语音数据;
获得所述生成器输出的所述伪语音数据,所述伪语音数据为所述待播报音频信息。
5.如权利要求1所述的方法,其特征在于,所述音色模仿模型具体为生成式对抗网络中的生成器,所述生成式对抗网络模型包括生成器和判别器;
所述音色模仿模型的训练过程具体包括:
获取非关联用户的语料数据和所述关联用户的语料数据;
将所述关联用户的语料数据和所述非关联用户的语料数据输入至所述判别器,对所述判别器进行训练,获得训练完成的判别器,所述训练完成的判别器的音色判别准确度达到预设数值;
通过所述生成器生成伪语料数据;
将所述伪语料数据输入至所述训练完成的判别器,获得判别结果;
当所述判别结果为一致时,所述生成器训练完成,当所述判别结果为不一致时,返回通过所述生成器生成伪语料数据;将所述伪语料数据输入至所述训练完成的判别器,获得判别结果的步骤。
6.如权利要求2所述的方法,其特征在于,所述方法还包括:
采集所述关联用户的对话数据;
使用所述对话数据训练所述语言习惯模仿模型。
7.如权利要求1所述的方法,其特征在于,所述获取语音播报触发信息,包括:
定时触发语音播报任务,读取所述语音播报任务对应的所述语音播报触发信息;
或者
监测目标对象的状态;
当所述目标对象的状态符合预设状态时,通过传感器采集所述目标对象的状态信息,所述状态信息为语音播报触发信息。
8.一种语音看护系统,其特征在于,包括触发信息采集设备、与所述触发信息采集设备连接的语音看护装置和与所述语音看护装置连接的语音播报设备;
所述触发信息采集设备用于采集语音播报触发信息;
所述语音看护装置用于执行上述权利要求1至7任一项所述的方法。
9.一种语音看护装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
技术总结
本申请实施例适用于人工智能技术领域,公开了一种语音看护方法、装置、系统及计算机可读存储介质,其中,方法包括:获取语音播报触发信息;根据语音播报触发信息,通过语言习惯模仿模型和/或音色模仿模型,生成待播报音频信息;播放待播报音频信息。本申请实施例在获取到语音播报触发信息之后,利用语言习惯模仿模型和音色模仿模型模仿关联用户的语言习惯和音色,使得待播报音频信息的音色和语言习惯与关联用户的音色和语言习惯的相似程度大于一定阈值,以提高语音看护效果。
技术研发人员:张嘉鑫
受保护的技术使用者:TCL集团股份有限公司
技术研发日:2020.01.20
技术公布日:2021.08.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。