一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音关键词检测模型处理方法、装置及计算机设备与流程

2021-09-22 18:59:00 来源:中国专利 TAG:人工智能 语音 装置 模型 关键词

技术特征:
1.一种语音关键词检测模型处理方法,其特征在于,包括下述步骤:获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音;根据所述语音声纹表征和所述初始文本,合成与所述初始文本相对应的合成语音;将所述真实语音和所述合成语音设置为初始待混合语音,并对所述初始待混合语音进行声学特征调整,得到待混合语音;对所述待混合语音进行混合增强,得到训练语音;根据所述训练语音对初始语音关键词建模型进行训练,得到语音关键词检测模型。2.根据权利要求1所述的语音关键词检测模型处理方法,其特征在于,在所述获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音的步骤之前,还包括:获取真实录制语音;从所述真实录制语音中提取语音声纹表征,所述语音声纹表征包括基频、非周期性特征和梅尔频率倒谱系数。3.根据权利要求1所述的语音关键词检测模型处理方法,其特征在于,所述根据所述语音声纹表征和所述初始文本,合成与所述初始文本相对应的合成语音的步骤包括:将所述初始文本输入编码器,得到所述初始文本的文本嵌入数据;将所述语音声纹表征与所述文本嵌入数据进行合并,得到合成输入参数;将所述合成输入参数输入经过训练的语音合成模型,以通过所述语音合成模型合成与所述初始文本相对应的合成语音。4.根据权利要求1所述的语音关键词检测模型处理方法,其特征在于,所述将所述真实语音和所述合成语音设置为初始待混合语音,并对所述初始待混合语音进行声学特征调整,得到待混合语音的步骤包括:将所述真实语音和所述合成语音设置为初始待混合语音;对于每条初始待混合语音,随机确定初始待混合语音的声学特征调整方式,所述声学特征调整方式包括特征调整维度和特征调整幅度;根据确定的声学特征调整方式对所述初始待混合语音进行声学特征调整,得到待混合语音。5.根据权利要求1所述的语音关键词检测模型处理方法,其特征在于,所述对所述待混合语音进行混合增强,得到训练语音的步骤包括:对得到的待混合语音进行组合,得到待混合语音对;对于每组待混合语音对,从预设的贝塔分布中获取待混合语音对的融合比例;根据所述融合比例对所述待混合语音对中的待混合语音进行线性插值混合,得到训练语音。6.根据权利要求5所述的语音关键词检测模型处理方法,其特征在于,所述对得到的待混合语音进行组合,得到待混合语音对的步骤包括:对得到的待混合语音进行随机组合,得到初始待混合语音对;对于每组初始待混合语音对,获取待混合语音对中各待混合语音的内容标签;当获取到的内容标签相同时,将所述初始待混合语音对确定为待混合语音对。7.根据权利要求1所述的语音关键词检测模型处理方法,其特征在于,在所述根据所述
训练语音对初始语音关键词建模型进行训练,得到语音关键词检测模型的步骤之后,还包括:获取终端发送的待检测语音;将所述待检测语音输入所述语音关键词建模型,得到所述待检测语音中的关键词信息;生成与所述关键词信息对应的响应指令;将所述响应指令发送至所述终端,以指示所述终端根据所述响应指令对所述待检测语音进行响应。8.一种语音关键词检测模型处理装置,其特征在于,包括:获取模块,用于获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音;语音合成模块,用于根据所述语音声纹表征和所述初始文本,合成与所述初始文本相对应的合成语音;声学调整模块,用于将所述真实语音和所述合成语音设置为初始待混合语音,并对所述初始待混合语音进行声学特征调整,得到待混合语音;混合增强模块,用于对所述待混合语音进行混合增强,得到训练语音;模型训练模块,用于根据所述训练语音对初始语音关键词建模型进行训练,得到语音关键词检测模型。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语音关键词检测模型处理方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语音关键词检测模型处理方法的步骤。

技术总结
本申请实施例属于人工智能领域,涉及一种语音关键词检测模型处理方法、装置、计算机设备及存储介质,方法包括:获取包含关键词的初始文本、预先存储的语音声纹表征以及包含关键词的真实语音;根据所述语音声纹表征和所述初始文本,合成与所述初始文本相对应的合成语音;将所述真实语音和所述合成语音设置为初始待混合语音,并对所述初始待混合语音进行声学特征调整,得到待混合语音;对所述待混合语音进行混合增强,得到训练语音;根据所述训练语音对初始语音关键词建模型进行训练,得到语音关键词检测模型。此外,本申请还涉及区块链技术,语音声纹表征可存储于区块链中。本申请提高了语音关键词检测模型的训练效率。高了语音关键词检测模型的训练效率。高了语音关键词检测模型的训练效率。


技术研发人员:李泽远 王健宗
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.07.05
技术公布日:2021/9/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜