一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音处理方法、装置、电子设备及存储介质与流程

2021-08-27 13:36:00 来源:中国专利 TAG:电子设备 深度 语音 装置 公开

技术特征:

1.一种语音处理方法,其特征在于,包括:

获取原始对象的第一语音信息;

基于所述第一语音信息生成所述原始对象的声学特征信息;

将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;

将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;

基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;

其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。

2.根据权利要求1所述的一种语音处理方法,其特征在于,所述方法还包括:

获取第一神经网络模型;所述第一神经网络模型包括音素识别模块和分类模块;

获取多项样本声学特征信息,以及与每项样本声学特征信息对应的音素特征向量;

将每项样本声学特征信息输入到所述音素识别模块进行音素识别,得到第一音素特征信息;

将所述第一音素特征信息输入到所述分类模块进行音素分类,得到音素分类概率向量;

根据每项样本声学特征信息对应的音素特征向量,以及每项样本声学特征信息对应的所述音素分类概率向量,确定音素信息损失;

基于所述音素信息损失对所述第一神经网络模型进行训练,得到训练完成的第一神经网络模型;

基于所述训练完成的第一神经网络模型生成所述语音识别模型。

3.根据权利要求2所述的一种语音处理方法,其特征在于,所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括:

基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。

4.根据权利要求2或3所述的一种语音处理方法,其特征在于,所述音素识别模块包括至少一个音素识别子模块,其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块;

所述方法还包括:

将待处理特征信息输入所述音素特征短时建模模块,对所述待处理特征信息进行短时相关性建模,得到第一特征向量;

将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩,得到第二特征向量;

将所述第二特征向量输入到所述音素特征长时建模模块,对所述第二特征向量进行长时相关性建模,得到第三特征向量;

将所述第三特征向量作为所述音素识别子模块的输出信息;其中,所述第三特征向量的维度大于所述第二特征向量的维度;

其中,当所述音素识别模块包括一个所述音素识别子模块时,所述待处理特征信息为所述每项样本声学特征信息,所述音素识别子模块的输出信息为所述第一音素特征信息。

5.根据权利要求1所述的一种语音处理方法,其特征在于,所述方法还包括:

获取第二神经网络模型;

获取多个样本信息组;其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息,所述声学特征信息携带有所述对象标记信息;

将每个样本信息组中的音素特征信息,以及对象标记信息输入到所述第二神经网络模型进行声学特征转换,得到已转换声学特征信息;

基于每个样本信息组对应的已转换声学特征信息,以及所述样本信息组中的声学特征信息,确定声学特征损失;

基于所述声学特征信息损失对所述第二神经网络模型进行训练,得到所述语音转换模型。

6.根据权利要求5所述的一种语音处理方法,其特征在于,所述方法还包括:

获取多项样本音素特征信息,以及多项对象标记信息;

基于每项样本音素特征信息,得到携带有所述对象标记信息的声学特征信息;其中所述携带有所述对象标记信息的声学特征信息的项数,与所述对象标记信息的项数一致;

对所述多项样本音素特征信息,以及所述多项对象标记信息进行两两组合,得到多个第一信息组;

对于每个所述第一信息组,确定与所述第一信息组中的样本音素特征信息对应,且携带有所述第一信息组中的对象标记信息的关联声学特征信息;

将所述关联声学特征信息添加到所述第一信息组中,生成所述样本信息组。

7.根据权利要求5所述的一种语音处理方法,其特征在于,所述将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息之前,包括:

获取目标对象的对象标记信息,所述目标对象为所述多个样本对象中的一个或多个;

所述将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息包括:

将所述目标对象的对象标记信息和所述音素信息输入到所述语音转换模型进行声学特征转换,得到所述目标对象的声学特征信息。

8.一种语音处理装置,其特征在于,包括:

第一语音信息获取单元,被配置为执行获取原始对象的第一语音信息;

原始特征信息生成单元,被配置为执行基于所述第一语音信息生成所述原始对象的声学特征信息;

音素特征识别单元,被配置为执行将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;

目标特征信息生成单元,被配置为执行将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;

第二语音信息生成单元,被配置为执行基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;

其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。

9.一种电子设备,其特征在于,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的语音处理方法。

10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的语音处理方法。


技术总结
本公开关于一种语音处理方法、装置、电子设备及存储介质,所述方法包括:获取原始对象的第一语音信息;基于所述第一语音信息生成所述原始对象的声学特征信息;将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别,得到所述第一语音信息中包含的音素信息;将所述音素信息输入到语音转换模型进行声学特征转换,得到目标对象的声学特征信息;基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息;其中,所述原始对象与所述目标对象不同,所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。

技术研发人员:张颖;杨鹏;李楠;王芮;张晨;郑羲光;车浩
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2021.04.30
技术公布日:2021.08.27
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜