一种语音处理方法、装置、电子设备及存储介质与流程

2021-09-18 01:01:00 来源：中国专利 TAG：电子设备深度语音装置公开

技术特征：
1.一种语音处理方法，其特征在于，包括：对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息；基于所述目标声学特征信息生成已转换语音信息。2.根据权利要求1所述的一种语音处理方法，其特征在于，所述预设对象的标记信息为预设对象的特征向量；所述方法还包括：对至少两个所述预设对象的特征向量进行加权求和，得到所述目标对象的特征向量；其中每个所述预设对象的特征向量对应的权重之和为1；将所述目标对象的特征向量确定为所述目标对象的标记信息。3.根据权利要求1或2所述的一种语音处理方法，其特征在于，所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块；所述将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息包括：将所述音素特征信息输入到所述音素特征编码模块进行特征提取，得到音素特征向量；将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换，得到对象特征向量；将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息。4.根据权利要求3所述的一种语音处理方法，其特征在于，所述标记信息编码模块包括标记信息映射模块和归一化模块；所述将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换，得到对象特征向量包括：通过所述标记信息映射模块将所述目标对象的标记信息映射到预设向量空间，得到所述目标对象的标记信息在所述预设向量空间中的映射向量；采用所述归一化模块对所述映射向量进行归一化处理，得到所述对象特征向量。5.根据权利要求1所述的一种语音处理方法，其特征在于，所述语音解码模块包括特征融合模块和预测模块；所述将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息包括：将所述语音编码耦合信息输入到所述特征融合模块进行特征融合，得到融合特征信息；
将所述融合特征信息输入到所述预测模块进行声学特征预测，得到与所述音素特征信息对应的目标声学特征信息。6.根据权利要求1所述的一种语音处理方法，其特征在于，所述对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息包括：将所述待转换语音信息输入到语音识别模型的音素识别模块进行音素识别，得到初始音素信息；将所述初始音素信息输入到所述语音识别模型的语言学纠正模块进行音素纠正，得到所述待转换语音信息中包含的音素特征信息。7.一种语音处理装置，其特征在于，包括：语音识别单元，被配置为执行对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；信息耦合单元，被配置为执行将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；信息解码单元，被配置为执行将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息；已转换语音信息生成单元，被配置为执行基于所述目标声学特征信息生成已转换语音信息。8.一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音处理方法。9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的语音处理方法。10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至6任一项所述的语音处理方法。

技术总结
本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定，无法满足用户个性化语音转换需求的问题。需求的问题。需求的问题。

技术研发人员：张颖
受保护的技术使用者：北京达佳互联信息技术有限公司
技术研发日：2021.05.14
技术公布日：2021/9/17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种天然气站场设备运行智能监测方法及系统与流程

一种语音处理方法、装置、电子设备及存储介质与流程

相关文章

最热文献