技术特征:
1.一种基于ppg一致性的最优映射跨语言音色转换方法,特征在于,所述方法包括:
s1,获取用户输入的原始语音波形;
s2,基于预设的ppg确定策略,确定所述原始语音波形对应的第一ppg序列和预置目标说话人的语料库对应的目标ppg集合;
s3,从所述第一ppg序列中的第一语音帧开始,从所述目标ppg集合中搜索距离所述第一ppg序列中当前语音帧对应的ppg距离最近的目标ppg集合中的一帧ppg,直至遍历完所述第一ppg序列,并将为所述第一ppg序列中的每一语音帧搜索到的所述第二语音后验概率ppg组成最优映射ppg序列;
s4,将所述最优映射ppg序列输入到预先训练好的神经网络声学模型中,得到目标说话人的梅尔谱,并根据预设的声码转换策略,将所述目标说话人的梅尔谱转换为目标说话人的语音波形,从而实现将所述用户输入的原始语音波形转换为目标说话人的语音波形。
2.根据权利要求1所述的方法,其特征在于,所述第一ppg序列由所述原始语音波形包含的每一语音帧对应的第一语音后验概率ppg组成;所述目标ppg集合由所述预置目标说话人的语料库中每一句语音对应的所有帧ppg序列组成的集合。
3.根据权利要求1所述的方法,其特征在于,所述步骤s2中基于预设的ppg确定策略,确定所述原始语音波形对应的第一ppg序列的步骤,包括:
s2.1,根据预设的语音信号处理技术,从所述原始语音波形中提取出所述原始语音波形中包含的每一语音帧对应的声学特征;
s2.2,利用预先训练好的自动语音识别asr模型,得到所述原始语音波形中包含的每一语音帧对应的第一语音后验概率ppg;
s2.3,将所述每一语音帧对应的第一语音后验概率ppg,组成所述原始语音波形对应的第一ppg序列。
4.根据权利要求1所述的方法,其特征在于,所述原始语音波形不同于所述目标说话人的语音波形。
5.根据权利要求1所述的方法,其特征在于,所述原始语音波形对应的语言类型与所述预置目标说话人的语料库中每一句语音对应的语言相同和/或不同。
6.根据权利要求1所述的方法,其特征在于,还包括:
确定所述原始语音波形对应的第一ppg序列与最终声码器得到的所述目标说话人的语音波形对应的第三ppg序列之间的距离,并根据两个所述ppg序列的距离判断所述目标说话人的语音内容是否达到一致性标准要求。
7.一种基于ppg一致性的最优映射跨语言音色转换系统,其特征在于,包括:
获取模块,用于获取用户输入的原始语音波形;
ppg提取模块,用于基于预设的ppg确定策略,确定所述原始语音波形对应的第一ppg序列;其中,所述第一ppg序列由所述原始语音波形包含的每一语音帧对应的第一语音后验概率ppg组成;以及,将根据所述预设的ppg确定策略,得到的预置目标说话人的语料库中每一句语音对应的所有帧ppg,组成预置目标说话人的语料库对应的目标ppg集合;
最优映射模块,用于从所述第一ppg序列中的第一语音帧开始,从所述目标ppg集合中搜索距离所述第一ppg序列中当前语音帧对应的ppg距离最近的目标ppg集合中的一帧ppg,直至遍历完所述第一ppg序列,并将为所述第一ppg序列中的每一语音帧搜索到的所述第二语音后验概率ppg组成最优映射ppg序列;
神经网络声学模型模块,用于将所述最优映射ppg序列输入到预先训练好的神经网络声学模型中,得到目标说话人的梅尔谱;
声码器模块,用于并根据预设的声码转换策略,将所述目标说话人的梅尔谱转换为目标说话人的语音波形,从而实现将所述用户输入的原始语音波形转换为目标说话人的语音波形。
8.根据权利要求7所述的系统,其特征在于,所述ppg提取模块包括:
声学特征确定单元,用于根据预设的语音信号处理技术,从所述原始语音波形中提取出所述原始语音波形中包含的每一语音帧对应的声学特征;
第一语音后验概率ppg确定单元,用于利用预先训练好的自动语音识别asr模型,得到所述原始语音波形中包含的每一语音帧对应的第一语音后验概率ppg;
第一ppg序列形成单元,用于将所述每一语音帧对应的第一语音后验概率ppg,组成所述原始语音波形对应的第一ppg序列。
9.根据权利要求7所述的系统,其特征在于,所述原始语音波形对应的语言类型与所述预置目标说话人的语料库中每一句语音对应的语言相同和/或不同。
10.根据权利要求7所述的系统,其特征在于,所述系统还包括:ppg一致性评测模块;
所述ppg一致性评测模块,用于确定所述原始语音波形对应的第一ppg序列与声码器合成的所述目标说话人的语音波形对应的第三ppg序列之间的距离,并根据两个所述ppg序列的距离判断所述目标说话人的语音内容是否达到一致性标准要求。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的基于ppg一致性的最优映射跨语言音色转换方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器器执行时实现如权利要求1至6任一项所述基于ppg一致性的最优映射跨语言音色转换方法的步骤。
技术总结
本发明公开了一种基于PPG一致性的最优映射跨语言音色转换方法、系统及电子设备,本发明涉及一种基于PPG一致性的最优映射跨语言音色转换方法,首先通过语音信号处理技术提取被转换语音的帧级别的声学特征,并通过ASR计算得到语音波形对应的帧级别的语音内容的表征PPG。同时结合预先设置的目标说话人的大型语料库,在目标说话人的PPG集合中进行最优搜索,从而得到既能准确表示被转换语音的语音内容又符合目标说话人特征的映射序列。最后通过神经网络声学模型和声码器将其转换为自然的语音波形。本发明通过帧级别的语音内容表征PPG建模被转换语音和目标说话人语料之间的关系,不涉及具体语言的限制,因此可以实现跨语言的音色转换。
技术研发人员:吴志勇;户建坤;陈学源
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2021.05.24
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。