技术特征:
1.一种音频的转换方法,其特征在于,包括:
获取源说话人的初始音频;
对所述初始音频进行特征识别,获得所述初始音频对应的第一语音识别特征以及第一音频隐层特征;
将所述第一语音识别特征与所述第一音频隐层特征输入音频转换模型,获得目标方言说话人的目标方言声学特征;
根据所述目标方言声学特征,生成与所述初始音频对应的目标音频。
2.根据权利要求1所述的方法,其特征在于,所述音频转换模型通过如下方式生成:
获取所述目标方言说话人的音频数据;
根据所述目标方言说话人的音频数据对音色转换模型进行自适应训练,获得音频转换模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标方言说话人的音频数据对音色转换模型进行自适应训练,获得音频转换模型,包括:
将所述目标方言说话人的音频数据作为第一训练数据,并从所述第一训练数据中提取第二语音识别特征以及第一合成声学特征;
将所述训练数据输入方言识别模型,获得所述训练数据对应的方言隐层特征,以消除训练数据中与方言口音相关的信息;
采用所述方言隐层特征、所述第二语音识别特征以及所述第一合成声学特征对音色转换模型进行自适应训练,获得音频转换模型。
4.根据权利要求2或3所述的方法,其特征在于,所述音色转换模型通过如下方式生成:
获取至少不同说话人的音频数据作为第二训练数据,并从所述第二训练数据中提取第三语音识别特征以及第二合成声学特征;
将所述第三语音识别特征输入音频识别模型,获得第二音频隐层特征;
采用所述第二合成声学特征以及所述第二音频隐层特征,训练得到音色转换模型。
5.根据权利要求3所述的方法,其特征在于,所述方言识别模型通过如下方式生成:
采用所述第二语音识别特征以及所述第一合成声学特征对音频识别模型进行自适应训练,得到方言识别模型,所述方言识别模型用于识别目标方言说话人的声学特征。
6.根据权利要求1所述的方法,其特征在于,所述对所述初始音频进行特征识别,获得所述初始音频对应的第一语音识别特征以及第一音频隐层特征,包括:
提取所述初始音频对应的音频特征;
将所述音频特征输入音频识别模型,获得与所述初始音频对应的第一语音识别特征,以及所述音频识别模型隐层输出的第一音频隐层特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标方言声学特征,生成与所述初始音频对应的目标音频,包括:
采用所述目标方言声学特征生成所述目标方言说话人的语音信号;
对所述语音信号进行合成,获得与所述初始音频对应的目标音频。
8.一种音频的转换装置,其特征在于,包括:
获取模块,用于获取源说话人的初始音频;
第一隐层特征提取模块,用于对所述初始音频进行特征识别,获得所述初始音频对应的第一语音识别特征以及第一音频隐层特征;
方言声学特征生成模块,用于将所述第一语音识别特征与所述第一音频隐层特征输入音频转换模型,获得目标方言说话人的目标方言声学特征;
目标音频生成模块,用于根据所述目标方言声学特征,生成与所述初始音频对应的目标音频。
9.根据权利要求8所述的装置,其特征在于,所述音频转换模型通过如下模块生成:
音频数据获取模块,用于获取所述目标方言说话人的音频数据;
音频转换模型训练模块,用于根据所述目标方言说话人的音频数据对音色转换模型进行自适应训练,获得音频转换模型。
10.根据权利要求9所述的装置,其特征在于,所述音频转换模型训练模块包括:
特征提取子模块,用于将所述目标方言说话人的音频数据作为第一训练数据,并从所述第一训练数据中提取第二语音识别特征以及第一合成声学特征;
方言隐层特征提取子模块,用于将所述训练数据输入方言识别模型,获得所述训练数据对应的方言隐层特征,以消除训练数据中与方言口音相关的信息;
音频转换模型训练子模块,用于采用所述方言隐层特征、所述第二语音识别特征以及所述第一合成声学特征对音色转换模型进行自适应训练,获得音频转换模型。
11.根据权利要求9或10所述的装置,其特征在于,所述音色转换模型通过如下模块生成:
音频数据获取模块,用于获取至少不同说话人的音频数据作为第二训练数据,并从所述第二训练数据中提取第三语音识别特征以及第二合成声学特征;
音频隐层特征提取模块,用于将所述第三语音识别特征输入所述音频识别模型,获得第二音频隐层特征;
音色转换模型训练模块,用于采用所述第二合成声学特征以及所述第二音频隐层特征,训练得到音色转换模型。
12.根据权利要求10所述的装置,其特征在于,所述方言识别模型通过如下模块生成:
方言识别模型获得模块,用于采用所述第二语音识别特征以及所述第一合成声学特征对所述音频识别模型进行自适应训练,得到方言识别模型,所述方言识别模型用于识别目标方言说话人的声学特征。
13.根据权利要求8所述的装置,其特征在于,所述第一隐层特征提取模块包括:
音频特征提取子模块,用于提取所述初始音频对应的音频特征;
隐层特征提取子模块将所述音频特征输入音频识别模型,获得与所述初始音频对应的第一语音识别特征,以及所述音频识别模型隐层输出的第一音频隐层特征。
14.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7任一所述的音频的转换方法。
15.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一所述的音频的转换方法的步骤。
技术总结
本发明实施例提供了一种音频的转换方法、装置、存储介质以及电子设备,其中,所述方法包括:通过获取源说话人的初始音频,首先对初始音频进行特征识别,获得初始音频对应的语音识别特征以及音频隐层特征,接着将所提取的语音识别特征与音频隐层特征输入音频转换模型进行音色转换与方言口音处理,获得目标方言说话人的目标方言声学特征,然后可以根据目标方言声学特征生成对应的目标音频,通过音频转换模型语音识别特征与音频隐层特征进行处理,实现将任意说话人的音频转换为目标方言说话人的音频,不仅可以实现音色的转换,还可以在所转换的音频中携带目标方言口音,有效提高了音频的变声效果。
技术研发人员:戈文硕;刘恺;陈伟
受保护的技术使用者:北京搜狗科技发展有限公司
技术研发日:2021.04.26
技术公布日:2021.08.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。