技术特征:
1.一种基于情感类别标签的可控情感语音合成方法,其特征在于,包括如下步骤:
s1、文本特征提取,从输入的音素序列中提取出语音文本特征;
s2、语音风格特征提取,接收与所述音素序列对应的目标语音的声学特征,并从所述声学特征中提取出语音风格特征;
s3、语音风格特征记忆,根据所述语音风格特征得到所述目标语音的情感风格特征;
s4、声学特征预测,根据所述语音文本特征和所述情感风格特征预测合成情感语音声学特征。
2.如权利要求1所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述文本特征提取中使用一特征查询表、三层卷积神经网络和一层双向长短期记忆网络。
3.如权利要求2所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述文本特征提取包括:
通过所述特征查询表将所述音素序列中的每个语音文本符号转化为浮点型向量,得到第一特征序列,并将所述第一特征序列输入到所述三层卷积神经网络和所述双向长短期记忆网络中,以得到所述语音文本特征。
4.如权利要求1所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述语音风格特征提取采用五层卷积神经网络和一层门控循环单元。
5.如权利要求4所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述语音风格特征提取包括:
接收目标语音的声学特征,将所述声学特征输入至所述五层卷积神经网络中得到第二特征序列,并将所述第二特征序列输入至所述门控循环单元中,取最后一时间步的输出,得到所述语音风格特征。
6.如权利要求1所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述语音风格特征记忆采用若干个全局风格令牌表和第一注意力机制单元。
7.如权利要求6所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述语音风格特征记忆包括:
采用所述第一注意力机制单元预测所述若干个全局风格令牌表中的多个风格令牌与所述语音风格特征之间的相似度,并基于所述相似度对所述多个风格令牌进行加权,以得到所述目标语音的情感风格特征。
8.如权利要求1所述的基于情感类别标签的可控情感语音合成方法,其特征在于,所述语音风格特征记忆还包括基于外部提供的目标语音情感标签,通过情感分类损失函数进行语音风格特征记忆。
9.如权利要求1所述的基于情感类别标签的可控情感语音合成方法,其特征在于,还包括:
解耦步骤,根据所述语音文本特征和所述情感风格特征预估所述语音文本特征和所述情感风格特征之间的互信息大小,并对所述互信息取相反数,以及通过取相反数后的互信息指导所述系统学习和所述音素序列无关的风格信息。
10.一种基于情感类别标签的可控情感语音合成系统,其特征在于,包括处理器和存储器,所述存储器中存储有计算机软件,所述计算机软件可处理器执行以实现如权利要求1-9中任一项所述的方法。
技术总结
本发明公开了一种基于情感类别标签的可控情感语音合成系统及方法,该方法包括:文本特征提取步骤,用于从输入的音素序列中提取出语音文本特征;语音风格特征提取步骤,用于接收与音素序列对应的目标语音的声学特征,并从声学特征中提取出语音风格特征;语音风格特征记忆步骤,用于根据语音风格特征得到目标语音的情感风格特征;声学特征预测步骤,用于根据语音文本特征和情感风格特征预测合成情感语音声学特征。本发明可提高语音风格特征与语音文本特征的解耦程度,使得合成语音的风格调控结果不受文本内容限制,提升合成语音的可控性和灵活性,并且可有效利用语料中语音的情感标签与各情感数据分布信息,以更高效地提取各情感的语音风格特征。
技术研发人员:吴志勇;李翔
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2021.06.02
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。