技术特征:
1.一种结合声传递函数的端到端语音合成方法,其特征在于,包括:
将文本序列语音合成为音频;
根据预设的目标声源的位置获取声传递函数;
利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波,从而生成带有空间信息的语音。
2.根据权利要求1所述的结合声传递函数的端到端语音合成方法,其特征在于,根据预设的目标声源的位置获取声传递函数,包括:
根据预设的目标声源的位置获取空间信息参数;
根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数;
当根据所述空间信息参数在声传递函数库中查找到对应的声传递函数的系数时,将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。
3.根据权利要求2所述的结合声传递函数的端到端语音合成方法,其特征在于,根据预设的目标声源的位置获取声传递函数,还包括:
当根据所述空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时,使用两个相近的声传递函数的系数插值求得目标声传递函数的系数,将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。
4.根据权利要求2或3所述的结合声传递函数的端到端语音合成方法,其特征在于,所述空间信息参数包括所述目标声源相对于收听者头中心的仰角、水平角和距离。
5.根据权利要求1所述的结合声传递函数的端到端语音合成方法,其特征在于,将文本序列语音合成为音频,包括:
将文本序列输入前端处理模块,转换为音素序列;
将所述音素序列转化为嵌入向量后输入编码器模块中;
将编码后的序列输入注意力模块,得到语境向量;
将解码器模块中prenet的输出和注意力模块输出的语境向量串联起来作为输入,经过gru单元后输出到解码器模块中decoder-rnn;
经由解码器模块生成各个帧的频谱图;
拼帧,并将拼帧后的频谱图经过griffin-lim声码器或使用神经声码器转换为音频。
6.一种结合声传递函数的端到端语音合成装置,其特征在于,包括:
语音合成单元,用于将文本序列语音合成为音频;
声传递函数获取单元,用于根据预设的目标声源的位置获取声传递函数;
空间信息加入单元,用于利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波,从而生成带有空间信息的语音。
7.根据权利要求6所述的结合声传递函数的端到端语音合成装置,其特征在于,所述声传递函数获取单元包括:
空间信息参数获取模块,用于根据预设的目标声源的位置获取空间信息参数;
声传递函数系数查找模块,用于根据所获取的空间信息参数在声传递函数库中查找对应的声传递函数的系数;
声传递函数确定模块,用于当根据所述空间信息参数在声传递函数库中查找到对应的声传递函数的系数时,将对应的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。
8.根据权利要求7所述的结合声传递函数的端到端语音合成装置,其特征在于,所述声传递函数获取单元还包括:系数插值单元,用于当根据所述空间信息参数在声传递函数库中没有查找到对应的声传递函数的系数时,使用两个相近的声传递函数的系数插值求得目标声传递函数的系数,将求得的声传递函数作为与语音合成得到的音频进行卷积或滤波使用的声传递函数。
9.一种计算设备,其特征在于,包括:
一个或多个处理器,以及
与所述一个或多个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1到5中任一项所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到5中任一项所述的方法。
技术总结
本发明公开了一种结合声传递函数的端到端语音合成方法及装置。该方法包括:将文本序列语音合成为音频;根据预设的目标声源的位置获取声传递函数;利用所获取的声传递函数对语音合成得到的音频进行卷积或滤波,从而生成带有空间信息的语音。该装置包括:语音合成单元、声传递函数获取单元、以及空间信息加入单元。这种方法和装置引入声传递函数方法对语音进行处理,空间参数信息结合端到端语音合成生成带有空间信息的语音,结合声传递函数搭建端到端语音合成系统,可以在虚拟教室与虚拟直播等场景引入空间信息,增加与学生或听众互动体验与空间感受。
技术研发人员:智鹏鹏;陈高峰;杨嵩
受保护的技术使用者:北京世纪好未来教育科技有限公司
技术研发日:2021.05.19
技术公布日:2021.06.15
本文用于企业家、创业者技术爱好者查询,结果仅供参考。