技术特征:
1.一种唇形模型的训练方法,其特征在于,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述训练方法包括:
获取多个说话人的音视频数据样本;
从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数;
将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到所述对应说话人的预测的唇形系数,其中,所述多个说话人中的每个说话人对应一个说话人线性映射网络;
根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值;
通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数,对所述唇形模型进行训练。
2.如权利要求1所述的训练方法,其特征在于,对于所述多个说话人中的每个说话人,所述音素序列包括所述音视频数据中的多个音素帧,所述真实唇形系数包括所述音视频数据中的多个视频帧对应的唇形系数,所述音视频数据中的音素帧数量大于或等于视频帧数量,每个视频帧均存在一个时间上相对应的音素帧。
3.如权利要求2所述的训练方法,其特征在于,所述将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数,包括:
将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络,得到当前视频帧的预测的隐空间唇形系数;或
将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络,得到每个参考视频帧的预估隐空间唇形系数和预测权重,根据所述预测权重计算所有参考视频帧的所述预估隐空间唇形系数的加权平均值,作为当前视频帧的预测的隐空间唇形系数,其中,当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。
4.如权利要求1所述的训练方法,其特征在于,
所述唇形模型的损失函数是所述预测的唇形系数与所述真实唇形系数的均方误差;或
所述唇形模型的损失函数是所述预测的唇形系数对应的三维空间顶点与所述真实唇形系数对应的三维空间顶点的加权均方误差,
其中,唇部区域的三维空间顶点的均方误差的权重大于或等于其他区域的三维空间顶点的均方误差的权重。
5.一种语音动画合成方法,其特征在于,所述语音动画合成方法是基于唇形模型实现的,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述语音动画合成方法包括:
获取说话人信息、音素序列以及与所述音素序列相对应的音频数据;
将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
将所述预测的隐空间唇形系数输入与所述说话人信息相对应的所述说话人线性映射网络,得到预测的唇形系数;
根据所述预测的唇形系数生成视频数据;
将所述视频数据和所述音频数据合成语音动画。
6.一种唇形模型的训练装置,其特征在于,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述训练装置包括:
采样单元,被配置为:获取多个说话人的音视频数据样本;
分析单元,被配置为:从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数;
第一预测单元,被配置为:将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
第二预测单元,被配置为:将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到所述对应说话人的预测的唇形系数,其中,所述多个说话人中的每个说话人对应一个说话人线性映射网络;
计算单元,被配置为:根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值;
调参单元,被配置为:通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数,对所述唇形模型进行训练。
7.一种语音动画合成装置,其特征在于,所述语音动画合成装置是基于唇形模型实现的,所述唇形模型包括音素唇形预测网络和说话人线性映射网络,所述语音动画合成装置包括:
获取单元,被配置为:获取说话人信息、音素序列以及与所述音素序列相对应的音频数据;
第三预测单元,被配置为:将所述音素序列输入所述音素唇形预测网络,得到预测的隐空间唇形系数;
第四预测单元,被配置为:将所述预测的隐空间唇形系数输入与所述说话人信息相对应的说话人线性映射网络,得到预测的唇形系数;
唇形驱动单元,被配置为:根据所述预测的唇形系数生成视频数据;
合成单元,被配置为:将所述视频数据和所述音频数据合成语音动画。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的唇形模型的训练方法或如权利要求5所述的语音动画合成方法。
9.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的唇形模型的训练方法或如权利要求5所述的语音动画合成方法。
10.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被至少一个处理器执行时实现如权利要求1到4中的任一权利要求所述的唇形模型的训练方法或如权利要求5所述的语音动画合成方法。
技术总结
本公开关于一种唇形模型的训练方法和装置及语音动画合成方法和装置,唇形模型包括音素唇形预测网络和说话人线性映射网络,训练方法包括:获取多个说话人的音视频数据样本;从多个说话人的音视频数据样本获取音素序列和真实唇形系数;将音素序列输入音素唇形预测网络,得到预测的隐空间唇形系数;将预测的隐空间唇形系数输入对应说话人的说话人线性映射网络,得到对应说话人的预测的唇形系数,其中,多个说话人中的每个说话人对应一个说话人线性映射网络;根据预测的唇形系数和真实唇形系数确定唇形模型的损失函数的值;通过根据损失函数的值调整音素唇形预测网络和对应说话人的说话人线性映射网络的参数,对唇形模型进行训练。
技术研发人员:王鹏睿
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2021.05.28
技术公布日:2021.08.27
本文用于企业家、创业者技术爱好者查询,结果仅供参考。