技术特征:
1.一种交互对象的驱动方法,其特征在于,所述方法包括:
获取交互对象的声音驱动数据的声学特征;
利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;
根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;
根据所述姿态参数值控制所述交互对象的姿态。
2.根据权利要求1所述的方法,其特征在于,所述获取交互对象的声音驱动数据的声学特征,包括:
获取所述交互对象的声音驱动数据对应的语音帧序列;
根据所述语音帧序列中各个语音帧的声学特征向量,得到所述声音驱动数据的声学特征。
3.根据权利要求1或2所述的方法,其特征在于,所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络,所述利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率,包括:
将所述声音特征输入至所述第一全连接网络,得到所述第一全连接网络输出的第一声学特征序列;
利用所述编码子网络,对所述第一声学特征序列进行特征编码处理;
将编码结果输入至所述第二全连接网络,得到所述声音驱动数据中各个语音帧的音素后验概率。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述各个音素的音素后验概率,得到所述交互对象的姿态参数值,包括:
将所述各个语音帧的音素后验概率输入至时序网络,输出关联特征信息;
将所述关联特征信息输入至第三全连接网络,得到关联特征序列;
对所述关联特征序列进行激活处理,得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。
5.根据权利要求1至4任一所述的方法,其特征在于,所述交互对象的姿态参数包括面部姿态参数,所述根据所述姿态参数值控制所述交互对象的姿态,包括:
根据与所述各个语音帧的音素后验概率匹配的面部姿态参数,驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。
6.一种音素处理方法,其特征在于,所述方法包括:
根据多个目标语种中的音素,得到包含多语种的音素表;
基于所述包含多语种的音素表,训练得到声音特征提取网络,所述声音特征提取网络用于提取待识别语音帧的音素后验概率。
7.根据权利要求6所述的方法,其特征在于,所述根据多个目标语种中的音素,得到包含多语种的音素表,包括:
将所述多个目标语种中的音素进行拼接;
将拼接结果中发音相似度超过第一设定阈值的音素进行合并,得到包含多语种的音素表。
8.根据权利要求6所述的方法,其特征在于,所述根据多个目标语种中的音素,得到包含多语种的音素表,包括:
将多个目标语种中的音素分别映射为发音相似度满足预设相似度条件的国际音标;
将映射结果中具有相同发音的国际音标进行合并,得到所述包含多语种的音素表。
9.根据权利要求8所述的方法,其特征在于,响应于所述多个目标语种中存在与各个国际音标的发音相似度小于或等于第二设定阈值的第一音素,将所述第一音素添加至所述包含多语种的音素表中。
10.根据权利要求6至9任一项所述的方法,其特征在于,所述方法还包括:
获取多语种的语音样本,所述语音样本的语种类型与所述多语种音素表包含的语种类型相同;
对所述语音样本进行音素对齐操作,得到所述语音样本所包含的音素;
利用所述多语种的音素表中的音素对所述语音样本中的音素进行标注。
11.根据权利要求10所述的方法,其特征在于,所述基于所述包含多语种的音素表,训练得到声音特征提取网络,包括:
将标注后的语音样本的声学特征输入至所述声音特征提取网络,得到所述语音样本中各个语音帧的音素后验概率;
根据所述语音帧的最大音素后验概率指示的音素与所标注的真实值之间的差异,调整所述声音特征提取网络的参数值。
12.一种交互对象的驱动装置,其特征在于,所述装置包括:
第一获取单元,用于获取交互对象的声音驱动数据的声学特征;
第二获取单元,用于利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;
第三获取单元,用于根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;
控制单元,用于根据所述姿态参数值控制所述交互对象的姿态。
13.一种音素处理装置,其特征在于,所述装置包括:
音素表获取单元,用于根据多个目标语种中的音素,得到包含多语种的音素表;
训练单元,用于基于所述包含多语种的音素表,训练得到声音特征提取网络,所述声音特征提取网络用于提取待识别语音帧的音素后验概率。
14.一种电子设备,其特征在于,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至5任一项所述的方法,或者,所述处理器用于在执行所述计算机指令时实现权利要求6至11任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一所述的方法,或者,所述程序被处理器执行时实现权利要求6至11任一所述的方法。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一所述的方法,或者,所述程序被处理器执行时实现权利要求6至11任一所述的方法。
技术总结
公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质,所述交互对象驱动方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。
技术研发人员:吴文岩;吴潜溢;高娜;钱晨
受保护的技术使用者:北京市商汤科技开发有限公司
技术研发日:2021.05.31
技术公布日:2021.08.27
本文用于企业家、创业者技术爱好者查询,结果仅供参考。