语音转换虚拟脸部图像的方法与流程

2021-06-18 20:18:00 来源：中国专利 TAG：转换方法脸部语音图像

技术特征：

1.一种语音转换虚拟脸部图像的方法，适用于将用户的语音转换成虚拟脸部图像，由计算机系统执行，所述计算机系统存储多帧相关于数字角色于发出多种不同音素时及静音音素所对应的多种不同嘴型的嘴型图像、多笔谈话、多个分别对应所述谈话的音素串行，及相关所述用户的语音特征数据，每一嘴型图像对应于所述音素及静音音素的其中一者，每一谈话所对应的音素串行包含多个排列组合出该谈话的音素，每一谈话包含多个谈话片段，每一谈话片段对应所对应的音素串行中的所述音素的其中一者，所述计算机系统包含用于连续地撷取当前声音的声音撷取单元，其特征在于：所述语音转换虚拟脸部图像的方法包含以下步骤：

(a)将每一谈话的每一谈话片段及其对应的音素进行机器学习演算，以建立出用于将语音片段转换成音素的音素转换模型；

(b)根据所述语音特征数据，将所述声音撷取单元所撷取到的当前声音滤除所述用户的语音外的声音，以获得滤除后声音数据；

(c)判定所述滤除后声音数据是否包括语音片段；

(d)当判定出所述滤除后声音数据包括语音片段时，利用所述音素转换模型，将所述滤除后声音数据所包括的语音片段转换成目标音素；

(e)根据所述目标音素，从所述嘴型图像获得对应于所述目标音素的目标嘴型图像；及

(f)根据所述目标嘴型图像获得至少一相关于所述数字角色的虚拟脸部图像。

2.根据权利要求1所述的语音转换虚拟脸部图像的方法，其特征在于：所述计算机系统还存储多帧相关于所述数字角色的多种不同脸部表情的表情图像，每一种脸部表情对应于指示出所述脸部表情的表情参数，每一表情图像对应于所述脸部表情的其中一者所对应的表情参数，所述声音撷取单元所撷取到的当前的语音片段包含至少一语音子片段，在步骤(c)后及步骤(f)前还包含以下步骤：

(g)当判定出所述滤除后声音数据包括语音片段时，对于所述滤除后声音数据包括的语音片段的每一语音子片段，利用用于将语音子片段转换成表情参数的表情转换模型，将所述语音子片段转换成目标表情参数；及

(h)对于每一目标表情参数，根据所述目标表情参数，从所述表情图像获得对应所述目标表情参数的目标表情图像；

其中，在步骤(f)中，还根据步骤(h)所获得的目标表情图像获得该至少一虚拟脸部图像。

3.根据权利要求2所述的语音转换虚拟脸部图像的方法，其特征在于：在步骤(h)前还包含以下步骤：

(i)当判定出所述滤除后声音数据不包括语音片段时，将静音表情参数作为所述目标表情参数。

4.根据权利要求2所述的语音转换虚拟脸部图像的方法，其特征在于：所述计算机系统还存储多笔影音数据，每一影音数据包括多帧相关于训练者演说的脸部图像及多个分别对应所述脸部图像的音频片段，在步骤(g)前还包含以下步骤：

(j)对于所述影音数据的每一脸部图像，获得所述脸部图像中对应于所述训练者脸部的其中一器官的器官部分；

(k)对于所述影音数据的每一脸部图像，根据所述脸部图像中的器官部分获得器官特征；

(l)对于所述影音数据的每一脸部图像，根据所述脸部图像对应的器官特征将所述脸部图像进行表情辨识，以获得所述脸部图像所对应的所述训练者的表情辨识结果；及

(m)将每一脸部图像所对应的表情辨识结果及音讯片段进行机器学习演算，以建立所述表情转换模型。

5.根据权利要求4所述的语音转换虚拟脸部图像的方法，其特征在于：在步骤(j)中，所述器官部分为对应所述训练者脸部的眉毛。

6.根据权利要求4所述的语音转换虚拟脸部图像的方法，其特征在于：在步骤(l)中，所述表情辨识结果是高兴、生气、难过，及无表情的其中一者。

7.根据权利要求1所述的语音转换虚拟脸部图像的方法，其特征在于：在步骤(b)前还包含以下步骤：

(n)判定所述声音撷取单元所撷取到的当前声音是否包括语音片段；

在判定出所述声音撷取单元所撷取到的当前声音包括语音片段后，进行步骤(b)。

8.根据权利要求7所述的语音转换虚拟脸部图像的方法，其特征在于：在步骤(e)前还包含以下步骤：

(o)在判定出所述声音撷取单元所撷取到的当前声音不包括语音片段后，将所述静音音素作为所述目标音素。

9.根据权利要求1所述的语音转换虚拟脸部图像的方法，其特征在于：在步骤(c)后还包含以下步骤：

(p)在判定出所述滤除后声音数据不包括语音片段后，将所述静音音素作为所述目标音素。

技术总结
一种语音转换虚拟脸部图像的方法，由计算机系统执行，包含以下步骤：(A)将每一谈话的每一谈话片段及其对应的音素进行机器学习演算，以建立出音素转换模型；(B)根据所述语音特征数据，将所撷取到的当前声音滤除用户的语音外的声音，以获得滤除后声音数据；(C)判定所述滤除后声音数据是否包括语音片段；(D)当判定结果为肯定时，利用该音素转换模型，将所述滤除后声音数据所包括的语音片段转换成目标音素；(E)根据所述目标音素，从所存储多帧嘴型图像中，获得对应于所述目标音素的目标嘴型图像，其中每一嘴型图像对应于所述音素的其中一者；及(F)根据所述目标嘴型图像获得至少一相关于所述数字角色的虚拟脸部图像。

技术研发人员：都伯利;张哲睿;石千泓
受保护的技术使用者：泛太丝亚企业管理顾问(上海)有限公司
技术研发日：2019.12.02
技术公布日：2021.06.18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音转换虚拟脸部图像的方法与流程

相关文章

最热文献