虚拟主播生成方法、装置、计算机设备及可读存储介质与流程

2021-08-03 14:28:00 来源：中国专利 TAG：计算机图像处理主播装置生成

技术特征：

1.一种虚拟主播生成方法，包括：

获取中文音频，并根据所述中文音频，获取所述中文音频所包含的每个中文文字相对应的中文读音；

根据所述中文读音，获取所述中文读音相对应的中文音素；

根据所述中文音素，获取所述中文音素所对应的预设嘴型关键点，并根据所述预设嘴型关键点，获取所述预设嘴型关键点所对应的预设嘴型图；

获取预设虚拟主播形象，将所述预设嘴型图设置至所述预设虚拟主播形象的预设嘴唇位置，以生成所述中文读音所对应的虚拟主播。

2.根据权利要求1所述虚拟主播生成方法，其特征在于，所述根据所述中文读音，获取所述中文读音相对应的中文音素的步骤包括：

判断所述中文读音是否存在相对应的预设音素；

若所述中文读音存在相对应的预设音素，获取所述中文读音相对应的预设音素，并将所述预设音素作为所述中文读音相对应的中文音素；

若所述中文读音不存在相对应的预设音素，将所述中文读音拆分成相对应的声母与韵母，并分别获取所述声母与所述韵母各自所对应的预设音素，再将所述声母与所述韵母各自所对应的预设音素进行拼接组合，以得到所述中文读音相对应的中文音素。

3.根据权利要求1所述虚拟主播生成方法，其特征在于，所述根据所述中文音素，获取所述中文音素所对应的预设嘴型关键点，并根据所述预设嘴型关键点，获取所述预设嘴型关键点所对应的预设嘴型图的步骤包括：

根据所述中文音素，获取所述中文音素所对应的预设图形索引库；

基于预设dtw算法，在所述预设图形索引库中进行路径查询，以得到所述中文音素相对应的目标索引路径，所述目标索引路径包括所述中文音素相对应的目标预设嘴型关键点及所述目标预设嘴型关键点所对应的目标预设嘴型图；

根据所述目标索引路径，获取所述目标索引路径所对应的目标预设嘴型图，以得到所述中文音素所对应的预设嘴型图。

4.根据权利要求1-3任一项所述虚拟主播生成方法，其特征在于，所述根据所述中文音素，获取所述中文音素所对应的预设嘴型关键点，并根据所述预设嘴型关键点，获取所述预设嘴型关键点所对应的预设嘴型图的步骤之前，还包括：

判断所述中文音素是否存储在预设缓存；

若所述中文音素存储在预设缓存，从所述预设缓存获取所述预设中文音素相对应的预设嘴型图；

若所述中文音素未存储在预设缓存，执行所述根据所述中文音素，获取所述中文音素所对应的预设嘴型关键点，并根据所述预设嘴型关键点，获取所述预设嘴型关键点所对应的预设嘴型图的步骤。

5.根据权利要求1所述虚拟主播生成方法，其特征在于，所述获取预设虚拟主播形象，将所述预设嘴型图设置至所述预设虚拟主播形象的预设嘴唇位置，以生成所述中文读音所对应的虚拟主播的步骤包括：

获取预设虚拟主播形象，并获取所述预设虚拟主播形象所包含的嘴唇所对应的预设嘴唇位置；

将所述预设嘴型图拼接至所述预设嘴唇位置；

根据所述预设嘴型图及所述预设嘴唇位置，调整所述预设嘴型图贴合至所述预设嘴唇位置，以使所述预设嘴型图与所述预设嘴唇位置相适配，从而生成所述中文读音所对应的虚拟主播。

6.根据权利要求5所述虚拟主播生成方法，其特征在于，所述根据所述预设嘴型图及所述预设嘴唇位置，调整所述预设嘴型图贴合至所述预设嘴唇位置，以使所述预设嘴型图与所述预设嘴唇位置相适配的步骤包括：

基于预设imagewarping算法，根据所述预设嘴型图及所述预设嘴唇位置，调整所述预设嘴型图贴合至所述预设嘴唇位置，以使所述预设嘴型图与所述预设嘴唇位置相适配。

7.根据权利要求1所述虚拟主播生成方法，其特征在于，所述获取中文音频的步骤包括：

获取中文文本，并将所述中文文本经预设tts方法转换成初始语音；

将所述初始语音进行强制对齐，以得到目标语音，并将所述目标语音作为所述中文文本所对应的中文音频。

8.一种虚拟主播生成装置，其特征在于，包括：

第一获取单元，用于获取中文音频，并根据所述中文音频，获取所述中文音频所包含的每个中文文字相对应的中文读音；

第二获取单元，用于根据所述中文读音，获取所述中文读音相对应的中文音素；

第三获取单元，用于根据所述中文音素，获取所述中文音素所对应的预设嘴型关键点，并根据所述预设嘴型关键点，获取所述预设嘴型关键点所对应的预设嘴型图；

生成单元，用于获取预设虚拟主播形象，将所述预设嘴型图设置至所述预设虚拟主播形象的预设嘴唇位置，以生成所述中文读音所对应的虚拟主播。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述计算机程序，以执行如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1-7中任一项所述方法的步骤。

技术总结
本申请属于图像处理技术领域，本申请提供了一种虚拟主播生成方法、装置、计算机设备及计算机可读存储介质。本申请通过获取中文音频，并根据中文音频，获取中文音频中所包含的每个中文文字相对应的中文读音，根据中文读音，获取中文读音相对应的中文音素，根据中文音素，获取中文音素所对应的预设嘴型关键点，并根据预设嘴型关键点，获取预设嘴型关键点所对应的预设嘴型图，获取预设虚拟主播形象，将所述预设嘴型图设置至所述预设虚拟主播形象的预设嘴唇位置，以生成中文读音所对应的虚拟主播，实现了虚拟主播的拼接式生成，相比传统技术中虚拟主播的生成方式，提高了虚拟主播生成的效率与效果。

技术研发人员：郑权;韦嘉楠;周超勇;刘玉宇
受保护的技术使用者：平安科技(深圳)有限公司
技术研发日：2021.04.30
技术公布日：2021.08.03

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种高性能一体成型结构的教学小提琴的制作方法

虚拟主播生成方法、装置、计算机设备及可读存储介质与流程

相关文章

最热文献