同步人像口型与音频的方法、装置以及存储介质与流程

2022-07-22 21:39:43 来源：中国专利 TAG：

技术特征：
1.一种同步人像口型与音频的方法，其特征在于，包括：确定目标音频包含的多个发音和所述多个发音在所述目标音频中发出的时间节点；从预设的资源库中获取与所述多个发音对应的多个发音口型图像，其中所述资源库用于存储发音口型图像；以及根据所述时间节点将所述多个发音口型图像渲染至预设的人像视频的唇部区域，并与所述目标音频进行同步。2.根据权利要求1所述的方法，其特征在于，从预设的资源库中获取与所述多个发音对应的多个发音口型图像，包括：分别确定所述多个发音对应的声母及韵母；以及从所述资源库中获取与每个发音的声母及韵母对应的发音口型图像，其中所述资源库记录声母及韵母和发音口型图像之间的映射关系。3.根据权利要求2所述的方法，其特征在于，从所述资源库中获取与每个发音的声母及韵母对应的发音口型图像，包括：从多个口型类别中确定与所述发音的声母及韵母对应的的口型类别，其中所述口型类别是根据发音时的口型对声母及韵母进行归类得到；以及从所述资源库中获取与所述口型类别对应的发音口型图像作为所述发音的发音口型图像。4.根据权利要求2所述的方法，其特征在于，确定目标音频包含的多个发音，包括：接收文本片段并生成与所述文本片段对应的所述目标音频，并且分别确定所述多个发音对应的声母及韵母，包括：分别确定所述文本片段包含的文字对应的声母及韵母。5.根据权利要求3所述的方法，其特征在于，还包括根据以下步骤构建所述资源库：将声母和韵母进行组合，根据发音时的口型将声母和韵母组合确定为多个口型类别；确定包含所述多个口型类别的话术文本，并对朗读所述话术文本的场景进行录制得到视频片段；从所述视频片段中分别截取与所述多个口型类别对应的唇部图像帧作为所述发音口型图像；以及确定所述口型类别和所述发音口型图像之间的映射关系，并将所述映射关系存储至所述资源库。6.根据权利要求5所述的方法，其特征在于，从所述视频片段中分别截取与所述声母和韵母组合对应的唇部图像帧作为所述发音口型图像，包括：利用语音识别技术对所述视频片段进行识别，确定所述视频片段包含的发音以及所述发音的时间戳；以及根据所述时间戳从所述视频片段中截取唇部图像帧作为与所述发音对应的发音口型图像。7.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。8.一种同步人像口型与音频的装置，其特征在于，包括：发音确定模块，用于确定目标音频包含的多个发音和所述多个发音在所述目标音频中
发出的时间节点；口型图像确定模块，用于从预设的资源库中获取与所述多个发音对应的多个发音口型图像，其中所述资源库用于存储发音口型图像；以及同步渲染模块，用于根据所述时间节点将所述多个发音口型图像渲染至预设的人像视频的唇部区域，并与所述目标音频进行同步。9.根据权利要求8所述的装置，其特征在于，口型图像确定模块，包括：确定子模块，用于分别确定所述多个发音对应的声母及韵母；以及口型图像确定子模块，用于从所述资源库中获取与每个发音的声母及韵母对应的发音口型图像，其中所述资源库记录声母及韵母和发音口型图像之间的映射关系。10.一种同步人像口型与音频的装置，其特征在于，包括：处理器；以及存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：确定目标音频包含的多个发音和所述多个发音在所述目标音频中发出的时间节点；从预设的资源库中获取与所述多个发音对应的多个发音口型图像，其中所述资源库用于存储发音口型图像；以及根据所述时间节点将所述多个发音口型图像渲染至预设的人像视频的唇部区域，并与所述目标音频进行同步。

技术总结
本申请公开了一种同步人像口型与音频的方法、装置以及存储介质。其中，该方法包括：确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并与目标音频进行同步。并与目标音频进行同步。并与目标音频进行同步。

技术研发人员：张磊井绪海夏溧吴海英王洪斌蒋宁
受保护的技术使用者：北京有限元科技有限公司
技术研发日：2021.01.22
技术公布日：2022/7/21

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于区块链的可信计算存储方法与流程

同步人像口型与音频的方法、装置以及存储介质与流程

相关文献

最热文献