同步人像口型与音频的方法、装置以及存储介质与流程

2022-07-22 21:39:43 来源：中国专利 TAG：

1.本技术涉及音视频合成技术领域，特别是涉及一种同步人像口型与音频的方法、装置以及存储介质。

背景技术：

2.目前虚拟人像在影视游戏、社交娱乐、商务营销、日常生活、智慧城市等各种场景广泛应用，尤其对于互动虚拟主播，虚拟客服等应用需求非常普遍。
3.当前交互虚拟人像应用实现基本分为两类，一类通过预置几个简单视频诸如说话、微笑、静候等，依据场景流程分别切换对应预置视频。另外一类通过深度学习神经网络和计算机图形学结合，让计算机能够理解语音内容并精细驱动虚拟人象的口唇动作、面部表情、肢体姿态，生成极具逼真感的虚拟形象动画。深度学习技术难度比较大，应用成本比较高，在很多成本预算受限项目中，无法落地实施，因此有很多落地项目采用预置动画方案，但这种方案通过简单的动画切换，比较生硬，体验效果比较差，口型与语音无关联。
4.针对上述的现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本公开的实施例提供了一种同步人像口型与音频的方法、装置以及存储介质，以至少解决现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题。
6.根据本公开实施例的一个方面，提供了一种同步人像口型与音频的方法，包括：确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并与目标音频进行同步。
7.根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。
8.根据本公开实施例的另一个方面，还提供了一种同步人像口型与音频的装置，包括：发音确定模块，用于确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；口型图像确定模块，用于从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及同步渲染模块，用于根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并与目标音频进行同步。
9.根据本公开实施例的另一个方面，还提供了一种同步人像口型与音频的装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及根据时
间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并与目标音频进行同步。
10.在本公开实施例中，首先确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点，然后确定与多个发音对应的多个发音口型图像，最终根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域并与目标音频同步，从而得到虚拟人像的视频。与现有技术相比，本方案在生成虚拟人像的过程中不需要利用机器学习等手段对虚拟人像的唇部进行生成，因此可以降低技术的实现难度与成本。此外，本方案的虚拟人像还可以结合发音时的口型，因此使得虚拟人像可以与音频同步，进而虚拟人像口型更加形象。达到了在保证虚拟人像生动形象的基础上降低了技术开发成本的技术效果。进而解决了现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题。
附图说明
11.此处所说明的附图用来提供对本公开的进一步理解，构成本技术的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：
12.图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；
13.图2是根据本公开实施例1的第一个方面所述的同步人像口型与音频的方法的流程示意图；
14.图3是根据本公开实施例1所述的同步人像口型与音频整体流程示意图；
15.图4是根据本公开实施例1所述的同步人像口型与音频操作流程图；
16.图5是根据本公开实施例2所述的同步人像口型与音频的装置的示意图；以及
17.图6是根据本公开实施例3所述的同步人像口型与音频的装置的示意图。
具体实施方式
18.为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。
19.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
20.实施例1
21.根据本实施例，还提供了一种同步人像口型与音频的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所
示出或描述的步骤。
22.本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现同步人像口型与音频的方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
23.应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
24.存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的同步人像口型与音频的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的同步人像口型与音频的方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
25.传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(network interface controller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
26.显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
27.此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。
28.在上述运行环境下，根据本实施例的第一个方面，提供了一种同步人像口型与音频的方法，该方法例如可以应用到双录系统的服务器，通过该方法可以用虚拟人像的形式对用户进行播报。图2示出了该方法的流程示意图，参考图2所示，该方法包括：
29.s202：确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；
30.s204：从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及
31.s206：根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并
与目标音频进行同步。
32.正如背景技术中所述的，当前交互虚拟人像应用实现基本分为两类，一类通过预置几个简单视频诸如说话、微笑、静候等，依据场景流程分别切换对应预置视频。另外一类通过深度学习神经网络和计算机图形学结合，让计算机能够理解语音内容并精细驱动虚拟人象的口唇动作、面部表情、肢体姿态，生成极具逼真感的虚拟形象动画。深度学习技术难度比较大，应用成本比较高，在很多成本预算受限项目中，无法落地实施，因此有很多落地项目采用预置动画方案，但这种方案通过简单的动画切换，比较生硬，体验效果比较差，口型与语音无关联。
33.针对背景技术中存在的技术问题，本实施例技术方案在步骤s202中，服务器首先确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点。在一个具体实例中，该目标音频例如是在双录过程中对用户播报的音频，例如：目标音频为“请问您是张三吗”。在这种情况下，服务器首先需要确定音频(“请问您是张三吗”)中包含的多个发音，其中多个发音即为“请”、“问”、“您”、“是”、“张”、“三”、“吗”对应的发音。并且，服务器还需要确定每个发音在目标音频中发出的时间节点。例如：目标音频“请问您是张三吗”播放的时间为2秒，服务器需要确定每个发音发出的时间节点，例如：“请”、“问”、“您”、“是”、“张”、“三”、“吗”发出的时间节点分别为0.1秒、0.4秒、0.8秒、1.2秒、1.5秒、1.7秒、2.0秒。
34.进一步地，在步骤s204中，服务器从预设的资源库中获取与多个发音对应的多个发音口型图像。众所周知的，人不同发音对应不同的口型，例如：在对“请”、“问”、“您”、“是”、“张”、“三”、“吗”进行发音的过程中口型不同(即，发音时唇部形状不同)。本实施例中服务器需要确定目标音频中每个发音对应的多个发音口型图像，其中发音口型图像可以是真人的发音口型图像或者虚拟动画人物的虚拟口型图像，此处不做具体限定。本方案预设的资源库中可以涵盖所有口型的发音口型图像，因此服务器可以从资源库中获取与多个发音对应的多个发音口型图像。
35.最终，在步骤s206中，在确定多个发音口型图像之后，本方案需要确定与目标音频同步的虚拟人物图像。具体地，本方案中可以预设一段人像视频(或者动画)，并且该人像视频的长度例如与上述的目标音频播放时长相同(2秒)。服务器根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，即服务器将确定的多个发音口型图像分别渲染至人像视频的0.1秒、0.4秒、0.8秒、1.2秒、1.5秒、1.7秒、2.0秒处视频帧的唇部区域，从而可以用发音口型图像覆盖人像视频的唇部区域。并且，服务器还将渲染后的视频与目标音频进行同步，实现了目标音频与人像口型同步的效果。
36.从而通过这种方式，本方案首先确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点，然后确定与多个发音对应的多个发音口型图像，最终根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域并与目标音频同步，从而得到虚拟人像的视频。与现有技术相比，本方案在生成虚拟人像的过程中不需要利用机器学习等手段对虚拟人像的唇部进行生成，因此可以降低技术的实现难度与成本。此外，本方案的虚拟人像还可以结合发音时的口型，因此使得虚拟人像可以与音频同步，进而虚拟人像口型更加形象。达到了在保证虚拟人像生动形象的基础上降低了技术开发成本的技术效果。进而解决了现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题。
37.可选地，从预设的资源库中获取与多个发音对应的多个发音口型图像，包括：分别确定多个发音对应的声母及韵母；以及从资源库中获取与每个发音的声母及韵母对应的发音口型图像，其中资源库记录声母及韵母和发音口型图像之间的映射关系。
38.在发音过程中，发音口型一般与发音的声母和韵母相关。因此，本方案在从预设的资源库中获取与多个发音对应的多个发音口型图像的操作中，服务器首先分别确定多个发音对应的声母及韵母，例如：“请”对应的声母和韵母为“qing”，“问”对应的声母和韵母为“wen”等。进一步地，服务器从资源库中获取与每个发音的声母及韵母对应的发音口型图像，其中资源库记录声母及韵母和发音口型图像之间的映射关系。因此，服务器可以利用声母和韵母作为查询条件在该资源库中获取对应的发音口型图像。从而通过这种方式，可以通过声母和韵母准确地确定每个发音对应的发音口型图像。
39.可选地，从资源库中获取与每个发音的声母及韵母对应的发音口型图像，包括：从多个口型类别中确定与发音的声母及韵母对应的的口型类别，其中口型类别是根据发音时的口型对声母及韵母进行归类得到；以及从资源库中获取与口型类别对应的发音口型图像作为发音的发音口型图像。
40.具体地，通过声母和韵母组合可以确定多组分母和韵母组合，然而不同的声母和韵母组合对应的发音口型是相同或者近似的，例如：“bo”与“po”发音时的口型相同，“hai”与“he”发音时的口型相同。因此，本方案可以将具有相同发音口型的声母和韵母组合进行归类，例如：将“bo”与“po”归为一类，将“hai”与“he”归为一类，因此可以得到多个口型类别，每个口型类别对应一种发音口型图像，并且本方案还将口型类别以及对应的发音口型图像存储至该资源库中。在从资源库中获取与每个发音的声母及韵母对应的发音口型图像的过程中，服务器首先可以从多个口型类别中确定与发音的声母及韵母对应的的口型类别，然后服务器从资源库中获取与口型类别对应的发音口型图像作为发音的发音口型图像。从而通过这种方式，本方案对口型进行分类，因此基于分类类别确定口型图像，与直接利用声母和韵母作为查询条件相比，本方案可以缩小查询的范围，进而提高确定口型图像的效率。
41.可选地，确定目标音频包含的多个发音，包括：接收文本片段并生成与文本片段对应的目标音频，并且分别确定多个发音对应的声母及韵母，包括：分别确定文本片段包含的文字对应的声母及韵母。
42.具体地，参考图3所示，本方案在确定目标音频包含的多个发音的操作中，首先接收文本片段(对应于图3的对话文本)，即本方案中的文本片段为：请问您是张三吗。然后，服务器生成与文本片段对应的目标音频，即将文本片段转化为对应的目标音频，例如可以采用现有技术中的文本转语音技术，此处关于文本转语音的方式不做具体限定。并且，在分别确定多个发音对应的声母及韵母的操作中，服务器可以分别确定文本片段包含的文字对应的声母及韵母，例如：确定“请”字对应的声母及韵母为“qing”。从而，通过文本可以准确地确定每个文字声母和韵母，进而准确地确定每个发音对应的发音口型。
43.可选地，还包括根据以下步骤构建资源库：将声母和韵母进行组合，根据发音时的口型将声母和韵母组合确定为多个口型类别；确定包含多个口型类别的话术文本，并对朗读话术文本的场景进行录制得到视频片段；从视频片段中分别截取与多个口型类别对应的唇部图像帧作为发音口型图像；以及确定口型类别和发音口型图像之间的映射关系，并将
映射关系存储至资源库。
44.本实施例还包括构建资源库的方法，具体地，在构建资源库的过程中，首先将声母和韵母进行组合，然后根据发音时的口型将声母和韵母组合确定为多个口型类别，例如：“bo”与“po”发音时的口型相同，“hai”与“he”发音时的口型相同。因此，本方案可以将“bo”与“po”归为一类，将“hai”与“he”归为一类，因此可以得到多个口型类别。进一步地，确定包含多个口型类别的话术文本，即：话术文本能够涵盖所有的口型类别，然后对朗读话术文本的场景进行录制得到视频片段。进一步地，从视频片段中分别截取与多个口型类别对应的唇部图像帧作为发音口型图像，即在视频中截取唇部图像帧作为发音口型图像。最终，确定口型类别和发音口型图像之间的映射关系，并将映射关系存储至资源库。从而可以构建包含全部口型的资源库。
45.可选地，从视频片段中分别截取与声母和韵母组合对应的唇部图像帧作为发音口型图像，包括：利用语音识别技术对视频片段进行识别，确定视频片段包含的发音以及发音的时间戳；以及根据时间戳从视频片段中截取唇部图像帧作为与发音对应的发音口型图像。
46.具体地，在从视频片段中分别截取与声母和韵母组合对应的唇部图像帧作为发音口型图像的操作中，首先利用语音识别技术对视频片段进行识别，确定视频片段包含的发音以及发音的时间戳，在一个具体实例中，利用asr技术进行语音识别，确定视频片段包含的发音以及发音的时间戳(即，发音的时间节点)。进一步地，根据时间戳从视频片段中截取唇部图像帧作为与发音对应的发音口型图像，即从视频片段的时间戳位置截取唇部图像帧，作为该时间戳出的发音的发音口型图像。因此，可以精准地截取到每个发音口型图像。
47.此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行以上任意一项所述的方法。
48.参考图3所示，在实际应用中，本方案包括：
49.1.前端传入对话文本，比如
‘
请问你是张三吗’，语音合成服务将文本转换为语音同时返回发音时间节点及对应字声韵母。
50.2.将文本对应语音的声韵母按照发音口型接近归类，并到视频资源库索引到对应口型资源。
51.3.将口型资源与对应发音时间节点渲染拼接并与语音播放同步显示，使得播放与口型相对于。
52.参考图4所示，在实际应用中，本方案主要包括数据制作(资源库)和人像互动(同步口型)，具体地：
53.数据制作：口型依据发音而变化，发音依据声母韵母变化而变化，为了采集覆盖主要口型的变化，将声母韵母会进行分组，口型接近的归属为一类。这样虽然发音组会很多，但经过分组，口型变化相对比较少，再通过设计一组固定话术，来涵盖所需口型。通过固定话术真人朗读视频录制或专业语音驱动防真人或卡通来制作视频，再通过asr语音识别技术，识别语音里的每个关键字及时间戳，依据时间戳到视频里截取对应序列帧的口型区域，建立口型与发音及声韵母对应表，至此数据制作完毕。
54.人像互动：依据互动场景，将互动文本通过语音合成转换为语音并返回对应语音发音时间戳。然后通过文本转换为语音对应的声韵母，到视频片段资源包提取对应口型序
列帧，依据显示时间，渲染显示效果。总的需经过如下步骤。
55.设计固定话术：话术包括的声母韵母能覆盖主要口型变化。
56.话术视频制作：真人录制或语音驱动口型防真人视频制作。
57.切片视频资源包：通过语音识别技术确定声韵母与文本及视频片段映射。
58.文本转语音：通过语音合成，将文本转换为语音，同时获取每个发音节点。
59.文本转声韵母：将文本依据语义转换为对应语音的声韵母。
60.渲染口型变化：依据文本声韵母及语音发音节点，加载对应口型视频片段渲染显示效果。
61.从而根据本实施例，本方案首先确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点，然后确定与多个发音对应的多个发音口型图像，最终根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域并与目标音频同步，从而得到虚拟人像的视频。与现有技术相比，本方案在生成虚拟人像的过程中不需要利用机器学习等手段对虚拟人像的唇部进行生成，因此可以降低技术的实现难度与成本。此外，本方案的虚拟人像还可以结合发音时的口型，因此使得虚拟人像可以与音频同步，进而虚拟人像口型更加形象。达到了在保证虚拟人像生动形象的基础上降低了技术开发成本的技术效果。进而解决了现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题。
62.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
63.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
64.实施例2
65.图5示出了根据本实施例所述的同步人像口型与音频的装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：发音确定模块510，用于确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；口型图像确定模块520，用于从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及同步渲染模块530，用于根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并与目标音频进行同步。
66.可选地，口型图像确定模块520，包括：确定子模块，用于分别确定多个发音对应的声母及韵母；以及口型图像确定子模块，用于从资源库中获取与每个发音的声母及韵母对应的发音口型图像，其中资源库记录声母及韵母和发音口型图像之间的映射关系。
67.可选地，口型图像确定子模块，包括：类别确定单元，用于从多个口型类别中确定
与发音的声母及韵母对应的的口型类别，其中口型类别是根据发音时的口型对声母及韵母进行归类得到；以及口型图像确定单元，用于从资源库中获取与口型类别对应的发音口型图像作为发音的发音口型图像。
68.可选地，发音确定模块510，包括：文本接收子模块，用于接收文本片段并生成与文本片段对应的目标音频，并且分别确定多个发音对应的声母及韵母，包括：文字确定子模块，用于分别确定文本片段包含的文字对应的声母及韵母。
69.可选地，装置500还包括：资源库构建模块，用于根据以下步骤构建资源库：将声母和韵母进行组合，根据发音时的口型将声母和韵母组合确定为多个口型类别；确定包含多个口型类别的话术文本，并对朗读话术文本的场景进行录制得到视频片段；从视频片段中分别截取与多个口型类别对应的唇部图像帧作为发音口型图像；以及确定口型类别和发音口型图像之间的映射关系，并将映射关系存储至资源库。
70.可选地，从视频片段中分别截取与声母和韵母组合对应的唇部图像帧作为发音口型图像，包括：利用语音识别技术对视频片段进行识别，确定视频片段包含的发音以及发音的时间戳；以及根据时间戳从视频片段中截取唇部图像帧作为与发音对应的发音口型图像。
71.从而根据本实施例，本方案首先确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点，然后确定与多个发音对应的多个发音口型图像，最终根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域并与目标音频同步，从而得到虚拟人像的视频。与现有技术相比，本方案在生成虚拟人像的过程中不需要利用机器学习等手段对唇部进行渲染，因此可以降低技术的实现难度与成本。此外，本方案的虚拟人像还可以结合发音时的口型，因此使得虚拟人像可以与音频同步，进而虚拟人像口型更加形象。达到了在保证虚拟人像生动形象的基础上降低了技术开发成本的技术效果。进而解决了现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题。
72.实施例3
73.图6示出了根据本实施例所述的同步人像口型与音频的装置600，该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示，该装置600包括：处理器610；以及存储器620，与处理器610连接，用于为处理器610提供处理以下处理步骤的指令：确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点；从预设的资源库中获取与多个发音对应的多个发音口型图像，其中资源库用于存储发音口型图像；以及根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域，并与目标音频进行同步。
74.可选地，从预设的资源库中获取与多个发音对应的多个发音口型图像，包括：分别确定多个发音对应的声母及韵母；以及从资源库中获取与每个发音的声母及韵母对应的发音口型图像，其中资源库记录声母及韵母和发音口型图像之间的映射关系。
75.可选地，从资源库中获取与每个发音的声母及韵母对应的发音口型图像，包括：从多个口型类别中确定与发音的声母及韵母对应的的口型类别，其中口型类别是根据发音时的口型对声母及韵母进行归类得到；以及从资源库中获取与口型类别对应的发音口型图像作为发音的发音口型图像。
76.可选地，确定目标音频包含的多个发音，包括：接收文本片段并生成与文本片段对
应的目标音频，并且分别确定多个发音对应的声母及韵母，包括：分别确定文本片段包含的文字对应的声母及韵母。
77.可选地，存储器620还用于为处理器610提供处理以下处理步骤的指令：括根据以下步骤构建资源库：将声母和韵母进行组合，根据发音时的口型将声母和韵母组合确定为多个口型类别；确定包含多个口型类别的话术文本，并对朗读话术文本的场景进行录制得到视频片段；从视频片段中分别截取与多个口型类别对应的唇部图像帧作为发音口型图像；以及确定口型类别和发音口型图像之间的映射关系，并将映射关系存储至资源库。
78.可选地，从视频片段中分别截取与声母和韵母组合对应的唇部图像帧作为发音口型图像，包括：利用语音识别技术对视频片段进行识别，确定视频片段包含的发音以及发音的时间戳；以及根据时间戳从视频片段中截取唇部图像帧作为与发音对应的发音口型图像。
79.从而根据本实施例，本方案首先确定目标音频包含的多个发音和多个发音在目标音频中发出的时间节点，然后确定与多个发音对应的多个发音口型图像，最终根据时间节点将多个发音口型图像渲染至预设的人像视频的唇部区域并与目标音频同步，从而得到虚拟人像的视频。与现有技术相比，本方案在生成虚拟人像的过程中不需要利用机器学习等手段对唇部进行渲染，因此可以降低技术的实现难度与成本。此外，本方案的虚拟人像还可以结合发音时的口型，因此使得虚拟人像可以与音频同步，进而虚拟人像口型更加形象。达到了在保证虚拟人像生动形象的基础上降低了技术开发成本的技术效果。进而解决了现有技术中存在的在生成虚拟人像的过程中无法兼顾人物的形象效果以及制作难度的技术问题。
80.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
81.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
82.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
83.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
84.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
85.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
86.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于区块链的可信计算存储方法与流程

同步人像口型与音频的方法、装置以及存储介质与流程

相关文献

最热文献