一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种虚拟角色动画表情生成系统及方法与流程

2022-06-11 23:50:27 来源:中国专利 TAG:


1.本发明涉及图像处理技术领域,尤其涉及一种虚拟角色动画表情生成系统及方法。


背景技术:

2.用户体验是游戏产品好坏重要因素之一,其中游戏中虚拟角色的表情是否丰富逼真,直接影响了用户对游戏产品的评价和参与程度。
3.为了提高用户体验,行业开发了各种各样的技术来提高虚拟角色表情的表现,期望能够让游戏中的虚拟角色像现实人物一样逼真开口说话,并配合剧情和剧本台词使得虚拟角色的面部表情及口型能够随着台词的内容以及身体动作等进行变化,从而可以丰富地表达当前场景下虚拟角色的内心变化。
4.现有技术中的自动口型生成系统,其实现原理通过语音和台本的强制对齐,比如mfa蒙特利尔强制对齐系统,参见:
5.https://montreal-forced-aligner.readthedocs.io/en/latest/
6.虽然能得到每个音素的时间段,并在每个音素的时间段中选出动画库中对应音素的动画进行播放。
7.但还存在很大的不足:
8.一:mfa蒙特利尔强制对齐系统无法满足动画师们的要求,动画师需要不断的去优化动画库中的动画来优化最终表现,整个过程都需要不断地迭代的,这个过程非常考验动画师的经验知识,因为没有任何的参照能够提供给动画师,最终的效果也是很不理想的。因此人力成本高昂。
9.二:实际在采集人们说话的口型存在技术的不足,人们说话的过程中,嘴型是自然过渡的,每个音素之间的衔接非常自然,因此造成每一个音素的嘴型比较含糊,难以提取每个音素对应嘴型的特征。
10.三:语音与台本的对其容易出错,一旦出错会出现音素和音频完全无法对上的错误,导致最后输出的动画无法和语音对齐。
11.因此,基于上述的技术缺陷生成的音素图片,以及使用图片生成动画的技术难以平滑过渡拟合,造成在实现生成的表情效果比较僵硬和呆板,而且不准确,也增加人工参与的程度和人工成本。


技术实现要素:

12.本发明为解决现有技术中存在的技术问题,提供一种虚拟角色动画表情生成系统,包括输入模块、特征提取模块、生成模块,其中:
13.输入模块用以获取面部动作的语音信息;
14.特征提取模块用以将面部动作的语音信息输入到神经网络中,提取到面部表情特征;
15.生成模块用以将面部表情特征进行变形处理,生成虚拟角色动画表情。
16.进一步地,所述特征提取模块为神经网络,包括依次连接的编码器、解码器,其中:
17.编码器为由多个卷积层构成时序卷积模块,用以对面部动作的语音信息进行编码;
18.解码器由多个依次交替连接的全连接层和注意力单元串联而成,用以对编码器的输出进行解码,得到面部表情特征。
19.进一步地,生成模块包括第一面部表情编码系统和第二面部表情编码系统以及重定向单元构成,其中:
20.第一面部表情编码系统为facs;
21.第二面部表情编码系统为以facs中每一个肌肉运动单元为基础构建对应的单一方向运动单元的集合,用以将每一个肌肉运动单元与对应的单一方向运动单元进行融合形成融合运动单元,并拟合生成真人动画表情;
22.重定向单元用以将真人动画表情移植到目标对象虚拟角色上。
23.本发明还公开一种虚拟角色动画表情生成方法,应用在虚拟角色动画表情生成系统,包括步骤:
24.获取面部动作的语音信息;
25.将面部动作的语音信息输入到神经网络中,提取到面部表情特征;
26.将面部表情特征进行变形处理,生成虚拟角色动画表情。
27.进一步地,神经网络提取到面部表情特征的步骤包括:
28.编码器对面部动作的语音信息进行编码;
29.解码器对编码器的编码结果进行解码,得到音素特征;
30.融合单元对音素特征和表情模板图像进行融合,得到融合图像;
31.卷积单元对融合图像进行特征抽取,得到融合图像特征;
32.全连接单元对融合图像特征进行抽取,得到面部表情特征。
33.进一步地,将面部表情特征进行变形处理,生成虚拟角色动画表情的步骤包括:
34.根据面部表情特征,获得肌肉运动单元特征;
35.根据面部表情特征,获得单一方向运动单元特征;
36.将肌肉运动单元特征与对应的单一方向运动单元特征进行融合形成融合运动单元特征,并拟合生成真人动画表情;
37.将真人动画表情移植到目标对象虚拟角色上。
38.进一步地,所述拟合的方法为神经网络或者线性回归的方法实现。
39.进一步地,神经网络的拟合方法包括:
40.设置损失函数;
41.对每帧进行拟合计算;
42.把第t帧的拟合权重作为第t 1帧的初始权重进行拟合;
43.设置学习率,使用梯度下降和adam优化器进行迭代优化。
44.本发明还公开一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如所述的虚拟角色表情生成
方法。
45.本发明还公开一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的虚拟角色表情生成方法的步骤。
46.本发明还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如所述的虚拟角色表情生成方法。
47.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的虚拟角色表情生成方法的步骤。
48.本发明公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
49.由此可见,本发明采取的技术方案取得的技术效果如下:
50.本技术通过使用asr(语音识别)的方案来直接识别台本的音素,避免了一个地方出错导致全部出错的情况,然后使用asr的输出作为神经网络的输入,提取特征得到用于生成真人的表情动画。
51.第二部分则是将神经网络的输出应用到各个游戏角色上,本技术采用新的技术方案进行融合,得到的动画更逼真。
52.为了对本发明有更清楚全面的了解,下面结合附图,对本发明的具体实施方式进行详细描述。
附图说明
53.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
54.图1为本技术实施例的一种虚拟角色表情生成方法的结构示意图;
55.图2为本技术发明实施例的特征提取模块的网络结构示意图;
56.图3为本技术实施例的虚拟角色表情生成流程示意图;
57.图4为本技术实施例的模型顶点示意图;
58.图5为本技术实施例的实现重定向的示意图。
59.其中:
60.输入模块1,特征提取模块2,生成模块3,语音信号4,音素信息5
61.编码器20,解码器21,独热编码器23。
具体实施方式
62.为了能够让游戏中的角色像现实人物一样逼真开口说话,首先要解决准确的说话信息,能够自动地让说话信息与表情一一对应起来。为此本技术针对现有技术存在的技术缺陷和需求,建立一套系统和方法,主要在二大方面进行改进和创新。
63.第一部分通过采集真人的数据得到真实的数据,并将其训练得到本技术创新设计的神经网络结构。
64.使用asr(语音识别)的方案来直接识别台本的音素,避免了一个地方出错导致全部出错的情况,然后使用asr的输出作为神经网络的输入,提取特征得到用于生成真人的表情动画。
65.第二部分则是将神经网络的输出应用到各个游戏角色上。
66.由于通过asr的输出得到的信息是时序信息,通过神经网络提取特征之后生成的是独立的序列特征,这些序列特征可以合成顶点动画,但是无法转化为游戏角色需要的动画曲线,因此需要提出新的技术方案来生成动画表情。
67.请参阅图1,图1示出了一种虚拟角色动画表情生成系统的结构示意图,包括输入模块、特征提取模块、生成模块,其中:
68.输入模块用以获取面部动作的语音信息;
69.特征提取模块用以将面部动作的语音信息输入到神经网络中,提取到面部表情特征;
70.生成模块用以将面部表情特征进行变形处理,生成虚拟角色动画表情。
71.基于上述虚拟角色动画表情生成系统,其表情生成方法包括步骤:
72.获取面部动作的语音信息;
73.将面部动作的语音信息输入到神经网络中,提取到面部表情特征;
74.将面部表情特征进行变形处理,生成虚拟角色动画表情。
75.为了更进一步地说明本技术的技术方案,以下结合各种优选的实施方式进行详细说明。
76.请参阅图2,图2为本技术的提取特征模块的网络结构示意图。获取面部表情特征的准确率直接影响后续流程的的动画生成效果,作为一种优选的实施方式,本技术的特征提取模块,采用一种更优的神经网络结构来实现,其结构包括编码器和解码器,其中:
77.编码器为由多个卷积层构成时序卷积模块,用以对面部动作的语音信息进行编码。在本实施例中,编码器采用4个卷积层串联构成(conv1至conv4),每一个卷积层输出得到该层的特征图(feature map),再接入下一个卷积层,此外,每一层的特征图经过下采样(down sample)处理之后得到的特征图,作为下一个卷积层之后的各个卷积层的输入。
78.此外,不同的朗读人在朗读相同的台本,其表情也具有不同的风格,例:小a和小b在说同一句话时会有不同的表情风格,小a可能会偏向张更大的嘴。请结合参阅图3,作为一种优选的实施方式,为了提高网络的学习能力,让网络能够学习到不同风格的语音特点,本技术的特征提取模块还设置有独热码,可以将每位朗读人的数据用独热编码器标识出来,从而获得了更丰富更具有不同风格的表情。
79.解码器由多个依次交替连接的全连接层和注意力单元串联而成(fc1 attention1、fc2 attention2、fc3 attention3),用以对编码器的输出进行解码,得到面部表情特征,即生成顶点偏移值。
80.请参阅图4,模型由指定数量的顶点互相连接形成,两点成线,三点或四点成面,如图每个网格的焦点都是顶点,当顶点开始移动(也就是开始偏移原始的位置时),对应的网格会被带动,从而使整个模型变形。而神经网络计算出的是顶点偏移值,也就是整个模型的
每个点应该往哪里动。每一帧一个计算结果,将所有的结果按时间串联起来就得到了顶点动画。
81.通过本技术创新的神经网络结构,能够通过声音生成了更准确的表情动画的序列。
82.通过神经网络获得了面部表情特征的序列,即获得了表情动画的单帧单帧图像之后,需要对表情动画序列进行进一步后续的处理,生成动画。
83.为此,本技术提供一种优选的实施方式,本技术的生成模块包括第一面部表情编码系统和第二面部表情编码系统构成,其中:
84.第一面部表情编码系统为facs(facial action coding system面部行为编码系统)
85.第二面部表情编码系统为以facs中每一个肌肉运动单元为基础构建对应的单一方向运动单元构成的集合。
86.facs系统的拟合结果能够非常完善的还原出肌肉运动的规律,但是无法很好的拟合出原始的动画序列的状态,因此,本技术基于facs系统的优点和缺点,在facs系统的基础上创建了第二面部表情编码系统。
87.然后将每一个肌肉运动单元与对应的单一方向运动单元进行融合形成融合运动单元,并拟合生成真人动画表情。
88.本技术采用的融合运动单元取得了更好的效果,在facs能够足够拟合出脸部肌肉联动运动的同时加入了单一方向的编码,得到的融合运动单元,通过测试,使最终的拟合表现更加优秀,更能还原出原始的动画序列。
89.具体的拟合的方法可以用神经网络或者线性回归的方法实现。
90.其中,神经网络的拟合方法如下:
91.设置损失函数,本实施例中,其损失函数为:
[0092][0093]
对每帧进行拟合计算,其中wi为模型的顶点权重,yi为模型的第i个顶点顶点坐标,共n个顶点,x为静止状态下的模型,wj为拟合目标权重,y`
ji
为第j个au(运动单元)的模型的第i个顶点坐标,共m个au。
[0094]
随后把第t帧的拟合权重作为第t 1帧的初始权重进行拟合;设置学习率比如学习率调整为0.15,对每帧迭代若干次,比如每帧迭代60次,使用梯度下降和adam优化器进行迭代优化,最后将其生成出动画曲线就能得到一串连续的动画效果,即得到了真人动画表情图像。
[0095]
若采用线性回归来实现拟合,可以使用最小二乘法进行求解优化。
[0096]
请参阅图5,最后进行重定向,即将真人动画表情(如图5中右侧的模型)的表情移植到目标对象虚拟角色上(如图5中左图的模型上),其实现方法为将真人动画表情的参数信息配置到目标对象虚拟角色上。目标对象虚拟角色的造型可以由系统产生由用户选择,也可以有用户自行设置好并上传上去。
[0097]
具体实施步骤或过程请参阅上述实施例,不再详述。
[0098]
本技术实施例还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任一所述的虚拟角色表情生成方法。
[0099]
本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的虚拟角色表情生成方法的步骤。
[0100]
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
[0101]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献