虚拟数字人的驱动方法及位姿获取模型的训练方法与流程

2022-04-30 12:49:12 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域中的人机交互、自然语言处理、深度学习、智能搜索领域，尤其涉及一种虚拟数字人的驱动方法及位姿获取模型的训练方法。

背景技术：

2.在播放音频数据的同时，同步驱动虚拟数字人做出匹配的、合理的、有效的动作的动画展示方式，一直是学术界的研究热点，并被广泛应用于影视动画、动作捕捉、互动游戏以及互动娱乐等场景下。随着相关处理技术的发展，如何在前述动画展示方式的基础上，实现将同一个虚拟数字人形象的驱动方式进行切换，已经成为了主要的发展方向之一。
3.然而，相关技术中，尚未存在低成本的、可靠的、能准确表达虚拟数字人的不同舞蹈风格的虚拟数字人的驱动方法。因此，如何在确保准确表达虚拟数字人的不同舞蹈风格的同时，提高驱动过程中的效率及可靠性，并降低成本，已成为了亟待解决的问题。

技术实现要素：

4.本公开提供了一种虚拟数字人的驱动方法及位姿获取模型的训练方法。
5.根据本公开的一方面，提供了一种虚拟数字人的驱动方法，包括：获取虚拟数字人的动画音频数据；获取所述虚拟数字人的目标舞蹈风格，其中，所述目标舞蹈风格为所述动画音频数据对应的多个舞蹈风格中的任意一个；根据所述动画音频数据和所述目标舞蹈风格，生成所述虚拟数字人的关键部位的位姿信息序列；按照所述关键部位的位姿信息序列，驱动所述虚拟数字人做出相应的舞蹈动作。
6.根据本公开的另一方面，提供了一种位姿获取模型的训练方法，包括：获取虚拟数字人的样本动画音频数据集，其中，所述样本动画音频数据集包括至少一个样本动画音频数据，且每个所述样本动画音频数据包括已标注的所述虚拟数字人的关键部位的位姿信息序列真实值；对所述样本动画音频数据进行特征提取，获取所述样本动画音频数据的样本音频特征；将所述样本音频特征输入至待训练的位姿获取模型中，以输出所述虚拟数字人的所述关键部位的位姿信息序列训练值；获取所述位姿信息序列真实值和所述位姿信息序列训练值之间的差异，并根据所述差异调整所述位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整所述模型参数后的所述位姿获取模型确定为目标位姿获取模型。
7.根据本公开的另一方面，提供了一种虚拟数字人的驱动装置，包括：第一获取模块，用于获取虚拟数字人的动画音频数据；第二获取模块，用于获取所述虚拟数字人的目标舞蹈风格，其中，所述目标舞蹈风格为所述动画音频数据对应的多个舞蹈风格中的任意一个；生成模块，用于根据所述动画音频数据和所述目标舞蹈风格，生成所述虚拟数字人的关键部位的位姿信息序列；驱动模块，用于按照所述关键部位的位姿信息序列，驱动所述虚拟数字人做出相应的舞蹈动作。
8.根据本公开的另一方面，提供了一种位姿获取模型的训练装置，包括：获取模块，
用于获取虚拟数字人的样本动画音频数据集，其中，所述样本动画音频数据集包括至少一个样本动画音频数据，且每个所述样本动画音频数据包括已标注的所述虚拟数字人的关键部位的位姿信息序列真实值；特征提取模块，用于对所述样本动画音频数据进行特征提取，获取所述样本动画音频数据的样本音频特征；输出模块，用于将所述样本音频特征输入至待训练的位姿获取模型中，以输出所述虚拟数字人的所述关键部位的位姿信息序列训练值；调整模块，用于获取所述位姿信息序列真实值和所述位姿信息序列训练值之间的差异，并根据所述差异调整所述位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整所述模型参数后的所述位姿获取模型确定为目标位姿获取模型。
9.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的一方面所述的虚拟数字人的驱动方法，或者执行本公开的另一方面所述的位姿获取模型的训练方法。
10.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开的一方面所述的虚拟数字人的驱动方法，或者执行本公开的另一方面所述的位姿获取模型的训练方法。
11.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开的一方面所述的虚拟数字人的驱动方法的步骤，或者执行本公开的另一方面所述的位姿获取模型的训练方法的步骤。
12.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
13.附图用于更好地理解本方案，不构成对本公开的限定。其中：
14.图1是根据本公开第一实施例的虚拟数字人的驱动方法的流程示意图；
15.图2是根据本公开一种虚拟数字人的示意图；
16.图3是根据本公开第二实施例的虚拟数字人的驱动方法的流程示意图；
17.图4是根据本公开另一种虚拟数字人的示意图；
18.图5是根据本公开一种人体关键点模型检测出的关键点的示意图；
19.图6是根据本公开第三实施例的虚拟数字人的驱动方法的流程示意图；
20.图7是根据本公开第四实施例的虚拟数字人的驱动方法的流程示意图；
21.图8是根据本公开第五实施例的虚拟数字人的驱动方法的流程示意图；
22.图9是根据本公开第六实施例的虚拟数字人的驱动方法的流程示意图；
23.图10是根据本公开第七实施例的虚拟数字人的驱动方法的流程示意图；
24.图11是根据本公开第八实施例的虚拟数字人的驱动方法的流程示意图；
25.图12是根据本公开第九实施例的虚拟数字人的驱动方法的流程示意图；
26.图13是根据本公开输出位姿信息预测值过程的示意图；
27.图14是用来实现本公开实施例的虚拟数字人的驱动方法的虚拟数字人的驱动装置的框图；
28.图15是用来实现本公开实施例的位姿获取模型的训练方法的位姿获取模型的训练装置的框图；
29.图16是用来实现本公开实施例的虚拟数字人的驱动方法的电子设备的框图。
具体实施方式
30.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
31.人工智能(artificial intelligence，简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前，ai技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。
32.人机交互(human
–
computer interaction，hci)是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。
33.自然语言处理(natural language processing，nlp)是研究能有效地实现自然语言通信的计算机系统，特别是其中的软件系统的一门科学，是计算机科学领域与人工智能领域中的一个重要方向。
34.深度学习(deep learning，简称dl)，是机器学习(machine learning，简称ml)领域中一个新的研究方向，学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。就具体研究内容而言，主要包括基于卷积运算的神经网络系统，即卷积神经网络；基于多层神经元的自编码神经网络；以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。
35.智能搜索，是结合了人工智能技术的新一代搜索引擎，除了能提供传统的快速检索、相关度排序等功能，还能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能信息化过滤和推送等功能。
36.下面结合附图描述本公开实施例的虚拟数字人的驱动方法及位姿获取模型的训练方法。
37.图1是根据本公开第一实施例的虚拟数字人的驱动方法的流程示意图。其中，需要说明的是，本实施例的虚拟数字人的驱动方法的执行主体为虚拟数字人的驱动装置，虚拟数字人的驱动装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。
38.如图1所示，本公开实施例提供的虚拟数字人的驱动方法，具体方法可包括以下步骤：
39.s101，获取虚拟数字人的动画音频数据。
40.其中，虚拟数字人，可以是用于展示舞蹈动作的任一虚拟数字人。
41.本公开实施例中，虚拟数字人为采用数字技术建模，可通过广播、网络等通信传媒与用户进行交互的仿真人形象，可根据用户的指令修改3d(3-dimension，三维)建模的相关参数进行相应的动作。
42.其中，虚拟数字人的动画音频数据，指的是结合针对虚拟数字人的动画展示需求确定的待播放音频数据，例如，动画音频数据可以为虚拟数字人在动画中演唱的包含歌词的歌曲；又例如，动画音频数据可以为虚拟数字人在动画中进行舞蹈表演时同步播放的不包含歌词的伴奏；再例如，动画音频数据可以为虚拟数字人在动画中演唱的不包含伴奏的清唱歌曲等。
43.需要说明的是，本公开中对于获取虚拟数字人的动画音频数据的具体方式不作限定，可以根据实际情况进行选取。
44.以风格切换应用场景为例，可选地，虚拟数字人的动画音频数据可以为针对虚拟数字人的任一历史动画文件中的音频部分，即任一历史动画文件中在驱动虚拟数字人做出相应的舞蹈动作时，所同步播放的动画音频数据。此种情况下，可以对任一历史动画文件进行分割，以提取虚拟数字人的动画音频数据。举例而言，获取到针对虚拟数字人a的历史动画文件b，在历史动画文件b中展示了虚拟数字人a为歌曲c进行伴舞的动画效果，此种情况下，可以对历史动画文件b进行分割，以提取歌曲c作为虚拟数字人的动画音频数据。
45.可选地，虚拟数字人的动画音频数据可以为预先存储的，且未搭配有舞蹈动作的任一音频。此种情况下，可以直接将任一音频作为虚拟数字人的动画音频数据。举例而言，从歌手d的数字专辑中选取任一歌曲e并进行下载，以将歌曲e直接作为虚拟数字人的动画音频数据。
46.以动画生成应用场景为例，虚拟数字人的动画音频数据，可以为针对虚拟数字人的任一独立的、待配置舞蹈动作的音频数据，例如音乐库等存储空间内存储的歌曲、单独录制的有声读物的演讲音频等音频数据。此种情况下，可以直接将音频数据作为拟数字人的动画音频数据。
47.s102，获取虚拟数字人的目标舞蹈风格，其中，目标舞蹈风格为动画音频数据对应的多个舞蹈风格中的任意一个。
48.需要说明的是，本公开中预先设定有多种舞蹈风格，用户可以从中选取任一风格作为目标舞蹈风格。
49.其中，本公开中对于目标舞蹈风格的具体设定方式不作限定，可以根据实际情况进行选取。
50.例如，针对动画音频数据甲，由被定义为成年人的虚拟数字人甲表演该歌曲时，对应的舞蹈风格可以为成人舞蹈风格，由被定义为儿童的虚拟数字人乙表演该歌曲时，对应的舞蹈风格可以为儿童舞蹈风格。进一步地，此种情况下，可以选取成人舞蹈风格或者儿童舞蹈风格中的任意一种作为目标舞蹈风格。
51.又例如，针对动画音频数据甲，由被定义为成年人的虚拟数字人甲表演该歌曲时，对应的舞蹈风格可以为激烈，由被定义为成年人的虚拟数字人乙表演该歌曲时，对应的舞蹈风格可以为平缓。进一步地，此种情况下，可以选取激烈或者平缓中的任意一种作为目标舞蹈风格。
52.需要说明的是，本公开中，针对不同虚拟数字人，动画音频数据对应的多个舞蹈风
格可以为一致的，也可以为不一致的。
53.s103，根据动画音频数据和目标舞蹈风格，生成虚拟数字人的关键部位的位姿信息序列。
54.需要说明的是，相关技术中，针对一个虚拟数字人，通常会为其固定一种跳舞风格，在试图更换舞蹈风格的时候，则需要花费时间及成本重新训练用于生成新的舞蹈风格的新的模型。
55.然而，由于不同风格的舞蹈数据无法充分利用，且模型的训练周期较长，因此，往往会导致模型的稳定性不足，则需要加入更多的后处理或者人工动画修正才能产生合理的动作。
56.由此，本公开中，可以根据动画音频数据和目标舞蹈风格，生成虚拟数字人的关键部位的位姿信息序列。
57.其中，位姿信息序列，即由多个位姿(pose)信息组成的序列，用于驱动虚拟数字人的关键部位进行动作(舞蹈)。
58.本公开实施例中，位姿信息序列中的每个位姿信息，均为三维描述信息。可选地，每个位姿信息可以为针对任一关键部位的x轴、y轴、z轴的角度信息。
59.需要说明的是，针对任一关键部位，对应有一个位姿信息。
60.举例而言，针对虚拟数字人甲，可以划分为24个关键部位，每个关键部位均对应有一个位姿信息。此种情况下，针对虚拟数字人甲，位姿信息序列为包括24组三维的位姿信息的序列。
61.s104，按照关键部位的位姿信息序列，驱动虚拟数字人做出相应的舞蹈动作。
62.需要说明的是，由于位姿信息序列用于驱动虚拟数字人的关键部位进行动作(舞蹈)，因此，在获取关键部位的位姿信息序列后，可以按照关键部位的位姿信息序列，驱动虚拟数字人做出相应的舞蹈动作。
63.举例而言，如图2所示，针对动画音频数据对应的任一动画展示帧，虚拟数字人甲按照关键部位的位姿信息序列，做出如图2所示的舞蹈动作。
64.综上，本公开实施例的虚拟数字人的驱动方法，可以通过获取虚拟数字人的动画音频数据，并获取虚拟数字人的目标舞蹈风格，然后根据动画音频数据和目标舞蹈风格，生成虚拟数字人的关键部位的位姿信息序列，进而按照关键部位的位姿信息序列，驱动虚拟数字人做出相应的舞蹈动作，使得针对任一动画音频数据，不再需要花费时间重新训练对应于新的舞蹈风格的模型，避免了因不同风格的舞蹈数据无法充分利用导致的模型泛化性与稳定性不足的问题，而是能够在实现多种风格的准确、快速切换的同时，节省了成本，提高了虚拟数字人的驱动过程中的效率、可靠性及经济性。
65.图3是根据本公开第二实施例的虚拟数字人的驱动方法的流程示意图。如图3所示，在上述实施例的基础上，本公开实施例的虚拟数字人的驱动方法具体可包括以下步骤：
66.s301，获取虚拟数字人的动画音频数据。
67.s302，获取虚拟数字人的目标舞蹈风格，其中，目标舞蹈风格为动画音频数据对应的多个舞蹈风格中的任意一个。
68.该步骤s301～s302与步骤s101～s102一致，此处不再赘述。
69.上述步骤s103中根据动画音频数据和目标舞蹈风格，生成虚拟数字人的关键部位
的位姿信息序列的具体过程，包括以下步骤s303～s304。
70.s303，对动画音频数据进行特征提取，获取动画音频数据的音频特征。
71.需要说明的是，舞蹈动作的驱动是建立在3d虚拟数字人模型的设计和实现的基础上的。
72.举例而言，如图4(a)～4(c)所示，3d虚拟数字人模型是通过艺术家和工程师设计骨骼和蒙皮系统后通过绑定生成的数字资产。通过匹配骨骼与蒙皮的对应关系，可以做到更新骨骼关节的姿态来驱动数字人整体的运动。其中，图4(a)为虚拟数字人的最终效果，图4(a)～4(b)为蒙皮与内部骨骼的示意图。
73.进一步地，如图5(a)～5(c)所示，可以通过多目三角测量，将虚拟数字人的人体关键点模型检测出的55个2d关节点提升至3d关键点。进一步地，可以通过3d关节点，使用ik(inverse kinematics，逆向运动学)拟合设计好的3d数字人的关节和2d投影的位置误差，以逐步推导出数字人模型的关节姿态，即关键部位的位姿信息。
74.进一步地，通过动画音频数据结合数字人模型拟合出的关键部位的位姿信息，可以驱动虚拟数字人做出相应的舞蹈动作。
75.然而，相关技术中，往往通过直接建立模型映射音频到姿态系数从而对新音频进行推理的方式，这样一来，极可能导致无法产生富有节奏感的舞蹈动作，无法产生富有节奏感的舞蹈动作具体体现在虚拟数字人的动作的速度和幅度不准确，即没有音频打点的感觉。
76.由此，本公开中，可以通过对动画音频数据进行特征提取，获取动画音频数据的音频特征，进而根据音频特征结合数字人模型拟合出的关键部位的位姿信息，可以驱动虚拟数字人做出相应的舞蹈动作。
77.作为一种可能的实现方式，可选地，可以对动画音频数据进行特征提取，获取动画音频数据的梅尔频率倒谱系数特征、频率特征和音调特征。
78.可选地，可以对动画音频数据进行特征提取，获取动画音频数据的梅尔频率倒谱系数(mel-scale frequency cepstral coefficients，简称mfcc)特征。
79.其中，mfcc特征，是一种语音特征，主要包括两个关键步骤：转化到梅尔频率，然后进行倒谱分析。mfcc特征相当于一种融合特征，往往用于表征动画音频数据的整体特征。
80.然而，引起舞蹈动作节奏平缓的原因往往在于不同音频其的音调和频率的变化，而mfcc特征不能突出体现舞蹈动作的速度和幅度。
81.由此，进一步地，可以对动画音频数据进行特征提取，获取动画音频数据的频率特征和音调特征。
82.需要说明的是，本公开中对于对动画音频数据进行特征提取，获取动画音频数据的频率特征和音调特征的具体方式不作限定，可以根据实际情况进行选取。
83.可选地，可以采用自编码器解耦出动画音频数据的频率特征和音调特征。
84.s304，根据目标舞蹈风格，对音频特征进行虚拟数字人的关键部位的位姿信息获取，以得到虚拟数字人的关键部位的位姿信息序列。
85.需要说明的是，本公开中对于根据目标舞蹈风格，对音频特征进行虚拟数字人的关键部位的位姿信息获取，以得到虚拟数字人的关键部位的位姿信息序列的具体方式不作限定，可以根据实际情况进行选取。
86.作为一种可能的实现方式，可以基于训练好的目标位姿获取模型进行获取。
87.需要说明的是，目标位姿获取模型，包括多个目标位姿获取分支网络，每个目标位姿获取分支网络对应于不同的风格，这样一来，可以通过调用不同的目标位姿获取分支网络，实现与该风格匹配的虚拟数字人的关键部位的位姿信息序列。
88.本公开实施例中，可以根据目标舞蹈风格，确定调用的目标位姿获取模型中的目标位姿获取分支网络。
89.作为一种可能的实现方式，如图6所示，在上述实施例的基础上，上述步骤根据目标舞蹈风格，确定调用的目标位姿获取模型中的目标位姿获取分支网络的具体过程，可包括以下步骤：
90.s601，获取目标舞蹈风格的索引信息。
91.需要说明的是，在目标位姿获取模型的训练过程中，可以生成至少一个候选舞蹈风格，且每个候选舞蹈风格均对应有一个索引信息。进一步地，每个候选舞蹈风格对应的索引信息还与目标位姿获取分支网络相对应。
92.s602，根据索引信息，确定目标位姿获取分支网络。
93.举例而言，针对候选舞蹈风格a，在模型训练的过程中，用于获取具有候选舞蹈风格a的动画音频数据的位姿信息序列的位姿获取分支网络为目标位姿获取分支网络b，且候选舞蹈风格a的索引信息为a。此种情况下，在获取到目标舞蹈风格的索引信息为a后，可以根据索引信息a，确定目标位姿获取分支网络b。
94.进一步地，在确定目标位姿获取分支网络后，可以将音频特征输入目标位姿获取分支网络，以获取虚拟数字人的关键部位的位姿信息序列。
95.s305，按照关键部位的位姿信息序列，驱动虚拟数字人做出相应的舞蹈动作。
96.该步骤s305与步骤s104一致，此处不再赘述。
97.进一步地，在按照关键部位的位姿信息序列，驱动虚拟数字人做出相应的舞蹈动作后，可以驱动虚拟数字人做出相应的舞蹈动作时同步播放动画音频数据。
98.综上，本公开实施例的虚拟数字人的驱动方法，可以通过对动画音频数据进行特征提取，获取动画音频数据的音频特征，进而根据目标舞蹈风格，对音频特征进行虚拟数字人的关键部位的位姿信息获取，以得到虚拟数字人的关键部位的位姿信息序列，使得通过解耦得到动画音频数据的频率特征和音调特征，避免了位姿信息序列以及虚拟数字人展示的舞蹈动作为耦合结果导致的动作趋于平缓，无法准确地表现舞蹈动作的幅度和速度的问题，进一步确保了多种舞蹈风格的准确切换，提高了虚拟数字人的驱动过程中的效率、可靠性及经济性。
99.需要说明的是，本公开中，在获取虚拟数字人的动画音频数据之后，可以对动画音频数据进行进一步处理。
100.作为一种可能的实现方式，可以对动画音频数据进行分割，以得到至少一个分段动画音频数据。
101.在实际应用中，可以将对动画音频数据进行分割，以使分割得到的每个分段动画音频数据能够与一帧最终的展示动画相匹配。
102.进一步地，本公开中，在试图获取虚拟数字人的目标舞蹈风格时，可以对舞蹈风格切换指令进行获取。
103.作为一种可能的实现方式，如图7所示，在上述实施例的基础上，上述步骤s302中获取虚拟数字人的目标舞蹈风格具体过程，包括以下步骤：
104.s701、获取针对虚拟数字人的舞蹈风格切换指令。
105.需要说明的是，本公开中，在获取针对虚拟数字人的舞蹈风格切换指令之前，可以将所有的候选舞蹈风格进行展示，以使用户从中选取试图切换的目标舞蹈风格。
106.作为一种可能的实现方式，如图8所示，在上述实施例的基础上，具体包括以下步骤：
107.s801、获取至少一个候选舞蹈风格并发送至终端设备，以使终端设备展示所有的候选舞蹈风格供用户从中选取目标舞蹈风格。
108.其中，候选舞蹈风格可以在目标位姿获取模型的训练过程中生成。
109.s802、响应于监控到针对任一候选舞蹈风格的选取操作，则根据选取操作，生成舞蹈风格切换指令。
110.需要说明的是，本公开中，用户可以通过多种方式对针对任一候选舞蹈风格进行选取，可选地，用户可以通过点击对应的控件对针对任一候选舞蹈风格进行选取；可选地，用户可以通过输入语音指令对针对任一候选舞蹈风格进行选取。
111.进一步地，响应于监控到针对任一候选舞蹈风格的选取操作，则根据选取操作，生成舞蹈风格切换指令。其中，目标舞蹈风格携带在舞蹈风格切换指令中。
112.s702、根据舞蹈风格切换指令，获取目标舞蹈风格。
113.本公开实施例中，在获取舞蹈风格切换指令后，可以从舞蹈风格切换指令中提取目标舞蹈风格。
114.综上，本公开实施例的虚拟数字人的驱动方法，可以通过获取针对虚拟数字人的舞蹈风格切换指令，进而根据舞蹈风格切换指令，获取目标舞蹈风格，使得用户可以从候选舞蹈风格中任意选取待切换的舞蹈风格，进而根据用户选取的目标舞蹈风格实现快速、准确地切换，在进一步确保了多种舞蹈风格的准确切换，提高了虚拟数字人的驱动过程中的效率、可靠性及经济性的基础上，提升了用户体验。
115.图9是根据本公开第六实施例的位姿获取模型的训练方法的流程示意图。其中，需要说明的是，本实施例的位姿获取模型的训练方法的执行主体为位姿获取模型的训练装置，位姿获取模型的训练装置具体可以为硬件设备，或者硬件设备中的软件等。其中，硬件设备例如终端设备、服务器等。
116.如图9所示，本公开实施例提供的位姿获取模型的训练方法，具体方法可包括以下步骤：
117.s901，获取虚拟数字人的样本动画音频数据集，其中，样本动画音频数据集包括至少一个样本动画音频数据，且每个样本动画音频数据包括已标注的虚拟数字人的关键部位的位姿信息序列真实值。
118.需要说明的是，本公开中对于虚拟数字人的样本动画音频数据集的数量不作限定，可以根据实际情况进行获取。
119.举例而言，可以获取1000个虚拟数字人的样本动画音频数据集，且每个样本动画音频数据集中包括1000个样本动画音频数据。此种情况下，样本数据共包括1000*1000个样本动画音频数据。
120.s902，对样本动画音频数据进行特征提取，获取样本动画音频数据的样本音频特征。
121.本公开实施例中，在获取虚拟数字人的样本动画音频数据集后，可以对样本动画音频数据进行特征提取，获取样本动画音频数据的样本音频特征。
122.需要说明的是，本公开中对于音频特征不作限定，可以根据实际情况进行选取。例如，音频特征可以为以下特征中的至少一个：梅尔频率倒谱系数特征、频率特征和音调特征。
123.s903，将样本音频特征输入至待训练的位姿获取模型中，以输出虚拟数字人的关键部位的位姿信息序列训练值。
124.本公开实施例中，在获取样本动画音频数据的样本音频特征后，可以将样本音频特征输入至待训练的位姿获取模型中，以输出虚拟数字人的关键部位的位姿信息序列训练值。
125.s904，获取位姿信息序列真实值和位姿信息序列训练值之间的差异，并根据差异调整位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整模型参数后的位姿获取模型确定为目标位姿获取模型。
126.其中，训练结束条件，可以根据实际情况进行设定，本公开不作限定。
127.可选地，可以设定训练结束条件为位姿信息序列真实值和位姿信息序列训练值之间的差异小于预设差异阈值。
128.举例而言，可以设定训练结束条件为位姿信息序列真实值和位姿信息序列训练值之间的差异小于95％。
129.可选地，可以设定训练结束条件为训练次数达到预设训练次数。
130.举例而言，可以设定训练结束条件为训练次数达到1000次。
131.综上，本公开实施例的位姿获取模型的训练方法，可以通过获取虚拟数字人的样本动画音频数据集，并对样本动画音频数据进行特征提取，获取样本动画音频数据的样本音频特征，然后将样本音频特征输入至待训练的位姿获取模型中，以输出虚拟数字人的关键部位的位姿信息序列训练值，进而获取位姿信息序列真实值和位姿信息序列训练值之间的差异，并根据差异调整位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整模型参数后的位姿获取模型确定为目标位姿获取模型，使得，不再需要花费时间重新训练对应于新的舞蹈风格的模型，避免了因不同风格的舞蹈数据无法充分利用导致的模型泛化性与稳定性不足的问题，而是通过训练好的目标位姿获取模型能够通过自身实现对多种舞蹈风格的快速、准确切换，节省了成本，提高了虚拟数字人的驱动过程中的效率、可靠性及经济性。
132.图10是根据本公开第七实施例的位姿获取模型的训练方法的流程示意图。如图10所示，在上述实施例的基础上，本公开实施例的位姿获取模型的训练方法具体可包括以下步骤：
133.s1001，获取虚拟数字人的样本动画音频数据集，其中，样本动画音频数据集包括至少一个样本动画音频数据，且每个样本动画音频数据包括已标注的虚拟数字人的关键部位的位姿信息序列真实值。
134.需要说明的是，本公开中，在获取虚拟数字人的样本动画音频数据集之后，可以对
样本动画音频数据集中的样本动画音频数据进行进一步处理。
135.作为一种可能的实现方式，可以对每个样本动画音频数据进行分割，以得到至少一个分段样本动画音频数据。
136.s1002，对样本动画音频数据进行特征提取，获取样本动画音频数据的样本音频特征。
137.作为一种可能的实现方式，可以对样本动画音频数据进行特征提取，获取样本动画音频数据的样本梅尔频率倒谱系数特征、样本频率特征和样本音调特征。
138.s1003，将样本音频特征输入至待训练的位姿获取模型中，以输出虚拟数字人的关键部位的位姿信息序列训练值。
139.s1004，获取位姿信息序列真实值和位姿信息序列训练值之间的差异，并根据差异调整位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整模型参数后的位姿获取模型确定为目标位姿获取模型。
140.该步骤s1003～s1004与步骤s903～s904一致，此处不再赘述。
141.进一步地，本公开中，在模型训练的过程中，可以生成包括至少一种候选舞蹈风格的舞蹈风格向量库。
142.作为一种可能的实现方式，如图11所示，在上述实施例的基础上，具体包括以下步骤：
143.s1101、针对每个样本动画音频数据，由位姿获取模型获取样本动画音频数据对应的样本舞蹈风格。
144.需要说明的是，在获取到样本动画音频数据集之后，并不能直接对样本动画音频数据的舞蹈风格进行定义，此种情况下，可以在模型训练的过程中，针对每个样本动画音频数据，由位姿获取模型获取样本动画音频数据对应的样本舞蹈风格。
145.s1102、获取每个样本舞蹈风格对应的样本索引信息。
146.其中，样本索引信息，可以通过多种方式进行表示，且在训练开始之前，可以对每个样本舞蹈风格赋予一个随机数作为样本索引信息。
147.s1103、根据所有的样本索引信息，生成舞蹈风格向量库。
148.作为一种可能的实现方式，如图12所示，在上述实施例的基础上，上述步骤s1103中根据所有的样本索引信息，生成舞蹈风格向量库的具体过程，包括以下步骤：
149.s1201、由位姿获取模型中的归一化层对所有的样本索引信息进行归一化处理，以获取目标样本索引信息。
150.需要说明的是，为了解决模型训练过程中的泛化问题，可以由位姿获取模型中的归一化层对所有的样本索引信息进行归一化处理，以获取目标样本索引信息。
151.其中，归一化处理，是一种能够更加便捷、快速的数字信号处理方法。特别地，在使用梯度下降的方法求解最优化问题时，归一化或者标准化后，可以加快梯度下降的求解速度，进而提升模型的收敛速度。
152.举例而言，针对样本索引信息1～100，由位姿获取模型中的归一化层对所有的样本索引信息进行归一化处理后，可以获取目标样本索引信息1～9，共9个目标样本索引信息。此种情况下，9个目标样本索引信息分别对应于9中不同的舞蹈风格。
153.s1202、根据目标样本索引信息，生成舞蹈风格向量库。
154.本公开实施例中，在获取目标样本索引信息之后，可以将所有的目标样本索引信息进行合并，以生成舞蹈风格向量库
155.本公开中，在获取目标样本索引信息之后，可以对位姿获取模型中的分支网络进行划分。
156.作为一种可能的实现方式，可以根据目标样本索引信息，对位姿获取模型的位姿获取分支网络进行划分，以获取至少一个候选位姿获取分支网络。
157.举例而言，针对目标样本索引信息1～9，可以将位姿获取模型的所有的位姿获取分支网络划分为1～9，共9个候选位姿获取分支网络。
158.综上所述，根据本公开提出的虚拟数字人的驱动方法及位姿获取模型的训练方法，针对不同的舞蹈风格，组建了一套向量库，即舞蹈风格向量库。其中，对于相同风格的舞蹈动作，共享一条单独的风格向量。向量的初始化采用高斯采样，并随着模型的训练逐步具有差异化。
159.在位姿获取模型的训练过程中，输入动画音频数据的mfcc特征、解耦得到的频率特征和音调特征，与其匹配的风格向量作为一个单独的分支进入模型，模型通过最终loss(损失)对输入的风格向量进行梯度更新，进而逐步更新向量库内容。
160.其中，对于动画音频数据的mfcc特征、频率特征和音调特征，网络其他部分参数共享。在实际预测时，通过挑选目标风格向量，来进行不同舞蹈风格的切换，极大地降低了前期需要新增设备所投入的成本，以及后期进行处理时需要的人力成本。
161.其中，选择mfcc特征的原因是其能最大保留音频的高低频细节，训练和测试效果也更好。
162.本公开实施例中，针对mfcc特征，对于每一个大小为第一预设数值(例如520ms)的语音窗口，可以将动画语音数据划分为第二预设数值(例如64个)的语音片段，即分段样本动画音频数据。进一步地，对每个语音片段提取长度为第三预设数值(例如32个)分量的mfcc特征的系数，以组成64x32维特征作为模型的输入。
163.进一步地，如图13所示，音频特征经过卷积神经网络提取特征，最后接若干个全联接层回归输出位姿信息预测值。
164.其中，卷积神经网络设计原则是，分别在空间与时间轴上做卷积，为网络的特征提取提供有效的先验，具体包括3个网络以及2个层。
165.其中，可以将formant analysis network(共振峰分析网络/语音特征分析)作为第一个网络，将articulation network(时域信息捕捉网络)作为第二个网络，将awareattention network(感知注意力机制网络/情感信息捕捉网络)作为第三个网络，并将fully connected layer(全连接层)作为第一个层，将output layer(输出层)作为第二个层。
166.需要说明的是，对于模型回归的位姿信息，本公开中可以通过多种方式去除全局运动的位姿和一些脸部相关的位姿(如眼睛，下巴)，以进一步提高位姿信息获取结果的准确性。
167.图14是根据本公开提出的虚拟数字人的驱动装置1400，包括：第一获取模块1401、第二获取模块1402、生成模块1403和驱动模块1404。其中，
168.第一获取模块1401，用于获取虚拟数字人的动画音频数据；
169.第二获取模块1402，用于获取所述虚拟数字人的目标舞蹈风格，其中，所述目标舞蹈风格为所述动画音频数据对应的多个舞蹈风格中的任意一个；
170.生成模块1403，用于根据所述动画音频数据和所述目标舞蹈风格，生成所述虚拟数字人的关键部位的位姿信息序列；
171.驱动模块1404，用于按照所述关键部位的位姿信息序列，驱动所述虚拟数字人做出相应的舞蹈动作。
172.进一步的，生成模块1403，还用于：
173.对所述动画音频数据进行特征提取，获取所述动画音频数据的音频特征；
174.根据所述目标舞蹈风格，对所述音频特征进行所述虚拟数字人的关键部位的位姿信息获取，以得到所述虚拟数字人的关键部位的位姿信息序列。
175.进一步的，生成模块1403，还用于：
176.根据所述目标舞蹈风格，确定调用的目标位姿获取模型中的目标位姿获取分支网络，并将所述音频特征输入所述目标位姿获取分支网络，以获取所述虚拟数字人的关键部位的位姿信息序列。
177.进一步的，生成模块1403，还用于：
178.对所述动画音频数据进行特征提取，获取所述动画音频数据的梅尔频率倒谱系数特征、频率特征和音调特征。
179.进一步的，生成模块1403，还用于：
180.获取所述目标舞蹈风格的索引信息；
181.根据所述索引信息，确定所述目标位姿获取分支网络。
182.进一步的，第一获取模块1401，还用于：
183.对所述动画音频数据进行分割，以得到至少一个分段动画音频数据。
184.进一步的，第二获取模块1402，还用于：
185.获取针对所述虚拟数字人的舞蹈风格切换指令；
186.根据所述舞蹈风格切换指令，获取所述目标舞蹈风格。
187.进一步的，第二获取模块1402，还用于：
188.获取至少一个候选舞蹈风格并发送至终端设备，以使所述终端设备展示所有的所述候选舞蹈风格供用户从中选取所述目标舞蹈风格；
189.响应于监控到针对任一候选舞蹈风格的选取操作，则根据所述选取操作，生成所述舞蹈风格切换指令。
190.进一步的，第二获取模块1402，还用于：
191.在目标位姿获取模型的训练过程中，生成所述候选舞蹈风格。
192.进一步的，驱动模块1404，还用于：
193.驱动所述虚拟数字人做出相应的所述舞蹈动作时同步播放所述动画音频数据。
194.综上，本公开实施例的虚拟数字人的驱动装置，可以通过获取虚拟数字人的动画音频数据，并获取虚拟数字人的目标舞蹈风格，然后根据动画音频数据和目标舞蹈风格，生成虚拟数字人的关键部位的位姿信息序列，进而按照关键部位的位姿信息序列，驱动虚拟数字人做出相应的舞蹈动作，使得针对任一动画音频数据，不再需要花费时间重新训练对应于新的舞蹈风格的模型，避免了因不同风格的舞蹈数据无法充分利用导致的模型泛化性
与稳定性不足的问题，而是能够在实现多种风格的准确、快速切换的同时，节省了成本，提高了虚拟数字人的驱动过程中的效率、可靠性及经济性。
195.图15是根据本公开提出的位姿获取模型的训练装置1500，包括：获取模块1501、特征提取模块1502、输出模块1503和调整模块1504。其中，
196.获取模块1501，用于获取虚拟数字人的样本动画音频数据集，其中，所述样本动画音频数据集包括至少一个样本动画音频数据，且每个所述样本动画音频数据包括已标注的所述虚拟数字人的关键部位的位姿信息序列真实值；
197.特征提取模块1502，用于对所述样本动画音频数据进行特征提取，获取所述样本动画音频数据的样本音频特征；
198.输出模块1503，用于将所述样本音频特征输入至待训练的位姿获取模型中，以输出所述虚拟数字人的所述关键部位的位姿信息序列训练值；
199.调整模块1504，用于获取所述位姿信息序列真实值和所述位姿信息序列训练值之间的差异，并根据所述差异调整所述位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整所述模型参数后的所述位姿获取模型确定为目标位姿获取模型。
200.进一步的，特征提取模块1502，还用于：
201.对所述样本动画音频数据进行特征提取，获取所述样本动画音频数据的样本梅尔频率倒谱系数特征、样本频率特征和样本音调特征。
202.进一步的，获取模块1501，还用于：
203.针对每个所述样本动画音频数据，由所述位姿获取模型获取所述样本动画音频数据对应的样本舞蹈风格；
204.获取每个所述样本舞蹈风格对应的样本索引信息；
205.根据所有的所述样本索引信息，生成舞蹈风格向量库。
206.进一步的，获取模块1501，还用于：
207.由所述位姿获取模型中的归一化层对所有的所述样本索引信息进行归一化处理，以获取目标样本索引信息；
208.根据所述目标样本索引信息，生成所述舞蹈风格向量库。
209.进一步的，获取模块1501，还用于：
210.根据所述目标样本索引信息，对所述位姿获取模型的位姿获取分支网络进行划分，以获取至少一个候选位姿获取分支网络。
211.进一步的，获取模块1501，还用于：
212.对每个所述样本动画音频数据进行分割，以得到至少一个分段样本动画音频数据。
213.综上，本公开实施例的位姿获取模型的训练装置，可以通过获取虚拟数字人的样本动画音频数据集，并对样本动画音频数据进行特征提取，获取样本动画音频数据的样本音频特征，然后将样本音频特征输入至待训练的位姿获取模型中，以输出虚拟数字人的关键部位的位姿信息序列训练值，进而获取位姿信息序列真实值和位姿信息序列训练值之间的差异，并根据差异调整位姿获取模型的模型参数，直至训练结果满足训练结束条件，将最后一次调整模型参数后的位姿获取模型确定为目标位姿获取模型，使得，不再需要花费时间重新训练对应于新的舞蹈风格的模型，避免了因不同风格的舞蹈数据无法充分利用导致
的模型泛化性与稳定性不足的问题，而是通过训练好的目标位姿获取模型能够通过自身实现对多种舞蹈风格的快速、准确切换，节省了成本，提高了虚拟数字人的驱动过程中的效率、可靠性及经济性。
214.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
215.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
216.图16示出了可以用来实施本公开的实施例的示例电子设备1600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
217.如图16所示，电子设备1600包括计算单元1601，其可以根据存储在只读存储器(rom)1602中的计算机程序或者从存储单元1608加载到随机访问存储器(ram)1603中的计算机程序，来执行各种适当的动作和处理。在ram 1603中，还可存储设备1600操作所需的各种程序和数据。计算单元1601、rom 1602以及ram 1603通过总线1604彼此相连。输入/输出(i/o)接口1605也连接至总线1604。
218.设备1600中的多个部件连接至i/o接口1605，包括：输入单元1606，例如键盘、鼠标等；输出单元1607，例如各种类型的显示器、扬声器等；存储单元1608，例如磁盘、光盘等；以及通信单元1609，例如网卡、调制解调器、无线通信收发机等。通信单元1609允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
219.计算单元1601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1601执行上文所描述的各个方法和处理，例如图1至图13所示的虚拟数字人的驱动方法或者位姿获取模型的训练方法。例如，在一些实施例中，虚拟数字人的驱动方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1608。在一些实施例中，计算机程序的部分或者全部可以经由rom 1602和/或通信单元1609而被载入和/或安装到设备1600上。当计算机程序加载到ram 1603并由计算单元1401执行时，可以执行上文描述的虚拟数字人的驱动方法的一个或多个步骤。备选地，在其他实施例中，计算单元1601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行虚拟数字人的驱动方法或者位姿获取模型的训练方法。
220.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
221.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
222.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
223.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
224.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网以及区块链网络。
225.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
226.根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现根据本公开上述实施例所示的虚拟数字人的驱动方法或者位姿获取模型的训练方法的步骤。
227.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
228.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明
白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于大数据的用户分析方法及系统与流程

虚拟数字人的驱动方法及位姿获取模型的训练方法与流程

相关文献

最热文献