虚拟形象模型的驱动方法、虚拟形象驱动设备及存储介质与流程

2022-12-07 02:36:37 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种虚拟形象模型的驱动方法、虚拟形象驱动设备及存储介质。

背景技术：

2.ai(artificial intelligence，人工智能)驱动型虚拟形象生成技术是一种基于人工智能驱动，利用音频生成特定人的相应动作、表情、语言等技术。虚拟形象可以用在虚拟助手、虚拟主播、虚拟老师等各个领域中。通过时序神经网络中的，如rnn(recurrent neural network，循环神经网络)、gru(gatedrecurrent unit，门控循环单元)等学习音频到说话表情(主要为说话嘴型) 的映射关系，之后利用表情参数控制人脸合成流程，合成最后的自然说话视频。
3.在相关技术方案中，所生成的ai虚拟形象，其在与真人进行交互时，通常是预先设置好各种问题的固定答案。进而在交互过程中，根据真人提出的问题，调用该问题的相关答案，并输出该答案对应的表情和动作。
4.然而，这种ai虚拟形象与真人的交互方式，当出现固定答案以外的问题时，ai虚拟形象就无法与真人进行交互，存在虚拟形象模型的驱动方式较为单一的问题。
5.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

6.本发明的主要目的在于提供一种虚拟形象模型的驱动方法，旨在解决如何提升虚拟形象与真人之间的交互性的问题。
7.为实现上述目的，本发明提供的一种虚拟形象模型的驱动方法，所述方法包括：
8.在获取到输入信息时，确定所述输入信息对应的响应信息；
9.确定所述响应信息关联的情绪标签和动作标签；
10.驱动所述虚拟形象模型输出所述情绪标签匹配的表情，以及驱动所述虚拟形象模型输出所述动作标签匹配的动作。
11.可选地，所述确定所述响应信息关联的情绪标签和动作标签的步骤包括：
12.基于预训练双向编码表示模型，确定所述响应信息中融合了语言先验知识的文本向量；
13.将所述文本向量输入目标线性分类器，确定所述文本向量中的情绪类别和动作类别；
14.确定所述文本向量在对应的各个所述情绪类别中的概率，和对应的各个所述动作类别中的概率；
15.选取所述情绪类别中的最大概率的情绪类别作为所述情绪标签，以及选取所述动作类别中的最大概率的动作类别作为所述动作标签。
16.可选地，所述目标线性分类器包括情绪识别线性分类器和动作意图识别线性分类器，所述将所述文本向量输入目标线性分类器，确定所述文本向量中的情绪类别和动作类别的步骤之前，包括：
17.获取预设训练样本，所述预设训练样本包括情绪识别训练样本和动作意图识别训练样本；
18.基于所述情绪识别训练样本，更新所述预训练双向编码表示模型和初始线性分类器中的对应参数，得到所述情绪识别线性分类器和微调后的预训练双向编码表示模型，所述参数为所述情绪识别训练样本对应的损失函数的最优解；
19.以及，基于所述动作意图识别训练样本，更新所述预训练双向编码表示模型和初始线性分类器中的对应参数，得到所述动作意图识别线性分类器和微调后的预训练双向编码表示模型，所述参数为所述动作意图识别训练样本对应的损失函数的最优解。
20.可选地，所述确定所述文本向量中的情绪类别和动作类别包括：
21.确定所述文本向量中的第一标记位置；
22.根据所述第一标记位置对应的子文本向量，确定所述文本向量的表情特征；
23.将所述表情特征输入所述情绪识别线性分类器，确定所述文本向量对应的所述情绪类别；
24.以及，确定所述文本向量中的第二标记位置和文本长度；
25.将所述文本长度拼接至所述第二标记位置对应的子文本向量
26.根据拼接后的所述子向量，确定所述文本向量的动作特征；
27.将所述动作特征输入所述动作意图识别线性分类器，确定所述文本向量的动作类别。
28.可选地，所述基于预训练双向编码表示模型，确定所述文本信息中融合了语言先验知识的文本向量的步骤之前，包括：
29.获取深度自注意力网络；
30.向所述深度自注意力网络输入大规模无监督数据，并通过掩蔽语言模型和下句预测训练所述深度自注意力网络，以生成所述预训练双向编码表示模型。
31.可选地，所述驱动所述虚拟形象模型输出所述情绪标签匹配的表情，以及驱动所述虚拟形象模型输出所述动作标签匹配的动作的步骤包括：
32.根据所述情绪标签匹配所述虚拟形象模型对应的表情，以及根据所述动作标签匹配所述模型对应的动作；
33.对所述表情和所述动作做插帧处理；
34.将插帧处理后的所述表情和插帧处理后的所述动作输入所述模型，以驱动所述虚拟形象模型。
35.可选地，所述对所述表情和所述动作做插帧处理的步骤包括：
36.提取所述表情的第一表情帧和第二表情帧，所述第一表情帧位于所述第二表情帧之前；
37.确定所述第一表情帧和所述第二表情帧之间对应的时间差；
38.确定所述时间差内，所述第一表情帧和所述第二表情帧之间每一像素点的位置偏移量；
39.根据所述位置偏移量生成所述第一表情帧和所述第二表情帧之间的表情过渡帧；
40.向所述第一表情帧和所述第二表情帧之间的对应位置插入所述表情过渡帧；
41.以及，提取所述动作的第一动作帧和第二动作帧，所述第一动作帧位于所述第二动作帧之前；
42.确定所述第一动作帧和所述第二动作帧之间对应的时间差；
43.确定所述时间差内，所述第一动作帧和所述第二动作帧之间每一像素点的位置偏移量；
44.根据所述位置偏移量生成所述第一动作帧和所述第二动作帧之间的动作过渡帧；
45.向所述第一动作帧和所述第二动作帧之间的对应位置插入所述动作过渡帧。
46.可选地，所述提取所述动作的第一动作帧和第二动作帧的步骤之前，包括：
47.确定所述动作的停顿时间、持续时间和自然度；
48.若所述停顿时间在第一预设范围内，所述持续时间大于预设时间阈值，所述自然度大于预设自然度阈值，确定所述提取方式为顺序取帧，根据所述顺序取帧，执行所述提取所述动作的第一动作帧和第二动作帧的步骤；
49.或者，若所述停顿时间在第二预设范围内，所述持续时间小于或等于所述预设时间阈值，所述自然度小于或等于所述自然度阈值，确定所述提取方式为逆序取帧，根据所述逆序取帧，执行所述提取所述动作的第一动作帧和第二动作帧的步骤。
50.此外，为实现上述目的，本发明还提供一种虚拟形象驱动设备，所述虚拟形象驱动设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的虚拟形象模型的驱动程序，所述虚拟形象模型的驱动被所述处理器执行时实现如上所述的虚拟形象模型的驱动方法的步骤。
51.此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有虚拟形象模型的驱动程序，所述虚拟形象模型的驱动程序被处理器执行时实现如上所述的虚拟形象模型的驱动方法的步骤。
52.本发明实施例提供一种虚拟形象模型的驱动方法、虚拟形象驱动设备及存储介质，其中，所述方法包括：在获取到输入信息时，确定所述输入信息对应的响应信息；确定所述响应信息关联的情绪标签和动作标签；驱动所述虚拟形象模型输出所述情绪标签匹配的表情，以及驱动所述虚拟形象模型输出所述动作标签匹配的动作。通过在获取到多种输入信息时，确定输入信息对应的响应信息，从响应信息中识别出其关联的情绪标签和动作标签，基于情绪标签和动作标签，即可生成带动作和表情的虚拟人，实现了更自然的趋近真人的虚拟形象的驱动效果。
附图说明
53.图1为本发明实施例涉及的虚拟形象驱动设备的硬件架构示意图；
54.图2为本发明虚拟形象模型的驱动方法的第一实施例的流程示意图；
55.图3为情绪分类识别任务的bert模型的训练流程示意图；
56.图4为动作意图识别任务的bert模型的训练流程示意图；
57.图5为本发明虚拟形象模型的驱动方法的第二实施例中步骤s30的细化流程示意图；
58.图6为本发明虚拟形象模型的驱动方法的第二实施例中无明显的动作和表情变化的虚拟形象模型示意图；
59.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
60.本技术通过自然语言处理(naturallanguageprocessing，nlp)技术实现自动文本匹配动作和表情标签，再通过动作和表情插帧算法实现不同的动作和表情间的自然过渡。
61.为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
62.作为一种实现方案，虚拟形象驱动设备的硬件架构可以如图1所示。
63.本发明实施例方案涉及的是虚拟形象驱动设备的硬件架构，所述硬件架构包括：处理器101，例如cpu，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。
64.存储器102可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括虚拟形象模型的驱动程序；而处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
65.在获取到输入信息时，确定所述输入信息对应的响应信息；
66.确定所述响应信息关联的情绪标签和动作标签；
67.驱动所述虚拟形象模型输出所述情绪标签匹配的表情，以及驱动所述虚拟形象模型输出所述动作标签匹配的动作。
68.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
69.基于预训练双向编码表示模型，确定所述响应信息中融合了语言先验知识的文本向量；
70.将所述文本向量输入目标线性分类器，确定所述文本向量中的情绪类别和动作类别；
71.确定所述文本向量在对应的各个所述情绪类别中的概率，和对应的各个所述动作类别中的概率；
72.选取所述情绪类别中的最大概率的情绪类别作为所述情绪标签，以及选取所述动作类别中的最大概率的动作类别作为所述动作标签。
73.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
74.获取预设训练样本，所述预设训练样本包括情绪识别训练样本和动作意图识别
训练样本；
75.基于所述情绪识别训练样本，更新所述预训练双向编码表示模型和初始线性分类器中的对应参数，得到所述情绪识别线性分类器和微调后的预训练双向编码表示模型，所述参数为所述情绪识别训练样本对应的损失函数的最优解；
76.以及，基于所述动作意图识别训练样本，更新所述预训练双向编码表示模型和初始线性分类器中的对应参数，得到所述动作意图识别线性分类器和微调后的预训练双向编码表示模型，所述参数为所述动作意图识别训练样本对应的损失函数的最优解。
77.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
78.确定所述文本向量中的第一标记位置；
79.根据所述第一标记位置对应的子文本向量，确定所述文本向量的表情特征；
80.将所述表情特征输入所述情绪识别线性分类器，确定所述文本向量对应的所述情绪类别；
81.以及，确定所述文本向量中的第二标记位置和文本长度；
82.将所述文本长度拼接至所述第二标记位置对应的子文本向量；
83.根据拼接后的所述子向量，确定所述文本向量的动作特征；
84.将所述动作特征输入所述动作意图识别线性分类器，确定所述文本向量的动作类别。
85.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
86.获取深度自注意力网络；
87.向所述深度自注意力网络输入大规模无监督数据，并通过掩蔽语言模型和下句预测训练所述深度自注意力网络，以生成所述预训练双向编码表示模型。
88.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
89.根据所述情绪标签匹配所述虚拟形象模型对应的表情，以及根据所述动作标签匹配所述模型对应的动作；
90.对所述表情和所述动作做插帧处理；
91.将插帧处理后的所述表情和插帧处理后的所述动作输入所述模型，以驱动所述虚拟形象模型。
92.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
93.提取所述表情的第一表情帧和第二表情帧，所述第一表情帧位于所述第二表情帧之前；
94.确定所述第一表情帧和所述第二表情帧之间对应的时间差；
95.确定所述时间差内，所述第一表情帧和所述第二表情帧之间每一像素点的位置偏移量；
96.根据所述位置偏移量生成所述第一表情帧和所述第二表情帧之间的表情过渡帧；
97.向所述第一表情帧和所述第二表情帧之间的对应位置插入所述表情过渡帧；
98.以及，提取所述动作的第一动作帧和第二动作帧，所述第一动作帧位于所述第二动作帧之前；
99.确定所述第一动作帧和所述第二动作帧之间对应的时间差；
100.确定所述时间差内，所述第一动作帧和所述第二动作帧之间每一像素点的位置偏移量；
101.根据所述位置偏移量生成所述第一动作帧和所述第二动作帧之间的动作过渡帧；
102.向所述第一动作帧和所述第二动作帧之间的对应位置插入所述动作过渡帧。
103.在一实施例中，处理器101可以用于调用存储器102中存储的虚拟形象模型的驱动程序，并执行以下操作：
104.确定所述动作的停顿时间、持续时间和自然度；
105.若所述停顿时间在第一预设范围内，所述持续时间大于预设时间阈值，所述自然度大于预设自然度阈值，确定所述提取方式为顺序取帧，根据所述顺序取帧，执行所述提取所述动作的第一动作帧和第二动作帧的步骤；
106.或者，若所述停顿时间在第二预设范围内，所述持续时间小于或等于所述预设时间阈值，所述自然度小于或等于所述自然度阈值，确定所述提取方式为逆序取帧，根据所述逆序取帧，执行所述提取所述动作的第一动作帧和第二动作帧的步骤。
107.基于上述基于人工智能技术的虚拟形象驱动设备的硬件架构，提出本发明虚拟形象模型的驱动方法的实施例。
108.参照图2，在第一实施例中，所述方法包括以下步骤：
109.步骤s10，在获取到输入信息时，确定所述输入信息对应的响应信息；
110.在本实施例中，在获取到输入信息时，确定与输入信息对应的，该虚拟形象模型的相应信息。输入信息包括但不限于文字、语音、指令等内容，例如直播场景，当直播间的观众进入直播间内，会触发欢迎指令，虚拟直播员 (即虚拟形象模型)会根据欢迎指令生成对应的响应信息，执行响应信息的相关动作；再例如，对于课堂场景，当学生向ai老师(即虚拟形象模型)提问时，输入信息为语音，ai老师会根据语音中的内容生成对应的响应信息；再例如，对于后台运维人员对ai直播员进行操控时，输入信息为文字，ai 直播员根据文字生成对应的响应信息。响应信息包括但不限于表情响应、动作响应、语音响应，本实施例中，着重阐述表情响应和动作响应。
111.步骤s20，确定所述响应信息关联的情绪标签和动作标签；
112.在本实施例中，需要将响应信息映射为文本类数据，响应信息的映射任务分为表情映射任务和动作映射任务，这两种任务能够将响应信息映射为一段文本，并分析文本中的文字，提取文字中能够反映人的情绪标签和动作标签。
113.可选地，情绪标签和动作标签的提取方式，将文本输入至基于深度自注意力网络的预训练双向编码表示模型(bidirectional encoder representationsfrom transformer，bert)进行提取。
114.需要说明的是，在本实施例中，bert模型采用transformer网络作为模型基本结构，在大规模无监督数据上通过掩蔽语言模型和下句预测这两个预训练任务上进行预训
练，得到预训练bert模型。bert预训练模型能够充分利用无监督预训练时学习到的语言先验知识，在模型微调时将其迁移到相应的nlp任务(即表情映射任务和动作映射任务)上。
115.通过bert预训练模型，确定出文本中融合了语言先验知识的文本向量，语言先验知识表征为bert模型预先训练得到的语言先验知识，即，将文本输入bert模型得到的文本向量中融合了bert模型预先训练得到的语言先验知识。然后，将文本向量输入至bert模型中任务相关的目标线性分类器中。bert模型中设有多种类型的线性分类器，线性分类器用于将文字向量的类型进行分类。在本实施例中，由于需要提取出的内容为文字中表征为情绪和动作的部分，因此与文字向量所对应的目标线性分类器为情绪识别线性分类器和动作意图识别线性分类器，根据情绪识别线性分类器确定出文本向量中的情绪类别，以及根据动作意图识别线性分类器确定文本向量中的动作类别。在本实施中，线性分类器中设置的情绪类别和动作类别都是至少一个，在线性分类文字向量的过程中，文字向量可能会出现在多个情绪类别和多个动作类别中，因此，我们选取各个情绪类别和动作类别中概率最大的作为情绪标签和动作标签。
116.示例性地，一段文字为“欢迎朋友们来到我的直播间”，通过自动文本匹配，得到这句话对应的情绪类别以及概率为：高兴，概率80％；惊讶，概率40％；中性，概率30％；生气，概率0％。选取概率最大的“高兴”作为这句话的情绪标签。动作标签的选取同理。
117.可选地，目标线性分类器的训练方式，通过预设的训练样本进行标注，在特定场景下对bert模型进行微调，将该线性分类器对应的文本映射分类任务的损失函数的最优解作为bert模型和线性分类器的更新参数，从而得到微调后的该类别训练样本下对应的目标线性分类器和微调后的bert模型。基于此原理，情绪识别线性分类器和动作意图识别线性分类器的区别在于：向线性分类器中输入的分类特征和训练样本的类别不同。
118.可选地，对于文本向量中的情绪类别的确定方式，可以是通过确定文本向量中的第一个位置为第一标记位置，第一标记位置表征为文本向量中[cls] 标记对应的位置，[cls]标记位置能够使bert模型的最后一层该位对应向量可以作为整段文本的语义表示，从而用于下游的分类任务，根据该第一标记位置对应的子文本向量，作为表情特征，将该表情特征作为线性分类器的输入向量，从而确定出文本向量的情绪类别。同理，对于文本向量中的动作类别的确定方式，通过第二标记位置以及文本长度来确定，第二标记位置表征为文本向量中的第一个位置即[cls]标记对应的位置。将该第二标记位置对应的子文本向量，作为动作特征，将该动作特征作为线性分类器的输入向量，从而确定出文本向量的动作类别。
[0119]
需要说明的是，在上述文本向量中的动作类别的确定流程中加入文本长度作为线性分类器的输入量的目的在于提升文本和动作意图识别bert模型之间的匹配准确度，因为不同的动作的持续时长不同，文本长度特征可以提供很好的信息用于匹配动作。例如，以电商直播场景为例，若后台运维人员输入文本“大家准备好抢购了吗？5，4，3，2，1上链接”，文本长度较长，更大概率识别出意图为“5，4，3，2，1”倒数的动作，做这个动作的时长和对应的文本长度都比较长；若输入文本为“hello”，文本长度较短，更大概率识别出“hello”对应的意图为打招呼，做这个动作的时长和对应的文本长度都较短。
[0120]
示例性地，对于文本映射分类任务为情绪分类识别任务的bert模型，参照图3，图3为情绪分类识别任务的bert模型的训练流程示意图。首先使用预训练的bert模型来编码
输入文本数据，得到融合了预训练先验知识的文本向量。然后，我们取出第一个位置(即[cls]标记对应位置)的输出向量即分类特征，输入带softmax的线性分类器，得到情绪类别输出。以直播电商场景为例，针对该场景人工标注训练样本，用这个特定场景标注的小样本对以上模型进行微调(fine-tuning)，更新bert模型和分类器的所有参数，更新后的参数为情绪分类任务的损失函数的最优解对应的参数，得到情绪识别 bert模型。其中，情绪类别包括高兴、悲伤、惊讶、生气、恐惧、中性等。基于微调后的情绪识别bert模型，任意输入的文本均可得到每个情绪类别上的概率，进而预测出该文本对应的情绪标签。
[0121]
示例性地，对于文本映射分类任务为动作意图识别任务的bert模型，参照图4，图4为动作意图识别任务的bert模型的训练流程示意图。首先使用预训练bert模型来编码输入文本，得到融合了预训练先验知识的文本向量。然后，我们取出第一个位置(即[cls]标记对应位置)的输出向量，拼接上文本长度特征，输入带softmax的线性分类器，得到意图类别输出。以直播电商场景为例，我们针对该场景设计意图类别，然后人工标注训练样本，用这个特定场景标注的小样本对以上模型进行微调，更新bert模型和分类器的所有参数，更新后的参数为动作意图识别分类任务的损失函数的最优解，得到动作意图识别bert模型。基于微调后的bert模型，任意输入的文本均可得到每个意图类别上的概率，进而预测出该文本对应的意图类别标签。基于微调后的bert模型，任意输入的文本均可得到每个意图类别上的概率，进而预测出该文本对应的动作标签。
[0122]
步骤s30，驱动所述虚拟形象模型输出所述情绪标签匹配的表情，以及驱动所述虚拟形象模型输出所述动作标签匹配的动作。
[0123]
在确定出情绪标签和动作标签之后，驱动虚拟形象模型输出情绪标签匹配的表情，以及驱动所述虚拟形象模型输出动作标签匹配的动作。
[0124]
示例性地，以直播电商场景为例，常见的动作包括：“打招呼”，“点赞”，“加油”，“拍手”，“比心”，“比爱心”，“中性动作”等等。针对意图识别为“其他”的文本，系统随机匹配一个自然动作。此外，系统自动匹配动作后，用户可以根据自己的使用情况对动作进行修改，比如想要虚拟人在某些语句做指定动作。常见的表情包括“微笑”、“惊讶”、“生气”、“难过”等等表情。此外，用户也可以根据自己的使用情况对表情进行定制或在原有的基础上进行修改。
[0125]
在本实施例提供的方案中，通过在获取到多种输入信息时，确定输入信息对应的响应信息，从响应信息中识别出其关联的情绪标签和动作标签，基于情绪标签和动作标签，即可生成带动作和表情的虚拟人，实现了更自然的趋近真人的虚拟形象的驱动效果。
[0126]
参照图5，在第二实施例中，基于第一实施例，所述步骤s30包括：
[0127]
步骤s31，根据所述情绪标签匹配所述虚拟形象模型对应的表情，以及根据所述动作标签匹配所述模型对应的动作；
[0128]
步骤s32，对所述表情和所述动作做插帧处理；
[0129]
步骤s33，将插帧处理后的所述表情和插帧处理后的所述动作输入所述模型，以驱动所述虚拟形象模型。
[0130]
可选的，在本实施例中，为了实现更好的驱动效果，将获得的情绪标签和其对应的表情进行匹配，以及将获得的动作标签和其对应的动作进行匹配。在作为被匹配对象的表情和动作，是由被录制者按照要求另外录制一段目标数据作为该虚拟形象模型的动作
和表情的模板数据。在得到模板数据之后，对这些模板数据，采用插帧算法进行数据处理。动作的插帧和表情的插帧原理相同，下面以相对复杂的动作插帧为例作示例性说明。
[0131]
首先需要选取动作帧。在选取过程中，每个动作包含起始帧、中间帧和结束帧，起始帧与自然状态帧(无明显的动作和表情变化,例如图6)会通过插帧算法过渡。例如，在“打招呼”中，左右挥手动作中间有很多帧，需要选取合适的帧让合成的动作更自然，这里所有的动作选帧都是为了让合成的动作更自然。结束帧是指动作做完后回归自然状态时对应的帧。动作的起始帧和结束帧通过插帧算法与自然状态帧进行过渡，使动作的切换效果更好顺滑。
[0132]
可选地，插帧方式包括自然状态帧和动作的起始帧的过渡，将自然状态帧作为第一动作帧，将动作的起始帧作为第二动作帧，计算出第一动作帧和第二动作帧之间每一像素点的位置偏移量，然后根据位置偏移量，生成所述第一动作帧和所述第二动作帧之间的动作过渡帧，将动作过渡帧插入第一动作帧和第二动作帧的动作轨迹之间，从而实现插帧。
[0133]
可选地，插帧方式包括动作的结束帧和自然状态帧的过渡，将动作的结束帧作为第一动作帧，将自然状态帧作为第二动作帧，计算出第一动作帧和第二动作帧之间每一像素点的位置偏移量，然后根据位置偏移量，生成所述第一动作帧和所述第二动作帧之间的动作过渡帧，将动作过渡帧插入第一动作帧和第二动作帧的动作轨迹之间，从而实现插帧。
[0134]
可选地，由于每个动作帧需要选取的帧数较多，且不同动作之间取帧方式和取帧顺序都有所区别，为了提高取帧效率，本实施例提出了两种不同的取帧方式，即循环取帧和非循环取帧，可根据动作的类别来确定取帧的方式。非循环取帧是指，类似“5，4，3，2，1”倒数的动作不能循环时，需要按顺序完成整个动作的取帧。循环取帧是指如果一个动作抬手动作和收手动作是差不多对称的，那么我们只取抬手的动作，收手的动作用倒放的方式收回即可。例如，“手指左边”动作，只需要确定好中间帧，只对动作的前半部分
ꢀ“
伸手”进行取帧，“收手”部分通过循环倒放的方式也可以完成整个动作。在保证动作自然度的条件下，循环取帧是以最终包含的每个动作帧越少越好为原则的。而且这里的起始帧和结束帧都是需要通过插帧算法和自然状态帧过渡的。循环取帧根据取帧顺序又分为顺序取帧和逆序取帧，具体地，根据动作的起始帧到中间帧动作过程，确定动作的停顿时间、持续时间和自然度，若停顿时间在第一预设范围内，持续时间大于预设时间阈值，所述自然度大于预设自然度阈值，确定所述提取方式为顺序取帧，若所述停顿时间在第二预设范围内，所述持续时间小于或等于所述预设时间阈值，所述自然度小于或等于所述自然度阈值，确定所述提取方式为逆序取帧。
[0135]
在一些具体实施方式中，首先计算出每个像素点在第一动作帧和第二动作帧的位置偏移量(即该点在经过t时刻的位移)，然后通过opencv内的重映射函数cv2.remap()函数处理自然状态帧和偏移量，直接生成中间的过渡帧，其中插值处理过程通过线性插值方法(cv.inter_linear)实现。构建的函数如下：
[0136]
dst＝cv2.remap(img,mapx1,mapy1,cv2.inter_linear)
[0137]
其中，dst代表计算的过渡帧，src代表自然状态帧，mapx1和mapy1代表坐标x和y方向的偏移量。
[0138]
在本实施例提供的技术方案中，通过匹配对应标签的对应表情或动作，再在表情或动作之间做插帧处理，从而实现更好的模型驱动效果。
[0139]
此外，本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被虚拟形象驱动设备中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。
[0140]
因此，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有虚拟形象模型的驱动程序，所述虚拟形象模型的驱动程序被处理器执行时实现如上实施例所述的虚拟形象模型的驱动方法的各个步骤。
[0141]
其中，所述计算机可读存储介质可以是u盘、移动硬盘、只读存储器 (read-only memory，rom)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
[0142]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0143]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如 rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0144]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

虚拟形象模型的驱动方法、虚拟形象驱动设备及存储介质与流程

相关文献

最热文献