虚拟机器人决策方法、系统和电子设备与流程

2022-11-19 17:32:29 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，尤其涉及一种虚拟机器人决策方法、系统和电子设备。

背景技术：

2.当前的虚拟机器人技术大多数依赖中之人（即真实演员，但其形象不在银幕上出现）。比如在直播场景下，中之人在后台表演，即由中之人做出决策（包括表情、动作、声音等），利用动作捕捉技术等得到中之人的表情、动作、声音的表达，再通过渲染技术将中之人的表演转化为虚拟机器人的表演。另一些技术通过预设的规则进行决策。比如在匹配到某个台词的时候做出某个动作，又或者以某个时间为周期重复出现某个动作或表情。
3.在中之人范式下，没有办法实现完全的程序控制，没有真正解放生产力，并且如果更换中之人，虽然没有改变虚拟人的形象，却改变了虚拟人的内在属性。在预设规则范式下，虚拟机器人行为机械化，没有办法做到自然。用户很快就会发现预设的规则和重复的动作，产生不真实感，影响用户体验。
4.因此提出一种程序控制的虚拟机器人决策方法以使虚拟机器人做出顺畅自然的行为是当前亟待解决的技术问题。

技术实现要素：

5.本发明提供一种虚拟机器人决策方法、系统和电子设备，用以解决现有技术中无法实现完全的程序控制以及行为机械化、不顺畅自然的缺陷，实现程序控制的虚拟机器人决策方法以使虚拟机器人做出顺畅自然的行为。
6.本发明提供一种虚拟机器人决策方法，包括：获取环境信息；将所述环境信息输入虚拟机器人决策模型，输出当前行为信息；其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
7.根据本发明提供的一种虚拟机器人决策方法，所述虚拟机器人决策模型还包括决策空间生成模型，用于根据预存的视频数据生成多模态指令集合。
8.根据本发明提供的一种虚拟机器人决策方法，所述根据预存的视频数据生成多模态指令集合，包括：通过目标区域检测算法对所述视频数据进行截取，得到多个目标区域图像；对多个所述目标区域图像进行特征提取，得到多个目标区域图像特征；对多个所述目标区域图像特征进行聚类，得到多个目标区域图像特征对应的聚类码本，其中，所述聚类码本包括每个目标区域图像特征对应的码字；
将所述码字作为多模态指令，根据所述聚类码本生成所述多模态指令集合。
9.根据本发明提供的一种虚拟机器人决策方法，所述根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令，包括：对所述环境信息进行特征提取，得到环境信息特征；对所述历史行为信息进行第一行为特征提取，得到第一历史行为信息特征；将所述环境信息特征和所述第一历史行为信息特征输入具有所述多模态指令集合对应码本的主动决策器进行主动决策，将主动决策得到的目标码字作为目标多模态指令。
10.根据本发明提供的一种虚拟机器人决策方法，所述根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息，包括：对所述历史行为信息特征进行第二行为特征提取，得到第二历史行为信息特征；根据所述第二历史行为信息特征和所述目标多模态指令生成当前行为信息。
11.根据本发明提供的一种虚拟机器人决策方法，所述根据所述第二历史行为信息特征和所述目标多模态指令生成当前行为信息，包括：获取随机噪声和预设的风格特征列表中的风格特征；将所述第二历史行为信息特征、所述目标多模态指令、所述随机噪声和所述风格特征输入无意识决策器进行无意识决策，输出所述当前行为信息。
12.本发明还提供一种虚拟机器人决策系统，包括：获取单元，用于获取环境信息；决策单元，用于将所述环境信息输入虚拟机器人决策模型，输出当前行为信息；其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
13.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述虚拟机器人决策方法的步骤。
14.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述虚拟机器人决策方法的步骤。
15.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述虚拟机器人决策方法的步骤。
16.本发明提供的虚拟机器人决策方法、系统和电子设备，虚拟机器人决策模型的主动决策模型根据环境信息和历史行为信息在多模态指令集合中进行主动决策，确定目标多模态指令，实现根据周围环境和历史行为给出符合短期环境、符合常理的指令用于指示虚拟机器人做出行为的类型；无意识决策模型根据目标多模态指令和历史行为信息生成当前行为信息，由于参考了历史行为信息，当前行为信息更符合长期以来的行为习惯，更加顺畅和自然；通过上述方式实现了程序控制的、顺畅自然的虚拟机器人决策。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本发明提供的虚拟机器人决策方法的流程示意图；图2是本发明提供的虚拟机器人决策流程的示意图之一；图3是本发明提供的虚拟机器人决策流程的示意图之二；图4是本发明提供的决策空间生成模型工作流程示意图；图5是本发明提供的主动决策模型工作流程示意图；图6是本发明提供的无意识决策模型工作流程示意图；图7是本发明提供的虚拟机器人决策系统的架构示意图；图8是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
20.本发明提供一种虚拟机器人决策方法，如图1所示，包括：s11、获取环境信息；s12、将所述环境信息输入虚拟机器人决策模型，输出当前行为信息。
21.其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
22.具体地，如图2所示，图2为本发明提供的虚拟机器人决策流程示意图，虚拟机器人决策模型通过获取的环境信息结合预存的历史行为信息进行决策生成虚拟机器人的行为。
23.环境信息可以包括但不限于直播场景中观众的进出场信息、赠礼信息和聊天信息等与观众相关的多种信息。历史行为信息包括但不限于虚拟机器人在长期或短期内在各个环境下做出的行为信息。行为信息包括但不限于具体的头部动作（如摇头2次，转动角度60度）、肢体动作（如挥手摆动2次，幅度30度）、表情（如露齿、嘴角幅度小的微笑）、说话文本（如“你好”）和说话语气（如一秒一字的语速、指定分贝的声音大小）等行为的信息。预设多模态指令集合中包括多个多模态指令，多模态指令用于表示虚拟人的行为的类型，如头部动作（摇头）、肢体动作（挥手）、表情（微笑）、说话文本（问候）和说话语气（正常语速）等概括性的类型。
24.一个示例中，将获取的用户聊天信息“让我们开怀大笑吧”（环境信息）输入虚拟机器人决策模型，虚拟机器人决策模型的主动决策模型根据用户聊天信息“让我们开怀大笑吧”（环境信息）和历史行为信息在头部动作、肢体动作、表情、说话文本和说话语气（预设多
模态指令集合）中进行主动决策，确定目标多模态指令为“微笑”。无意识决策模型根据历史行为信息和“微笑”的目标多模态指令生成“露齿、嘴角张开角度20度”表示开怀大笑的行为信息（当前行为信息）。
25.本发明实施例中，虚拟机器人决策模型的主动决策模型根据环境信息和历史行为信息在多模态指令集合中进行主动决策，确定目标多模态指令，实现根据周围环境和历史行为给出符合短期环境、符合常理的指令用于指示虚拟机器人做出行为的类型；无意识决策模型根据目标多模态指令和历史行为信息生成当前行为信息，由于参考了历史行为信息，当前行为信息更符合长期以来的行为习惯，更加顺畅和自然；通过上述方式实现了程序控制的、顺畅自然的虚拟机器人决策。
26.根据本发明提供的虚拟机器人决策方法，所述虚拟机器人决策模型还包括决策空间生成模型，用于根据预存的视频数据生成多模态指令集合。
27.具体地，如图3所示，通过决策空间生成模型可以对预存的视频数据进行分析，生成多模态指令集合，使得多模态指令集合中的多模态指令有据可依，更加真实、贴合实际场景。主动决策模型根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令。无意识决策模型根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
28.本发明实施例中，虚拟机器人决策模型还包括决策空间生成模型，通过决策空间生成模型对预存的视频数据进行分析生成的多模态指令集合中的多模态指令更加真实、贴合实际场景。
29.根据本发明提供的虚拟机器人决策方法，所述根据预存的视频数据生成多模态指令集合，包括s21-s24：s21、通过目标区域检测算法对所述视频数据进行截取，得到多个目标区域图像。
30.s22、对多个所述目标区域图像进行特征提取，得到多个目标区域图像特征。
31.s23、对多个所述目标区域图像特征进行聚类，得到多个目标区域图像特征对应的聚类码本，其中，所述聚类码本包括每个目标区域图像特征对应的码字。
32.s24、将所述码字作为多模态指令，根据所述聚类码本生成所述多模态指令集合。
33.具体地，可以根据需求采用不同的目标区域检测算法对视频数据进行截取。一个示例中，如图4所示，以表情为例，通过人脸检测算法（即目标区域检测算法）对视频数据进行截取，截取视频数据中人脸区域的区域图像，得到多个目标区域图像。如果视频数据中没有人脸区域或识别不到则不进行截取。
34.可以将对应于表情的多个目标区域图像输入一个表情提取器进行特征提取，对每一个目标区域图像提取对应的表情特征（即目标区域图像特征）。
35.可以将多个表情特征（即目标区域图像特征）输入预先训练好的聚类算法模型，在表情特征上进行聚类，得到每个表情特征（即目标区域图像特征）对应的码字，由与每个表情特征（即目标区域图像特征）对应的码字组成多个表情特征（即目标区域图像特征）对应的聚类码本。可选的，聚类算法模型可以为vq-vae（vector quantised
ꢀ‑ꢀ
variational autoencoder，矢量量化变分自动编码器）。
36.将每个表情特征（即目标区域图像特征）对应的码字作为多模态指令，进而由多个表情特征（即目标区域图像特征）对应的聚类码本生成多模态指令集合。
37.本发明实施例中，通过目标区域检测算法对视频数据进行截取，得到多个目标区域图像，对多个目标区域图像进行特征提取，得到多个目标区域图像特征，实现灵活地对视频数据进行截取，将视频数据转化为图像数据再转化为特征数据，方便后续根据目标区域图像生成多模态指令，减少了计算量的同时提升了准确性；对目标区域图像特征进行聚类生成对应的码字进而组成聚类码本，根据聚类码本生成多模态指令集合，实现对多模态指令的统一管理。
38.根据本发明提供的虚拟机器人决策方法，所述根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令，包括s31-s33：s31、对所述环境信息进行特征提取，得到环境信息特征。
39.s32、对所述历史行为信息进行第一行为特征提取，得到第一历史行为信息特征。
40.s33、将所述环境信息特征和所述第一历史行为信息特征输入具有所述多模态指令集合对应聚类码本的主动决策器进行主动决策，将主动决策得到的目标码字作为目标多模态指令。
41.具体地，一个示例中，如图5所示，可以对不同类型的环境信息训练不同的编码器，将环境信息输入对应的预先训练的编码器进行特征提取，得到环境信息特征，将环境信息抽象为数学上的特征向量。
42.以表情为例，可以将历史的表情的相关信息（即历史行为信息）输入关于表情的特征提取器再经过一个编码器完成第一行为特征提取，得到关于表情的第一历史行为信息特征，将历史表情信息抽象为数学上的特征向量。
43.将环境信息特征和第一历史行为信息特征输入一个主动决策器中进行主动决策，主动决策器具有多模态指令集合对应的聚类码本，将主动决策器输出的目标码字作为目标多模态指令，该目标码字为聚类码本中的一个码字。主动决策器可以为transformer转换器网络。
44.对于其它类型的历史行为信息，比如头部动作、手部动作等，也可以通过相同的方式得到对应的目标多模态指令。
45.本发明实施例中，通过对环境信息进行特征提取的到环境信息特征，对历史行为信息进行第一行为特征提取，得到第一历史行为信息特征，实现将体量较大的信息抽象为数学上的特征向量，减少了计算量的同时加深了特征表示含义的深度。将环境信息特征和第一历史行为信息特征输入具有多模态指令集合对应聚类码本的主动决策器进行主动决策，实现在聚类码本中决策出目标码字对应目标多模态指令，实现根据环境信息和历史行为信息进行主动决策，得到符合环境、符合常理的目标多模态指令。
46.根据本技术提供的虚拟机器人决策方法，所述根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息，包括s41-s42：s41、对所述历史行为信息特征进行第二行为特征提取，得到第二历史行为信息特征。
47.s42、根据所述第二历史行为信息特征和所述目标多模态指令生成当前行为信息。
48.具体地，一个示例中，以表情为例，可以将历史的表情的相关信息（即历史行为信息）通过一个编码器转化（即第二行为特征提取）为表情的序列特征（即第二历史行为信息特征），将表情的序列特征（即第二历史行为信息特征）和目标多模态指令生成当前行为信
息。
49.对于其它类型的历史行为信息，比如头部动作、手部动作等，也可以通过相同的方式得到对应的当前行为信息。
50.本发明实施例中，通过对历史行为信息特征进行第二行为特征提取得到第二历史行为信息特征，根据第二历史行为信息特征和目标多模态指令生成当前行为信息，由于参考了历史行为信息，使得生成的当前行为信息更加真实和自然。
51.根据本发明提供的虚拟机器人决策方法，所述s42包括s421-s422：s421、获取随机噪声和预设的风格特征列表中的风格特征。
52.s422、将所述第二历史行为信息特征、所述目标多模态指令、所述随机噪声和所述风格特征输入无意识决策器进行无意识决策，输出所述当前行为信息。
53.具体地，一个示例中，如图6所示，可以获取随机噪声以及风格预设的风格列表中的风格特征。将历史行为信息通过编码器进行第二行为特征提取，得到第二历史行为信息特征。
54.根据第二历史行为信息特征、目标多模态指令、随机噪声和风格特征输入无意识决策器进行无意识决策，生成完备的表情信息（即当前行为信息），该无意识决策器可以为全连接网络，也可以为卷积神经网络或者transformer转换器网络。
55.通过加入随机噪声使得根据遇到相同条件生成的当前行为信息具有多样性，提升了用户体验。通过风格特征可以根据不同需求生成具有指定风格的当前行为信息，丰富了多样性的同时也提升了真实性和自然性，提升了用户体验。
56.本发明实施例中，通过将第二历史行为信息特征、目标多模态指令、随机噪声和风格特征输入无意识决策器进行无意识决策，输出当前行为信息，由于参考了历史行为信息，使得生成的当前行为信息更加真实和自然，由于加入随机噪声提升了当前行为信息的多样性，由于加入风格特征，丰富了多样性的同时也提升了真实性和自然性，提升了用户体验。
57.下面对本发明提供的虚拟机器人决策系统进行描述，下文描述的虚拟机器人决策系统与上文描述的虚拟机器人决策方法可相互对应参照。
58.本发明还提供一种虚拟机器人决策系统，如图7所示，包括：获取单元71，用于获取环境信息；决策单元72，用于将所述环境信息输入虚拟机器人决策模型，输出当前行为信息；其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
59.本发明实施例中，虚拟机器人决策模型的主动决策模型根据环境信息和历史行为信息在多模态指令集合中进行主动决策，确定目标多模态指令，实现根据周围环境和历史行为给出符合短期环境、符合常理的指令用于指示虚拟机器人做出行为的类型；无意识决策模型根据目标多模态指令和历史行为信息生成当前行为信息，由于参考了历史行为信息，当前行为信息更符合长期以来的行为习惯，更加顺畅和自然；通过上述方式实现了程序控制的、顺畅自然的虚拟机器人决策。
60.根据本发明提供的虚拟机器人决策系统，所述虚拟机器人决策模型还包括决策空
间生成模型，用于根据预存的视频数据生成多模态指令集合。
61.根据本发明提供的虚拟机器人决策系统，所述根据预存的视频数据生成多模态指令集合，包括：通过目标区域检测算法对所述视频数据进行截取，得到多个目标区域图像；对多个所述目标区域图像进行特征提取，得到多个目标区域图像特征；对多个所述目标区域图像特征进行聚类，得到多个目标区域图像特征对应的聚类码本，其中，所述聚类码本包括每个目标区域图像特征对应的码字；将所述码字作为多模态指令，根据所述聚类码本生成所述多模态指令集合。
62.根据本发明提供的虚拟机器人决策系统，所述根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令，包括：对所述环境信息进行特征提取，得到环境信息特征；对所述历史行为信息进行第一行为特征提取，得到第一历史行为信息特征；将所述环境信息特征和所述第一历史行为信息特征输入具有所述多模态指令集合对应码本的主动决策器进行主动决策，将主动决策得到的目标码字作为目标多模态指令。
63.根据本发明提供的虚拟机器人决策系统，所述根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息，包括：对所述历史行为信息特征进行第二行为特征提取，得到第二历史行为信息特征；根据所述第二历史行为信息特征和所述目标多模态指令生成当前行为信息。
64.根据本发明提供的虚拟机器人决策系统，所述根据所述第二历史行为信息特征和所述目标多模态指令生成当前行为信息，包括：获取随机噪声和预设的风格特征列表中的风格特征；将所述第二历史行为信息特征、所述目标多模态指令、所述随机噪声和所述风格特征输入无意识决策器进行无意识决策，输出所述当前行为信息。
65.图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行虚拟机器人决策方法，该方法包括：获取环境信息；将所述环境信息输入虚拟机器人决策模型，输出当前行为信息；其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
66.此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种
可以存储程序代码的介质。
67.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的虚拟机器人决策方法，该方法包括：获取环境信息；将所述环境信息输入虚拟机器人决策模型，输出当前行为信息；其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
68.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的虚拟机器人决策方法，该方法包括：获取环境信息；将所述环境信息输入虚拟机器人决策模型，输出当前行为信息；其中，所述虚拟机器人决策模型包括主动决策模型和无意识决策模型；主动决策模型用于根据所述环境信息和预存的历史行为信息在预设多模态指令集合中进行主动决策，确定目标多模态指令；无意识决策模型用于根据所述历史行为信息和所述目标多模态指令生成所述当前行为信息。
69.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
70.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
71.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于物联网的数据采集方法和装置与流程

虚拟机器人决策方法、系统和电子设备与流程

相关文献

最热文献