一种虚拟形象生成方法、装置、设备以及存储介质与流程

2021-10-24 04:31:00 来源：中国专利 TAG：自然语言人工智能增强视觉现实

1.本公开涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、自然语言处理等技术领域。

背景技术：

2.虚拟形象在社交、直播、游戏等人物建模场景具有广泛应用。在未来的增强现实系统中，虚拟形象将是人机交互的主要承载方式。

技术实现要素：

3.本公开提供了一种虚拟形象生成方法、装置、设备以及存储介质。
4.第一方面，本公开提供了一种虚拟形象生成方法，包括：
5.接收语音指令，所述语音指令包括用户对待生成的虚拟形象的描述；
6.提取所述语音指令的语义信息；
7.获得所述语义信息对应的虚拟形象。
8.第二方面，本公开提供了一种虚拟形象生成装置，包括：
9.接收模块，用于接收语音指令，所述语音指令包括用户对待生成的虚拟形象的描述；
10.提取模块，用于提取所述语音指令的语义信息；
11.获得模块，用于获得所述语义信息对应的虚拟形象。
12.第三方面，本公开提供了一种电子设备，包括：
13.至少一个处理器；以及
14.与所述至少一个处理器通信连接的存储器；其中，
15.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法。
16.第四方面，本公开一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法。
17.第五方面，本公开提供了提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面所述的方法。
18.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
19.附图用于更好地理解本方案，不构成对本公开的限定。其中：
20.图1是本公开实施例提供的虚拟形象生成方法的流程图；
21.图2是本公开实施例中预先建立语义和形象的对应关系的流程图；
22.图3是本公开实施例中基于预设语义数据库获得与文字匹配的语义信息的流程
图；
23.图4是应用本公开实施例提供的虚拟形象生成方法的应用示意图；
24.图5是本公开实施例提供的虚拟形象生成装置的一种结构示意图；
25.图6是本公开实施例提供的虚拟形象生成装置的另一种结构示意图；
26.图7是本公开实施例提供的虚拟形象生成装置的又一种结构示意图；
27.图8是用来实现本公开实施例的虚拟形象生成方法的电子设备的框图。
具体实施方式
28.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
29.本公开实施例提供了一种虚拟形象生成方法，如图1所示，可以包括：
30.s101，接收语音指令，语音指令包括用户对待生成的虚拟形象的描述；
31.s102，提取语音指令的语义信息；
32.s103，获得语义信息对应的虚拟形象。
33.本公开实施例中，接收语音指令后，可以提取语音指令的语义信息，通过语义信息，最终获得语义信息对应的虚拟形象。用户只需要发送语音指令，即可以获得需要生成的虚拟形象，实现通过语音交互完成虚拟形象的生成，能够降低虚拟形象生成过程中的交互成本。
34.同时，能够解放用户双手，对于不方便用户手动操作的场景也可以获得虚拟形象，扩展了虚拟形象生成的应用场景。
35.本公开实施例提供的虚拟形象生成方法可以应用于电子设备，或者，也可以应用于包括多个服务器的系统。
36.参照图1，本公开实施例提供的虚拟形象生成方法可以包括：
37.s101，接收语音指令。
38.语音指令包括用户对待生成的虚拟形象的描述。
39.虚拟形象一般为人物形象，语音指令可以包括用户对人物的描述，可以包括对人物外形的描述，例如，大眼睛、高鼻梁、白皮肤、红嘴唇、美丽、性感、冷酷；也可以包括对人物动作的描述，例如，对人物的表情的描述；或者，也可以同时包括对人物外形和人物动作的描述。
40.用户可以通过客户端发送语音指令。
41.s102，提取语音指令的语义信息。
42.对语音指令进行语义理解，得到对应的语义信息。
43.可以先将语音指令转换为文字，然后对文字通过自然语言理解(natural language processing，nlp)，得到对应的语义信息。
44.可以将语音指令转换为文字；基于预设语义数据库，获得与文字匹配的语义信息。
45.具体地，可以预先建立预设语义数据库，预设语义数据库可以包括多个预设词汇，预设词汇可以包括描述虚拟形象的词汇。
46.可以先通过nlp对文字进行解析，然后将解析后的内容与预设语义数据库包括的多个描述词汇进行匹配。
47.其中，解析后的内容可以是按照词性、语句先后顺序等自然语言理解规则得到的多个词汇。
48.将解析后的内容与预设语义数据库包括的多个描述词汇进行匹配可以包括：依次将得到每个分词与预设语义数据库中保存的描述词汇进行比对，针对一个分词来讲，将该分词依次与多个描述词汇进行比对，若描述词汇中存在该分词，则理解为该分词为与预设语义数据库匹配的分词，如此，所有与预设语义数据库匹配的分词即可组成文字匹配的语义信息。
49.因为一般情况下通过名词和形容词对想要的虚拟形象进行描述，一种情况下，可以基于各个分词的词性选择出名词和形容词，将解析后的内容中名词和形容词与预设语义数据库中保存在的描述词汇进行比对，具体的比对参照上述针对每个分词的比对方式。这种情况下选择部分分词进行比对，能够提高获得语义信息的效率。
50.例如，语音指令转换得到的文字为“我要一个健壮双马尾长得像xx的女生”，“xx”可以是明星的名字等，通过解析得到的解析后的内容为“我|要|一个|健壮|双马尾|长得|像|xx|的|女生”，假设预设语义数据库中有“大眼睛”、“高鼻梁”和“双马尾”三个词汇，则解析后的内容中各个分词与预设语义数据库中各个描述词汇进行比对，预设语义数据库中存在解析后内容中各个分词中的一个“双马尾”，则“双马尾”即为获得的语义信息。假设预设语义数据库中有“健壮”、“高鼻梁”、“双马尾”和“xx”四个词汇，则解析后的内容中各个分词与预设语义数据库中各个描述词汇进行比对，分词中“健壮”、“双马尾”和“xx”均存在于预设语义数据库中，则“健壮”、“双马尾”和“xx”共同组成语义信息。
51.预设语义数据库中可以收录尽可能多的针对虚拟对象的可能描述，通过预设语义数据库可以快速获得语音指令对应的语义信息。且预设语义数据库可以作为参考，提高提取的语义信息的准确性。
52.在得到语义信息后，还可以将语义信息返回给用户，以使用户判断语义理解是否准确，在确认语义理解准确后，发送确认指令，如语音回复“理解无误，电子设备或者系统中服务器在接收到该确认指令后继续后续步骤。如此，在语义理解的过程中结合用户确认，提高提取的语义信息的准确性。
53.一种可能的情况下，基于预设语义数据库，有可能无法获得与文字匹配的语义信息，也可以理解为未成功提取语音指令对应的语义信息。未成功提取语音指令对应的语义信息，可以理解为文字解析后得到每个分词与预设语义数据库中保存在的描述词汇进行比对，所有分词在预设语义数据库中均不存在。本公开实施例中，若基于预设语义数据库，未获得与文字匹配的语义信息，则返回提示信息。
54.提示信息可以是任意形式的提示信息，如文字、语音或弹幕等形式。可以预先设备提示信息的具体内容，如“未成功提取语义”，等等。
55.提示信息用于向用户说明基于预设语义数据库未成功提取语音指令对应的语义信息。用户在接收到该提示信息后，可以重新输入语音指令，等等。如此，可以更好地与用户交互，提高用户体验。
56.s103，获得语义信息对应的虚拟形象。
57.可以基于形象数据库获得语义信息对应的虚拟形象。形象数据库包括多个预设语义词汇分别与一虚拟形象的对应关系。
58.可以基于多个预设语义词汇分别生成对应的虚拟形象保存在形象数据库中，并建立语义和形象的对应关系，其中，对应关系也可以理解为映射关系。如此，在得到语义信息后，可以直接基于语义信息从形象数据库中获取语义信息对应的虚拟形象，能够虚拟形象生成的效率。
59.形象数据库中可以保存多个预设语义词汇分别对应的虚拟形象，形象数据库中的预设语义词汇可以与语义数据库中的描述词汇完全相同，或者也可以形象数据库中的预设语义词汇是语义数据库中描述词汇的部分词汇。预先创建形象数据库的内容在下文中会详细描述，这里先不赘述。
60.本公开实施例中，用户只需要发送语音指令，即可以获得虚拟形象，实现通过语音交互完成虚拟形象的生成，不需要用户经过多次手动操作进行屏幕点击等才能实现虚拟形象的生成，例如，不需要用户在选择界面上依次选择脸型、发型、眉毛、眼睛、鼻子、嘴巴、上衣、裤子等各个部分分别对应的形象，才能基于用户选择的各个部分对应的形象，得到最终完整的虚拟形象。本公开实施例能够降低虚拟形象生成过程中的交互成本，也可以理解为降低了虚拟形象生成过程交互复杂度。
61.一种可选的实施例中，预设语义数据库包括的多个描述词汇可以包括几种类型：描述型、感受型和参考型。
62.描述型可以表示直观描述。例如，明确描述面孔五官特征的词汇，比如大眼睛、高鼻梁、白皮肤、红嘴唇，等等。
63.感受型可以表示从感受角度来讲的描述。例如，对于形象没有明确的描述，只给出感受上的形容词，比如美丽、性感、冷酷。
64.参考型可以表示参考名人形象的描述。例如，像某一明星，等等。
65.可以在预设语义数据库将描述型、感受型和参考型的描述词汇分类存储，将语音指令对应的文字解析得到的解析后的内容，也即每个分词分别与几种类型的语义词汇分别进行比对，可以基于这三种类型的描述词汇提取语义信息。
66.例如，语音指令转换得到的文字为“我要一个健壮双马尾长得像xx的女生”，通过解析得到的解析后的内容为“我|要|一个|健壮|双马尾|长得|像|xx|的|女生”，将各个分词分别与这三种类型的描述词汇进行比对，可以得到描述型词汇两个“女生”和“双马尾”、感受型词汇一个“健壮”、参考型词汇一个“xx”。
67.可以理解，本公开实施例中预设语义数据库考虑多种类型的描述，能够收录更丰富地、全面的描述词汇，如此使得，在基于预设语义数据库，获得语音指令对应文字匹配的语义信的过程中，提高获得语义信息的成功率。
68.一般策略中，想要进行虚拟形象的生成，只能通过描述型词汇完成，例如，必须指定眉毛是哪种眉毛，眼睛是哪种眼睛。而本公开实施例中，通过考虑多种类型的描述构建预设语义数据库，不局限于描述型词汇，其他类型的词汇也可以获得虚拟形象，提升了形象生成能力。
69.一种可选的实施例中，如图2所示，本公开实施例中预先创建形象数据库，可以包括：
70.s201，分别获取多个预设语义词汇，并针对各个预设语义词汇创建预设语义词汇对应的虚拟形象。
71.一个预设语义词汇可以对应一个虚拟形象。
72.预设语义词汇表示对形象的描述。
73.可以将多个预设语义词汇对应的虚拟形象保存在形象数据库中。
74.本公开实施例不对针对各个预设语义词汇创建预设语义词汇对应的虚拟形象的方式进行限制，任何可以实现虚拟形象生成的方式均在本公开实施例的保护范围内。
75.s202，建立各个预设语义词汇与预设语义词汇对应的虚拟形象的对应关系。
76.一种可实现方式中，可以分别针对各个预设语义词汇，将该预设语义词汇和与该预设语义词汇的虚拟形象对应保存，例如，一个预设语义词汇对应一个虚拟形象保存在一个表格中的一行，等等。
77.另一种可实现方式中，也可以将预设语义词汇与虚拟形象分别保存，例如，将预设语义词汇与一位置信息对应保存，该位置信息为虚拟形象在形象数据库中的存储位置，文字和图像数据可以分开存储，可以利用不同类型数据的特性等有针对地进行存储、管理等。
78.如此，可以建立预设语义词汇与预设语义词汇对应的虚拟形象在形象数据库中位置信息的对应关系，该对应关系即为预设语义词汇与预设语义词汇对应的虚拟形象的对应关系。例如，该对应关系可以是包括各个预设语义词汇与预设语义词汇对应的虚拟形象在形象数据库中位置信息的关系表。
79.如此，预先针对各个预设语义词汇创建预设语义词汇对应的虚拟形象，并建立各个预设语义词汇与预设语义词汇对应的虚拟形象的对应关系，也即语义和形象的对应关系，可以直接基于语义信息从形象数据库中获取语义信息对应的虚拟形象，能够提高虚拟形象生成的效率。且本公开实施例中，形象数据库包括多个预设语义词汇与虚拟形象的对应关系，能够支持较多地语义信息基于形象数据库成功地获得虚拟形象，能够提高虚拟形象的生成能力。
80.一种可选的实施例中，当语义数据库中包括的语义词汇可以包括描述型、感受型和参考型时，形象数据库中的预设语义词汇的类型也可以包括描述型、感受型和参考型，在创建形象数据库的过程中，可以针对这几种不同类型的预设语义词汇，分别创建对应的虚拟形象。
81.具体地，在图2所示实施例基础上，s201可以包括：
82.针对描述型的预设语义词汇，从已知的虚拟形象中获取与预设语义词汇对应的虚拟形象。具体地，已有技术中一般是通过描述型词汇生成虚拟形象，本公开实施例中可以收集已有的描述型词汇对应的虚拟形象，如此，可以减少创建虚拟形象的计算量。
83.也可以理解对已经创建好的形象数据进行语义标注，产生直接映射，即从已经创建好的虚拟形象中查找与该描述型的预设语义词汇匹配的虚拟形象，可以直接在该虚拟形象中标注该描述型的预设语义词汇，如此，该描述型的预设语义词汇与标注的该虚拟形象意义对应，则可以理解为建立起该描述型的预设语义词汇与虚拟形象的对应关系。
84.针对感受型的预设语义词汇，创建预设语义词汇对应的虚拟形象，并搜索预设语义词汇的同义词，将预设语义词汇对应的虚拟形象作为同义词对应的虚拟形象。
85.例如，感受型的预设语义词汇包括形容词美丽、性感和冷酷，则可以搜集对应形容
词的尽可能多的同义词，比如美丽同义词有漂亮、好看、受看、中看、入眼、顺眼、悦目、美观、华美、优美、美妙，如此，可以达到扩充语言支持能力的目的。
86.针对参考型的预设语义词汇，基于参考人名通过捏脸，得到预设语义词汇对应的虚拟形象。
87.例如，所谓捏脸是指，可以人工收集明星名单，再通过手机端屏幕操作虚拟形象捏脸系统，分发名单到批量人力处根据各自名单下的明星照片进行对应捏脸，保存数据后统一到形象数据库中用于匹配。
88.将用户对虚拟形象的语言描述分为三类，描述型、感受型、参考型，在预先创建各个预设语义词汇对应的虚拟形象的过程中以尽可能多的在有限形象下扩充对语言的理解能力，有效提升复杂描述语言的理解能力，如此，可以使得在通过语义和形象的对应关系，从形象数据库中获得语义信息对应的虚拟形象时，可以充分理解语义信息，准确地获得语义信息对应的虚拟形象。
89.一种可选的实施例中，预设语义数据库会大量收集尽可能多的描述词汇，并把所有描述重定向到少量关键描述词汇上。对应地，形象数据库中可以包括各个关键词汇对应的虚拟形象，即形象数据库中包括的预设语义词汇仅是预设语义词汇中的关键词汇。
90.预设语义数据库包括多个描述词汇，描述词汇包括多个关键词汇和各个关键词汇分别对应的同义词；形象数据库包括各个关键词汇分别对应的虚拟形象。
91.基于预设语义数据库，获得与文字匹配的语义信息，如图3所示，可以包括：
92.s301，通过自然语义理解nlp对文字进行解析，得到多个分词。
93.s302，将各个分词分别与预设语义数据库包括的多个描述词汇进行比对。
94.具体地通过nlp对文字进行解析，得到多个分词以及将各个分词分别与描述词汇进行比对的过程在上述实施例中已经详细说明，这里不再赘述。
95.s303，针对各个分词，若分词为预设语义数据库中关键词汇对应的同义词，则确定同义词对应的关键词汇，并将关键词汇作为分词对应的语义信息。
96.基于形象数据库获得语义信息对应的虚拟形象，可以包括：
97.利用关键词汇，从形象数据库中获得关键词汇对应的虚拟形象。
98.具体地，把所有描述重定向到少量关键描述词汇上，可以理解针对一关键词汇，搜集该关键词汇的同义词，并将该关键词汇与该关键词汇的同义词对应保存。比如会把漂亮、受看、中看、入眼、顺眼、悦目、美观、华美、优美、美妙、美女全部认为是“好看”的同义词，预设语义数据库将“好看”作为关键词汇，并将“好看”的所有同义词与“好看”对应保存，如将“好看”与对应的所有同义词保存在一行，且将“好看”保存在这行的第一列。
99.当分词为关键词汇时，该关键词汇即为与文字匹配的语义信息，则可以直接基于该关键词汇，从形象数据库中获取该关键词汇对应的虚拟形象。
100.当分词为关键词汇对应的同义词，则确定同义词对应的关键词汇，并将关键词汇作为分词对应的语义信息，然后根据关键词汇查找虚拟形象，并将关键词汇对应的虚拟形象作为同义词的虚拟形象，例如，匹配到“漂亮”或“顺眼”的时候，可以确定“漂亮”或“顺眼”对应地关键词汇为“好看”，则可以获取从形象数据库中查找到“好看”的虚拟形象，并将“好看”的虚拟形象作为“漂亮”或“顺眼”，即虽然形象数据库中没有保存“漂亮”或“顺眼”的虚拟形象，也可以基于预设语义数据库和形象数据库得到“漂亮”或“顺眼”的虚拟形象。
101.如此可以实现，仅在形象数据库中保存少量的虚拟形象，降低预先生成虚拟形象的成本。同时，将多个同义词与关键词汇对应起来，即使形象数据库中未保存同义词对应的虚拟形象，也可以通过同义词对应的关键词汇得到虚拟形象，提高虚拟形象的生成能力。
102.一种可选的实施例中，形象数据库中保存语义信息对应的调整数据，利用调整数据对默认形象进行调整能够得到语义信息对应的虚拟形象。调整数据可以为控制模型顶点变形的骨骼节点信息。
103.获得语义信息对应的虚拟形象可以包括：
104.获取语义信息对应的调整数据，调整数据为基于默认形象进行调整的数据；利用调整数据对默认形象的骨骼节点进行调整，得到语义信息对应的虚拟形象。
105.具体地，虚拟形象是基于蒙皮骨骼模型设计的，蒙皮骨骼模型中每个骨骼节点控制一部分模型顶点的变形。比如，鼻子部分的骨骼节点可以控制鼻子部位的外观，嘴巴部分的骨骼节点控制嘴巴部位的外观。也就是说，各组件之间外观是可以通过不同的骨骼节点进行组合的。蒙皮骨骼模型属于已有技术，蒙皮骨骼模型其他内容这里就不赘述。
106.一般来讲，描述型的描述词汇只会改变单一骨骼节点的外观，感受型和参考型的描述词汇通常会改变多个骨骼节点的外观，简单理解，一个骨骼节点调整一个组件对应的形象，则可以理解，描述型的描述词汇对应的调整数据包括单一骨骼节点信息，以基于默认形象对单一组件进行调整，感受型和参考型的描述词汇对应的调整数据包括多个骨骼节点信息，以基于默认形象对多个组件进行调整。其中，组件可以理解为组成虚拟形象的部分，例如，人物外形的各个部分：脸型、眉毛、眼睛、鼻子、嘴巴；人物动作，例如，人物表情。
107.形象数据库中可以保存一个默认形象，可以根据调整数据对该默认模型形象进行调整以生成最终的虚拟形象，调整也可以理解为修改。
108.通过调整数据对默认形象进行调整以得到虚拟形象，是在已有的默认形象上作修改以得到虚拟形象，能够减少计算量。且形象数据库中可以仅保存一个默认形象以及多个调整数据，而不需要保存多个虚拟形象，能够降低对存储资源的占用。
109.可以设置优先级顺序，按照优先级顺序进行调整。
110.优先级顺序可以包括：参考型、感受型，描述型优先级从高到低的顺序，语序顺序。可以仅考虑两种顺序中的一种顺序，也可以同时考虑两种顺序。
111.参考型、感受型，描述型优先级从高到低的顺序可以理解为，在调整的过程中基于参考型的描述词汇对应的调整数据进行调整的优先级高于基于感受型的描述词汇对应的调整数据进行调整的优先级，而基于感受型的描述词汇对应的调整数据进行调整的优先级高于基于描述型的描述词汇对应的调整数据进行调整的优先级。
112.一个具体的例子中，预设语义数据库中包括描述型词汇“大眼睛”和感受型词汇“美丽”以及“美丽”和“好看”的对应关系，形象数据库中保存包括描述型词汇“大眼睛”和感受型词汇“好看”分别对应的调整数据。语义指令对应的文字是“大眼睛的美女”，解析后得到“大眼睛”和“美女”两个分词，预设语义数据库中保存“美丽”和“好看”的对应关系，则可以理解为“美丽”对应的关键词汇为“好看”。
113.解析后得到的两个分词与预设语义数据库进行比对，“大眼睛”和“美女”均存在于预设语义数据库，同时可以得到“美女”对应的关键词汇“好看”，因为得到“美女”对应的关键词汇“好看”，则可以理解形象数据库中保存了“好看”对应的虚拟形象，具体可以是待生
成虚拟形象的调整数据，而没有保存“美女”对应的虚拟形象。故可以将“好看”替换“美女”作为获得的语义信息，此时，“大眼睛的美女”匹配的语义信息包括“大眼睛”和“好看”。
114.从形象数据库中获取“大眼睛”和“好看”对应的调整数据，先利用感受型词汇“好看”对应的调整数据对默认形象进行调整，然后再在调整后的形象上利用描述型词汇“大眼睛”进行调整。
115.语音指令对应的文字解析得到的多个分词是有语义先后顺序的，基于各个分词获得的多个语义信息也可以是语义先后顺序的，语序顺序可以理解为多个语义信息的语义先后顺序。
116.一种可选实施例中，语义信息可以包括多个组件分别对应的子语义信息。
117.组件可以理解为组成虚拟形象的部分，例如，人物外形的各个部分：脸型、眉毛、眼睛、鼻子、嘴巴；人物动作，例如，人物表情。
118.基于形象数据库获得语义信息对应的虚拟形象，可以包括：
119.针对各个组件，利用组件对应的子语义信息，通过对应关系，获得子语义信息对应的子虚拟形象；基于各个子虚拟对象得到虚拟形象。
120.在得到虚拟形象的过程中，以组件为单位分别获得组件对应的子虚拟形象，能够更方便地获取各子语义信息对应的子虚拟形象，进而得到完整的虚拟形象。
121.一个组件可以对应一个或多个子语义信息。其中，一个组件对应的多个子语义信息可以包括不同维度的多个语义信息，如大眼睛、犀利的眼睛、琥珀色的眼睛等等。
122.一种情况，每一组件得到一语义信息，此时，可以将所有的子语义信息对应的虚拟形象进行组合，得到最终的虚拟形象，可以简便地得到完整的虚拟形象。组合可以理解为将多个子虚拟对象合成为一个虚拟形象。
123.另一种情况下，每一组件的一个或多个子语义信息得到的该组件对应的子虚拟形象相同，这种情况下，每一组件得到一子虚拟形象，将各个组件的子虚拟形象进行组合可以理解为将不同组件对应的子虚拟形象进行拼接得到完整的虚拟形象。
124.另一种情况下，针对同一组件存在多个子语义信息的情况，可以利用组件对应的每一子语义信息，通过对应关系，获得组件对应的每一子语义信息分别对应的子虚拟形象；若每一子语义信息分别对应的子虚拟形象有冲突，则选择语义顺序在后的子语义信息对应的子虚拟形象作为组件对应的子虚拟形象。
125.这里所说的同一组件存在互相冲突的多个子语义信息，也可以理解为在同一维度对组件的不同描述，如大眼睛和小眼睛。这种情况下，每一组件得到了不相同的子虚拟形象，也可以理解为得到了互相冲突的子虚拟形象。
126.按照实际情况，当有冲突时，语义顺序在后的内容一般是实际想表达的内容，例如，用户先描述了眉毛，后面想修改为另一种描述，则对于眉毛可以解析得到多个子语义信息，语义顺序在后的描述才是用户实际想要表达的描述。
127.若每一子语义信息分别对应的子虚拟形象有冲突，则选择语义顺序在后的子语义信息对应的子虚拟形象作为组件对应的子虚拟形象，也可以理解为按照优先级顺序选择出更符合用户表达的虚拟形象，如此，能够提高虚拟形象的准确性。同时，用户想修改之前的描述时，仅需要说出修改后的描述即可，不需要进行其他额外的操作，可以进一步降低用户交互的复杂度，还能够提高用户体验。
128.在得到虚拟形象后，可以将虚拟形象发送给客户端，客户端对虚拟形象进行渲染和显示。
129.本公开实施例提供的虚拟形象生成方法可以应用于包括多个服务器的系统，也可以理解为，由多个服务器共同实现虚拟形象生成方法。
130.图4为应用本公开实施例提供的虚拟形象生成方法的应用示意图。服务器端与客户端进行交互，以实现本公开实施例提供的虚拟形象生成方法。具体地，服务器端可以包括自动语音识别技术(automatic speech recognition，asr)识别端、unit人机对话端、文本转语音端以及形象生成端，服务端包括的这几部分可以理解为一个电子设备的不同模块。或者，可以通过不同的服务器来实现，如可以包括自动语音识别技术(automatic speech recognition，asr)服务器、unit人机对话服务器、文本转语音(text
‑
to
‑
speech，tts)服务器和形象生成服务器。
131.客户端获取用户发送的语音，并将该语音发送至asr服务端，如此，asr服务端可以接收语音，也即接收语音指令。
132.asr服务器通过asr语音识别对语音进行语言解析，转化为文字；并将该文字发送给客户端，客户端该文字发送至unit人机对话端。
133.unit人机对话端对文字进行语义提取，得到与文字匹配的语义信息，并将提取的语义信息发送给客户端。客户端将语义信息发送给形象生成端，形象生成端，形象生成端通过对应关系从形象数据库中获得语义信息对应的虚拟形象。
134.具体地，以服务器端包括的这几部分分别为不同的服务器为例进行下述说明。
135.当用户对客户端说话时，客户端记录和保存用户语音，该用户语音即为语音指令。
136.客户端将用户当前语音发送到asr服务器，asr服务器通过asr语音识别能力对语音进行语言解析，转化为文字。asr服务器返回文字到客户端，客户端可以展示用户语音对应文字。
137.客户端接收到asr服务器返回的文字，并将该文字发送到unit人机对话服务器。
138.unit人机对话服务器一方面通过nlp自然语言理解对文字进行解析，对预先设置的词槽进行填充，完成语义提取，也即上述将解析后的内容与预设语义数据库包括的多个描述词汇进行匹配的步骤。具体地将解析后的内容与预设语义数据库包括的多个描述词汇进行匹配的步骤在上述实施例中已经详细说明，参照上述实施例该步骤完成语义提取即可，这里不再赘述。unit人机对话服务器可以将得到的语义信息返回给客户端。
139.如此，客户端可以将语义信息发送到形象生成服务器，通过语义和形象的对应关系匹配对应形象，并对多种匹配进行优先级排序，对不冲突的形象数据进行组合，形象生成服务器返回虚拟形象到客户端，客户端可以对该虚拟形象进行渲染并展示。其中，通过对应关系匹配对应形象参照上述实施例中基于形象数据库获得语义信息对应的虚拟形象的步骤即可，基于形象数据库获得语义信息对应的虚拟形象的步骤的详细过程在上述实施例中已经进行了详细说明，这里不再赘述。
140.另一方面，unit人机对话服务器根据该语义信息进行判断，根据是否满足语义数据库数据条件反馈预置的回复话术。也即基于预设语义数据库，未获得与文字匹配的语义信息，该回复话术即为提示信息，用于向用户说明基于预设语义数据库，未获得与文字匹配的语义信息。此时，客户端可以将回复话术发送到tts服务器，tts服务器通过文本到语音转
换给出回复话术的语音文件，并将该语音文件返回给客户端，客户端可以播放该语音文件，如此，用户可以通过语音接收到该回复话术。
141.另外，当成功提取到语义信息，也可以生成该语音信息对应的回复话术，将语音信息对应的回复话术也返回给客户端，客户端也可以将该语音信息对应的回复话术发送到tts服务器，tts服务器该语音信息对应的回复话术的语音文件，如此，可以在展示虚拟形象的同时播放该语音文件，使得用户可以将虚拟形象与语义信息对应起来，更加丰富、立体地感受虚拟形象，提高用户体验。
142.本公开实施例可以实现从用户语音输入、到文本、到语义、到形象生成与机器语音答复的一句话形象生成的完整流程。简单理解，一句话驱动虚拟形象的生成，如使得一句话驱动的虚拟形象外观生成能够实现，能够降低虚拟形象生成的交互成本，降低交互复杂度。实现从手动点击操作到语音互动驱动虚拟形象生成方向从零到一突破，能够提升虚拟形象生成内在技术实力，扩大产品的应用场景，增强产品纬度，提高产品的品牌认知。
143.对应于上述实施例提供的虚拟形象生成方法，本公开实施例还提供了一种虚拟形象生成装置，如图5所示，可以包括：
144.接收模块501，用于接收语音指令，语音指令包括用户对待生成的虚拟形象的描述；
145.提取模块502，用于提取语音指令的语义信息；
146.获得模块503，用于获得语义信息对应的虚拟形象。
147.可选的，提取模块502，具体用于将语音指令转换为文字；基于预设语义数据库，获得与文字匹配的语义信息。
148.可选的，如图6所示，装置还包括：
149.返回模块601，用于若基于预设语义数据库，未获得与文字匹配的语义信息，则返回提示信息。
150.可选的，获得模块503，具体用于基于形象数据库获得语义信息对应的虚拟形象。
151.可选的，如图7所示，装置还包括：
152.创建模块701，用于分别获取多个预设语义词汇，并针对各个预设语义词汇创建预设语义词汇对应的虚拟形象；预设语义词汇表示对形象的描述；
153.建立模块702，用于建立各个预设语义词汇与预设语义词汇对应的虚拟形象的对应关系。
154.可选的，预设语义数据库包括多个描述词汇，描述词汇包括多个关键词汇和各个关键词汇分别对应的同义词；形象数据库包括各个关键词汇分别对应的虚拟形象；
155.提取模块502，具体用于通过自然语义理解nlp对文字进行解析，得到多个分词；将各个分词分别与预设语义数据库包括的多个描述词汇进行比对；针对各个分词，若分词为预设语义数据库中关键词汇对应的同义词，则确定同义词对应的关键词汇，并将关键词汇作为分词对应的语义信息；
156.获得模块503，具体用于利用关键词汇，基于对应关系从形象数据库中获得关键词汇对应的虚拟形象。
157.可选的，形象数据库中保存语义信息对应的调整数据，调整数据用于对默认形象进行调整以得到语义信息对应的虚拟形象；
158.获得模块503，具体用于获取语义信息对应的调整数据，调整数据为基于默认形象进行调整的数据；利用调整数据对默认形象中的骨骼节点进行调整，得到语义信息对应的虚拟形象。
159.可选的，语义信息包括多个组件分别对应的子语义信息；
160.获得模块503，具体用于针对各个组件，利用组件对应的子语义信息，通过对应关系，获得子语义信息对应的子虚拟形象；基于各个子虚拟对象得到虚拟形象。
161.本公开实施例提供的虚拟形象生成方法是应用上述虚拟形象生成方法的装置，则上述虚拟形象生成方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。
162.本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
163.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
164.图8示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
165.如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
166.设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
167.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如虚拟形象生成方法。例如，在一些实施例中，虚拟形象生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的虚拟形象生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行虚拟形象生成方法。
168.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电
路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
169.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
170.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd
‑
rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
171.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
172.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
173.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端
‑
服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
174.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，
只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
175.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于预测上市企业财务困境的方法及系统与流程

一种虚拟形象生成方法、装置、设备以及存储介质与流程

相关文献

最热文献