用户交互的方法、装置、电子设备及计算机可读存储介质与流程

2022-11-12 20:55:18 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，具体而言，涉及用户交互的方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着互联网技术以及智能设备的发展，用户在与智能设备交互时，智能设备可以通过虚拟形象与用户进行应答。虚拟形象是指存在于非物理世界，由计算机手段创造以及使用的形象，虚拟形象可以为具有多重人类特征的数字人，也可以为具有动物特征的数字动物等。
3.现有技术下，智能设备(如，设置有显示屏的智能音响)通常根据用户的语音内容等，确定应答文本，并实时采集表演者的动作，并根据采集的表演者的动作驱动虚拟形象进行应答。
4.但是，采用这种方式，需要专业的表演者实时进行应答，这会耗费大量的人力成本、时间成本以及资源成本。

技术实现要素：

5.本技术实施例的目的在于提供用户交互的方法、装置、电子设备及计算机可读存储介质，用以在通过虚拟形象与用户进行交互时，减少耗费的人力成本、时间成本以及资源成本。
6.一方面，提供一种用户交互的方法，包括：
7.基于用户的交互信息，分析用户的情绪信息；
8.根据交互信息以及情绪信息，确定虚拟形象的应答动作信息；
9.基于应答动作信息，生成虚拟形象应答视频；
10.播放虚拟形象应答视频，使得通过虚拟形象向用户进行应答。
11.在上述实现过程中，通过对用户交互信息进行情绪分析，以根据用户的交互信息以及情绪信息进行应答，提高了虚拟形象应答的准确度，以及基于用户的交互信息以及情绪信息，生成虚拟形象应答视频，使得虚拟形象更加生动形象且自然，且保证了实时虚拟形象应答，且减少了耗费的人力成本、时间成本以及资源成本。
12.一种实施方式中，在基于用户的交互信息，分析用户的情绪信息之前，方法还包括：
13.确定符合以下任一交互触发条件时，采集交互信息：
14.检测到用户的生物特征输入操作；检测到用户针对触摸屏的触控输入操作；以及，检测到用户的按键输入操作。
15.在上述实现过程中，可以采用多种方式获取交互信息。
16.一种实施方式中，基于用户的交互信息，分析用户的情绪信息，包括：
17.若确定交互信息中仅包含一种输入信息，则基于交互信息，确定用户的情绪向量，
并将情绪向量，确定为情绪信息；
18.若确定交互信息中包含至少两种输入信息，则分别确定交互信息中每一输入信息的情绪向量，并将各情绪向量进行加权求和，获得情绪信息。
19.在上述实现过程中，可以对多种输入信息进行综合处理，以确定用户的情绪。
20.一种实施方式中，交互信息包括以下输入信息中的至少一个：生物特征信息、触控信息以及按键信息；基于交互信息，确定用户的情绪向量，包括：
21.若确定交互信息为生物特征信息，则对生物特征信息进行生物特征分析，获得情绪向量；
22.若确定交互信息为触控信息，则根据触控信息，确定用户的触控频率、触控压力以及触控面积，并根据触控频率、触控压力以及触控面积，确定情绪向量；
23.若确定交互信息为按键信息，则根据按键信息，确定用户的按键频率以及按键压力，并根据按键频率和按键压力，确定情绪向量。
24.在上述实现过程中，可以针对不同的输入信息，进行不同的情绪分析，提高了情绪分析的准确度。
25.一种实施方式中，生物特征信息包括以下特征信息中的至少一种：语音信息、人脸图像以及虹膜图像，对生物特征信息进行生物特征分析，获得情绪向量，包括：
26.若确定交互信息为语音信息，则将语音信息进行文本转换，获得语音文本，并提取语音文本中的关键词，以及根据关键词以及语音信息的音调，确定情绪向量；
27.若确定交互信息为人脸图像，则对人脸图像进行表情分析，根据表情分析结果，确定情绪向量；
28.若确定交互信息为虹膜图像，则采用图像匹配的方式，对虹膜图像进行情绪比对分析，确定情绪向量。
29.在上述实现过程中，可以针对用户不同的生物特征信息，采用不同的方式进行分析，获得准确的情绪向量。
30.一种实施方式中，应答动作信息包括以下信息中的至少一种：用于指示虚拟形象的肢体动作的肢体动作标签、用于指示虚拟形象的面部表情动作的面部动作标签，以及用于指示虚拟形象的唇形动作的唇形动作标签，根据交互信息以及情绪信息，确定虚拟形象的应答动作信息，包括：
31.根据交互信息以及情绪信息，确定应答文本、肢体动作标签以及应答情绪标签；
32.获取针对应答文本设置的唇形动作标签；
33.获取针对应答情绪标签设置的面部动作标签。
34.在上述实现过程中，获得交互信息以及情绪信息匹配的用于指示虚拟形象的肢体动作的肢体动作标签、用于指示虚拟形象的面部表情动作的面部动作标签，以及用于指示虚拟形象的唇形动作的唇形动作标签，以在后续步骤中驱动虚拟形象的肢体动作、唇形动作以及面部动作。
35.一种实施方式中，基于应答动作信息，生成虚拟形象应答视频，包括：
36.基于应答文本，生成应答音频；
37.获取应答文本对应设置的多媒体卡片；
38.基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生
成虚拟形象应答视频。
39.在上述实现过程中，基于应答音频、多媒体卡片以及各动作标签，生成自然生动形象的虚拟形象视频，可以为用户传递丰富的信息。
40.一方面，提供一种用户交互的装置，包括：
41.分析单元，用于基于用户的交互信息，分析用户的情绪信息；
42.确定单元，用于根据交互信息以及情绪信息，确定虚拟形象的应答动作信息；
43.生成单元，用于基于应答动作信息，生成虚拟形象应答视频；
44.播放单元，用于播放虚拟形象应答视频，使得通过虚拟形象向用户进行应答。
45.一种实施方式中，分析单元还用于：
46.确定符合以下任一交互触发条件时，采集交互信息：
47.检测到用户的生物特征输入操作；检测到用户针对触摸屏的触控输入操作；以及，检测到用户的按键输入操作。
48.一种实施方式中，分析单元用于：
49.若确定交互信息中仅包含一种输入信息，则基于交互信息，确定用户的情绪向量，并将情绪向量，确定为情绪信息；
50.若确定交互信息中包含至少两种输入信息，则分别确定交互信息中每一输入信息的情绪向量，并将各情绪向量进行加权求和，获得情绪信息。
51.一种实施方式中，交互信息包括以下输入信息中的至少一个：生物特征信息、触控信息以及按键信息；确定单元用于：
52.若确定交互信息为生物特征信息，则对生物特征信息进行生物特征分析，获得情绪向量；
53.若确定交互信息为触控信息，则根据触控信息，确定用户的触控频率、触控压力以及触控面积，并根据触控频率、触控压力以及触控面积，确定情绪向量；
54.若确定交互信息为按键信息，则根据按键信息，确定用户的按键频率以及按键压力，并根据按键频率和按键压力，确定情绪向量。
55.一种实施方式中，生物特征信息包括以下特征信息中的至少一种：语音信息、人脸图像以及虹膜图像，确定单元用于：
56.若确定交互信息为语音信息，则将语音信息进行文本转换，获得语音文本，并提取语音文本中的关键词，以及根据关键词以及语音信息的音调，确定情绪向量；
57.若确定交互信息为人脸图像，则对人脸图像进行表情分析，根据表情分析结果，确定情绪向量；
58.若确定交互信息为虹膜图像，则采用图像匹配的方式，对虹膜图像进行情绪比对分析，确定情绪向量。
59.一种实施方式中，应答动作信息包括以下信息中的至少一种：用于指示虚拟形象的肢体动作的肢体动作标签、用于指示虚拟形象的面部表情动作的面部动作标签，以及用于指示虚拟形象的唇形动作的唇形动作标签，确定单元用于：
60.根据交互信息以及情绪信息，确定应答文本、肢体动作标签以及应答情绪标签；
61.获取针对应答文本设置的唇形动作标签；
62.获取针对应答情绪标签设置的面部动作标签。
63.一种实施方式中，生成单元用于：
64.基于应答文本，生成应答音频；
65.获取应答文本对应设置的多媒体卡片；
66.基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频。
67.一方面，提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上述任一种用户交互的各种可选实现方式中提供的方法的步骤。
68.一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述任一种用户交互的各种可选实现方式中提供的方法的步骤。
69.一方面，提供了一种计算机程序产品，计算机程序产品在计算机上运行时，使得计算机执行如上述任一种用户交互的各种可选实现方式中提供的方法的步骤。
70.本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
71.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
72.图1为本技术实施例提供的一种用户交互的方法的流程图；
73.图2为本技术实施例提供的一种用户语音交互的方法的流程图；
74.图3为本技术实施例提供的一种用户触控交互的方法的流程图；
75.图4为本技术实施例提供的一种用户交互的装置的结构框图；
76.图5为本技术实施方式中一种电子设备的结构示意图。
具体实施方式
77.下面将结合本技术实施例中附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
78.首先对本技术实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。
79.终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设
备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
80.服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
81.为了在通过虚拟形象与用户进行交互时，可以减少耗费的人力成本、时间成本以及资源成本，本技术实施例提供了用户交互的方法、装置、电子设备及计算机可读存储介质。
82.参阅图1所示，为本技术实施例提供的一种用户交互的方法的流程图，应用于电子设备，电子设备可以为服务器，也可以为终端设备，该方法的具体实施流程如下：
83.步骤101：基于用户的交互信息，分析用户的情绪信息。
84.作为一个示例，终端设备(如，音箱)采集用户的交互信息，并将用户的交互信息发送给电子设备(如，服务器)。
85.作为另一个示例，电子设备(如，音箱)采集用户的用户交互信息。
86.一种实施方式中，采集用户的用户交互信息时，可以采用以下步骤：
87.确定符合以下任一交互触发条件时，采集交互信息：
88.检测到用户的生物特征输入操作；检测到用户针对触摸屏的触控输入操作；以及，检测到用户的按键输入操作。
89.进一步的，交互触发条件还可以为：确定达到设定交互时间点(如，闹钟定时)，确定设定事件完成(如，文件下载完成)，或者，确定环境信息达到设定环境条件(如，今天天气为下雨，又如，温度达到高温阈值)。
90.实际应用中，交互触发条件可以根据实际应用场景进行设置，在此不作限制。
91.一种实施方式中，交互信息包括以下输入信息中的至少一个：生物特征信息、触控信息以及按键信息。
92.可选的，交互信息可以是通过传感器等装置(如，摄像装置)实时采集的。
93.实际应用中，交互信息可以根据实际应用场景进行设置，在此不作限制。
94.一种实施方式中，生物特征信息包括以下特征信息中的至少一种：语音信息、人脸图像以及虹膜图像。
95.进一步的，生物特征信息还可以为指静脉等其它特征信息，在此不作限制。
96.实际应用中，生物特征信息可以根据实际应用场景进行设置，在此不作限制。
97.作为一个示例，确定检测到用户的生物特征输入操作时，采集用户的生物特征信息。
98.例如，音箱设备检测用户的语音指令，小区门禁设备检测到用户的人脸图像，实验室门禁设备检测到用户的虹膜图像。
99.作为一个示例，确定检测到用户针对触摸屏的触控输入操作时，采集用户的触控信息。
100.作为另一个示例，确定检测到用户的按键输入操作时，采集用户的按键信息。
101.这样，就可以在确定符合交互触发条件时，采集用户的至少一个输入信息，获得交
互信息。
102.一种实施方式中，执行步骤101时，可以采用以下任一方式：
103.方式1：若确定交互信息中仅包含一种输入信息，则基于交互信息，确定用户的情绪向量，并将情绪向量，确定为情绪信息。
104.方式2：若确定交互信息中包含至少两种输入信息，则分别确定交互信息中每一输入信息的情绪向量，并将各情绪向量进行加权求和，获得情绪信息。
105.一种实施方式中，执行方式2中的将各情绪向量进行加权求和，获得情绪信息时，包括：将各情绪向量进行加权求和，并将获得的加权求和结果，作为情绪信息。
106.这样，就可以在同时获得多种输入信息时，对各输入信息对应的情绪进行综和，获得综合确定后的情绪。
107.需要说明的是，方式1与方式2中确定情绪向量的具体技术手段是相同的。
108.一种实施方式中，确定某一输入信息的情绪向量时，可以采用以下几种方式：
109.方式1：若确定交互信息为触控信息，则根据触控信息，确定用户的触控频率、触控压力以及触控面积，并根据触控频率、触控压力以及触控面积，确定情绪向量。
110.作为一个示例，触控信息为以关键词为内容的指令信息。如，用户点击电子设备中显示的数字人(即虚拟形象)，则电子设备获取该点击操作对应的触控信息，即触碰数字人。触控频率越快、触控压力越大以及触控面积越大，则确定用户越焦虑。
111.一种实施方式中，用户通过触控的方式与终端设备进行交互。终端设备根据触控信息，确定用户的触控频率、触控压力以及触控面积，并将触控频率、触控压力以及触控面积发送给电子设备。电子设备根据触控频率、触控压力以及触控面积，确定情绪向量。
112.作为一个示例，用户通过触控的方式与电子设备。
113.实际应用中，可以根据触控频率、触控压力以及触控面积中的至少一个，确定情绪向量。
114.方式2：若确定交互信息为按键信息，则根据按键信息，确定用户的按键频率以及按键压力，并根据按键频率和按键压力，确定情绪向量。
115.例如，用户的按键频率有一定的节奏以及按键压力较为平缓，则确定用户较为平和。
116.方式3：若确定交互信息为生物特征信息，则对生物特征信息进行生物特征分析，获得情绪向量。
117.一种实施方式中，执行对生物特征信息进行生物特征分析，获得情绪向量时，可以包括以下几种方式：
118.方式1：若确定交互信息为语音信息，则将语音信息进行文本转换，获得语音文本，并提取语音文本中的关键词，以及根据关键词以及语音信息的音调，确定情绪向量。
119.进一步地，还可以由终端设备将语音信息进行文本转换，获得语音文本，并将语音信息和语音文本发送给电子设备。电子设备提取语音文本中的关键词，以及根据关键词以及语音信息的音调，确定情绪向量。
120.作为一个示例，用户通过语音与终端设备进行交互。终端设备采用自动语音识别(automatic speech recognition，asr)模型对用户的语音流(即语音信息)进行文本转换，获得语音文本，如，你真棒！并将语音流和语音文本发送给电子设备。电子设备对语音流和
语音文本进行情绪分析，获得情绪向量(如，表征开心的情绪向量)。
121.方式2：若确定交互信息为人脸图像，则对人脸图像进行表情分析，根据表情分析结果，确定情绪向量。
122.一种实施方式中，将人脸图像输入表情分析模型，获得情绪向量。
123.例如，可以根据人脸图像中嘴唇的弧度，确定用户是微笑还是愤怒。
124.方式3：若确定交互信息为虹膜图像，则采用图像匹配的方式，对虹膜图像进行情绪比对分析，确定情绪向量。
125.一种实施方式中，将该虹膜图像与图像库中的各图像样本分别进行表情匹配，获得匹配图像对应设置的情绪向量。
126.步骤102：根据交互信息以及情绪信息，确定虚拟形象的应答动作信息。
127.具体的，应答动作信息包括以下信息中的至少一种：用于指示虚拟形象的肢体动作的肢体动作标签、用于指示虚拟形象的面部表情动作的面部动作标签，以及用于指示虚拟形象的唇形动作的唇形动作标签，一种实施方式中，提取交互信息中的关键词，并获取关键词以及兴趣信息匹配的应答动作信息。
128.一种实施方式中，采用机械智能(artificial intelligence，ai)算法确定交互信息以及情绪信息匹配的应答文本、肢体动作标签以及应答情绪标签，并获取针对应答文本设置的唇形动作标签，以及针对应答情绪标签设置的面部动作标签。
129.例如，根据语音文本(如，你真棒！)以及情绪信息，确定应答文本为：能得到你的夸奖我，真是太开心了，唇形动作标签为大笑，肢体动作标签为：拍手，应答情绪标签为：大笑。面部动作标签为：大笑。
130.步骤103：基于应答动作信息，生成虚拟形象应答视频。
131.具体的，基于应答文本，生成应答音频，并基于应答音频、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频。
132.一种实施方式中，基于应答文本，生成应答音频；获取应答文本对应设置的多媒体卡片；基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频。
133.一种实施方式中，执行步骤103时，可以采用以下步骤：
134.s1031：基于应答文本，生成应答音频，并基于唇形动作标签，获得唇形动作图像序列。
135.作为一个示例，唇形动作图像序列，是按照时间排序的多个唇形动作图像。
136.s1032：基于肢体动作标签，获得肢体动作图像序列。
137.s1033：基于面部动作标签，获得面部动作图像序列。
138.作为一个示例，从动作库中，分别获取唇形动作标签匹配的唇形动作图像序列，肢体动作标签匹配的肢体动作图像序列以及面部动作标签匹配的面部动作图像序列。
139.这样，就可以在后续步骤中通过唇形动作图像序列驱动虚拟形象执行应答音频播放时匹配的唇形动作，通过肢体动作图像序列驱动虚拟形象执行肢体动作，以及通过面部动作图像序列驱动虚拟形象执行面部表情动作。
140.s1034：基于应答音频、唇形动作图像序列、肢体动作图像序列以及面部动作图像序列，生成虚拟形象应答视频。
141.作为一个示例，电子设备获取的交触控信息为：触碰数字人，匹配的应答文本为：嗨，肢体动作标签为：打招呼，面部动作标签为：微笑，以及唇形动作标签为：打招呼。
142.这样，就可以通过各图像序列以及应答音频，生成虚拟形象应答视频，从而在向用户回复时，虚拟形象可以在语音播报的同时具有生动且自然的肢体动作以及面部表情。
143.进一步的，还可以基于应答文本，获取多媒体卡片，并将多媒体卡片以及虚拟形象应答视频进行融合，获得融合后的虚拟形象应答视频。
144.作为一个示例，多媒体卡片可以为图文卡片或者视频卡片等。
145.这样，可以将多媒体卡片以及虚拟形象应答视频进行融合，丰富了视觉呈现效果，可以向用户高效地传递更多的信息，提高了用户体验。
146.实际应用中，也可以采用其它方式，基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频，如，基于应答音频、多媒体卡片、肢体动作标签对应设置的动作库、面部动作标签对应设置的动作库以及唇形动作标签对应的动作库，生成虚拟形象应答视频，在此不作限制。
147.步骤104：播放虚拟形象应答视频，使得通过虚拟形象向用户进行应答。
148.一种实施方式中，电子设备播放虚拟形象应答视频。
149.进一步地，电子设备还可以在接收终端设备的交互信息后，向终端设备返回虚拟形象应答视频，并通过终端设备播放虚拟形象应答视频。
150.参阅图2所示，为本技术实施例提供的一种用户语音交互的方法的流程图，结合图2对图1中用户交互的方法进行示例说明。该方法的具体实施流程如下：
151.步骤200：终端设备检测到用户的语音信息输入操作时，获取用户的语音信息。
152.步骤201：终端设备将语音信息进行文本转换，获得语音文本。
153.步骤202：终端设备将语音信息和语音文本发送给电子设备。
154.步骤203：电子设备提取语音文本中的关键词，以及根据关键词以及语音信息的音调，确定情绪向信息。
155.步骤204：电子设备根据语音信息以及情绪信息，确定应答文本、虚拟形象的肢体动作标签、面部动作标签，以及唇形动作标签。
156.步骤205：电子设备基于应答文本，生成应答音频，并获取应答文本对应设置的多媒体卡片。
157.步骤206：电子设备基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频。
158.步骤207：终端设备接收并播放电子设备发送的虚拟形象视频。
159.参阅图3所示，为本技术实施例提供的一种用户触控交互的方法的流程图，结合图3对图1中用户交互的方法进行示例说明。该方法的具体实施流程如下：
160.步骤300：终端设备检测到用户的触控输入操作时，获取用户的触控信息。
161.步骤301：终端设备根据触控信息，确定用户的触控频率、触控压力以及触控面积。
162.步骤302：终端设备将根据触控信息，确定用户的触控频率、触控压力以及触控面积发送给电子设备。
163.步骤303：电子设备据触控频率、触控压力以及触控面积，确定情绪信息。
164.步骤304：电子设备根据触控信息以及情绪信息，确定应答文本、虚拟形象的肢体
动作标签、面部动作标签，以及唇形动作标签。
165.步骤305：电子设备基于应答文本，生成应答音频，并获取应答文本对应设置的多媒体卡片。
166.步骤306：电子设备基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频。
167.步骤307：终端设备接收并播放电子设备发送的虚拟形象视频。
168.本技术实施例中，通过对用户交互信息进行情绪分析，以根据用户的交互信息以及情绪信息进行应答，提高了虚拟形象应答的准确度，以及基于用户的交互信息以及情绪信息，生成虚拟形象应答视频，使得虚拟形象更加生动形象且自然，且保证了实时虚拟形象应答，且减少了耗费的人力成本、时间成本以及资源成本。
169.基于同一发明构思，本技术实施例中还提供了一种用户交互的装置，由于上述装置及设备解决问题的原理与一种用户交互的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。
170.如图4所示，其为本技术实施例提供的一种用户交互的装置的结构示意图，包括：
171.分析单元401，用于基于用户的交互信息，分析用户的情绪信息；
172.确定单元402，用于根据交互信息以及情绪信息，确定虚拟形象的应答动作信息；
173.生成单元403，用于基于应答动作信息，生成虚拟形象应答视频；
174.播放单元404，用于播放虚拟形象应答视频，使得通过虚拟形象向用户进行应答。
175.一种实施方式中，分析单元401还用于：
176.确定符合以下任一交互触发条件时，采集交互信息：
177.检测到用户的生物特征输入操作；检测到用户针对触摸屏的触控输入操作；以及，检测到用户的按键输入操作。
178.一种实施方式中，分析单元401用于：
179.若确定交互信息中仅包含一种输入信息，则基于交互信息，确定用户的情绪向量，并将情绪向量，确定为情绪信息；
180.若确定交互信息中包含至少两种输入信息，则分别确定交互信息中每一输入信息的情绪向量，并将各情绪向量进行加权求和，获得情绪信息。
181.一种实施方式中，交互信息包括以下输入信息中的至少一个：生物特征信息、触控信息以及按键信息；确定单元402用于：
182.若确定交互信息为生物特征信息，则对生物特征信息进行生物特征分析，获得情绪向量；
183.若确定交互信息为触控信息，则根据触控信息，确定用户的触控频率、触控压力以及触控面积，并根据触控频率、触控压力以及触控面积，确定情绪向量；
184.若确定交互信息为按键信息，则根据按键信息，确定用户的按键频率以及按键压力，并根据按键频率和按键压力，确定情绪向量。
185.一种实施方式中，生物特征信息包括以下特征信息中的至少一种：语音信息、人脸图像以及虹膜图像，确定单元402用于：
186.若确定交互信息为语音信息，则将语音信息进行文本转换，获得语音文本，并提取语音文本中的关键词，以及根据关键词以及语音信息的音调，确定情绪向量；
187.若确定交互信息为人脸图像，则对人脸图像进行表情分析，根据表情分析结果，确定情绪向量；
188.若确定交互信息为虹膜图像，则采用图像匹配的方式，对虹膜图像进行情绪比对分析，确定情绪向量。
189.一种实施方式中，应答动作信息包括以下信息中的至少一种：用于指示虚拟形象的肢体动作的肢体动作标签、用于指示虚拟形象的面部表情动作的面部动作标签，以及用于指示虚拟形象的唇形动作的唇形动作标签，确定单元402用于：
190.根据交互信息以及情绪信息，确定应答文本、肢体动作标签以及应答情绪标签；
191.获取针对应答文本设置的唇形动作标签；
192.获取针对应答情绪标签设置的面部动作标签。
193.一种实施方式中，生成单元403用于：
194.基于应答文本，生成应答音频；
195.获取应答文本对应设置的多媒体卡片；
196.基于应答音频、多媒体卡片、肢体动作标签、面部动作标签以及唇形动作标签，生成虚拟形象应答视频。
197.本技术实施例提供的用户交互的方法、装置、电子设备及计算机可读存储介质中，基于用户的交互信息，分析用户的情绪信息；根据交互信息以及情绪信息，确定虚拟形象的应答动作信息；基于应答动作信息，生成虚拟形象应答视频；播放虚拟形象应答视频，使得通过虚拟形象向用户进行应答。这样，通过对用户交互信息进行情绪分析，以根据用户的交互信息以及情绪信息进行应答，提高了虚拟形象应答的准确度，以及基于用户的交互信息以及情绪信息，生成虚拟形象应答视频，使得虚拟形象更加生动形象且自然，且保证了实时虚拟形象应答，且减少了耗费的人力成本、时间成本以及资源成本。
198.图5示出了一种电子设备5000的结构示意图。参阅图5所示，电子设备5000包括：处理器5010以及存储器5020，可选的，还可以包括电源5030、显示单元5040、输入单元5050。
199.处理器5010是电子设备5000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器5020内的软件程序和/或数据，执行电子设备5000的各种功能，从而对电子设备5000进行整体监控。
200.本技术实施例中，处理器5010调用存储器5020中存储的计算机程序时执行上述实施例中的各个步骤。
201.可选的，处理器5010可包括一个或多个处理单元；优选的，处理器5010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器5010中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
202.存储器5020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据电子设备5000的使用所创建的数据等。此外，存储器5020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
203.电子设备5000还包括给各个部件供电的电源5030(比如电池)，电源可以通过电源
管理系统与处理器5010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
204.显示单元5040可用于显示由用户输入的信息或提供给用户的信息以及电子设备5000的各种菜单等，本发明实施例中主要用于显示电子设备5000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元5040可以包括显示面板5041。显示面板5041可以采用液晶显示屏(liquid crystal display，lcd)、有机发光二极管(organic light-emitting diode，oled)等形式来配置。
205.输入单元5050可用于接收用户输入的数字或字符等信息。输入单元5050可包括触控面板5051以及其他输入设备5052。其中，触控面板5051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板5051上或在触控面板5051附近的操作)。
206.具体的，触控面板5051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器5010，并接收处理器5010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5051。其他输入设备5052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
207.当然，触控面板5051可覆盖显示面板5041，当触控面板5051检测到在其上或附近的触摸操作后，传送给处理器5010以确定触摸事件的类型，随后处理器5010根据触摸事件的类型在显示面板5041上提供相应的视觉输出。虽然在图5中，触控面板5051与显示面板5041是作为两个独立的部件来实现电子设备5000的输入和输出功能，但是在某些实施例中，可以将触控面板5051与显示面板5041集成而实现电子设备5000的输入和输出功能。
208.电子设备5000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述电子设备5000还可以包括摄像头等其它部件，由于这些部件不是本技术实施例中重点使用的部件，因此，在图5中没有示出，且不再详述。
209.本领域技术人员可以理解，图5仅仅是电子设备的举例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。
210.本技术实施例中，一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得通信设备可以执行上述实施例中的各个步骤。
211.为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本技术时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
212.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
213.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序
指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
214.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
215.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
216.尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
217.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

用户交互的方法、装置、电子设备及计算机可读存储介质与流程

相关文献

最热文献