虚拟形象语音交互方法、装置、投影设备和计算机介质与流程

2021-09-25 03:37:00 来源：中国专利 TAG：计算机介质交互语音装置

1.本公开涉及计算机技术领域，具体涉及一种虚拟形象语音交互方法、装置、投影设备和计算机介质。

背景技术：

2.近年来，随着计算机语音合成与视频合成技术的不断进步，业界研发出了多种虚拟形象合成技术。虚拟形象可以执行新闻播报、天气预报、解说游戏、提供订餐服务等任务。
3.虚拟形象可视化语音交互成为人们关注的热点。可视化语音交互是通过虚拟形象播放应答语音的一种人机交互方式。目前，可视化语音交互虽然可以将普通用户与计算机，通过自然语言识别，理解，合成紧密的结合在一起。但是，当虚拟形象模拟真实人进行语音交互时，多数仅合成与输出语音相匹配的口型，虚拟形象始终保持中性表情，或者预先设置几种基本表情，使得人机交互的真实感降低。

技术实现要素：

4.本公开提供一种虚拟形象语音交互方法、装置、投影设备和计算机介质，旨在解决现有的投影设备在虚拟形象语音交互过程中人机交互的真实感差的技术问题。
5.一方面，本公开提供一种虚拟形象语音交互方法，所述虚拟形象语音交互方法应用于投影设备，所述虚拟形象语音交互方法包括：
6.通过麦克风装置拾取用户语音信息；
7.解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；
8.获取与所述用户语音信息对应的虚拟形象；
9.将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
10.可选地，所述解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息，包括：
11.将所述用户语音信息输入预设语音识别模型，获得语音文本信息；
12.对所述语音文本信息进行识别，获取对答文本信息；
13.提取所述用户语音信息中的声纹特征信息，按照所述声纹特征信息对所述对答文本信息进行语音转化，获得对答语音信息。
14.可选地，所述将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互，包括：
15.依次提取所述对答语音信息中各对答语音音素，查询预设音素与唇形映射关系，获得各所述对答语音音素匹配的目标唇形；
16.按照所述目标唇形调整所述虚拟形象的口型，将所述对答语音信息和调整后的所述虚拟形象同步通过投影设备输出，以进行虚拟形象语音交互。
17.可选地，所述获取与所述用户语音信息对应的虚拟形象，包括：
18.将所述用户语音信息输入至预设语音识别模型，获得声纹特征信息；
19.查询预设数据库，获取与所述声纹特征信息对应的虚拟形象。
20.可选地，所述查询预设数据库，获取与所述声纹特征信息对应的虚拟形象之前，所述方法包括：
21.接收账号注册请求，获取用户输入的账号标识，并采集所述账号标识对应的用户语音信息和用户图像信息；
22.解析所述用户图像信息，获得人脸特征信息和身材比例信息；
23.将所述人脸特征信息和身材比例信息输入至预设三维图像模型，获得三维动画信息；
24.将所述三维动画信息进行渲染，生成虚拟形象；
25.提取所述用户语音信息的声纹特征信息，将所述账号标识、所述声纹特征信息、所述人脸特征信息和所述虚拟形象，关联保存至预设数据库。
26.可选地，所述将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互，包括：
27.根据至少两个所述麦克风装置的位置和各所述麦克风装置采集所述用户语音信息的采集时间，得到所述用户语音信息的声源位置
28.将所述虚拟形象调整朝向所述声源位置，并渲染调整后的虚拟形象；
29.将所述对答语音信息和所述调整后的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
30.可选地，所述将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互，包括：
31.根据所述麦克风装置的位置确定声源位置；
32.通过摄像装置采集所述声源位置对应位置处目标用户的用户图像信息；
33.将所述用户图像信息输入至预设人脸识别模型，获得人脸特征信息；
34.根据所述人脸特征信息更新所述虚拟形象，将所述对答语音信息和更新的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
35.另一方面，本公开还提供一种虚拟形象语音交互装置，所述虚拟形象语音交互装置包括：
36.信息采集模块，用于通过麦克风装置拾取用户语音信息；
37.信息调整模块，用于解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；
38.形象获取模块，用于获取与所述用户语音信息对应的虚拟形象；
39.融合输出模块，用于将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
40.另一方面，本公开还提供一种投影设备，所述投影设备中设置：
41.一个或多个处理器；
42.存储器；以及
43.一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并
配置为由所述处理器执行以实现所述的虚拟形象语音交互方法。
44.另一方面，本公开还提供一种计算机介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的虚拟形象语音交互方法中的步骤。
45.本公开提供的虚拟形象语音交互方法包括：通过麦克风装置拾取用户语音信息；解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；获取与所述用户语音信息对应的虚拟形象，将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互；本公开实例中根据用户语音信息生成对答语音信息，将虚拟形象与对答语音信息融合，使得语音和虚拟形象的表情匹配，增强人机交互的真实感强，提升用户体验。
附图说明
46.为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
47.图1是本公开实施例提供的虚拟形象语音交互方法的场景示意图；
48.图2为本公开实施例中虚拟形象语音交互方法的一个实施例流程示意图；
49.图3为本公开实施例中虚拟形象语音交互方法中投影设备查询预设数据库进行语音交互的一个实施例流程示意图；
50.图4是本公开实施例中提供的虚拟形象语音交互方法中预设数据库中虚拟形象更新的一个实施例的流程示意图；
51.图5是本公开实施例中提供的虚拟形象语音交互方法中投影设备和不同的虚拟形象进行语音交互的一个实施例的流程示意图；
52.图6是本公开实施例中提供的虚拟形象语音交互方法中用户注册和虚拟形象生成的一个实施例的流程示意图；
53.图7是本公开实施例中提供的虚拟形象语音交互方法中虚拟形象生成的一个实施例的具体场景示意图；
54.图8是本公开实施例中提供的虚拟形象语音交互方法中投影设备进行声音寻址以实现目标用户语音交互的一个实施例的流程示意图；
55.图9是本公开实施例中提供的虚拟形象语音交互方法中投影设备实现声音寻址和虚拟形象更新结合的一个实施例的流程示意图；
56.图10是本公开实施例中提供的虚拟形象语音交互装置的一个实施例结构示意图；
57.图11是本公开实施例中提供的投影设备的一个实施例结构示意图。
具体实施方式
58.下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开包含的范围。
59.在本公开的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本公开和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本公开的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
60.在本公开中，“示例性”一词用来表示“用作例子、例证或说明”。本公开中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本公开，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本公开。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本公开的描述变得晦涩。因此，本公开并非旨在限于所示的实施例，而是与符合本公开所公开的原理和特征的最广范围相一致。
61.本公开实施例提供一种虚拟形象语音交互方法、装置、投影设备及计算机介质，以下分别进行详细说明。
62.本公开实施例中的虚拟形象语音交互方法应用于虚拟形象语音交互装置，虚拟形象语音交互装置设置于投影设备，投影设备中设置有一个或多个处理器、存储器，以及一个或多个应用程序，其中一个或多个应用程序被存储于存储器中，并配置为由处理器执行以实现虚拟形象语音交互方法；投影设备可以是终端，例如，手机或平板电脑。
63.如图1所示，图1为本公开实施例虚拟形象语音交互方法的场景示意图，本公开实施例中虚拟形象语音交互场景中包括投影设备100(投影设备100中集成有虚拟形象语音交互装置)，投影设备100中运行虚拟形象语音交互对应的计算机介质，以执行虚拟形象语音交互的步骤。
64.可以理解的是，图1所示虚拟形象语音交互方法的场景中的投影设备，或者投影设备中包含的装置并不构成对本公开实施例的限制，即，虚拟形象语音交互方法的场景中包含的设备数量、投影设备种类，或者各个设备中包含的装置数量、装置种类不影响本公开实施例中技术方案整体实现，均可以算作本公开实施例要求保护技术方案的等效替换或衍生。
65.本公开实施例中投影设备100主要用于：通过麦克风装置拾取用户语音信息，通过预设摄像装置采集用户图像信息；解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；根据所述用户图像信息生成虚拟形象，将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
66.本公开实施例中该投影设备100可以是独立的投影设备，也可以是投影设备组成的投影设备网络或投影设备集群，例如，本公开实施例中所描述的投影设备100，其包括但不限于计算机、网络主机、单个网络投影设备、多个网络投影设备集或多个投影设备构成的云投影设备。其中，云投影设备由基于云计算(cloudcomputing)的大量计算机或网络投影
设备构成。
67.本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本公开方案一种应用场景，并不构成对本公开方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的投影设备，或者投影设备网络连接关系，例如图1中仅示出1个投影设备，可以理解的，该虚拟形象语音交互方法的场景还可以包括一个或多个其他投影设备，具体此处不作限定；该投影设备100中还可以包括存储器，用于存储数据。
68.此外，本公开虚拟形象语音交互方法的场景中投影设备100可以设置显示装置，或者投影设备100中不设置显示装置与外接的显示装置200通讯连接，显示装置200用于输出投影设备中虚拟形象语音交互方法执行的结果。例如，显示装置200可以是显示器，或者是投影幕布，投影设备100可以访问后台数据库300，后台数据库300可以是投影设备的本地存储器中，后台数据库还可以设置在云端，后台数据库300中保存有虚拟形象语音交互相关的信息。
69.需要说明的是，图1所示的虚拟形象语音交互方法的场景示意图仅仅是一个示例，本公开实施例描述的虚拟形象语音交互方法的场景是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定。
70.基于上述虚拟形象语音交互方法的场景，提出了虚拟形象语音交互方法的实施例。
71.如图2所示，图2为本公开实施例中虚拟形象语音交互方法的一个实施例流程示意图。
72.本实施例中虚拟形象语音交互方法步骤包括201～204：
73.201，通过麦克风装置拾取用户语音信息。
74.本实施例中虚拟形象语音交互方法应用于投影设备，又叫投影仪或者投影机，是一种可以将图像或视频投射到幕布上的设备，可以通过不同的接口同计算机、vcd(英文全称：video compact disc，中文全称：影音光碟)、dvd(英文全称：digital video disc，中文全称：高密度数字视频光盘)、游戏机等相连接播放相应的视频信号，投影仪广泛应用于家庭、办公室、学校和娱乐场所，根据工作方式不同，有不同类型。
75.投影设备接收语音交互指令，其中，语音交互指令的触发方式不作具体限定，即，语音交互指令可以是用户主动触发的，例如，用户语音说:xx,在吗，触发语音交互指令；此外语音交互指令还可以是投影设备自动触发的，例如，投影设备中预先设置在检测到人形图像信息或者用户语音信息时，自动触发语音交互指令。
76.投影设备接收语音交互指令之后，投影设备通过麦克风装置拾取用户语音信息，麦克风可以设置在投影仪中，也可以是一个单独的设备和投影仪连接通信；此外，投影设备可以通过摄像装置采集用户图像信息，摄像装置可以设在投影设备中，还可以是与投影设备通信连接，摄像装置可以是红外摄像头，普通摄像头，或者其他的传感检测装置，预设摄像装置可以采集用户图像信息，或者预设摄像装置采集的是用户视频信息，投影设备对用户视频信息进行分帧处理，获得用户图像信息。
77.本实施例中投影设备通过麦克风装置拾取用户语音信息，通过预设摄像装置采集用户图像信息，以根据用户图像信息生成虚拟形象并进行语音交互。
78.202，解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特
征信息将所述对答文本信息进行语音转化，生成对答语音信息。
79.投影设备解析用户语音信息，得到用户语音信息的文本类型，投影设备根据文本类型确定用户语音信息是否为投影设备操作指令；若用户语音信息是投影设备操作指令，则响应操作指令；若用户语音信息不是投影设备操作指令，投影设备获取用户语音信息对应的语义，投影设备根据用户语音信息对应的语义，确定对答文本信息，例如，用户语音信息为：今天天气好吗？对答文本为：今天天气晴朗，气温25℃；投影设备提取用户语音信息的声纹特征信息，声纹特征信息是指声音的音调、音色等特征信息，声纹特征信息可以根据用户语音信息的频谱或者相位谱确定，投影设备获得用户语音信息对应的声纹特征信息之后，投影设备按照用户语音信息的声纹特征信息将对答文本信息进行语音转化，生成对答语音信息；具体地，包括：
80.(1)、将所述用户语音信息输入预设语音识别模型，获得语音文本信息；
81.(2)、对所述语音文本信息进行识别，获取对答文本信息；
82.(3)、提取所述用户语音信息中的声纹特征信息，按照所述声纹特征信息对所述对答文本信息进行语音转化，获得对答语音信息。
83.即，投影设备中预设语音识别模型，预设语音识别模型是指预先设置的语音识别的算法，投影设备将用户语音信息输入预设语音识别模型，预设语音识别模型先将用户语音信息进行窗口划分，投影设备中的预设语音识别模型根据窗口划分波形进行语音识别，获得用户语音信息对应的语音文本信息。
84.投影设备通过预先训练的神经网络模型对语音文本信息进行识别，获取语音文本信息对答文本信息，或者投影设备查询预设的问答映射关系，获得语音文本信息对应的对答文本信息；投影设备提取用户语音信息中的声纹特征信息，按照声纹特征信息对对答文本信息进行语音转化，获得对答语音信息。
85.203，获取与所述用户语音信息对应的虚拟形象。
86.投影设备获取用户语音信息对应的虚拟形象，即，本实施例中预先构建虚拟形象，虚拟形象是根据用户图像信息生成的，虚拟形象可以是二维虚拟形象还可以是三维虚拟形象，例如，二维虚拟形象为用户的二维动画，三维虚拟形象是三维动画，本实施例中投影设备根据用户图像信息生成虚拟形象，例如，投影设备根据用户图像信息和三维人脸基础模型，构建用户图像信息对应目标用户的初始三维人脸模型；投影设备根据用户图像信息，确定人脸属性信息；其中，人脸属性信息包括年龄、性别、头部朝向、情绪、颜值、视线、皮肤状态等属性，投影设备基于人脸属性信息对初始三维人脸模型进行调整，以使调整后的目标三维人脸模型包含与人脸属性信息匹配的信息，调整后的三维人脸模型作为目标用户的人脸形象，进一步地，投影设备在人脸形象上增加身体对应的动画，获得三维虚拟形象,使得虚拟形象更加生动。
87.为了方便理解，本实施给出了两种虚拟形象生成的具体实现方式，包括：
88.实现方式一：
89.(1)、解析所述用户图像信息，获得人脸特征信息和身材比例信息；
90.(2)、将所述人脸特征信息和身材比例信息输入至预设形象生成模型，获得虚拟形象；
91.(3)、依次提取所述对答语音信息中各对答语音音素，查询预设音素与唇形映射关
系，获得各所述对答语音音素匹配的目标唇形；
92.(4)、按照所述目标唇形调整所述虚拟形象的口型和表情，将所述对答语音信息和调整后的所述虚拟形象同步通过投影设备输出，以进行虚拟形象语音交互。
93.即，投影设备中预设图像分析模型，预设图像分析模型是指预先训练的图像特征提取的神经网络，投影设备将用户图像信息输入至预设图像分析模型，通过预设图像分析模型对用户图像信息进行处理，解析用户图像信息，获得人脸特征信息和身材比例信息；人脸特征信息是指人脸的肤色、轮廓、眼间距、五官位置信息等等，身材比例信息是指头身比和身高和腿长比等等。即，投影设备统计用户图像信息中的人脸区域中各个像素点的像素值，投影设备根据像素点的像素值确定人脸的肤色，投影设备标记用户图像信息中人脸区域的特征点，投影设备获取各个特征点的坐标，投影设备按照各个特征点的位置，获取轮廓、眼间距、五官位置信息等等，投影设备分析多帧用户图像信息，投影设备选取多帧用户图像信息中的参考对象，投影设备根据参考对象，确定用户的身高，进一步地确定身材比例信息。
94.投影设备中预设形象生成模型，预设形象生成模型是指预先构建的虚拟形象生成算法，投影设备将人脸特征信息和身材比例信息输入至预设形象生成模型，获得虚拟形象。
95.实现方式二：
96.(1)、将所述用户图像信息输入至预设三维图像模型，获得三维动画信息；
97.(2)、将所述三维动画信息进行渲染，生成虚拟形象，将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
98.投影设备预设三维图像模型，预设三维图像模型是指预先设置的三维转化模型，例如，预设三维图像模型为3dmm(英文全称：3dmorphablemodels，中文全称：三维图像模型)，投影设备将用户图像信息输入至预设三维图像模型，获得三维动画信息，即，投影设备通过预设三维图像模型将基本的几何体(立方体、圆柱体或者球形)按照用于图像信息进行拉伸，截面、旋转合成初始虚拟形象模型，投影设备将根据人物骨骼运动关系，确定初始虚拟形象中的各个控制点，然后设置控制点与初始虚拟形象中肌肉和骨骼直接进行绑定，投影设备采集多帧用户图像信息，确定真人动作信息，投影设备将绑定后的初始虚拟形象按照真人动作进行展示，形成三维动画信息，然后投影设备将三维动画信息进行渲染，生成虚拟形象。
99.204，将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
100.投影设备将对答语音信息和虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互，即，投影设备按照对答语音信息调整虚拟形象的口型，投影设备获取对答语音信息中各个音素或者音节的时间，投影设备按照时间调整虚拟形象的口型，使得对答语音信息和虚拟形象同步，实现对答语音信息和虚拟形象融合，使得虚拟形象语音交互更具有真实感。
101.具体地，本实施例中投影设备生成虚拟形象，对答语音信息和虚拟形象融合，实现虚拟形象语音交互的具体方式不作限定，投影设备依次提取对答语音信息中各对答语音音素，查询预设音素与唇形映射关系，其中，预设音素与唇形映射关系是指按照正常发言标准各个音素对应的口型，获得各对答语音音素匹配的目标唇形；投影设备按照目标唇形调整
虚拟形象的口型，将所述对答语音信息和调整后的虚拟形象同步通过投影设备输出，以进行虚拟形象语音交互,将虚拟形象与对答语音信息融合，使得语音和虚拟形象的表情匹配，增强人机交互的真实感强。
102.可以理解的是，本实施例中给出了获取预设的虚拟形象，此外，本领域技术人员可以将本公开的技术方案的执行步骤进行调整，根据采集到的用户语音信息和用户图像信息实时生成虚拟图像并进行语音交互，这样生成的虚拟形象可以跟随用户图像信息变化，生成的虚拟形象真实，根据用户语音信息生成对答语音信息，将虚拟形象与对答语音信息融合，使得语音和虚拟形象的表情匹配，增强人机交互的真实感强。
103.如图3所示，图3为本公开实施例中虚拟形象语音交互方法中投影设备查询预设数据库进行语音交互的一个实施例流程示意图。
104.在本公开一些实施例中，虚拟形象语音交互方法包括如下步骤301～304：
105.301，将所述用户语音信息输入至预设语音识别模型，获得声纹特征信息，和/或将所述用户图像信息输入至预设人脸识别模型，获得人脸特征信息。
106.投影设备中预设语音识别模型，预设语音识别模型是指预先设置的语音识别算法，投影设备中预设人脸识别模型，预设人脸识别模型是指预先设置的人脸识别算法；投影设备将用户语音信息输入至预设语音识别模型，获得声纹特征信息；投影设备将用户图像信息输入至预设人脸识别模型，获得人脸特征信息；或者投影设备同时获得声纹特征信息和人脸特征信息。
107.302，查询预设数据库，获取所述声纹特征信息和/或所述人脸特征信息对应的虚拟形象；
108.投影设备在获取到声纹特征信息和/或人脸特征信息之后，投影设备查询预设数据库，获取声纹特征信息和/或人脸特征信息对应的虚拟形象。
109.具体地，本实施例中步骤302之前，投影设备中预先构建预设数据库，预设数据库中保存有用户的虚拟形象，这样采集到用户语音信息之后，投影设备可以直接利用生成的虚拟形象进行语音交互，本实施例中预设数据库构建的步骤包括：
110.(1)、通过麦克风装置拾取用户语音信息，通过预设语音识别模型识别所述用户语音信息，获得声纹特征信息；
111.(2)、通过预设摄像装置采集用户图像信息，通过预设人脸识别模型识别所述用户图像信息，获得人脸特征信息；
112.(3)、根据所述用户图像信息构建虚拟形象，将所述声纹特征信息、所述人脸特征信息和所述虚拟形象关联保存至预设数据库。
113.即，在投影设备使用时，先进行账户注册，账户注册成功之后，投影设备通过麦克风装置拾取用户语音信息，通过预设语音识别模型识别用户语音信息，获得声纹特征信息；投影设备通过预设摄像装置采集用户图像信息，通过预设人脸识别模型识别所述用户图像信息，获得人脸特征信息；投影设备根据用户图像信息构建虚拟形象。
114.本实施例中投影设备预先构建预设数据库，预设数据库中保存多个用户对应账号的虚拟形象；例如，投影设备为家庭影院投影仪，投影设备在使用时爸爸进行登录注册形成的虚拟形象a，妈妈进行登录注册形成的虚拟形象b，子女进行登录注册形成的虚拟形象c；投影设备将各个用户的虚拟形象保存至预设数据库，这样语音交互的时候不需要实时地生
成虚拟形象。
115.303，解析所述用户语音信息确定对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；
116.304，将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
117.投影设备解析用户语音信息确定对答文本信息，投影设备按照用户语音信息的声纹特征信息将对答文本信息进行语音转化，生成对答语音信息；然后，投影设备将对答语音信息和虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
118.本实施例中预先构建预设数据库，根据预设数据库中的虚拟形象进行对答语音信息融合，不需要实时地进行虚拟形象生成，减少了对投影设备的硬件要求，这样语音交互的效率更高。
119.由于虚拟形象为预先保存至预设数据库中的，一段时间之后，虚拟形象可能会和实际形象产生较大的差异，这样人机交互的真实感有所降低，基于这个问题，本实施例中可以实时地更新预设数据库中的虚拟形象，具体地：
120.参照图4，图4是本公开实施例中提供的虚拟形象语音交互方法中预设数据库中虚拟形象更新的一个实施例的流程示意图。
121.在本公开一些实施例中，具体说明了投影设备将用户图像信息和预设数据库中虚拟形象进行比对，更新虚拟形象的一实施例场景，具体地包括步骤401～404：
122.401，将所述虚拟形象与所述用户图像信息进行比对；
123.投影设备查询预设数据库，获取声纹特征信息和/或所述人脸特征信息对应的虚拟形象；投影设备解析用户语音信息确定对答文本信息，按照用户语音信息的声纹特征信息将对答文本信息进行语音转化，生成对答语音信息之后，投影设备将虚拟形象与用户图像信息进行比对，以判断虚拟形象与用户图像信息是否匹配，其中，虚拟形象与用户图像信息匹配可以根据具体场景设置，例如，虚拟形象的特征数据和用户图像信息的特征数据相似度高于80％，则判定虚拟形象与用户图像信息匹配；若虚拟形象的特征数据和用户图像信息的特征数据相似度不高于80％，则判定虚拟形象与用户图像信息不匹配。
124.若虚拟形象与所述用户图像信息匹配，则投影设备将对答语音信息和虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
125.402，若所述虚拟形象与所述用户图像信息不匹配，则根据所述用户图像信息生成新的虚拟形象。
126.若虚拟形象与用户图像信息不匹配，投影设备则根据用户图像信息生成新的虚拟形象，其中，生成新的虚拟形象可以是直接通过虚拟形象生成的模型实现，投影设备还可以对虚拟形象进行更新。
127.403，将新的所述虚拟形象与所述声纹特征信息和所述人脸特征信息关联保存至预设数据库。
128.投影设备将新的虚拟形象与声纹特征信息和人脸特征信息关联保存至预设数据库，这边投影设备中可以包含多个虚拟形象，使得虚拟形象可以多样化展示。
129.404，将所述对答语音信息和新的所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
130.投影设备将对答语音信息和新的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互，本实施例中投影设备可以对虚拟形象进行自动更新，然后再实现预约交互，这样既不需要实时地生成虚拟形象，又可以保证虚拟形象贴合实际，使得语音交互更加真实。
131.上述实施例中都是一个虚拟形象场景进行说明，在一些具体使用场景中，用户可能需要和其他人的虚拟形象进行语音交互，本实施例中给出了预设数据库中包含多个虚拟形象时，用户进行语音交互的场景。
132.参照图5，图5是本公开实施例中提供的虚拟形象语音交互方法中投影设备和不同的虚拟形象进行语音交互的一个实施例的流程示意图。
133.在本公开一些实施例中，具体说明了投影设备根据用户的需求选择目标虚拟形象进行语音交互，还包括如下步骤501
‑
504:
134.501，输出预设数据库中保存的各虚拟形象，以供用户选择目标虚拟形象。
135.投影设备将预设数据库中保存的多个虚拟形象进行输出显示，并输出提示信息以提示用户选择需要进行语音交互的目标虚拟形象。
136.502，获取用户选择的所述目标虚拟形象，及所述目标虚拟形象关联的目标声纹特征信息。
137.投影设备获取用户选择的目标虚拟形象，投影设备获取目标虚拟形象关联的目标声纹特征信息，以根据目标声纹特征信息模拟目标虚拟形象的对答，使得语音交互更加智能，具体地：
138.503，解析所述用户语音信息确定对答文本信息，按照所述目标声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息。
139.504，将所述对答语音信息和所述目标虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
140.投影设备解析用户语音信息确定对答文本信息，投影设备按照目标声纹特征信息将对答文本信息进行语音转化，生成对答语音信息，即投影设备将对答文本信息转化为初始的对答语音信息，投影设备按照目标声纹特征调整初始的对答语音信息，得到音调、音色符合目标虚拟形象的对答语音信息；投影设备将对答语音信息和目标虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
141.本实施例中投影设备中包含多个虚拟形象，投影设备可以根据需求选择目标虚拟形象进行语音交互，这样既可以保证交互的真实感受，又满足了用户的个性化使用需求。
142.参照图6和图7，图6是本公开实施例中提供的虚拟形象语音交互方法中虚拟形象交互应用场景的一个实施例的流程示意图；图7是本公开实施例中提供的虚拟形象语音交互方法中虚拟形象生成的一个实施例的具体场景示意图。
143.可以理解的是，本公开实施例中虚拟形象语音交互方法还可以通过深度学习用户语音信息，获得用户的语音特征和发音习惯，使得融合生成的虚拟形象更加符合需求。
144.上述实施例中针对单人说话虚拟形象语音交互场景进行说明，在一些具体使用场景中，投影设备可能采集到多个用户语音信息，本实施例中给出了投影设备针对多个用户语音信息，进行语音交互的场景。
145.参照图8，图8是本公开实施例中提供的虚拟形象语音交互方法中投影设备进行声
音寻址以实现目标用户交互的一个实施例的流程示意图。
146.在本公开一些实施例中，具体说明了投影设备进行声音寻址以实现目标用户语音交互，还包括如下步骤601
‑
603：
147.601，根据至少两个所述麦克风装置的位置和各所述麦克风装置采集所述用户语音信息的采集时间，得到所述用户语音信息的声源位置。
148.本实施例中投影设备可以根据麦克风装置的位置和用户语音信息的采集时间，确定声源位置，例如，投影设备中不同的位置处设置至少两个麦克风装置，投影设备获取至少两个麦克风装置的位置，和各麦克风采集到的同一用户语音信息的采集时间，投影设备计算采集时间之间的时间差，投影设备根据至少两个所述麦克风装置的位置和时间差和各确定用户语音信息的声源位置。
149.602，将所述虚拟形象调整朝向所述声源位置，并渲染调整后的虚拟形象。
150.投影设备将虚拟形象调整朝向声源位置，例如，投影设备建立极坐标系，投影设备按照坐标朝向调整虚拟形象的人脸的朝向，投影设备将虚拟形象的人脸朝向进行调整，获得渲染调整后的虚拟形象。
151.603，将所述对答语音信息和所述调整后的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
152.投影设备将对答语音信息和调整后的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。本实施例中投影设备可以根据用户语音信息确定用户的位置，从而将虚拟形象的朝向调整朝向用户，以增加用户人机交互的真实感。
153.在本技术一些实施例中，投影设备中预存虚拟形象，由于用户的形象会在不断变化中，虚拟形象可能和用户形象不符，本实施例中给出了一种虚拟形象自动更新的方式。
154.参照图9，图9是本公开实施例中提供的虚拟形象语音交互方法中投影设备实现声音寻址和虚拟形象更新结合的一个实施例的流程示意图。
155.701，根据所述麦克风装置的位置确定声源位置；
156.702，通过摄像装置采集所述声源位置对应位置处目标用户的用户图像信息；
157.703，将所述用户图像信息输入至预设人脸识别模型，获得人脸特征信息；
158.704，根据所述人脸特征信息更新所述虚拟形象，将所述对答语音信息和更新的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
159.投影设备根据麦克风装置的位置确定声源位置；本实施例中可以根据声音采集的时间差确定声源位置，还可以根据声音强度信息和音色信息等确定声源位置，投影设备确定声源位置的具体实现方式不作限定，投影设备获取摄像装置采集的声源位置对应位置处目标用户的用户图像信息；投影设备将用户图像信息输入至预设人脸识别模型，获得人脸特征信息；投影设备根据人脸特征信息更新虚拟形象，将所述对答语音信息和更新的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
160.本实施例中投影设备将声音寻址和虚拟形象更新结合，在多人说话的场景信息，投影设备可以根据用户语音信息定位声源位置，然后将虚拟形象按照声源位置处的用户图像信息进行更新，这样虚拟形象与目标用户匹配，可以满足虚拟形象的实时更新，这样投影设备中针对不同的用户展示不同的虚拟形象，增加虚拟形象语音交互的真实感。
161.如图10所示，图10是本公开实施例中提供的虚拟形象语音交互装置的一个实施例
结构示意图。
162.为了更好实施本公开实施例中虚拟形象语音交互方法，在虚拟形象语音交互方法基础之上，本公开实施例中还提供一种虚拟形象语音交互装置，所述虚拟形象语音交互装置包括以下模块801
‑
804：
163.信息采集模块801，用于通过麦克风装置拾取用户语音信息；
164.信息调整模块802，用于解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；
165.形象获取模块803，用于获取与所述用户语音信息对应的虚拟形象；
166.融合输出模块804，用于将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
167.在本公开一些实施例中，所述的信息调整模块802，包括：
168.将所述用户语音信息输入预设语音识别模型，获得语音文本信息；
169.对所述语音文本信息进行识别，获取对答文本信息；
170.提取所述用户语音信息中的声纹特征信息，按照所述声纹特征信息对所述对答文本信息进行语音转化，获得对答语音信息。
171.在本公开一些实施例中，所述的融合输出模块804，包括：
172.依次提取所述对答语音信息中各对答语音音素，查询预设音素与唇形映射关系，获得各所述对答语音音素匹配的目标唇形；
173.按照所述目标唇形调整所述虚拟形象的口型，将所述对答语音信息和调整后的所述虚拟形象同步通过投影设备输出，以进行虚拟形象语音交互。
174.在本公开一些实施例中，所述的形象获取模块803，包括：
175.将所述用户语音信息输入至预设语音识别模型，获得声纹特征信息；
176.查询预设数据库，获取与所述声纹特征信息对应的虚拟形象。
177.在本公开一些实施例中，所述的虚拟形象语音交互装置，包括：
178.接收账号注册请求，获取用户输入的账号标识，并采集所述账号标识对应的用户语音信息和用户图像信息；
179.解析所述用户图像信息，获得人脸特征信息和身材比例信息；
180.将所述人脸特征信息和身材比例信息输入至预设三维图像模型，获得三维动画信息；
181.将所述三维动画信息进行渲染，生成虚拟形象；
182.提取所述用户语音信息的声纹特征信息，将所述账号标识、所述声纹特征信息、所述人脸特征信息和所述虚拟形象，关联保存至预设数据库。
183.在本公开一些实施例中，所述的融合输出模块804，包括：
184.根据至少两个所述麦克风装置的位置和各所述麦克风装置采集所述用户语音信息的采集时间，得到所述用户语音信息的声源位置；
185.将所述虚拟形象调整朝向所述声源位置，并渲染调整后的虚拟形象；
186.将所述对答语音信息和所述调整后的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
187.在本公开一些实施例中，所述融合输出模块804，包括：
188.根据所述麦克风装置的位置确定声源位置；
189.通过摄像装置采集所述声源位置对应位置处目标用户的用户图像信息；
190.将所述用户图像信息输入至预设人脸识别模型，获得人脸特征信息；
191.根据所述人脸特征信息更新所述虚拟形象，将所述对答语音信息和更新的虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
192.本公开实施例中虚拟形象语音交互装置通过麦克风装置拾取用户语音信息，解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；获取与所述用户语音信息对应的虚拟形象，将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互；本公开实例中根据用户语音信息生成对答语音信息，虚拟形象与对答语音信息融合，使得语音和虚拟形象匹配，增强人机交互的真实感强。
193.本公开实施例还提供一种投影设备，如图11所示，图11本公开实施例中提供的投影设备的一个实施例结构示意图。
194.投影设备集成了本公开实施例所提供的任一种虚拟形象语音交互装置，所述投影设备中设置：一个或多个处理器；存储器；以及
195.一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并配置为由所述处理器执行上述虚拟形象语音交互方法实施例中任一实施例中所述的虚拟形象语音交互方法中的步骤。
196.具体来讲：投影设备可以包括一个或者一个以上处理核心的处理器901、一个或一个以上计算机介质的存储器902、电源903和输入单元904等部件。本领域技术人员可以理解，图11中示出的投影设备结构并不构成对投影设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
197.处理器901是该投影设备的控制中心，利用各种接口和线路连接整个投影设备的各个部分，通过运行或执行存储在存储器902内的软件程序和/或模块，以及调用存储在存储器902内的数据，执行投影设备的各种功能和处理数据，从而对投影设备进行整体监控。可选的，处理器901可包括一个或多个处理核心；优选的，处理器901可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器901中。
198.存储器902可用于存储软件程序以及模块，处理器901通过运行存储在存储器902的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作至少一个功能所需的应用程序(比如声音播放功能、训练播放功能等)等；存储数据区可存储根据投影设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器902还可以包括存储器控制器，以提供处理器901对存储器902的访问。
199.投影设备还包括给各个部件供电的电源903，优选的，电源903可以通过电源管理系统与处理器901逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
200.该投影设备还可包括输入单元904，该输入单元904可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
201.尽管未示出，投影设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，投影设备中的处理器901会按照如下的请求，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中，并由处理器901来运行存储在存储器902中的应用程序，从而实现各种功能，如下：
202.通过麦克风装置拾取用户语音信息；
203.解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；
204.获取与所述用户语音信息对应的虚拟形象；
205.将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
206.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过请求来完成，或通过请求控制相关的硬件来完成，该请求可以存储于一计算机介质中，并由处理器进行加载和执行。
207.为此，本公开实施例提供一种计算机介质，该计算机介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行本公开实施例所提供的任一种虚拟形象语音交互方法中的步骤。例如，所述计算机程序被处理器进行加载可以执行如下步骤：
208.通过麦克风装置拾取用户语音信息；
209.解析所述用户语音信息获得对答文本信息，按照所述用户语音信息的声纹特征信息将所述对答文本信息进行语音转化，生成对答语音信息；
210.获取与所述用户语音信息对应的虚拟形象；
211.将所述对答语音信息和所述虚拟形象融合并通过投影设备输出，以进行虚拟形象语音交互。
212.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。
213.具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。
214.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
215.以上对本公开实施例所提供的一种虚拟形象语音交互方法进行了详细介绍，本文中应用了具体个例对本公开的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本公开的方法及其核心思想；同时，对于本领域的技术人员，依据本公开的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本公开的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：使用序列到序列映射在模拟数据与语音识别输出之间进行协调的制作方法

虚拟形象语音交互方法、装置、投影设备和计算机介质与流程

相关文章

最热文献