增强现实交互方法、装置、系统、存储介质与电子设备与流程

2021-09-07 18:22:00 来源：中国专利 TAG：

1.本公开涉及虚拟现实与增强现实技术领域，尤其涉及一种增强现实交互方法、增强现实交互装置、增强现实系统、计算机可读存储介质与电子设备。
背景技术
2.目前，在ar(augmented reality，增强现实)场景中，交互方式较为单一，大多依赖于头戴式设备，或者手柄、遥控都实体性外接设备，使得用户进行交互时受到设备的限制，操作的自由度较低，用户体验较差。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.本公开提供了一种增强现实交互方法、增强现实交互装置、增强现实系统、计算机可读存储介质与电子设备，进而至少在一定程度上克服现有的ar交互方式较为单一的问题。
5.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
6.根据本公开的第一方面，提供一种增强现实交互方法，包括：获取增强现实区域内的用户与语音接收设备之间的距离；当所述距离大于预设阈值时，将摄像头拍摄的用户图像中所述用户的姿态转换为所述用户的控制指令；当所述距离小于所述预设阈值时，将所述语音接收设备接收的所述用户的语音转换为所述用户的控制指令；执行所述用户的控制指令。
7.根据本公开的第二方面，提供一种增强现实交互装置，包括：距离获取模块，用于获取增强现实区域内的用户与语音接收设备之间的距离；第一转换模块，用于当所述距离大于预设阈值时，将摄像头拍摄的用户图像中所述用户的姿态转换为所述用户的控制指令；第二转换模块，用于当所述距离小于所述预设阈值时，将所述语音接收设备接收的所述用户的语音转换为所述用户的控制指令；指令执行模块，用于执行所述用户的控制指令。
8.根据本公开的第三方面，提供一种增强现实系统，包括：增强现实主设备；语音接收设备，用于接收用户的语音；摄像头，用于拍摄用户图像；以及可移动设备，由用户通过手持或佩戴而使用，与所述增强现实主设备通讯连接；其中，所述增强现实主设备通过执行上述第一方面的增强现实交互方法，以实现增强现实交互。
9.根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的增强现实交互方法。
10.根据本公开的第五方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面的增强现实交互方法。
11.本公开的技术方案具有以下有益效果：
12.根据上述增强现实交互方法、增强现实交互装置、增强现实系统、计算机可读存储介质与电子设备，获取用户与语音接收设备之间的距离，若大于预设阈时，则通过摄像头拍摄用户的姿态，转换为控制指令，若小于预设阈值，则通过语音接收设备接收用户的语音，转换为控制指令，最后执行该控制指令。一方面，本方案结合姿态图像和语音两种交互方式，根据用户距离的远近采用合适的方式，从而克服了交互方式单一的问题，有效提高了交互的准确性、灵活性与趣味性。另一方面，本方案充分利用了增强现实多传感器的特点，语音接收设备和摄像头均是增强现实场景中的常规配置，降低了对于手柄、遥控等外接设备的依赖，实现了较低的硬件成本。
13.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
14.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
15.图1示出本示例性实施方式一种ar系统的架构示意图；
16.图2示出本示例性实施方式一种增强现实交互方法的流程图；
17.图3示出本示例性实施方式一种增强现实交互方法的子流程图；
18.图4示出本示例性实施方式一种增强现实交互装置的结构框图；
19.图5示出本示例性实施方式用于实现上述方法的计算机可读存储介质的示意图；
20.图6示出本示例性实施方式用于实现上述方法的电子设备的示意图。
具体实施方式
21.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
22.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
23.图1示出了适于实现本公开示例性实施方式的ar系统的架构示意图。
24.如图1所示，ar系统100可以包括：ar主设备110、语音接收设备1101、摄像头120和可移动设备130。其中，ar主设备110是指提供ar处理、渲染等一系列功能的主机，例如可以是ar游戏主机；语音接收设备1101用于接收用户的语音，图1中示出语音接收设备1101内置于ar主设备110中，例如可以是ar主设备110内置的麦克风，此外也可以是位于ar主设备110外的独立设备，例如单独的语音接收器；摄像头120用于拍摄用户图像，同样的，其可以内置于ar主设备110，也可以在ar主设备110外单独设置；可移动设备130是由用户通过手持或佩戴而使用的终端设备，具有ar呈现的功能，例如可以是头戴式设备、智能手机等，图1示出可移动设备130为头戴式ar眼镜。
25.语音接收设备1101、摄像头120、可移动设备130均与ar主设备110通讯连接，例如通过有线、wifi(wireless fidelity，无线保真)、蓝牙等方式连接，以进行数据交互。
26.需要说明的是，图1示出的ar系统100通常部署于范围较小的区域中(下文称为增强现实区域)，例如ar房间、娱乐场馆中的ar体验区域，通常该区域为摄像头120能够拍摄覆盖到的区域，且保证上述各设备之间能够正常通讯连接。
27.应当理解，图1中各设备的数量仅仅是示意性的，例如根据实现需要，可以设置多个语音接收设备或多个摄像头；本示例性实施方式也可以应用于多人ar的场景，即支持多个用户分别同时使用可移动设备，连接到一台ar主设备。
28.本公开示例性实施方式提出基于上述ar系统100的增强现实交互方法，可以由上述ar主设备110执行，并应用于ar交互的所有场景中，包括但不限于ar游戏、ar办公、ar智能家居等。下面结合图2对该方法进行具体说明。
29.如图2所示，该方法可以包括以下步骤s210至s240：
30.步骤s210，获取增强现实区域内的用户与语音接收设备之间的距离。
31.语音接收设备的位置是固定的，一般可以预先确定。这样在用户移动时，通过测定用户的位置，可以确定出用户与语音接收设备之间的距离。具体来说，可以通过以下方式实现：
32.(1)用户使用的可移动设备具备室内定位的功能，例如可以执行slam(simultaneous localization and mapping，同时定位与建图)的相关程序，当用户移动时，根据可移动设备所采集到的环境图像确定用户在增强现实区域内的定位数据，将其发送至ar主设备；ar主设备在获取可移动设备发送的定位数据后，计算该定位数据与语音接收设备的位置只差，即用户与语音接收设备之间的距离。
33.(2)通过摄像头测定用户位置。例如摄像头配备有tof(time of flight，飞行时间)传感器，通过tof传感器的测量信号计算用户位置；或者ar系统中设置两个或两个以上摄像头，通过双目摄像头的算法确定用户位置。
34.(3)ar主设备配置有相关的传感器，例如红外传感器、超声波传感器等，可以通过发送信号并接收由用户身体反射的信号，计算出用户位置。
35.(4)其他可选的实现方式，例如在增强现实区域内设置多个蓝牙节点，接收用户可移动设备发送的蓝牙信号，通过每个蓝牙节点所接收的蓝牙信号强度，计算出用户位置。
36.需要说明的是，用户通过手持或佩戴的方式使用可移动设备，用户位置即可移动设备的位置。实际应用中，如果通过摄像头测定用户位置，可以预先对用户进行图像采集，具体为：将可移动设备连接到ar主设备时，采集使用该可移动设备的用户图像，确定该用户
与该可移动设备关联；后续在检测用户位置时，摄像头可以从拍摄的画面中识别出该用户，确定该用户的位置，从而排除增强现实区域内其他人或者物体的影响。
37.步骤s220，当上述距离大于预设阈值时，将摄像头拍摄的用户图像中用户的姿态转换为用户的控制指令。
38.其中，预设阈值是预先确定的语音接收设备可以较好地接收到用户语音的距离值，和语音接收设备本身的性能，环境的噪音大小等因素相关，例如可以设置为2米，即超过2米的距离时，判断语音接收设备无法较好地接收语音。因此，采用图像姿态识别的方式进行交互控制。具体来说，在一种可选的实施方式中，参考图3所示，可以通过步骤s301至s303实现上述姿态到指令的转换：
39.步骤s301，获取由摄像头拍摄的用户图像；
40.步骤s302，识别用户图像中用户的姿态；
41.步骤s303，将用户的姿态转换为对应的控制指令。
42.摄像头拍摄的用户图像可以是一帧静态图像，也可以是连续多帧的动态图像。摄像头拍摄用户图像后，发送至ar主设备。ar主设备进行图像识别，可以识别图像中用户的手势、骨骼动作等，然后根据姿态与指令之间预设的映射关系，将用户的姿态转换为对应的控制指令。
43.举例来说，ar主设备可以运行预先训练的卷积神经网络，将用户图像输入网络中，输出用户姿态的识别分类结果，识别分类结果对应于某一类标准姿态；然后再通过查找预先配置的指令映射表，确定该姿态对应的控制指令，例如用户向下挥手对应的控制指令为关闭当前页面，用户摇头对应的控制指令为取消等。
44.步骤s230，当上述距离小于预设阈值时，将语音接收设备接收的用户的语音转换为用户的控制指令。
45.即用户和语音接收设备离得较近时，判断语音接收设备可以较为清晰地接收语音。此时用户可以直接说出语音指令，语音接收设备接收后，由ar主设备进行解析，将其转换为控制指令。
46.举例来说，ar主设备可以运行语音识别模型，将用户的语音转换为文本，识别文本语义，然后再通过查找预先配置的指令映射表，确定该文本语义对应的控制指令。
47.需要说明的是，上述通过姿态识别得到的控制指令，与通过语音识别得到的控制指令，应当属于同一套指令系统，可以用于实现ar场景中的各种操作。
48.步骤s240，执行上述用户的控制指令。
49.在转换得到控制指令后，ar主设备可以执行该控制指令。例如，在当前运行的ar游戏中，根据用户的控制指令，完成相应的游戏操作。
50.在一种可选的实施方式中，如果增强现实区域内存在多个用户，则可以分别获取每个用户与语音接收设备之间的距离，然后对每个用户执行上述步骤s220至s240，即对于与语音接收设备距离较远的用户，通过拍摄其姿态进行交互控制，对于与语音接收设备距离较近的用户，通过采集其语音指令进行交互控制。因此，本示例性实施方式可以应用于多人ar的场景中，具体来说，可以支持多个用户分别通过可移动设备连入同一台ar主设备，例如每个用户分别佩戴ar眼镜，通过蓝牙连接到增强现实区域内的ar主设备，根据每个用户距离语音接收设备的远近，通过摄像头采集其姿态图像，或者通过语音接收设备采集其语
音指令，从而实现与每个用户的交互。
51.进一步的，还可以分别采集每个用户的语音特征，以在语音接收设备接收到语音时，通过匹配该语音与每个用户的语音特征，判断该语音归属于哪个用户。其中，语音特征主要包括声纹特征，用于区分每个用户的声音，例如可以通过mfcc(mel frequency cepstrum coefficient，梅尔频率倒谱系数)表征。一般的，可以显示一定的预设文本，要求用户轮流念出该文本，同时采集不同用户的语音，再进行预加重、分帧、加窗、傅里叶变换、梅尔滤波等一系列处理，可以得到向量化的语音特征。本公开对于语音特征的具体维度以及采集语音特征的具体方式不做限定。
52.采集语音特征可以在进入ar场景前、进行相关设置时执行，例如启动ar游戏后，设置用户数量与用户信息时，对每个用户采集语音特征(也可以同时采集每个用户的图像)；也可以在ar场景中执行，例如系统检测到存在至少两个用户，其与语音接收设备之间的距离小于预设阈值，即至少有两个用户需要进行语音交互，此时可以对这些用户分别采集语音特征。
53.需要补充的是，ar主设备可以长期保存用户的语音特征(或图像特征)。对于有过语音采集记录的“老”用户，例如在上一次ar游戏中进行过采集的用户，则无需再次采集，输入相关的用户名，系统查找到语音特征的记录，直接调取即可。
54.在ar程序运行中，当语音接收设备接收到语音(称为待识别语音)时，可以通过采集语音特征时相同的提取方式，提取待识别语音语音的特征，例如可以得到待识别语音的特征向量，将该特征向量与已采集的语音特征向量进行匹配，例如可以计算欧氏距离、余弦相似度等，从而确定待识别语音归属于哪个用户，以便于生成该用户的控制指令。
55.在一种可选的实施方式中，在步骤s240之后，ar主设备还可以向可移动设备返回控制指令的执行结果，使可移动设备显示该执行结果。例如，在ar游戏中，ar主设备执行用户的游戏操作后，按照游戏逻辑，生成下一帧的游戏画面，将其返回到用户佩戴的ar眼镜端，ar眼镜渲染并显示该画面，使用户可以基于该画面进行下一操作，从而推动ar游戏进程。
56.综上所述，本示例性实施方式中，获取用户与语音接收设备之间的距离，若大于预设阈时，则通过摄像头拍摄用户的姿态，转换为控制指令，若小于预设阈值，则通过语音接收设备接收用户的语音，转换为控制指令，最后执行该控制指令。一方面，结合姿态图像和语音两种交互方式，根据用户距离的远近采用合适的方式，从而克服了交互方式单一的问题，有效提高了交互的准确性、灵活性与趣味性。另一方面，本示例性实施方式充分利用了增强现实多传感器的特点，语音接收设备和摄像头均是增强现实场景中的常规配置，降低了对于手柄、遥控等外接设备的依赖，实现了较低的硬件成本。
57.本公开示例性实施方式还提供一种增强现实交互装置。参考图4所示，该增强现实交互装置400可以包括：
58.距离获取模块410，用于获取增强现实区域内的用户与语音接收设备之间的距离；
59.第一转换模块420，用于当上述距离大于预设阈值时，将摄像头拍摄的用户图像中用户的姿态转换为用户的控制指令；
60.第二转换模块430，用于当上述距离小于预设阈值时，将语音接收设备接收的用户的语音转换为用户的控制指令；
61.指令执行模块440，用于执行上述用户的控制指令。
62.在一种可选的实施方式中，距离获取模块410，还用于如果增强现实区域内存在多个用户，则分别获取每个用户与语音接收设备之间的距离。
63.在一种可选的实施方式中，增强现实交互装置400还可以包括：信息采集模块，用于分别采集每个用户的语音特征，以在语音接收设备接收到语音时，通过匹配该语音与每个用户的语音特征，判断语音归属于哪个用户。
64.在一种可选的实施方式中，第一转换模块420，通过执行以下方法，将图像传感器拍摄的用户图像中用户的姿态转换为用户的控制指令：
65.获取由摄像头拍摄的用户图像；
66.识别用户图像中用户的姿态；
67.将用户的姿态转换为对应的控制指令。
68.在一种可选的实施方式中，用户通过手持或佩戴而使用可移动设备；距离获取模块410，还用于获取可移动设备发送的定位数据，根据定位数据确定用户与语音接收设备之间的距离。
69.在一种可选的实施方式中，可移动设备包括智能手机或头戴式设备。
70.在一种可选的实施方式中，指令执行模块440，还用于在执行用户的控制指令后，向可移动设备返回控制指令的执行结果，使可移动设备显示执行结果。
71.在一种可选的实施方式中，增强现实交互装置400可以配置于增强现实主设备，该增强现实主设备内置有上述语音接收设备。
72.此外，上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。
73.所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
74.本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
75.参考图5所示，描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品500，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
76.程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储
器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
77.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
78.可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
79.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
80.本公开的示例性实施方式还提供了一种能够实现上述方法的电子设备，例如可以是图1中的ar主设备110。下面参照图6来描述根据本公开的这种示例性实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。
81.如图6所示，电子设备600可以以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630和显示单元640。
82.存储单元620存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元610可以执行图2或图3所示的方法步骤等。
83.存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)621和/或高速缓存存储单元622，还可以进一步包括只读存储单元(rom)623。
84.存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624，这样的程序模块625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
85.总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
86.电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以
通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
87.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施方式的方法。
88.此外，上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。
89.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
90.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。

本技术：
旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。
91.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种快速移位固定的古筝架的制作方法

增强现实交互方法、装置、系统、存储介质与电子设备与流程

相关文章

最热文献