一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种XR手势输入实现方法和系统与流程

2022-11-30 10:25:04 来源:中国专利 TAG:

一种xr手势输入实现方法和系统
技术领域
1.本说明书涉及xr技术领域,特别涉及一种xr手势输入实现方法和系统。


背景技术:

2.随着xr技术的日益发展,该技术已逐渐应用于医疗、教育、娱乐、艺术等领域。通过xr技术提供的虚拟现实环境,可以使用户获得沉浸式体验。但目前虚拟现实设备需要使用手柄、触屏等方式进行输入、交互,这种交互方式较为繁琐且使用场景受限。
3.因此,希望提供一种xr手势输入实现方法和系统,以解决现有xr技术交互方式操作复杂、使用场景受限的问题。


技术实现要素:

4.本说明书一个或多个实施例提供一种xr手势输入实现方法。所述方法包括:基于获取的第一辅助数据,确定环境评估数据;获取用户的登录手势并进行手势识别,确定所述用户是否可以登录虚拟会议空间;所述登录手势的获取与所述环境评估数据相关;响应于所述用户可以登录虚拟会议空间,获取交互手势;所述交互手势的获取与所述环境评估数据相关;基于对所述交互手势的手势识别,实现所述用户与所述虚拟会议空间内的虚拟场景的交互。
5.本说明书实一个或多个实施例提供一种xr手势输入实现系统,所述系统包括:环境评估数据确定模块,用于基于获取的第一辅助数据,确定环境评估数据;用户登录确定模块,用于获取用户的登录手势并进行手势识别,确定所述用户是否可以登录虚拟会议空间;所述登录手势的获取与所述环境评估数据相关;交互手势获取模块,用于获取交互手势;所述交互手势的获取与所述环境评估数据相关;xr交互实现模块,用于基于对所述交互手势的手势识别,实现所述用户与所述虚拟会议空间内的虚拟场景的交互。
附图说明
6.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
7.图1是根据本说明书一些实施例所示的xr手势输入实现系统的应用场景示意图;
8.图2是根据本说明书一些实施例所示的xr手势输入实现的系统模块图;
9.图3是根据本说明书一些实施例所示的xr手势输入实现方法的示例性流程图;
10.图4是根据本说明书一些实施例所示的xr手势输入实现方法的手势识别模型示意图;
11.图5是根据本说明书一些实施例所示的确定当前用户是否可以登录虚拟会议空间的示例性流程图;
12.图6是根据本说明书一些实施例所示的与虚拟会议空间内的虚拟场景交互的示例
性流程图。
具体实施方式
13.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
14.应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
15.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
16.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
17.本说明书的一些实施例,提供一种xr手势输入实现方法和系统,该方法可以应用于各种行业中的操作场景(例如,医疗行业中的手术等),xr手势输入可以使专家在虚拟环境中沉浸式对患者的目标物体或结构进行模拟操作,以实现对远程操作的实时指导。其中,xr是指扩展现实技术(extended reality),通过计算机将真实与虚拟相结合,打造一个可人机交互的虚拟环境。xr可以打破虚拟与现实的边界,将虚拟的内容和真实场景融合打造出更加真实的虚拟现实场景。在本说明书的一些实施例中,xr设备可以包括虚拟现实技术(virtual reality,vr)、增强现实技术(augmented reality,ar)、混合现实技术(mixed reality,mr)等设备,本说明书对此不做限制。本说明书的一些实施例还可以应用在其他场景中,例如游戏、艺术交互等场景。
18.图1是根据本说明书一些实施例所示的xr手势输入实现系统的应用场景示意图。
19.如图1所示,xr手势输入实现系统的应用场景100可以包括处理设备110、网络120、虚拟现实设备130、功能设备140、存储设备150。应用场景100中的组件可以以一种或多种不同的方式连接。在一些实施例中,可以将功能设备140通过网络120连接到处理设备110。在一些实施例中,可以将功能设备140直接连接到处理设备110。在一些实施例中,虚拟现实设备130可以通过网络120连接到应用场景100的另一个组件(例如,处理设备110)。在一些实施例中,虚拟现实设备可以通过网络120连接到存储设备150。在一些实施例中,可以将虚拟现实设备130直接连接到功能设备140和/或处理设备110。
20.处理设备110可以处理从虚拟现实设备130、功能设备140和/或其他组件获得的数据和/或信息。在一些实施例中,处理设备110可以托管一个模拟的虚拟世界,或用于虚拟现实设备130的元域。例如,处理设备110可以基于功能设备140收集到的与受试者(例如,患
者)有关的数据生成三维模型。处理设备110可以指示虚拟现实设备130的显示组件131向用户显示生成的三维模型。处理设备110可以实现用户在三维模型上的交互操作。
21.在一些实施例中,处理设备110可以是计算机、用户控制台、单个服务器或服务器组等。服务器组可以是集中式的也可以是分布式的。例如,元域的指定区域可以由单个服务器模拟。在一些实施例中,处理设备110可以包括多个专用于物理模拟的模拟服务器,以管理交互和处理元宇宙中字符和对象之间的碰撞。
22.在一些实施例中,处理设备110可以是局部的或远程的。例如,处理设备110可以通过网络120访问来自功能设备140的数据和/或信息;或者处理设备110可以直接连接到功能设备140以访问数据和/或信息。
23.在一些实施例中,处理设备110可以包括一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。仅作为示例,处理设备110可以包括中央处理器(cpu)、专用集成电路(asic)等或以上任意组合。
24.网络120可以连接系统的各组成部分和/或连接系统与外部资源部分。网络120使得各组成部分之间,以及与系统之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种或多种。例如,网络120可以包括电缆网络、光纤网络等或其任意组合。
25.在一些实施例中,应用场景100的一个或以上组件(例如,处理设备110、网络120、虚拟现实设备130、功能设备140和存储设备150)可以经由网络120将数据和/或信息发送至应用场景100的其他组件。例如,处理设备110可以从虚拟现实设备130获取手势图像。
26.虚拟现实设备130可以是一种允许用户参与虚拟现实体验的设备。在一些实施例中,虚拟现实设备130可以包括显示组件131。显示组件131可以在虚拟现实设备130上呈现和显示虚拟内容,也可以以三维成像的方式呈现虚拟内容(例如,目标体的三维模型等)。
27.在一些实施例中,用户可以通过显示组件131与虚拟内容进行交互。例如,当用户佩戴显示组件131时,可以跟踪用户的头部运动和/或注视方向,从而呈现虚拟内容以响应用户位置和/或方向的变化,提供反映用户视角变化的沉浸式和令人信服的虚拟现实体验。
28.在一些实施例中,虚拟现实设备130可以进一步包括输入组件132。输入组件132可使用户与显示组件131上呈现的虚拟内容之间进行交互。例如,以手术操作场景为例,手术时专家可以直接在目标体(例如,心脏)的三维模型上通过手势进行远程指导,输入组件132可以捕捉相关手势图像并实时传送给处理设备110,处理设备110经过对手势图像的处理之后,将相关信息与目标体的三维模型融合,模拟真实的操作场景,然后通过虚拟现实设备130的显示组件131呈现给用户,从而实现专家远程进行实时手术指导。又例如,以教师上课场景为例,上课时教师可以直接在目标体(例如,实验器械)的三维模型上通过手势进行远程指导,输入组件132可以捕捉相关手势图像并实时传送给处理设备110,处理设备110经过对手势图像的处理之后,将相关信息与目标体的三维模型融合,模拟真实的操作场景,然后通过虚拟现实设备130的显示组件131呈现给用户,从而实现教师远程进行实时实验操作指导。
29.在一些实施例中,由输入组件132接收的用户输入可以包括触摸、语音输入和/或手势输入,并可通过任何合适的传感技术(例如,电容、电阻、声学、光学)感知。在一些实施例中,输入组件132可以包括摄像装置、手柄、手套、触控笔、游戏机等。
30.在一些实施例中,应用场景100还可以进一步包括光照装置。该光照装置可以包括多个光传感器,例如环境光传感器等。在一些实施例中,环境光传感器可以感知环境光线强度,再将光线情况以电信号的形式实时输出给处理设备110,处理设备110基于实时环境光参数与预设的通用光照参数进行对比,确定补光参数,然后光照装置基于补光参数进行补光处理。在一些实施例中,补光装置可以是虚拟现实设备130的一部分。
31.功能设备140可以用于提供各种功能服务。在一些实施例中,功能设备140可以是成像设备140-1,也可以是检测设备140-2、显示设备140-3等多种设备。在一些实施例中,功能设备140可以直接与虚拟现实设备130进行数据传输,也可以间接与虚拟现实设备130进行数据传输。例如,可以将成像设备140-1直接连接至虚拟现实设备130的输入接口,或者通过网络120将成像设备140-1的数据传输至虚拟现实设备130,以便于可以更加清楚地感受画面。
32.存储设备150可以用于储存数据和/或信息。在一些实施例中,存储设备150可以包括数据库。在一些实施例中,存储设备150可以存储从虚拟现实设备130获取的数据。在一些实施例中,存储设备150可以存储用户手势的相关数据。例如,语义特征、手势特征等数据。在一些实施例中,存储设备150可以存储处理设备110用来执行完成本技术中描述的示例性方法的数据和/或信息。在一些实施例中,存储设备150可以在云平台上实现。
33.在一些实施例中,存储设备150可连接到网络120,以与应用场景100的一个或以上组件通信。应用场景100的一个或以上组件可以经由网络120访问储存设备150中存储的数据和/或信息。在一些实施例中,存储设备150可以与应用场景100的一个或以上组件直接连接或者进行通信。在一些实施例中,存储设备150可以是处理设备110的一部分。
34.应当注意基于xr手势输入实现系统的应用场景100仅仅是为了说明的目的而提供,并不意图限制本说明书的范围。对于本领域的普通技术人员来说,可以根据本说明书的描述,做出多种修改或变化。例如,应用场景还可以包括ar设备的手势输入。又例如,应用场景100可以在其他设备上实现以实现类似或不同的功能。然而,变化和修改不会背离本说明书的范围。
35.图2是根据本说明书一些实施例所示的xr手势输入实现的系统模块图。
36.本说明书的一些实施例提出了一种xr手势输入实现系统200,如图2所示,该xr手势输入实现系统200可以包括环境评估数据确定模块210、手势识别模块220、用户登录确定模块230、交互手势获取模块240和xr交互实现模块250。
37.环境评估数据模块210可以用于基于获取的第一辅助数据,确定环境评估数据。更多关于第一辅助数据、环境评估数据的内容可以参见图3及其相关描述。
38.手势识别模块220可以用于基于手势识别模型对所述手势图像的处理,获取手势识别结果;所述手势识别模型为机器学习模型。更多关于手势识别模型的内容可以参见图4及其相关描述。
39.用户登录确定模块230可以用于获取用户的登录手势并进行手势识别,确定所述用户是否可以登录虚拟会议空间;所述登录手势的获取与所述环境评估数据相关。更多关于登录手势、虚拟会议空间的内容可以参见图3及其相关描述。
40.在一些实施例中,用户登录确定模块230可以进一步用于基于摄像装置采集登录手势图像;基于所述登录手势图像获取语义特征、手势特征;判断所述语义特征是否满足第
一预设条件;判断所述手势特征是否满足第二预设条件;响应于所述第一预设条件、所述第二预设条件被满足,确定所述用户可以登录所述虚拟会议空间。更多关于登录手势图像、语义特征、手势特征、第一预设条件以及第二预设条件的内容可以参见图5及其相关描述。
41.交互手势获取模块240可以用于获取交互手势;所述交互手势的获取与所述环境评估数据相关。在一些实施例中,所述登录手势、所述交互手势基于摄像装置采集的手势图像获得。更多关于交互手势的内容可以参见图3及其相关描述。
42.xr交互实现模块250可以用于基于对所述交互手势的手势识别,实现所述用户与所述虚拟会议空间内的虚拟场景的交互。更多关于虚拟场景的内容可以参见图3及其相关描述。
43.在一些实施例中,虚拟场景为虚拟操作场景;xr交互实现模块250可以进一步用于获取目标体的建模数据,基于所述建模数据创建所述目标体的三维模型;基于对所述交互手势的手势识别,确定操作信息;获取所述操作信息作用于所述三维模型后的虚拟操作图像;将所述虚拟操作图像以三维成像的方式在实际操作场景和/或所述虚拟操作场景的第一预设位置进行三维成像。其中,三维成像是指通过各种三维技术将虚拟操作图像呈现在虚拟空间中,在虚拟空间真实再现用户的交互手势。在一些实施例中,三维成像方式可以包括全息投影。更多关于目标体、建模数据、操作信息、虚拟操作图像、实际操作场景、虚拟操作场景以及第一预设位置的内容可以参见图6及其相关描述。
44.在一些实施例中,xr交互实现模块250还可以进一步用于:获取所述操作信息的语义信息;将所述语义信息在实际操作场景和/或所述虚拟操作场景的第二预设位置进行显示。更多关于语义信息、第二预设位置的内容可以参见图6及其相关描述。
45.需要注意的是,以上对于xr手势输入实现系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图2中披露的环境评估数据确定模块、手势识别模块可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。诸如此类的变形,均在本说明书的保护范围之内。
46.图3是根据本说明书一些实施例所示的xr手势输入实现方法的示例性流程图。在一些实施例中,流程300可以由系统200执行。如图3所示,流程300可以包括下述步骤:
47.步骤310,基于获取的第一辅助数据,确定环境评估数据。
48.环境评估数据是指对用户手势输入环境进行评估得到的数据。例如,环境评估数据可以包括与环境的光照相关的数据等。
49.第一辅助数据是指可以用于辅助确定环境评估数据,并与手势输入相关的数据。例如,手势输入时的用户数据、输入背景数据、光照数据等。
50.在一些实施例中,第一辅助数据包括用户数据、背景数据,用户数据至少包括用户的手部高度数据;背景数据包括环境光、背景图像中的至少一种;环境评估数据包括输入范围、补光参数中至少一种。
51.用户数据是指用于手势识别的数据中与用户相关的数据。在一些实施例中,用户数据至少包括用户的手部高度数据。在一些实施例中,用户数据可以基于多种方式获取,例如,可以基于摄像装置拍摄的图像,获取用户数据。其中,摄像装置可以是用户穿戴的xr设
备上的摄像头,也可以是用户输入环境中可以获取手势图像的其他摄像头。又如,可以基于用户输入获取用户数据。
52.手部高度数据是指用户手势输入时的手部高度,其中用户手势输入是指用户在xr场景中通过比划手势动作进行输入,以登录各种xr场景或与xr场景中的虚拟实物交互。例如,手部高度数据可以是用户输入时的手部高度(例如,0.8m、0.9m、1m)等。
53.在一些实施例中,环境评估数据确定模块可以基于摄像装置获取的手部相对位置图像,确定至少一个手部高度数据。其中,手部相对位置图像是指用户输入时手部与输入背景的相对位置的图像。
54.在一些实施例中,环境评估数据确定模块可以基于用户输入时获取的手部相对位置图像中,用户的手部在图像中的位置、图像高度、图像高度与实际背景高度的比例确定至少一个手部高度数据。例如,手部在图像中的位置为图像的1/3高度处、图像高度9cm、图像高度与实际背景高度比例为9:270,可以确定手部高度数据为高0.9m。
55.在一些实施例中,环境评估数据确定模块可以基于多张手部相对位置图像确定多个手部高度数据,基于多个手部高度数据的平均值确定最终的手部高度数据。
56.背景数据是指用户手势输入时所处的环境数据。例如,背景数据可以包括手势输入环境的环境光、背景图像等。其中,环境光可以是指环境的光照参数;背景图像可以是指输入环境的图像,主要用于判断用户输入环境是否安全。
57.在一些实施例中,环境评估数据确定模块可以通过多种方式获取背景数据。例如,可以基于光照传感器获取环境光,其中光照传感器可以安装在光照装置中,光照装置可以安装在xr设备上。又例如,可以通过摄像装置拍摄获取背景图像。
58.在一些实施例中,环境评估数据确定模块可以基于第一辅助数据,确定环境评估数据。在一些实施例中,环境评估数据确定模块可以基于第一辅助数据分别确定环境评估数据中的输入范围和补光参数。
59.输入范围可以是指用户手势输入的范围。例如,输入范围可以包括输入范围的位置、输入范围的高度、输入范围的大小等,其中输入范围的位置可以是指输入范围在输入环境中的位置坐标,输入范围的高度可以是指输入范围距离地面的高度,输入范围的大小可以是指输入范围的长宽等信息。
60.在一些实施例中,环境评估数据确定模块可以基于背景数据确定用户输入范围的位置。例如,环境评估数据确定模块可以基于背景数据中的背景图像,确定背景图像中是否有其他人,若没有其他人,表示输入环境安全,则将用户当前位置作为用户输入范围的位置;若背景图像中有其他人,则提示用户改变位置,继续获取新位置的背景图像进行判断,直到确定输入环境安全时,将对应用户位置作为输入范围的位置。
61.在一些实施例中,环境评估数据确定模块可以基于用户数据,确定输入范围的高度。在一些实施例中,环境评估数据确定模块可以基于用户数据中的手部高度数据,确定输入范围的高度。例如,直接将手部高度数据作为输入范围的高度。
62.在一些实施例中,环境评估数据确定模块可以基于用户手势输入幅度大小,确定输入范围的大小。在一些实施例中,环境评估数据确定模块可以基于用户历史手势输入数据确定用户手势输入幅度大小。例如,环境评估数据确定模块可以为手势输入幅度大小和输入范围大小预设比例关系,基于预设比例关系,确定输入范围大小,其中预设比例关系可
以基于实际输入需求设定,例如,可以设置手势输入幅度的最大值与输入范围比例关系为2:3。示例性的,当用户手势输入幅度大小最大值为长30cm、宽20cm,则根据预设比例关系2:3可以确定输入范围大小为长45cm、宽30cm。
63.补光参数可以是指需要调整的光照参数。例如,补光参数可以包括光照亮度、光照颜色(例如,白光、黄光等)。
64.在一些实施例中,环境评估数据确定模块可以基于背景数据中的环境光数据、预设标准光数据,确定补光参数。在一些实施例中,环境评估数据确定模块可以基于环境光与预设标准光数据的差值,确定补光参数。例如,环境光数据中亮度为200lx,预设标准光数据中亮度为300lx,则可以将两者的差值100lx确定为补光参数。需要注意的是,当环境光数据大于预设标准光数据时,不需要进行补光。
65.在一些实施例中,环境评估数据确定模块可以基于背景数据中的环境光数据、用户习惯的光照数据,确定补光参数。例如,将环境光数据与用户习惯的光照数据的差值,确定为补光参数。其中,用户习惯的光照数据可以基于用户历史输入时的光照数据求平均值得到。
66.在一些实施例中,用户数据可以包括用户习惯,环境评估数据可以基于评估模型对用户数据、背景数据的处理得到。其中,评估模型为机器学习模型。
67.用户习惯可以是指与用户手势输入时的习惯相关的数据。例如,用户习惯可以包括用户习惯的手势输入幅度、光照数据等。
68.在一些实施例中,用户习惯的手势输入幅度可以通过历史手势输入数据确定。例如,将历史手势输入数据中手势输入幅度的最大值或平均值作为用户习惯的手势输入幅度。在一些实施例中,用户习惯的手势输入幅度也可以通过用户输入获取。
69.在一些实施例中,用户习惯的光照数据可以通过用户历史手势输入时的光照数据确定。例如,可以将用户历史手势输入时的光照数据求平均值,作为用户习惯的光照数据。又例如,可以将用户历史输入时的光照数据中出现频率最高的光照数据,作为用户习惯的光照数据。
70.在一些实施例中,环境评估数据可以基于评估模型对用户习惯和背景数据的处理确定。在一些实施例中,评估模型可以包括第三卷积神经网络(convolutional neural network,cnn)和第二深度神经网络(deep neural network,dnn)。
71.在一些实施例中,第三卷积神经网络的输入至少可以包括手部相对位置图像、背景图像,输出可以是手部相对位置图像对应的图像特征和背景图像对应的图像特征。在一些实施例中,第二深度神经网络的输入可以包括第三卷积神经网络输出的手部相对位置图像对应的图像特征和背景图像对应的图像特征、用户习惯的手势输入幅度、用户习惯的光照数据,输出为输入范围和补光参数,即环境评估数据。
72.在一些实施例中,第三卷积神经网络和第二深度神经网络的参数可以通过联合训练得到。可以向第三卷积神将网络输入训练样本数据,即多个手部相对位置图像和背景图像,得到第三卷积神经网络输出的图像特征;然后将图像特征、以及用户习惯的手势输入幅度、用户习惯的光照数据作为第二深度神经网络的训练样本数据,输入第二深度神经网络,得到第二深度神经网络输出的输入范围和补光参数,使用样本的输入范围和补光参数对第二深度神经网络的输出进行验证;利用神经网络模型的反向传播特性,得到第三卷积神经
网络输出的图像特征的验证数据,使用该图像特征的验证数据作为标签对第三卷积神经网络进行训练。
73.仅作为示例的,可以基于大量带有标签的训练样本训练初始第二深度神经网络和初始第三卷积神经网络。具体的,将多组训练样本输入初始评估模型,基于样本的输入范围、补光参数和初始评估模型的输出建立损失函数对评估模型的参数进行更新,直到预设条件被满足,训练完成,得到训练好的评估模型。其中,预设条件可以是损失函数小于阈值、收敛,或训练周期达到阈值。
74.在一些实施例中,评估模型的训练样本至少可以包括多组手部相对位置图像、手势输入环境的背景图像、用户习惯的手势输入幅度、用户习惯的光照数据。训练标签可以是每一组训练样本对应的输入范围和补光参数。标签可以通过人工标注获取。
75.通过上述训练方式获得第三卷积神经网络的参数,在一些情况下有利于解决单独训练第三卷积神经网络时难以获得标签的问题,还可以使第三卷积神经网络能较好地得到反映多个手部相对位置图像和背景图像特征的数据。
76.本说明书一些实施例通过将用户习惯的手势输入幅度、光照数据作为确定环境评估数据的依据,可以为用户提供个性化的输入环境。同时,通过评估模型确定环境评估数据,可以利用机器学习模型的自学习能力,在大量用户数据和背景数据中找到规律,对用户输入环境进行评估,提高评估的效率和准确率。
77.步骤320,获取用户的登录手势并进行手势识别,确定用户是否可以登录虚拟会议空间;登录手势的获取与环境评估数据相关。
78.登录手势可以是指用于登录虚拟会议空间时的手势动作信息。例如,登录手势可以包括用户手势比划的数字、文字、图案等图像信息。又例如,登录手势可以是用户比划手势时的视频信息。在一些实施例中,登录手势可以由用户进行比划输入,通过摄像装置拍摄获取。
79.在一些实施例中,用户的登录手势的获取与环境评估数据相关。在一些实施例中,用户在环境评估数据中的输入范围内通过手势比划输入登录手势,同时,光照装置根据环境评估数据中的补光参数进行补光,确保用户在适宜的光照条件下进行手势输入。其中,光照装置可以安装在用户穿戴的xr设备上。
80.虚拟会议空间可以是指通过3d建模等构建的虚拟的会议空间。例如,远程的虚拟医疗会诊会议空间、虚拟学术讨论会议空间等。
81.在一些实施例中,手势识别可以基于多种方式实现。例如,用户登录确定模块可以基于登录手势、存储器存储的参考登录信息,进行手势识别。在一些实施例中,用户登录确定模块可以基于用户比划手势的视频信息提取关键帧并进行图像分析,得到手势动作数据,再与存储器存储的登录信息对比,进行手势识别。
82.在一些实施例中,手势识别模型可以对用户登录手势进行处理,确定登录手势对应的语义特征进而实现手势识别,其中手势识别模型可以由第一卷积神经网络和第一深度神经网络组成。在一些实施例中,第一卷积神经网络的输入为摄像装置获取的手势图像,输出为手势运动轨迹数据,第一深度神经网络的输入为第一卷积神经网络输出的手势运动轨迹数据,输出为用户登录手势对应的语义特征。
83.在一些实施例中,还可以基于第二卷积神经网络提取用户登录手势特征向量,基
于登录手势特征向量进行检索,确定登录手势对应的手势特征,进而实现手势识别。
84.更多关于手势识别的内容可以参见图4、图5及其相关描述。
85.在一些实施例中,用户登录确定模块可以基于对获取的用户登录手势的手势识别,确定当前用户是否可以登录虚拟会议空间。
86.在一些实施例中,用户登录确定模块可以基于用户登录手势的手势识别,确定识别结果。在一些实施例中,用户登录确定模块可以基于对用户登录手势的手势识别,确定手势的语义特征和手势特征。例如,用户登录确定模块可以通过手势识别,识别出登录手势的语义特征为数字1234。又例如,用户登录确定模块可以通过手势识别,识别出登录手势的手势特征对应的手势特征向量。
87.在一些实施例中,用户登录确定模块可以基于对识别结果进行验证,确定用户是否可以登录虚拟会议空间。在一些实施例中,用户登录识别模块可以基于识别出的语义特征和手势特征,与存储的预设登录语义特征和手势特征进行对比,确定用户是否可以登录虚拟会议空间。例如,识别出的登录手势的语义特征为数字1234,存储的预设登录语义特征也为1234,将两者进行对比,若对比结果一致,则语义特征识别成功,用户可以登录虚拟会议空间。又例如,识别出的登录手势的手势特征,与存储的预设登录手势特征进行对比,两者匹配(一致)时,手势特征识别成功,用户可以登录虚拟会议空间。
88.在一些实施例中,用户登录确定模块可以基于手势识别确定的手势语义特征和基于手势识别确定的手势特征共同确定是否可以登录虚拟会议空间。例如,只有当登录手势的语义特征和手势特征均识别成功时,用户才可以登录虚拟会议空间。更多关于确定是否可以登录虚拟会议空间的内容可以参见图5及其相关描述。
89.步骤330,响应于用户可以登录虚拟会议空间,获取用户交互手势,用户交互手势的获取与环境评估数据相关。
90.交互手势可以是指用于在虚拟会议空间中与其他用户或模型进行交互时的手势动作信息。例如,交互手势可以包括用户比划的动作手势图像(例如,放大、缩小、拉近等)、用户比划的包含文字信息的手势图像等。又例如,交互手势可以是用户比划的连续手势的视频信息。在一些实施例中,交互手势可以由用户比划输入,通过摄像装置拍摄获取。
91.在一些实施例中,用户的交互手势的获取与环境评估数据相关。在一些实施例中,用户在环境评估数据中的输入范围内通过手势比划输入交互手势,同时,光照装置根据环境评估数据中的补光参数进行补光,确保用户在适宜的光照条件下进行手势输入。其中,光照装置可以安装在用户穿戴的xr设备上。
92.步骤340,基于对交互手势的手势识别,实现用户与虚拟会议空间内的虚拟场景的交互。
93.在一些实施例中,交互手势获取模块可以基于用户输入的交互手势、存储器存储语义信息,进行手势识别。在一些实施例中,交互手势获取模块可以基于用户比划手势的视频信息提取关键帧并进行图像分析,得到手势动作数据,再与存储器存储的交互信息对比,进行手势识别。在一些实施例中,交互手势获取模块可以通过手势识别模型对交互手势、存储器存储语义信息的处理,确定手势识别结果。更多关于手势识别的内容可以参见图4及其相关描述。
94.虚拟场景是指通过对真实场景进行建模形成的场景。在一些实施例中,虚拟场景
可以是软件应用的多种可以在虚拟会议空间展示的3d场景。例如,以手术场景为例,虚拟场景可以是对真实手术场景进行建模形成的可以在虚拟会议空间展示的场景。
95.在一些实施例中,xr交互实现模块可以基于对用户交互手势的手势识别,实现与虚拟会议空间内的虚拟场景的交互。在一些实施例中,xr交互实现模块可以基于手势识别出的操作信息或语义信息,与虚拟会议空间内的虚拟场景交互。例如,可以基于手势识别出的将手术场景放大、缩小、距离拉近等操作信息,对手术场景进行对应的操作,显示与操作信息对应的效果。又例如,可以基于手势识别出的语义信息,在虚拟操作场景的相应位置显示语义信息,即将语义信息中的文字等信息显示在虚拟操作场景的相应位置,方便其他用户观看。更多关于基于手势交互信息的手势识别,与虚拟场景交互的内容可以参见图6及其相关描述。
96.本说明书一些实施例基于用户数据、背景数据确定环境评估数据,可以为用户提供个性化的、适宜的手势输入环境;基于对登录手势的识别,确定是否能登录虚拟会议空间,提高登录识别的准确性与安全性;同时,基于对交互手势的识别,实现与虚拟会议空间中的虚拟场景进行交互,可以通过演示等方式使会议简单生动。
97.图4是根据本说明书一些实施例所示的xr手势输入实现方法的手势识别模型示意图。在一些实施例中,手势识别模型400可以由处理设备110执行。
98.在一些实施例中,用户的登录手势、用户的交互手势基于摄像装置采集的手势图像获得;手势识别包括:基于手势识别模型对手势图像的处理,获取手势识别结果。
99.摄像装置可以是用于拍摄图像的装置,可以包括360
°
全景摄像头、定焦摄像头、变焦摄像头等。在一些实施例中,摄像装置可以包括一个摄像头,也可以包括多个摄像头,这些摄像头的功能和/或位置可以相同,也可以不相同。在一些实施例中,摄像装置可以用于拍摄用户的手势图像。其中,手势图像可以是静态图像,也可以是动态图像。
100.手势识别可以用于识别用户手势动作的特征,确定手势信息。其中,手势信息可以包括语义特征和手势特征。在一些实施例中,手势识别可以包括基于获取到的手势图像,利用手势识别模型对用户的手势图像进行分析、识别,获取语义特征,此时用户手势的语义特征即为手势识别结果。
101.在一些实施例中,手势识别还可以包括基于第二卷积神经网络模型与基于手势特征向量检索的方式对手势图像进行处理,确定手势特征,此时用户手势的手势特征即为手势识别结果。关于手势特征向量的内容可以参见图4及其相关描述。关于语义特征和手势特征的内容可以参见图5及其相关描述。
102.手势识别模型可以是用来识别手势信息中的语义特征的机器学习模型。
103.在一些实施例中,手势识别模型为神经网络模型,例如长短期记忆网络(long short-term memory,lstm)、卷积神经网络(convolutional neural networks,cnn)、深度神经网络(deep neural networks,dnn)等一种或多种的组合。
104.在一些实施例中,可以基于若干带有标签的训练样本训练手势识别模型。具体的,将带有标签的训练样本输入手势识别模型,通过训练更新手势识别模型的参数。在一些实施例中,训练样本可以包括若干手势图像,训练样本的标签可以包括各手势图像对应的语义特征。在一些实施例中,训练样本和标签可以通过网络从存储设备中获取,也可以由人工根据历史识别情况进行标定。在一些实施例中,可以基于训练样本,通过各种方法进行训
练。例如,可以基于梯度下降法进行训练等。
105.在一些实施例中,手势识别模型可以对手势图像进行处理,确定语义特征。如图4所示,手势识别模型400可以包括第一卷积神经网络模型420和第一深度神经网络模型440。
106.在一些实施例中,第一卷积神经网络模型420可以对手势图像410进行处理,确定手势运动轨迹数据430。如图4所示,第一卷积神经网络模型420的输入可以包括手势图像410,输出可以包括手势运动轨迹数据430。其中,手势运动轨迹数据430可以是手势运动过程形成的运动轨迹的相关数据,例如轨迹图形、轨迹点坐标等。
107.在一些实施例中,第一深度神经网络模型440可以对手势运动轨迹数据430进行处理,确定语义特征450。如图4所示,第一深度神经网络模型440的输入可以包括手势运动轨迹数据430,输出可以包括语义特征450。
108.在一些实施例中,手势识别模型400可以通过对第一卷积神经网络模型420和第一深度神经网络模型440进行联合训练获取。在一些实施例中,可以将训练样本输入初始第一卷积神经网络模型420,将初始第一卷积神经网络模型420的输出输入初始第一深度神经网络模型440,基于初始第一深度神经网络模型440的输出和标签构建损失函数,并基于损失函数迭代更新初始第一卷积神经网络模型420和初始第一深度神经网络模型440的参数,直至满足预设条件,确定第一卷积神经网络模型420和深度神经网络模型440的参数,获得训练好的手势识别模型400。预设条件可以包括但不限于损失函数收敛、训练周期达到阈值等。
109.在本说明书的一些实施例中,通过利用第一卷积神经网络模型处理手势图像,确定手势运动轨迹数据,可以更好地对手势运动轨迹数据进行特征分类,再利用第一深度神经网络模型对手势运动轨迹数据进行处理,可以有效提高识别的精准度。
110.在一些实施例中,手势识别还可以包括基于第二卷积神经网络模型对手势图像进行处理,获取手势特征向量;基于手势特征向量检索用户特征数据库,确定手势特征,此时用户手势的手势特征即为手势识别结果。第二卷积神经网络模型为机器学习模型。
111.手势特征向量是指可以反映用户手势对应手势特征的向量。手势特征可以包括手势幅度、手指弯曲度等。以下仅以单手的手势特征向量为例:手势特征向量可以为(a2、b2、c2、d2、e2、f2、g2、h2、i2、j2),其中,前5个元素a-e表示五个手指的手势幅度特征,不同的幅度对应有不同的元素值,后5个元素f-j表示五个手指的弯曲度特征,不同的弯曲度对应有不同的元素值,元素值与弯曲度及手势幅度的关系可以预设。
112.在一些实施例中,第二卷积神经网络模型的输入可以包括手势图像,输出可以包括手势特征向量。第二卷积神经网络模型可以通过训练获取。训练样本可以包括若干手势图像,训练样本的标签可以包括若干手势图像对应的手势特征向量。标签可以基于人工标注获取。将训练样本输入初始第二卷积神经网络模型,基于初始第二卷积神经网络模型的输出与标签构建损失函数,基于损失函数迭代更新初始第二卷积神经网络模型的参数,直至满足预设条件时,训练结束,获取训练好的第二卷积神经网络模型。预设条件可以包括但不限于损失函数收敛、训练周期达到阈值等。
113.用户特征数据库可以是指储存有一个或多个用户特征信息的数据库。其中,用户特征信息可以是手势特征,也可以是语义特征、声音特征等其他特征信息。数据库中储存的用户特征数据的形式不限,数据可以以向量的形式储存,也可以是图像、文本等其他形式。
用户特征数据库可以通过提前录入用户特征信息,也可以在后期用户登录设备时储存每一次的用户特征信息,以不断扩充数据库。
114.在一些实施例中,处理设备可以基于手势特征向量在用户特征数据库中检索得到参考特征向量。例如,处理设备可以基于手势特征向量在用户特征数据库中检索,将满足预设条件的特征向量确定为参考特征向量。其中,预设条件可以是向量相似度不低于预设相似度阈值。向量相似度可以基于向量距离等方式确定。向量距离可以为余弦距离等。在一些实施例中,处理设备可以基于手势特征向量在用户特征数据库中检索出一个或多个参考特征向量。
115.在一些实施例中,处理设备可以基于参考特征向量,确定手势特征。在一些实施例中,当没有检索出参考特征向量时,手势特征识别失败。在一些实施例中,当只检索出一个参考特征向量时,手势特征识别成功,处理设备将该参考特征向量对应的手势特征作为手势识别结果。在一些实施中,当检索出多个参考特征向量时,手势特征识别成功,处理设备可以将向量距离最小的参考特征向量对应的手势特征作为手势识别结果。
116.在一些实施例中,当手势特征识别成功时,处理设备将基于用户所处的操作状态进行处理。例如,用户处于登录状态,处理设备将基于手势特征与数据库中的预设登录手势进行校验,若校验一致,则手势校验通过,处理设备将进一步校验用户手势的语义特征,若语义特征也校验通过,则可以成功登录,此时处理设备会将用户的手势特征、语义特征存储在数据库中,以便下一次识别时使用。其中,预设登录手势可以是预先录入系统并储存在数据库中的手势信息。手势特征、语义特征的校验可以同时进行,也可以分开进行,此处不作过多限制。
117.又如,用户处于交互状态时,处理设备可以根据用户手势对应的手势特征,确定交互时对应的操作信息。更多关于操作信息的内容可以参见图6及其相关描述。
118.在本说明书的一些实施例中,通过手势特征向量检索的方式,确定手势识别结果,可以提高手势识别的效率。
119.本说明书的一些实施例除了采用手势识别模型的方式之外,还利用特征向量检索的方式进行手势识别,不仅可以提高识别的效率,而且还有利于识别精准度的提高。
120.图5是根据本说明书一些实施例所示的确定当前用户是否可以登录虚拟会议空间的示例性流程图。在一些实施例中,流程500由用户登录确定模块230执行。如图5所示,流程500可以包括如下步骤:
121.步骤510,基于摄像装置采集用户登录手势图像。
122.登录手势图像是指用户用于登录虚拟会议空间时比划的手势图片或视频。例如,登录手势图像可以是用户登录时比划的数字手势图像、文字手势图像、平面图形手势图像、立体图形手势图像等。又例如,登录手势图像可以是用户连续比划的手势视频。
123.在一些实施例中,用户登录确定模块可以基于摄像装置采集用户登录手势图像。在一些实施例中,当用户比划登录手势时,可以通过摄像装置拍摄采集登录手势图像。其中,摄像装置可以安装在用户穿戴的xr设备上,也可以安装在其他可以拍摄用户手势图像的位置。
124.在一些实施例中,摄像装置的采集参数基于环境评估数据确定。
125.采集参数是指摄像装置采集手势图像时的相关参数。例如,采集参数可以包括摄
像头的旋转角度等。
126.在一些实施例中,摄像装置的采集参数可以基于环境评估数据中的输入范围确定。例如,摄像头的旋转角度可以基于摄像头的位置、输入范围的中心位置、摄像头正前方与输入范围处于同一平面的位置,通过余弦公式确定摄像头的旋转角度。示例性的,可以为前述三个位置分别命名为位置a、b、c,设置位置ab间的距离为c,位置ac间的距离为b,位置bc间的距离为a,设置位置a对应的角度为∠a,位置b对应的角度为∠b,位置c对应的角度为∠c,则计算摄像头的旋转角度∠a的余弦公式为:cos a=(b2 c
2-a2)/2bc。在一些实施例中,各个位置间的距离a,b,c可以基于各个位置的位置坐标进行计算。
127.在本说明书一些实施例中,通过环境评估数据中的输入范围确定摄像头拍摄时的旋转角度,可以使摄像头在较为准确的角度方向进行拍摄,获得质量较好的手势图像,以便提升手势识别的准确度及识别效率。
128.步骤520,基于用户登录手势图像获取语义特征、手势特征。
129.语义特征是指登录手势图像中的手势表达的语义信息。例如,语义特征可以包括手势比划反映的数字、文字、图案等信息。
130.手势特征是指用户手势输入时手指的动作特征,如手指的姿态、幅度等特征。例如,手势特征可以包括用户手势输入时的手势幅度、手指弯曲度等。在一些实施例中,登录手势图像的手势特征与用户对应,即用户不同时手势特征可能不同。
131.在一些实施例中,用户登录确定模块可以基于登录手势图像获取手势的语义特征。在一些实施例中,用户登录确定模块可以通过手势识别模型对登录手势图像进行处理,得到语义特征。更多关于通过手势识别模型获取语义特征的内容可以参见图4及其相关描述。
132.在一些实施例中,用户登录确定模块可以基于登录手势图像获取手势特征。在一些实施例中,用户登录确定模块可以通过第二卷积神经网络对手势登录图像进行处理,得到手势特征对应的手势特征向量。更多关于通过第二卷积神经网络获取手势特征向量的内容可以参见图4及其相关描述。
133.步骤530,判断语义特征是否满足第一预设条件。
134.第一预设条件是指预设的语义特征需要满足的条件。例如,第一预设条件可以是所有登录手势图像的语义特征与存储的用于登录识别的参考语义特征均要匹配。示例性的,假设有4张登录手势图像,分别表示的语义特征数字1122,而存储器存储的用于登录识别的参考语义特征也为1122,则表示语义特征均为匹配。在一些实施例中,登录手势图像的语义特征与参考语义特征的顺序是一一对应的。例如,第一张登录手势图像的语义特征与第一个参考语义特征对应。
135.在一些实施例中,用户登录确定模块可以基于登录手势图像的语义特征与参考语义特征对比,判断语义特征是否满足第一预设条件。其中,参考语义特征可以由用户提前录入存储。在一些实施例中,当所有登录手势图像的语义特征均与参考语义特征依次匹配时,判断语义特征满足第一预设条件。例如,根据用户输入登录手势图像的顺序,对应的语义特征分别为数字1234,存储的参考语义特征按照录入顺序依次也为1234,则判断语义特征满足第一预设条件。
136.步骤540,判断手势特征是否满足第二预设条件。
137.第二预设条件是指预设的手势特征需要满足的条件。例如,第二预设条件可以是登录手势图像的手势特征向量与存储的手势特征向量的相似度不低于90%。
138.在一些实施例中,用户登录识别模块可以基于当前登录手势图像的手势特征向量与存储的参考手势特征向量的相似度,判断手势特征是否满足第二预设条件。在一些实施例中,当相似度阈值大于等于90%时,判断手势特征满足第二预设条件。
139.步骤550,响应于第一预设条件、第二预设条件被满足,确定当前用户可以登录虚拟会议空间。
140.在一些实施例中,响应于语义特征满足第一预设条件、手势特征满足第二预设条件,用户登录确定模块可以确定当前用户可以登录虚拟会议空间。
141.本说明书一些实施例通过设置第一预设条件和第二预设条件,分别对登录手势图像的语义信息和手势信息进行匹配,当语义信息和手势信息都满足预设条件时,用户才能登录虚拟会议空间,提高了登录的安全性。
142.图6是根据本说明书一些实施例所示的与虚拟会议空间内的虚拟场景交互的示例性流程图。在一些实施例中,流程600可以由xr交互实现模块250执行。如图6所示,流程600可以包括如下步骤:
143.步骤610,获取目标体的建模数据,基于建模数据创建目标体的三维模型。
144.目标体可以是指需要进行实际操作的对象。例如,人体、物体的整体或部分。例如,以医疗行业中的手术为例,在实际手术场景中,目标体可以是需要进行手术治疗的人体或动物体的组织、器官、身体结构等,如,心脏、肺部、胃部、皮肤、骨骼等。
145.在一些实施例中,目标体还可以是其他需要进行实际操作的对象,例如,需要进行修理的汽车的发动机、电气设备等,本说明书对此不做限制。
146.建模数据可以是指用于建立三维模型所需的目标体的相关数据。例如,建模数据可以包括目标体的图像数据、尺寸数据、颜色、结构分布等。示例性的,建模数据可以是心脏器官的图像、尺寸、颜色、血管分布、心室、瓣膜等。
147.在一些实施例中,建模数据为目标体的全方位图片,可以基于摄像装置获取,如全景相机等。
148.全方位图片是指目标体的各个方位的图片。例如,全方位图片可以是目标体的360度方位的图片。
149.摄像装置可以是指用于拍摄目标体的全方位图片的摄像头。更多关于摄像装置的内容可以参见图4及其相关描述。
150.在一些实施例中,xr交互实现模块可以基于摄像装置获取建模数据。在一些实施例中,xr交互实现模块可以基于多个摄像装置获取目标体的全方位图片。例如,可以将每个摄像装置拍摄的图片汇总,得到目标体的全方位图片。
151.在本说明书一些实施例中,将目标体的全方位图片作为建模数据,可以利用全方位图片的全面性,使建立的三维模型更加精准,贴合真实目标体。
152.在一些实施例中,摄像装置的摄像参数基于评估模型获取。
153.摄像参数是指摄像装置拍摄目标体时的相关参数。例如,摄像参数可以包括摄像装置的拍摄范围和拍摄角度等。
154.在一些实施例中,评估模型可以对拍摄环境的相关数据进行处理,确定摄像装置
的拍摄范围。在一些实施例中,可以将摄像头拍摄的环境图像、目标体的相对位置图像输入评估模型的第三卷积神经网络中,得到环境图像特征、目标体的相对位置图像的图像特征,再将环境图像特征、目标体的相对位置图像的图像特征、操作场景的面积输入评估模型的第二深度神经网络中,得到摄像装置的拍摄范围。
155.在一些实施例中,确定摄像参数的评估模型的训练可以采用与确定环境评估数据的评估模型相同的训练方法实现,具体可以参见图3中步骤310及其相关描述。在一些实施例中,在对确定摄像参数的评估模型进行训练时,与训练确定环境评估数据的评估模型的区别在于,训练样本可以包括多组摄像头拍摄的环境图像、操作场景的相对位置图像、操作场景的面积,标签为每组训练样本对应的拍摄范围,可以由人工标注。
156.在一些实施例中,可以基于拍摄范围,确定摄像装置的拍摄角度。在一些实施例中,可以基于每个摄像头与操作场景的相对位置,确定摄像头的拍摄角度。例如,可以基于摄像头与操作场景的相对位置,将摄像头的拍摄角度确定为正对操作场景的角度。在一些实施例中,可以基于摄像头与操作场景的相对位置的实时变化,实时调整摄像头的拍摄角度。例如,以手术场景为例,医护人员在手术过程中,位置可能会发生改变,则医护人员佩戴的摄像头与手术场景的相对位置也会随之改变,可以基于改变实时调整摄像头拍摄角度,使摄像头保持正对手术场景的角度进行拍摄。
157.目标体的三维模型可以是指对目标体进行3d建模得到的模型。
158.在一些实施例中,可以基于建模数据创建目标体的三维模型。在一些实施例中,可以基于建模数据,通过3d建模技术、全息投影技术等方式创建目标体的三维模型。例如,可以基于目标体的全方位图片,通过全息投影技术创建三维模型。
159.步骤620,基于对用户交互手势的手势识别,确定操作信息。
160.操作信息可以是指对三维模型进行的各种手势操作对应的信息。例如,操作信息可以包括将三维模型进行放大、缩小、将三维模型拉近、对三维模型进行切割等手势信息。
161.在一些实施例中,xr交互实现模块可以基于对用户交互手势的手势识别,确定操作信息。更多关于手势识别的内容可以参见图4及其相关描述。
162.步骤630,将作用于三维模型的手势信息进行显示。
163.将作用于三维模型的手势信息进行显示可以是指通过三维成像等方式,将操作对应的手势信息与三维模型融合显示,用户可以看到其他用户在三维模型上所作的手势操作或演示。
164.在一些实施例中,步骤630可以通过步骤632和步骤634实现:
165.步骤632,获取操作信息作用于三维模型后的虚拟操作图像。
166.虚拟操作图像可以是指虚拟的手势图像。例如,虚拟操作图像可以包括虚拟的放大、收缩、拉近三维模型、切割三维模型的手势图像。
167.操作信息作用于三维模型可以是指可以通过操作信息对三维模型进行控制。例如,将三维模型放大、缩小、切割、缝合等。
168.在一些实施例中,xr交互实现模块可以获取操作信息作用于三维模型后的虚拟操作图像。在一些实施例中,xr交互实现模块可以基于操作信息更改相应的建模数据,实时呈现虚拟操作图像。例如,xr交互实现模块可以基于操作信息为将三维模型放大,更改建模数据为放大三维模型,实时呈现放大的三维模型。
169.步骤634,将虚拟操作图像以三维成像的方式在实际操作场景和/或虚拟操作场景的第一预设位置进行三维成像。
170.虚拟操作场景可以是指在虚拟会议空间中通过虚拟技术构建的操作场景。在一些实施例中,虚拟操作场景可以包括软件应用的多种3d操作场景。例如,虚拟的心脏手术操作场景、汽车修理操作场景、教师上课演示场景等。
171.实际操作场景可以是指真实的操作场景。例如,真实的心脏手术场景、真实的汽车修理操作场景、真实教师上课场景等。
172.第一预设位置可以是指预设的进行三维成像的位置。例如,手势输入的位置,操作场景的位置等。
173.在一些实施例中,第一预设位置可以基于用户手势输入位置、实际操作场景位置确定。
174.用户手势输入位置可以是指用户输入操作信息对应的手势时的手部位置坐标。
175.实际操作场景位置可以是指实际的操作场景所在的位置坐标。
176.在一些实施例中,可以基于用户手势输入位置将第一预设位置确定为手势输入位置的正前方或正上方一定距离内(例如,10cm),便于演示医生进行操作演示。
177.在一些实施例中,可以基于实际操作场景位置将第一预设位置确定为实际操作场景位置的正前方或正上方一定距离内(例如,0.5m),便于实际进行操作的人员观看。
178.在本说明书一些实施例中,通过用户手势输入位置和实际操作场景位置确定第一预设位置,可以使三维成像的位置更加灵活,便于实际进行的xr会议时根据实际情况调整三维成像的位置,提高xr会议质量。
179.在一些实施例中,xr交互实现模块可以将虚拟操作图像以三维成像的方式在实际操作场景和/或虚拟操作场景的第一预设位置进行三维成像。
180.本说明书一些实施例通过对操作场景和目标体进行建模,用户可以通过输入交互手势图像,对虚拟操作场景和虚拟目标体进行各种演示操作,可以提高各种操作讨论会议的质量和效率。
181.在一些实施例中,流程600还可以包括下述步骤:
182.步骤640,在操作场景显示语义信息。
183.在操作场景显示语义信息可以是指通过三维成像和手势识别技术,可以将语义信息显示在实际操作场景或虚拟操作场景,使演示时其他用户可以更直观、具体的理解演示用户对目标体进行的具体操作内容。
184.在一些实施例中,步骤640可以基于步骤642和步骤644实现:
185.步骤642,获取操作信息的语义信息。
186.语义信息可以是指操作信息对应的手势图像的语义含义及其他用户输入的与操作信息相关的手势图像的语义含义。例如,语义信息可以包括放大、收缩、旋转、切割、缝合三维模型的语义,即“放大三维模型”等。又例如,语义信息可以包括与操作信息相关的手势图像的语义含义,如切割三维模型时,相关语义含义可以是“从目标体上三分之一处切割”等。
187.在一些实施例中,可以基于手势识别的方式获取操作信息的语义信息。在一些实施例中,可以通过手势识别模型获取操作信息的语义信息。在一些实施例中,还可以基于向
量检索的方法获取操作信息的语义信息。更多关于手势识别的内容可以参见图4及其相关描述。
188.步骤644,将语义信息在实际操作场景和/或虚拟操作场景的第二预设位置进行显示。
189.第二预设位置可以是指预设的显示语义信息的位置坐标。例如,第二预设位置可以是实际操作场景和/或虚拟操作场景中的目标体上下左右距目标体一定距离(例如,5cm)的位置。
190.在一些实施例中,可以基于实际操作场景和/或虚拟操作场景中目标体的位置坐标确定第二预设位置。例如,确定了目标体的位置坐标后,在位置坐标的z值和y值分别加减5cm即可确定第二预设位置。
191.在一些实施例中,可以将语义信息在实际操作场景和/或虚拟操作场景的第二预设位置进行显示。在一些实施例中,可以通过虚拟面板等方式,将语义信息显示在第二预设位置的虚拟面板上。
192.本说明书一些实施例通过将操作信息的语义信息在实际操作场景和/或虚拟操作场景的第二预设位置进行显示,可以使观看者更加直观的理解操作演示内容,提高演示的质量和效率。
193.本说明书提供了一种xr手势输入方法和系统,通过利用手势识别模型及基于向量检索的方式,可以有效提高手势识别的效率和准确率;在用户登录时采用双重校验的方式,可以确保登录的安全性;基于对交互手势的识别,实现与虚拟会议空间中的虚拟场景进行交互,可以有效解决现有xr技术中交互操作方式复杂等问题。
194.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
195.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
196.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
197.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要
求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
198.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
199.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
200.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献