一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

手势识别方法、装置、电子设备及存储介质与流程

2022-11-09 22:58:30 来源:中国专利 TAG:


1.本技术涉及深度学习技术领域,具体而言,涉及一种手势识别方法、装置、电子设备及存储介质。


背景技术:

2.随着深度学习以及神经网络技术的快速发展,手势识别由于其便捷性被广泛的应用在智能家电、游戏交互、ar(augmented reality,增强现实)/vr(virtual reality,虚拟现实)交互、智能手机操纵等场景中,用户体验的好坏很大程度上取决于手势识别的精确度。
3.目前大部分的手势识别方案是利用预先标注了手势类别的样本手势图像训练得到的网络模型进行手势识别。
4.但是,上述方式无法感知不同手势之间的细微差异,导致手势识别结果的精确度较差。


技术实现要素:

5.本技术的目的在于,针对上述现有技术中的不足,提供一种手势识别方法、装置、电子设备及存储介质,以便于解决现有技术中不同手势差异无法感知,手势识别结果精确度较差的问题。
6.为实现上述目的,本技术实施例采用的技术方案如下:
7.第一方面,本技术实施例提供了一种手势识别方法,包括:
8.获取至少一帧待识别手势图像;
9.采用预先训练的手势识别模型,识别各所述待识别手势图像的感知编码,并基于所述感知编码识别获取所述至少一帧待识别手势图像的手势识别结果,所述感知编码用于表征所述待识别手势图像中的手势在预设空间中的位置信息。
10.第二方面,本技术实施例还提供了一种手势识别装置,包括:获取模块、识别模块;
11.所述获取模块,用于获取至少一帧待识别手势图像;
12.所述识别模块,用于采用预先训练的手势识别模型,识别各所述待识别手势图像的感知编码,并基于所述感知编码识别获取所述至少一帧待识别手势图像的手势识别结果,所述感知编码用于表征所述待识别手势图像中的手势在预设空间中的位置信息。
13.第三方面,本技术实施例提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行如第一方面中提供的方法的步骤。
14.第四方面,本技术实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面提供的方法的步骤。
15.本技术的有益效果是:
16.本技术提供一种手势识别方法、装置、电子设备及存储介质,该方法包括:获取至
少一帧待识别手势图像;采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。本方法通过所训练的手势识别模型,提取待识别手势图像的感知编码作为待识别手势图像的特征信息,由于感知编码表征的是手势在预设空间中的位置信息,不同的手势对应的位置信息不同,也即,不同的手势均有唯一对应的感知编码,即使是具有细微差异的手势,也可分别得到各手势的感知编码,从而基于感知编码可进行精确的手势图像识别。通过引入感知编码作为手势图像的特征信息,可有效提高手势识别的感知能力,识别到不同手势之间的细微差异,从而提高了手势图像识别结果的精确性。
17.其中,可通过训练的手势识别模型中的手势感知编码网络进行手势图像的感知编码的提取,手势感知编码网络由所构建的手势三元组训练得到,在训练的过程中,基于将相似的手势的感知编码在连续表征空间中的距离拉近,将不相似的手势的感知编码在连续表征空间中的距离拉远,以使得相似的手势之间的距离小于不相似的手势之间的距离的修正原则,使得训练得到的手势感知编码网络可对相似手势之间的细微差异进行感知,从而提高了手势图像识别结果的精确性。
附图说明
18.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
19.图1为本技术实施例提供的一种手势识别方法的流程示意图;
20.图2为本技术实施例提供的另一种手势识别方法的流程示意图;
21.图3为本技术实施例提供的一种手势识别系统的架构示意图;
22.图4为本技术实施例提供的又一种手势识别方法的流程示意图;
23.图5为本技术实施例提供的另一种手势识别方法的流程示意图;
24.图6为本技术实施例提供的另一种手势识别方法的流程示意图;
25.图7为本技术实施例提供的又一种手势识别方法的流程示意图;
26.图8为本技术实施例提供的另一种手势识别方法的流程示意图;
27.图9为本技术实施例提供的一种手势识别结果示意图;
28.图10为本技术实施例提供的一种手势识别装置的示意图;
29.图11为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
30.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺
序或者同时实施。此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
31.另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.为了使得本领域技术人员能够使用本技术内容,结合特定应用场景“手势识别”,给出以下实施方式。对于本领域技术人员来说,在不脱离本技术的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本技术主要围绕手势识别进行描述,但是应该理解,这仅是一个示例性实施例。本技术可以应用于任何其他对象的识别场景。例如,本技术可以应用于表情识别、人脸识别等一些识别场景。
33.需要说明的是,本技术实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
34.图1为本技术实施例提供的一种手势识别方法的流程示意图;本方法的执行主体可以是计算机设备。如图1所示,该方法可包括:
35.s101、获取至少一帧待识别手势图像。
36.本方法即可用于对单帧手势图像的识别,也可用于对连续多帧手势图像的识别,当用于对连续多帧手势图像的识别时,可以理解为是对动态手势图像的识别。
37.至少一帧待识别手势图像可以是从视频中实时截取,也可以是直接获取预先拍摄并存储至数据库中的手势图像。
38.s102、采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。
39.本实施例中可采用手势识别模型对至少一帧待识别手势图像进行手势识别,具体是对待识别手势图像中手势类别进行识别,以确定待识别手势图像中的手势属于哪种手势,例如:握拳、比耶、挥手等。
40.手势识别模型可基于所输入的各待识别手势图像,提取各待识别手势图像的感知编码作为各待识别手势图像的特征信息,并根据各待识别手势图像的感知编码进行手势类别识别,以得到至少一帧待识别手势图像的手势识别结果。
41.其中,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息,这里的位置信息既可以指单个手势在空间中的绝对位置信息,也可以指不同手势在空间中的相对位置信息。不同的手势在预设空间中的位置信息是唯一的。
42.在一些应用场景下,当对至少一帧待识别手势图像直接进行手势识别时,可基于所提取的各待识别手势图像的感知编码,确定各待识别手势图像中的手势在预设空间中的绝对位置信息,从而根据该绝对位置信息,确定各待识别手势图像中手势的类别。
43.在另一些应用场景下,若给定包含有目标手势的手势图像或者是一段包含目标手势的图像视频,当需要从给定的另一段视频或者是从数据库中找到与所给定的目标手势相同或相似的待选手势,则可基于所提取的目标手势的感知编码、以及提取的各待选手势的
感知编码,确定目标手势的感知编码与各待选手势的感知编码的绝对位置信息,将与目标手势的绝对位置距离最近的待选手势作为最终所要提取出的待选手势。
44.由于不同的手势在预设空间中的位置是唯一的,不同手势的感知编码也是唯一的,即使是较相似的手势,其都有唯一对应的感知编码,从而基于提取的各待识别手势图像的感知编码,可唯一的识别得到各手势图像中手势的类别,包括对相似度较高的手势同样也可根据其感知编码进行精确识别。
45.相较于现有技术中,通过对不同手势图像进行类别标注,训练获取识别模型,并采用识别模型进行手势识别,在识别过程中是通过所提取到的手势图像中的具体手势,将该手势所对应的类别作为识别结果。当两种手势较相似时,则很容易得到相同的识别结果,也即无法对具有细微差异的手势图像进行精确识别。
46.由于不同的手势对应的感知编码是唯一的,从而基于感知编码进行手势图像的识别,可对具有细微差异的手势也进行准确识别,从而有效提高了手势识别结果的精确性。
47.综上,本实施例提供的手势识别方法,包括:获取至少一帧待识别手势图像;采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。本方法通过所训练的手势识别模型,提取待识别手势图像的感知编码作为待识别手势图像的特征信息,由于感知编码表征的是手势在预设空间中的位置信息,不同的手势对应的位置信息不同,也即,不同的手势均有唯一对应的感知编码,即使是具有细微差异的手势,也可分别得到各手势的感知编码,从而基于感知编码可进行精确的手势图像识别。通过引入感知编码作为手势图像的特征信息,可有效提高手势识别的感知能力,识别到不同手势之间的细微差异,从而提高了手势图像识别结果的精确性。
48.图2为本技术实施例提供的另一种手势识别方法的流程示意图;可选地,上述的手势识别模型可包括:手势感知编码网络和手势判别器。如图2所示,步骤s102中,采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,可以包括:
49.s201、将至少一帧待识别手势图像输入手势感知编码网络,提取各待识别手势图像的感知编码。
50.本实施中手势识别模块可以由两部分组成,第一部分为手势感知编码网络,用于对待识别手势图像进行特征提取,以提取待识别手势图像的感知编码,第二部分可以为手势判别器,可以根据待识别手势图像的感知编码进行手势识别。
51.图3为本技术实施例提供的一种手势识别系统的架构示意图;手势识别模型中的手势感知编码网络可置于手势判别器的前端。至少一帧待识别手势图像作为输入数据输入手势感知编码网络,手势感知编码网络提取各待识别手势图像的感知编码作为各待识别手势图像的特征信息。
52.s202、将各待识别手势图像的感知编码输入手势判别器,依次识别获取各待识别手势图像的手势识别结果。
53.手势感知编码网络输出的各待识别手势图像的感知编码作为输入数据,输入至连接在其后端的手势判别器中,手势判别器则可基于各待识别手势图像的感知编码,得到各待识别手势图像的手势识别结果,也即得到各待识别手势图像中各手势的手势类别,并将
手势识别结果输出。
54.可选地,手势识别模型也可仅包含手势判别器,上述的手势感知编码网络可以为独立于手势识别模型之外的网络,手势感知编码网络在提取到待识别手势图像的感知编码后,将待识别手势图像及各待识别手势图像的感知编码输入至手势识别模型中进行手势识别。
55.本实施例中是将手势感知编码网络作为手势识别模型中的一部分,实际应用中,即使手势感知编码网络为独立于手势识别模型之外的网络,本技术的手势识别方法同样适用。
56.图4为本技术实施例提供的又一种手势识别方法的流程示意图;可选地,上述的手势识别模型可采用如下方式训练得到:
57.s401、采集样本训练集,样本训练集中包括多个目标手势三元组,各目标手势三元组由第一手势图像、第二手势图像和第三手势图像组成,第二手势图像与第一手势图像的相似度大于第一预设阈值,第三手势图像与第一手势图像的相似度小于第二预设阈值,第一预设阈值大于第二预设阈值;各目标手势三元组具有标注信息,标注信息包括:图像相似度指示信息、以及各手势图像的手势类别。
58.本实施例中是将预先构建的目标手势三元组作为一个训练样本,由多个目标手势三元组组合得到样本训练集。
59.每个目标手势三元组中可包括三张手势图像,其中,第一手势图像与第二手势图像的相似度大于第一预设阈值,第三手势图像与第一手势图像的相似度小于第二预设阈值,第一预设阈值大于第二预设阈值。
60.可以理解为,将第一手势图像作为目标手势图像,第二手势图像与第一手势图像的相似度较高,第二手势图像作为与目标手势图像相似的图像;第三手势图像与第一手势图像的相似度较低,第三手势图像作为与目标手势图像不相似的图像。
61.每个目标手势三元组均具有标注信息,标注信息可包括:图像相似度指示信息,图像相似度指示信息既可以指示与目标手势图像不相似的手势图像的标识,也可以指示与目标手势图像相似的手势图像的标识,也即,既可以指示目标手势三元组中第一手势图像及第三手势图像的标识,也可以指示目标手势三元组中第一手势图像及第二手势图像的标识,从而在进行训练的过程中,可根据所标注的图像相似度指示信息,精确的确定目标手势三元组中的第一手势图像、第二手势图像及第三手势图像,以用于进行手势感知编码网络的训练。
62.另外,标注信息还可包括:各手势图像的手势类别,也即,还可对目标手势三元组中第一手势图像、第二手势图像以及第三手势图像的手势类别分别进行标注,以用于进行手势判别器的训练。
63.s402、将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络。
64.基于上述所采集的样本训练集,可将其输入至初始感知编码网络中,训练得到手势感知编码网络。
65.初始感知编码网络可以理解为与最终所要训练得到的手势感知编码网络具有相同网络架构,但是初始感知编码网络的网络参数为初始默认的参数,在通过对样本训练集
数据进行学习后,可不断的调整初始默认的参数,从而得到目标网络参数,而具有目标网络参数的初始感知编码网络则作为训练得到的手势感知编码网络。
66.s403、将样本训练集作为输入数据输入手势感知编码网络,获取手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码。
67.基于训练好的手势感知编码网络,可将样本训练集重新输入手势感知编码网络中,获取手势感知编码网络提取的各目标手势三元组中各手势图像的感知编码。
68.s404、将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器。
69.在一些实施例中,可以将样本训练集、以及上述手势感知编码网络提取的各目标手势三元组中各手势图像的感知编码作为输入数据,输入至初始判别器中以训练得到手势判别器。
70.同样的,这里的初始判别器也可以理解为与最终所要训练得到的手势判别器具有相同网络架构,但是初始判别器的网络参数为初始默认的参数,在通过对输入数据进行学习后,可不断的调整初始默认的参数,从而得到目标网络参数,而具有目标网络参数的初始判别器则作为训练得到的手势判别器。
71.图5为本技术实施例提供的另一种手势识别方法的流程示意图;可选地,步骤s401中,采集样本训练集,可以包括:
72.s501、采集多个样本手势图像,并基于多个样本手势图像构建多个待选手势三元组。
73.可选地,可从手势数据库中随时进行采样,获取大量的样本手势图像,基于样本手势图像,构建满足目标手势三元组中图像条件的配对数据,也即,构建目标手势图像、相似手势图像以及不相似手势图像的配对数据,从而得到多个待选手势三元组。
74.这里之所以称为待选手势三元组,是因为构建的手势三元组并非每个都需要要求,也可能存在无效数据,需进行筛选后,从待选手势三元组中确定目标手势三元组。
75.s502、对各待选手势三元组进行有效性校验,将满足预设条件的待选手势三元组作为有效手势三元组。
76.对于各待选手势三元组,均可通过多名标注员进行信息标注,若针对任一待选手势三元组,其对应的多条标注结果一致性达到阈值,则可以认为是一条有效手势三元组,否则视为无效手势三元组。
77.例如:针对待选手势三元组1,通过6名标注员进行信息标注,得到6个标注结果,设定当6个标注结果中有4个标注结果相同时,则可认为待选手势三元组1的多条标注结果一致性达到了阈值,那么,则可以将待选手势三元组1作为有效手势三元组。
78.针对待选手势三元组2,通过6名标注员进行信息标注,得到6个标注结果,而6个标注结果中仅有3个标注结果相同,则可认为待选手势三元组2的多条标注结果一致性未达到阈值,那么,则可以将待选手势三元组2作为无效手势三元组,从待选手势三元组中筛掉。
79.s503、根据对各有效手势三元组的多条标注信息进行投票,确定各有效手势三元组的目标标注信息。
80.对于所确定的有效手势三元组,可根据对有效手势三元组的多条标注信息进行投票,从多条标注信息中确定有效手势三元组的目标标注信息。
81.例如:有效手势三元组1的6条标注结果中4条标注结果是相同的,那么,可依据少数服从多数的投票方式,将相同的4条标注结果的标注信息作为有效手势三元组的目标标注信息。
82.本实施例中仅是一种可实现的手势三元组筛选方式及标注信息确定方式。
83.s504、将各有效手势三元组以及各有效手势三元组的目标标注信息作为目标手势三元组,得到样本训练集。
84.那么,样本训练集则可由上述所确定的有效手势三元组组成,各有效手势三元组具有目标标注信息。
85.图6为本技术实施例提供的另一种手势识别方法的流程示意图;可选地,步骤s402中,将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络,可以包括:
86.s601、将样本训练集作为输入数据输入初始感知编码网络,获取初始感知编码网络输出的各目标手势三元组中各手势图像的预测感知编码。
87.可选地,可将上述得到的样本训练集输入至初始感知编码网络中,训练手势感知编码网络作为特征提取器。
88.训练时,针对输入的每个目标手势三元组《a,p,n》,其中,a表示第一手势图像,p表示第二手势图像,n表示第三手势图像,初始感知编码网络可输出对应的结果《f(a),f(p),f(n)》,其中,f(a)表示第一手势图像的预测感知编码,f(p)表示第二手势图像的预测感知编码,f(n)表示第三手势图像的预测感知编码。
89.s602、根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数。
90.针对每个目标手势三元组,可根据每个目标手势三元组中各手势图像的预测感知编码,得到每个目标手势三元组的子损失函数,而通过将各目标手势三元组的子损失函数求平均,或者是累加求和,则可得到初始感知编码网络的第一损失参数。
91.s603、根据第一损失参数修正初始感知编码网络的网络参数,迭代执行,直至第一损失参数满足第三预设阈值,停止修正,将当前的初始感知编码网络作为手势感知编码网络。
92.基于当前所得到的初始感知编码网络的第一损失参数,可判断第一损失参数是否满足第一预设阈值,若满足,则可将当前的初始感知网络作为手势感知编码网络,而若不满足,则对当前初始感知编码网络的网络参数进行修正,得到新的初始感知编码网络,并基新的初始感知编码网络,重复执行步骤s601-s602,计算新的初始感知编码网络的第一损失参数,继续判断初始感知编码网络的第一损失参数是否满足第一预设阈值,直到满足第一损失参数满足第三预设阈值时,停止执行。
93.图7为本技术实施例提供的又一种手势识别方法的流程示意图;可选地,步骤s602中,根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数,可以包括:
94.s701、根据各目标手势三元组的标注信息中的图像相似度指示信息,分别确定各目标手势三元组中的第一手势图像、第二手势图像以及第三手势图像。
95.针对各目标手势三元组,可根据目标手势三元组的标注信息中所包含的图像相似
度指示信息,确定目标手势三元组中的第一手势图像、第二手势图像以及第三手势图像。
96.假设图像相似度指示信息指示的是第一手势图像的标识和第二手势图像的标识,则可根据第一手势图像的标识和第二手势图像的标识,先确定第一手势图像和第二手势图像,从而剩余的手势图像作为第三手势图像。
97.s702、根据各目标手势三元组中第一手势图像的预测感知编码以及第二手势图像的预测感知编码,计算各目标手势三元组对应的第一距离。
98.初始感知编码网络的第一损失参数可采用如下公式计算得到:
99.l
tri
(a,p,n)=max(‖f(a)-f(p)‖
2-‖f(a)-f(n)‖2 α,0)
100.其中,‖f(a)-f(p)‖2表示第一手势图像中的手势的预测感知编码与第二手势图像中的手势的预测感知编码在连续表征空间中的距离。也即,表示相似的两个手势图像中各手势的预测感知编码在连续表征空间中的距离;对应上面的第一距离。
101.s703、根据各目标手势三元组中第一手势图像的预测感知编码以及第三手势图像的预测感知编码,计算各目标手势三元组对应的第二距离。
102.‖f(a)-f(n)‖2表示第一手势图像中的手势的预测感知编码与第三手势图像中的手势的预测感知编码在连续表征空间中的距离。也即,表示不相似的两个的手势图像中各手势的预测感知编码在连续表征空间中的距离;对应上面的第二距离。
103.而α则可以表示预设的距离阈值,其可以设定为可以接受的距离限度。
104.s704、根据各目标手势三元组对应的第一距离、各目标手势三元组对应的第二距离、以及预设的距离阈值,确定初始感知编码网络的第一损失参数。
105.基于上述所得到的目标手势三元组对应的第一距离、第二距离,以及预设的距离阈值α,带入上述第一损失函数的计算公式,可得到当前一轮初始感知编码网络的第一损失函数。
106.若当前一轮初始感知编码网络的第一损失函数不满足第一预设阈值,则可对当前初始感知编码网络的网络参数进行修正。
107.在进行网络参数修正时,需要满足使得基于修正后的初始感知编码网络得到的第一手势图像的预测感知编码和第二手势图像的预测感知编码计算得到的第一距离相较于修正前上一轮所计算得到的第一距离更小,而基于修正后的初始感知编码网络得到的第一手势图像的预测感知编码和第三手势图像的预测感知编码计算得到的第二距离相较于修正前上一轮所计算得到的第二距离更大。也即,将相似的手势的感知编码在连续表征空间中的距离拉近,将不相似的手势的感知编码在连续表征空间中的距离拉远,以使得相似的手势之间的距离小于不相似的手势之间的距离。
108.基于上述修正原则,可迭代执行进行初始感知编码网络的网络参数修正,将修正结束时,当前的初始感知编码网络作为手势感知编码网络。
109.本实施例中,在进行手势感知编码网络的训练时,通过采用构建的手势三元组,进行网络学习,预测手势图像的感知编码,计算第一损失参数,而基于第一损失参数进行网络参数修正时,是基于将目标手势三元组中相似手势的距离不断拉近,不相似手势的距离不断拉远的原则,以使训练得到的手势感知编码网络可以对相似的手势的感知编码进行准确区分,对于任意手势图像均可准确提取其对应的感知编码,而基于感知编码进行手势识别时,提高了手势识别的感知能力,能够识别到手势之间的细微差异,从而达到提高手势识别
结果精确度的目的。
110.图8为本技术实施例提供的另一种手势识别方法的流程示意图;可选地,步骤s403中,将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器,可以包括:
111.s801、将样本训练集、以及各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,获取初始判别器输出的各目标手势三元组中各手势图像的预测手势类别。
112.对于手势判别器的训练,可以是将采集的样本训练集、以及训练好的手势感知编码网络对样本训练集进行处理后得到的各目标手势三元组中各手势图像的感知编码,作为输入数据,一起输入初始判别器中。
113.对于初始判别器而言,其接受到的输入数据可以为多个样本数据,每个样本数据包含:目标手势三元组、目标手势三元组中各手势图像的感知编码。
114.s802、根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数。
115.初始判别器可处理得到各目标手势三元组中各手势图像的预测手势类别,并基于输入数据中各目标手势三元组的标注信息中各手势图像所标注的手势类别、以及各手势图像的预测手势类别,计算初始判别器的第二损失参数。
116.s803、根据第二损失参数修正初始判别器的网络参数,迭代执行,直至第二损失参数满足第四预设阈值,停止修正,将当前的初始判别器作为手势判别器。
117.针对每个目标手势三元组,可计算得到每个目标手势三元组的子损失函数,而通过将各目标手势三元组的子损失函数求平均,或者是累加求和,则可得到初始判别器的第二损失参数。
118.基于当前所得到的初始判别器的第二失参数,可判断第二损失参数是否满足第四预设阈值,若满足,则可将当前的初始判别器作为手势判别器,而若不满足,则对当前初始判别器的网络参数进行修正,得到新的初始判别器,并基新的初始判别器,重复执行步骤s801-s802,计算新的初始判别器的第二损失参数,继续判断新的初始判别器的第二损失参数是否满足第四预设阈值,直到第二损失参数满足第四预设阈值时,停止执行。
119.可选地,步骤s802中,根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数,可以包括:根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、各目标手势三元组的标注信息中各手势图像的手势类别、以及样本训练集中的手势图像数量,进行交叉熵计算,得到初始判别器的第二损失函数。
120.可选地,第二损失函数可采用下述公式计算得到:
[0121][0122]
其中,n指的是训练时所用的样本数量,也即,指样本训练集中各目标三元组中手势图像的总数量,假设样本训练集包含5个目标手势三元组,由于一个目标手势三元组中包含三个手势图像,那么,n为15。yi表示第i个手势图像的实际值(也即标注信息中标注的第i
个手势图像的手势类别)

表示第i个手势图像的预测值(也即初始判别器输出的第i个手势图像的预测手势类别)

[0123]
在每一轮按照上述公式计算得到初始判别器的第二损失参数后,可判断第二损失参数是否满足第四预设阈值,若满足,则将当前初始判别器作为手势判别器,而若不满足,则进行初始判别器网络参数的修正,直到第二损失参数是否满足第四预设阈值为止。
[0124]
可选地,步骤s102中,采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,可以包括:
[0125]
若至少一帧待识别手势图像包括多帧待识别手势图像,采用预先训练的手势识别模型,依次识别各帧待识别手势图像的感知编码,并基于各帧待识别手势图像的感知编码识别至少一帧待识别手势图像的手势识别结果序列,手势识别结果序列由各帧待识别手势图像的手势识别结果依次排列组成。
[0126]
在手势识别模型应用的过程中,若输入的待识别手势图像为手势图像序列,也即包含多帧待识别手势图像,那么,可先基于手势感知编码器提取各帧待识别手势图像的感知编码,将各帧待识别手势图像的感知编码进行组合,可得到感知编码序列,而手势判别器可根据感知编码序列识别得到手势识别结果序列,而手势识别结果序列各待识别手势图像的手势识别结果按照帧次序依次排列,各待识别手势图像的手势识别结果可以为各待识别手势图像中手势的手势类别。
[0127]
图9为本技术实施例提供的一种手势识别结果示意图。针对输入待识别手势图像序列,经过手势感知编码网络处理,可输出感知编码序列,而感知编码序列作为手势判别器的输入,经过手势判别器的处理,可得到手势识别结果序列,手势识别结果序列由上之下,第一个手势类别对应待识别手势图像序列中的第一帧待识别手势图像,第二个手势类别对应待识别手势图像序列中的第二帧待识别手势图像,依次类推。
[0128]
综上所述,本实施例提供的手势识别方法,包括:获取至少一帧待识别手势图像;采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。本方法通过所训练的手势识别模型,提取待识别手势图像的感知编码作为待识别手势图像的特征信息,由于感知编码表征的是手势在预设空间中的位置信息,不同的手势对应的位置信息不同,也即,不同的手势均有唯一对应的感知编码,即使是具有细微差异的手势,也可分别得到各手势的感知编码,从而基于感知编码可进行精确的手势图像识别。通过引入感知编码作为手势图像的特征信息,可有效提高手势识别的感知能力,识别到不同手势之间的细微差异,从而提高了手势图像识别结果的精确性。
[0129]
其中,可通过训练的手势识别模型中的手势感知编码网络进行手势图像的感知编码的提取,手势感知编码网络由所构建的手势三元组训练得到,在训练的过程中,基于将相似的手势的感知编码在连续表征空间中的距离拉近,将不相似的手势的感知编码在连续表征空间中的距离拉远,以使得相似的手势之间的距离小于不相似的手势之间的距离的修正原则,使得训练得到的手势感知编码网络可对相似手势之间的细微差异进行感知,从而提高了手势图像识别结果的精确性。
[0130]
下述对用以执行本技术所提供的手势识别方法的装置、设备及存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
[0131]
图10为本技术实施例提供的一种手势识别装置的示意图,该手势识别装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述的电子设备或者计算机设备,如图10所示,该装置可包括:获取模块110、识别模块120;
[0132]
获取模块110,用于获取至少一帧待识别手势图像;
[0133]
识别模块120,用于采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。
[0134]
可选地,手势识别模型包括:手势感知编码网络和手势判别器;
[0135]
识别模块120,具体用于将至少一帧待识别手势图像输入手势感知编码网络,提取各待识别手势图像的感知编码;
[0136]
将各待识别手势图像的感知编码输入手势判别器,依次识别获取各待识别手势图像的手势识别结果。
[0137]
可选地,装置还包括:训练模块;
[0138]
训练模块,用于采集样本训练集,样本训练集中包括多个目标手势三元组,各目标手势三元组由第一手势图像、第二手势图像和第三手势图像组成,第二手势图像与第一手势图像的相似度大于第一预设阈值,第三手势图像与第一手势图像的相似度小于第二预设阈值,第一预设阈值大于第二预设阈值;各目标手势三元组具有标注信息,标注信息包括:图像相似度指示信息、以及各手势图像的手势类别;
[0139]
将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络;
[0140]
将样本训练集作为输入数据输入手势感知编码网络,获取手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码;
[0141]
将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器。
[0142]
可选地,训练模块,具体用于采集多个样本手势图像,并基于多个样本手势图像构建多个待选手势三元组;
[0143]
对各待选手势三元组进行有效性校验,将满足预设条件的待选手势三元组作为有效手势三元组;
[0144]
根据对各有效手势三元组的多条标注信息进行投票,确定各有效手势三元组的目标标注信息;
[0145]
将各有效手势三元组以及各有效手势三元组的目标标注信息作为目标手势三元组,得到样本训练集。
[0146]
可选地,训练模块,具体用于将样本训练集作为输入数据输入初始感知编码网络,获取初始感知编码网络输出的各目标手势三元组中各手势图像的预测感知编码;
[0147]
根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数;
[0148]
根据第一损失参数修正初始感知编码网络的网络参数,迭代执行,直至第一损失参数满足第三预设阈值,停止修正,将当前的初始感知编码网络作为手势感知编码网络。
[0149]
可选地,训练模块,具体用于根据各目标手势三元组的标注信息中的图像相似度
指示信息,分别确定各目标手势三元组中的第一手势图像、第二手势图像以及第三手势图像;
[0150]
根据各目标手势三元组中第一手势图像的预测感知编码以及第二手势图像的预测感知编码,计算各目标手势三元组对应的第一距离;
[0151]
根据各目标手势三元组中第一手势图像的预测感知编码以及第三手势图像的预测感知编码,计算各目标手势三元组对应的第二距离;
[0152]
根据各目标手势三元组对应的第一距离、各目标手势三元组对应的第二距离、以及预设的距离阈值,确定初始感知编码网络的第一损失参数。
[0153]
可选地,训练模块,具体用于将样本训练集、以及各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,获取初始判别器输出的各目标手势三元组中各手势图像的预测手势类别;
[0154]
根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数;
[0155]
根据第二损失参数修正初始判别器的网络参数,迭代执行,直至第二损失参数满足第四预设阈值,停止修正,将当前的初始判别器作为手势判别器。
[0156]
可选地,训练模块,具体用于根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、各目标手势三元组的标注信息中各手势图像的手势类别、以及样本训练集中的手势图像数量,进行交叉熵计算,得到初始判别器的第二损失函数。
[0157]
可选地,训练模块,具体用于若至少一帧待识别手势图像包括多帧待识别手势图像,采用预先训练的手势识别模型,依次识别各帧待识别手势图像的感知编码,并基于各帧待识别手势图像的感知编码识别至少一帧待识别手势图像的手势识别结果序列,手势识别结果序列由各帧待识别手势图像的手势识别结果依次排列组成。
[0158]
通过上述方式,当电子设备执行手势识别方法时,获取模块可获取至少一帧待识别手势图像,而识别模型采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。其中,本方法通过所训练的手势识别模型,提取待识别手势图像的感知编码作为待识别手势图像的特征信息,由于感知编码表征的是手势在预设空间中的位置信息,不同的手势对应的位置信息不同,也即,不同的手势均有唯一对应的感知编码,即使是具有细微差异的手势,也可分别得到各手势的感知编码,从而基于感知编码可进行精确的手势图像识别。通过引入感知编码作为手势图像的特征信息,可有效提高手势识别的感知能力,识别到不同手势之间的细微差异,从而提高了手势图像识别结果的精确性。
[0159]
其中,可通过训练的手势识别模型中的手势感知编码网络进行手势图像的感知编码的提取,手势感知编码网络由所构建的手势三元组训练得到,在训练的过程中,基于将相似的手势的感知编码在连续表征空间中的距离拉近,将不相似的手势的感知编码在连续表征空间中的距离拉远,以使得相似的手势之间的距离小于不相似的手势之间的距离的修正原则,使得训练得到的手势感知编码网络可对相似手势之间的细微差异进行感知,从而提高了手势图像识别结果的精确性。
[0160]
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个
或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器(digital singnal processor,简称dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
[0161]
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过lan、wan、蓝牙、zigbee、或nfc等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本技术中不再赘述。
[0162]
图11为本技术实施例提供的一种电子设备的结构示意图,包括:处理器801、存储介质802和总线803,存储介质802存储有处理器801可执行的机器可读指令,当电子设备运行如实施例中的一种手势识别方法时,处理器801与存储介质802之间通过总线803通信,处理器801执行机器可读指令,以执行以下步骤:
[0163]
获取至少一帧待识别手势图像;
[0164]
采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。
[0165]
在一个可行的实施方案中,手势识别模型包括:手势感知编码网络和手势判别器,处理器801在执行采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果时,具体用于:
[0166]
将至少一帧待识别手势图像输入手势感知编码网络,提取各待识别手势图像的感知编码;
[0167]
将各待识别手势图像的感知编码输入手势判别器,依次识别获取各待识别手势图像的手势识别结果。
[0168]
在一个可行的实施方案中,处理器801在执行手势识别模型训练时,具体用于:
[0169]
采集样本训练集,样本训练集中包括多个目标手势三元组,各目标手势三元组由第一手势图像、第二手势图像和第三手势图像组成,第二手势图像与第一手势图像的相似度大于第一预设阈值,第三手势图像与第一手势图像的相似度小于第二预设阈值,第一预设阈值大于第二预设阈值;各目标手势三元组具有标注信息,标注信息包括:图像相似度指示信息、以及各手势图像的手势类别;
[0170]
将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络;
[0171]
将样本训练集作为输入数据输入手势感知编码网络,获取手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码;
[0172]
将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器。
[0173]
在一个可行的实施方案中,处理器801在执行采集样本训练集时,具体用于:
[0174]
采集多个样本手势图像,并基于多个样本手势图像构建多个待选手势三元组;
[0175]
对各待选手势三元组进行有效性校验,将满足预设条件的待选手势三元组作为有效手势三元组;
[0176]
根据对各有效手势三元组的多条标注信息进行投票,确定各有效手势三元组的目标标注信息;
[0177]
将各有效手势三元组以及各有效手势三元组的目标标注信息作为目标手势三元组,得到样本训练集。
[0178]
在一个可行的实施方案中,处理器801在执行将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络时,具体用于:
[0179]
将样本训练集作为输入数据输入初始感知编码网络,获取初始感知编码网络输出的各目标手势三元组中各手势图像的预测感知编码;
[0180]
根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数;
[0181]
根据第一损失参数修正初始感知编码网络的网络参数,迭代执行,直至第一损失参数满足第三预设阈值,停止修正,将当前的初始感知编码网络作为手势感知编码网络。
[0182]
在一个可行的实施方案中,处理器801在执行根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数时,具体用于:
[0183]
根据各目标手势三元组的标注信息中的图像相似度指示信息,分别确定各目标手势三元组中的第一手势图像、第二手势图像以及第三手势图像;
[0184]
根据各目标手势三元组中第一手势图像的预测感知编码以及第二手势图像的预测感知编码,计算各目标手势三元组对应的第一距离;
[0185]
根据各目标手势三元组中第一手势图像的预测感知编码以及第三手势图像的预测感知编码,计算各目标手势三元组对应的第二距离;
[0186]
根据各目标手势三元组对应的第一距离、各目标手势三元组对应的第二距离、以及预设的距离阈值,确定初始感知编码网络的第一损失参数。
[0187]
在一个可行的实施方案中,处理器801在执行将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器时,具体用于:
[0188]
将样本训练集、以及各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,获取初始判别器输出的各目标手势三元组中各手势图像的预测手势类别;
[0189]
根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数;
[0190]
根据第二损失参数修正初始判别器的网络参数,迭代执行,直至第二损失参数满足第四预设阈值,停止修正,将当前的初始判别器作为手势判别器。
[0191]
在一个可行的实施方案中,处理器801在执行根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数时,具体用于:
[0192]
根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、各目标手势三元组的标注信息中各手势图像的手势类别、以及样本训练集中的手势图像数量,进行交叉熵计算,得到初始判别器的第二损失函数。
[0193]
在一个可行的实施方案中,处理器801在执行采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果时,具体用于:
[0194]
若至少一帧待识别手势图像包括多帧待识别手势图像,采用预先训练的手势识别模型,依次识别各帧待识别手势图像的感知编码,并基于各帧待识别手势图像的感知编码识别至少一帧待识别手势图像的手势识别结果序列,手势识别结果序列由各帧待识别手势图像的手势识别结果依次排列组成。
[0195]
通过上述方式,当电子设备执行手势识别方法时,处理器可获取至少一帧待识别手势图像,并采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。其中,本方法通过所训练的手势识别模型,提取待识别手势图像的感知编码作为待识别手势图像的特征信息,由于感知编码表征的是手势在预设空间中的位置信息,不同的手势对应的位置信息不同,也即,不同的手势均有唯一对应的感知编码,即使是具有细微差异的手势,也可分别得到各手势的感知编码,从而基于感知编码可进行精确的手势图像识别。通过引入感知编码作为手势图像的特征信息,可有效提高手势识别的感知能力,识别到不同手势之间的细微差异,从而提高了手势图像识别结果的精确性。
[0196]
其中,可通过训练的手势识别模型中的手势感知编码网络进行手势图像的感知编码的提取,手势感知编码网络由所构建的手势三元组训练得到,在训练的过程中,基于将相似的手势的感知编码在连续表征空间中的距离拉近,将不相似的手势的感知编码在连续表征空间中的距离拉远,以使得相似的手势之间的距离小于不相似的手势之间的距离的修正原则,使得训练得到的手势感知编码网络可对相似手势之间的细微差异进行感知,从而提高了手势图像识别结果的精确性。
[0197]
其中,存储介质802存储有程序代码,当程序代码被处理器801执行时,使得处理器801执行本说明书上述“示例性方法”部分中描述的根据本技术各种示例性实施方式的手势识别方法中的各种步骤。
[0198]
处理器801可以是通用处理器,例如中央处理器(cpu)、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0199]
存储介质802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,
ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储介质802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0200]
可选地,本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行,处理器执行以下步骤:
[0201]
获取至少一帧待识别手势图像;
[0202]
采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。
[0203]
在一个可行的实施方案中,手势识别模型包括:手势感知编码网络和手势判别器,处理器801在执行采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果时,具体用于:
[0204]
将至少一帧待识别手势图像输入手势感知编码网络,提取各待识别手势图像的感知编码;
[0205]
将各待识别手势图像的感知编码输入手势判别器,依次识别获取各待识别手势图像的手势识别结果。
[0206]
在一个可行的实施方案中,处理器801在执行手势识别模型训练时,具体用于:
[0207]
采集样本训练集,样本训练集中包括多个目标手势三元组,各目标手势三元组由第一手势图像、第二手势图像和第三手势图像组成,第二手势图像与第一手势图像的相似度大于第一预设阈值,第三手势图像与第一手势图像的相似度小于第二预设阈值,第一预设阈值大于第二预设阈值;各目标手势三元组具有标注信息,标注信息包括:图像相似度指示信息、以及各手势图像的手势类别;
[0208]
将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络;
[0209]
将样本训练集作为输入数据输入手势感知编码网络,获取手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码;
[0210]
将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器。
[0211]
在一个可行的实施方案中,处理器801在执行采集样本训练集时,具体用于:
[0212]
采集多个样本手势图像,并基于多个样本手势图像构建多个待选手势三元组;
[0213]
对各待选手势三元组进行有效性校验,将满足预设条件的待选手势三元组作为有效手势三元组;
[0214]
根据对各有效手势三元组的多条标注信息进行投票,确定各有效手势三元组的目标标注信息;
[0215]
将各有效手势三元组以及各有效手势三元组的目标标注信息作为目标手势三元
组,得到样本训练集。
[0216]
在一个可行的实施方案中,处理器801在执行将样本训练集作为输入数据输入初始感知编码网络,训练获取手势感知编码网络时,具体用于:
[0217]
将样本训练集作为输入数据输入初始感知编码网络,获取初始感知编码网络输出的各目标手势三元组中各手势图像的预测感知编码;
[0218]
根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数;
[0219]
根据第一损失参数修正初始感知编码网络的网络参数,迭代执行,直至第一损失参数满足第三预设阈值,停止修正,将当前的初始感知编码网络作为手势感知编码网络。
[0220]
在一个可行的实施方案中,处理器801在执行根据各目标手势三元组中各手势图像的预测感知编码,计算初始感知编码网络的第一损失参数时,具体用于:
[0221]
根据各目标手势三元组的标注信息中的图像相似度指示信息,分别确定各目标手势三元组中的第一手势图像、第二手势图像以及第三手势图像;
[0222]
根据各目标手势三元组中第一手势图像的预测感知编码以及第二手势图像的预测感知编码,计算各目标手势三元组对应的第一距离;
[0223]
根据各目标手势三元组中第一手势图像的预测感知编码以及第三手势图像的预测感知编码,计算各目标手势三元组对应的第二距离;
[0224]
根据各目标手势三元组对应的第一距离、各目标手势三元组对应的第二距离、以及预设的距离阈值,确定初始感知编码网络的第一损失参数。
[0225]
在一个可行的实施方案中,处理器801在执行将样本训练集、以及手势感知编码网络输出的各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,训练获取手势判别器时,具体用于:
[0226]
将样本训练集、以及各目标手势三元组中各手势图像的感知编码作为输入数据输入初始判别器中,获取初始判别器输出的各目标手势三元组中各手势图像的预测手势类别;
[0227]
根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数;
[0228]
根据第二损失参数修正初始判别器的网络参数,迭代执行,直至第二损失参数满足第三预设阈值第二损失参数满足第四预设阈值,停止修正,将当前的初始判别器作为手势判别器。
[0229]
在一个可行的实施方案中,处理器801在执行根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、以及各目标手势三元组的标注信息中各手势图像的手势类别,计算初始判别器的第二损失函数时,具体用于:
[0230]
根据手势判别器输出的各目标手势三元组中各手势图像的预测手势类别、各目标手势三元组的标注信息中各手势图像的手势类别、以及样本训练集中的手势图像数量,进行交叉熵计算,得到初始判别器的第二损失函数。
[0231]
在一个可行的实施方案中,处理器801在执行采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果时,具体用于:
[0232]
若至少一帧待识别手势图像包括多帧待识别手势图像,采用预先训练的手势识别模型,依次识别各帧待识别手势图像的感知编码,并基于各帧待识别手势图像的感知编码识别至少一帧待识别手势图像的手势识别结果序列,手势识别结果序列由各帧待识别手势图像的手势识别结果依次排列组成。
[0233]
通过上述方式,当电子设备执行手势识别方法时,处理器可获取至少一帧待识别手势图像,并采用预先训练的手势识别模型,识别各待识别手势图像的感知编码,并基于感知编码识别获取至少一帧待识别手势图像的手势识别结果,感知编码用于表征待识别手势图像中的手势在预设空间中的位置信息。其中,本方法通过所训练的手势识别模型,提取待识别手势图像的感知编码作为待识别手势图像的特征信息,由于感知编码表征的是手势在预设空间中的位置信息,不同的手势对应的位置信息不同,也即,不同的手势均有唯一对应的感知编码,即使是具有细微差异的手势,也可分别得到各手势的感知编码,从而基于感知编码可进行精确的手势图像识别。通过引入感知编码作为手势图像的特征信息,可有效提高手势识别的感知能力,识别到不同手势之间的细微差异,从而提高了手势图像识别结果的精确性。
[0234]
其中,可通过训练的手势识别模型中的手势感知编码网络进行手势图像的感知编码的提取,手势感知编码网络由所构建的手势三元组训练得到,在训练的过程中,基于将相似的手势的感知编码在连续表征空间中的距离拉近,将不相似的手势的感知编码在连续表征空间中的距离拉远,以使得相似的手势之间的距离小于不相似的手势之间的距离的修正原则,使得训练得到的手势感知编码网络可对相似手势之间的细微差异进行感知,从而提高了手势图像识别结果的精确性。
[0235]
在本技术实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例中其它所述的方法,关于具体执行的方法步骤和原理参见实施例的说明,在此不再详细赘述。
[0236]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0237]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0238]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0239]
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申
请各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文:read-only memory,简称:rom)、随机存取存储器(英文:random access memory,简称:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献