一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种手势识别的方法、装置、电子装置和存储介质与流程

2022-05-11 16:20:06 来源:中国专利 TAG:


1.本技术涉及图像识别技术领域,特别是涉及一种手势识别的方法、装置、电子装置和存储介质。


背景技术:

2.随着人工智能的逐步发展,手势识别已逐渐应用到人机交互的场景,以实现对智能设备(如智能电视、智能空调)的控制。
3.由于手势本身具有多样性、多义性,以及在时间和空间上存在视觉差异等特点,传统的静态手势识别过程,缺少手势在时空上的连续性,而在动态手势识别过程中,通常根据两帧之间的光流特征判断动态手势的起始帧,而光流特征的计算需要耗费大量的时间以及运算资源,从而导致手势识别系统的功耗高、运行速度慢,影响手势识别的效率。
4.因此,在手势识别过程中,如何降低手势识别系统的运行功耗和运行时间,以提高手势识别的效率,是一个需要解决的问题。


技术实现要素:

5.在本实施例中提供了一种手势识别的方法、装置、电子装置和存储介质,用以在手势识别过程中,降低手势识别系统的运行功耗和运行时间,以提高手势识别的效率。
6.第一个方面,在本实施例中提供了一种手势识别的方法,包括:
7.获取目标对象的第一手势图像;
8.将所述第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别;
9.当所述静态手势类别为目标手势类别时,获取所述目标对象的手势图像序列,所述手势图像序列基于针对所述目标对象采集的多帧第二手势图像确定;
10.根据所述手势图像序列以及训练后的动态手势识别模型,得到动态手势类别。
11.在其中的一些实施例中,在所述将所述第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别之前,还包括:
12.获取第一训练样本图像;
13.将所述第一训练样本图像输入初始静态手势识别模型中,得到预测手势位置,以及预测静态手势类别;
14.获取所述第一训练样本图像对应的标签手势位置和标签手势类别;
15.根据手势位置损失函数确定所述预测手势位置与所述标签手势位置之间的位置损失值,根据类别损失函数确定所述预测静态手势类别与所述标签手势类别之间的类别损失值;
16.根据所述位置损失值和所述类别损失值调整所述初始静态手势识别模型的参数,得到所述训练后的静态手势识别模型。
17.在其中的一些实施例中,所述将所述第一训练样本图像输入初始静态手势识别模型中,得到预测静态手势类别,包括:
18.将所述第一训练样本图像输入初始静态手势识别模型中,得到所述第一训练样本图像为多个手势类别中每一手势类别的概率;
19.根据多个手势类别的概率确定预测静态手势类别。
20.在其中的一些实施例中,所述将所述第一训练样本图像输入初始静态手势识别模型中,得到预测手势位置,包括:
21.将所述第一训练样本图像输入初始静态手势识别模型中,得到多种尺寸的特征图,其中,每种尺寸的特征图包括对应的手势位置;
22.根据多种尺寸的特征图中的所述手势位置确定预测手势位置。
23.在其中的一些实施例中,在所述获取目标对象的第一手势图像之前,还包括:
24.接收目标对象输入的操作指令,所述操作指令用于开启图像采集设备,所述图像采集设备用于采集目标对象的手势图像。
25.在其中的一些实施例中,获取所述目标对象的手势图像序列,包括:
26.以所述第一手势图像作为首帧手势图像,获取所述首帧手势图像之后的连续多帧手势图像;
27.从连续多帧所述手势图像中,至少选取部分的所述手势图像作为第二手势图像,得到所述手势图像序列。
28.在其中的一些实施例中,所述从连续多帧所述手势图像中,至少选取部分的所述手势图像作为第二手势图像,包括:
29.将连续多帧所述手势图像划分为n个手势图像集,其中,每一手势图像集中包括至少一帧手势图像,n为大于等于1的整数;
30.从每一手势图像集中随机抽取至少一帧手势图像,作为所述第二手势图像。
31.第二个方面,在本实施例中提供了一种手势识别的装置,包括:
32.第一获取模块,用于获取目标对象的第一手势图像;
33.静态识别模块,用于将所述第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别;
34.第二获取模块,用于当所述静态手势类别为目标手势类别时,获取所述目标对象的手势图像序列,所述手势图像序列基于针对所述目标对象采集的多帧第二手势图像确定;
35.动态识别模块,用于根据所述手势图像序列以及训练后的动态手势识别模型,得到动态手势类别。
36.第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的手势识别的方法。
37.第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的手势识别的方法。
38.与相关技术相比,在本实施例中提供的一种手势识别的方法、装置、电子装置和存储介质,通过静态手势识别模型对目标对象的静态手势进行识别,得到目标对象的静态手势类别,当静态手势类别为目标手势类别时,开启动态手势识别模型,对目标对象的动态手势进行识别,准确地对动态手势识别的起始帧进行划分,从而减少了手势识别过程的运行
功耗,节约了手势识别时间,提高了手势识别的效率,进一步便于根据识别出的动态手势类别进行智能设备的控制,并且,通过静态手势、动态手势相结合的识别方式对目标对象的手势进行识别,增加了手势识别的多样性,增加了目标对象的体验感。
39.本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
40.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
41.图1是本技术实施例提供的一种手势识别的方法的终端的硬件结构框图。
42.图2是本技术实施例提供的一种手势识别的方法的流程图。
43.图3是本技术实施例提供的一种静态手势识别模型的网络结构示意图。
44.图4是本技术实施例提供的一种手势识别方法实施例流程图。
45.图5是本技术实施例的一种手势识别的装置的结构框图。
具体实施方式
46.为更清楚地理解本技术的目的、技术方案和优点,下面结合附图和实施例,对本技术进行了描述和说明。
47.除另作定义外,本技术所涉及的技术术语或者科学术语应具有本技术所属技术领域具备一般技能的人所理解的一般含义。在本技术中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本技术中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本技术中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本技术中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本技术中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
48.在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本技术实施例提供的一种手势识别的方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
49.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的手势识别的方法对应的计算机程序,处理器102通过运行存储在存储器104内的
计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
50.传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
51.随着人工智能的逐步发展,智能家居开始深入到人们的生活。人机交互技术可以通过各种方式、各种语言实现人与计算机间有效对话,其进一步催化了智能家居行业的快速发展。手势识别已逐渐应用到人机交互的场景,以实现对智能设备(如智能电视、智能空调)的控制,然而,由于手势本身具有多样性、多义性,以及在时间和空间上存在视觉差异等特点,导致手势识别系统的运行速度慢,从而影响手势识别的效率。
52.因此,本技术提供了一种手势识别的方法、装置、电子装置和存储介质,用以在手势识别过程中,提高手势识别的效率。
53.在本实施例中提供了一种手势识别的方法,图2是本技术实施例提供的一种手势识别的方法的流程图,如图2所示,该流程包括如下步骤:
54.步骤s201,获取目标对象的第一手势图像。
55.示例性地,当目标对象需要对智能设备进行控制时,目标对象开启智能设备的静态手势识别功能,通过智能设备中的图像采集设备采集目标对象的手势图像,并将静态手势识别功能下采集的手势图像确定为第一手势图像。
56.步骤s202,将第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别。
57.其中,静态手势模型是基于第一神经网络模型训练获得的。
58.具体的,将采集到的每一帧第一手势图像输入基于第一神经网络训练好的静态手势识别模型中,得到静态手势类别。
59.示例性地,将采集到的第一手势图像输入训练好的静态手势识别模型中,得到的静态手势类别为“ok”。
60.步骤s203,当静态手势类别为目标手势类别时,获取目标对象的手势图像序列。
61.其中,手势图像序列包括多帧手势图像,且手势图像序列是基于针对目标对象采集的多帧第二手势图像确定。
62.具体的,判断静态手势类别是否与目标手势类别相同,若是,则获取目标对象当前的手势图像序列。
63.示例性地,若目标手势类别为“ok”,则静态手势类别与目标手势类别相同,都为“ok”,则智能设备开启动态手势识别功能,通过单目摄像头采集目标对象当前的连续多帧的手势图像,从连续多帧的手势图像中选取部分手势图像确定为第二手势图像,将多帧第二手势图像确定为手势图像序列。
64.需要说明的是,本技术实施例中,仅以“ok”为目标手势类别为例进行说明,在实际应用中,目标手势类别也可以是“剪刀手”、“握拳”和“数字1”中的任一种,也可以是其他手势类别,在此不作限制。
65.步骤s204,根据手势图像序列以及训练后的动态手势识别模型,得到动态手势类别。
66.其中,动态手势识别模型是基于第二神经网络模型训练获得的。
67.示例性地,将采集的手势图像序列输入基于第二神经网络训练好的动态手势识别模型中,得到动态手势类别,进一步地根据动态手势类别对智能设备进行控制,例如,智能设备为智能电视,若动态手势类别为“向左挥动一下”,则控制智能电视中的页面向左切换下一页。
68.需要说明的是,本技术实施例中,仅以动态手势类别为“向左挥动一下”实现智能电视中的页面向左切换下一页的功能为例进行说明,在实际应用中,动态手势类别为“向左挥动一下”也可以设置为实现音量减一级,也可以根据目标对象需求,将动态手势类别与相应的功能进行设置,在此不作限制。
69.通过上述步骤,通过静态手势识别模型对目标对象的静态手势进行识别,获得静态手势类别,当静态手势类别为目标手势类别时,获取目标对象当前的多帧手势图像,将多帧手势图像确定为手势图像序列,从而控制智能设备开启动态手势识别功能,以使智能设备对目标手势类别后的手势图像进行动态手势识别,划分了动态手势识别过程的起始帧图像,从而缓解了手势识别过程中的手势识别系统的运行功耗,提高了手势识别的效率,进一步地,通过训练好的神经网络模型对手势图像进行识别,能够快速地确定手势类别,进一步提升了手势识别效率。
70.在其中的一些实施例中,获取目标对象的第一手势图像之前,还可以包括:
71.接收目标对象输入的操作指令,操作指令用于开启图像采集设备,图像采集设备用于采集目标对象的手势图像。
72.示例性地,在智能设备中安装图像采集设备,本技术实施例中的图像采集设备可以是单目摄像头,也可以是双目摄像头,智能设备可以是智能电视、智能空调等,在此不作限制。
73.示例性地,图像采集设备为单目摄像头,智能设备是智能电视,将单目摄像头安装在智能电视上方,使单目摄像头的俯仰角在正负30度之间的位置,便于更大范围地采集到目标对象的手势图像,在实际应用中,单目摄像头的安装位置也可以是在俯仰角在正负60度之间的位置,也可以是在俯仰角在正负20度之间的位置,在此不作限制。
74.当目标对象需要智能电视开启手势识别功能时,目标对象可点击智能电视上的手势识别功能按钮,以使智能电视接收到目标对象输入的操作指令,智能电视根据目标对象输入的操作指令,开启单目摄像头,以及智能电视的静态手势识别功能,进一步地,通过单目摄像头采集目标对象的手势图像。
75.作为另一种示例,目标对象也可以通过智能电视的遥控器输入操作指令,以实现智能电视手势识别功能的开启。
76.在上述实现过程中,根据目标对象输入的操作指令开启智能设备中图像采集设备的图像采集功能,便于智能设备开启手势识别功能,从而实现了智能设备与目标对象之间
的交互。
77.在其中的一些实施例中,在将第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别之前,还包括对静态手势识别模型进行训练,获得训练好的静态手势识别模型,该训练过程可以包括如下步骤:
78.步骤1:获取第一训练样本图像。
79.示例性地,在静态手势识别功能下,将预先将单目摄像头采集的手势图像确定为第一训练样本图像。
80.步骤2:将第一训练样本图像输入初始静态手势识别模型中,得到预测手势位置,以及预测静态手势类别。
81.步骤3:获取第一训练样本图像对应的标签手势位置和标签手势类别。
82.示例性地,对第一训练样本图像中第一训练样本手势图像的位置以及手势类别进行标注,得到标签手势位置以及标签静态手势类别。
83.步骤4:根据手势位置损失函数确定预测手势位置与标签手势位置之间的位置损失值,根据类别损失函数确定预测静态手势类别与标签手势类别之间的类别损失值。
84.示例性地,训练过程中,总体损失函数包括手势位置损失函数和类别损失函数,根据手势位置损失函数确定预测手势位置与标签手势位置之间的位置损失值,根据类别损失函数确定预测静态手势类别与标签手势类别之间的类别损失值。
85.作为另一种示例,将第一训练样本图像划分为训练集,测试集以及验证集,对训练集,测试集以及验证集中的手势位置使用真实框进行标注,对训练集使用k-means聚类算法进行聚类,得到k个先验框尺度,其中,每一个先验框对应先验框信息,先验框信息包括先验框的尺度,尺度包括宽度以及高度,将训练集中的每个样本图像分为s
×
s个网格,将先验框信息以及手势中心位置坐标输入初始静态手势识别模型中,以使初始静态手势识别模型确定与真实框并交比最大的先验框,并基于与真实框并交比最大的先验框以及手势中心位置所在的网格的置信度,使用反向传播算法调整初始静态手势识别模型中的参数,计算预测框与先验框之间的偏移量,输出预测框;根据总体损失函数计算预测框与真实框之间的损失值。
86.总体损失函数可以包括手势位置损失函数、置信度损失函数以及类别损失函数,根据位置损失函数、置信度损失函数以及类别损失函数确定预测手势位置、预测静态手势类别,与标签手势位置、标签静态手势类别之间的总体损失值。
87.需要说明的是,预测手势位置可以是预测框的形式,也可以是坐标的形式,也可以是预测框和坐标的组合,在本技术实施例中,以预测框和坐标的组合进行说明。
88.示例性地,根据手势位置损失函数确定预测手势位置与标签手势位置之间的位置损失值,根据类别损失函数确定预测静态手势类别与标签手势类别之间的类别损失值,根据置信度损失函数确定预测手势位置中存在手势的置信度损失值。
89.示例性地,总体损失函数为:
90.l
loss
=l
bbox
l
obj
l
cls
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
91.[0092][0093][0094]
其中,l
loss
表示总体损失函数,l
bbox
表示手势位置损失函数,λ
coord
表示位置损失的权重,s2表示生成的网格数,b表示每个网格设置的预测框个数,表示i,j处的预测框包含手势图像的判断值,若包含为1,不包含为0,xi、yi表示标签手势位置框中心位置的坐标,wi、hi分别表示标签手势位置框的宽高值,表示预测框中心位置的坐标,分别表示预测框的宽高值;l
obj
表示置信度损失函数,λ
noobj
表示预测框没有包含手势图像的权重,λ
obj
表示预测框包含了手势图像的权重,表示i,j处的预测框若没有手势图像为1,有手势图像为0,ci表示预测框的置信度,表示预测框预测到的置信度;l
cls
表示类别损失函数,λ
class
表示类别损失的权重,pi(c)表示预测静态手势类别c与标签静态手势类别相同的概率,相同为1,不同为0,表示预测静态手势为c的概率。
[0095]
步骤5:根据位置损失值和类别损失值调整初始静态手势识别模型的参数,得到训练后的静态手势识别模型。
[0096]
示例性地,通过上述计算得到的位置损失值和类别损失值之和调整初始静态手势识别模型的参数,得到静态手势识别模型。
[0097]
作为另一种示例,通过上述计算得到的位置损失值、类别损失值和置信度损失值之和,调整初始静态手势识别模型的参数,得到静态手势识别模型。
[0098]
在上述实现过程中,通过第一训练样本图像对初始静态手势识别模型进行训练,获得训练好的静态手势识别模型,进一步便于对目标对象的手势图像进行静态识别。
[0099]
在其中一个具体实施例的中,将第一训练样本图像输入初始静态手势识别模型中,得到预测静态手势类别,可以包括以下步骤:
[0100]
步骤1:将第一训练样本图像输入初始静态手势识别模型中,得到第一训练样本图像为多个手势类别中每一手势类别的概率。
[0101]
示例性地,若多个手势类别为“ok”、“剪刀手”、“握拳”和“数字1”,将第一训练样本图像输入静态手势识别模型中,得到第一训练样本图像为“ok”的概率为0.5,为“剪刀手”的概率为0.2,为“握拳”的概率为0.1,为“数字1”的概率为0.2。
[0102]
步骤2:根据多个手势类别的概率确定预测静态手势类别。
[0103]
示例性地,将概率最大的手势类别确定为预测静态手势类别。上述多个概率中,第一训练样本图像为“ok”的概率为0.5,0.5最大,则预测静态手势类别为“ok”。
[0104]
需要说明的是,本技术实施例中,仅以多个手势类别为“ok”、“剪刀手”、“握拳”和“数字1”为例进行说明,在实际应用过程中,预设多个手势类别还可以包括“布”和“数字3”,在此不作限制。
[0105]
在上述实现过程中,根据多个手势类别中每一手势的预测概率确定最终的手势类别,能够有效地提高手势类别识别结果的准确度。
[0106]
在其中的一些实施例中,将第一训练样本图像输入初始静态手势识别模型中,得到预测手势位置,包括:
[0107]
步骤1:将第一训练样本图像输入初始静态手势识别模型中,得到多种尺寸的特征图,其中,每种尺寸的特征图包括对应的手势位置。
[0108]
具体的,将第一训练样本图像输入初始静态手势识别模型中,得到多种尺寸的特征图,其中,每种尺寸的特征图包括对应的手势位置以及手势类别。
[0109]
示例性地,图3是本技术实施例提供的一种静态手势识别模型的网络结构示意图,如图3所示的静态手势识别模型为yolov3网络模型,将第一训练样本图像301输入yolov3网络模型中,经过主干网络302进行特征提取,分别输出三种不同尺寸的特征图:第一特征图303的尺寸为13*13、第二特征图304的尺寸为26*26和第三特征图305的尺寸为52*52。
[0110]
示例性地,在利用主干网络302对第一训练样本图像301进行特征提取之前,还可以包括:采用resnet50网络对主干网络进行蒸馏处理,得到蒸馏处理后的主干网络302。
[0111]
需要说明的是,主干网络302可以是darknet53网络,也可以是mobilenet-v3网络,在此不作限制。
[0112]
具体的,将尺寸为416*416的第一训练样本图像301输入经过蒸馏处理后的主干网络302中,分别得到尺寸为13*13的第一特征图303,尺寸为26*26的第二特征图304以及尺寸为52*52的第三特征图305,其中,第一特征图303中包括第一预测手势位置、第一置信度以及第一预测手势类别,第二特征图304中包括第二预测手势位置、第二置信度以及第二预测手势类别,第三特征图305中包括第三预测手势位置、第三置信度以及第三预测手势类别。
[0113]
需要说明的是,本技术仅以第一神经网络模型为yolov3网络模型为例进行说明,在实际应用过程中,第一神经网络模型也可以是yolov1、yolov2、yolov4和yolov5中的至少一种,在此不作限制,此外,本技术仅以三种尺寸的特征图为例进行说明,在实际应用中,也可以是4中不同尺寸的特征图,也可以是5中不同尺寸的特征图,在此不作限制。
[0114]
在上述实现过程中,通过教师网络对静态手势识别模型的网络结构中主干网络进行蒸馏处理,能够在保证手势识别精确度的前提下,降低手势识别系统的计算资源消耗,并提高手势识别系统的速度。
[0115]
步骤2:根据多种尺寸的特征图中的手势位置确定预测手势位置。
[0116]
具体的,将三种尺寸的特征图进行融合,得到与第一训练样本图像大小一致的预测图像,该预测图像中包括预测手势位置。
[0117]
示例性地,yolov3网络中还包括分类网络和非极大值抑制模块,将三种不同尺寸的特征图经过分类网络进行分类处理,再通过非极大值抑制模块进行预测位置去重处理,得到预测图像,该预测图像中包括预测手势位置,以及预测手势类别。
[0118]
其中,分类网络包括可以为softmax分类器,目的是实现多个类别互斥的分类。可选的,分类网络也可以沿用yolov3网络的logistic回归进行分类,以实现多个独立的二分类。非极大值抑制模块用于进行非极大值抑制处理,用于在重复框选同一目标手势的多个预测手势位置中,排除置信度相对较小的预测手势位置。
[0119]
在上述实现过程中,通过对初始静态手势识别模型进行训练,得到多种不同尺寸的特征图,每种尺寸的特征图对应不同的感受野,特征图尺寸小,感受野大,有利于检测大尺度目标手势,特征图大,感受野小,有利于检测小尺度目标手势,从而便于在应用过程中,
对大、中和小型手势进行识别,提高了手势识别的准确度。
[0120]
在其中的一些实施例中,将第一手势图像输入静态手势识别模型中,得到静态手势类别,包括:将第一手势图像输入静态手势识别模型中,得到静态手势位置,以及静态手势类别。
[0121]
具体的,将第一手势图像输入训练好的静态手势识别模型中,得到静态手势位置,以及静态手势类别。
[0122]
在上述实现过程中,将第一手势图像输入训练好的静态手势图像中,得到静态手势位置,以及静态手势类别,从而准确地定位出第一手势图像中的手势位置,并且,静态手势类别能够为后续动态手势的识别提供开启条件。
[0123]
在其中的一些实施例中,根据手势图像序列以及训练后的动态手势识别模型,得到动态手势类别之前,还包括对动态手势识别模型进行训练,获得训练好的动态手势识别模型,该动态手势识别模型的训练过程包括如下步骤:
[0124]
步骤1:获取第二训练样本图像。
[0125]
示例性地,在动态手势识别功能下,将预先将单目摄像头采集的连续多帧手势图像确定为第二训练样本图像。
[0126]
步骤2:将第二训练样本图像输入初始动态手势识别模型中,得到预测动态手势类别。
[0127]
示例性地,将连续多帧第二训练样本图像依次输入初始动态手势识别模型中,得到预测动态手势类别。
[0128]
作为另一种示例,将连续多帧手势图像进行跨步采样,得到手势图像序列,将手势图像序列输入初始动态手势识别模型中,得到预测动态手势类别。
[0129]
步骤3:获取第二训练样本图像对应的标签动态手势类别。
[0130]
示例性地,对第二训练样本图像的手势类别进行标注,得到标签动态手势类别。
[0131]
步骤4:基于第二损失函数确定预测动态手势类别与标签动态手势类别之间的第二损失值。
[0132]
示例性地,通过交叉熵损失函数确定预测动态手势类别与标签动态手势类别之间的第二损失值。
[0133]
作为一个具体的示例,交叉熵损失函数为:
[0134][0135]
其中,l表示交叉熵损失函数,n表示输入初始动态手势识别模型中手势图像序列的帧数,pi(c

)表示预测动态手势类别c

与标签动态手势类别相同的概率,相同为1,不同为0,表示预测静态手势为c

的概率。
[0136]
步骤5:根据第二损失函数,对初始动态手势识别模型进行训练,获得动态手势识别模型。
[0137]
示例性地,通过上述表达式(5)计算得到的第二损失值,对初始动态手势识别模型进行训练,获得动态手势识别模型。
[0138]
在上述实现过程中,通过第二训练样本图像对初始动态手势识别模型进行训练,获得训练好的动态手势识别模型,便于进一步对目标对象的动态手势进行识别,进一步根
据识别出的动态手势类别进行智能设备的控制。
[0139]
在其中的一些实施例中,获取目标对象的手势图像序列,可以包括以下步骤:
[0140]
步骤1:以第一手势图像作为首帧手势图像,获取首帧手势图像之后的连续多帧手势图像。
[0141]
示例性地,当静态手势类别为目标手势类别时,将第一手势图像作为首帧手势图像,通过单目摄像头采集目标对象的首帧手势图像之后的连续10帧手势图像。
[0142]
步骤2:从连续多帧手势图像中,至少选取部分的手势图像作为第二手势图像,得到手势图像序列。
[0143]
示例性地,从连续10帧手势图像中随机选取5帧的手势图像作为第二手势图像,得到该5帧手势图像的手势图像序列。
[0144]
需要说明的是,本技术仅以多帧手势图像为10帧为例进行说明,在实际应用中,多帧手势图像也可以是20帧,也可以是30帧,可根据实际应用进行调整,在此不作限制。
[0145]
在上述实现过程中,从连续多帧手势图像中选取部分的手势图像作为手势图像序列,便于进一步将手势图像序列输入动态手势识别模型中进行动态手势识别,从而减少了动态手势识别模型的手势图像处理数量,进一步提高了手势识别的效率。
[0146]
在其中一个具体的实施例中,从连续多帧手势图像中,至少选取部分的手势图像作为第二手势图像,可以包括以下步骤:
[0147]
步骤1:将连续多帧手势图像划分为n个手势图像集,其中,每一手势图像集中包括至少一帧手势图像,n为大于等于1的整数。
[0148]
示例性地,若连续多帧手势图像包括连续10帧手势图像:(1、2、3、4、5、6、7、8、9、10),将连续10帧手势图像等分为5个手势图像集,即第一手势图像集包括(1,2)两帧手势图像,第二手势图像集包括(3,4)两帧手势图像,第三手势图像集包括(5,6)两帧手势图像,第四手势图像集包括(7,8)两帧手势图像,第五手势图像集包括(9,10)两帧手势图。
[0149]
需要说明的是,本技术实施例中,仅以将10帧连续的手势图像等分成5个手势图像集为例进行说明,在实际应用中,也可以将10帧连续的手势图像随机划分成5个手势图像集,其中,每一手势图像集中包括至少一帧手势图像,也可以是其他划分方式,在此不作限制。
[0150]
步骤2:从每一手势图像集中随机抽取至少一帧手势图像,作为第二手势图像。
[0151]
示例性地,从上述第一手势图像集中抽取(1)帧手势图像,从上述第二手势图像集中抽取(4)帧手势图像,从上述第三手势图像集中抽取(6)帧手势图像,从上述第四手势图像集中抽取(7)帧手势图像,从上述第五手势图像集中抽取(9)帧手势图像,将(1、4、6、7、9)帧手势图像作为第二手势图像。
[0152]
需要说明的是,本技术仅以从每一手势图像集中随机抽取一帧手势图像为例进行说明,在实际应用中,可以在第一手势图像集中随机抽取一帧手势图像,在第二手势图像集中抽取两帧手势图像,在第三手势图像集中随机抽取一帧手势图像,在第四手势图像集中两帧手势图像,得到第二手势图像,也可以其他抽取方式,在此不作限制。
[0153]
进一步地,将第二手势图像(1、4、6、7、9)组成的手势图像序列输入训练好的态手势识别模型中,得到动态手势类别为“向左挥动一下”。
[0154]
作为另一种示例,获取手势图像序列中每帧的手势位置图像,将手势位置图像进
行尺寸变换,将尺寸变换后的手势位置图像输入训练好的态手势识别模型中,得到动态手势类别为“向左挥动一下”。
[0155]
在上述实现过程中,将连续多帧手势图像进行划分为个手势图像集,并从每一手势图像集中随机抽取一帧手势图像作为第二手势图像,得到手势图像序列,将手势图像序列通过动态手势识别模型进行动态手势识别,从而获得动态手势类别,不仅避免了对采集的所有帧手势图像进行动态手势识别,减少了动态手势识别模型的处理量,提高了手势识别的效率,而且将连续多帧手势图像等分,能够保证多帧手势图像在时间和空间的均匀采样,保证了手势识别结果的准确度。
[0156]
在其中一个具体的实施例中,第二神经网络包括时序偏移模块和卷积神经网络。
[0157]
示例性地,第二神经网络可以包括n个由时序偏移模块(temporal shift module,tsm)和二维卷积神经网络结合的特征提取层。
[0158]
将手势图像序列依次输入第1个特征提取层的时序偏移模块、第1个特征提取层的二维卷积神经网络层、第2个特征提取层的时序偏移模块、第2个特征提取层的二维卷积神经网络层
……
第n个特征提取层的时序偏移模块、第n个特征提取层的二维卷积神经网络层进行特征提取。
[0159]
进一步地,将特征提取的结果通过全连接层进行处理,获得动态手势类别。
[0160]
在上述实现过程中,将手势图像序列输入动态手势识别模型时,通过时序偏移模块进行处理,然后经过二维卷积神经网络进行处理,以使手势图像序列在时序偏移模块中进行处理时,产生时序上的偏移,进一步在二维卷积神经网络进行处理时,产生空间上信息的提取,在保证手势图像序列在时间信息和空间信息的完整性的同时,降低了动态手势识别模型计算的复杂度,从而降低了手势识别系统的功耗,进一步,提高了手势识别的效率。
[0161]
在上述实现过程中,通过静态手势识别与动态手势识别相结合的方式,对目标对象的手势进行识别,为目标对象提供了更多样化的人机交互方式,提升了目标对象的体验感,并且在动态手势识别模型中,采用时序偏移模块和二维卷积神经网络相结合的特征提取层对手势图像序列进行识别,增强了嵌入式设备可部署性,降低了手势识别系统的运行功耗,进一步地,提高了手势识别的效率。
[0162]
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0163]
下面通过实施例对本技术的手势识别方法进行描述和说明。
[0164]
图4是本技术实施例提供的一种手势识别方法实施例流程图,图4所示的流程包括:
[0165]
步骤401:开启手势识别功能。
[0166]
具体的,当目标对象需要对智能设备进行控制时,目标对象智能设备上的手势识别功能按钮,智能设备接收到目标对象的操作指令,从而智能设备开启手势识别功能。
[0167]
步骤402:通过图像采集装置采集目标对象的手势图像。
[0168]
进一步地,开启智能设备的手势识别功能后,目标对象做出手势,通过智能设备中的图像采集装置实时采集目标对象的手势图像。
[0169]
步骤403:通过训练好的静态手势识别模型逐帧识别手势图像,得到静态手势类
别。
[0170]
进一步地,通过训练好的静态手势识别模型对图像采集装置采集的手势图像进行逐帧识别,得到每帧手势图像中的静态手势类别。
[0171]
步骤404:判断静态手势类别是否为目标手势类别。
[0172]
具体的,判断每帧手势图像中的静态手势类别是否为目标手势类别,例如,目标手势类别为“ok”的手势。
[0173]
若否,即静态手势类别与目标手势类别不同,则返回执行步骤403。
[0174]
若是,即静态手势类别与目标手势类别相同,则继续执行步骤405。
[0175]
步骤405:获取目标对象当前的多帧手势图像,得到手势图像序列,通过训练好的动态手势对手势图像序列进行识别,得到动态手势类别。
[0176]
具体的,当静态手势类别与目标手势类别相同时,通过图像采集设备采集目标对象当前的手势图像视频,进一步地,智能设备以滑窗的形式获取连续帧32帧手势图像,同时均匀抽取4帧手势图像,并利用训练好的动态手势识别模型识别4帧手势图像进行动态手势识别,得到目标对象的动态手势类别。
[0177]
步骤406:智能设备根据动态手势类别做出响应。
[0178]
具体的,智能设备根据识别出的动态手势类别做出响应。例如,识别出的动态手势类别为“向左挥动一下”,则智能电视中的页面向左切换下一页。
[0179]
步骤407:60秒无有效手势,关闭手势识别功能。
[0180]
具体的,若图像采集装置持续60秒未采集到手势图像,或动态手势识别模型从连续60秒的手势图像视频中未识别到有效手势,则智能设备关闭手势识别功能。
[0181]
在上述实现过程中,智能设备根据目标对象的操作指令开启手势识别功能,并通过图像采集装置采集目标对象的手势图像,首先通过静态手势识别模型对每帧手势图像进行识别,得到静态手势识别类别,若静态手势类别为目标手势类别时,才利用动态手势识别模型,对目标对象当前的多帧手势图像进行识别,得到目标对象的动态手势类别,从而实现了对动态手势识别过程中起始帧的划分,避免了根据两帧之间的光流特征判断动态手势识别过程的起始帧,从而降低手势识别系统的运行功耗和运行时间,以提高手势识别的效率,进一步地,智能设备根据动态手势类别做出响应,从而为目标对象提供了更多样化的人机交互方式,增强了目标对象的体验感。
[0182]
在本技术实施例中还提供了一种手势识别的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0183]
图5是本技术实施例的一种手势识别的装置的结构框图,如图5所示,该装置包括:
[0184]
第一获取模块501,用于获取目标对象的第一手势图像;
[0185]
静态识别模块502,用于将第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别;
[0186]
第二获取模块503,用于当静态手势类别为目标手势类别时,获取目标对象当前的手势图像序列,手势图像序列基于针对目标对象采集的多帧第二手势图像确定;
[0187]
动态识别模块504,用于根据手势图像序列以及训练后的动态手势识别模型,得到
动态手势类别。
[0188]
在其中的一些实施例中,第一获取模块501还用于:
[0189]
获取第一训练样本图像;
[0190]
将第一训练样本图像输入初始静态手势识别模型中,得到预测手势位置,以及预测静态手势类别;
[0191]
获取第一训练样本图像对应的标签手势位置和标签手势类别;
[0192]
根据手势位置损失函数确定预测手势位置与标签手势位置之间的位置损失值,根据类别损失函数确定预测静态手势类别与标签手势类别之间的类别损失值;
[0193]
根据位置损失值和类别损失值调整初始静态手势识别模型的参数,得到训练后的静态手势识别模型。
[0194]
在其中的一些实施例中,第一获取模块501具体用于:
[0195]
将第一训练样本图像输入初始静态手势识别模型中,得到第一训练样本图像为多个手势类别中每一手势类别的概率;
[0196]
根据多个手势类别的概率确定预测静态手势类别。
[0197]
在其中的一些实施例中,第一获取模块501具体用于:
[0198]
将第一训练样本图像输入初始静态手势识别模型中,得到多种尺寸的特征图,其中,每种尺寸的特征图包括对应的手势位置;
[0199]
根据多种尺寸的特征图中的手势位置确定预测手势位置。
[0200]
在其中的一些实施例中,第一获取模块501还用于:
[0201]
接收目标对象输入的操作指令,操作指令用于开启图像采集设备,图像采集设备用于采集目标对象的手势图像。
[0202]
在其中的一些实施例中,第二获取模块503具体用于:
[0203]
以第一手势图像作为首帧手势图像,获取首帧手势图像之后的连续多帧手势图像;
[0204]
从连续多帧手势图像中,至少选取部分的手势图像作为第二手势图像,得到手势图像序列。
[0205]
在其中的一些实施例中,第二获取模块503具体用于:
[0206]
将连续多帧手势图像划分为n个手势图像集,其中,每一手势图像集中包括至少一帧手势图像,n为大于等于1的整数;
[0207]
从每一手势图像集中随机抽取至少一帧手势图像,作为第二手势图像。
[0208]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0209]
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0210]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0211]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0212]
s1,获取目标对象的第一手势图像。
[0213]
s2,将第一手势图像输入训练后的静态手势识别模型中,得到静态手势类别。
[0214]
s3,当静态手势类别为目标手势类别时,获取目标对象的手势图像序列,手势图像序列基于针对目标对象采集的多帧第二手势图像确定。
[0215]
s4,根据手势图像序列以及训练后的动态手势识别模型,得到动态手势类别。
[0216]
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
[0217]
此外,结合上述实施例中提供的手势识别的方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种手势识别的方法。
[0218]
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本技术提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本技术保护范围。
[0219]
显然,附图只是本技术的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本技术适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本技术披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本技术公开的内容不足。
[0220]“实施例”一词在本技术中指的是结合实施例描述的具体特征、结构或特性可以包括在本技术的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本技术中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
[0221]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献