手势识别方法、装置、终端设备及计算机可读存储介质与流程

2022-04-16 13:31:55 来源：中国专利 TAG：

1.本技术属于机器视觉技术领域，尤其涉及一种手势识别方法、装置、终端设备及计算机可读存储介质。

背景技术：

2.人机交互是指人与计算机之间使用某种对话语言，以一定的交互方式完成人与计算机之间的信息交换过程。手作为身体上最灵活的部位，手势识别常被用于人机交互领域，通过识别手势可操控相关设备。
3.传统的手势识别通常是对获取的视频或图像，通过肤色检测是否存在手部，然后利用模板匹配等方法来识别手势种类，由于受环境噪声等影响(如光照环境等)，此类方法往往识别的精度低。近几年由于深度学习的兴起，基于深度学习的手势识别也越来越被关注，目前基于深度学习的手势识别主要是通过神经网络直接进行人手检测并识别手势，由于手部占比面积小，在对人手拍摄过程中，目标人员配合拍摄手部的效果不好或者拍摄距离较远时，手势识别的准确性不高。

技术实现要素：

4.本技术实施例提供了一种手势识别方法、装置、终端设备及计算机可读存储介质，旨在解决现有手部检测和手势识别准确性不高的问题。
5.第一方面，本技术实施例提供了一种手势识别方法，包括：
6.获取目标场景的视频数据；
7.若检测到视频数据中的视频图像满足预设检测条件，则将视频图像输入第一神经网络模型进行手部第一次检测，得到视频图像中的人手的第一坐标位置；
8.根据第一坐标位置确定包含人手的手部图像；
9.将手部图像输入第二神经网络模型进行手部第二次检测和手势识别，得到人手在手部图像中的第二坐标位置和第一手势。
10.第二方面，本技术实施例提供一种手势识别装置，包括：
11.获取模块，用于获取目标场景的视频数据；
12.第一检测模块，用于若检测到视频数据中的视频图像满足预设检测条件，则将视频图像输入第一神经网络模型进行手部第一次检测，得到视频图像中的人手的第一坐标位置；
13.确定模块，用于根据第一坐标位置确定包含人手的手部图像；
14.第二检测模块，用于将手部图像输入第二神经网络模型进行手部第二次检测和手势识别，得到人手在手部图像中的第二坐标位置和第一手势。
15.第三方面，本技术实施例提供了一种终端设备，终端设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述手势识别方法的步骤。
16.第四方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述手势识别方法的步骤。
17.第五方面，本技术实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述现上述手势识别方法的步骤。
18.本技术实施例与现有技术相比存在的有益效果是：本技术实施例由于可在检测到视频数据中的视频图像满足预设检测条件时，首先通过第一次检测进行手部粗略检测得到视频图像中的人手的第一坐标位置，然后根据第一坐标位置确定包含人手的手部图像，最后对手部图像通过第二次检测进行手部精准检测和手势识别，有助于提高手部检测的准确性，进而提高手势识别的准确性。
19.可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是本技术一实施例提供的手势识别方法的流程示意图；
22.图2是本技术一实施例提供的第一神经网络模型的示意图；
23.图3是本技术一实施例提供的获取的手部图像的示例图；
24.图4是本技术一实施例提供的人手在手部图像的第二坐标位置的结果示意图；
25.图5是本技术另一实施例提供的手势识别方法的流程示意图；
26.图6是本技术一实施例提供的手势识别装置的结构示意图；
27.图7是本技术一实施例提供的终端设备的结构示意图。
具体实施方式
28.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
29.应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
30.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
31.如在本技术说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0032]
另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0033]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0034]
本技术实施例提供的手势识别方法，可以应用于包括摄像机或者与摄像机通信连接的终端设备，终端设备可以是电视机、机器人、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、个人数字助理(personal digital assistant，pda)等终端设备。本技术实施例对终端设备的具体类型不做任何限制。
[0035]
如在一种应用场景下，手势识别方法应用于设置有摄像头或与摄像头通信连接的电视机时，用户可通过手势远距离操控电视机，实现与电视机之间的人机交互。用户与电视机的摄像头距离通常是2m～4m，因此电视机的摄像头拍摄的视频画面中用户的手势占比小，且容易受到环境噪声影响，在这种应用场景下通过本技术的手势识别方法对用户的手势进行识别的准确性较高，可以有效提高根据识别结果操控电视机时的流畅度。环境噪声是指电视机的摄像头拍摄的视频画面中的背景物体、强光、弱光或者光强度变化范围较大的光线等。
[0036]
为了说明本技术的技术方案，下面通过以下实施例来进行说明。
[0037]
请参阅图1，本技术实施例提供的一种手势识别方法，可以由摄像机执行或者与摄像机通信连接的终端设备(如电视机)执行，手势识别方法包括：
[0038]
步骤s101，获取目标场景的视频数据。
[0039]
具体的，在目标应用场景中，获取摄像头采集到的目标场景的视频数据，视频数据可以是由多幅图像按序构成的视频流，以每秒超过一定数量播放多幅图像时，根据视觉暂留原理，人眼看视频具有平滑连续的视觉效果。
[0040]
步骤s102，若检测到视频数据中的视频图像满足预设检测条件，则将视频图像输入第一神经网络模型进行手部第一次检测，得到视频图像中的人手的第一坐标位置。
[0041]
具体的，可以从视频数据中的第一幅视频图像开始检测是否满足预设检测条件。满足预设检测条件可以是当前的视频图像是否是关键帧。为了满足视觉特性，通常视频数据中相邻帧的关联性比较强，因此可在视频数据中每隔n帧的视频图像作为关键帧。在视频图像满足预设检测条件时，将视频图像输入至第一神经网络模型中进行手部第一次检测，手部第一次检测为在检测到视频图像中存在人手时，获得人手在视频图像中的第一坐标位置。第一神经网络模型是用于对视频图像中的人手进行初步检测的神经网络，可检测是否存在人手，并在存在人手时输出人手在视频图像中的位置。
[0042]
在一个实施例中，检测到视频数据中的视频图像满足预设检测条件之前，方法还包括：
[0043]
将视频图像的色域调整至目标色域；和/或，
[0044]
将视频图像的尺寸调整至预设尺寸。
[0045]
具体的，将视频图像的色域调整至目标色域可以是：将视频图像转换至rgb格式图像，如获取到视频数据后，通过深度学习的读取方法从视频数据中读取的视频图像通常为brg格式，因此将brg格式的视频图像转换为rgb格式的视频图像。将视频图像的尺寸调整至预设尺寸可以是：将视频图像大小缩放至预设尺寸，可以是通过缩放算法将视频图像的大小缩放至预设尺寸大小，如采用双三次插值法(即bicubic算法)进行等比例缩放至预设尺寸大小，例如可以是将图片的长所占的像素等比例缩放至320或其它数值，将图片的宽以同样等比例缩放至对应大小。假设获取的视频图像像素的长为400宽为300的，预设尺寸大小的长为320，通过双三次插值法将视频图像的大小缩放至预设尺寸大小可以是将视频图像像素的长缩放至320，将视频图像像素的宽缩放至200＝(320/400)*300，需说明，此处仅是为了理解本技术进行举例说明，并不作为本技术的限定，在实际应用中上述图像的大小及预设尺寸可以是其它数值，对此不做限定。
[0046]
在一个实施例中，视频数据中的视频图像满足预设检测条件为视频数据中的视频图像位于视频数据中的帧号处于预设帧号范围内。
[0047]
具体的，视频数据中的视频图像满足预设检测条件可根据当前视频图像在视频数据中的帧号确定，视频数据中的视频图像满足预设检测条件为视频数据中的视频图像位于视频数据中的帧号处于预设帧号范围内。如可预先根据帧号设置关键帧，如关键帧是第1帧、第5帧、第10帧等等，以此类方式的预先进行设定，若当前视频图像的帧号是关键帧的帧号，则判定当前视频图像满足预设检测条件；若当前视频图像的帧号不是关键帧的帧号，则判定当前视频图像不满足预设检测条件。
[0048]
在一个实施例中，检测到当前视频图像中不存在人手时，则判定未检测到人手，获取下一帧作为当前的视频图像并返回执行步骤s102及后续步骤。
[0049]
具体的，在将视频图像输入第一神经网络模型对视频图像进行手部第一次检测之前，对预先构建的第一神经网络模型进行训练，得到已训练的第一神经网络模型，第一神经网络模型的输出结果为检测到人手时输出人手在视频图像中的位置。第一神经网络模型可采用轻量级的网络来进行网络设计，如图2所示，示出一个根据mobilenet_ssd网络结构构建的第一神经网络模型的网络结构。该第一神经网络输入的视频图像为经过预处理，并缩放至320p尺寸的图像。
[0050]
步骤s103，根据第一坐标位置确定包含人手的手部图像。
[0051]
具体的，在检测到视频图像存在人手时，得到人手的手部图像可以是基于第一坐标位置裁剪出人手区域的图像。该手部图像由于是从人手占比比较大的视频图像中检测得到，因此该手部图像通常除包括人手外还包括视频图像的其他背景区域。
[0052]
步骤s104，将手部图像输入第二神经网络模型进行手部第二次检测和手势识别，得到人手在手部图像中的第二坐标位置和第一手势。
[0053]
具体的，手部图像输入第二神经网络模型中进行手部第二次检测和手势识别，获得手势识别结果，手势识别结果可以是手部在图像中的精准位置和手势的类别。第二神经网络模型用于对手部图像中的人手进行精确确定人手在手部图像中的位置，并识别出人手的手势。通过第二神经网络模型识别出手部图像的手势，将识别出的手势作为手势识别结
果。预先将不同的手势关联不同的操作，执行与手势识别结果关联的操作从而可以完成人机交互。
[0054]
将手部图像输入第二神经网络模型进行手势识别之前，对预先构建的第二神经网络模型进行训练，对第二神经网络模型进行训练的过程，可以是预先准备好大量的各种视角的手势动作和各种其他类手势动作，并在过亮、过暗、模糊、噪声等环境下的测试图像，对测试图像的手势类别进行标注，如标注的手势类别包括：停止、上一个、下一个、点赞、握拳、其他手势、背景类，每个类别至少包括1000张测试图像，且配有人工标注的人手的坐标位置。准备好的大量测试图像对第二神经网络模型进行训练。第二神经网络模型可以是采用mobilenet_v2网络作为主干部分提取特征，再接上手势识别网络结构和手部位置定位结构，进行构建的神经网络。手势识别结构可依次由全局池化层(global_pooling)，1*1卷积(conv1*1)，激活函数softmax三层网络构成，最后将概率最大的类别输出为识别结果。而手部位置定位结构依次可由conv1*1和conv1*1两层网络构成，得到人手在手部图像的坐标位置。
[0055]
在一个实施例中，当通过第二神经网络识别出的手势类别是背景类时，则同样判定未识别到人手，获取视频数据中下一帧作为当前的视频图像并返回执行步骤s102及后续步骤。
[0056]
在一个实施例中，根据第一坐标位置确定包含人手的手部图像，包括：
[0057]
获取与第一坐标位置对应的人手检测框；
[0058]
按照预设比例系数将人手检测框进行放大，得到放大后的人手检测框；
[0059]
根据放大后的人手检测框对视频图像进行剪裁，得到裁剪后的视频图像；
[0060]
对剪裁后的视频图像进行归一化和/或去均值操作，得到包含人手的手部图像。
[0061]
根据手部第一次检测获取到视频图像中人手对应像素的第一坐标位置，可得到人手检测框，将该检测框的宽和高乘以预设比例系数进行放大，如宽和高的预设比例系数均预设为1.3或分别设置其他数值，具体可根据实际应用进行设置，对此不做限制。再根据放大后的检测框在视频图像中的位置对上述视频图像进行剪裁，并对剪裁后的视频图像进行归一化和/或去均值操作，将归一化和/或去均值操作处理后的图像作为人手的手部图像，如进行归一化，可以是将剪裁后的视频图像进行尺度归一化。去均值操作可以是计算图像均值，在手部图像输入至第二神经网络模型之前，进行去均值操作。图像通常是一种平稳的数据分布，去均值是减去对应维度的统计平均值，去均值操作可消除图像公共部分，以凸显图像的特征。
[0062]
在一个实施例中，将手部图像输入至第二神经网络模型进行手部第二次检测和手势识别，得到人手在手部图像中的第二坐标位置和第一手势之后，方法还包括：
[0063]
根据人手在手部图像中的第二坐标位置，以及手部图像在视频图像中的第一坐标位置，确定人手在视频图像中的第三坐标位置。
[0064]
具体的，若视频图像中人手的占比比较小时，对视频图像进行剪裁后获得的手部图像通常得到的是一个比较粗略的位置，如图3所示为对视频图像进行剪裁后获得的手部图像示意图。根据该手部图像再定位人手在手部图像的第二坐标位置，会得到一个比较精确的位置，请参阅图4，示出了人手在手部图像的第二坐标位置的结果示意图。因此可根据人手在手部图像中的第二坐标位置，以及手部图像在视频图像中的第一坐标位置，确定人
手在视频图像中的第三坐标位置。
[0065]
在一个实施例中，确定人手在视频图像中的第三坐标位置之后，方法还包括：
[0066]
根据视频图像的前n帧视频图像中的人手的坐标位置，对人手在视频图像中的第三坐标位置进行第一平滑处理，得到人手在视频图像中的目标坐标位置，n为大于1的整数；
[0067]
根据前n帧视频图像中的人手的手势，对第一手势进行第二平滑处理，得到第二手势。
[0068]
具体的，由于为了满足视觉特性，通常视频数据中相邻帧的关联性比较强，利用当前视频图像的过去连续几帧(如可使用视频图像过去最近的连续5帧)坐标位置进行平滑，从而防止坐标位置出现频繁抖动。利用过去的连续几帧(如可使用视频图像过去最近的连续5帧)的识别结果对当前手势识别结果进行平滑，可防止识别结果的反复跳变。
[0069]
在一个具体实施例中，根据视频图像的前n帧视频图像中的人手的坐标位置，对人手在视频图像中的第三坐标位置进行第一平滑处理，得到人手在视频图像中的目标坐标位置，包括：
[0070]
分别获取视频图像的前n帧视频图像中的人手的坐标位置；
[0071]
根据前n帧视频图像中的人手的坐标位置，分别获取前n帧视频图像中的人手的第一中心位置；
[0072]
根据人手在视频图像中的第三坐标位置确定视频图像中的人手的第二中心位置；
[0073]
根据n个第一中心位置确定n个第一中心位置的平均中心位置；
[0074]
若平均中心位置与第二中心位置之间的距离处于预设变换差值范围内，则确定人手在视频图像中的第三坐标位置为目标坐标位置；或者，
[0075]
若平均中心位置与第二中心位置之间的距离未处于预设变换差值范围内，则调整人手在视频图像中的第三坐标位置，得到人手在视频图像中的第四坐标位置；根据人手在视频图像中的第四坐标位置确定视频图像中的人手的第三中心位置；若平均中心位置与第三中心位置之间的距离处于预设变换差值范围内，则确定人手在视频图像中的第四坐标位置为目标坐标位置。
[0076]
具体的，第一平滑处理的过程具体可以是：通过当前视频图像前n帧视频图像中获得到的人手的坐标位置，根据前n帧视频图像中的人手的坐标位置，分别获取前n帧视频图像中的人手的第一中心位置，根据前n帧图像的n个第一中心位置可以计算出一个平均中心位置。根据当前视频图像中人手的第三坐标位置，计算视频图像中人手的第二中心位置。在视频数据中相连的n帧图像中的相关性比较大，因此算出的平均中心位置与第一中心位置的变化范围通常不会超过一定数值，预先设置并存储预设变化差值范围，平均中心位置与第一中心位置之间的距离在预设变换差值范围内，认为求出当前视频图像的第三坐标位置为准确的人手坐标位置，将该位置作为视频图像的最终的坐标位置。
[0077]
或者，若平均中心位置与视频图像的第二中心位置之间的距离未处于预设变换差值范围内，则调整人手在视频图像中的第三坐标位置，得到人手在视频图像中的第四坐标位置，以使视频图像中人手的第二中心位置在预设变换差值范围内。根据第四坐标位置确定当前视频图像中的人手的第三中心位置；若平均中心位置与第三中心位置之间的距离处于预设变换差值范围内，则确定人手在视频图像中的第四坐标位置为视频图像的最终的坐标位置。调整人手在视频图像中的第三坐标位置可以是将对应的横纵坐标值一步步进行增
加或减少预设数值，直至调整到平均中心位置与第三中心位置之间的距离处于预设变换差值范围内，就停止调整。
[0078]
在一个具体实施例中，根据前n帧视频图像中的人手的手势，对第一手势进行第二平滑处理，得到第二手势，包括：
[0079]
根据前n帧视频图像中的人手的手势和预设的变换手势运动平滑关系确定视频图像的预测手势；
[0080]
若第一手势与预测手势匹配，则将第一手势作为第二手势；或者，
[0081]
若第一手势与预测手势不匹配，则将预测手势作为第二手势。
[0082]
具体的，可以根据预设的变换手势运动平滑的关系，并根据前n帧的手势，预测第n 1帧的手势。例如，假设n为5，预设前5帧中有4帧图像的手势为第一手势，则预测第6帧的手势也为第一手势，前5帧图像中的只要后两帧图像的手势为第一手势，则预测第6帧的手势也为第一手势等等。此处是为了说明本技术技术方案而进行的举例，并不作为对本技术的限制。
[0083]
在另一个实施例中，请参阅图5，获取目标场景的视频数据之后，方法还包括步骤s201至步骤s203：
[0084]
步骤s201，若检测到视频数据中的视频图像未满足预设检测条件，则获取视频图像的上一帧视频图像中人手的坐标位置。
[0085]
具体的，当前视频图像不满足预设检测条件时，获取当前视频图像的上一帧图像中最终确定的人手的坐标位置，再执行进入步骤s202。若在当前视频图像的上一帧图像中未获取到人手的目标坐标位置，则判定未检测到人手且不执行后续步骤。
[0086]
步骤s202，根据上一帧视频图像中人手的目标坐标位置，获取手部图像。
[0087]
具体的，可根据上一帧视频图像中人手的目标坐标位置获取手部图像，由于上一帧视频图像与当前视频图像会有一定的差别，因此此时获取的手部图像也作为一个粗略检测到的手部图像。
[0088]
步骤s203，将手部图像输入第二神经网络模型进行手部第二次检测和手势识别，得到人手在手部图像的第二坐标位置和第一手势。
[0089]
具体的，步骤s202所获取的手部图像输入至第二神经网络模型中进行手部第二次检测和手势识别，获得手势识别结果，手势识别结果可以是手部在图像中的精准位置和手势的类别。
[0090]
在一个实施例之前，在将步骤s202所获取的手部图像输入至第二神经网络模型进行手势识别之前，包括：
[0091]
对手部图像按照预设比例系数进行放大；
[0092]
将放大后的手部图像进行归一化和/或去均值操作。
[0093]
由于可在检测到视频数据中的视频图像满足预设检测条件时，先进行粗略检测得到视频图像中的人手的第一坐标位置；再根据第一坐标位置确定包含人手的手部图像，再对手部图像进行手部第二次检测和手势识别，可提高手势识别的准确性。
[0094]
本技术实施例还提供一种手势识别装置，用于执行上述手势识别方法实施例中的步骤。手势识别装置可以是终端设备中的虚拟装置(virtual appliance)，由终端设备的处理器运行，也可以是终端设备本身。
[0095]
如图6所示，本技术实施例提供的手势识别装置600包括：
[0096]
获取模块601，用于获取目标场景的视频数据；
[0097]
第一检测模块602，用于若检测到视频数据中的视频图像满足预设检测条件，则将视频图像输入第一神经网络模型进行手部第一次检测，得到视频图像中的人手的第一坐标位置；
[0098]
确定模块603，用于根据第一坐标位置确定包含人手的手部图像；
[0099]
第二检测模块604，用于将手部图像输入至第二神经网络模型进行手部第二次检测和手势识别，得到人手在手部图像中的第二坐标位置和第一手势。
[0100]
在一个实施例中，手势识别装置600还包括：
[0101]
预处理模块，用于将视频图像的色域调整至目标色域；和/或，
[0102]
将视频图像的尺寸调整至预设尺寸。
[0103]
在一个实施例中，确定模块603具体用于：
[0104]
获取与第一坐标位置对应的人手检测框；
[0105]
按照预设比例系数将人手检测框进行放大，得到放大后的人手检测框；
[0106]
根据放大后的人手检测框对视频图像进行剪裁，得到裁剪后的视频图像；
[0107]
对剪裁后的视频图像进行归一化和/或去均值操作，得到包含人手的手部图像。
[0108]
在一个实施例中，视频数据中的视频图像满足预设检测条件为视频数据中的视频图像位于视频数据中的帧号处于预设帧号范围内。
[0109]
在一个实施例中，手势识别装置600还包括：
[0110]
位置确定模块，用于根据人手在手部图像中的第二坐标位置，以及手部图像在视频图像中的第一坐标位置，确定人手在视频图像中的第三坐标位置。
[0111]
在一个实施例中，手势识别装置600还包括：
[0112]
第一平滑处理模块，用于根据视频图像的前n帧视频图像中的人手的坐标位置，对人手在视频图像中的第三坐标位置进行第一平滑处理，得到人手在视频图像中的目标坐标位置，n为大于1的整数；
[0113]
第二平滑处理模块，用于根据前n帧视频图像中的人手的手势，对第一手势进行第二平滑处理，得到第二手势。
[0114]
在一个实施例中，第一平滑处理模块包括：
[0115]
第一获取单元，用于分别获取视频图像的前n帧视频图像中的人手的坐标位置；
[0116]
第二获取单元，用于根据前n帧视频图像中的人手的坐标位置，分别获取前n帧视频图像中的人手的第一中心位置；
[0117]
第一确定单元，用于根据人手在视频图像中的第三坐标位置确定视频图像中的人手的第二中心位置；
[0118]
第二确定单元，用于根据n个第一中心位置确定n个第一中心位置的平均中心位置；
[0119]
第三确定单元，用于若平均中心位置与第二中心位置之间的距离处于预设变换差值范围内，则确定人手在视频图像中的第三坐标位置为目标坐标位置；
[0120]
调整单元，用于若平均中心位置与第二中心位置之间的距离未处于预设变换差值范围内，则调整人手在视频图像中的第三坐标位置，得到人手在视频图像中的第四坐标位
置；根据人手在视频图像中的第四坐标位置确定视频图像中的人手的第三中心位置；若平均中心位置与第三中心位置之间的距离处于预设变换差值范围内，则确定人手在视频图像中的第四坐标位置作为目标坐标位置。
[0121]
在一个实施例中，第二平滑处理模块包括：
[0122]
预测单元，用于根据前n帧视频图像中的人手的手势和预设的变换手势运动平滑关系确定视频图像的预测手势；
[0123]
第一匹配确定单元，用于若第一手势与预测手势匹配，则将第一手势作为第二手势；
[0124]
第二匹配确定单元，用于若第一手势与预测手势不匹配，则将预测手势作为第二手势。
[0125]
本技术实施例可在检测到视频数据中的视频图像满足预设检测条件时，先进行手部粗略检测得到视频图像中的人手的第一坐标位置；再根据第一坐标位置确定包含人手的手部图像，再对手部图像进行手部精准检测和手势识别，有助于提高手部检测的准确性，进而提高手势识别的准确性。
[0126]
如图7所示，本技术的一个实施例还提供一种终端设备700包括：处理器701，存储器702以及存储在存储器702中并可在处理器701上运行的计算机程序703，例如手势识别程序。处理器701执行计算机程序703时实现上述各个手势识别方法实施例中的步骤。处理器701执行计算机程序703时实现上述各装置实施例中各模块的功能，例如图6所示模块601至604的功能。
[0127]
示例性的，计算机程序703可以被分割成一个或多个模块，一个或者多个模块被存储在存储器702中，并由处理器701执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序703在终端设备700中的执行过程。例如，计算机程序703可以被分割成获取模块，第一检测模块，确定检测模块，第二检测模块，各模块具体功能在上述实施例中已有描述，此处不再赘述。
[0128]
终端设备700可以是电视机、机器人、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本、个人数字助理(personal digital assistant，pda)等终端设备等计算设备。终端设备可包括，但不仅限于，处理器701，存储器702。本领域技术人员可以理解，图7仅仅是终端设备700的示例，并不构成对终端设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0129]
所称处理器701可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0130]
存储器702可以是终端设备700的内部存储单元，例如终端设备700的硬盘或内存。存储器702也可以是终端设备700的外部存储设备，例如终端设备700上配备的插接式硬盘，
智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。进一步地，存储器702还可以既包括终端设备700的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及终端设备所需的其他程序和数据。存储器702还可以用于暂时地存储已经输出或者将要输出的数据。
[0131]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0132]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0133]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0134]
在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0135]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0136]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0137]
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、
电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0138]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

手势识别方法、装置、终端设备及计算机可读存储介质与流程

相关文献

最热文献