一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于轻量化卷积神经网络的手势识别方法与流程

2021-12-14 22:40:00 来源:中国专利 TAG:

像;
16.提取每个动态手势图像段中每一帧图像的手势运动量,根据每一帧图像中手势运动 信息量从大到小进行排序,选择排序靠前的p帧图像作为关键帧图像;
17.所述手势运动信息量,是由图像中每一个像素点光流的水平分量和垂直分量累加而 得到;
18.在视频图像中分析物体运动的光流量,每次选择视频图像中光流移动次数最少的视 频帧作为提取到的关键帧。
19.关键帧提取的有益效果是,可以提升识别的精度,因为提取的是关键帧图像,关键 帧图像相比其余帧图像更具有代表性,其特征信息量也较其余帧图像更多。
20.进一步地,所述步骤3)中,
21.对每个关键帧图像使用肤色高斯模型分割出手势区域的具体步骤为:
22.在ycbcr空间下利用肤色高斯分布对人体手势肤色建模,计算出图像中各点属于肤 色的概率值,进而分割出手势区域。
23.进一步地,所述步骤3.1)中,采用一种基于yolov4的轻量化混合神经网络建立手 势识别模型的具体步骤为:
24.将yolov4算法与mobilenext轻量化网络结合,使整个主干特征提取网络更加轻量 高效;
25.进一步地,所述步骤4)中,
26.模拟人类视觉系统引入改进rfb网络和通道注意力机制结合的混合网络,加强轻量 化网络整体特征提取能力。具体实现方式为:
27.rfb模块通过考虑感受野和离心率之间关系,来增强网络特征提取的鲁棒性和可区分 性。rfb模块是多分支卷积块,每个分支中采用瓶颈结构;
28.所述瓶颈结构主要包括两部分:不同尺寸卷积核的多分支卷积层,以及空洞卷积层, 可同时提高模型识别的速度和精度。
29.与现有技术相比,本发明的有益效果是:
30.1、使用光流量提取视频图像的关键帧,提升模式识别的效率,此方法具有通用性, 可从大部分视频图像中提取关键帧;
31.2、将关键帧使用肤色高斯模型分割出手势区域,避免在复杂背景下,人工特征提取 的主观性和局限性,为手势的精确识别提供基础;
32.3、采用yolov4算法与mobilenext轻量化网络结合,使整个主干特征提取网络更加 轻量高效;
33.4、模拟人类视觉系统引入改进rfb网络和通道注意力机制结合的混合网络,加强轻 量化网络整体特征提取能力。
附图说明
34.构成本发明的一部分的说明附图用来提供对本技术的进一步理解,本技术的示意性 实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
35.图1为本发明实施方式的方法流程图
36.图2为高斯模型检测的肤色区域
37.图3基于改进yolov4混合轻量级网络结构
38.图4不同剩余瓶颈块的概念图
39.图5通道注意力机制模块
40.图6改进后的rfb

s和se混合网络结构
具体实施方式
41.下面结合附图和具体实施方法对本发明作进一步详细说明。
42.本发明提出的一种基于轻量化卷积神经网络的手势识别方法,方法流程图如图1,包 括以下步骤:
43.步骤1)对获取的动态手势数据进行分帧处理,将动态图像的每一帧作为一帧图像, 分为若干帧图像。从所述若干帧图像中提取若干关键帧图像。在静态手势识别中,我们 的识别对象是一张包含手的静态图片,而在动态手势识别中,识别对象是由许多连续视 频帧组成的视频片段。利用matlab视频分帧函数,以下代码可从视频中提取图片,即将 视频中的每一帧图片都保持下来。
[0044][0045]
代码中,读取的视频和保存的图片均在matlab的当前文件夹中。
[0046]
步骤2)针对一个动态手势,不同的人有不同的表现形式,即使是同一个人在每次表 现时也会有手姿势和手运动速度上的不同,这造成每一段视频中包含数量不一的帧。因 此需要提取一段视频中的关键帧来代替原始视频,关键帧的提取不仅会去除原视频中冗 余帧使每一段视频具有固定的帧数,而且也方便后续卷积神经网络模型提取手势的时域 特征。
[0047]
关键帧的提取方法有很多主要包括三种:1.基于镜头的关键帧提取;2.基于运动分 析关键帧提取;3.基于视频聚类关键帧提取。我们采用的是第二种基于运动分析的关键 帧提取,此种方法是基于物体运动特征的属性提出的一种关键帧提取算法,它的一般实 现过程是:在视频镜头中分析物体运动的光流量,每次选择视频镜头中光流移动次数最 少的视频帧作为提取到的关键帧。利用光流法计算视频帧的运动量公式如下所示:
[0048]
m(k)=∑∑|l
x
(i,j,k)| |l
y
(i,j,k)|
[0049]
式中,m(k)表示第k帧的运动量,l
x
(i,j,k)表示第k帧像素点(i,k)处光流x的分 量,l
y
(i,j,k)表示第k帧像素点(i,k)处光流y的分量。计算完成后,取局部最小值 作为所要提取的关键帧。计算公式如下所示:
[0050]
m(k
i
)=min[m(k)]
[0051]
此种方法可以从大部分视频镜头中提取适量的关键帧,提取的关键帧也可以有效地 表达出视频运动特征,提升后续图像的识别效率。
[0052]
步骤3)由于手势图像的背景较为复杂,且不同光照变化下也会导致肤色的亮度发生 变化,需要采用一个可靠的肤色模型来检测出手势区域。研究结果表明,不同人种的肤 色在亮度上的差异远远小于在色度上的差异。ycbcr颜色空间具有亮度和色度分离的优 点,有较好的聚类性和稳定性,且近似呈现高斯分布的统计规律。因此,在ycbcr空间 下利用高斯分布对肤色建模,计算出图像中各点属于肤色的概率值,进而分割出手势区 域。基于高斯分布对肤色建模的计算公式如下所示:
[0053]
p(cb,cr)=exp{

0.5(x

m)
t
c
‑1(x

m)}
[0054]
式中,
[0055]
x=(cb,cr)
t
[0056]
m=e(x)
[0057]
c=e{(x

m)(x

m)
t
}
[0058]
通过计算图像中每个像素点属于肤色的概率值p,可以建立一个完整的肤色概率分布 矩阵,采用最大类间方差法(otsu)对肤色概率矩阵进行自适应阈值的二值化处理,在 二值化处理的图像中,像素值为1的亮色区域表示为肤色点,像素值为0的暗色区域表 示为非肤色点如图2所示。
[0059]
步骤3.1)针对yol0v4模型网络参数量过多、计算复杂度较高等问题,在yol0v4算 法基础上,本发明提出一种基于yolov4的轻量级混合网络。将yolov4与mobilenext轻 量化网络结合,使整个主干特征提取网络更加轻量高效。该网络是由mobilenext、se

rfbs、 panet以及yolo head等模块组成的混合轻量级网络,其整体网络结构如图3所示。
[0060]
轻量级网络已经成为了大势所趋。因反转剩余块中瓶颈之间恒等映射可能导致信息 丢失,特征维度降低也会导致梯度混淆,从而影响模型性能。在mobilenext、resnet等 倒残差结构模型基础上进行改进,对反转剩余块结构进行镜像从而设计出一种新瓶颈模 块,称为沙漏块(sandglass block),使其能在更高维度上执行恒等映射和空间转换, 提出新一代轻量化神经网络架构mobilenext,这种瓶颈结构比反向瓶颈结构更有利于嵌 入式平台和移动网络。
[0061]
近年来,深度神经网络往往是通过基于瓶颈结构的反向剩余块来堆叠结构,残差网 络(resnet)中已引入了剩余瓶颈块结构如图4a,在高维中定位恒等映射。传统剩余瓶 颈块主要由(1
×
1,3
×
3,1
×
1)三个卷积层组成,三个卷积层一次分别用于降维、空间信 息变换、升维;轻量级网络mobilenetv2引入了反转剩余块如图4b,将剩余瓶颈块结构 进行反转的思想,在线性瓶颈之间建立捷径,三个卷积层依次分别用于升维、空间信息 变换、降维;本发明使用的mobilenext网络沙漏残差块如图4c是传统瓶颈结构的拓展, 在线性高维之间建立捷径,使块间传递更丰富的信息,将其应用于拓宽的高维特征空间 并利用点卷积来进行通道衰减与扩张,有效解决反转剩余块出现的问题,与传统瓶颈结 构类似,沙漏残差块主要由(1
×
1,3
×
3,1
×
1)卷积层组成,依次分别用于空间信息变降 维、升维、空间信息变换。mobilenext网络主体结构如表1所示。
[0062]
表1
[0063][0064]
步骤4)注意力机制在目标识别领域应用已取得很好的效果。在2017年最后一届 imagenet图像分类竞赛中,senet引入注意力机制以绝对优势获得了冠军。se模块如图 5是一种通过了解模型通道间相关性来自适应校准通道特征响应机制,该机制利用全局信 息来加强提取有用信息特征并且抑制无用特征,其压缩和扩张发生在同一分支求和之前。 表示特征映射转换操作,输入输出定义如下:
[0065]
f
tr
:x

u,x∈r
w
′×
h
′×
c

,u∈r
w
×
h
×
c
[0066]
其中x为模块输入,u为x的特征映射,r表示向量空间,w

表示输入特征图的宽, h

表示输入特征图的高,w表示映射后特征图的宽,h表示映射后特征图的高,c表示 通道数,利用下式得到squeeze输入:
[0067][0068]
x=[x1,x2,...,x
c

],u
c
∈r
h
×
w
[0069]
式中*表示卷积,x
s
表示第s个输入,v
c
表示第c个卷积核,u
c
表示u中第c个二维 矩阵。利用下式全局平均池化(f
sq
(
·
)操作)将h
×
w
×
c矩阵压缩到1
×1×
c,其压缩实 质是将所有通道信息用统一描述符表示出来,统计量z中第c个元素(即全局信息)可以 通过下式计算:
[0070][0071]
根据通道间相关依赖性,并通过下式将压缩信息通道关系进行建模扩张:
[0072]
s=f
ex
(z,w)=σ(g(z,w))=σ(w2δ(w1z))
[0073][0074]
其中δ表示relu函数,σ表示一个特殊门控函数,进行建模时利用全连接层保持高 度非线性和灵活性,实现模型变换的低参数高度拟合复原。最后将扩张处理得到的权重 值乘以原始矩阵得到重新校准后的网络输出,即利用下式将通道权重s
c
与特征图u
c
按通道 相乘:
[0075][0076]
u
c
∈r
h
×
w
[0077]
步骤4.1)当前针对性能较高的模式目标检测器往往计算量太复杂,轻量级检测器模型 精度也需要进一步提高,rfb模块通过模拟人类视觉系统感受野特点,引入手工机制构 建准确、快速的检测器来增强深层特征表示,有效增大了感受野(receptive filed),可加 强网络特征提取能力。
[0078]
rfb模块通过考虑感受野大小和离心率之间关系,来增强网络特征提取的鲁棒性和 可区分性。rfb模块(如图)是多分支卷积块,每个分支中采用瓶颈结构,所述瓶颈结 构主要包括两部分:不同尺寸卷积核的多分支卷积层,以及空洞卷积层,可同时提高模 型识别的速度和精度。
[0079]
rfb与rfb

s不同之处在于,为了是模型更加轻量化,rfb

s中利用两个堆叠的3
×
3 卷积层代替rfb中5
×
5卷积层,另外用一个3
×
1和一个1
×
3卷积层代替原始3
×
3卷积 层。rfb模块与yolov4网络中spp模块相比,结构大同小异,只不过是对特征图特征 进行不同尺度提取。在轻量级网络中使用rfb网络比spp模块能获得更大感受野,并且 不会增加网络深度和计算量。
[0080]
在传统rfb

s基础上,本发明提出改进rfb

s与se的混合网络,其中改进的rfb

s 每个分支在原始rfb

s基础上保留1
×
1卷积层用以减少输入特征图通道数,在同一分支 上用一个1
×
7和一个7
×
1卷积层来代替n
×
n卷积层,同时将se通道注意力机制融入改 进后rfb

s,其体系结构如图6。有se模块与改进rfb

s组成的新混合网络将扩大感受 野面积和保持深层非线性,保持实时速度同时达到先进的检测性能,完成对主干网络特 征更高效提取。
[0081]
本发明提出的轻量化卷积神经网络,在各数据集上此网络模型平均大小仅占20.5mb, 很大程度上降低了原yolov4模型参数量,map(mean average precision)达到83.55%, 帧处理速率为29.8frames/s。在模型的大小、精度、速度方面都比原yolov4有很大提高, 能够实现较好的检测效果和较强的鲁棒性,在实际场景中也有很好的应用价值。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献