一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种极坐标回归轻量化手部骨骼关键点定位方法

2022-11-13 12:35:10 来源:中国专利 TAG:


1.本公开属于计算机视觉、模式识别和人工智能技术领域,特别涉 及一种极坐标回归轻量化手部骨骼关键点定位方法。


背景技术:

2.手势作为人们与生俱来的一种自然交互方式,是人与人、人与机 器、甚至是类人智能机器与机器之间沟通交流的重要桥梁,在许多领 域都存在迫切需求,如聋哑人交流、智能家居、机器人、医疗国防等。 如何获得高精度、高准确率的手势识别已成为手势交互研究的关键。
3.手部骨骼关键点定位是整个手势识别系统中重要步骤,也是最具 挑战性的一个任务。当前手势识别的一般步骤:输入视频流中的手势 图像进入手势识别系统,先经过手势检测网络输出手在整张图片中的 位置坐标,利用该坐标将手部裁剪出来,经预处理后送给骨骼关键点 定位网络,该网络需要精确的给出手部21个骨骼关键点的位置,再 把21个关键点连接成手势骨架。当前学术界和产业界对手势骨骼关 键点定位任务的研究开发主要集中在手部位姿估计领域,其中直接坐 标回归和高斯热图回归的手部骨骼关键点估计方法是典型的手部骨 骼定位方法,其整体架构基于编码、解码结构。直接坐标回归的缺点 在于定位精度不够。直接回归各个关键点在图像直角坐标系下的横纵 坐标在面向的手部关键点任务上很难取得较好的表现,其中一个最直 接的原因在于直接坐标回归损失了空间结构信息,对于非刚体的手部, 天然存在较多的姿态变化从而带来了遮挡问题,而这些问题在缺乏空 间几何信息的情况下是很难被模型准确捕捉到的。


技术实现要素:

4.为了解决上述技术问题,本公开揭示了一种极坐标回归轻量化手 部骨骼关键点定位方法,包括如下步骤:
5.s100:生成手部区域图像;
6.s200:利用基于域自适应学习的极坐标回归轻量化手部骨骼关键 点定位网络,将所述手部区域图像生成手部的n个骨骼关键点及其 x-y坐标;
7.s300:将所述n个骨骼关键点连接成手部骨架。
8.优选的,
9.步骤s100进一步包括如下步骤:
10.s101:将手势视频输入到手部检测网络,逐帧进行手部检测;
11.s102:一旦检测到手部,提取手部区域图像;
12.s103:将所提取的手部区域图像经图像缩放后得到固定分辨率的 手部区域图像。
13.优选的,
14.步骤s101中的手部检测网络为单阶段目标检测网络。
15.优选的,
16.所述基于域自适应学习的极坐标回归轻量化手部骨骼关键点定 位网络包括对抗学习网络和基于极坐标回归的关键点定位网络。
17.优选的,
18.所述对抗学习网络具体为:骨干网络模块初步生成出来的特征图 需要根据极径、极角进行分类。
19.优选的,
20.所述基于极坐标回归的关键点定位网络包括:用于特征提取的骨 干网络模块以及三个分类回归模块,所述三个分类回归模块是指极径 回归头模块、极角回归头模块和极角分类头模块。
21.优选的,
22.所述极径回归头模块负责对极径进行回归,n个关键点则对应有 n个极径,输出为nx1的向量;
23.所述极角回归头模块负责回归n个关键点对应极角的偏置;
24.所述极角分类头模块负责对每一个关键点所落入的极角区间进 行分类,得到具体的角度类别后,再利用该极角区间左端点对应的角 度加上极角回归头模块得到的极角的偏置即可获得最终的极角。
25.优选的,
26.所述极角区间的划分数量也为n,其中,n为正整数且n大于等于20 类。
27.优选的,
28.所述基于极坐标回归的关键点定位网络的损失函数表示为:
[0029][0030]
其中:ri和分别表示预测极径和真实极径;ai和分别表示预 测的极角偏置和真实的偏置;celoss表示交叉熵损失,p
cls
和t
cls
分别 表示预测类别和真实类别。
[0031]
通过上述技术方案,可实时生成动态手势骨架。其手部骨骼关键 点定位步骤采用基于域自适应学习的极坐标回归轻量级深度学习网 络实现,具备延时短、手部骨骼关键点定位准、支持实时生成动态手 势骨架的特点。该方法不仅适用于可见光rgb手势视频流,也适用 于红外ir视频流、rgb-depth视频流或ir-depth视频流中的动态手 势骨骼定位,可广泛用于智能车、智能家居、机器人等领域的自然交 互。
附图说明
[0032]
图1是本公开一个实施例中所提供的一种极坐标回归轻量化手 部骨骼关键点定位方法流程图;
[0033]
图2是本公开一个实施例中所提供的一种基于域自适应学习的 极坐标回归轻量化手部骨骼关键点定位网络结构示意图;
[0034]
图3是本公开一个实施例中所提供的一种基于极坐标回归的关 键点定位网络结构示意图;
[0035]
图4是本公开一个实施例中所提供的一种极坐标下手部骨骼关 键点表示方式示意图。
具体实施方式
[0036]
为了使本领域技术人员理解本公开所披露的技术方案,下面将结 合实施例及有关附图1至图4,对各个实施例的技术方案进行描述, 所描述的实施例是本公开的一部分实施例,而不是全部的实施例。本 公开所采用的术语“第一”、“第二”等是用于区别不同对象,而不是 用于描述特定顺序。此外,“包括”和“具有”以及它们的任何变形, 意图在于覆盖且不排他的包含。例如包含了一系列步骤或单元的过程、 或方法、或系统、或产品或设备没有限定于已列出的步骤或单元,而 是可选的还包括没有列出的步骤或单元,或可选的还包括对于这些过 程、方法、系统、产品或设备固有的其他步骤或单元。
[0037]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、 结构或特性可以包含在本公开的至少一个实施例中。在说明书中的各 个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施 例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本 文所描述的实施例可以与其他实施例相结合。
[0038]
参见图1,在一个实施例中,本公开揭示了一种极坐标回归轻量 化手部骨骼关键点定位方法,包括如下步骤:
[0039]
s100:生成手部区域图像;
[0040]
s200:利用基于域自适应学习的极坐标回归轻量化手部骨骼关键 点定位网络,将所述手部区域图像生成手部的n个骨骼关键点及其 x-y坐标;
[0041]
s300:将所述n个骨骼关键点连接成手部骨架。
[0042]
就该实施例而言,本方法通过手部区域图像生成、手部骨骼关键 点定位,手部骨架生成这三个步骤可实时生成动态手势骨架。
[0043]
骨骼关键点定位可以看作人体姿态估计领域的子领域,大部分应 用于姿态估计的方法都可以迁移到手势骨骼定位中,大部分算法都是 基于卷积神经网络提取特征然后使用不同的回归策略来回归到关键 点坐标,不同关键点定位算法之间的差别往往在于回归策略的不同。 典型的关键点定位方式有直接坐标回归和高斯热力图回归两种,其中 直接坐标回归使用全连接层直接输出表示n个关键点坐标的一维向 量,丢失了关键点的几何信息,模型很容易记住一些数据中的噪声模 式而陷入过拟合,进而影响模型在没见过样本集上的空间泛化能力, 定位精度严重不足。
[0044]
本方法主要是改进了直接坐标回归的定位精度。本方法重新设计 了基于坐标回归的算法,将直角坐标系变换到极坐标系,从而将回归 2d关键点横纵坐标的任务转换为在极坐标空间下回归极角和极径的 任务。但是相较于直接回归到具体数值,本方法将回归极径和极角的 任务进行了进一步的问题转化。对于极径的处理仍旧采取直接回归的 方式,为了降低模型学习难度,这里回归的是极径相对于图像尺寸的 比例。但是对于极角,这里采用的并非直接回归到具体的角度数值, 而是将问题进行了转化,分两步进行。首先,极坐标下的角度范围定 义在[-π,π],虽然上下界固定,但也有无穷多的取值,而为了降低 直接回归连续变量的难度,这里采取将[-π,π]的角度均匀分割为 n个区间,将目标离散化,那么寻找对应的n个,其中n为正整数, 例如21个关键点的角度的第一步就变为了判断21个点各
自落入了 哪一个角度区间内部;第二步需要确定各个关键点相对于各自落入区 间两端的偏移量,这样做的目的在于更精确的进行角度定位,弥补连 续量的离散化带来的精度损失。
[0045]
本方法实现了一种基于域自适应学习的极坐标回归轻量化手部 骨骼关键点定位网络。
[0046]
域自适应学习是迁移学习中重要组成部分,目的在于通过一定的 手段将源域数据和目标域数据映射到某个特征空间中,使得两个域的 数据在该特征空间中的距离尽可能的接近,这样在源域学习到的特征 能够直接迁移到目标域。本方法使用域自适应学习(domainadaptation,da)相关方法可以有效的利用有标注数据的rgb手势图 像数据库,利用梯度反转的策略实现了同一个网络中源域和目标域的 对抗学习,让源域和目标域经过网络得到的特征不具备可分性,这样 实现了仅通过源域数据的有监督得到的模型在目标域下也能取得很 好的分类表现。
[0047]
本方法基于dann(domain adaptation nn)以及da-fasterr-cnn(domain adaptive faster r-cnn),结合极坐标回归的关键点 定位模型,实现了一种用于红外手部骨骼关键点定位的域自适应学习 网络结构。
[0048]
可以重复步骤s100-s300,针对手势视频可以生成基于手部骨架 的动态手势表示,可用于动态手势识别。
[0049]
本方法输入128x128的手部灰度图像,经过骨干网络的特征提取 将会得到特征图,然后使用池化操作将该特征图展平成一维的向量。 以21个关键点为例,使用全连接层将该向量映射为两个维度为21、 以及一个维度为划分区间个数乘以21的向量,分别代表了极径、极 角偏置和每一个点所落入各个角度区间的概率,最后根据最大的概率 确定落入区间,然后加上偏置得到最终的极角。
[0050]
当n大于等于20时,例如取n为21时(下文还详述了20、21、36等示例),本方法步骤s200得到的手部21个骨骼关键点的x-y坐 标可用于在图中显示手部骨骼,也可用于动态分类,静态分类等。s300 步骤关键点连成手部骨架即为本方法所关注的最终输出,可以用于后 续的例如姿态估计、手部重建、手势操控、手势识别等下游任务。
[0051]
在另一个实施例中,步骤s100进一步包括如下步骤:
[0052]
s101:将手势视频输入到手部检测网络,逐帧进行手部检测;
[0053]
s102:一旦检测到手部,提取手部区域图像;
[0054]
s103:将所提取的手部区域图像经图像缩放后得到固定分辨率的 手部区域图像。
[0055]
就该实施例而言,步骤s103是因为本方法的网络架构中包含了 全连接层,而全连接层的输入尺寸需要固定。而且统一的分辨率有利 于关键点网络的学习,且采用较小的分辨率可以减少计算量,达到轻 量化的目的。
[0056]
在另一个实施例中,步骤s101中的手部检测网络为单阶段目标 检测网络。
[0057]
就该实施例而言,所述的手部检测算法,属于通用目标检测中的 子任务,可以沿用目标检测中的经典模型。通用目标检测算法主要有 两种类型:单阶段以yolo、ssd为代表,模型简单,速度更快,更 适合落地应用;双阶段以faster r-cnn为代表,模型更复杂,精度 更高但是速度较慢。目标检测算法从是否需要先验锚框又可以分为基 于先验锚框(anchor-base)和不基于锚框(anchor-free)两种,在 anchor-free系列算法中,最具有代
表性的为centernet。
[0058]
本方法考虑到轻量化部署需求,采用单阶段目标检测网络作为手 部检测网络,如retinanet、yolo-fastest、centernet方法,以适用 于轻量化手部检测任务。
[0059]
单阶段相比多阶段算法本身在参数量和计算量上都有优势。因此, 一般都选择对单阶段算法进行进一步的轻量化,可以在保证较好精度 的同时获得更快的速度。从本质上而言,两阶段检测算法包含了两次 目标检测的过程,候选区域提取模块是第一个检测器,用于检测前景 和背景区域;候选区域分类和坐标修正模块构成了第二个检测器,用 于对第一个检测器的结果进行补充和修正。两阶段检测算法中的两次 目标检测过程提升了算法的准确性,但也增加了模型复杂度,制约了 模型计算效率的提高。单阶段检测算法只包含一次目标检测的过程, 其结构简单、计算效率高,能够方便地进行端到端的训练,在实时目 标检测领域中有很大的应用潜力。
[0060]
近两年目标检测算法发展非常的快,单阶段算法几乎统一了目标 检测,各种高性能的目标检测算法层出不穷,在yolov4出来后, 基于单阶段的目标检测算法的改进变得一发不可收拾,各种改进版本 精度越来越高、速度越来越快,同时模型体积也越来越小,越来越多 的轻量型模型涌现,更适合移动端部署。
[0061]
在另一个实施例中,所述基于域自适应学习的极坐标回归轻量化 手部骨骼关键点定位网络包括对抗学习网络和基于极坐标回归的关 键点定位网络。
[0062]
就该实施例而言,基于域自适应学习的极坐标回归轻量化手部骨 骼关键点定位网络的整体网络结构如图2所示,中间虚线框部分为基 于极坐标回归的关键点定位网络。对抗学习网络具体为:输入的 1x128x128的手部图像,首先将会经过骨干网络进行特征的提取,得 到的特征图直接作为梯度反转层的输入,整体的设计思想主要借鉴了 dafaster r-cnn,其中的对抗学习和gan中的生成对抗类似,可 以将这里的梯度反转看作gan在一个网络里面的一种实现方式, 在梯度反转层的前面部分为可以看作是生成器,而后面部分则可以看 作是判别器,通过梯度反转的方式,实现了在同一个网络里面进行对 抗学习。图2的fc模块是全连接层,作用为进行二分类,如果输入 来自源域,则标签为0,如果输入来自于目标域,则标签为1。
[0063]
在另一个实施例中,所述对抗学习网络具体为:骨干网络模块初 步生成出来的特征图需要根据极径、极角进行分类。
[0064]
在另一个实施例中,所述基于极坐标回归的关键点定位网络包括: 用于特征提取的骨干网络模块以及三个分类回归模块,所述三个分类 回归模块是指极径回归头模块、极角回归头模块和极角分类头模块。
[0065]
就该实施例而言,基于极坐标回归的关键点定位网络结构如图3 所示,输入的1x128x128的手部图像,首先将会经过骨干网络进行特 征的提取,得到的特征图再经过池化后会分别经过三个分类回归模块 进行分类和回归。
[0066]
在另一个实施例中,其中,
[0067]
以n为21为例,所述极径回归头模块负责对极径进行回归,21 个关键点则对应有21个极径,输出为21x1的向量;
[0068]
所述极角回归头模块负责回归21个关键点对应极角的偏置;
[0069]
所述极角分类头模块负责对每一个关键点所落入的极角区间进 行分类,得到具
体的角度类别后,再利用该极角区间左端点对应的角 度加上极角回归头模块得到的极角的偏置即可获得最终的极角。
[0070]
在另一个实施例中,所述极角区间的划分数量为n,其中,n为 正整数且n大于20。
[0071]
就该实施例而言,所述的基于极坐标回归方法,将直角坐标系变 换到极坐标系,将回归2d关键点横纵坐标的任务转换为在极坐标空 间下回归极角和极径的任务。对于极径的处理采取直接回归的方式, 为了降低模型学习难度,这里回归的是极径相对于图像尺寸的比例。 对于极角,这里采用的并非直接回归到具体的角度数值,而是将问题 进行了转化,分两步进行。第一步,极坐标下的角度范围定义在 [-π,π],虽然上下界固定,但也有无穷多的取值,而为了降低直接 回归连续变量的难度,这里采取将[-π,π]的角度均匀分割为n个区 间,将目标离散化,那么寻找手部n个,例如21个关键点的角度就 变为了判断21个关键点各自落入了哪一个角度区间内部;第二步需 要确定各个关键点相对于各自落入区间两端的偏移量,这样做的目的 在于更精确的进行角度定位,弥补连续量的离散化带来的精度损失。
[0072]
当划分的角度区间数目较小时,会存在部分关键点落入同一区间 的情况,而随着划分区间数的增加,分类粒度变得更细,相应的分类 难度也会增加,同时还会为网络引入更多的参数量。太少的划分区间 会导致类别过于粗糙,模型会欠拟合。太多的划分区间则容易过拟合, 影响方法的泛化能力。
[0073]
需要特别说明的是,本发明的n大于等于20是通过反复、多次 的实验而确定。
[0074]
在一个实施例中,极坐标下手部骨骼关键点表示方式,见图4, 左手:角度均分为20类,右手:角度均分为36类,也大于20。极 坐标原点直接定义为图像的中心点。当划分的角度区间数目较小时, 会存在部分关键点落入同一区间的情况,而随着划分区间数的增加, 分类粒度变得更细,相应的分类难度也会增加,同时还会为网络引入 更多的参数量。
[0075]
为了将原本图像直角坐标系下的坐标转为极坐标,这里需要首先 做出相应的坐标系转化,转化公式如下:
[0076][0077]
式中:x,y分别表示关键点在图像直角坐标系下的坐标。通过该 函数可以将直角坐标转换为x,y在极坐标下对应的角度,范围为 [-π,π]。因为图像的直角坐标系是以左上角为原点进行建系的,所 以在公式里面将y变为-y即可得到正确的极坐标角度。
[0078]
以n为21为例,在另一个实施例中,所述基于极坐标回归的关 键点定位网络的损失函数表示为:
[0079][0080]
其中:ri和分别表示预测极径和真实极径;ai和分别表示预 测的极角偏置和真实的偏置;celoss表示交叉熵损失,p
cls
和t
cls
分别 表示预测类别和真实类别。
[0081]
就该实施例而言,基于极坐标回归的关键点定位网络的整体损失 函数也分别对应了极径、角度类别以及角度偏置这三项。针对角度类 别使用交叉熵损失函数,针对极径和角度偏置均采用l1-loss(平均 绝对误差)作为损失函数。
[0082]
对于本方法而言,因为存在多项损失函数,并且各项损失之间的 量纲并不一致,特别是极角偏置损失和极径损失在量纲上差异过大, 角度偏置损失对最终损失函数的影响有限,网络很难学习。而且三项 损失中还存在一项类别损失,所以对三个损失函数的权重进行调节是 十分必要的,而通过手动赋予损失权重的方式难以进行精准调节,通 过参考了多任务学习中经常用到的动态加权平均算法,计算公式如下:
[0083][0084][0085]
式中:λk(t)表示t时刻的权重;k为超参数,控制各个权重的差 异程度;wk表示单位时间步长损失降低幅度;lk表示损失数值,t 是一个常数,t=1时,λ等同于softmax的结果;t足够大时,λ趋近于 1,各个任务的权重loss相同。
[0086]
该加权调节算法的主要原理在于通过训练过程中各个损失项的 降低速率来对各个损失之间的权重进行动态调节。基本思想在于训练 过程中下降速率相对较慢的损失项应当加大权重,以让模型更多的专 注于该项损失的优化,而这里衡量各项损失下降速率的方式为两个时 刻损失值的衰减比例。最后,具体的权重由各项损失对应衰减比例经 过指数归一化激活后的概率表示。
[0087]
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并 不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅 是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在 本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况 下,还可以做出很多种的形式,这些均属于本发明保护之列。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献