一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于横纵坐标解耦与偏移量修正的2D人体姿态估计方法

2022-06-05 07:15:53 来源:中国专利 TAG:

一种基于横纵坐标解耦与偏移量修正的2d人体姿态估计方法
技术领域
1.本发明涉及人体姿态估计的技术领域,其中涉及一种基于横纵坐标解耦与偏移量修正的2d人体姿态估计方法。


背景技术:

2.近年来,人体姿态估计领域吸引了许多研究者的关注。人体姿态估计是指从给定的图像或视频中检测出人体主要关节点的位置,是动作识别和人机交互等高级任务的基础,具有广泛的应用前景。随着卷积神经网络的发展,人体姿态估计领域涌现出许许多多优秀的模型,从技术流派而言可分为基于热力图回归的方法与基于数值坐标回归的方法,而其中占主导地位的是基于热力图回归的方法。尽管基于热力图回归的方法使人体姿态估计领域获得了显著的发展,但现有的大部分基于热力图回归的深度神经网络模型中仍然存在着量化效应的问题,量化效应包括两个方面:一方面是由于模型输出热力图的尺寸与输入图像的尺寸不匹配,导致输入与输出之间存在着量化效应;另一方面是指从热力图解码出来的数值坐标为离散值,相比于连续的真值而言丢失了小数部分,这些问题都将不可避免地对估计精度造成影响。
3.现有的对于第一个问题的解决方法,通常是通过在模型的最后加入反卷积层来增大输出热力图的尺寸,从而缩小输入输出在尺寸上的差异,但反卷积操作会带来大量的计算开销,这在计算资源有限的设备上并不高效。对于第二个问题的解决方法,现有的方法一般是在模型生成的热力图上,将最大峰值的位置往第二峰值的方向偏移四分之一个像素,相当于对热力图解码得到的坐标
±
0.25,但这种方法是经验性的,并不精确;另外,还有研究者提出利用二维偏移量图的形式来预测关节点坐标的相对偏移量,以此对热力图解码得到的坐标进行修正,但网络额外输出的二维偏移量图会带来较大的计算量,且该方法在低分辨率输入条件下鲁棒性较差。
4.综合来说,现有的解决姿态估计模型中的量化效应的方法主要的问题是:
5.1、利用反卷积操作增大热力图的操作会带来大量的计算开销,这在计算资源有限的设备上并不高效。
6.2、依靠经验性地对热力图解码得到的坐标
±
0.25,得到的结果并不精确。
7.3、以二维偏移量图的形式来预测关节点坐标的相对偏移量,不仅会增加较大的计算量,而且在低分辨率输入条件下的估计精度较低。


技术实现要素:

8.鉴于现有技术的不足,本发明旨在于提供一种基于横纵坐标解耦与偏移量修正的2d人体姿态估计方法,可以在克服上述方法缺点的前提下消除基于热力图回归的2d人体姿态估计模型中量化效应,从而提升姿态估计的精度。
9.为了实现上述目的,本发明采用的技术方案如下:
10.一种基于横纵坐标解耦与偏移量修正的2d人体姿态估计方法,具有经过预处理后
尺寸为3
×hi
×
wi待输入图像,所述方法包括对输入图像进行特征提取,然后对得到的特征图构建一个二分支网络来分别提取横、纵坐标的相关特征,从而对横、纵坐标进行解耦;其中,对每一个网络分支再构建一个位置分类器和一个并行的偏移量回归器分别得到关节点的位置与相应的相对偏移量,再利用相对偏移量对相应的位置坐标进行修正细化,从而得到精确的人体关节点横坐标、人体关节点纵坐标。
11.需要说明的是,将图像输入至resnet-50骨干网络,假设待估计的人体主要关节点个数为k,则网络的最后通过1x1的卷积层输出k张特征图,即特征图的尺寸为k
×
hf×
wf,每张特征图分别表征一个人体关节点的信息。
12.需要说明的是,构建一个二分支的网络对得到的每张特征图进行关节点横、纵坐标特征进行解耦,即两个分支分别提取特征图中横、纵坐标相关的特征,其中,每个网络分支均利用k个尺寸为3x3、步长为1、填充为1的卷积核分别对k张特征图进行逐深度卷积,将特征图进行批归一化并通过relu激活函数;每个网络分支保证了输出特征图在尺寸上与输入特征图一致,即输出特征图尺寸也为k
×
hf×
wf。
13.需要说明的是,解耦得到的横坐标相关的k
×
hf×
wf的特征图,将每张特征图分别重组成一维的向量,即得到k个hf·
wf维的特征向量,再分别通过两个全连接层,将特征向量的维度均映射为与输入图像的宽相同,即分别输出k个wi维的位置编码向量(k=1,2,

,k)与k个wi维的偏移量编码向量(k=1,2,

,k);其中,第k个位置编码向量中每一维的值表示在输入图像中该列的位置是第k个关节点横坐标的置信度,而第k个偏移编码向量中每一维的值表示该位置与第k个关节点横坐标的相对偏移量。
14.纵坐标网络分支输出的是k个关节点的纵坐标位置编码向量(k=1,2,

,k)与偏移量编码向量(k=1,2,

,k)。
15.需要说明的是,从输出的位置编码向量与偏移量编码向量可以解码出关节点的坐标,首先对第k个关节点横坐标的位置编码向量输入至softmax函数进行概率归一化,然后分别使用标准差为σ1和σ2的一维高斯滤波器对模型输出的位置编码向量与偏移量编码向量分别进行平滑,其中,在位置编码向量取最大激活值的位置,可以得到第k个关节点粗略的离散横坐标值即再通过第k个关节点的偏移量编码向量得到位置相应的偏移量即即以此来对粗糙的关节横坐标进行调整,并增加其小数的部分,得到关节点精确的横坐标纵坐标再利用第k个关节点的横、纵坐标的位置编码向量与偏移量编码向量可以解码得到该关节在输入图像上的坐标值为
16.本发明有益效果在于:
17.1、本发明采用了一维向量形式的监督信息代替了二维热力图,避免了反卷积操作,从而降低了大量额外的计算开销。
18.2、本发明模型对关节点的位置估计的同时还预测偏移量,相比经验性的估计更加
可靠。
19.3、本发明对横纵坐标进行解耦,并分别对横纵坐标以一维偏移向量的形式来预测关节坐标的相对偏移量,相比二维偏移图的形式在低分辨率输入下的估计精度更高。
附图说明
20.图1为本发明的基于横纵坐标解耦与偏移量修正的2d人体姿态估计的流程示意图;
21.图2为本发明中resnet-50网络结构图;
22.图3为本发明中逐深度卷积示意图;
23.图4为本发明中人体17个主要关键点示意图。
具体实施方式
24.下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
25.如图1所示,本发明为一种基于横纵坐标解耦与偏移量修正的2d人体姿态估计方法,具有经过预处理后尺寸为3
×hi
×
wi待输入图像,所述方法包括对输入图像进行特征提取,然后对得到的特征图构建一个二分支网络来分别提取横、纵坐标的相关特征,从而对横、纵坐标进行解耦;其中,对每一个网络分支再构建一个位置分类器和一个并行的偏移量回归器分别得到关节点的位置与相应的相对偏移量,再利用相对偏移量对相应的位置坐标进行修正细化,从而得到精确的人体关节点横坐标、人体关节点纵坐标。
26.需要说明的是,将图像输入至resnet-50骨干网络,假设待估计的人体主要关节点个数为k,则网络的最后通过1x1的卷积层输出k张特征图,即特征图的尺寸为k
×
hf×
wf,每张特征图分别表征一个人体关节点的信息。
27.需要说明的是,构建一个二分支的网络对得到的每张特征图进行关节点横、纵坐标特征进行解耦,即两个分支分别提取特征图中横、纵坐标相关的特征,其中,每个网络分支均利用k个尺寸为3x3、步长为1、填充为1的卷积核分别对k张特征图进行逐深度卷积,将特征图进行批归一化并通过relu激活函数;每个网络分支保证了输出特征图在尺寸上与输入特征图一致,即输出特征图尺寸也为k
×
hf×
wf。
28.需要说明的是,解耦得到的横坐标相关的k
×
hf×
wf的特征图,将每张特征图分别重组成一维的向量,即得到k个hf·
wf维的特征向量,再分别通过两个全连接层,将特征向量的维度均映射为与输入图像的宽相同,即分别输出k个wi维的位置编码向量(k=1,2,

,k)与k个wi维的偏移量编码向量(k=1,2,

,k);其中,第k个位置编码向量中每一维的值表示在输入图像中该列的位置是第k个关节点横坐标的置信度,而第k个偏移编码向量中每一维的值表示该位置与第k个关节点横坐标的相对偏移量。
29.纵坐标网络分支输出的是k个关节点的纵坐标位置编码向量(k=1,
2,

,k)与偏移量编码向量(k=1,2,

,k)。
30.需要说明的是,从输出的位置编码向量与偏移量编码向量可以解码出关节点的坐标,首先对第k个关节点横坐标的位置编码向量输入至softmax函数进行概率归一化,然后分别使用标准差为σ1和σ2的一维高斯滤波器对模型输出的位置编码向量与偏移量编码向量分别进行平滑,其中,在位置编码向量取最大激活值的位置,可以得到第k个关节点粗略的离散横坐标值即再通过第k个关节点的偏移量编码向量得到位置相应的偏移量即即以此来对粗糙的关节横坐标进行调整,并增加其小数的部分,得到关节点精确的横坐标纵坐标再利用第k个关节点的横、纵坐标的位置编码向量与偏移量编码向量可以解码得到该关节在输入图像上的坐标值为
31.实施例
32.训练阶段:
33.使用faster-rcnn检测器获取数据集的每张图片中的人体实例,并将包含人体实例的边界框(bounding box)从数据中裁剪出来并进行数据增强变换以扩大输入样本空间。具体地,以0.5的概率进行水平翻转、以0.6的概率随机旋转-30度至30度、随机放大0.75至1.25倍,之后缩放至网络的输入尺寸256
×
256得到输入图像i∈r3×
256
×
256
,如图4所示,为人体的17个主要关节点的ground truth进行相应的空间变换。
34.由关节点的ground truth构造监督信息,设人体第k个关节点的ground truth变换后的坐标为(xk,yk),则横坐标位置编码向量的监督信息为横坐标偏移量编码向量的监督信息为r表示关节点有效区域的范围,本发明r设为4,纵坐标同理。
35.将输入图像i输入resnet-50主干网络,通过最后17个1x1的卷积核得到具有高表征能力的输出特征图f∈r
17
×8×8,特征图f的每一个通道包含一个人体主要关节点的空间信息。
36.对关节点的坐标在水平方向和竖直方向进行解耦,具体地,构造一个二分支网络对特征图f的每个通道中分别与关节坐标在水平方向和竖直方向相关的特征进行分离,每个网络分支采用尺寸为3x3、步长为1、填充为1的卷积核对特征图进行逐深度卷积,同时保持输出特征图在尺寸上与f一致以尽量避免空间信息的丢失,得到解耦之后水平方向坐标相关的特征图f
x
∈r
17
×8×8,竖直方向坐标相关的特征图fy∈r
17
×8×8。
37.对相互独立的横纵坐标网络分支,在每个分支上构建一个关节点位置分类器与一个并行的偏移量回归器来分别输出关节点在水平/竖直方向的位置与相对偏移量,具体地以横坐标网络分支为例,先对特征图f
x
的每一通道分别重组为17个64维的特征向量,即f
x
∈r
17
×8×8重组为v
x
∈r
17
×
64
。再分别通过两个全连接层,将特征向量的维度均映射为与输入图
像i的宽相同,即分别输出17个256维的位置编码向量(k=1,2,

,17)与17个256维的偏移量编码向量(k=1,2,

,17)。同理,纵坐标网络分支输出的是17个关节点的纵坐标位置编码向量(k=1,2,

,17)与偏移量编码向量(k=1,2,

,17)。
38.整体网络的训练设置:对于位置编码向量,向量上每一维的位置使用二元交叉熵损失函数,如下:
[0039][0040][0041]
对于偏移量编码向量,使用smooth l1损失函数,公式如下:
[0042][0043][0044]
其中:
[0045][0046]
网络最终的损失函数为
[0047][0048]
本发明设置α=1,β=5。使用adam优化器对模型训练140个epoch,初始学习率设置为0.001,在90个epoch之后学习率衰减为0.0001,在第120个epoch之后学习率衰减为0.00001。
[0049]
测试阶段:
[0050]
对输入图像进行测试时,对于模型输出的位置编码向量与偏移量编码向量可以联合解码出关节点精确的数值坐标,具体以第k个关节点的横坐标为例,首先对第k个关节点横坐标的位置编码向量输入至softmax函数进行概率归一化,然后分别使用标准差为σ1=2和σ2=1的一维高斯滤波器对模型输出的位置编码向量与偏移量编码向量分别进行平滑,进一步地,在位置编码向量取最大激活值的位置,可以得到第k个关节点粗略的离散横坐标值即再通过第k个关节点的偏移量编码向量得到位置相应的偏移量即以此来对粗糙的关节横坐标进行调整,并增加其小数的部分,得到关节点精确的横坐标同理可得纵坐标同理可得纵坐标因此,利用第k个关节
点的横、纵坐标的位置编码向量与偏移量编码向量可以解码得到该关节在输入图像上的坐标值为标值为其他关节点的解码流程同理。
[0051]
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变,而所有的这些改变,都应该包括在本发明权利要求的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献