一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于拓扑感知的三维手势姿态估计方法

2023-02-04 10:12:09 来源:中国专利 TAG:


1.本发明涉及三维手势姿态估计技术领域,特别是涉及一种基于拓扑感知的三维手势姿态估计方法。


背景技术:

2.手作为人类日常活动中进行信息传递的主要媒介,在人机交互、增强显示、虚拟现实以及第三人称模仿学习等众多应用中,采用计算机视觉算法对手进行准确的三维手势姿态估计,是必不可少的组成部分。随着高精度深度相机的发展,基于深度图的手势姿态估计方法取得了卓越的进展。然而,现有方法在严重的自我遮挡和高度的自相似情况下仍面临着严峻的挑战。
3.三维手势姿态估计的主流方法主要以卷积神经网络为框架。然而,由于卷积神经网络需要在固定尺度的窗口上操作,其感受野受限于窗口的大小,无法对长距离依赖关系进行建模。因此,该类方法难以利用全局可见区域推断出遮挡区域的手势形态。基于自注意力机制的transformer模型可突破感受野的限制,通过计算输入节点间的特征相似性可直接建模所有节点间的全局依赖关系。然而,由于自注意力机制是建立在节点特征相似性的基础上的,它忽略了手固有的运动学拓扑结构信息。手的运动学拓扑结构信息是一种手的固有属性,其明确地揭示了节点间的内在连接关系以及约束了生理上关节可活动的最大范围,这对于推断被遮挡关节的位置是至关重要的,因此现有方式对三维手势关节点位置的预测准确率仍然较低。


技术实现要素:

4.本发明所要解决的技术问题是提供一种基于拓扑感知的三维手势姿态估计方法,在面临自遮挡自相似问题时可实现准确、鲁棒的三维手势关节点位置的预测。
5.本发明解决其技术问题所采用的技术方案是:提供一种基于拓扑感知的三维手势姿态估计方法,包括以下步骤:
6.获取三维手势姿态的单张深度图;
7.将所述单张深度图输入至三维手势姿态估计网络,得到手势姿态的三维关节点坐标信息;其中,所述三维手势姿态估计网络包括依次连接的特征提取模块、编码器模块、解码器模块以及拓扑感知回归模块;所述特征提取模块用于提取所述单张深度图的图像局部特征,并转换为特征序列;所述编码器模块用于以所述特征序列为输入,捕捉基于所述特征序列的全局上下文信息;所述解码器模块以节点查询为输入,基于所述全局上下文信息确定关节节点间的关系;所述拓扑感知回归模块以所述解码器模块中每一层的输出的拼接结果为输入,用于提取所述解码器模块中每一层的语义信息得到手势姿态的三维关节点坐标信息。
8.所述特征提取模块采用resnet网络框架提取所述单张深度图的图像局部特征,得到下采样特征图,所述下采样特征图经过卷积层进行降维,并通过张量扁平化操作转换为
特征序列。
9.所述编码器模块包含n层transformer编码器层,所述transformer编码器层包括依次连接的自注意力层、第一层归一化层、前馈神经网络层和第二层归一化层,所述自注意力层的输入与所述第一层归一化层的输出相连,所述前馈神经网络层的输入与所述第二层归一化层的输出相连。
10.所述解码器模块包含n层graphformer解码器层,graphformer解码器层包括依次连接的节点偏移图卷积层、第三层归一化层、自注意力层、第四层归一化层、交叉注意力层和第五层归一化层;所述节点偏移图卷积层的输入与所述第三层归一化层的输出相连,用于解耦节点特征映射过程和偏移特征映射过程;所述自注意力层的输入与所述第四层归一化层的输出相连;所述交叉注意力层的输入与所述第五层归一化层的输出相连。
11.所述节点偏移图卷积层采用固定的邻接矩阵,所述邻接矩阵表示手运动学拓扑结构信息,所述手运动学拓扑结构信息包含21个点和20条边,其中,每个点对应于一个手关节,每条边代表着所连接的手关节点间存在着生理上的连接关系。
12.所述节点偏移图卷积层的表达式为:其中,x
(l)
为节点偏移图卷积层中第l层的输入特征,σ为激活函数,为归一化邻接矩阵,为对角线度矩阵,a为邻接矩阵,i为单位矩阵,w1和w2为特征矩阵,其分别映射节点特征和偏移特征。
13.所述拓扑感知回归模块包括依次连接的第一语义图卷积层、第一relu层、第二语义图卷积层、第二relu层、第三语义图卷积层和1
×
1卷积层;所述第一语义图卷积层的输入与所述第二relu层的输出相连。
14.所述第一语义图卷积层、第二语义图卷积层和第三语义图卷积层的表达式均为:x

(l 1)
=σ(wx

(l)
ρi(m

(a i))),其中,x

(l)
为语义图卷积层中第l层的输入特征,σ为激活函数,w为特征矩阵,ρi为softmax操作,m为加权矩阵,a为邻接矩阵,i为单位矩阵,

表示元素点乘。
15.有益效果
16.由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明以深度图作为输入,利用图卷积神经网络将手固有的拓扑先验引入到网络中,同时利用transformer构建节点间的全局依赖关系,在面临自遮挡自相似问题时可实现准确、鲁棒的三维手势关节点位置的预测。
附图说明
17.图1是本发明实施方式的流程图;
18.图2是本发明实施方式中transformer编码器层的框架图;
19.图3是本发明实施方式中graphformer解码器层的框架图;
20.图4是本发明实施方式中手运动学拓扑结构图;
21.图5是本发明实施方式中节点偏移图卷积层的原理图;
22.图6是本发明实施方式中拓扑感知回归模块的框架图;
23.图7是采用本发明实施方式在自遮挡情况下的三维手势姿态估计示例图;
24.图8是采用本发明实施方式在自相似情况下的三维手势姿态估计示例图。
具体实施方式
25.下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
26.本发明的实施方式涉及一种基于拓扑感知的三维手势姿态估计方法,该方法能够缓解严重的自遮挡和高度自相似情况造成的模糊性问题。
27.在人类视觉感知过程中,人类可以在各种复杂场景下准确判断手的姿态,主要依赖于人对于交互场景的深刻理解以及对手运动学结构的丰富的先验知识。这两种信息提供了丰富的约束关系,可以有效缓解遮挡关节和相似关节带来的模糊性。依据这一特性,本实施方式利用transformer建模手与场景交互的全局理解,利用图卷积神经网络建模节点间局部的运动学连接关系,从而构建了一个端到端的拓扑感知的三维手势姿态估计网络。
28.如图1所示,本实施方式的基于拓扑感知的三维手势姿态估计方法包括:获取三维手势姿态的单张深度图,将所述单张深度图输入至三维手势姿态估计网络,得到手势姿态的三维关节点坐标信息。其中,所述三维手势姿态估计网络包括依次连接的特征提取模块、编码器模块、解码器模块以及拓扑感知回归模块;所述特征提取模块用于提取所述单张深度图的图像局部特征,并转换为特征序列;所述编码器模块用于以所述特征序列为输入,捕捉基于所述特征序列的全局上下文信息;所述解码器模块以节点查询为输入,基于所述全局上下文信息确定关节节点间的关系;所述拓扑感知回归模块以所述解码器模块中每一层的输出的拼接结果为输入,用于提取所述解码器模块中每一层的语义信息得到手势姿态的三维关节点坐标信息。
29.本实施方式中的特征提取模块以256
×
256大小的深度图作为输入,采用resnet网络框架提取图像局部特征,可以得到8
×8×
2048大小的下采样特征图。该下采样特征图经过一个1
×
1卷积层将通道数减小为512维,然后通过张量扁平化操作将其转化为64
×
256的特征序列。
30.本实施方式中的编码器模块包含4层transformer编码器层。transformer编码器层的框架结构如图2所示,包括依次连接的自注意力层、第一层归一化层、前馈神经网络层和第二层归一化层,所述自注意力层的输入与所述第一层归一化层的输出相连,所述前馈神经网络层的输入与所述第二层归一化层的输出相连。该transformer编码器层主要由自注意力机制和前馈神经网络组成,捕捉基于输入特征序列的全局上下文信息。该transformer编码器层以特征提取模块中得到的特征序列作为输入。为了保持特征序列中各节点的相对空间位置关系,引入正弦位置编码,将正弦位置编码与特征序列相加,依次经过一系列的自注意力层,层归一化操作,前馈神经网络层以及层归一化操作,从而得到64
×
256大小的全局上下文特征。
31.本实施方式中的解码器模块包含4层graphformer解码器层。该graphformer解码器层与传统的transformer解码器层并不相同,传统的transformer解码器层只包括自注意力层,交叉注意力层以及前馈神经网络层。由于其主要依赖自注意力层来建立节点间的依
赖关系,难以感知手运动学拓扑结构中所蕴含的节点间内在连接关系。为了克服这一限制,本实施方式的解码器模块强调关注自注意力机制和图神经网络的协同作用,从关节的长距离依赖关系和局部拓扑连接中获益。具体来说,首先建立一个手的运动学拓扑结构图(如图4所示),其包含21个点和20条边。该拓扑图中每个点对应于一个手关节,每条边代表着所连接的关节点间存在着生理上的连接关系。
32.如图3所示,本实施方式中的graphformer解码器层包括依次连接的节点偏移图卷积层、第三层归一化层、自注意力层、第四层归一化层、交叉注意力层和第五层归一化层;所述节点偏移图卷积层的输入与所述第三层归一化层的输出相连,用于解耦节点特征映射过程和偏移特征映射过程;所述自注意力层的输入与所述第四层归一化层的输出相连;所述交叉注意力层的输入与所述第五层归一化层的输出相连。由此可见,本实施方式中的graphformer解码器层由一个节点偏移图卷积层,自注意力层以及交叉注意力层构成。解码器层由节点查询作为输入,其中节点查询与手节点一一对应,且每一个节点查询表示节点的位置编码信息。此外,由于节点偏移图卷积层实现了节点查询的非线性映射,因此移除了传统transformer解码器层中采用的前馈神经网络层。
33.在三维手势姿态估计任务中,节点特征本身包含着丰富的位置信息,邻居节点同时也提供了丰富有效的位置特征信息用于估计偏移量,特别是对于被遮挡关节来说邻居节点的位置信息具有关键的参考价值。受这一规律的启发,本实施方式的节点偏移图卷积层的原理如图5所示,其解耦了节点特征映射过程和偏移特征映射过程。节点特征映射依赖于节点本身特性,而偏移特征映射则聚合了从邻居节点及本节点流向中心节点的偏移信息。另外,为了更好地发挥与子注意力层的协同作用并加速模型收敛,节点偏移图卷积层采用固定的邻接矩阵。该邻接矩阵可以表示手运动学拓扑结构信息,即当节点i和节点j相连,则邻接矩阵中(i,j)和(j,i)位置处的值为1。则第l层的基于节点偏移的图神经网络的公式如下:
[0034][0035]
其中,x
(l)
为第l层的输入特征,σ为激活函数,为归一化邻接矩阵,计算公式为为对角线度矩阵,a为邻接矩阵,i为单位矩阵。w1和w2为特征矩阵,其分别映射节点特征和偏移特征。注意,传统的图卷积神经网络中根据度矩阵将注意力分配给当前节点和邻居节点,而弱化了节点本身位置信息的指导地位。
[0036]
手关节拓扑结构对于准确地推理手部姿态是至关重要的,特别是在严重的自遮挡和自相似的情况下。现有的回归模块采用多层感知机网络,该网络独立地回归关节的三维坐标,忽略了节点间的空间结构约束线索。为了解决此问题,本实施方式利用图卷积神经网络技术,提出了拓扑感知回归模块。该图卷积神经网络提供了一种引入拓扑结构先验的方式,其可在拓扑结构的指导下聚合邻居节点的信息。然而,传统的gcn分配固定的注意力权重给节点间的连接,忽略了相邻节点间复杂的语义关系。
[0037]
如图6所示,本实施方式的拓扑感知回归模块包括依次连接的第一语义图卷积层、第一relu层、第二语义图卷积层、第二relu层、第三语义图卷积层和1
×
1卷积层;所述第一语义图卷积层的输入与所述第二relu层的输出相连。与传统的图卷积神经网络相比,语义图卷积神经网络增加了一个学习的加权矩阵m,以自适应地模拟关节间的连接强度,其表达
式为:
[0038]
x

(l 1)
=σ(wx

(l)
ρi(m

(a i)))
[0039]
其中,x

(l)
为语义图卷积层中第l层的输入特征,σ为激活函数,w为特征矩阵,ρi为softmax操作,m为加权矩阵,a为邻接矩阵,i为单位矩阵,

表示元素点乘。
[0040]
此外,为了缓解串联多个语义图卷积层所带来的过度平滑问题,采用跳连接操作,即将所有graphformer解码器层的输出结果拼接起来,一起输入到拓扑感知回归模块中,鼓励回归模块可以隐式的提取不同解码器层中所包含的语义信息。受益于语义图卷积的优秀特性,本实施方式的回归模块在手部拓扑结构的指导下将预测的手姿态约束在一个更精确的特征空间中。
[0041]
本实施方式的基于拓扑感知的三维手势姿态估计方法既充分学习了手部关节点的全局信息,又利用图卷积神经网络充分利用了手部固有的拓扑先验知识,很好地建模关节点之间局部的运动学连接关系,在面临自遮挡自相似问题时可实现准确、鲁棒的三维手势关节点位置的预测。与现有技术相比,本实施方式在自遮挡情况和自相似情况下可获得更精确的手部姿态估计,图7和图8分别展示了在自遮挡和自相似情况下三维手势姿态估计的部分效果示例。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献