一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种三维人体姿态估计方法、系统及存储介质

2022-11-12 20:52:37 来源:中国专利 TAG:


1.本发明属于人体姿态估计领域,具体涉及一种三维人体姿态估计方法、系统及存储介质。


背景技术:

2.人体姿态估计是指通过机器学习和图像处理等方法检测和识别出图像中人体的关节点,并定位各个关节点的位置。该技术可应用于动作捕捉、人机交互、异常行为检测、影视特效制作、动作迁移、虚拟角色驱动等,同时该技术也可以辅助行为识别、行为理解等技术。之前的姿态估计方法中,往往采用卷积神经网络或者循环神经网络来进行人体姿态的估计,但是普通卷积神经网络总是激活小范围的数据以供观察,而循环神经网络局限于简单的序列相关性,且下一状态取决于上一状态结果,不能并行处理。所以本发明提供一种可以应用于视频中的基于扩展卷积和注意力机制的三维人体姿态估计方法。
3.现有的基于深度学习的三维人体姿态估计方法大致可以分为三类:基于直接回归的三维人体姿态估计、基于2d信息的三维人体姿态估计以及基于混合方法的三维人体姿态估计。基于直接回归的三维人体姿态估计存在贡献分配问题,基于混合方法的网络又过于复杂,所以我们选择基于二维信息的三维人体姿态估计方法。以二维骨架序列为输入,经过三维人体姿态估计网络,输出人体关键点的三维坐标,基本过程如图1所示。


技术实现要素:

4.本发明的目的在于,目的在于提供了一种三维人体姿态估计方法、系统及存储介质,
5.为了解决技术问题,本发明的技术方案是:
6.一种三维人体姿态估计方法,所述方法包括:
7.s1:对human3.6m人体姿态估计数据中视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;
8.s2:利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
9.s3:将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
10.进一步,在步骤s1之前,所述方法还包括:获取human3.6m人体姿态估计数据;
11.进一步,所述步骤s1具体包括:
12.对输入的每一帧的17个二维关键点坐标(x1,y1)...(x
17
,y
17
)进行向量编码,通过线性投影矩阵e∈r
j*c
将二维的坐标映射到更高的维度c,同时添加位置编码e
sp
∈r
j*c
记录每一个关键点在序列中的位置信息,得到编码后的输入x0,过程如公式(1)所示;
13.x0=[(x1,y1)e,...(x
17
,y
17
)e] e
sp
ꢀꢀꢀ
(1)。
[0014]
进一步,所述步骤s2,具体包括:
[0015]
首先将编码后的输入x0进行层归一化后,线性映射到查询矩阵q、键矩阵k和值矩阵v上,作为多头注意力的输入:
[0016]
q=x0wq,k=x0wk,v=x0wvꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0017]
注意力计算各个关键点之间关系的得分高低计算公式如下:
[0018][0019]
多头注意力的形式使用一个线性映射将h个头的注意力分数拼接体现:
[0020]
h=concat(h1,...h8)wh(4)
[0021]
最后,使用一个layer norm层进行归一化,得到关键点之间的空间关系特征。
[0022]
进一步,将空间关系特征输入到扩张卷积网络中提取视频中不同帧之间的时间信息特征,得到不同时间帧的坐标联系。
[0023]
进一步,基于不同时间帧的坐标联系,融合关键点之间的空间关系特征,得到单帧的17个关键点的三维坐标。
[0024]
进一步,所述单帧的17个关键点的三维坐标,即为最终估计出的三维关键点坐标。
[0025]
一种三维人体姿态估计系统,所述系统包括:
[0026]
提取关节点间信息模块,用于对视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
[0027]
时间信息提取模块,用于将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
[0028]
进一步,所述系统还包括:
[0029]
获取模块,用于获取human3.6m人体姿态估计数据。
[0030]
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述中任一项所述的方法。
[0031]
与现有技术相比,本发明的优点在于:
[0032]
一种三维人体姿态估计方法、系统及存储介质,获取human3.6m人体姿态估计数据集,将数据集划分为训练集和验证集两部分。第一步,获得输入,即二维关键点坐标序列。这里在二维人体姿态估计网络cpn的结果基础上,实现三维人体姿态估计。第二步,对视频输入的每一帧17个关键点的二维坐标进行向量和位置编码,进行维度的提升,利于提取特征。第三步:使用transformer结构提取每一帧中17个关键点的相关特征,得出关键点之间的空间关系特征。第四步,将空间关系特征输入到扩张卷积模块,扩大感受野范围,提取时间特征。将空间与时间特征进行融合。最终得到单帧的17个关键点的三维坐标。
附图说明
[0033]
图1、基于二维信息的基本过程;
[0034]
图2、注意力机制网络结构;
[0035]
图3、扩张卷积;
[0036]
图4、扩张卷积网络结构;
[0037]
图5、主流程图。
具体实施方式
[0038]
下面结合实施例描述本发明具体实施方式:
[0039]
需要说明的是,本说明书所示意的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
[0040]
同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
[0041]
实施例1:
[0042]
第一部分使用多头注意力机制来提取视频每一帧中j(j=17)个二维关键点(x1,y1)...(x
17
,y
17
)之间的关系信息。
[0043]
在进行多头注意力机制的介绍之前,我们先对输入的每一帧的17个二维关键点坐标进行向量编码,通过线性投影矩阵e∈r
j*c
将二维的坐标映射到更高的维度c,便于更好的提取特征,同时添加位置编码e
sp
∈r
j*c
记录每一个关键点在序列中的位置信息。过程如公式一所示;
[0044]
x0=[(x1,y1)e,...(x
17
,y
17
)e] e
sp
ꢀꢀꢀ
(1)
[0045]
关于多头注意力机制,首先我们将编码后的输入x0进行层归一化后,线性映射到查询矩阵q、键矩阵k和值矩阵v上,作为多头注意力的输入:
[0046]
q=x0wq,k=x0wk,v=x0wvꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0047]
其中,w为权重。
[0048]
注意力计算各个关键点之间关系的得分高低计算公式如下:
[0049][0050]
多头的形式我们使用一个线性映射将h个头的注意力分数拼接在一起来体现:
[0051]
h=concat(h1,...h8)whꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0052]
最后使用一个layer norm(ln)层进行归一化避免数据分布影响问题。注意力机制全部的结构如图2所示。
[0053]
第二部分我们使用扩张卷积提取视频中不同帧之间的时间信息,通过不同时间帧的坐标联系,结合上一部分得到的关键点之间关系,最终估计出三维关键点坐标。扩张卷积与普通卷积相比,具有一个额外参数扩张率(d)参数,用来表示扩张的大小。扩张卷积如图3所示。
[0054]
当d=1时相当于普通的卷积,卷积核尺寸k为3,感受野为3,当d=3时卷积核尺寸为7=2*(3-1) 1,即卷积核计算公式filter=d*(k-1) 1。此时总的感受野为9,扩张卷积输入与输出特征尺寸关系如公式5所示:
[0055]
[0056]
其中w1,w2分别为输入、输出特征尺寸,p是填充大小,s是步长。
[0057]
这部分以每一帧二维关键点间特征为输入,首先经过1*1卷积提高特征维度。然后通过卷积核filter=3,扩张率分别为3、9和27的3个扩张卷积块扩大感受野至81帧,来加入时间相关信息,扩张卷积块由一个卷积核大小为3的扩张卷积、batchnormlization、激活函数以及通道数不变的1
×
1卷积构成。最终再经过一个1*1卷积对特征进行再次整理,并将维度缩放到17*3,即17个关键点的三维坐标,进行中心帧的输出。整体结构如图4所示。
[0058]
发明所采用数据集是包含360万人体姿态和相应图像的human3.6m 3d人体姿态数据集,共有11个实验者和15个动作场景。我们选取1,5,6,7,8作为训练集,9,11作为测试集。网络的损失函数如公式6所示,使用数据集标准的平均(每)关节位置误差(mpjpe)。其中j表示关键点数量,mf表示网络输出的估计值,m
gt
表示真实值,i表示第i帧。
[0059][0060]
实施例2:
[0061]
为了更好的实施以上方法,本实施例提供一种三维人体姿态估计系统;例如:如图5所示。
[0062]
提取关节点间信息模块,用于对human3.6m人体姿态估计数据中视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
[0063]
时间信息提取模块,用于将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
[0064]
实施例3:
[0065]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0066]
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一一种三维人体姿态估计方法中的步骤。
[0067]
例如该指令可以执行如下步骤:
[0068]
s1:对human3.6m人体姿态估计数据中视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;
[0069]
s2:利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
[0070]
s3:将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
[0071]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0072]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0073]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0074]
上面对本发明优选实施方式作了详细说明,但是本发明不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
[0075]
不脱离本发明的构思和范围可以做出许多其他改变和改型。应当理解,本发明不限于特定的实施方式,本发明的范围由所附权利要求限定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献