一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于边感知的多关系GCNs骨架动作识别方法

2022-08-02 23:41:27 来源:中国专利 TAG:

基于边感知的多关系gcns骨架动作识别方法
技术领域
1.本发明涉及计算机视觉和视频理解技术领域,尤其涉及一种基于边感知的多关系 gcns骨架动作识别方法。


背景技术:

2.人体动作识别的关键是提取运动交互对象,并对它们之间的交互关系进行建模。关节点特征和肢体特征是人体骨架数据的两个重要组成因素,它们在人体运动过程中相互关联,分别从不同的角度共同构成人体运动。但是现有的基于图神经网络的人体动作识别算法的关注点在如何构建一个新颖复杂的卷积网络上,例如,如何获取表示能力更强的关节点特征,并没有从关节点和肢体的物理关联过程的角度对运动进行建模,虽然部分算法采用双流网络分别对关节点流和肢体流进行了处理,但最后只是在网络的末端对双流数据进行了简单的融合,对数据本身的相关性的考虑不够充分,对数据之间关联信息挖掘的不够深入,因此,有必要对关节点和肢体的联动过程进行建模。
3.现有的图卷积网络采用1-hop邻域表示结点邻域信息,这种处理方式的问题是缺乏捕获非物理相邻结点之间的长距离依赖关系的能力,结点的感知范围有限,大部分方法通过堆叠多层图卷积层来解决感知范围有限的问题,但这种方式会引发网络过平滑。
4.因此,有必要开发一种基于边感知的多关系gcns骨架动作识别方法,其中,gcns 为图卷积网络(graph convolutional networks),采用k-hops方式定义了图结点的邻域,保留了丰富的图结构信息,扩大了结点的感知范围,有效提取表示能力更强的人体运动信息,详尽的描述不同的动作,能够有效提高人体动作识别准确率。


技术实现要素:

5.本发明旨在解决现有技术或相关技术中存在的技术问题之一。
6.为此本发明提出了一种基于边感知的多关系gcns骨架动作识别方法。
7.有鉴于此,本发明提出了一种基于边感知的多关系gcns骨架动作识别方法,所述多关系gcns骨架动作识别方法包括:
8.获取人体骨架数据,通过普通摄像头或者深度摄像头获取运动过程中的人体骨架数据;
9.构建双流网络,所述双流网络包括低阶流网络和高阶流网络,每一流均包括9个相同的多关系图卷积层和一个softmax分类函数,进行人体的动作识别;
10.网络输入数据,对所述人体骨架数据进行变换,构建关节点图获取关节点-肢体运动数据输入所述低阶流网络,构建肢体图获取二阶肢体数据-三阶运动数据输入高阶流网络中;
11.获取边的感知权重,在每一个所述多关系图卷积层中,首先采用动态边感知模块dep 对所述关节点图和所述肢体图中边的特征进行感知运算,获取边的感知权重;
12.提取运动特征,将上一卷积层输出的所述关节点图、所述肢体图的特征和对应所
述边的感知权重分别输入到邻域范围为k-hops的图卷积函数中提取所述关节点图和所述肢体图中各个图结点的运动特征,采用不同hop描述运动过程中人体部位之间的不同交互关系,加权平均获得当前层不同关系下的所述图结点运动特征;
13.获取动作识别结果,多次重复执行获取边的感知权重和提取运动特征,获得每一流的最终结点运动特征,将所述结点运动特征送入softmax分类函数中获得动作类别得分,为每一流赋权重,并按权重融合所述低阶流网络和所述高阶流网络的得分得到动作识别结果,权重通过实验获得,通常取相同值。
14.进一步地,所述获取人体骨架数据包括:
15.采用深度摄像头直接获取人体骨架数据或者将所述普通摄像头获取的图片和视频通过姿态估计算法提取人体骨架数据,表示为每个关节点的三维或二维坐标;
16.采用图g描述人体物理结构图,依据提取的所述人体骨架数据中所有的关节点,定义所述人体物理结构图为g=(v,e,w),其中,v为结点集,表示所有的关节点;e是边集合,表示相邻关节点之间的肢体;w是边的带权邻接矩阵,权值通过学习获得。
17.进一步地,所述姿态估计算法为openpose。
18.进一步地,所述构建双流网络包括低阶流网络和高阶流网络,所述低阶流网络和所述高阶流网络的结构相同,每一流均包括9个结构相同的多关系图卷积层和一个softmax 分类函数,每个所述多关系图卷积层包含边感知模块dep和多关系图卷积模块两部分,其中,所述低阶流网络以关节点-肢体运动数据,所述高阶流网络以所述二阶肢体数据
‑ꢀ
三阶运动数据作为网络输入数据。
19.进一步地,所述网络输入数据包括:
20.按照所述人体物理结构图,构建关节点图,根据所述关节点坐标计算二阶肢体运动数据,取每条边两端的关节点的向量差,以关节点-肢体运动数据作为低阶流的输入,输入所述低阶流网络中;
21.按照所述人体物理结构图,构建肢体图,根据所述二阶肢体运动数据计算三阶运动数据,以二阶肢体数据-三阶运动数据作为高阶流的输入,输入所述高阶流网络中。
22.进一步地,所述获取边的感知权重包括:
23.构造动态边感知模块dep,定义任意一条边的特征感知函数为θ
ij
=p(f
in
(e
ij
));
24.其中,f
in
(e
ij
)表示边e
ij
的输入特征;p表示边特征感知操作,采用卷积函数实现;i 和j分别为边e
ij
两端结点的编号;
25.将所述关节点图或所述肢体图中的每一条边的输入特征依次输入到所在所述低阶流网络或所述高阶流网络的当前所述多关系图卷积层的动态边感知模块dep中,获得对应边的感知权重。
26.进一步地,所述提取运动特征包括:
27.将所述人体物理结构图g中的结点vi的邻域b(vi)扩大到k-hops,在k-hops范围内定义每个结点的结构化邻接子图sgi,sgi为图g的子图,定义vi为sgi的根结点,并在sgi中引入结点vi在所述人体物理结构图中的对称结点,将所述对称结点表示为0-hop;
28.对任意结点vi,在所述多关系图卷积模块中,结点输出特征取该结点的邻接点特征的和,每个所述邻接点进行卷积运算时,取所述动态边感知模块dep的输出作为卷积计算的权重,动态边感知模块dep的输入为以结点vi和当前参与计算邻接点vj为端点的边,
29.其中,f
in
(vj)为结点vj在当前卷积层的输入特征,f
out
(vi)表示结点vi在当前卷积层的输出特征,b(vi)表示节点vi在图g中的邻接点的集合,zi是归一化项,表示结点vi的邻接点的数量;
30.采用bi-level邻接点特征聚合方式,根据所述邻接点特征的和获得根结点在当前层下的运动特征,其中,所述邻接点特征的和包括先按同hop邻域内intra-hop的结点进行特征聚合,再按不同hop邻域间inter-hop进行结点特征聚合。
31.进一步地,所述bi-level邻接点特征聚合包括:
32.intra-hop聚合时,对结点vi的d-hops邻域,d∈{0,1,...,k},取邻域内所有邻接点的聚合特征,其中,bd(v
ti
)表示结点vi的d-hops邻接点集合;是归一化项,表示这一邻域范围内邻接点的数量,k值根据实际需求确定;
33.inter-hop聚合采用聚合函数对不同hop之间的特征进行进一步聚合,获得结点vi在当前层的输出其中,表示d-hops邻域特征的融合权重,采用注意力机制计算;σ是激活函数;
34.其中,函数可以采用多种不同的运算符实现,如向量加操作add;向量点乘操作 mult;corr操作*:具体计算方法为: n为特征维数,u为移位位数。
35.进一步地,所述获取动作识别结果包括:
36.多次重复获取边的感知权重和提取运动特征的步骤,获得所述双流网络中所述每一流的最终图结点运动特征输入softmax分类函数中获取动作类别得分;
37.对所述双流网络中所述每一流的得分进行加权平均得出最后动作识别结果,通常低阶流网络和所述高阶流网络取相同权值。
38.本发明提供的技术方案可以包括以下有益效果:
39.构建动态边感知模块计算肢体运动相关的特征作为结点卷积权重,对二者的运动联合建模,能够提取到更详尽、复杂的运动特征;k-hops邻域和bi-level结点特征聚合方法,可以扩大结点的感知范围获得更多的运动交互信息,并有效保留图结构信息;将结点的交互关系映射到不同hop的连接距离上,提出多关系图卷积模块,可以捕捉到人体运动过程中的不同交互细节;高阶流网络运动数据中隐含了更多运动特征;有效提取表示能力更强的人体运动信息,详尽的描述不同的动作,能够有效提高人体动作识别准确率。
40.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
41.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1示出了根据本发明基于边感知的多关系gcns骨架动作识别方法的步骤流程图。
具体实施方式
44.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
45.实施例
46.图1示出了根据本发明基于边感知的多关系gcns骨架动作识别方法的步骤流程图。
47.如图1所示,本实施例提供了一种基于边感知的多关系gcns骨架动作识别方法,该多关系gcns骨架动作识别方法包括:
48.步骤1,获取人体骨架数据,通过普通摄像头或者深度摄像头获取运动过程中的人体骨架数据;
49.步骤2,构建双流网络,双流网络包括低阶流网络和高阶流网络,每一流均包括9 个相同的多关系图卷积层和一个softmax分类函数,进行人体的动作识别;
50.步骤3,网络输入数据,对人体骨架数据进行变换,构建关节点图获取关节点-肢体运动数据输入低阶流网络,构建肢体图获取二阶肢体数据-三阶运动数据输入高阶流网络中;
51.步骤4,获取边的感知权重,在每一个多关系图卷积层中,首先采用动态边感知模块dep对关节点图和肢体图中边的特征进行感知运算,获取边的感知权重;
52.步骤5,提取运动特征,将上一卷积层输出的关节点图、肢体图的特征和对应边的感知权重分别输入到邻域范围为k-hops的图卷积函数中提取关节点图和肢体图中各个图结点的运动特征,采用不同hop描述运动过程中人体部位之间的不同交互关系,加权平均获得当前层不同关系下的图结点运动特征;
53.步骤6,获取动作识别结果,多次重复执行获取边的感知权重和提取运动特征,获得每一流的最终结点运动特征,将结点运动特征送入softmax分类函数中获得动作类别得分,为每一流赋权重,并按权重融合低阶流网络和高阶流网络的得分得到动作识别结果,权重通过实验获得,通常取相同值。
54.采用k-hops方式定义了图结点的邻域,保留了丰富的图结构信息,扩大了结点的感知范围,有效提取表示能力更强的人体运动信息,详尽的描述不同的动作,全面描述了人体运动过程中的交互过程,能够有效提高人体动作识别准确率。
55.进一步地,获取人体骨架数据包括:
56.采用深度摄像头直接获取人体骨架数据或者将普通摄像头获取的图片和视频通过姿态估计算法提取人体骨架数据,表示为每个关节点的三维或二维坐标;
57.采用图g描述人体物理结构图,依据提取的人体骨架数据中所有的关节点,定义人体物理结构图为g=(v,e,w),其中,v为结点集,表示所有的关节点;e是边集合,表示相邻关节点之间的肢体;w是边的带权邻接矩阵,权值通过学习获得。
58.需要说明的是,可以采用普通摄像图获取的图片和视频通过姿态估计算法提取人体骨架数据,也可以采用深度摄像头直接获取人体骨架数据,因为大部分场景都是普通摄像头,而实际深度摄像头出来的骨架精度更高,但是它深度摄像头价格较高,并不普及,因此可以根据需要选择采用普通摄像头或者深度摄像头。
59.进一步地,姿态估计算法为openpose。
60.openpose是目前最常用的姿态估计方法,算法稳定,效率高,是开源代码。
61.进一步地,构建双流网络包括低阶流网络和高阶流网络,低阶流网络和高阶流网络的结构相同,每一流均包括9个结构相同的多关系图卷积层和一个softmax分类函数,每个多关系图卷积层包含边感知模块dep和多关系图卷积模块两部分,其中,低阶流网络以关节点-肢体运动数据,高阶流网络以二阶肢体数据-三阶运动数据作为网络输入数据。
62.双流网络的输入数据模态不同,能够更全面的描述人体运动过程中的不同方面,通过低阶流网络和高阶流网络可以融合互补,获得更好的动作识别效果。
63.进一步地,网络输入数据包括:
64.按照人体物理结构图,构建关节点图,根据关节点坐标计算二阶肢体运动数据,取每条边两端的关节点的向量差,以关节点-肢体运动数据作为低阶流的输入,输入低阶流网络中;
65.按照人体物理结构图,构建肢体图,根据二阶肢体运动数据计算三阶运动数据,以二阶肢体数据-三阶运动数据作为高阶流的输入,输入高阶流网络中。
66.网络输入数据是对数据进行预处理,获得符合低阶流网络和高阶流网络的输入特征数据。
67.进一步地,获取边的感知权重包括:
68.构造动态边感知模块dep,定义任意一条边的特征感知函数为θ
ij
=p(f
in
(e
ij
));
69.其中,f
in
(e
ij
)表示边e
ij
的输入特征;p表示边特征感知操作,采用卷积函数实现;i 和j分别为边e
ij
两端结点的编号;
70.将关节点图或肢体图中的每一条边的输入特征依次输入到所在低阶流网络或高阶流网络的当前多关系图卷积层的动态边感知模块dep中,获得对应边的感知权重。
71.构建动态边感知模块计算肢体运动相关的特征作为结点卷积权重,对二者的运动联合建模,能够提取到更详尽、复杂的运动特征。
72.进一步地,其特征在于,提取运动特征包括:
73.将人体物理结构图g中的结点vi的邻域b(vi)扩大到k-hops,在k-hops范围内定义每个结点的结构化邻接子图sgi,sgi为图g的子图,定义vi为sgi的根结点,并在sgi中引入结点vi在人体物理结构图中的对称结点,将对称结点表示为0-hop;
74.对任意结点vi,在多关系图卷积模块中,结点输出特征取该结点的邻接点特征的和,每个邻接点进行卷积运算时,取动态边感知模块dep的输出作为卷积计算的权重,动态边感知模块dep的输入为以结点vi和当前参与计算邻接点vj为端点的边,
75.其中,f
in
(vj)为结点vj在当前卷积层的输入特征,f
out
(vi)表示结点vi在当前卷积层的输出特征,b(vi)表示节点vi在图g中的邻接点的集合,zi是归一化项,表示结点vi的邻接点的数量;
76.采用bi-level邻接点特征聚合方式,根据邻接点特征的和获得根结点在当前层下的运动特征,其中,邻接点特征的和包括先按同hop邻域内intra-hop的结点进行特征聚合,再按不同hop邻域间inter-hop进行结点特征聚合。
77.其中,f
in
(vj)是结点vj的输入特征,取vi邻域b(vi)里的每一个结点特征参与计算,这个邻接点表示为vj;结构化邻接子图里有对称节点,别人都有固定的距离,对称节点不一定是几,为了统一表示,给它写成0,用0-hop表示。
78.需要说明的是,将结点集中的结点vi的邻域b(vi)扩大到k-hops,能够增强结点的感知能力和双流网络捕获远距离结点之间交互关系的问题;在sgi中引入结点vi在人体结构图中的对称结点,进一步增加了根结点的感受野范围,有效描述人体运动过程中对称肢体间的运动交互;为了在邻接点特征聚合过程中有效保留保留邻接子图中的人体结构信息,提出bi-level邻接点特征聚合方式。
79.进一步地,bi-level邻接点特征聚合包括:
80.intra-hop聚合时,对结点vi的d-hops邻域,d∈{0,1,...,k},取邻域内所有邻接点的聚合特征,其中,bd(v
ti
)表示结点vi的d-hops邻接点集合;是归一化项,表示这一邻域范围内邻接点的数量,k值根据实际需求确定;
81.inter-hop聚合采用聚合函数对不同hop之间的特征进行进一步聚合,获得结点vi在当前层的输出其中,表示d-hops邻域特征的融合权重,采用注意力机制计算;σ是激活函数;
82.其中,函数可以采用多种不同的运算符实现,如向量加操作add;向量点乘操作 mult;corr操作*:具体计算方法为: n为特征维数,u为移位位数。
83.其中,corr操作*:是一个常规表示,n维实数向量乘n维实数向量获得一个n维实数向量。
84.需要说明的是,k是d的最大取值,如k=3,d就可以分别取0,1,2,3,每一个hop 都计算一次;融合权重是指一共有多少个hop的聚合特征,对这些hop的特征进行最终加权融合的权重;d取0时即为结构图中的对称结点,结构化邻接子图里每一个邻接点都要参与计算的,按hop值分组。
85.k-hops邻域和bi-level结点特征聚合方法,可以扩大结点的感知范围获得更多的运动交互信息,并有效保留图结构信息;将结点的交互关系映射到不同hop的连接距离上,提出多关系图卷积模块,可以捕捉到人体运动过程中的不同交互细节。
86.需要说明的是,结点的k-hops邻域描述了结点之间的不同邻接关系,不同连接距
离的结点对人体在运动过程中的交互关系也不相同,即可以将结点间的不同交互关系映射到不同的邻接结构上,完成relation

hop的映射。
87.进一步地,获取动作识别结果包括:
88.多次重复获取边的感知权重和提取运动特征的步骤,获得双流网络中每一流的最终结点运动特征输入softmax分类函数中获取动作类别得分;
89.对双流网络中每一流的得分进行加权平均得出最后动作识别结果,通常低阶流网络和高阶流网络取相同权值。
90.其中,通过softmax分类函数的输出获得双流网络中每一流的得分,每一流指的是低阶流网络和高阶流网络,每一流均包括9个结构相同的多关系图卷积层和一个softmax 分类函数,每个所述多关系图卷积层包含边感知模块dep和多关系图卷积模块两部分。
91.通过实验结果表明,本技术的多关系gcns骨架动作识别方法可以有效获得人体运动协作特征,在ntu-rgb d和ntu-rgb d 120数据集上取得了较好的骨架动作识别效果。
92.需要说明的是,在实际实现时,动态边感知模块dep可能会占用较多显存,可根据实际需要和算力选择在哪些层中添加动态边感知模块dep,没有添加dep模块时,结点卷积采用原始图卷积函数实现。
93.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
94.应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献