一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于并联卷积神经网络的人体骨骼动作识别方法与流程

2022-02-19 04:05:57 来源:中国专利 TAG:


1.本发明涉及机器人学习与计算机视觉领域,尤其是涉及一种基于并联卷积神经网络的人体骨骼动作识别方法。


背景技术:

2.动作识别广泛应用于视频监控、人机交互、智能驾驶等领域。基于视频的动作识别可分为基于rgb像素点的动作识别和基于骨骼的动作识别,基于骨骼的动作识别由于计算量少且能保留丰富的动作行为信息而广泛被研究。
3.基于骨骼的算法目前分为传统的提取特征方法,如时空兴趣点法、稠密轨迹法和能量直方图法以及深度学习算法,如卷积神经网络算法、图卷积神经网络等,卷积神经网络要求输入数据是规则且具有欧式距离,而人体骨骼拓扑是不规则的,骨骼点之间的距离是非欧式距离,图卷积网络通过邻接矩阵解决了这一问题,然而现有的图卷积网络往往需要很多层的堆栈才能达到一个比较好的识别精度。


技术实现要素:

4.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于并联卷积神经网络的人体骨骼动作识别方法。
5.本发明的目的可以通过以下技术方案来实现:
6.一种基于并联卷积神经网络的人体骨骼动作识别方法,包括以下步骤:
7.1)获取骨骼数据并进行预处理,剔除无关骨骼数据和修复不全的数据后进行归一化处理;
8.2)设计并联卷积神经网络的基础模块结构;
9.3)设置训练参数,并进行误差反向传播;
10.4)将并联卷积神经网络的基础模块插入语义引导神经网络(sgn)网络中,构建人体骨骼动作识别网络模型,并在骨骼数据集上进行跨视角和跨物体的训练和测试;
11.5)以处理后的骨骼数据作为输入,根据训练好的人体骨骼动作识别网络模型进行人体骨骼动作识别。
12.所述的步骤1)中,剔除不符合规范或数据尺度未在设定范围内的骨骼数据,并采用插值法生成新的骨骼数据,通过深度学习框架pytorch中的batchnorm2d方式进行归一化处理。
13.所述的步骤2)中,基础模块由图卷积网络(gcn)和二维卷积网络(cnn)并联构成,分别对输入的骨骼数据进行独立卷积后经过激活函数(relu)进行非线性处理,增大网络的信息提取能力,所述的图卷积网络(gcn)用以提取空间信息特征,通过可学习的邻接矩阵提取人体各骨骼点之间的动作联系,所述的二维卷积网络(cnn)用以提取不同帧间的光流信息,即规则的时间帧信息。
14.所述的并联卷积神经网络由一个或多个基础模块通过堆栈构成,用以实现特征提
取的即插即用。
15.所述的步骤3)中,训练参数包括学习率(lr)、损失函数(loss)、批次大小(batch_size)、迭代次数(epoch)和损失函数。
16.所述的步骤4)中,将并联卷积神经网络的基础模块插入语义引导神经网络sgn中具体为:
17.将即插即用的并联卷积神经网络代替原sgn网络中的gcn模块,形成人体骨骼动作识别网络模型。
18.所述的步骤4)中,在骨骼数据集ntu

rgb d 60上进行跨视角和跨物体的训练和测试。
19.所述的步骤4)中,进行跨视角和跨物体的训练和测试具体包括:
20.调整二维卷积网络(cnn)的卷积核尺寸,重复步骤4),直至获取跨视角和跨物体的准确率最高时对应的卷积核尺寸,并将对应的尺寸参数作为基础模块的模型参数;
21.固定基础模块的尺寸参数,调整并联卷积网络的堆栈层数和中间层的通道维数,重复步骤4),直至获取跨视角和跨物体的准确率最高时对应的堆栈层数和中间层的通道维数,完成并联卷积网络的模型参数设计。
22.所述的步骤5)中,二维卷积网络(cnn)的卷积核尺寸的调整包括1
×
1尺寸、1
×
3尺寸和3
×
3尺寸。
23.所述的步骤6)中,并联卷积网络的堆栈层数的调整包括1、2、3、4和5,中间层的通道维数的调整包括64、64*2和64*4。
24.与现有技术相比,本发明具有以下优点:
25.一、本发明的并联卷积网络可以即插即用在任意特征提取识别网络结构中,基础模块是通过图卷积(gcn)与二维卷积(cnn)并联实现,对输入的骨骼点数据分别进行独立卷积,gcn通过可学习的邻接矩阵提取了人体各个骨骼点之间的动作联系,cnn用来提取规则的时间帧信息,二者直接对输入的数据进行处理,减少了信息损失,从而能最大程度提取丰富的时空信息,增大识别精度,本发明将并联卷积网络植入最新的语义引导神经网络(sgn)网络中,在ntu rgb d 60数据集上进行cv和cs测试精度均有较大提高,精度调高了0.5%,而整个网络的参数量只有1.69m,大大减小了运算量。
26.二、本发明的模型参数优化设计新颖,首先设计基础模块的参数,找到最优的卷积核尺寸,接着固定最优的基本模块参数,通过多次迭代训练,找到最优的基本模块堆栈层数和中间层的通道维数,通过改变不同层数的通道层数来提取多尺度的通道信息,增强网络的信息提取能力,通过不同层面的训练,分两次获取最优的网络参数模型。
27.三、即插即用,可代替任一网络模型的图卷积(gcn)模块。
附图说明
28.图1为本发明方法的基础模块图。
29.图2为本发明方法的基础模块堆栈图。
30.图3为人体骨骼动作识别网络模型的结构示意图。
具体实施方式
31.下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
32.为了充分发挥图卷积网络和二维卷积神经网络的学习能力,用最少的堆栈完成较高精度的动作识别,本发明提供了一种基于并联卷积神经网络的人体骨骼动作识别方法,该方法中构成并联卷积神经网络的基础模块结构如图1所示,每个基础模块均由一个图卷积网络(gcn)和二维卷积网络(cnn)并联而成,输入的骨骼数据分别独立经过gcn和cnn处理后进行加和计算,再由relu函数进行非线性激活来提高该模块的学习能力。如图2所示,并联卷积神经网络由多个基础模块堆栈形成,图中由三个基础模块串联而成,实验表明,三个模块的堆栈可以充分提取输入数据的时空信息,也减少了过拟合。图3为人体骨骼动作识别网络模型结构示意图,该模型框架来自语义引导神经网络(sgn),图中,θ(
·
)和φ(
·
)是为植入函数,二者相乘用来生成图卷积网络(gcn)的邻接矩阵,stm为时空聚合模块,用来聚合时空信息,fc为全连接层,用来完成动作分类,其中虚线框内是本发明设计的并联卷积网络模块,该部分代替了原来的gcn模块。
33.具体包括以下步骤:
34.s1、按照现有方法对骨骼数据进行预处理,本发明采用的骨骼数据是ntu rgb 60的骨骼数据集,该数据集包括60类的日常动作骨骼数据,每一类动作的数据集主要记录了完成该动作的视频帧数量、每一帧的人体骨骼点的位置坐标等信息。预处理主要包括剔除无关骨骼数据和修复不全的数据、将骨骼数据中每个维度的数据都归一化到[0,1]区间等操作;
[0035]
s2、设计并联卷积神经网络的基础模块结构和模型参数,将图卷积网络(gcn)和二维卷积网络(cnn)并联,使这两个模块直接对输入数据进行卷积学习,减少了信息丢失,充分发挥gcn强大的空间信息提取能力和cnn对不同帧间的光流信息提取能力;
[0036]
s3、设置训练参数,如学习率(lr)、损失函数(loss),批次大小(batch_size)、迭代次数(epoch),损失函数等,等并进行误差反向传播;
[0037]
s4、将并联卷积基础模块插入语义引导神经网络语义引导神经网络(sgn)中形成人体骨骼动作识别网络模型(如图3所示),并在骨骼数据集ntu

rgb d 60上进行跨视角(cross

view,cv)和跨物体(cross

subject,cs)训练和测试;
[0038]
s5、调整二维卷积核的尺寸,重复步骤s4,直到找出cv和cs准确率最高时二维卷积核的尺寸,并将对应的参数作为并联卷积基础模块的模型参数;
[0039]
s6、改变并联卷积神经网络的堆栈层数和中间层的通道维数,重复步骤s4,直到cv和cs准确率最大,记录对应的堆栈层数和中间层通道维数,完成并联卷积网络的模型参数设计;
[0040]
s7、以处理后的骨骼数据作为输入,根据训练好的人体骨骼动作识别网络模型进行人体骨骼动作识别。
[0041]
识别的具体过程如图3所示,骨骼数据经过三层的并联卷积模块处理,得到具有一定语义信息的时空数据,再经过时空信息聚合模块stm完成时空信息的聚合,最后通过全连接层fc完成60类日常动作的分类。
[0042]
在步骤s1实施过程中,当骨骼数据不符合规范,数据尺度未在设置的范围内等时,需将不符合要求的数据剔除掉,并用插值法生成新的骨骼数据,用深度学习框架pytorch中的batchnorm2d()方式进行归一化。
[0043]
在步骤s2实施过程中,初步设计二维卷积核的尺寸为1
×
1,并将二种卷积的输出加和后用激活函数relu进行非线性处理,进一步增大网络的信息提取能力完成网络架构设计。
[0044]
在步骤s3实施过程中,设置学习率(lr)为0.001,交叉熵函数作为损失函数(loss),batch_size设置为64,epoch设置为140,每580个batch作为一个epoch。
[0045]
在步骤s4实施过程中,将本发明作为即插即用模块的并联卷积神经网络代替原sgn网络gcn模块后形成人体骨骼动作识别网络模型,本发明设计的并联卷积神经网络模块在技术上也可代替其他网络模型的图卷积(gcn)模块,如双流自适应图卷积(2s

agcn)和动作结构图卷积(as

gcn)网络的图卷积(gcn)模块。
[0046]
在步骤s5实施过程中,更改cnn的卷积核尺寸,分别测试1
×
1尺寸,1
×
3尺寸和3
×
3尺寸时的cv和cs精度,将最高精度下卷积核的尺寸参数并作为并联卷积网络基础模块的模型参数,完成并联卷积神经网络基础模块的参数设计。
[0047]
在步骤s6实施过程中,固定基础模块的模型参数,测试堆栈层数为1,2,3,4,5时的cv和cs精度,测试结果如表1所示,并测试中间层不同通道维度下对应的cs和cv精度,通道维数可设置为64,64*2,64*4,将最高精度下的堆栈层数和通道维数作为并联卷积神经网络的模型参数,最终并完成网络的结构和参数设计。
[0048]
表1不同堆栈层数下动作识别精度表
[0049][0050][0051]
本发明提供的基于并联卷积神经网络的人体骨骼动作识别方法,与现有图卷积动作识别方法相比,最大的创新点有三点:
[0052]
1、精度较高,图卷积网络(gcn)与二维卷积网络(cnn)并联,减少了输入数据在经过不同卷积模块后的信息缺少,从而更能充分发挥gcn的学习空间信息和cnn的学习时间信息的能力;
[0053]
2、网络模型参数的最优设计新颖,首先找到最优的基础模块参数,即cnn的卷积核尺寸,接着固定基础模块参数,堆栈不同层数的基础模块和设计中间层的不同通道维数,重复训练,直到ntu

rgb d 60数据集上的跨域和跨视角的识别精度最高,记录对应的层数和
通道维数,完成最优的网络参数设计;
[0054]
3、即插即用,可代替任意网络的gcn模块,适用性广。
[0055]
本发明为了提取更丰富的骨骼信息,充分利用图卷积较强的空间信息提取能力和二维卷积网络较强的时间帧信息提取能力,设计了即插即用的并联卷积模块,通过将模块植入最新的网络模块语义引导神经网络(sgn),在ntu rgb d 60进行了跨视角(cross

view,cv)和跨物体(cross

subject,cs)测试,比植入之前的网络提高了0.5%的精度,如表2所示。
[0056]
表2不同识别网络的动作识别精度对比表
[0057]
methodyearcscvva

lstm201779.487.6st

gcn201881.588.3hcn201886.591.1as

gcn201986.894.2gr

gcn201987.594.32s

agcn201988.595.1sgn202089.094.5full hsq202187.893.7ours

89.595.0
[0058]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献