一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于2S-AGCN的图卷积动作识别方法、装置及设备与流程

2021-11-15 16:55:00 来源:中国专利 TAG:

基于2s

agcn的图卷积动作识别方法、装置及设备
技术领域
1.本技术涉及计算机技术领域,尤其涉及一种基于2s

agcn的图卷积动作识别方法、装置及设备。


背景技术:

2.深度学习卷积神经网络具有识别种类多,准确率高,鲁棒性好等优点。在同样的识别场景下,使用深度学习神经网络进行目标识别可以有效抵抗颜色、纹理、光照等干扰条件。因此,基于深度学习的卷积神经网络的动作识别方法更多的应用于目标的动作识别过程中。
3.虽然深度学习卷积神经网络有着诸多的优点,但因为需要对人体各部位的关节建模所以导致模型的泛化能力较弱,因此利用图卷积神经网络的局部性和时间动态性来学习身体各部位信息,可以提升模型的泛化能力。
4.现有的深度学习图神经网络动作识别方法更多的集中于关注图卷积神经网络的局部特征,而忽视全局特征,另外2s

agcn只建立了具有连接关系的骨骼点图,注重存在连接的骨骼关键点之间的信息传递而忽视了不存在连接的骨骼点之间的信息传递,所以特征表达能力有限。
5.综上,需要设计一个同时注重局部和全局特征,并且考虑断开骨骼点之间信息传递的动作识别模型,使得图卷积神经网络捕捉更大的感受野,提升动作识别的准确率。


技术实现要素:

6.有鉴于此,本技术提供了一种基于2s

agcn的图卷积动作识别方法、装置及设备,用于解决在基于深度学习神经网络进行动作识别时,特征表达能力有限的问题。
7.根据本技术的一个方面,提供了一种基于2s

agcn的图卷积动作识别方法,该方法包括:
8.构建样本集中每帧骨骼点对应人体的物理连接结构,并从所述物理连接结构中提取骨骼点信息和骨骼连接信息;
9.利用所述骨骼点信息和所述骨骼连接信息的融合特征训练动作识别模型,所述动作识别模型是利用图卷积神经网络和时间卷积网络交替并集形成的,所述图卷积神经网络用于提取空间特征,所述时间卷积网络用于提取时间特征;
10.若判定所述动作识别模型训练完成,则将目标样本中各帧的物理连接结构信息输入所述动作识别模型,获取动作识别结果。
11.可选地,所述构建样本集中每帧骨骼点对应人体的物理连接结构,并从所述物理连接结构中提取骨骼点信息和骨骼连接信息,包括:
12.将样本集中样本的通道数、骨骼点数目、视频帧数分别用符号c、v、t表示,所述通道数c的初始值为3,分别为骨骼点的横坐标、纵坐标和坐标的置信度;
13.根据预先定义的骨骼点数字索引,创建用于表示人体物理结构连接的数组,所述
数组内的元素由两个存在连接关系的骨骼点组成,利用存在连接关系的骨骼点确定骨骼连接信息;
14.利用符号g(k,e)将样本中人体骨骼点表示为无向的空间人体骨架图和时间人体骨架图,k表示第t帧图像的骨骼点集合,其中,k={k
ti
|t=1,2,

t;i=1,2,

v};e表示骨骼点之间连接的边集合,有e
s
和e
t
两个子集,e
s
为第t帧骨骼点间具有连接关系的边集合,表示单个样本所有视频帧中的骨骼点连接,e
t
为第t帧与第t 1帧中同一个骨骼点之间的边集合,表示某个骨骼点随时间变化的轨迹;
15.将所述空间人体骨架图中的骨骼点划分为表示人体物理结构的3个骨骼点集合,得到骨骼点信息。
16.可选地,所述将人体空间骨架图中的骨骼点划分为表示人体物理结构的3个骨骼点集合,得到骨骼点信息,包括:
17.根据样本集中骨骼点的坐标计算人体重心坐标;
18.根据所述人体重心坐标将人体空间骨架图中的骨骼点划分为骨骼点本身构建的第一骨骼点集合、与所述骨骼点具有连接关系且距离所述重心坐标小于或等于预设距离阈值的第二骨骼点集合、与所述骨骼点具有连接关系且距离所述重心坐标大于所述预设距离阈值的第三骨骼点集合。
19.可选地,所述方法还包括:
20.构建可以提取样本空间特征的图卷积神经网络层,将标准的二维卷积改进为图卷积;
21.构建可以提取样本时间特征的时间卷积神经网络层,将标准的二维卷积改进为时间卷积;
22.构建动作识别神经网络层,将所述图卷积神经网络层和所述时间卷积神经网络层嵌入其中;
23.利用所述动作识别神经网络层生成9层的动作识别模型。
24.可选地,所述构建可以提取样本时间特征的时间卷积神经网络层,将标准的二维卷积改进为时间卷积,包括;
25.将标准二维卷积需要的3个参数通道数、图像宽和图像高分别替换为参数c、t和v;
26.将所述图卷积神经网络层提取的特征分别输入4个1
×
1的第一卷积层,以提升特征图维度,使本层输出通道数目为时间卷积神经网络层最终输出通道数目的1/8;
27.将所述第一卷积层的输出特征分别输入4个膨胀率分别为1、2、3、4的3
×
1的空洞卷积层,以利用不同感受野的空洞卷积提取不同尺度的时间特征,所述空洞卷积层前后的输入通道和输出通道数目相同,为所述时间卷积神经网络层最终输出通道数目的1/8;
28.将4组所述时间特征进行两两拼接,以使输出的通道数目为所述时间卷积神经网络层最终输出通道数目的1/2;
29.将两两拼接结果输入一个1
×
1的第二卷积层,以提升所述特征图维度,使输出的通道数目与所述时间卷积神经网络层最终输出通道数目相同;
30.将所述第二卷积层的输出结果输入senet层用来提升所述时间卷积神经网络层的通道注意力;
31.所述时间卷积神经网络层的输入和输出之间设置有步长为2的1
×
1第三卷积层,
所述第三卷积层用于稳定训练。
32.可选地,所述利用所述骨骼点信息和所述骨骼连接信息的融合特征训练动作识别模型,包括:
33.将所述骨骼点信息和所述骨骼连接信息利用加权平均的方法进行融合,得到融合特征;
34.将所述融合特征依次输入动作识别模型中的全连接层和softmax层,获取动作类别预测结果,所述融合特征中携带有动作类别标注结果;
35.若依据所述动作类别标注结果确定所述类别预测结果的准确度大于预设阈值,则判定所述动作识别模型训练完成。
36.可选地,所述若判定所述动作识别模型训练完成,则将目标样本中各帧的物理连接结构信息输入所述动作识别模型,获取动作识别结果,包括:
37.若判定所述动作识别模型训练完成,则提取目标样本中每帧由骨骼点信息和骨骼信息融合构成的目标融合特征;
38.将所述目标融合特征输入训练完成的动作识别模型中,获取各个预设动作类别对应的评定分值;
39.将对应所述评定分值最高的预设动作类别确定为所述目标样本中每帧的动作识别结果。
40.根据本技术的另一个方面,提供了一种基于2s

agcn的图卷积动作识别装置,该装置包括:
41.提取模块,用于构建样本集中每帧骨骼点对应人体的物理连接结构,并从所述物理连接结构中提取骨骼点信息和骨骼连接信息;
42.训练模块,用于利用所述骨骼点信息和所述骨骼连接信息的融合特征训练动作识别模型,所述动作识别模型是利用图卷积神经网络和时间卷积网络交替并集形成的,所述图卷积神经网络用于提取空间特征,所述时间卷积网络用于提取时间特征;
43.获取模块,用于若判定所述动作识别模型训练完成,则将目标样本中各帧的物理连接结构信息输入所述动作识别模型,获取动作识别结果。
44.可选地,所述提取模块,具体用于:
45.将样本集中样本的通道数、骨骼点数目、视频帧数分别用符号c、v、t表示,所述通道数c的初始值为3,分别为骨骼点的横坐标、纵坐标和坐标的置信度;
46.根据预先定义的骨骼点数字索引,创建用于表示人体物理结构连接的数组,所述数组内的元素由两个存在连接关系的骨骼点组成,利用存在连接关系的骨骼点确定骨骼连接信息;
47.利用符号g(k,e)将样本中人体骨骼点表示为无向的空间人体骨架图和时间人体骨架图,k表示第t帧图像的骨骼点集合,其中,k={k
ti
|t=1,2,

t;i=1,2,

v};e表示骨骼点之间连接的边集合,有e
s
和e
t
两个子集,e
s
为第t帧骨骼点间具有连接关系的边集合,表示单个样本所有视频帧中的骨骼点连接,e
t
为第t帧与第t 1帧中同一个骨骼点之间的边集合,表示某个骨骼点随时间变化的轨迹;
48.将所述空间人体骨架图中的骨骼点划分为表示人体物理结构的3个骨骼点集合,得到骨骼点信息。
49.可选地,所述提取模块,具体用于:
50.根据样本集中骨骼点的坐标计算人体重心坐标;
51.根据所述人体重心坐标将人体空间骨架图中的骨骼点划分为骨骼点本身构建的第一骨骼点集合、与所述骨骼点具有连接关系且距离所述重心坐标小于或等于预设距离阈值的第二骨骼点集合、与所述骨骼点具有连接关系且距离所述重心坐标大于所述预设距离阈值的第三骨骼点集合。
52.可选地,该装置还包括:第一构建模块、第二构建模块、第三构建模块、生成模块;
53.所述第一构建模块,用于构建可以提取样本空间特征的图卷积神经网络层,将标准的二维卷积改进为图卷积;
54.所述第二构建模块,用于构建可以提取样本时间特征的时间卷积神经网络层,将标准的二维卷积改进为时间卷积;
55.所述第三构建模块,用于构建动作识别神经网络层,将所述图卷积神经网络层和所述时间卷积神经网络层嵌入其中;
56.所述生成模块,用于利用所述动作识别神经网络层生成9层的动作识别模型。
57.可选地,所述第二构建模块,具体用于:
58.将标准二维卷积需要的3个参数通道数、图像宽和图像高分别替换为参数c、t和v;
59.将所述图卷积神经网络层提取的特征分别输入4个1
×
1的第一卷积层,以提升特征图维度,使本层输出通道数目为时间卷积神经网络层最终输出通道数目的1/8;
60.将所述第一卷积层的输出特征分别输入4个膨胀率分别为1、2、3、4的3
×
1的空洞卷积层,以利用不同感受野的空洞卷积提取不同尺度的时间特征,所述空洞卷积层前后的输入通道和输出通道数目相同,为所述时间卷积神经网络层最终输出通道数目的1/8;
61.将4组所述时间特征进行两两拼接,以使输出的通道数目为所述时间卷积神经网络层最终输出通道数目的1/2;
62.将两两拼接结果输入一个1
×
1的第二卷积层,以提升所述特征图维度,使输出的通道数目与所述时间卷积神经网络层最终输出通道数目相同;
63.将所述第二卷积层的输出结果输入senet层用来提升所述时间卷积神经网络层的通道注意力;
64.所述时间卷积神经网络层的输入和输出之间设置有步长为2的1
×
1第三卷积层,所述第三卷积层用于稳定训练。
65.可选地,所述训练模块,具体用于:
66.将所述骨骼点信息和所述骨骼连接信息利用加权平均的方法进行融合,得到融合特征;
67.将所述融合特征依次输入动作识别模型中的全连接层和softmax层,获取动作类别预测结果,所述融合特征中携带有动作类别标注结果;
68.若依据所述动作类别标注结果确定所述类别预测结果的准确度大于预设阈值,则判定所述动作识别模型训练完成。
69.可选地,所述获取模块,具体用于:
70.若判定所述动作识别模型训练完成,则提取目标样本中每帧由骨骼点信息和骨骼信息融合构成的目标融合特征;
71.将所述目标融合特征输入训练完成的动作识别模型中,获取各个预设动作类别对应的评定分值;
72.将对应所述评定分值最高的预设动作类别确定为所述目标样本中每帧的动作识别结果。
73.根据本技术的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于2s

agcn的图卷积动作识别方法。
74.根据本技术的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于2s

agcn的图卷积动作识别方法。
75.借由上述技术方案,本技术提供的一种基于2s

agcn的图卷积动作识别方法、装置及设备,与目前基于2s

agcn进行动作识别的方式相比,本技术可基于骨骼点信息和骨骼连接信息训练由图卷积神经网络和时间卷积网络交替并集形成的动作识别模型,并利用训练完成的动作识别模型对目标样本进行动作识别,获取动作识别结果。通过本技术中的技术方案,在考虑骨骼连接信息的同时,还考虑了断开骨骼点之间的信息传递,并且改良了动作识别模型中的空间图卷积网络结构和时间卷积网络结构,扩大空间域和时间域的感受野,能够提取更多信息,提高模型动作识别的训练精度。
76.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
77.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本地申请的不当限定。在附图中:
78.图1示出了本技术实施例提供的一种基于2s

agcn的图卷积动作识别方法的流程示意图;
79.图2示出了本技术实施例提供的另一种基于2s

agcn的图卷积动作识别方法的流程示意图;
80.图3示出了本技术实施例提供的一种基于2s

agcn的图卷积动作识别的原理流程示意图;
81.图4示出了本技术实施例提供的一种基于2s

agcn的图卷积动作识别装置的结构示意图;
82.图5示出了本技术实施例提供的另一种基于2s

agcn的图卷积动作识别装置的结构示意图。
具体实施方式
83.下文将参考附图并结合实施例来详细说明本技术。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互结合。
84.针对目前在基于深度学习神经网络进行动作识别时,特征表达能力有限的问题,本技术实施例提供了一种基于2s

agcn的图卷积动作识别方法,如图1所示,该方法包括:
85.101、构建样本集中每帧骨骼点对应人体的物理连接结构,并从物理连接结构中提取骨骼点信息和骨骼连接信息。
86.鉴于在现实生活中,人们在做动作时通常需要不同身体部位的共同协作,但是现有的深度学习图神经网络动作识别方法只考虑了存在直接连接关系骨骼关键点之间的联系,却没有额外考虑不存在物理连接关系骨骼关键点之间的联系,比如有的动作需要同时依赖左手腕和右手腕两个部位的配合,但是这两个部位的骨骼关键点是不存在直接连接关系的。因此,本技术旨在不仅考虑存在直接连接关系骨骼关键点之间的信息传递,而且考虑其余不存在直接连接关系骨骼关键点之间的信息传递,进而解决在基于深度学习神经网络进行动作识别时,特征表达能力有限的问题。
87.其中,样本集可对应为现有的公开数据集,如ntu

rgb d骨骼点数据集、neu

family数据集,ntu

rgb d数据集中单个视频帧的骨骼关键点为25个,因此人体骨架图共有3个25
×
25的邻接矩阵;neu

family数据集中单个视频帧的骨骼关键点为17个,因此人体骨架图共有3个17
×
17的邻接矩阵。在本技术下述实施例中,以ntu

rgb d骨骼点数据集中包含的25骨骼点为例进行说明。在样本集中每个骨骼点样本均标注一个动作类别,进而可为动作识别模型的模型训练提供训练基础;骨骼点信息对应人体骨骼点坐标(x,y),骨骼连接信息为利用存在连接关系的骨骼点坐标确定出的连接矢量,假设一个骨骼点的坐标为(x1,y1),另一个骨骼点的坐标为(x2,y2),骨骼连接信息可以用矢量(x2‑
x1,y2‑
y1)表示。
88.对于本实施例,在构建样本集中每帧骨骼点对应人体的物理连接结构,并从物理连接结构中提取骨骼点信息和骨骼连接信息时,可通过对样本集每帧骨骼点进行预先定义,表示成人体的物理连接结构,相应的,具体可以包括:将样本集中样本的通道数、骨骼点数目、视频帧数分别用符号c、v、t表示;用一个数组表示ntu

rgb d骨骼数据集中每帧25个骨骼点之间的连接关系,利用存在连接关系的骨骼点确定骨骼连接信息;使用符号g(k,e)将样本中人体骨骼点表示为无向的空间人体骨架图和时间人体骨架图;将空间人体骨架图中骨骼点的邻居集合划分为3个骨骼点集合,表示人体物理结构的3个子集,得到骨骼点信息。
89.对于本实施例的执行主体可为图卷积动作识别系统,在图卷积动作识别系统中可嵌套配置有训练完成的动作识别模型,利用动作识别模型可基于骨骼点信息和骨骼连接信息实现对目标样本的动作识别。
90.102、利用骨骼点信息和骨骼连接信息的融合特征训练动作识别模型,动作识别模型是利用图卷积神经网络和时间卷积网络交替并集形成的,图卷积神经网络用于提取空间特征,时间卷积网络用于提取时间特征。
91.其中,融合特征是将骨骼点信息和骨骼连接信息利用加权平均的方法进行融合得到的。
92.对于本实施例,可对动作识别模型中的空间图卷积网络结构和时间卷积网络结构进行改良,将图卷积神经网络和时间卷积网络前后级联,通过交替使用的方式集成到一个神经网络层,使该层扩展到9层,组成动作识别网络,进而利用动作识别网络训练生成动作识别模型。通过利用改良后的动作识别网络训练动作识别模型,可进一步扩大空间域和时间域的感受野,能够提取更多信息,提高模型动作识别的训练精度。此外,动作识别神经网络每层的结构除了级联交替使用的图卷积层和时间卷积层外,还有batch normalization
层、relu非线性激活层。输入首先经过图卷积层提取样本骨骼关键点序列中每一帧的空间特征;接着使用batch normalization批标准化使每一层神经网络的输入保持相同分布,网络得以稳定训练;然后经过relu函数和droupout策略分别对数据进行非线性激活和防止网络过拟合;最后再经过时间卷积层提取样本骨骼关键点序列中连续帧的时间特征,再使用relu函数进行非线性激活。另外神经网络的输入和输出参考resnet中的残差块结构,前后进行残差连接,使网络训练更加稳定。
93.103、若判定动作识别模型训练完成,则将目标样本中各帧的物理连接结构信息输入动作识别模型,获取动作识别结果。
94.对于本实施例,若判定动作识别模型的动作识别精度大于预设阈值,则可判定动作识别模型训练完成;动作识别结果为目标样本对应的动作种类划分。进一步的,在判定动作识别模型完成训练后,动作识别模型即可投入对未知压缩视频的动作识别,即通过将目标样本中各帧的物理连接结构信息输入动作识别模型,动作识别模型则会根据目标样本的融合特征,确定出目标样本对应所属的动作分类。
95.通过本实施例中基于2s

agcn的图卷积动作识别方法,可基于骨骼点信息和骨骼连接信息训练由图卷积神经网络和时间卷积网络交替并集形成的动作识别模型,并利用训练完成的动作识别模型对目标样本进行动作识别,获取动作识别结果。通过本技术中的技术方案,在考虑骨骼连接信息的同时,还考虑了断开骨骼点之间的信息传递,并且改良了动作识别模型中的空间图卷积网络结构和时间卷积网络结构,扩大空间域和时间域的感受野,能够提取更多信息,提高模型动作识别的训练精度。
96.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于2s

agcn的图卷积动作识别方法,如图2所示,该方法包括:
97.201、将样本集中样本的通道数、骨骼点数目、视频帧数分别用符号c、v、t表示。
98.对于本实施例,通道数c的初始值为3,分别为骨骼点的横坐标、纵坐标和坐标的置信度;神经网络训练和测试时的batch size用符号n表示;ntu

rgb d骨骼数据集中每帧有25个骨骼点,将骨骼点数目v设置为25。在动作识别神经网络进行训练时,batch的大小和骨骼点数目v是定值,数值前后是固定不变,而通道数c和视频帧数t随着神经网络层数的增加数值会发生变化。
99.202、根据预先定义的骨骼点数字索引,创建用于表示人体物理结构连接的数组,数组内的元素由两个存在连接关系的骨骼点组成,利用存在连接关系的骨骼点确定骨骼连接信息。
100.对于本实施例,数组内的元素由两个存在连接关系的骨骼点组成,如[(1,2),(2,21),(3,21),(4,3),(5,21),(6,5),(7,6),(8,7),(9,21),(10,9),(11,10),(12,11),(13,1),(14,13),(15,14),(16,15),(17,1),(18,17),(19,18),(20,19),(22,23),(23,8),(24,25),(25,12)],其中每个数字索引代表一个骨骼点,由ntu

rgb d骨骼点数据集预先定义。
[0101]
203、利用符号g(k,e)将样本中人体骨骼点表示为无向的空间人体骨架图和时间人体骨架图。
[0102]
其中,k表示第t帧的骨骼点集合,k={k
ti
|t=1,2,

t;i=1,2,

v};e表示骨骼点之间连接的边集合,有e
s
和e
t
两个子集,分别为提取空间特征和时间特征时需要用到的空间
图和时间图,e
s
为第t帧骨骼点间具有连接关系的边集合,表示单个样本所有视频帧中的骨骼关键点连接,e
t
为第t帧与第t 1帧中同一个骨骼点之间的边集合,表示某个骨骼点随时间变化的轨迹。
[0103]
204、将空间人体骨架图中的骨骼点划分为表示人体物理结构的3个骨骼点集合,得到骨骼点信息。
[0104]
对于本实施例,实施例步骤204具体可以包括:根据样本集中骨骼点的坐标计算人体重心坐标;根据人体重心坐标将人体空间骨架图中的骨骼点划分为骨骼点本身构建的第一骨骼点集合、与骨骼点具有连接关系且距离重心坐标小于或等于预设距离阈值的第二骨骼点集合、与骨骼点具有连接关系且距离重心坐标大于预设距离阈值的第三骨骼点集合。
[0105]
具体的,可首先根据重心公式求得重心坐标,重心公式的特征描述为:
[0106][0107]
其中,x

、y

分别为重心点位置的横坐标和纵坐标,x1、x2…
x
25
分别为人体25个骨骼点的横坐标,y1、y2…
y
25
分别为人体25个骨骼点的纵坐标。
[0108]
进一步的,可根据人体重心坐标将人体空间骨架图中的骨骼点划分为骨骼点本身构建的第一骨骼点集合、与骨骼点具有连接关系且距离重心坐标小于或等于预设距离阈值的第二骨骼点集合、与骨骼点具有连接关系且距离重心坐标大于预设距离阈值的第三骨骼点集合。
[0109]
其中,第一骨骼点集合为该骨骼点本身,用一个尺寸为25
×
25,主对角线元素全部为1的邻接矩阵a1表示:
[0110][0111]
第二骨骼点集合为向心骨骼点集合,即与该骨骼点具有连接关系并且距离重心近的骨骼点集合,用一个尺寸为25
×
25的邻接矩阵a2表示:
[0112][0113]
第三骨骼点集合为离心骨骼点集合,即与该骨骼点具有连接关系并且距离重心远的骨骼点集合,用一个尺寸为25
×
25的归一化邻接矩阵a3表示:
[0114][0115]
在本实施例中,将a1、a2和a3这3个邻接矩阵统一用符号a
k
表示。
[0116]
作为一种优选方式,对于本实施例,为了提高动作识别模型的精度,还可对动作识别模型中的空间图卷积网络结构和时间卷积网络结构进行改良,进一步扩大空间域和时间域的感受野,使其能够提取更多信息。相应的,实施例步骤具体可以包括:构建可以提取样本空间特征的图卷积神经网络层,将标准的二维卷积改进为图卷积;构建可以提取样本时间特征的时间卷积神经网络层,将标准的二维卷积改进为时间卷积;构建动作识别神经网络层,将图卷积神经网络层和时间卷积神经网络层嵌入其中;利用动作识别神经网络层生成9层的动作识别模型。在完成动作识别模型的改良构建后,可进一步执行实施例步骤205,利用骨骼点信息和骨骼连接信息的融合特征对动作识别模型进行训练。
[0117]
其中,在构建可以提取样本空间特征的图卷积神经网络层,将标准的二维卷积改进为图卷积时,鉴于在图卷积神经网络中,特征图是一个c
×
t
×
v的张量,c为通道数,t为帧数,v为骨骼关键点数。为了在神经网络上实施图卷积,可将二维卷积公式更改,添加断开骨骼关键点邻接矩阵,进一步转化为:
[0118]
[0119]
其中w
k
为权重向量,k
v
=3,表示人体空间骨架图中骨骼点邻居集有3个子集;a
k
为v
×
v的邻接矩阵,表示人体物理结构;b
k
也是v
×
v的邻接矩阵,但与a
k
不同的是,b
k
可在网络训练过程中参数不断被更新。c
k
为v
×
v的矩阵,与a
k
不同的是,c
k
表示的是没有连接的固定骨架图,并且有一个随网络进行训练的参数β对c
k
进行限制,β初始值为0。d
k
是2s

agcn中用来确定两个骨骼关键点之间是否存在连接以及连接强度的v
×
v的邻接矩阵。
[0120]
图卷积层输入的特征图尺寸为c
×
t
×
v,然后分别经过1
×
1的卷积改变通道数量,将卷积提取到的特征相乘提取两者的相似性,接着经过softmax函数后进行归一化,得到矩阵d
k
;受到non

local模块的启发,再与另外一个分支的1
×
1的卷积后提取的特征相乘,再经过一次1
×
1的卷积后将特征图重新转换为c
×
t
×
v的大小;另外矩阵c
k
和a
k
、b
k
以及d
k
相加后与输入相乘,其中a
k
表示定义人体物理结构定的邻接矩阵,对于所有卷积层和所有样本都是一样的,b
k
是一个随网络训练不断更新的矩阵,c
k
是断开的人体骨骼关键点邻接矩阵。接着同样进行1
×
1的卷积操作,将特征图转换为c
×
t
×
v的大小。两个分支加在一起即为最终的图卷积模块的输出。借鉴resnet残差块结构,将1
×
1的卷积与输入和输出进行前后连接用来稳定训练。
[0121]
相应的,神经网络层中时间卷积模块的作用是提取相邻视频帧之间骨骼关键点的时间特征。时间卷积模块只需要利用图像中的二维卷积就可以实现。鉴于仅仅使用9
×
1的时间卷积提取的时间特征有限,往往会忽略其它不同时间范围对时间卷积带来的影响,故本技术可基于resnext提出一种多尺度时间空洞卷积网络,可以作为时间卷积模块,即插即用在图卷积动作识别网络中。具体的,经过图卷积提取的特征首先分别送入4个1
×
1的卷积层,提升特征图的维度,输出通道数目为最终输出通道数目的1/8;然后分别送入4个膨胀率分别为1、2、3、4的3
×
1的空洞卷积层,利用不同感受野的空洞卷积提取不同尺度的时间特征,前后的输入通道和输出通道数目相同,均为最终输出通道数目的1/8;接着将4组时间特征进行拼接,输出的通道数目为最终输出通道数目的1/2;然后再用一个1
×
1的卷积层将特征图升维,输出的通道数目与最终输出通道数目相同;最后的senet层用来提升时间卷积层的通道注意力。另外借鉴resnet的shortcut结构,输入和输出之间添加一个步长为2的1
×
1卷积层稳定训练。相应的,实施例步骤具体可以包括:将标准二维卷积需要的3个参数通道数、图像宽和图像高分别替换为参数c、t和v;将图卷积神经网络层提取的特征分别输入4个1
×
1的第一卷积层,以提升特征图维度,使本层输出通道数目为时间卷积神经网络层最终输出通道数目的1/8;将第一卷积层的输出特征分别输入4个膨胀率分别为1、2、3、4的3
×
1的空洞卷积层,以利用不同感受野的空洞卷积提取不同尺度的时间特征,空洞卷积层前后的输入通道和输出通道数目相同,为时间卷积神经网络层最终输出通道数目的1/8;将4组时间特征进行两两拼接,以使输出的通道数目为时间卷积神经网络层最终输出通道数目的1/2;将两两拼接结果输入一个1
×
1的第二卷积层,以提升特征图维度,使输出的通道数目与时间卷积神经网络层最终输出通道数目相同;将第二卷积层的输出结果输入senet层用来提升时间卷积神经网络层的通道注意力;时间卷积神经网络层的之间设置有步长为2的1
×
1第三卷积层,第三卷积层用于稳定训练。
[0122]
其中,在构建动作识别神经网络层,将图卷积神经网络层和时间卷积神经网络层嵌入其中时,具体可以包括:利用图卷积神经网络层提取样本骨骼点序列中每一帧的空间特征;利用批标准化batch normalization使每一层神经网络的输入保持相同分布,以使网
络得以稳定训练;利用relu函数和droupout分别进行非线性激活和防止网络过拟合;利用时间卷积神经网络层提取样本骨骼点序列中连续帧的时间特征;动作识别神经网络层的输入和输出前后进行残差连接,以使网络训练更加稳定。
[0123]
其中,在利用动作识别神经网络层生成9层的动作识别模型时,具体可以包括:输入首先需要经过归一化处理以消除数据不同量纲的影响;经过9层动作识别神经网络层提取空间特征和时间特征,前3层有64个输出通道,中间3层有128个输出通道,最后3层有256个输出通道;第1、2、3、5、6、8、9层的步长设置为1,为了减少计算,在第4层和第7层时,将步长由1增加至2;对提取到的特征进行池化,提取主要特征。
[0124]
205、利用骨骼点信息和骨骼连接信息的融合特征训练动作识别模型。
[0125]
对于本实施例,对于本实施例,在将融合特征依次输入动作识别模型中的全连接层和softmax层后,会得到各个动作类别的类别分数,对应类别分数最高的动作类别即为动作识别模型的预测识别结果,通过将预测识别结果与样本压缩视频对应的标记动作类别进行匹配,即可计算得到预测结果的准确度,进而利用该准确度即可判定动作识别模型的训练进程。相应的,实施例步骤205具体可以包括:将骨骼点信息和骨骼连接信息利用加权平均的方法进行融合,得到融合特征;将融合特征依次输入动作识别模型中的全连接层和softmax层,获取动作类别预测结果,融合特征中携带有动作类别标注结果;若依据动作类别标注结果确定类别预测结果的准确度大于预设阈值,则判定动作识别模型训练完成。
[0126]
相应的,在将骨骼点信息和骨骼连接信息利用加权平均的方法进行融合,得到融合特征时,实施例步骤具体可以包括:基于预设权重配比,计算骨骼点信息和骨骼连接信息对应的加权平均值;将加权平均值确定为融合特征。其中,预设权重配比可根据实际应用场景进行设定,骨骼点信息和骨骼连接信息对应的预设权重可均为50%。此外,还可结合实际应用场景,为骨骼点信息和骨骼连接信息分别配置不同的预设权重,如将骨骼点信息对应的预设权重设置为40%,将骨骼连接信息对应的预设权重设置为60%。
[0127]
对于本实施例,在进行动作识别模型的训练时,2s

agcn提出了一种专门应用在基于人体骨骼关键点的图卷积动作识别神经网络中的双流策略,分别利用人体骨骼关键点和人体骨骼两种不同的输入训练动作识别神经网络,然后各自经过softmax分类器计算得出的分数相加得到融合后的分数,分数最高的类别为动作识别算法判断的动作类别。可参见如图3所示的基于2s

agcn的图卷积动作识别的原理流程示意图,分支1的输入是数据集中样本的人体骨骼点坐标(x,y),即骨骼点信息;分支2的输入由两个具有连接关系的骨骼点确定的骨骼连接信息,假设一个骨骼点的坐标为(x1,y1),另一个骨骼点的坐标为(x2,y2),骨骼连接信息可以用矢量(x2‑
x1,y2‑
y1)表示;可基于构建的9层动作识别网络提取两者特征,之后再进行融合,得到融合特征;进一步将融合后的结果依次送入全连接层和softmax层输出类别分数,分数最高的动作类别即为识别的动作种类。
[0128]
在对模型进行训练时,由于神经网络过拟合会造成算法泛化能力弱的问题,因此在网络训练之前,需要在网络中使用dropout来防止过拟合现象的发生,提升算法的泛化能力,从而解决算法在达到一定训练周期后,训练集上误差还在降低,在测试集上误差却升高的问题。申请的动作识别网络共有9层,每一层的输出是下一层的输入,所以每一层的参数的更新会导致下一层输入的数据分布发生变化,层层叠加后更高层的神经网络数据分布的变化更大,算法收敛也变得更加困难。为了抑制数据分布变化带来的影响,在动作识别网络
中引入batchnormalization数据归一化策略,统一每一层神经网络输入的量纲,使数据分布相同,从而减少了算法在训练过程中内部协方差的偏移,利于算法收敛,同时加快了训练速度。其中,batch normalization方法的核心思想是将在非线性变换前的激活输入值分布强制变化成均值为0,方差为1的正态分布。batchnormalization方法使得非线性变换函数的输入值落入对输入比较敏感的区域,使得非线性激活函数的梯度保持较大的状态,加快收敛,并以此来避免梯度消失问题。在神经网络训练初始时期,常用一个较大的学习率来对算法进行优化,但如果一直使用较大的学习率,可能会跳过网络的最优解,所以随着迭代次数的增加,需要将学习率进行衰减。故本技术采用的是学习率步长衰减的方法,初始学习率设置为0.1,训练周期设置为50,在网络训练到周期为15、30和40时,将学习率进行步长衰减,每次衰减至之前学习率的十分之一,从而改变梯度下降的方向,加速算法的收敛。
[0129]
此外,作为一种优选方式,由于神经网络训练时需要以大量的数据作为支撑,但是很多数据集的规模往往不能满足神经网络的需求,往往会造成过拟合的现象。另外以应用为导向而设计的神经网络对数据集的要求更高,往往需要神经网络的设计者去专门搜集和拍摄图像或视频建立专门的数据集,因此会消耗大量的人力物力。数据增强策略可以对在不拍摄新数据集的情况下进行扩充,提升算法的泛化能力。数据增强策略有镜像翻转、旋转、放大缩小、裁剪、颜色扰动以及添加噪声等。故本技术中动作识别方法的输入是人体骨骼关键点的横坐标、纵坐标以及坐标置信度,只关注骨骼关键点横坐标和纵坐标发生的变化,不关注原始视频颜色扰动和添加噪声所带来的影响,因此采用的数据增强策略有镜像翻转、放大以及裁剪。其中,镜像翻转是将原始视频水平镜像翻转可以大量扩充数据集。新视频中人体各部位的位置镜像后发生了改变,原视频中人体的左边部位变为新视频中人体的右边部位,各部位的骨骼关键点在视频的横坐标和纵坐标也相应发生了变化;放大是将视频以一定的尺度进行放大,接着将视频裁剪成与原视频相同的长和宽,保证放大前后视频的分辨率相同。经过视频放大后新视频中人体骨骼关键点的横坐标和纵坐标同样会发生变化。裁剪与放大策略中先放大后裁剪的策略不同,裁剪策略是先将视频进行裁剪,然后再将视频放大成为原视频的大小,同样保证裁剪前后视频的分辨率相同。
[0130]
相应的,由于深度学习中损失函数的作用是衡量真实概率分布和预测概率分布之间的差异,损失函数值越小代表两个概率分布之间的差异越小,算法的预测效果越好。在算法训练时也可以结合损失函数曲线和分类准确率曲线判断网络是否过拟合。动作识别任务本质上是对视频中人体目标所做出的动作进行分类,是一个全监督的分类问题,在构建动作识别网络时普遍选择交叉熵(crossentropy)损失函数作为损失函数,交叉熵损失函数的值越小代表算法识别动作的效果越好。
[0131]
交叉熵损失函数的公式是:
[0132]
l(p,q)=

p(x)

log(q(x))
[0133]
其中,p(x)为样本的真实概率分布,q(x)为样本的预测概率分布。
[0134]
神经网络中经过全连接层会输出每个类别的分数,再经过softmax层后每个类别的分数变成总和为1的概率值,然后再与真实类别标签的one

hot编码形式参与交叉熵损失函数的计算。
[0135]
在具体的应用场景中,神经网络的参数更新是一个无约束最优化问题,优化器在神经网络训练时参与网络参数的学习与更新,使网络参数利用反向传播更新与迭代梯度来
逼近最优值,从而达到将交叉熵损失函数数值最小化的目的。常用的优化器有sgd、bgd、momentum、adagrad、rmsprop和adam等。本技术中动作识别神经网络所采用的是sgd优化器,并结合动量策略一起更新网络参数。sgd全称随机梯度下降(stochastic gradient descent),从数据集中随机选择一个样本按照负梯度方向迭代更新神经元的权重,核心公式如下:
[0136][0137]
其中,w
t
表示迭代到第t步后神经元的权重,α表示学习率,表示在反向传播后计算得到的梯度。
[0138]
在本实施例中,可选择ntu

rgb d骨骼点数据集对设计的动作识别神经网络模型进行训练和测试,其中,可参见表1中的剪枝前动作识别算法运算量与准确率对比结果,在x

sub标准下,将2s

agcn的88.5%准确率提升至89.2%,在x

view标准下,将2s

agcn的95.1%准确率提升至96.0%。通过本技术中的技术方向,在原有较高准确率的情况下依然有提升。
[0139]
表1剪枝前动作识别算法运算量与准确率对比结果
[0140]
方法x

sub(%)x

view(%)lie group50.182.8hbrnn59.164.0deep lstm60.767.3temporal conv74.383.1clips cnn mtln79.684.83scale resnet15285.092.3st

gcn81.588.3dprl gcnn83.589.82s

agcn88.595.1ours89.296.0
[0141]
206、若判定动作识别模型训练完成,则将目标样本中各帧的物理连接结构信息输入动作识别模型,获取动作识别结果。
[0142]
对于本实施例,实施步骤206具体可以包括:若判定动作识别模型训练完成,则提取目标样本中每帧由骨骼点信息和骨骼信息融合构成的目标融合特征;将目标融合特征输入训练完成的动作识别模型中,获取各个预设动作类别对应的评定分值;将对应评定分值最高的预设动作类别确定为目标样本中每帧的动作识别结果。其中,动作识别模型共由9层神经网络组成。输入的物理连接结构信息首先需要经过归一化处理以消除数据不同量纲的影响,然后经过9层分别由图卷积模块和时间卷积模块级联交替使用的神经网络分别提取空间特征和时间特征。神经网络前3层有64个输出通道,中间3层有128个输出通道,最后3层有256个输出通道。另外第1、2、3、5、6、8、9层的步长设置为1,为了减少计算,在第4层和第7层时,将步长由1增加至2。接着对提取到的特征进行池化,降低特征维度,最后依次送入全连接层和softmax分类器中输出每个动作识别的概率值,概率值最高的动作类别即为动作识别网络预测的动作类别。
[0143]
通过上述基于2s

agcn的图卷积动作识别方法,可基于骨骼点信息和骨骼连接信息训练由图卷积神经网络和时间卷积网络交替并集形成的动作识别模型,并利用训练完成的动作识别模型对目标样本进行动作识别,获取动作识别结果。通过本技术中的技术方案,在考虑骨骼连接信息的同时,还考虑了断开骨骼点之间的信息传递,并且改良了动作识别模型中的空间图卷积网络结构和时间卷积网络结构,扩大空间域和时间域的感受野,能够提取更多信息,提高模型动作识别的训练精度。
[0144]
进一步的,作为图1和图2所示方法的具体体现,本技术实施例提供了一种基于2s

agcn的图卷积动作识别装置,如图4所示,该装置包括:提取模块31、训练模块32、获取模块33;
[0145]
提取模块31,可用于构建样本集中每帧骨骼点对应人体的物理连接结构,并从物理连接结构中提取骨骼点信息和骨骼连接信息;
[0146]
训练模块32,可用于利用骨骼点信息和骨骼连接信息的融合特征训练动作识别模型,动作识别模型是利用图卷积神经网络和时间卷积网络交替并集形成的,图卷积神经网络用于提取空间特征,时间卷积网络用于提取时间特征;
[0147]
获取模块33,可用于若判定动作识别模型训练完成,则将目标样本中各帧的物理连接结构信息输入动作识别模型,获取动作识别结果。
[0148]
在具体的应用场景中,提取模块31,具体可用于:将样本集中样本的通道数、骨骼点数目、视频帧数分别用符号c、v、t表示,通道数c的初始值为3,分别为骨骼点的横坐标、纵坐标和坐标的置信度;根据预先定义的骨骼点数字索引,创建用于表示人体物理结构连接的数组,数组内的元素由两个存在连接关系的骨骼点组成,利用存在连接关系的骨骼点确定骨骼连接信息;利用符号g(k,e)将样本中人体骨骼点表示为无向的空间人体骨架图和时间人体骨架图,k表示第t帧图像的骨骼点集合,其中,k={k
ti
|t=1,2,

t;i=1,2,

v};e表示骨骼点之间连接的边集合,有e
s
和e
t
两个子集,e
s
为第t帧骨骼点间具有连接关系的边集合,表示单个样本所有视频帧中的骨骼点连接,e
t
为第t帧与第t 1帧中同一个骨骼点之间的边集合,表示某个骨骼点随时间变化的轨迹;将空间人体骨架图中的骨骼点划分为表示人体物理结构的3个骨骼点集合,得到骨骼点信息。
[0149]
相应的,为了将人体空间骨架图中的骨骼点划分为表示人体物理结构的3个骨骼点集合,得到骨骼点信息,提取模块31,具体可用于:根据样本集中骨骼点的坐标计算人体重心坐标;根据人体重心坐标将人体空间骨架图中的骨骼点划分为骨骼点本身构建的第一骨骼点集合、与骨骼点具有连接关系且距离重心坐标小于或等于预设距离阈值的第二骨骼点集合、与骨骼点具有连接关系且距离重心坐标大于预设距离阈值的第三骨骼点集合。
[0150]
在具体的应用场景中,为了通过改良动作识别模型中的空间图卷积网络结构和时间卷积网络结构,扩大空间域和时间域的感受野,使其能够提取更多信息,提高模型动作识别的训练精度,如图5所示,该装置还包括:第一构建模块34、第二构建模块35、第三构建模块36、生成模块37;
[0151]
第一构建模块34,可用于构建可以提取样本空间特征的图卷积神经网络层,将标准的二维卷积改进为图卷积;
[0152]
第二构建模块35,可用于构建可以提取样本时间特征的时间卷积神经网络层,将标准的二维卷积改进为时间卷积;
[0153]
第三构建模块36,可用于构建动作识别神经网络层,将图卷积神经网络层和时间卷积神经网络层嵌入其中;
[0154]
生成模块37,可用于利用动作识别神经网络层生成9层的动作识别模型。
[0155]
相应的,第二构建模块35,具体可用于将标准二维卷积需要的3个参数通道数、图像宽和图像高分别替换为参数c、t和v;将图卷积神经网络层提取的特征分别输入4个1
×
1的第一卷积层,以提升特征图维度,使本层输出通道数目为时间卷积神经网络层最终输出通道数目的1/8;将第一卷积层的输出特征分别输入4个膨胀率分别为1、2、3、4的3
×
1的空洞卷积层,以利用不同感受野的空洞卷积提取不同尺度的时间特征,空洞卷积层前后的输入通道和输出通道数目相同,为时间卷积神经网络层最终输出通道数目的1/8;将4组时间特征进行两两拼接,以使输出的通道数目为时间卷积神经网络层最终输出通道数目的1/2;将两两拼接结果输入一个1
×
1的第二卷积层,以提升特征图维度,使输出的通道数目与时间卷积神经网络层最终输出通道数目相同;将第二卷积层的输出结果输入senet层用来提升时间卷积神经网络层的通道注意力;时间卷积神经网络层的输入和输出之间设置有步长为2的1
×
1第三卷积层,第三卷积层用于稳定训练。
[0156]
在具体的应用场景中,训练模块32,可用于将骨骼点信息和骨骼连接信息利用加权平均的方法进行融合,得到融合特征;将融合特征依次输入动作识别模型中的全连接层和softmax层,获取动作类别预测结果,融合特征中携带有动作类别标注结果;若依据动作类别标注结果确定类别预测结果的准确度大于预设阈值,则判定动作识别模型训练完成。
[0157]
相应的,获取模块33,具体可用于若判定动作识别模型训练完成,则提取目标样本中每帧由骨骼点信息和骨骼信息融合构成的目标融合特征;将目标融合特征输入训练完成的动作识别模型中,获取各个预设动作类别对应的评定分值;将对应评定分值最高的预设动作类别确定为目标样本中每帧的动作识别结果。
[0158]
需要说明的是,本实施例提供的一种基于2s

agcn的图卷积动作识别装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
[0159]
基于上述如图1和图2所示方法,相应的,本技术实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的基于2s

agcn的图卷积动作识别方法。
[0160]
基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景的方法。
[0161]
基于上述如图1、图2所示的方法,以及图4、图5所示的虚拟装置实施例,为了实现上述目的,本技术实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的基于2s

agcn的图卷积动作识别方法。
[0162]
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radio frequency,rf)电路,传感器、音频电路、wi

fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi

fi接口)等。
[0163]
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0164]
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是无人机的三余度仲裁切换的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
[0165]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本技术的技术方案,与目前现有技术相比,本技术可根据骨骼点样本的通道数、骨骼点数目、视频帧数和预先定义的人体物理连接结构划分为3个子集,然后在构建图卷积层时添加断开骨骼点图,并且所构建的时间卷积层利用4个空洞率不同的卷积核提取更多时间特征,故可有效的解决特征表达能力有限的问题,提高模型训练的准确率。通过本技术中的技术方案,在考虑骨骼连接信息的同时,还考虑了断开骨骼点之间的信息传递,并且改良了动作识别模型中的空间图卷积网络结构和时间卷积网络结构,扩大空间域和时间域的感受野,能够提取更多信息,提高模型动作识别的训练精度,使得动作识别模型更具有特征表达能力。
[0166]
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0167]
上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献