一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

行为识别模型训练方法、识别方法、装置及存储介质与流程

2021-10-23 00:38:00 来源:中国专利 TAG:识别 方法 装置 模型 训练


1.本发明涉及行为识别领域,尤其涉及一种行为识别模型训练方法、识别方法、装置及存储介质。


背景技术:

2.行为识别,作为计算机视觉领域的一个重要分支,主要研究目标是让计算机通过摄像机等采集设备来感知视觉场景中的对象在干什么,可应用于安防监控、无人超市、教育娱乐等多领域,是现代化看护、监控的重要手段之一,极大地提高了设备智能化水平。
3.行为识别具体可分为基于图像视频的行为识别与基于人体骨骼的行为识别。图像视频不仅包含了复杂的背景,还有光照变化、视角变化、人体外貌变化等不确定因素,这使得基于图像视频的行为识别具有一定的局限性。相比基于图像视频的行为识别,基于人体骨骼的行为识别可以很好地克服这些不确定因素的影响。
4.相关技术中,往往基于图卷积网络(graph convolutional network,gcn)对骨骼拓扑图建模,以表达骨骼之间的自然连接关系,但基于图卷积网络的骨骼行为识别方法存在以下缺点:行为特征仅在局部提取,无法完整、准确地表达骨骼行为,影响骨骼行为识别的准确率。


技术实现要素:

5.有鉴于此,本发明实施例提供了一种行为识别模型训练方法、识别方法、装置及存储介质,旨在提高骨骼行为识别的准确率。
6.本发明实施例的技术方案是这样实现的:
7.本发明实施例提供了一种行为识别模型训练方法,包括:
8.基于训练样本集中的骨骼序列生成所述骨骼序列的语义图,所述语义图至少包括:结构语义图,所述结构语义图中根节点对应的邻居节点范围为l跳,l为大于1的自然数;
9.对所述语义图进行图卷积网络(gcn)运算,提取所述骨骼序列对应的特征;
10.基于提取的特征对所述骨骼序列进行行为预测;
11.基于行为预测的识别误差对行为识别模型的模型参数进行调整,得到训练好的行为识别模型。
12.本发明实施例还提供了一种行为识别方法,包括:
13.获取待识别的骨骼序列;
14.利用前述实施例所述方法训练得到的行为识别模型对所述待识别的骨骼序列生成语义图;
15.所述行为识别模型对所述语义图基于gcn进行特征提取;
16.所述行为识别模型基于提取的特征对所述待识别的骨骼序列进行行为预测,确定所述待识别的骨骼序列对应的行为。
17.本发明实施例又提供了一种行为识别模型训练装置,包括:
18.第一语义图生成模块,用于基于训练样本集中的骨骼序列生成所述骨骼序列的语义图,所述语义图至少包括:结构语义图,所述结构语义图中根节点对应的邻居节点范围为l跳,l为大于1的自然数;
19.第一特征提取模块,用于对所述语义图进行gcn运算,提取所述骨骼序列的特征;
20.第一行为预测模块,用于基于提取的特征对所述骨骼序列进行行为预测;
21.模型训练模块,用于基于行为预测的识别误差对行为识别模型的模型参数进行调整,得到训练好的行为识别模型。
22.本发明实施例又提供了一种行为识别装置,包括:
23.获取模块,用于获取待识别的骨骼序列;
24.第二语义图生成模块,用于对所述待识别的骨骼序列生成语义图;
25.第二特征提取模块,用于对所述语义图基于gcn进行特征提取;
26.第二行为预测模块,用于基于提取的特征对所述待识别的骨骼序列进行行为预测,确定所述待识别的骨骼序列对应的行为;
27.其中,所述语义图生成模块及所述行为预测模块基于前述实施例所述行为识别模型训练装置训练得到。
28.本发明实施例还提供了一种行为识别模型训练设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明实施例所述行为识别模型训练方法的步骤。
29.本发明实施例又提供了一种行为识别设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明实施例所述行为识别方法的步骤。
30.本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明实施例所述行为识别模型训练方法的步骤,或者本发明实施例所述行为识别方法的步骤。
31.本发明实施例提供的技术方案,通过对训练样本集中的骨骼序列生成至少包括结构语义图的语义图,且该结构语义图中根节点对应的邻居节点范围大于1跳范围,使得gcn的感受野(receptive field)范围更大,能够提取骨骼序列对应的更为全面的行为特征训练行为识别模型,可以提高基于行为识别模型进行行为识别的准确率。
附图说明
32.图1为本发明实施例行为识别模型训练方法的流程示意图;
33.图2为本发明应用实施例行为识别模型训练方法的流程示意图;
34.图3a至图3c为本发明应用实施例中骨骼序列对应的结构语义图、隐含关系语义图、注意力增强语义图的示意图;
35.图4为本发明应用实施例中gcn运算的结构示意图;
36.图5为本发明实施例行为识别方法的流程示意图;
37.图6为本发明实施例行为识别模型训练装置的结构示意图;
38.图7为本发明实施例行为识别装置的结构示意图;
39.图8为本发明实施例行为识别模型训练设备的结构示意图;
40.图9为本发明实施例行为识别设备的结构示意图。
具体实施方式
41.下面结合附图及实施例对本发明再作进一步详细的描述。
42.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
43.相关技术中,基于gcn对骨骼拓扑图建模,骨骼拓扑图固定,且往往仅提取相邻节点的拓扑关系,导致行为特征仅在局部提取,无法完整、准确地表达骨骼行为,影响骨骼行为识别的准确率。
44.基于此,在本发明的各种实施例中,通过对训练样本集中的骨骼序列生成至少包括结构语义图的语义图,且该结构语义图中根节点对应的邻居节点范围大于1跳范围,使得gcn的感受野范围更大,能够提取骨骼序列对应的更为全面的行为特征来训练行为识别模型,可以提高基于行为识别模型进行行为识别的准确率。
45.本发明实施例提供了一种行为识别模型训练方法,如图1所示,该行为识别模型训练方法包括:
46.步骤101,基于训练样本集中的骨骼序列生成所述骨骼序列的语义图;
47.这里,训练样本集包括至少一个已知行为动作的骨骼序列,该骨骼序列可以为对视频图像帧基于骨骼序列检测算法(比如,openpose)生成的骨骼序列。例如,骨骼序列可以为c
in
×
t
×
n,其中,c
in
表示各骨骼节点的三维坐标,t表示骨骼节点的数量,n表示图像帧的数量。
48.这里,所述语义图至少包括:结构语义图,所述结构语义图中根节点对应的邻居节点范围为l跳,l为大于1的自然数。
49.步骤102,对所述语义图进行gcn运算,提取所述骨骼序列对应的特征;
50.这里,gcn用于对不规则的语义图(semantic map)进行特征提取。比如,骨骼序列以各骨骼节点为节点,骨骼节点之间的骨骼为边,形成人体骨架的拓扑图序列。gcn可以对骨架的拓扑图序列进行特征提取。
51.在一些实施例中,所述对所述语义图进行gcn运算,提取所述骨骼序列对应的特征,包括:
52.对所述结构语义图基于邻居节点范围进行gcn运算,提取所述骨骼序列的结构语义图对应的第一特征。
53.由于结构语义图中根节点的邻居节点范围从1跳范围扩展为多跳范围,可以提高gcn的卷积核(convolution kernel)的感受野范围,从而可以将特征提取范围从局部扩展到全局,进而提高后续行为识别的准确率。
54.在一些实施例中,所述结构语义图中的邻居节点还基于与根节点之间的距离划分子集,所述对所述结构语义图基于邻居节点范围进行gcn运算,包括:
55.对所述结构语义图基于邻居节点范围和邻居节点所处的邻居节点子集进行gcn运算。
56.在一应用示例中,结构语义图对应的gcn运算定义如下:
[0057][0058]
其中,f
stc
为结构语义图对应的提取特征(即第一特征),l为邻居节点范围对应的跳数,l为邻居节点距离根节点的跳数,p为邻居节点所处的邻居节点子集,p∈p,为结构语义图对应的权重函数,为结构语义图对应的邻接矩阵,f
in
为骨骼序列。
[0059]
这里,l可以为大于1的自然数,从而可以将骨骼自然连接图中的根节点的邻居节点从1跳范围内扩展至为多跳范围内,以提高骨骼序列的图卷积核的感受野范围,可以将特征提取范围从局部扩展到全局,从而提高后续行为识别的准确率。
[0060]
在一应用示例中,p=(0,1,2),即将邻居节点分为三个子集。具体地,可以基于各邻居节点与人体骨骼重心之间的第一距离和根节点与人体骨骼重心之间的第二距离来划分,可以分为三个邻居节点子集,分别为:子集0、子集1、子集2,其中,子集0代表根节点本身,即第一距离等于第二距离;子集1代表向心子集,即第一距离小于第二距离;子集2代表离心子集,即第一距离大于第二距离。
[0061]
实际应用中,很多行为动作可以简单分为向心运动与离心运动两大类,通过将邻居节点划分至相应的邻居节点子集,通过差别化的分割方式,可以使得不同邻居节点之间具有区分性,从而可以提高后续行为识别的效率。
[0062]
步骤103,基于提取的特征对所述骨骼序列进行行为预测;
[0063]
在一些实施例中,基于提取的特征对所述骨骼序列进行行为预测,包括:
[0064]
基于第一特征进行行为预测,得到预测结果。
[0065]
比如,可以对骨骼序列的结构语义图提取表征该骨骼序列的时间和空间特性的第一特征,基于该第一特征,对该骨骼序列进行行为预测,得到预测行为的概率。
[0066]
步骤104,基于行为预测的识别误差对行为识别模型的模型参数进行调整,得到训练好的行为识别模型。
[0067]
这里,所述基于行为预测的识别误差对行为识别模型的模型参数进行调整,包括:
[0068]
基于行为预测的预测结果确定行为预测的识别误差;
[0069]
基于行为预测的识别误差,采用反向传播算法对行为识别模型的模型参数进行调整。
[0070]
比如,可以基于第一特征得到预测行为的概率,根据骨骼序列的预测行为的概率以及该骨骼序列对应的真实行为,可以计算行为预测的识别误差,进而基于行为预测的识别误差,采用反向传播算法对行为识别模型的模型参数进行调整。
[0071]
优选地,基于调整后的行为识别模型和所述训练样本集中的骨骼序列,继续进行模型参数的调整,直至满足设定条件,得到训练好的行为识别模型。
[0072]
这里,继续进行模型参数的调整是指,基于调整后的行为识别模型和所述训练样本集中的骨骼序列重复执行上述步骤101至104,直至满足设定条件,得到训练好的行为识别模型。这里,训练样本集中的骨骼序列可以为从训练样本集中随机选取的骨骼序列,还可以为从训练样本集中选取的未参与过训练的骨骼序列。
[0073]
这里,所述满足设定条件,包括:
[0074]
确定行为识别模型的模型参数的调整次数达到设定次数;或者,
[0075]
确定行为预测的识别误差小于或等于预设阈值。
[0076]
这里,可以通过预先设置模型训练的次数,确定行为识别模型的模型参数的调整次数(即训练次数)达到设定次数,则结束迭代,得到训练好的行为识别模型;或者确定行为预测的识别误差小于或等于预设阈值,表明行为识别模型的已训练好,得到训练好的行为识别模型。
[0077]
实际应用中,用于图卷积的拓扑图固定且已根据物理连接点预先定义,忽视了与行为高度相关的隐含节点结构关系。基于此,在一些实施例中,所述语义图还包括:隐含关系语义图,生成所述骨骼序列的隐含关系语义图包括:
[0078]
提取所述骨骼序列的各骨骼节点对应的与行为相关的特征,并确定各骨骼节点本身与行为相关的第一关系值及任意两个骨骼节点对应的与行为相关的特征之间的第二关系值;
[0079]
基于所述第一关系值和所述第二关系值确定所述隐含关系语义图的邻接矩阵,所述隐含关系语义图的邻接矩阵中的对角线上的元素为各骨骼节点对应的第一关系值,其余元素为任意两个骨骼节点对应第二关系值,以表征所述骨骼序列中不同骨骼节点之间与行为相关的隐含连接关系。
[0080]
在一应用示例中,可以使用多层感知机函数提取各骨骼节点对应的与行为相关的特征,并使用归一化函数衡量任意两个骨骼节点的特征之间的第二关系值,以及骨骼节点自身的特征与行为相关的第一关系值,其中,第一关系值越大,表明该骨骼节点与行为相关的关联度越高,第二关系值越大表明两个骨骼节点与行为相关的关联度越高。如此,可以通过隐含关系语义图表征骨骼序列中不同骨骼节点之间与行为相关的隐含连接关系。
[0081]
步骤102对所述语义图进行gcn运算,提取骨骼序列对应的特征,还包括:
[0082]
对所述隐含关系语义图进行gcn运算,提取所述骨骼序列的隐含关系语义图对应的第二特征。
[0083]
这里,由于隐含关系语义图可以表征骨骼序列中不同骨骼节点之间与行为相关的隐含连接关系,与行为的关联度越高的两个骨骼节点的关系值越大,如此,对隐含关系语义图进行gcn运算,提取骨骼序列的隐含语义关系图对应的第二特征,可以挖掘与动作行为高度相关的隐含结构关系,灵活建模关键的、非物理连接结构,从而提高后续行为识别的准确率及识别效率。
[0084]
在一些实施例中,所述隐含关系语义图中的邻居节点还基于与根节点之间的距离划分子集,所述对所述隐含关系语义图进行gcn运算,包括:
[0085]
对所述隐含关系语义图基于邻居节点所处的邻居节点子集进行gcn运算。
[0086]
如此,通过将隐含关系语义图中的邻居节点进行差异化的分割,可以使得不同邻居节点之间具有区分性,从而可以提高后续行为识别的效率。
[0087]
在一应用示例中,隐含关系语义图提取每个骨骼节点的特征,并使用多层感知机对不同骨骼节点间关系建模,以获取骨骼节点间与具体行为相关的隐含连接关系。对应的图邻接矩阵中的元素定义为:
[0088][0089]
其中,θ
(p)
(v
i
)是关于节点v
i
的特征提取函数,f
in
(v
i
)为v
i
的输入,为θ
(p)
函数的权重参数,p为邻居节点所处的邻居节点子集,是关于节点v
j
的特征提取函数,f
in
(v
j
)为v
j
的输入,为函数的权重参数。
[0090]
隐含关系语义图对应的gcn运算定义如下:
[0091][0092]
其中,f
act
为隐含关系语义图对应的提取特征(即第二特征),为隐含关系语义图对应的权重函数,为隐含关系语义图对应的邻接矩阵,f
in
为骨骼序列,p为邻居节点所处的邻居节点子集,p∈p。
[0093]
实际应用中,所有骨骼节点信息不加区分的用于学习计算,没有考虑到关键信息对行为判别的重要性,往往影响行为识别的效率。基于此,在一些实施例中,所述语义图还包括:注意力增强语义图,生成所述骨骼序列的注意力增强语义图包括:
[0094]
确定所述注意力语义图的邻接矩阵,所述注意力增强语义图的邻接矩阵中的对角线上的元素为所述骨骼序列中各骨骼节点的注意力权重值,其余元素为任意两个骨骼节点之间的注意力权重值,以表征所述骨骼序列中各骨骼节点及任意两个骨骼节点之间的连接关系的注意力权重。
[0095]
步骤102对所述语义图进行gcn运算,提取所述骨骼序列对应的特征,还包括:
[0096]
对所述注意力增强语义图进行gcn运算,提取所述骨骼序列的注意力增强语义图对应的第三特征。
[0097]
这里,行为识别模型还可以对骨骼序列生成注意力增强语义图,对注意力增强语义图进行gcn运算,提取对应的第三特征,可以自适应地强化关键信息,从而提高后续行为识别的准确率及效率。
[0098]
在一些实施例中,所述注意力增强语义图中的邻居节点还基于与根节点之间的距离划分子集,所述对所述注意力增强语义图进行gcn运算,包括:
[0099]
对所述注意力增强语义图基于邻居节点所处的邻居节点子集进行gcn运算。
[0100]
如此,通过将注意力增强语义图中的邻居节点进行差异化的分割,可以使得不同邻居节点之间具有区分性,从而可以提高后续行为识别的效率。
[0101]
在一应用示例中,可以针对每个骨骼节点及骨骼节点两两之间的连接关系设计注意力增强语义图,给予不同节点及不同连接关系不同的注意力权重,以提高对关键信息的计算效率。比如,可以使用骨骼自然连接图作为初始值构建注意增强语义图,但注意增强语义图中的参数可为任意值,并随整个语义图卷积网络一起优化迭代,其邻接矩阵可以定义
为:
[0102][0103]
其中,n为骨骼节点的数量,为骨骼节点i的注意力权重值,为骨骼节点j的特征对骨骼节点i的注意力权重值。
[0104]
注意力增强语义图对应的gcn运算定义如下:
[0105][0106]
其中,f
att
为注意力增强语义图对应的提取特征(即第三特征),为注意力增强语义图对应的权重函数,为注意力增强语义图对应的邻接矩阵,f
in
为骨骼序列,p为邻居节点所处的邻居节点子集,p∈p。
[0107]
下面结合应用实施例对本发明再作进一步详细的描述。
[0108]
本应用实施例行为识别模型训练方法中,对骨骼序列构建的语义图包括:结构语义图、隐含关系语义图及注意力增强语义图。基于gcn对骨骼序列对应的上述三种语义图进行特征提取,基于提取的特征对所述骨骼序列进行行为预测,并基于行为预测的识别误差对行为识别模型的模型参数进行调整,基于调整后的行为识别模型和所述训练样本集中的骨骼序列,继续进行模型参数的调整,直至满足设定条件,得到训练好的行为识别模型。
[0109]
如图2所示,本应用实施例行为识别模型训练方法包括:
[0110]
步骤201,对样本训练集中的骨骼序列进行语义图建模。
[0111]
这里,对骨骼序列进行语义图建模包括:构建骨骼序列的结构语义图、隐含关系语义图及注意力增强语义图。
[0112]
如图3a所示,结构语义图中根节点的邻居节点范围从1跳范围扩展为多跳范围,比如,扩展至l跳范围,其中,l为大于1的自然数。邻居节点还基于与根节点之间的距离划分子集。比如,p为邻居节点所处的邻居节点子集,p∈p,p=(0,1,2),即将邻居节点分为三个子集。可以基于各邻居节点与人体骨骼重心之间的第一距离和根节点与人体骨骼重心之间的第二距离来划分,例如如,三个邻居节点子集分别为:子集0、子集1、子集2,其中,子集0代表根节点本身,即第一距离等于第二距离;子集1代表向心子集,即第一距离小于第二距离;子集2代表离心子集,即第一距离大于第二距离。
[0113]
如图3b所示,隐含关系语义图用于表征骨骼序列中不同骨骼节点之间与行为相关的隐含连接关系。可以提取每个骨骼节点的特征,并使用多层感知机对不同骨骼节点间的关系建模,以获得不同骨骼节点之间与具体行为相关的隐含连接关系。对应的邻接矩阵中的元素定义为:
[0114]
[0115]
其中,θ
(p)
(v
i
)是关于节点v
i
的特征提取函数,f
in
(v
i
)为v
i
的输入,为θ
(p)
函数的权重参数,p为邻居节点所处的邻居节点子集,是关于节点v
j
的特征提取函数,f
in
(v
j
)为v
j
的输入,为函数的权重参数。
[0116]
如图3c所示,注意力增强语义图用于表征骨骼序列中各骨骼节点及任意两个骨骼节点之间的连接关系的注意力权重。可以针对每个骨骼节点及骨骼节点两两之间的连接关系设计注意力增强语义图,给予不同节点及不同连接关系不同的注意力权重,以提高对关键信息的计算效率。比如,可以使用骨骼自然连接图作为初始值构建注意增强语义图,但注意增强语义图中的参数可为任意值,并随整个语义图卷积网络一起优化迭代,其邻接矩阵可以定义为:
[0117][0118]
其中,n为骨骼节点的数量,为骨骼节点i的注意力权重值,为骨骼节点j的特征对骨骼节点i的注意力权重值。
[0119]
步骤202,基于gcn对骨骼序列的结构语义图、隐含关系语义图及注意力增强语义图进行特征提取。
[0120]
这里,结构语义图对应的gcn运算定义如下:
[0121][0122]
其中,f
stc
为结构语义图对应的提取特征(即第一特征),l为邻居节点范围对应的跳数,l为邻居节点距离根节点的跳数,p为邻居节点所处的邻居节点子集,p∈p,为结构语义图对应的权重函数,为结构语义图对应的邻接矩阵,f
in
为骨骼序列。
[0123]
这里,隐含关系语义图对应的gcn运算定义如下:
[0124][0125]
其中,f
act
为隐含关系语义图对应的提取特征(即第二特征),为隐含关系语义图对应的权重函数,为隐含关系语义图对应的邻接矩阵,f
in
为骨骼序列,p为邻居节点所处的邻居节点子集,p∈p。
[0126]
这里,注意力增强语义图对应的gcn运算定义如下:
[0127][0128]
其中,f
att
为注意力增强语义图对应的提取特征(即第三特征),为注意力增强语义图对应的权重函数,为注意力增强语义图对应的邻接矩阵,f
in
为骨骼序列,p为邻
居节点所处的邻居节点子集,p∈p。
[0129]
如图4所示,gcn运算可以包括多个堆叠的语义图卷积模块,每个语义图卷积模块包括:空间维度语义图卷积层、时间维度图卷积层、归一化层及激活层。如此,可以对输入的骨骼序列c
in
×
t
×
n通过多次图卷积运算,得到输出特征。
[0130]
这里,输出特征可以定义如下:
[0131]
f
out
=σ(f
stc
,f
act
,f
att
)
[0132]
其中,f
out
为输出特征,即可以表征骨骼序列对应的具有判别性的时间和空间特性的特征,σ为聚合函数。聚合函数可以采用最大值函数、最小值函数或者连接函数等,其中,采用最大值函数或最小值函数,处理简单且数据量小,但容易使得部分特征被强化,部分特征被忽略,不够全面;采用连接函数可以聚合所有的特征,但会增大数据量。
[0133]
实际应用中,还可以引入残差网络进行跳跃连接,来缓解gcn中梯度消失的问题,优化gcn运算。
[0134]
步骤203,基于提取的特征对骨骼序列进行行为预测,得到预测行为的概率。
[0135]
对gcn运算的输出特征进行归一化处理及激活函数操作,得到预测行为的概率。
[0136]
步骤204,基于预测行为的概率及对应的真实行为,确定行为预测的识别误差。
[0137]
这里,可以基于损失函数确定行为预测的识别误差。比如,损失函数可以为:
[0138][0139]
其中,为对应的真实行为,k为用于训练的不同行为的总个数,为将当前输入的骨骼序列预测为第i个行为的概率,l
loss
为行为预测的识别误差。
[0140]
步骤205,基于行为预测的识别误差对行为识别模型的模型参数进行调整。
[0141]
这里,可以根据行为预测的识别误差,采用反向传播算法对行为识别模型的模型参数进行调整,比如采用反向传播算法调整结构语义图对应的权重函数、隐含关系语义图对应的权重函数、注意力增强语义图对应的权重函数、隐含关系语义图对应的邻接矩阵、注意力增强语义图对应的邻接矩阵中的至少一种。
[0142]
步骤206,重复步骤201至步骤205,直至得到训练好的行为识别模型。
[0143]
基于调整后的行为识别模型和所述训练样本集中的骨骼序列重复执行上述步骤101至103,直至满足设定条件,得到训练好的行为识别模型。这里,训练样本集中的骨骼序列可以为从训练样本集中随机选取的骨骼序列。可以通过预先设置模型训练的次数,确定行为识别模型的模型参数的调整次数(即训练次数)达到设定次数,则结束迭代,得到训练好的行为识别模型;或者确定行为预测的识别误差小于或等于预设阈值,表明行为识别模型的已训练好,得到训练好的行为识别模型。
[0144]
本应用实施例行为识别模型训练方法,利用结构语义图扩展gcn的感受野范围,提取全局骨骼结构特征,获取更加完备丰富的表示;利用隐含关系语义图挖掘与动作相关的骨骼节点隐含关系,相较于固定的、预先定义的、物理连接骨骼图,能够提供更加灵活、准确的结构特征表示;利用注意增强语义图自适应的选择重要信息,强化关键的骨骼节点及节点间关系,获取更加鲁棒的表示,从而可以采用丰富、全面的特征训练行为识别模型,利于提高行为识别模型的分类效率及行为预测的准确率。
[0145]
本发明实施例还提供了一种行为识别方法,如图5所示,该方法包括:
[0146]
步骤501,获取待识别的骨骼序列;
[0147]
步骤502,行为识别模型对所述待识别的骨骼序列生成语义图;
[0148]
步骤503,所述行为识别模型对所述语义图基于gcn进行特征提取;
[0149]
步骤504,所述行为识别模型基于提取的特征对所述待识别的骨骼序列进行行为预测,确定所述待识别的骨骼序列对应的行为。
[0150]
这里,待识别的骨骼序列可以为预先采集的骨骼序列,还可以为监控设备等实时检测的人体活动对应的骨骼序列,本发明实施例对此不做具体限定。
[0151]
这里,所述行为识别模型基于前述任一实施例所述的方法训练得到。其中,行为识别模型对待识别的骨骼序列生成的语义图至少包括前述的结构语义图。可以理解的是,对待识别的骨骼序列生成的语义图与行为识别模型训练方法中生成的语义图的类型一致,即行为识别模型可以采用结构语义图或者结构语义图及前述的隐含关系语义图及注意力增强语义图中的至少一种进行训练,训练后的行为识别模型则对待识别的骨骼序列基于结构语义或者结构语义图及前述的隐含关系语义图及注意力增强语义图中的至少一种进行行为预测。
[0152]
这里,行为识别模型对待识别的骨骼序列生成语义图及对所述语义图基于gcn进行特征提取,可以参照前述行为识别模型训练方法实施例,在此不再赘述。
[0153]
行为识别模型基于提取的特征进行行为预测,选择概率最高的预测行为作为待识别骨骼序列的行为,如此,实现了基于骨骼序列的行为识别。由于行为识别模型利用语义图卷积网络,可以高效提取具有判别性的语义空间结构特征及时间动态特征。利用结构语义图扩展卷积感受野范围,提取全局骨骼结构特征,获取更加完备丰富的表示;利用隐含关系语义图挖掘与动作相关的骨骼节点隐含关系,相较于固定的、预先定义的、物理连接骨骼图,是一种更加灵活、准确的表示;利用注意增强语义图自适应的选择重要信息,强化关键的骨骼节点及节点间关系,获取更加鲁棒的表示,从而提高整个行为类别的预测准确度。
[0154]
为了实现本发明实施例的方法,本发明实施例还提供一种行为识别模型训练装置,该行为识别模型训练装置与上述行为识别模型训练方法对应,上述行为识别模型训练方法实施例中的各步骤也完全适用于本行为识别模型训练装置实施例。
[0155]
如图6所示,该行为识别模型训练装置包括:第一语义图生成模块601、第一特征提取模块602、第一行为预测模块603及模型训练模块604。其中,第一语义图构建模块601用于基于训练样本集中的骨骼序列生成所述骨骼序列的语义图;第一特征提取模块602用于对所述语义图进行gcn运算,提取所述骨骼序列对应的特征;第一行为预测模块603用于基于提取的特征对所述骨骼序列进行行为预测;模型训练模块604用于基于行为预测的识别误差对行为识别模型的模型参数进行调整,得到训练好的行为识别模型。
[0156]
这里,语义图至少包括:结构语义图,所述结构语义图中根节点对应的邻居节点范围为l跳,l为大于1的自然数,第一特征提取模块602具体用于:
[0157]
对所述结构语义图基于邻居节点范围进行gcn运算,提取所述骨骼序列对应的第一特征。
[0158]
在一些实施例中,所述结构语义图中的邻居节点还基于与根节点之间的距离划分子集,第一特征提取模块602具体用于:
[0159]
对所述结构语义图基于邻居节点范围和邻居节点所处的邻居节点子集进行gcn运算。
[0160]
在一些实施例中,所述语义图还包括:隐含关系语义图,第一语义图生成模块601还用于:
[0161]
提取所述骨骼序列的各骨骼节点对应的与行为相关的特征,并确定各骨骼节点本身与行为相关的第一关系值及任意两个骨骼节点对应的与行为相关的特征之间的第二关系值;
[0162]
基于所述第一关系值和所述第二关系值确定所述隐含关系语义图的邻接矩阵,所述隐含关系语义图的邻接矩阵中的对角线上的元素为各骨骼节点对应的第一关系值,其余元素为任意两个骨骼节点征之间的第二关系值,以表征所述骨骼序列中不同骨骼节点之间与行为相关的隐含连接关系。
[0163]
第一特征提取模块602具体用于:
[0164]
对所述隐含关系语义图进行gcn运算,提取所述骨骼序列对应的第二特征。
[0165]
在一些实施例中,所述隐含关系语义图中的邻居节点还基于与根节点之间的距离划分子集,第一特征提取模块602具体用于:
[0166]
对所述隐含关系语义图基于邻居节点所处的邻居节点子集进行gcn运算。
[0167]
在一些实施例中,所述语义图还包括:注意力增强语义图,第一语义图生成模块601还用于:
[0168]
确定所述注意力语义图的邻接矩阵,所述注意力增强语义图的邻接矩阵中的对角线上的元素为所述骨骼序列中各骨骼节点的注意力权重值,其余元素为任意两个骨骼节点之间的注意力权重值,以表征所述骨骼序列中各骨骼节点及任意两个骨骼节点之间的连接关系的注意力权重。
[0169]
第一特征提取模块602具体用于:
[0170]
对所述注意力增强语义图进行gcn运算,提取所述骨骼序列对应的第三特征。
[0171]
在一些实施例中,所述注意力增强语义图中的邻居节点还基于与根节点之间的距离划分子集,第一特征提取模块602具体用于:
[0172]
对所述注意力增强语义图基于邻居节点所处的邻居节点子集进行gcn运算。
[0173]
在一些实施例中,模型训练模块604具体用于:
[0174]
基于行为预测的预测结果确定行为预测的识别误差;
[0175]
基于行为预测的识别误差,采用反向传播算法对行为识别模型的模型参数进行调整。
[0176]
在一些实施例中,模型训练模块604还用于:
[0177]
基于调整后的行为识别模型和所述训练样本集中的骨骼序列,继续进行模型参数的调整;
[0178]
确定行为识别模型的模型参数的调整次数达到设定次数,或者确定行为预测的识别误差小于或等于预设阈值;
[0179]
结束对行为识别模型的模型参数的调整,得到训练好的行为识别模型。
[0180]
实际应用时,第一语义图生成模块601、第一特征提取模块602、第一行为预测模块603及模型训练模块604,可以由行为识别模型训练装置中的处理器来实现。当然,处理器需
要运行存储器中的计算机程序来实现它的功能。
[0181]
需要说明的是:上述实施例提供的行为识别模型训练装置在进行行为识别模型训练时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的行为识别模型训练装置与行为识别模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0182]
为了实现本发明实施例的方法,本发明实施例还提供一种行为识别装置,该行为识别装置与上述行为识别方法对应,上述行为识别方法实施例中的各步骤也完全适用于本行为识别装置实施例。
[0183]
如图7所示,该行为识别装置包括:获取模块701、第二语义图生成模块702、第二特征提取模块703及第二行为预测模块704。其中,获取模块701用于获取待识别的骨骼序列;第二语义图生成模块702用于对所述待识别的骨骼序列生成语义图;第二行为预测模块703用于对所述语义图基于gcn进行特征提取,第二行为预测模块704用于基于提取的特征对所述待识别的骨骼序列进行行为预测,确定所述待识别的骨骼序列对应的行为。
[0184]
这里,第二语义图生成模块702、第二特征提取模块703及第二行为预测模块704基于前述实施例的行为识别模型训练装置训练得到。其中,第二语义图生成模块702对应训练后的第一语义图生成模块601、第二特征提取模块703对应训练后的第一特征提取模块602、第二行为预测模块704对应训练后的第一行为预测模块603。
[0185]
实际应用时,获取模块701、第二语义图生成模块702、第二特征提取模块703及第二行为预测模块704,可以由行为识别装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
[0186]
需要说明的是:上述实施例提供的行为识别装置在进行行为识别时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的行为识别装置与行为识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0187]
基于上述程序模块的硬件实现,且为了实现本发明实施例的行为识别模型训练方法,本发明实施例还提供一种行为识别模型训练设备。图8仅仅示出了该行为识别模型训练设备的示例性结构而非全部结构,根据需要可以实施图8示出的部分结构或全部结构。
[0188]
如图8所示,本发明实施例提供的行为识别模型训练设备800包括:至少一个处理器801、存储器802、用户接口803和至少一个网络接口804。行为识别模型训练设备800中的各个组件通过总线系统805耦合在一起。可以理解,总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统805。
[0189]
其中,用户接口803可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
[0190]
本发明实施例中的存储器802用于存储各种类型的数据以支持行为识别模型训练设备的操作。这些数据的示例包括:用于在行为识别模型训练设备上操作的任何计算机程序。
[0191]
本发明实施例揭示的行为识别模型训练方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,行为识别模型训练方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成本发明实施例提供的行为识别模型训练方法的步骤。
[0192]
在示例性实施例中,行为识别模型训练设备可以被一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、fpga、通用处理器、控制器、微控制器(mcu,micro controller unit)、微处理器(microprocessor)、或者其他电子元件实现,用于执行前述方法。
[0193]
基于上述程序模块的硬件实现,且为了实现本发明实施例的行为识别方法,本发明实施例还提供一种行为识别设备。图9仅仅示出了该行为识别设备的示例性结构而非全部结构,根据需要可以实施图9示出的部分结构或全部结构。
[0194]
如图9所示,本发明实施例提供的行为识别设备900包括:至少一个处理器901、存储器902、用户接口903和至少一个网络接口904。行为识别设备900中的各个组件通过总线系统905耦合在一起。可以理解,总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统905。
[0195]
其中,用户接口903可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
[0196]
本发明实施例中的存储器902用于存储各种类型的数据以支持行为识别设备的操作。这些数据的示例包括:用于在行为识别设备上操作的任何计算机程序。
[0197]
本发明实施例揭示的行为识别模型训练方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,行为识别模型训练方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器901可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成本发明实施例提供的行为识别模型训练方法的步骤。
[0198]
在示例性实施例中,行为识别设备可以被一个或多个asic、dsp、pld、cpld、fpga、通用处理器、控制器、mcu、microprocessor、或其他电子元件实现,用于执行前述方法。
[0199]
可以理解,存储器802、902可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
[0200]
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器802,上述计算机程序可由行为识别模型训练设备的处理器801执行,以完成本发明实施例行为识别模型训练方法所述的步骤。又如,包括存储计算机程序的存储器902,上述计算机程序可由行为识别设备的处理器901执行,以完成本发明实施例行为识别方法所述的步骤。计算机可读存储介质可以是rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
[0201]
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0202]
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
[0203]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜