一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于图网络的双人互动行为识别方法、装置、设备及介质与流程

2022-11-19 10:25:37 来源:中国专利 TAG:


1.本发明涉及计算机视觉技术领域,更具体地说是基于图网络的双人互动行为识别方法、装置、设备及介质。


背景技术:

2.随着社会快速发展,人体行为预测是目前工业界和学界的一个研究热点和难点,其在实际生活中有重要应用价值。针对人体行为预测目前有以下几种方式:
3.第一种是首先对采集的可见光图像及红外图像进行图像处理得到跟踪目标区域,接着检测待跟踪目标区域是否包括行人,当包含行人的时候对行人进行跟踪,并在跟踪的过程中检测行人边缘以从待跟踪目标区域获得行人待识别区域,将行人待识别区域输入到识别模型得到行人行为识别结果。该专利基于红外的方式对目标进行跟踪,设备需要额外的花费,且基于传统的方向梯度直方图的方式对图像进行特征提取来判断行人目标,受光照影响严重,效果较差,且该方法仅仅基于人物外观轮廓进行行为识别忽略了空间时间融合信息,识别效果较差。
4.第二种是通过运用多任务深度学习的方法训练3d卷积神经网络,将多种人体行为属性以背景视频的固定连续帧数的帧快作为网络的输入,经过3d卷积神经网络训练后完成识别任务。该方法仅仅对固定位置的人体行为进行识别,且仅针对单个人进行行为识别,有很大的局限性。此外,基于3d卷积进行行为识别,模型效率较低,训练的模型容易受背景因素的影响严重,导致识别效果差。
5.第三种是通过获取视频片段,对视频片段中的图像帧序列进行特征提取以及降维处理,然后对降维后的特征向量进行编码,将降维特征向量进行扩充,得到预设个数的扩充特征向量。将扩充特征向量和所述编码特征向量输入到三层单层解码器进行解码,再将最后一层解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值。再将预测值输入至逻辑回归网络得到对应的预测概率,选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。该方法先采取空间信息,接着再通过不同时间段的空间特征进行时间特征的提取,很容易在时间特征提取的过程中丢失空间信息,很难做到空间特征与时间特征的融合,因此动作识别的准确度会被降低。


技术实现要素:

6.本发明的目的在于克服现有技术的不足,提供基于图网络的双人互动行为识别方法、装置、设备及介质。
7.为实现上述目的,本发明采用以下技术方案:
8.第一方面,基于图网络的双人互动行为识别方法,包括:
9.获取检测区域内的图像数据;
10.对图像数据进行切帧处理,以得到多帧静态图片;
11.将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到
人体行为识别结果。
12.其进一步技术方案为:所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到人体行为识别结果,包括:
13.将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像;
14.将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,所述图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同。
15.其进一步技术方案为:所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像,包括:
16.将多帧静态图片以图片序列的形式输入至跟踪模型,以检测出不同的人体目标框;
17.对人体目标框进行裁剪,以得到带有id索引的人物图像。
18.其进一步技术方案为:所述将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,所述图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同,包括:
19.将带有id索引的人物图像输入到openpose模型中进行骨骼关键点检测,以得到每个人物的骨骼关键点信息;
20.将人物的骨骼关键点信息输入两个动态分支网络进行处理,以得到第一动态特征数据和第二动态特征数据;
21.将人物的骨骼关键点信息输入静态分支网络进行处理,以得到静态特征数据;
22.将第一动态特征数据、第二动态特征数据和静态特征数据分别通过全连接层处理,以得到第一处理特征、第二处理特征和第三处理特征;
23.将第一处理特征、第二处理特征和第三处理特征进行concate处理,以得到融合特征;
24.将融合特征经过cbam注意力机制模型处理得到的结果输入到softmax进行分类,以得到人体行为识别结果。
25.其进一步技术方案为:所述将人物的骨骼关键点信息输入两个动态分支网络进行处理,以得到第一动态特征数据和第二动态特征数据,包括:
26.根据人物的骨骼关键点信息进行图的构建;
27.对构建的图中的每个骨骼关键点进行特征变换,以得到第一变换特征组和第二变换特征组;
28.根据空间维度上人物的骨骼节点的连接关系以及时间维度上相同骨骼节点的变化关系创建第一图特征和第二图特征;
29.将第一变换特征组、第二变换特征组、第一图特征和第二图特征分别输入到两个动态分支网络的时空卷积模块进行特征提取和更新,以得到第一空间维度节点图和第二空间维度节点图;
30.对两个动态分支网络中的人物的骨骼节点进行多次卷积处理,以得到第一时间维度节点图和第二时间维度节点图;
31.将第一空间维度节点图、第二空间维度节点图、第一时间维度节点图和第二时间维度节点图进行特征融合相加处理,以得到第一动态特征数据和第二动态特征数据。
32.其进一步技术方案为:所述将人物的骨骼关键点信息输入静态分支网络进行处理,以得到静态特征数据,包括:
33.对图像数据进行抽帧处理,以得到首帧数据、中间帧数据和尾帧数据;
34.将首帧数据、中间帧数据和尾帧数据进行拼接,以得到帧序列;
35.将帧序列输入到openpose模型中处理,以得到双人中两个单人的骨骼关键点信息;
36.根据空间维度基于两个单人的骨骼关键点信息创建出第一单图特征和第二单图特征;
37.将第一单图特征和第二单图特征进行节点连接,以生成包含双人关键点信息的图;
38.根据双人关键点信息的图进行静态特征提取和残差信息提取,以得到静态特征数据。
39.第二方面,基于图网络的双人互动行为识别装置,包括:
40.获取单元,用于获取检测区域内的图像数据;
41.切帧处理单元,对图像数据进行切帧处理,以得到多帧静态图片;
42.识别单元,用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到人体行为识别结果。
43.其进一步技术方案为:所述识别单元包括:
44.第一处理模块,用于将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像;
45.第二处理模块,用于将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,所述图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同。
46.第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于图网络的双人互动行为识别方法步骤。
47.第四方面,一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的基于图网络的双人互动行为识别方法步骤。
48.本发明与现有技术相比的有益效果是:本发明基于静态及动态多分支图卷积神经网络进行双人互动行为检测,融合cbam注意力机制的特点,加强模型对人体局部关节在空间及时间维度上的运动表征敏感度,提升了人体行为预测模型整体双人行为预测准确率。该人体行为预测模型同时考虑单人画面和双人画面的特征,在不丢失互动信息的情况下,对单人动作进行更加深入的时间维度特征提取,有效的进行实时预测。
49.该人体行为预测模型不采用先空间再时间的特征提取方法,而是并行的同时提取时空特征,有效避免了空间信息容易丢失的问题,确保了空间特征与时间特征的完整性融合,提高了识别准确度。
50.该人体行为预测模型基于骨骼关键点进行行为识别预测,不受图像中背景等因素的影响,提升了鲁棒性及泛化性。
51.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
52.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.图1为本发明具体实施例提供的基于图网络的双人互动行为识别方法的应用场景示意图;
54.图2为本发明具体实施例提供的基于图网络的双人互动行为识别方法的流程图;
55.图3为本发明具体实施例提供的基于图网络的双人互动行为识别装置的示意性框图;
56.图4为本发明具体实施例提供的一种计算机设备的示意性框图。
具体实施方式
57.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
58.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
59.还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
60.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
61.请参阅图1和图2,图1为本发明实施例提供的基于图网络的双人互动行为识别方法的应用场景示意图;图2为本发明具体实施例提供的基于图网络的双人互动行为识别方法的流程图,该基于图网络的双人互动行为识别方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
62.如图2所示,基于图网络的双人互动行为识别方法,包括以下步骤:s10-s30。
63.s10、获取检测区域内的图像数据。
64.使用监控设备,例如监控摄像头来监控捕获需要检测区域内的视频数据(图像数据)。监控设备采用市面上常见的即可,本技术对此不做限定。
65.s20、对图像数据进行切帧处理,以得到多帧静态图片。
66.对检测出来的图像数据切帧成一帧一帧的rgb静态图片,用作人体行为预测模型的输入数据。
67.s30、将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到人体行为识别结果。
68.在一实施例中,步骤s30具体包括以下步骤:s301-s302。
69.s301、将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像。
70.在本实施例中,跟踪模型采用的bytetrack模型,bytetrack模型使用yolov6模型进行人体目标检测,使得人体目标框的坐标以及人体类别的置信度信息可以被得到,此外,对应的人物id索引信息也可以被得到。需要说明的是,图模型的输入图像是基于跟踪模型检测出的目标框对原图进行裁剪后的带有id的单人图像。
71.在一实施例中,步骤s301具体包括以下步骤:s3011-s3012。
72.s3011、将多帧静态图片以图片序列的形式输入至跟踪模型,以检测出不同的人体目标框。
73.在本实施例中,将得到的多帧静态图片(帧视频流)以图片序列的形式输入至跟踪模型中,可以检测出不同的人体目标框,该目标框通过图片位置坐标(x
min
,y
min
)(x
max
,y
max
),即目标框相对图片左上角坐标以及目标框相对图片右下角坐标来表示坐标的位置。
74.s3012、对人体目标框进行裁剪,以得到带有id索引的人物图像。
75.在本实施例中,根据目标框进行裁剪,裁剪过后将带有独特id的单人图像。
76.s302、将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同。
77.在本实施例中,图模型为multi-branch-gcn,multi-branch-gcn将双人互动行为识别任务分为了静态和动态2个识别分支,
78.静态分支负责双人行为识别,动态分支负责单人行为识别。这样的模式既保留了互动信息,又保证了识别的精确度。multi-branch-gcn主要基于人体骨骼关键点进行行为识别。静态分支主要负责提取双人瞬时画面的空间特征,不考虑时间帧序列上的运动连续变化。而与静态分支只考虑部分时间帧的方法不同,动态分支使用时域卷积网络(temporal convolutionnetwork)对单人完整时间帧序列中的骨骼关键点信息进行了特征提取,在时间维度上保留了完整的运动特征。
79.由于针对双人行为进行识别,所以动态分支由2个小分支组成,一个分支对应一个人。两个分支的网络结构完全相同,对不同的输入进行完全相同的特征提取操作。
80.在一实施例中,步骤s302具体包括以下步骤:s3021-3026。
81.s3021、将带有id索引的人物图像输入到openpose模型中进行骨骼关键点检测,以得到每个人物的骨骼关键点信息。
82.在本实施例中,每个人的骨骼关键点信息,此信息为一个3维矩阵,由2维坐标和1个置信度组成,记作(x,y,acc)。所以每个小分支的输入即来自一帧图像中不同id索引的人物的骨骼关键点信息。针对n帧的视频,输入数据为一个大小为(3,n,18)的3维矩阵,3对应2维骨骼关键点坐标信息和一个置信度信息,n代表视频有n帧,18代表openpose输出的骨骼
关键点有18个。
83.s3022、将人物的骨骼关键点信息输入两个动态分支网络进行处理,以得到第一动态特征数据和第二动态特征数据。
84.在一实施例中,步骤s3022具体包括以下步骤:
85.s30221、根据人物的骨骼关键点信息进行图的构建;
86.s30222、对构建的图中的每个骨骼关键点进行特征变换,以得到第一变换特征组和第二变换特征组;
87.s30223、根据空间维度上人物的骨骼节点的连接关系以及时间维度上相同骨骼节点的变化关系创建第一图特征和第二图特征;
88.s30224、将第一变换特征组、第二变换特征组、第一图特征和第二图特征分别输入到两个动态分支网络的时空卷积模块进行特征提取和更新,以得到第一空间维度节点图和第二空间维度节点图;
89.s30225、对两个动态分支网络中的人物的骨骼节点进行多次卷积处理,以得到第一时间维度节点图和第二时间维度节点图;
90.s30226、将第一空间维度节点图、第二空间维度节点图、第一时间维度节点图和第二时间维度节点图进行特征融合相加处理,以得到第一动态特征数据和第二动态特征数据。
91.对于s30221-s30226,在本实施例中,将两个大小为(3,n,18)的3维矩阵输入到对应两个动态分支网络的小分支中,进行图的构建。每个小分支构建的图的节点都有18个,对应18个骨骼关键点。对每个节点进行特征变换后,得到两组特征x
d_1
=[x
d1
,

x
d18
],x
d_2
=[x
d1
,

x
d18
]。动态分支中考虑了时间信息,所以有两种类型的边,本实施例中称之为s边与t边。s边代表空间维度上的连接,t边代表时间维度上的连接。s边根据人体关节的自然连接将骨骼节点连接在一起,t边则是将不同时间上的相同骨骼节点连接在一起,体现的是时间维度上每个节点的变化。基于这样的创建思路,图graph
d_1
、graph
d_2
被创建。基于空间连接信息,生成大小为18x18的邻接矩阵a
d_1
、a
d_2
,然后将graph
d_1
、a
d_1
、graph
d_2
、a
d_2
分别输入到对应小分支中的时空卷积模块ts-block进行特征提取和更新。
[0092]
动态分支中,每一个小分支都有10层相同的ts-block相连,对输入图进行层层更新。每一层ts-block中,时间卷积网络和空间卷积网络将以并联形式同时对时间维度和空间维度上的特征进行提取和更新。空间卷积网络基于图卷积网络的原理,每一层中首先使用1x1的卷积对输入特征图进行通道变换,然后使用爱因斯坦求和约定对x
d_1
、a
d_1
还有x
d_2
、a
d_2
进行矩阵相乘。相乘过后的特征图结合了每个节点所有邻居节点的信息,完成了一层的更新。得到空间维度上的节点图graph
d1_spatial
、graph
d2_spatial

[0093]
时间卷积网络中,每一层首先使用一个9x1的卷积核,以stride为1,对所有节点进行卷积。然后通过一个maxpooling层,得到特征图f
d1_t1
、f
d2_t1
,代表每个小分支此时的输出。然后对f
d1_t1
、f
d2_t1
使用2个6x1的卷积核,以stride为2,对所有节点进行卷积,再通过一个maxpooling层,得到特征图f
d1_t2
、f
d2_t2
。最后再对f
d1_t2
、f
d2_t2
使用4个3x1的卷积核,以stride为4,对所有节点进行卷积,得到特征图f
d1_t3
、f
d2_t3
。最后通过一个globalpooling,得到一层时间维度上的节点图graph
d1_temporal
、graph
d2_temporal
。时间维度上以这样跳帧的方法对时间特征进行提取,有效的提取了长时间和短时间内的运动特征。每一层ts-block中,
两个小分支最后会将得到的graph
d1_spatial
、graph
d1_temporal
和graph
d2_spatial
、graph
d2_temporal
进行特征融合相加,每一个分支输出一个新的特征图graph
d1_layer1
、graph
d2_layer1
,下标为layer1代表第一层ts-block过后的输出。经过10层ts-block之后,得到graph
d1_layer10
和graph
d2_layer10
,即graph
d1_layer10
为第一动态特征数据,graph
d2_layer10
为第二动态特征数据。
[0094]
s3023、将人物的骨骼关键点信息输入静态分支网络进行处理,以得到静态特征数据。
[0095]
在一实施例中,步骤s3023具体包括以下步骤:s30231-s30236。
[0096]
s30231、对图像数据进行抽帧处理,以得到首帧数据、中间帧数据和尾帧数据。
[0097]
s30232、将首帧数据、中间帧数据和尾帧数据进行拼接,以得到帧序列。
[0098]
s30233、将帧序列输入到openpose模型中处理,以得到双人中两个单人的骨骼关键点信息。
[0099]
s30234、根据空间维度基于两个单人的骨骼关键点信息创建出第一单图特征和第二单图特征。
[0100]
s30235、将第一单图特征和第二单图特征进行节点连接,以生成包含双人关键点信息的图。
[0101]
s30236、根据双人关键点信息的图进行静态特征提取和残差信息提取,以得到静态特征数据。
[0102]
对于s30231-s30236,静态分支网络中,首先将对图像进行抽帧,抽取首帧、中间帧和尾帧3帧进行拼接,得到一个新的帧序列f。将f输入到openpose模型,得到两个单人骨骼关键点信息,对2个单人关键点进行拼接和坐标转换,得到大小为(3,3,36)的3维矩阵,其中第一个3对应2维骨骼关键点坐标信息和一个置信度信息,第二个3代表此时输入的帧序列大小为3,36代表此时图中包含两个人的骨骼关键点,一个人的关键点数量为18。基于动态分支中提到的s边的定义,在空间维度上可以基于两个人的骨骼关键点创建出两张图graph
s_1
、graph
s_2
,每张图中节点的坐标信息都对应原图位置,这与graph
d_1
、graph
d_2
中对应的是裁减后的图片位置是不同的。为了保证后续模型的输入为一张图,将graph
s_1
、graph
s_2
中对应脖子位置的节点连接起来,生成一张包含双人关键点信息的图graphs。对每个节点进行特征变换后,得到特征xs=[x
s1
,

x
s36
]。基于空间连接信息,生成大小为36x36的邻接矩阵as,然后将graphs、as输入到10层空间卷积模块中提取静态特征。静态分支不包含时间卷积模块,使用与动态分支中相同的图卷积结构对graphs进行节点更新。在每2层网络过后,加入residual link提取残差信息。最后经过第10层网络,得到graph
s_layer10
,即静态特征数据。
[0103]
s3024、将第一动态特征数据、第二动态特征数据和静态特征数据分别通过全连接层处理,以得到第一处理特征、第二处理特征和第三处理特征。
[0104]
在本实施例中,将graph
d1_layer10
、graph
d2_layer10
、graph
s_layer10
分别通过全连接层,得到f
d1
、f
d2
、fs。
[0105]
s3025、将第一处理特征、第二处理特征和第三处理特征进行concate处理,以得到融合特征。
[0106]
在本实施例中,将f
d1
、f
d2
、fs进行concate得到特征f
concate

[0107]
s3026、将融合特征经过cbam注意力机制模型处理得到的结果输入到softmax进行
分类,以得到人体行为识别结果。
[0108]
在本实施例中,将f
concate
通过cbam注意力机制模型,最后输入到softmax进行分类,以得到人体行为识别结果,人体行为识别结果包括五个类别,分别为握手、击掌、拥抱、推搡、打架。
[0109]
在一实施例中,如果有推搡和打架的动作被识别出,则可根据场景的需要设置发出警报提醒。
[0110]
另外,人体行为预测模型所使用到的损失函数包括目标检测的损失函数和基于图的行为识别损失函数,其中:
[0111]
目标检测的损失函数使用的是yolov6的损失函数,该损失函数主要由分类损失,定位损失以及置信度损失函数构成,即,
[0112]
loss=loss
分类
loss
定位
loss
置信度

[0113]
基于图的行为识别损失函数使用分类的交叉熵损失函数来进行人体行为预测模型训练。
[0114]
本发明基于静态及动态多分支图卷积神经网络进行双人互动行为检测,融合cbam注意力机制的特点,加强模型对人体局部关节在空间及时间维度上的运动表征敏感度,提升了人体行为预测模型整体双人行为预测准确率。该人体行为预测模型同时考虑单人画面和双人画面的特征,在不丢失互动信息的情况下,对单人动作进行更加深入的时间维度特征提取,有效的进行实时预测。该人体行为预测模型不采用先空间再时间的特征提取方法,而是并行的同时提取时空特征,有效避免了空间信息容易丢失的问题,确保了空间特征与时间特征的完整性融合,提高了识别准确度。该人体行为预测模型基于骨骼关键点进行行为识别预测,不受图像中背景等因素的影响,提升了鲁棒性及泛化性。
[0115]
图3是本发明实施例提供的基于图网络的双人互动行为识别装置100的示意性框图。对应于上述的基于图网络的双人互动行为识别方法,本发明具体实施例还提供了基于图网络的双人互动行为识别装置100。该基于图网络的双人互动行为识别装置100包括用于执行上述基于图网络的双人互动行为识别方法的单元和模块,该装置可以被配置于服务器中。
[0116]
如图3所示,基于图网络的双人互动行为识别装置100,包括:
[0117]
获取单元110,用于获取检测区域内的图像数据。
[0118]
切帧处理单元120,对图像数据进行切帧处理,以得到多帧静态图片。
[0119]
识别单元130,用于将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到人体行为识别结果。
[0120]
在一实施例中,识别单元130包括:
[0121]
第一处理模块,用于将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像。
[0122]
第二处理模块,用于将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同。
[0123]
在一实施例中,第一处理模块包括:
[0124]
检测模块,用于将多帧静态图片以图片序列的形式输入至跟踪模型,以检测出不
同的人体目标框。
[0125]
裁剪模块,用于对人体目标框进行裁剪,以得到带有id索引的人物图像。
[0126]
在一实施例中,第二处理模块包括:
[0127]
关键点检测子模块,用于将带有id索引的人物图像输入到openpose模型中进行骨骼关键点检测,以得到每个人物的骨骼关键点信息。
[0128]
第一处理子模块,用于将人物的骨骼关键点信息输入两个动态分支网络进行处理,以得到第一动态特征数据和第二动态特征数据。
[0129]
在一实施例中,第一处理子模块包括:
[0130]
构建子模块,用于根据人物的骨骼关键点信息进行图的构建。
[0131]
特征变换子模块,用于对构建的图中的每个骨骼关键点进行特征变换,以得到第一变换特征组和第二变换特征组。
[0132]
第一创建子模块,用于根据空间维度上人物的骨骼节点的连接关系以及时间维度上相同骨骼节点的变化关系创建第一图特征和第二图特征。
[0133]
特征提取和更新子模块,用于将第一变换特征组、第二变换特征组、第一图特征和第二图特征分别输入到两个动态分支网络的时空卷积模块进行特征提取和更新,以得到第一空间维度节点图和第二空间维度节点图。
[0134]
卷积处理子模块看,用于对两个动态分支网络中的人物的骨骼节点进行多次卷积处理,以得到第一时间维度节点图和第二时间维度节点图。
[0135]
特征融合子模块,用于将第一空间维度节点图、第二空间维度节点图、第一时间维度节点图和第二时间维度节点图进行特征融合相加处理,以得到第一动态特征数据和第二动态特征数据。
[0136]
第二处理子模块,用于将人物的骨骼关键点信息输入静态分支网络进行处理,以得到静态特征数据。
[0137]
在一实施例中,第二处理子模块包括:
[0138]
抽帧处理子模块,用于对图像数据进行抽帧处理,以得到首帧数据、中间帧数据和尾帧数据。
[0139]
拼接子模块,用于将首帧数据、中间帧数据和尾帧数据进行拼接,以得到帧序列。
[0140]
openpose模型处理子模块,用于将帧序列输入到openpose模型中处理,以得到双人中两个单人的骨骼关键点信息。
[0141]
第二创建子模块,用于根据空间维度基于两个单人的骨骼关键点信息创建出第一单图特征和第二单图特征。
[0142]
节点连接子模块,用于将第一单图特征和第二单图特征进行节点连接,以生成包含双人关键点信息的图。
[0143]
提取子模块,用于根据双人关键点信息的图进行静态特征提取和残差信息提取,以得到静态特征数据。
[0144]
全连接层处理子模块,用于将第一动态特征数据、第二动态特征数据和静态特征数据分别通过全连接层处理,以得到第一处理特征、第二处理特征和第三处理特征。
[0145]
融合子模块,用于将第一处理特征、第二处理特征和第三处理特征进行concate处理,以得到融合特征。
[0146]
分类识别子模块,用于将融合特征经过cbam注意力机制模型处理得到的结果输入到softmax进行分类,以得到人体行为识别结果。
[0147]
上述基于图网络的双人互动行为识别装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0148]
请参阅图4,图4是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
[0149]
如图4所示,该计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的基于图网络的双人互动行为识别方法步骤。
[0150]
该计算机设备700可以是终端或服务器。该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
[0151]
该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种基于图网络的双人互动行为识别方法。
[0152]
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
[0153]
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种基于图网络的双人互动行为识别方法。
[0154]
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现以下步骤:
[0155]
基于图网络的双人互动行为识别方法,包括:
[0156]
获取检测区域内的图像数据;
[0157]
对图像数据进行切帧处理,以得到多帧静态图片;
[0158]
将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到人体行为识别结果。
[0159]
在一实施例中:所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理,以得到人体行为识别结果,包括:
[0160]
将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像;
[0161]
将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,所述图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同。
[0162]
在一实施例中:所述将多帧静态图片以图片序列的形式输入至跟踪模型进行处理,以得到带有id索引的人物图像,包括:
[0163]
将多帧静态图片以图片序列的形式输入至跟踪模型,以检测出不同的人体目标
框;
[0164]
对人体目标框进行裁剪,以得到带有id索引的人物图像。
[0165]
在一实施例中:所述将带有id索引的人物图像输入至图模型进行处理,以得到人体行为识别结果,其中,所述图模型包括一个静态分支网络,和两个动态分支网络,两个动态分支网络的网络结构相同,包括:
[0166]
将带有id索引的人物图像输入到openpose模型中进行骨骼关键点检测,以得到每个人物的骨骼关键点信息;
[0167]
将人物的骨骼关键点信息输入两个动态分支网络进行处理,以得到第一动态特征数据和第二动态特征数据;
[0168]
将人物的骨骼关键点信息输入静态分支网络进行处理,以得到静态特征数据;
[0169]
将第一动态特征数据、第二动态特征数据和静态特征数据分别通过全连接层处理,以得到第一处理特征、第二处理特征和第三处理特征;
[0170]
将第一处理特征、第二处理特征和第三处理特征进行concate处理,以得到融合特征;
[0171]
将融合特征经过cbam注意力机制模型处理得到的结果输入到softmax进行分类,以得到人体行为识别结果。
[0172]
在一实施例中:所述将人物的骨骼关键点信息输入两个动态分支网络进行处理,以得到第一动态特征数据和第二动态特征数据,包括:
[0173]
根据人物的骨骼关键点信息进行图的构建;
[0174]
对构建的图中的每个骨骼关键点进行特征变换,以得到第一变换特征组和第二变换特征组;
[0175]
根据空间维度上人物的骨骼节点的连接关系以及时间维度上相同骨骼节点的变化关系创建第一图特征和第二图特征;
[0176]
将第一变换特征组、第二变换特征组、第一图特征和第二图特征分别输入到两个动态分支网络的时空卷积模块进行特征提取和更新,以得到第一空间维度节点图和第二空间维度节点图;
[0177]
对两个动态分支网络中的人物的骨骼节点进行多次卷积处理,以得到第一时间维度节点图和第二时间维度节点图;
[0178]
将第一空间维度节点图、第二空间维度节点图、第一时间维度节点图和第二时间维度节点图进行特征融合相加处理,以得到第一动态特征数据和第二动态特征数据。
[0179]
在一实施例中:所述将人物的骨骼关键点信息输入静态分支网络进行处理,以得到静态特征数据,包括:
[0180]
对图像数据进行抽帧处理,以得到首帧数据、中间帧数据和尾帧数据;
[0181]
将首帧数据、中间帧数据和尾帧数据进行拼接,以得到帧序列;
[0182]
将帧序列输入到openpose模型中处理,以得到双人中两个单人的骨骼关键点信息;
[0183]
根据空间维度基于两个单人的骨骼关键点信息创建出第一单图特征和第二单图特征;
[0184]
将第一单图特征和第二单图特征进行节点连接,以生成包含双人关键点信息的
图;
[0185]
根据双人关键点信息的图进行静态特征提取和残差信息提取,以得到静态特征数据。
[0186]
应当理解,在本技术实施例中,处理器720可以是中央处理单元(central processing unit,cpu),该处理器720还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0187]
本领域技术人员可以理解,图4中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0188]
在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于图网络的双人互动行为识别方法。
[0189]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0190]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0191]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0192]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0193]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用
时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0194]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献