一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

动作检测方法、动作检测装置和电子设备与流程

2022-12-09 22:50:40 来源:中国专利 TAG:


1.本发明涉及电子信息技术领域,尤其涉及一种动作检测方法、动作检测装置和电子设备。


背景技术:

2.人体的动作检测具有广泛的应用前景,例如,人体的动作检测可以被应用于异常行为检测、健康看护等场景中。
3.现有技术中,常见的动作检测方法包括:基于待处理的图像数据提取与人物或物体有关的特征,根据该提取出来的特征对待处理的图像数据中的人体的动作进行识别。
4.应该注意,上面对技术背景的介绍只是为了方便对本技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本技术的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。


技术实现要素:

5.本技术的发明人发现,常见的动作检测方法存在一些局限性,例如,在对待处理的图像数据中的人物的动作进行检测时,仅考虑待处理的图像数据中的人物或物体的局部特征,难以保证动作检测结果的准确性。
6.本发明实施例提出了一种动作检测方法、动作检测装置和电子设备,利用与待处理的图像数据有关的全局特征和局部特征进行人物动作的检测,能够提高动作检测的准确性。
7.根据本发明实施例的第一个方面,提供了一种动作检测装置,包括:特征生成部,其对待处理的图像数据进行卷积神经网络编码,生成特征图;特征提取部,其根据所述特征图生成全局特征和局部特征,其中,所述全局特征是对所述特征图进行空间维度和时间维度的池化得到的特征;以及动作识别部,其根据所述全局特征和所述局部特征对所述待处理的图像数据中的目标的动作进行识别。
8.根据本发明实施例的第二个方面,提供了一种动作检测方法,所述方法包括:对待处理的图像数据进行卷积神经网络编码,生成特征图;根据所述特征图生成全局特征和局部特征,其中,所述全局特征是对所述特征图进行空间维度和时间维度的池化得到的特征;以及根据所述全局特征和所述局部特征对所述待处理的图像数据中的目标的动作进行识别。
9.根据本发明实施例的第三个方面,提供了一种电子设备,其具有如实施例的第一个方面所述的动作检测装置。
10.本发明实施例的有益效果在于,利用与待处理的图像数据有关的全局特征和局部特征进行人物动作的检测,能够提高动作检测的准确性。
11.参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权
利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
12.针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
13.应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
14.参照以下的附图可以更好地理解本发明的很多方面。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。此外,在附图中,类似的标号表示几个附图中对应的部件,并可用于指示多于一种实施方式中使用的对应部件。
15.在附图中:
16.图1是本技术实施例的第一方面的动作检测装置的一个示意图;
17.图2是本技术实施例的第一方面的待处理的图像数据的一个示意图;
18.图3是本技术实施例的第一方面的动作检测装置的另一个示意图;
19.图4是本技术实施例的第一方面的动作检测装置的另一个示意图;
20.图5是本技术实施例的第二方面的动作检测方法的一个示意图;
21.图6是本技术实施例的第三方面的电子设备的一个构成示意图。
具体实施方式
22.参照附图,通过下面的说明书,本发明实施例的前述以及其它特征将变得明显。这些实施方式只是示例性的,不是对本发明的限制。下面参照附图对本发明的具体实施方式进行说明。
23.在本发明实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。
24.在本发明实施例中,单数形式“一”、“该”等包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据
……”
,术语“基于”应理解为“至少部分基于
……”
,除非上下文另外明确指出。
25.实施例的第一方面
26.本技术实施例的第一方面提供一种动作识别装置。
27.图1是本技术实施例的第一方面的动作检测装置1的一个示意图,如图1所示,该动作检测装置1包括:特征生成部11、特征提取部12以及动作识别部13。
28.其中,特征生成部11对待处理的图像数据进行卷积神经网络编码,生成特征图;特征提取部12根据该特征图生成全局特征和局部特征,该全局特征是对该特征图进行空间维度和时间维度的池化得到的特征;动作识别部13根据该全局特征和该局部特征对待处理的
图像数据中的目标的动作进行识别。
29.根据本技术实施例的第一方面,动作检测装置1根据待处理的图像数据的全局特征以及局部特征进行人物动作的检测,与仅考虑与人物或物体相关的局部特征进行人物动作检测的技术相比,能够提高动作检测的准确性。
30.在至少一个实施例中,待处理的图像数据例如可以是由摄像机拍摄所得到的视频中的某一个图像帧或某一段图像序列。但是,本技术不限于此,待处理的图像数据也可以是其他类型的数据。
31.在至少一个实施例中,特征生成部11可以对待处理的图像数据进行卷积神经网络编码。例如,可以进行3d卷积神经网络编码,或者,可以进行2d卷积神经网络编码,本技术对此不作具体限制。
32.在至少一个实施例中,特征生成部11可以根据卷积神经网络编码后的结果生成特征图。其中,该特征图的维度可以表示为c*t*h*w,其中,c表示通道数,t表示特征图在时间上的维度,h和w表示特征图在空间上的维度,分别表示特征图的高和宽。其中,根据特征图生成的全局特征和局部特征的维度也可以利用上述方式进行表述。例如,全局特征的维度可以表示为c1*t1*h1*w1,局部特征的维度可以表示为c2*t2*h2*w2,其中,c1、c2分别表示全局特征和局部特征通道数,t1、t2分别表示全局特征和局部特征在时间上的维度,h1和w1表示全局特征在空间上的维度,分别表示全局特征的高和宽,h2和w2表示局部特征在空间上的维度,分别表示局部特征的高和宽。
33.在至少一个实施例中,特征提取部12可以通过运算从特征图中提取全局特征。例如,特征提取部12可以通过对特征图进行空间维度和时间维度的池化而生成全局特征。由此,能够通过非常小的计算量获得全局特征,能够提高动作检测的速度和效率。
34.在至少一个实施例中,特征提取部12可以采用池化方式来获得全局特征。例如,特征提取部12可以通过对特征图在时间维度上进行平均池化,并且,在空间维度上进行最大池化以生成全局特征。在利用通过此方式获得的全局特征进行动作检测时,能够进一步提高动作检测的准确率。
35.例如,特征提取部12对维度为c*t*h*w的特征图在空间维度上进行最大池化时,可以从特征图的h*w个数据中选择数值最大的一个值,从而得到维度为c*t*1*1的中间量,特征提取部12对该中间量在时间维度上进行平均池化,例如对中间量的t个数据取平均,从而得到维度为c*1*1*1的全局特征。但是,本技术不限于此,也可以采用其他的池化方式来生成全局特征。
36.在至少一个实施例中,局部特征的时间和空间上的维度与全局特征的时间和空间上的维度可以分别相同。也就是说,t1=t2,h1=h2,w1=w2。由此,能够方便地利用局部特征和全局特征进行动作检测,并且,不会增加额外的计算量。
37.在至少一个实施例中,局部特征可以对应于待处理的图像数据的图像帧中的部分区域,全局特征可以对应于待处理的图像数据的图像帧中的全部区域。也就是说,局部特征例如可以包含待处理的图像数据的图像帧中的与人物或物体相关的信息,全局特征例如不仅可以包含待处理的图像数据的图像帧中的与人物或物体相关的信息,而且可以包含待处理的图像数据的图像帧中的包含背景在内的信息。因此,在利用全局特征和局部特征进行动作检测时,不仅考虑了包含在待处理的图像数据中的与人物或物体相关的信息,还考虑
了该待处理的图像数据中的与人物或物体所处的背景相关的信息,因此,能够提高动作检测的准确率。
38.图2是本技术实施例的第一方面的待处理的图像数据的一个示意图。例如,如图2所示,待处理的图像数据为通过摄像机拍摄的正在游泳的男士的图像帧。在该图像帧中,图像帧的人物部分为直立状态的男士m,图像帧的背景部分为水w。在仅考虑包含图像帧中的与人物或物体相关的信息的局部特征的情况下,可能会错误地将该图像帧中的人物的动作识别为“站立”。但是,在同时考虑包含图像帧的背景信息的全局特征和包含图像帧的人物或物体信息的局部特征的情况下,能够正确地将该图像帧中的人物的动作识别为“游泳”。由此,能够提高动作检测的准确率。
39.在至少一个实施例中,动作检测装置1可以采用lfb(long-term feature banks for detailed video understanding)算法,或者,可以采用alphaction(asynchronous interaction aggregation for action detection)算法。此外,本技术不限于此,动作检测装置1也可以采用其它的算法进行动作检测。
40.在至少一个实施例中,在动作检测装置1采用lfb算法时,局部特征可以是根据人物特征(person feature)生成的短期特征(short-term feature)和长期特征(long-term feature)。
41.在至少一个实施例中,在动作检测装置1采用lfb算法时,动作识别部13对全局特征和局部特征进行连接生成连接特征,根据连接特征对待处理的图像数据中的目标的动作进行识别。
42.下面以动作检测装置1采用lfb算法为例,对动作检测装置1的动作进行示例性的说明。图3是本技术实施例的第一方面的动作检测装置1的另一个示意图。如图3所示,视频段1,视频段2,
……
,视频段n(n为正整数)以及从该视频段中提取出来的视频帧序列和关键帧为待处理的图像数据。
43.动作检测装置1的特征生成部11可以基于3d卷积神经网络(3dimension convolutional neural networks,3d cnn)生成特征图。例如,特征生成部11对视频帧序列进行3d卷积神经网络编码生成特征图f,其中,特征生成部11的具体编码方法可参照相关技术。
44.特征提取部12可以包括全局特征生成单元121、感兴趣区域池化(roi pooling)单元122、更快区域卷积神经网络(faster rcnn)处理单元123、短期特征操作器(short-term feature operator)124以及长期特征库(long-term feature bank)125。其中,全局特征生成单元121对特征生成部11输出的特征图f进行空间维度和时间维度的池化,生成全局特征g。更快区域卷积神经网络处理单元123检测关键帧内的人物,得到表示人物范围的边界框(bounding box),并将边界框输入到感兴趣区域池化单元122,感兴趣区域池化单元122根据该边界框和特征生成部11输出的特征图f生成人物特征(person feature),作为短期特征s,其中,更快区域卷积神经网络处理单元123和感兴趣区域池化单元122的具体处理方法可参照相关技术。
45.短期特征操作器124可以包括前述的特征生成部11、感兴趣区域池化单元122、更快区域卷积神经网络处理单元123,短期特征操作器124对多个视频段进行处理,得到短期特征s,将短期特征s输入到长期特征库125中,长期特征库125存储所有关键帧内的人物特
征(短期特征s),以便作为长期特征l,其中,短期特征操作器124和长期特征库125的具体处理方法可参照相关技术。其中,全局特征g、短期特征s和长期特征l被输入到动作识别部13中的连接(concat)单元131。
46.动作识别部13可以包括连接单元131和第一识别单元(classifier)132。其中,连接单元131对输入的全局特征g、短期特征s和长期特征l进行连接,得到连接特征y。其中,连接操作可以是将全局特征g、短期特征s和长期特征l在通道的维度上相连。例如,在全局特征g的维度为c1*1*1*1,短期特征s的维度为c3*1*1*1,长期特征l的维度为c4*1*1*1时,连接特征y的维度可以为(c1 c3 c4)*1*1*1。但是,本技术不限于此,也可以采用其他的方式对全局特征g、短期特征s和长期特征l进行融合。
47.此外,连接单元131可以按照全局特征g、短期特征s和长期特征l的顺序进行连接。但是,本技术不限于此,连接单元131也可以按照其他顺序连接全局特征g、短期特征s和长期特征l。
48.第一识别单元132根据输入的连接特征y检测待处理图像中人物的动作。其中,第一识别单元132可以通过添加全连接层来调整连接特征y的维度,能够增强特征表达,并且能够使连接特征y的维度与第一识别单元132的处理维度相匹配。例如,在第一识别单元132的处理维度为(c3 c4)*1*1*1、连接特征y的处理维度为(c1 c3 c4)*1*1*1的情况下,可以通过全连接层将连接特征y的维度调降低为(c3 c4)*1*1*1,从而,第一识别单元132能够利用该调整后的连接特征y进行动作识别。其中,第一识别单元132的具体识别方法可参照相关技术。
49.根据本技术实施例的第一方面,在动作检测装置1采用lfb算法时,全局特征生成单元121能够利用lfb算法的计算过程中的中间变量——特征图f通过简单的计算生成全局特征,因此,能够以非常小的计算量生成全局特征,从而,在提高动作检测的准确率的前提下,还能够保证动作识别的速度和效率。
50.在至少一个实施例中,在动作检测装置1采用alphaction算法时,局部特征可以是人物特征(person feature)、对象特征(object feature)和记忆特征(memory feature)。
51.在至少一个实施例中,在动作检测装置1采用alphaction算法时,动作识别部13对全局特征和局部特征进行融合处理(interaction aggregation,也可称为交互聚合)生成融合特征,根据融合特征对待处理的图像数据中的目标的动作进行识别。
52.下面以动作检测装置1基于alphaction算法进行处理为例,对动作检测装置1的动作进行示例性的说明。图4是本技术实施例的第一方面的动作检测装置1的另一个示意图。如图4所示,视频段1,视频段2,
……
,视频段n(n为正整数)以及从该视频段中提取出来的视频帧序列和关键帧为待处理的图像数据。
53.动作检测装置1的特征生成部11可以基于3d卷积神经网络生成特征图。例如,特征生成部11对视频帧序列进行3d卷积神经网络编码生成特征图f,其中,特征生成部11的具体编码方法可参照相关技术。
54.特征提取部12可以包括全局特征生成单元121、行人检测器(detector)126、记忆池(memory pool)单元127以及感兴趣区域(roi)处理单元128。其中,全局特征生成单元121对特征生成部11输出的特征图f进行空间维度和时间维度的池化,生成全局特征g。行人检测器126对关键帧进行处理,得到表示人物范围的边界框,并将边界框输入到感兴趣区域处
理单元128,感兴趣区域处理单元128根据该边界框的位置和特征生成部11输出的特征图f,生成与待处理的图像中的人物相关的人物特征p和与待处理的图像中的物体相关的对象特征o,其中,行人检测器126和感兴趣区域处理单元128的具体处理方法可参照相关技术。
55.但是,本技术不限于此,也可以以其他方式提取人物特征p。例如,首先,从该视频帧序列中提取感兴趣的人物图像序列,例如,可以采用挖取(crop)操作提取该人物图像序列;然后,对提取的人物图像序列进行尺寸调整(resize),例如,对人物图像序列的尺寸进行放大,使得人物图像序列的尺寸与提取该人物图像的视频帧的尺寸相同,将尺寸调整后的人物图像序列输入特征生成部11,特征生成部11根据输入的该尺寸调整后的人物图像序列生成的特征即为人物特征p。
56.记忆池单元127存储感兴趣区域处理单元128输出的人物特征p,作为记忆特征m,其中,记忆池单元127的具体处理方法可参照相关技术。其中,全局特征g、人物特征p、对象特征o和记忆特征m被输入到动作识别部13。
57.动作识别部13可以包括融合(pomg interaction aggregation)单元133和第二识别单元(classifier)134。其中,融合单元133对输入的全局特征g、人物特征p、对象特征o和记忆特征m进行融合(interaction aggregation)处理,得到融合特征x。其中,融合单元133可以采用与alphaction算法中的串级(serial)融合类似的处理,例如,在alphaction算法中,按照“人物特征p-对象特征o-记忆特征m-人物特征p-对象特征o-记忆特征m”的顺序(即,pompom)对人物特征p、对象特征o和记忆特征m进行串级融合,类似地,本技术的融合单元133可以采用“人物特征p-全局特征g-记忆特征m-人物特征p-对象特征o-记忆特征m”的顺序(即,pgmpom)对人物特征p、全局特征g、对象特征o和记忆特征m进行融合处理。具体来说,首先,人物特征p与全局特征g融合,然后作为整体与记忆特征m融合,然后依次与人物特征p、对象特征o、记忆特征m融合,最后得到融合特征x。采用pgmpom的顺序对人物特征p、全局特征g、对象特征o和记忆特征m进行融合处理得到的融合特征x,能够进一步提高动作检测的准确率。
58.其中,融合处理的具体方式可以是非局部(non-local)操作,这种注意力操作机制可以提取对象特征o、全局特征g、记忆特征m中对人物特征p增强的部分并融合至人物特征p里面。
59.另外,本技术不限于此,融合处理的具体方式也可以是其它方式,例如,先进行通道增加,然后再进行全连接处理。
60.第二识别单元134根据输入的融合特征x检测待处理图像中人物的动作,其中,第二识别单元134的具体识别方法可参照相关技术。
61.根据本技术实施例的第一方面,在动作检测装置1采用alphaction算法时,全局特征生成单元121能够利用alphaction算法的计算过程中的中间变量——特征图f通过简单的计算生成全局特征,因此,能够以非常小的计算量生成全局特征,从而,在提高动作检测的准确率的前提下,还能够保证动作识别的速度和效率。
62.值得注意的是,动作检测装置1并不是必须要包括图1、图3-4中所示的所有单元;此外,动作检测装置1还可以包括图1、图3-4中没有示出的部件,可以参考相关技术。
63.根据本技术实施例的第一方面,动作检测装置1根据待处理的图像数据的全局特征以及局部特征进行人物动作的检测,与仅考虑与人物或物体相关的局部特征进行人物动
作检测的技术相比,能够提高动作检测的准确性。
64.实施例的第二方面
65.本技术实施例的第二方面提供一种动作检测方法,与本技术实施例的第一方面的动作检测装置对应。
66.图5是本技术实施例的第二方面的动作检测方法的一个示意图,如图5所示,该方法包括:
67.操作401、对待处理的图像数据进行卷积神经网络编码,生成特征图;
68.操作402、根据特征图生成全局特征和局部特征,其中,全局特征是对特征图进行空间维度和时间维度的池化得到的特征;以及
69.操作403、根据全局特征和局部特征对待处理的图像数据中的目标的动作进行识别。
70.其中,操作401例如可以根据本技术实施例的第一方面的动作检测装置1的特征生成部11来实现,操作402例如可以根据特征提取部12来实现,操作403例如可以根据动作识别部13来实现。
71.在至少一个实施例中,在操作402中,可以通过对特征图在时间维度上进行平均池化,并且,在空间维度上进行最大池化生成全局特征。
72.在至少一个实施例中,局部特征的空间和时间上的维度与全局特征的空间和时间上的维度可以分别相同。
73.在至少一个实施例中,局部特征可以对应于待处理的图像数据的图像帧中的部分区域,全局特征可以对应于待处理的图像数据的图像帧中的全部区域。
74.在至少一个实施例中,局部特征可以为根据人物特征(person feature)生成的短期特征(short-term feature)和长期特征(long-term feature)。
75.在至少一个实施例中,在操作403中,可以对全局特征和局部特征进行连接(concat)生成连接特征,根据连接特征对待处理的图像数据中的目标的动作进行识别。
76.在至少一个实施例中,局部特征可以为人物特征(person feature)、对象特征(object feature)和记忆特征(memory feature)。
77.在至少一个实施例中,在操作403中,可以对全局特征和局部特征进行融合处理(interaction aggregation)生成融合特征,根据融合特征对待处理的图像数据中的目标的动作进行识别。
78.根据本技术实施例的第二方面,动作检测方法根据待处理的图像数据的全局特征以及局部特征进行人物动作的检测,与仅考虑与人物或物体相关的局部特征进行任务动作检测的技术相比,能够提高动作检测的准确性。
79.实施例的第三方面
80.本技术实施例的第三方面提供一种电子设备,该电子设备包括:如实施例的第一方面所述的动作检测装置。
81.图6是本技术实施例的第三方面的电子设备的一个构成示意图。如图6所示,电子设备500可以包括:中央处理器(cpu)501和存储器502;存储器502耦合到中央处理器501。其中该存储器502可存储各种数据;此外还存储用于进行控制的程序,并且在中央处理器501的控制下执行该程序。
82.在一个实施方式中,动作检测装置1中的功能可以被集成到中央处理器501中。
83.其中,中央处理器501可以被配置为,执行实施例的第二方面所述的动作检测方法。
84.此外,如图6所示,电子设备500还可以包括:输入输出单元503和显示单元504等;其中,上述部件的功能与相关技术类似,此处不再赘述。值得注意的是,电子设备500也并不是必须要包括图6中所示的所有部件;此外,电子设备500还可以包括图6中没有示出的部件,可以参考相关技术。
85.本技术实施例还提供一种计算机可读程序,其中当在动作检测装置或电子设备中执行所述程序时,所述程序使得所述动作检测装置或电子设备执行实施例的第二方面所述的动作检测方法。
86.本技术实施例还提供一种存储有计算机可读程序的存储介质,其中,所述存储介质存储上述计算机可读程序,所述计算机可读程序使得动作检测装置或电子设备执行实施例的第二方面所述的动作检测方法。
87.结合本发明实施例描述的动作检测装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,附图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于本技术实施例的第二方面所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(fpga)将这些软件模块固化而实现。
88.软件模块可以位于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、移动磁盘、cd-rom或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于asic中。该软件模块可以存储在移动终端的存储器中,也可以存储在可插入移动终端的存储卡中。例如,若电子设备采用的是较大容量的mega-sim卡或者大容量的闪存装置,则该软件模块可存储在该mega-sim卡或者大容量的闪存装置中。
89.针对附图描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本技术所描述功能的通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对附图描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、与dsp通信结合的一个或多个微处理器或者任何其它这种配置。
90.以上结合具体的实施方式对本技术进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本技术保护范围的限制。本领域技术人员可以根据本技术的原理对本技术做出各种变型和修改,这些变型和修改也在本技术的范围内。
91.关于包括以上多个实施例的实施方式,还公开下述的附记。
92.1.一种动作检测装置,包括:
93.特征生成部,其对待处理的图像数据进行卷积神经网络编码,生成特征图;
94.特征提取部,其根据所述特征图生成全局特征和局部特征,其中,所述全局特征是对所述特征图进行空间维度和时间维度的池化得到的特征;
95.动作识别部,其根据所述全局特征和所述局部特征对所述待处理的图像数据中的目标的动作进行识别。
96.2.如附记1所述的动作检测装置,其中,
97.所述特征提取部通过对所述特征图在时间维度上进行平均池化,并且,在空间维度上进行最大池化生成所述全局特征。
98.3.如附记1所述的动作检测装置,其中,
99.所述局部特征的空间和时间上的维度与所述全局特征的空间和时间上的维度分别相同。
100.4.如附记1所述的动作检测装置,其中,所述局部特征对应于所述待处理的图像数据的图像帧中的部分区域,所述全局特征对应于所述待处理的图像数据的图像帧中的全部区域。
101.5.如附记1所述的动作检测装置,其中,
102.所述局部特征为根据人物特征(person feature)生成的短期特征(short-term feature)和长期特征(long-term feature)。
103.6.如附记5所述的动作检测装置,其中,
104.所述动作识别部对所述全局特征和所述局部特征进行连接(concat)生成连接特征,根据所述连接特征对所述待处理的图像数据中的目标的动作进行识别。
105.7.如附记1所述的动作检测装置,其中,
106.所述局部特征为人物特征(person feature)、对象特征(object feature)和记忆特征(memory feature)。
107.8.如附记7所述的动作检测装置,其中,
108.所述动作识别部对所述全局特征和所述局部特征进行融合处理(interaction aggregation)生成融合特征,根据所述融合特征对所述待处理的图像数据中的目标的动作进行识别。
109.9.如附记8所述的动作检测装置,其中,
110.所述动作识别部按照“人物特征-全局特征-记忆特征-人物特征-对象特征-记忆特征”的顺序对全局特征、人物特征、对象特征和记忆特征进行融合处理,生成融合特征。
111.10.一种电子设备,其具有如附记1至9中的任意一项所述的动作检测装置。
112.11.一种动作检测方法,所述方法包括:
113.通过特征生成部对待处理的图像数据进行卷积神经网络编码,生成特征图;
114.通过特征提取部根据所述特征图生成全局特征和局部特征,其中,所述全局特征是对所述特征图进行空间维度和时间维度的池化得到的特征;
115.通过动作识别部根据所述全局特征和所述局部特征对所述待处理的图像数据中的目标的动作进行识别。
116.12.如附记11所述的动作检测方法,其中,所述特征提取部对所述特征图在时间维度上进行平均池化,并且,在空间维度上进行最大池化生成所述全局特征。
117.13.如附记11所述的动作检测方法,其中,所述局部特征的空间和时间上的维度与所述全局特征的空间和时间上的维度分别相同。
118.14.如附记11所述的动作检测方法,其中,所述局部特征对应于所述待处理的图像
数据的图像帧中的部分区域,所述全局特征对应于所述待处理的图像数据的图像帧中的全部区域。
119.15.如附记11所述的动作检测方法,其中,
120.所述局部特征为根据人物特征(person feature)生成的短期特征(short-term feature)和长期特征(long-term feature)。
121.16.如附记15所述的动作检测方法,其中,
122.所述动作识别部对所述全局特征和所述局部特征进行连接(concat)生成连接特征,根据所述连接特征对所述待处理的图像数据中的目标的动作进行识别。
123.17.如附记11所述的动作检测方法,其中,
124.所述局部特征为人物特征(person feature)、对象特征(object feature)和记忆特征(memory feature)。
125.18.如附记17所述的动作检测方法,其中,
126.所述动作识别部对所述全局特征和所述局部特征进行融合处理(interaction aggregation)生成融合特征,根据所述融合特征对所述待处理的图像数据中的目标的动作进行识别。
127.19.如附记18所述的动作检测方法,其中,
128.所述动作识别部按照“人物特征-全局特征-记忆特征-人物特征-对象特征-记忆特征”的顺序对全局特征、人物特征、对象特征和记忆特征进行融合处理,生成融合特征。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献