一种基于三维卷积的时空特征多层次融合的行为识别方法

2022-06-29 15:58:05 来源：中国专利 TAG：

技术特征：
1.一种基于三维卷积的时空特征多层次融合的行为识别方法，其特征在于，包括如下步骤：s1：采用包含多种动作类和多视频段的kinetic400公开数据集作为实验数据集，从数据集中的各个视频片段等间隔的取出部分帧分别作为时空特征双流网络中时间特征提取网络和空间特征提取网络的输入；s2：构建基于时间和空间的双流网络，包括帧抽取模块、时间特征提取网络、空间特征提取网络和多层次特征融合模块；时间特征提取网络和空间特征提取网络的结构包括多阶段的卷积层，全局池化层以及全连接层和softmax层，其中，全局池化层和全连接层构成分类器，softmax层用来对识别结果的归一化；时间特征提取网络用于提取整段视频包含行为的多层次时间特征信息；空间特征提取网络用于提取整段视频包含行为的多层次空间特征信息，多层次特征融合模块用于进行多层次的时空特征融合，分类器用于对融合后的特征进行给出行为预测的结果；在时间特征提取网络和空间特征提取网络的后面阶段将提取到的不同层次的特征作为多层次特征融合模块的输入；s3：多层次特征融合模块针对不同层次的时间特征图和空间特征图进行采样操作，对特征图进行维度对齐，然后分别在时间和空间特征内部进行上下两方向上的特征融合，增强和丰富各个层次上的特征语义表达，接着将空间融合后的特征和时间融合后的特征进一步全融合，最终获得该视频下不同层次时空特征融合后的行为特征；将该特征输入到分类器中分类；s4：在分类器中，输入特征经过全局平均池化和级联的操作，最后放入全连接层中对视频中的行为进行分类。2.如权利要求1所述的行为识别方法，其特征在于，所述的时间特征提取网络和空间特征提取网络采用的backbone网络为3d resnet50。3.如权利要求1所述的行为识别方法，其特征在于，从数据集提供的行为视频段中等间距采样64帧默认代表整个视频段，然后再分别等间距取32帧和4帧，分别对应于时间特征提取网络和空间特征提取网络两个网络通道中的输入进行特征提取。4.如权利要求1所述的行为识别方法，其特征在于，所述多层次融合时间特征和空间特征包括：时间特征提取网络和空间特征提取网络会将最后两个阶段提取到的不同层次的时间特征和空间特征都馈入多层次特征融合模块，两个层次对应不同的感受野；多层次特征融合模块中，先对空间特征中两个层次上的特征做空间维度上的下采样对齐语义操作，接着对时间维度采样，除行为分类的分类损失函数之外，对齐模块增加额外的损失函数保证对齐维度后特征的有效性；空间特征内部进行两个层次特征融合时候，对时间维度上高维的特征进行下采样，对时间维度上低维的特征进行上采样，时间维度保持一致后，采用自下而上和自上而下相结合的融合方式融合不同方向上的空间特征；并对时间特征做与空间特征相同的操作和融合处理；最后再将多层次融合后的时间特征和空间特征再进行全融合。

技术总结
本发明公开了一种基于三维卷积的时空特征多层次融合的行为识别方法，该方法针对行为识别任务中视频能够提供更加丰富特征信息，采用三维卷积核以及时间和空间双流框架作为网络主干，其中一个分支提取视频时间特征，另外一个分支提取视频的空间特征。在不同的行为中，考虑到视频中的行为小目标在识别网络中的高层网络部分容易特征丢失，快节奏的行为不容易被网络感受，提出了将不同感受野上的时间和空间区域的特征均考虑进网络。以多层特征融合模块来均衡空间特征和时间特征对于最后行为分类结果的影响，充分利用提取到的多层次特征。该方法提取视频中的时间和空间特征，并对其进行融合和行为识别，相较于现有相关行为识别方法，具有更高的准确性。具有更高的准确性。具有更高的准确性。

技术研发人员：张清芳韩枫梁伟杨璐瑶邓鑫刘征奇郭竞许鹏飞
受保护的技术使用者：西北大学
技术研发日：2022.02.23
技术公布日：2022/6/28

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：钢琴指法识别方法及计算机可读存储介质与流程

一种基于三维卷积的时空特征多层次融合的行为识别方法

相关文献

最热文献