基于有序光流图的视频分析方法及系统与流程

2022-02-22 17:14:47 来源：中国专利 TAG：

1.本发明涉及视频分析技术领域，尤其涉及一种基于有序光流图的视频分析方法及系统。

背景技术：

2.人体行为在视频中通常由数十帧甚至上百帧来共同呈现，因此视频的长时时域信息对于行为识别非常重要。
3.行为视频是一种连续的图像序列，而现有的视频分析方法行对行为视频的识别准确率不高。

技术实现要素：

4.本发明的目的在于提供基于有序光流图的视频分析方法及系统，以提高对行为视频的识别准确率。
5.为实现上述目的，本发明提供了一种基于有序光流图的视频分析方法，具体包括以下步骤:
6.通过有序光流图建模视频的长时时域结构；
7.利用c3d net和vgg-16net构造一个包含表观和短时运动流、长时运动流的双流卷积网络；
8.分别以堆叠rgb帧、有序光流图为输入提取视频的表观和短时运动信息、长时运动信息；
9.采用线性svm对行为视频进行分类。
10.其中，所述通过有序光流图建模视频的长时时域结构的具体步骤为：
11.将光流序列在保留顺序信息的条件下压缩融合到单幅图像上；
12.将单幅图像作为深度网络的输入以实现长时间运动信息的提取。
13.其中，在所述采用线性svm对行为视频进行分类的步骤之前，还包括步骤：
14.对长时运动流的数据进行十倍增强。
15.其中，所述对长时运动流的数据进行十倍增强的具体步骤为：
16.采用角点裁剪对长时运动流进行五倍增强；
17.采用尺度抖动对长时运动流进行五倍增强。
18.其中，所述采用尺度抖动对长时运动流进行五倍增强的具体步骤为：
19.将输入图像尺寸固定为256
×
340；
20.在所述角点裁剪的五个位置从{256,224,192,168}任选值作为宽和高对输入图像进行裁剪；
21.将所有裁剪区域缩放为224
×
224以实现数据的五倍增强。
22.其中，所述采用线性svm对行为视频进行分类的具体步骤为：
23.融合双流卷积网络中的两个网络fc6层的输出响应；
24.输入线性svm进行分类识别。
25.本发明还提供一种视频分析系统，包括基于有序光流图的视频分析方法。
26.本发明的基于有序光流图的视频分析方法及系统，通过有序光流图建模视频的长时时域结构，并利用c3d net和vgg-16net构造一个包含表观和短时运动流、长时运动流的双流卷积网络，然后分别以堆叠rgb帧、有序光流图为输入提取视频的表观和短时运动信息、长时运动信息，最后采用线性svm对行为视频进行分类，能够有效建模行为视频的长时时域结构，进而提高对行为视频的识别准确率。
附图说明
27.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1是本发明提供的基于有序光流图的视频分析方法的流程图。
29.图2是本发明提供的s100的具体步骤的流程图。
30.图3是本发明提供的s400的具体步骤的流程图。
31.图4是本发明提供的s410的具体步骤的流程图。
32.图5是本发明提供的s420的具体步骤的流程图。
33.图6是本发明提供的s500的具体步骤的流程图。
34.图7是本发明提供的双流卷积网络的行为识别方法的流程图。
35.图8是本发明提供的基于有序光流图的视频分析方法的有序光流图实验的不同子序列长度的识别结果图。
具体实施方式
36.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
37.在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、
ꢀ“
下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、
ꢀ“
底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
38.请参阅图1，本发明提供一种基于有序光流图的视频分析方法，具体包括以下步骤:
39.s100：通过有序光流图建模视频的长时时域结构；
40.s200：利用c3d net和vgg-16net构造一个包含表观和短时运动流、长时运动流的双流卷积网络；
41.s300：分别以堆叠rgb帧、有序光流图为输入提取视频的表观和短时运动信息、长
时运动信息；
42.s400：对长时运动流的数据进行十倍增强；
43.s500：采用线性svm对行为视频进行分类。
44.通过有序光流图建模视频的长时时域结构，为有效利用视频序列的表观信息、短时运动信息以及长时运动信息，本基于有序光流图的视频分析方法提出一种包含表观和短时运动流、长时运动流的双流卷积神经网络框架，分别在两个流中提取行为视频的表观和短时运动信息、长时运动信息，在表观和短时运动流中，以堆叠rgb帧序列为输入，采用c3d net提取行为视频的表观和短时运动特征；在长时运动流中，以有序光流图为输入，采用vgg-16net提取行为视频的长时运动特征，最后融合两个网络fc6层的输出响应，输入线性svm进行分类识别。
45.请参阅图7，表观和短时运动流以三维卷积网络c3d net作为特征提取器，提取视频的表观和短时运动特征，c3d net利用三维卷积核和池化核可以同时在时空维度对多帧视频序列进行卷积和池化操作，能够提取空域表观信息和时域运动信息，这种时域运动信息实际上是一种短时运动信息。
46.c3d net包含：8个卷积层，每层卷积核数如图7所示，所有卷积核尺寸均为3
×3×
3，步长为1；5个最大池化层(pool y)，除pool 1的池化核尺寸为1
ꢀ×2×
2外其余池化核为2
×2×
2；2个全连接层(fc z)，每个全连接层的输出响应为4096维，1个softmax输出层，网络以16帧的片段为输入单元，相邻片段重叠8帧，输入图片尺寸为224
×
224。将行为视频所有片段的fc 6层响应取平均并进行l2归一化，得到4096维向量作为该视频的c3d特征。
47.由于有序光流图是单幅图像，可以直接利用二维卷积网络提取特征向量， vgg-16 net包含：13个卷积层，所有卷积核尺寸为3
×
3，步长为1，每层卷积核数如图7所示，部分卷积层包含最大池化操作；3个全连接层，输出响应的大小分别为4096维、4096维和1000维；1个softmax输出层。
48.在生成有序光流图时，为避免压缩的光流帧过多而导致信息丢失，对每段行为视频生成若干个有序光流图。具体地，对于一段光流序列首先在时间维度上分成若干个以w帧为单位的子序列，间隔为w/2，亦即相邻的子序列之间重叠w/2帧。然后在每个子序列上分别建立一个有序光流图，再将这些有序光流图输入vgg-16net，输入图像尺寸同样调整为224
×
224，将所有有序光流图的 fc6层响应取平均并进行l2归一化得到vgg特征。
49.请参阅图2，s100的具体步骤为：
50.s110：将光流序列在保留顺序信息的条件下压缩融合到单幅图像上；
51.s120：将单幅图像作为深度网络的输入以实现长时间运动信息的提取。
52.视频的时域运动信息通常利用光流序列来表达，但现有深度模型由于网络参数限制很难处理超过十帧光流序列输入，因此难以提取视频的长时时域信息。本基于有序光流图的视频分析方法将光流序列在保留顺序信息的条件下压缩融合到单幅图像上，并将这个单幅图像作为深度网络的输入，从而实现长时间运动信息的提取。
53.给定一个n帧连续光流序列f＝[f1,f2,...,fn]，其中d1、d2分别为光流图的高度和宽度，每帧光流图均为双通道图像，对应于光流的水平分量和垂直分量，表示为f
ix
,f
iy
。定义第t帧光流图f
t
对应的加权移动平均图为：
[0054][0055]
这种加权平均方法可以同时降低错误光流估计结果和白噪声的影响。
[0056]
本基于有序光流图的视频分析方法在光流序列的加权移动平均图上计算有序光流图，计算公式如下：
[0057][0058][0059]
式中《.,.》表示内积，c为边界大小与训练误差之间的折中参数，ξ
ij
为松弛变量，这个公式来源于排序算法ranksvm，约束条件保留了光流帧的顺序信息，通过训练学习得到的参数可以作为光流序列的表示，事实上它与光流图的大小是相同的，因此基于有序光流图的视频分析方法将g定义为有序光流图，本公式中的求解等价于下面这个无约束优化问题，即最小化hinge loss函数：
[0060][0061]
式中[x] 表示函数max(0,x)，λ＝1/c，需要注意光流图的两个通道不是图像的颜色通道，而是速度矢量，两者共同描述每个像素点位置的运动矢量，因此它们是相关的，但是ranksvm算法默认不同通道是独立的，解决办法是通过矩阵对角化对两个通道进行去相关，实验中发现这种去相关操作并不能带来明显的性能提升，因此选择忽略这种相关关系，假设为有序光流图g分别对应于光流的水平和垂直分量的两个通道，则式(2)可转化为：
[0062][0063][0064]
将得到的g
x
,gy两个通道利用最小-最大规范化转化到[0,255]范围内并叠加生成有序光流图，作为深度网络的输入。通过以上过程实现从n帧光流序列到单幅有序光流图的映射。
[0065]
请参阅图3，s400的具体步骤为：
[0066]
s410：采用角点裁剪对长时运动流进行五倍增强；
[0067]
s420：采用尺度抖动对长时运动流进行五倍增强。
[0068]
请参阅图4，s410的具体步骤为：
[0069]
s411：将图像尺寸缩放为256
×
256；
[0070]
s412：从中心和四个对角区域将图像裁剪为5个224
×
224的子图像以实现数据的五倍增强。
[0071]
请参阅图5，s420的具体步骤为：
[0072]
s421：将输入图像尺寸固定为256
×
340；
[0073]
s422：在所述角点裁剪的五个位置从{256,224,192,168}任选值作为宽和高对输入图像进行裁剪；
[0074]
s423：将所有裁剪区域缩放为224
×
224以实现数据的五倍增强。
[0075]
在训练深度网络时容易因标注样本不足导致过拟合，降低网络泛化能力，为避免这种风险，本基于有序光流图的视频分析方法采用两种策略对长时运动流的数据进行十倍增强：角点裁剪和尺度抖动；角点裁剪首先将图像尺寸缩放为256
×
256，然后从中心和四个对角区域将图像裁剪为5个224
×
224的子图像，从而实现数据的五倍增强；尺度抖动是一种多尺度裁剪过程，首先将输入图像尺寸固定为256
×
340，然后在角点裁剪的五个位置从{256,224,192,168}任选值作为宽和高对输入图像进行裁剪，最后将所有裁剪区域缩放为224
×
224，这种方法同样实现了数据的五倍增强。
[0076]
请参阅图6，s500的具体步骤为：
[0077]
s510：融合双流卷积网络中的两个网络fc6层的输出响应；
[0078]
s520：输入线性svm进行分类识别。
[0079]
本发明还提供一种视频分析系统，包括基于有序光流图的视频分析方法。
[0080]
请参阅图8，为了验证本基于有序光流图的视频分析方法具有较高的识别准确率，对有序流光图进行试验，计算有序光流图时首先将行为视频的光流序列有重叠地分割成若干个以w帧为单位的子序列，然后在每个子序列上计算有序光流图。子序列帧数如果过少无法达到建模长时时域结构的目的，过多则可能会丢失部分运动信息，所以首先需要确定合理的子序列长度。图8为单独使用长时运动流进行行为识别时，不同子序列长度w在两个数据集上对应的识别结果。由图8中对比结果可知，w取24和28时分别在hmdb51和ucf101上取得最高识别准确率，因此接下来的实验中子序列长度取中间值26帧。有序光流图实质上是对多帧光流图的有效压缩，能够提取对识别行为有更重要意义的长时运动信息。在vgg-16net框架下进行了多组验证实验，对比对象为卷积网络常用的输入：静态图像、堆叠光流场、动态图及它们的组合。实验结果分别如表和表1hmdb51实验结果所示，本发明的sofi对比si、sof、di在hmdb51 上识别准确率分别提高了8％、3.4％、5.7％，在ucf101上识别准确率分别提高了4.4％、5.6％、2.4％。在输入组合后实验结果进一步提高，尤其是sofi si组合在两个数据集上分别取得最高识别结果62.5％和90.3％。实验结果表明有序光流图是一种高效的视频表示，在应用到卷积网络后能够提高行为识别结果。
[0081]
methodsplit 1split 2split 3averagesi49.1％50.6％49.6％49.8％sof55.2％53.4％54.7％54.4％di50.7％52.5％53.1％52.1％sofi57.8％58.4％57.2％57.8％sofi di58.1％58.9％58.4％58.5％sofi si63.3％61.8％62.5％62.5％
[0082]
表1 hmdb51实验结果
[0083][0084][0085]
表2 ucf101实验结果
[0086]
本发明的双流卷积网络分为表观和短时运动流、长时运动流，输入分别为堆叠rgb帧序列、有序光流图。为验证这种网络框架的有效性，分别测试两个支流网络以及融合后双流网络对hmdb51、ucf101数据集的识别结果。在测试支流网络时，取各自fc6层响应作为描述子经l2归一化后输入线性svm分类器进行分类识别。实验对比方法为原始双流卷积网络和st-resnet，实验结果如表3所示，由实验结果可知，融合后的双流网络识别结果比两个支流在 hmdb51上分别提高了7.7％、14.8％，在ucf101上分别提高了4.7％、13.1％。对比三种双流网络，本发明的双流网络比原始双流网络和st-resnet在两个数据集的识别结果均有不同程度的提高。实验结果表明本发明提出的双流卷积网络能够有效地融合行为视频的表观和长短时运动信息，得到较高的识别准确率。
[0087]
networkhmdb51ucf101spatial stream41.6％81.2％temporal stream54.3％75.6％original two streams59.4％88.0％appearance stream43.4％82.3％motion stream55.4％79.1％st-resnet65.6％92.7％a&stm streams64.9％90.1％ltm stream57.8％81.7％our two streams72.6％94.8％
[0088]
表3不同卷积网络的识别结果
[0089]
在两个数据集中，对比原始双流卷积网络，本发明的算法的准确率提高量前十位的行为类别如表所示。hmdb51中准确率提高量较大的行为类别为：cartwheel、climb_stairs、swing_baseball等；ucf101中准确率提高量较大的行为类别为：icedancing、hammering、floorgymnastics等。这些行为相对复杂时间延续长，而且在短时时域表现上
和其它行为存在相似性，例如cartwheel和 handstand、swing_baseball和hit、icedancing和shakehands。
[0090][0091]
表4准确率提高量前十的行为类别
[0092]
为了验证本发明的基于有序光流图的视频分析方法的优势，针对hmdb51 和ucf101两个数据集，将本发明的基于有序光流图的视频分析方法与现有技术中的算法对比，各算法的识别结果列入表5。
[0093]
从实验对比结果可以看出，基于深度神经网络的方法(deep)能够学习得到行为视频的高层次语义信息，识别准确率高于只能获得浅层局部信息的人工设计特征方法(shallow)；在基于深度神经网络的方法中，引入支流网络分别提取空域和时域信息的方法可以提高识别准确率(如tsn、i3d two stream)。本发明的算法利用c3d net和vgg-16net组成双流深度卷积网络分别提取表观和短时运动信息、长时运动信息，有效提高了识别准确率。
[0094]
[0095][0096]
表5不同算法的识别准确率对比
[0097]
本发明的一种基于有序光流图的视频分析方法及系统，首先通过有序光流图建模视频的长时时域结构，并利用c3d net和vgg-16net构造一个包含表观和短时运动流、长时运动流的双流卷积网络；然后分别以堆叠rgb帧、有序光流图为输入提取视频的表观和短时运动信息、长时运动信息；最后采用线性svm 对行为视频进行分类。在hmdb51和ucf101两个数据集上对本发明的有序光流图和双流卷积网络分别进行了实验验证，并与几种先进算法进行了对比，多组实验结果表明，本发明的基于有序光流图的视频分析方法及系统能够有效建模行为视频的长时时域结构，进而提高行为识别的准确率。
[0098]
以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多风格唇形合成方法、装置、设备及存储介质与流程

基于有序光流图的视频分析方法及系统与流程

相关文献

最热文献