一种基于动态实例交互头的稀疏时序动作检测方法

2022-09-03 16:13:40 来源：中国专利 TAG：

1.本发明涉及一种针对时序行为检测(temporal action localization，tal)的基于动态实例交互头(dynamic instance interactive head)的稀疏时序动作检测模型。动态实例交互头通过一对一的将候选特征和相应的感兴趣特征进行交互，不断增强前景特征以获得最后的预测特征。本发明完全采用端到端的形式，对于时序动作行为检测有不错的效果。

背景技术：

2.随着计算机技术与网络技术的快速发展，多媒体信息呈爆炸式增长，其中视频作为重要的信息载体，越来越受人们青睐，更多信息通过视频进行传播。然而，对大量视频信息的处理成为一道难题，传统人工检测的方式非常低效和枯燥。随着深度学习技术的崛起，通过计算机自动提取视频中有效信息的方法对视频进行处理，可以大大提高工作效率节省人力资源。因此，时序动作检测(tad)的任务受到了广泛的关注。时序动作检测是视频理解中的一项关键技术，对于一段给定的未经修剪的长视频，它的目标是定位动作发生的时间段并预测动作的类别。
3.自近些年来，深度学习在各个领域取得了不错的成就后，就被广泛用于目标检测，图像生成以及视频分析等领域。相较于传统的机器学习算法，深度神经网络通过搭建适应于不同任务的网络模型来对特征进行提取融合，再针对不同任务采用不同的策略来解决相应的问题。作为目前计算机视觉的主要方法，深度学习具有不少的优点：1.根据网络层的自适应学习更好的表示特征；2.通过大数据的学习，有不错的泛化能力；3.对于特征能逐层进行表达，从低层原始数据到高层语义信息。通过深度学习与时序行为检测的结合，目前时序行为检测方法主要分为两种：基于锚的方法和基于边界的方法。
4.基于锚的方法(anchor-based)：首先，在特征序列的每个网格上设计多尺度锚。然后，对这些候选对象进行网络性能分类和边界回归。由于真值实例的持续时间在不同的视频中存在显著差异，因此这些方法在放置密集的候选提案时需要很大的计算量，可能具有不精确的时间边界。
5.基于边界的方法(boundary-based)：以自下而上的方式处理不准确的边界问题，其中对视频序列的每个匹配对进行评估。放弃了回归过程，直接为密集分布的提案生成置信度分数。然而，这种方法只能用于时序动作候选框的生成，因此需要一个外部分类器来进行动作分类。
6.这两种行之有效的方法得到了持续改进，并以优异的性能证明了有效性。然而，这两种方法仍然有一些局限性。首先，在很大程度上依赖于稠密的候选提案，这将带来沉重的计算负担。其次，容易受到人为参数的影响，例如锚设计和置信阈值。最后，在时间动作检测(tad)任务中，一个重要问题在于视频中动作实例的持续时间从几秒到几分钟不等，并且网络很难检测到短实例。特征金字塔网络(fpn)已广泛应用于图像目标检测，以解决目标尺度变化大的问题。基于最近查询的方法rtd-net在查询特征和全局编码特征之间采用全局关
注，二次计算复杂性阻止其构建多尺度特征。其他一些工作构建了时序特征金字塔网络(tfpn)，以缓解时间边界定位的困难。尽管如此，这些都是基于从主干的最后一层提取的特征构建tfpn，该层包含视频片段的高级表示。tfpn体系结构中的下采样操作将进一步丢失短动作实例的信息，使精确的时间边界回归变得困难。这些问题和局限性也正是时序行为检测中现有的难点问题。

技术实现要素：

7.本发明提出了一种基于动态实例交互头的稀疏时序动作检测方法，已解决如上三个难点问题。
8.1、集合预测。采用基于匈牙利算法的集合预测损失，在给定rgb帧和光流的情况下，从原始的两个流输入端到端优化整个网络，并在不延迟融合的情况下输出预测。网络输出的目标候选框即为最终的预测框，无需进行非极大值抑制后处理。绕过了多对一标签分配问题，实现一对一标签匹配。解决了以往方式很大程度上依赖于稠密的候选提案的局限性，减轻计算负担。
9.2、稀疏提案。使用特征嵌入模块，随机嵌入n(例如50)个特征提案，摆脱了复杂的手工设计。经过大量实验证明，最终实验结果不会被特征提案初始化所影响。解决了实验结果受人为参数影响的问题，研究人员也不用再为锚设计和置信阈值而苦恼。
10.3、稀疏交互。基于动态实例交互头的稀疏交互过程，提案特征仅与相应的片段特征交互，无需在全局特征上进行计算。因此，我们可以直接使用主干网的中间层输出来构建层次特征图。由于中间特征具有更高的时间分辨率，以便保留具有较大变化持续时间的动作实例的细节，提高时序动作检测的质量。
11.一种基于动态实例交互头的稀疏时序动作检测方法，包括如下步骤：
12.步骤(1)、数据预处理，提取视频数据的初始时空特征；
13.首先，抽取视频数据的图像帧和光流；其次，基于抽取的图像帧和光流分别提取对应的特征；然后，将提取到的特征在时序维度进行堆叠，并使用滑动窗口的方式取出长度相等的视频片段。
14.步骤(2)、构建基于时序特征金字塔结构(temporal feature pyramid networks，tfpn)的动态实例交互头(dynamic instance interactive head)网络模型；
15.所述的基于时序特征金字塔结构的动态实例交互头网络模型，包括时序特征金字塔和动态实例交互头。
16.所述的时序特征金字塔由自下而上以及自上而下两部分构成，自下而上的即通过传统的卷积网络做特征提取，自上而下的路径用于特征融合，在语义丰富的低分辨率特征层构建更高的分辨率，并采用横向连接的方式解决由于不断上下采样造成目标偏移的问题。特征金字塔得到p1、p2、p3、p4、p5共五层输出，为了获取更多的视频信息，提取金字塔p1-p4四个特征层用以多尺度地预测行为的关键点。
17.所述的动态实例交互头接收时间特征金字塔网络生成的多级特征，然后预测动作实例的时间段和动作类别。动态实例交互头的输入包括三个内容：一是时序金字塔网络输出的多尺度特征；二是可学习提案框；三是可学习提案特征。所述的提案框是二维参数，表示时间段的标准化中心位置和持续时间。提案框可以设置为任意大小，并在初始化期间随
机放置在特征序列上，避免复杂的候选提案设计。所述的提案特征为每个提案候选者编码丰富的实例信息。
18.步骤(3)、模型训练；
19.统一大小的候选框经过全连接层得到固定大小的特征向量，输出n个无序集合，每个集合元素包括分类和定位信息。利用级联思想，对输出的候选框进行调整，每个级联阶段的输出信息都利用最佳二分匹配和分类回归损失进行训练，直至整个网络模型收敛。
20.步骤(4)、生成定位检测结果；
21.根据最佳二分匹配方法，对模型输出的特征向量进行一对一的标签匹配。模型训练输出的候选框即为最终的预测框。
22.步骤(1)所述的数据预处理，提取视频数据的初始时空特征，具体如下：
23.对于视频数据集v中的每个输入视频vn，首先以30fps抽取图像帧，同时使用tvl-1算法抽取视频的光流。对抽取好的的图像和光流进行特征提取，使用基于kinetics数据集预训练的i3d模型分别提取图像和光流对应的特征和其中n表示不同视频具有不同的时序长度，1024则代表每个视频片段经过预训练的i3d模型提取后输出的特征维度。为了整合输入视频的外观特征和运动特征，将图像特征f
rgb
和光流特征f
flow
在时序维度上进行堆叠，并获得初始时空特征再接着，用滑动窗口在时序长度n上以50％的重叠率进行滑动，最终得到窗口的时空特征其中t＝256。
24.步骤(2)所述的基于时序特征金字塔结构的动态实例交互头网络模型，具体如下：
25.2-1、时序特征金字塔；
26.金字塔结构中传统的自下而上的路径实质为一个下采样卷积神经网络的前馈计算，采用图注意力卷积(graphattentionnetwork，gat)加上步长为2的最大池化操作代替原有的简单一维卷积，具体公式为：
27.f
high
＝maxpooling(gat(f
cur
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
28.其中f
high
表示经过当前图卷积的高层特征图输出，f
cur
表示当前层的输入特征。接着是自上向下的路径，实质上是为了增大带有高层语义信息的特征图分辨率。对顶部具有大感受野的特征图做上采样，步长与最大池化操作相同都为2，上采样时用线性插值的方式。上采样完后与自下向上卷积时具有相同尺寸的特征图进行横向连接，融合时采用对应元素相加的形式，具体公式可表示为：
29.f
low
＝interpolate(conv(f
cur
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
30.其中conv为一个1
×
3的卷积，用于减轻上采用的混叠效果。自上向下的路径传递了较好的语义信息，自下向上的路径传递了较好的定位信息，通过横向连接融合在一起既可以获取具有较好的定位信息又具有较好的语义信息的特征，不同层输出可以得到对不同尺度的敏感的特征，识别不同时间尺度的行为。
31.2-2、动态实例交互头；
32.动态实例交互头的输入包括三个内容：一是时序金字塔网络输出的多尺度特征层中的f1、f2、f3、f4，其中，其中fea＝
2048是特征维度；二是可学习提案框；三是可学习提案特征。最终动态实例交互头的输出内容包括两部分：一个是类别预测，另一个是边界预测。
33.上述提到的可学习的提案框最终被用作候选提案。这些提案框被初始化为0-1的二维参数，表示标准化的中心坐标和动作持续时间长度。在训练期间，将使用反向传播算法(back-propagation，bp)更新提案框的参数。候选提案的数量大于视频数据集中所有视频剪辑的最大真值动作实例数。由于具有可学习性，因此初始化的影响很小，从而使提案框更加灵活。从概念上讲，可学习提案框是训练集中潜在动作位置的统计信息，是对视频中最可能包含动作的区域的初始猜测，而不管输入是什么。
34.虽然二维提案框是一个对动作范围简单而明确的表述，但是只提供了对动作持续时间的粗略定位，丢失了很多细节性信息，比如动作的类别和动作发生着的相关信息。因此，引入提案特征，它是一个高维潜在向量，将对丰富的动作实例进行编码。提案特征的数量和提案框的数量相同。
35.初始化的提案框被映射到0-1的单位时间，在输入到动态实例交互头之前，给其初始化权重，根据时序金字塔网络输出的尺度大小分别放缩到0-256帧、0-128帧、0-64帧和0-32帧大小。通过soi-align模块使用提案框从时序特征金字塔中提取soi特征r
soi
(t
×
l,l＝16),每个soi特征都会被用到自己的专用头部，用于动作分类和定位，每个头部都以特定的提案特征为条件。pk进行自注意力生成卷积核参数pk
conv
，然后生成的卷积核参数pk
conv
与r
soi
稀疏交互，以过滤掉无效的单元，并输出最终的预测特征f
fin
。具体交互过程如下面公式所示：
36.f
fin
＝norm3(drop3(forw(norm2(drop2(inter(r
soi
,norm1(drop1(pk) pk
conv
))) pk))) pk)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
37.其中norm1、norm2、norm3为神经网络中的全连接层，drop1、drop2、drop3为梯度截断，forw是前馈神经网络，具体内容如公式所示：
38.forw(x)＝linear2(relu(drop(linear1(x))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
39.linear1、linear2为全连接网络，relu为激活函数。公式(3)中的稀疏交互部分可表示为如下公式：
40.inter(x,y)＝relu(norm(bmm(x,linear(y))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
41.bmm为对输入的两个参数进行矩阵乘法。因此，交互过程可以视为soi特征通过两个一维卷积层传递，有利于模型充分利用中间层的高分辨率特征。最后，在动态实例交互头上建立两个并行分支即分类分支和回归分支，得到动作实例的最终分类分数和边界回归预测。分类分支是一个带有sigmoid激活的线性层，用于预测每个动作类别的概率。回归分支由一个三层前馈网络组成，该网络具有时间边界回归的relu激活函数。将所有的动态实例交互头堆叠起来，得到每个头部的预测。每个阶段的预测提案框和提案特征将作为下一阶段的初始提案框和提案特征，以便不断完善。
42.步骤(3)模型训练，具体如下：
43.称动态实例交互头最终生成的预测为动作实例集合ψ
p
，其包含n个实例，n的值大于视频数据集v中真实动作实例的数量m。所有真实动作实例构成真实目标集ψg，通过填充类别将真实目标集ψg扩充到n，在这两个固定大小的集合上采用集合预测损失，基于集合的预测损失在预测值和真实值之间产生最佳二分匹配，匹配成本的定义如下：
44.l＝λ
cls
·
l
cls
λ
l1
·
l
l1
λ
iou
·
l
iou
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
45.l
cls
是真实类别标签和预测类别之间的焦点损失，l
l1
和l
iou
是预测框的中心坐标和动作持续时间与真实框之间的l1损失和iou损失。λ
cls
、λ
l1
和λ
iou
分别是各类损失的权重系数。匹配损失除了仅在匹配对上执行外，训练损失和匹配损失相同，最终损失是由训练批中的对象数归一化的所有对的总和。l
cls
的具体公式如下所示：
46.l
cls
(p
t
)＝-α
t
(1-p
t
)
γ
log(p
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
47.其中p
t
表示预测为关键点的概率，α
t
表示正负样本的对应权重，γ的作用是为了降低简单样本的loss，迫使模型去更在意难挑选的样本。使用基于集合损失的一对一匹配，绕过了多对一匹配问题，这是在视频检测上的一种端到端的尝试。
48.步骤(4)所述的生成定位检测结果，具体如下：
49.根据步骤(2)得到的预测特征和时序预测框，利用步骤(3)中的匹配损失直接进行最佳二分匹配，得到预测标签，该预测标签和时序预测框即为最终的预测类别和动作边界，用平均精度(map)计算最终性能。
50.进一步的，所述的候选提案的数量n＝50。
51.本发明有益效果如下：
52.本发明提出了一种基于动态实例交互头的稀疏时序动作检测方法。尽管目前现有的时序行为检测方法已经取得了不错的效果，但是大量手工设计的锚框不但影响了计算的时间复杂度，而且预测结果还会受到人为影响。本发明使用基于查询的方法，初始化n个提案特征和提案框，解决了锚框的复杂性问题。本发明还引入了基于时序特征金字塔的动态实例交互头模块，使用时序特征金字塔可以对不同尺度的行为都能进行较好的预测，解决由于每个行为时间跨度不同对实验结果造成的影响；同时动态实例交互头不像查询方式一样，需要每一小组的查询特征与全局特征进行交互才能跟好的进行特征的学习，动态实例交互头模块仅仅将提案特征与局部特征进行稀疏交互，就可以很好的学习有价值的信息，大大减少了计算量。最后，本发明使用基于集合预测损失的最佳二分匹配，可以一对一的进行标签匹配，而且最后仅仅输出与初始提案框相等数量的n个候选框，在计算性能之前不用使用非极大值抑制后处理，可以直接作为预测框进行输出。本发明的方法相比于传统的时序行为检测方法取得了较大的性能提升。
附图说明
53.图1为本发明实施例完整流程图。
具体实施方式
54.下面结合附图与实施例对本发明的技术方案做进一步具体说明。
55.如图1所示，本发明提供一种基于动态实例交互头的稀疏时序动作检测方法，包括如下步骤：
56.步骤(1)、数据预处理，提取视频数据的初始时空特征；
57.对视频数据集v的预处理：对于视频数据集v中的每个输入视频vn，首先以30fps抽取图像帧，同时使用tvl-1算法抽取视频的光流。对于抽取好的的图像和光流，使用基于kinetics数据集预训练的i3d模型分别提取图像和光流对应的特征，然后将这两个特征在
时序维度上进行堆叠，以整合输入视频的外观特征和运动特征，在保证空间信息的基础上同时兼顾时序信息，并获得最终的初始时空特征。由于每个视频的长度不一，为了方便特征能统一输入到网络模型中，采用滑动窗口的形式，在保证窗口大小能包含几乎全部实例的基础上以一定的重叠率滑动取出长度相同的视频片段。
58.这里使用thumos’14数据集作为训练和测试数据。
59.对于thumos’14数据集中的每个输入视频vn，首先以30fps抽取图像帧，然后使用opencv库中的tvl-1算法抽取视频的光流。对于抽取好的的图像和光流，为统一图像大小，在保持纵横比的情况下将每张图像的最小边缩放到256像素大小，同时中心剪切到224
×
224像素大小，统一将每个视频采样成750个视频片段，然后使用基于kinetics数据集预训练的i3d模型分别提取图像和光流对应的特征，然后将这两个特征在时序维度上进行堆叠，以整合输入视频的外观特征和运动特征，并获得最终的初始特征由于每个视频的时序长短不一，为了便于特征提取，用t＝256的窗口大小以stride＝128的步长进行滑动取统一大小的特征片段。得到初始特征大小
60.步骤(2)、构建基于时序特征金字塔结构的动态实例交互头模型；
61.由于gpu内存的限制，先通过一个普通卷积对原始2048维的特征进行降维，得到卷积后的特征维度为256维。
62.2-1、金字塔结构总共采用5层，对于初始特征在时序上的长度为256，首先在自下而上时下采用得到不同的时序长度tn，tn＝128，64，32，16。接着在自下而上并且加入横向连接的方式从tn＝16又回到tn＝32，64，128，256，共得到5个尺度的特征块，最终使用其中的f1、f2、f3、f4特征层，进行后面的特征提取。
63.2-2、使用soi-align在多尺度特征层上对提案框进行池化，提案框的边界长度统一池化为16帧大小，得到感兴趣区域特征r
soi
(256
×
16)，r
soi
与提案特征pk
conv
(n
×
256)进行稀疏交互，也即矩阵乘操作，得到大小为(n
×
16)的候选特征。我们利用迭代的思想，共使用6个实例交互头，而每个迭代过程中动态实例交互头的数量为n，以保证对于每一个不同的提案框和提案特征都有不同的交互头，动态学习提案特征和边界特征。每层迭代中，由动态实例交互头输出的结果利用具有relu激活函数和具有三层隐藏层的感知方法计算回归预测，采用线性投影层计算分类预测。前一个迭代过程中输出的预测特征和预测框将作为下一个迭代过程中初始化输入的提案特征和提案框。6次迭代过程输出的结果都将保存，但是我们最终只取最后一次迭代的结果用于标签的分类和边界框的预测。
64.步骤(3)、模型训练；
65.3-1、动态实例交互头生成的动作实例集合ψ
p
包含n个实例，n的值大于数据集中真实动作实例的数量。n的值越大，实验的准确度越高，但考虑到实验的性能问题，本发明中将n的值一律取为50。通过填充类别将真实目标集ψg扩充到n，在这两个固定大小的集合上采用集合预测损失，基于集合的预测损失在预测值和真实值之间产生最佳二分匹配。
66.3-2、根据focal loss公式：
67.fl(p
t
)＝-α
t
(1-p
t
)
γ
log(p
t
)
68.α
t
在正样本处设置为0.75，负样本处为0.25，γ设置为2。在每一个视频段的每一
层挑取5个正样本以及10个负样本用作训练，若正样本不足用负样本填充。
69.3-3、损失函数的公式同匹配函数的公式相同，具体公式如下：
70.l＝λ
cls
·
l
cls
λ
l1
·
l
l1
λ
iou
·
l
iou
71.最终，根据训练批中的对象数归一化得到训练总损失。利用反向传播输入到网络，直至损失收敛。
72.步骤(4)生成定位检测结果，具体如下：
73.根据步骤(2)得到的预测特征和时序预测框，利用步骤(3)中的匹配损失直接进行二分匹配，得到预测标签，该预测标签和时序预测框即为最终的预测类别和动作边界，在thumos14上，使用tiou阈值[0.3:0.1:0.7]和平均精度(map)计算最终性能。
[0074]
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。
[0075]
本发明未详细说明部分属于本领域技术人员公知技术。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数据处理方法、装置、电子设备及存储介质与流程

一种基于动态实例交互头的稀疏时序动作检测方法

相关文献

最热文献