一种基于对比学习的弱监督时序动作定位方法

2022-05-18 05:14:47 来源：中国专利 TAG：

技术特征：
1.一种基于对比学习的弱监督时序动作定位方法，其特征在于：包括如下步骤：1)构建特征提取网络和动作定位网络，所述动作定位网络包含两个支路，分别对应分类模型和多分支注意力模型；2)构建分阶段的弱监督训练方法，网络仅在视频级的动作类别标签的监督下进行学习，处理原始视频序列，将rgb数据和光流数据分别送入预训练的特征提取网络提取特征，并进行级联得到视频特征x，之后将视频特征x送入特征嵌入模型，将其映射到弱监督时序动作定位任务的特征空间，得到嵌入特征x
in
；3)将嵌入特征x
in
输入分类模型得到原始时域类激活序列f；4)将嵌入特征x
in
输入多分支注意力模型得到显著动作注意力权重a
act
、模糊动作注意力权重a
amb
和显著背景注意力权重a
bkd
，并构建三个相应的时域类激活序列，分别为显著动作时域类激活序列cas
act
、模糊动作时域类激活序列cas
amb
和显著背景时域类激活序列cas
bkd
；所述多分支注意力模型模型的输出为归一化处理后的注意力权重；5)根据归一化处理后的注意力权重，构建正负样本对，计算模糊动作对比损失函数l
con
，将各项损失函数结合计算总损失函数l
total
，并通过优化训练使网络达到收敛；6)在测试阶段，对时域类激活序列cas
act
进行阈值分割，获取大量动作提名，最后采用非极大值抑制算法去除冗余提名，以获得最终的动作定位结果。2.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：步骤1)中所述特征提取网络采用kinetics数据集上预训练的i3d网络，所述13d网络不参与后续的弱监督训练，所述分类模型及所述多分支注意力模型均采用时域卷积网络搭建。3.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：步骤2)所述预训练的特征提取网络为i3d网络，所述嵌入特征x
in
的计算公式为：x
in
＝relu(conv(x，θ
emb
))式中：s为特征维度，t为时间维度，θ
emb
为可训练的特征嵌入模型参数，relu作为激活函数。4.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：步骤3)中f＝conv(x
in
，θ
cls
)式中，θ
cls
为可训练的分类模型参数。5.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：步骤4)中所述归一化处理后的注意力权重：att＝softmax(conv(x
in
，θ
att
))式中，θ
att
为可训练的注意力模型参数，6.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：所述原始时域类激活序列f的损失函数为：式中：为视频包含动作j的概率，l∈{1，2，...，t}，
|l|＝k＝max(1，t//r)，r为预设定参数，j＝1，2，...，c 1；所述显著动作时域类激活序列cas
act
的损失函数为：式中：k
act
＝max(1，t//r
act
)，r
act
为预设定参数；所述模糊动作时域类激活序列cas
amb
的损失函数为：式中：k
′
amb
＝max(1，t//r
′
amb
)，r
′
amb
为预设定参数；所述显著背景时域类激活序列cas
bkd
的损失函数为：式中：k
bkd
＝max(1，t//r
bkd
)，r
bkd
为预设定参数。7.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：步骤5)所述式中：τ为温度常数，x
act
～x
act
，topk(k，*)为截取*中k个最大值的时间索引；x
bkd
～x
bkd
，，x
amb
～x
amb
，，k
amb
＝max(1，t//r
amb
)，r
amb
为预设定参数，用于控制模糊特征采样率。8.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法，其特征在于：所述步骤6)的具体方法为：在测试阶段通过cas
act
获取视频级的类别分数p
act
，并设定阈值θ
cls
，在p
act
中筛选出高于θ
cls
的动作类别c
act
，之后对cas
act
，在类别c
act
对应的维度上采用多阈值分割策略获取大量动作提名，对于动作提名(t
s
，t
e
，c
act
)，通过如下公式计算其置信分数)，通过如下公式计算其置信分数)，通过如下公式计算其置信分数)，通过如下公式计算其置信分数
其中，t
s
和t
e
分别为动作的开始和结束时间，l
i
＝(t
e-t
s
)/4，μ为预设定参数，最后采用非极大值抑制算法去除冗余提名，以获得最终的动作定位结果。

技术总结
本发明公开了一种基于对比学习的弱监督时序动作定位方法，仅在视频级的动作类别标签的监督下，从未剪辑视频中定位感兴趣的动作。首先，使用预训练的特征提取网络对原始视频的RGB数据和光流数据提取视频特征，并将其送入后续的动作定位网络。动作定位网络包含两个支路，其中一个支路将视频特征映射为原始的时域类激活序列(T-CAS)；另一个支路为多分支注意力模型，分别对视频中的显著动作片段、背景片段和模糊动作片段进行建模，同时生成三个相应的时域类激活序列，并通过多示例学习(MIL)机制，使网络获得分离动作特征和背景特征的能力。本发明能够在未剪辑视频中感知精确的动作时间边界，避免完整动作的截断现象发生，很大程度地提高了动作定位精度。程度地提高了动作定位精度。程度地提高了动作定位精度。

技术研发人员：侯永宏李岳阳张浩元张文静刘传玉
受保护的技术使用者：天津大学
技术研发日：2021.12.27
技术公布日：2022/5/17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：时序图生成方法、装置、电子设备和存储介质与流程

一种基于对比学习的弱监督时序动作定位方法

相关文献

最热文献