一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于对比学习的弱监督时序动作定位方法

2022-05-18 05:14:47 来源:中国专利 TAG:

技术特征:
1.一种基于对比学习的弱监督时序动作定位方法,其特征在于:包括如下步骤:1)构建特征提取网络和动作定位网络,所述动作定位网络包含两个支路,分别对应分类模型和多分支注意力模型;2)构建分阶段的弱监督训练方法,网络仅在视频级的动作类别标签的监督下进行学习,处理原始视频序列,将rgb数据和光流数据分别送入预训练的特征提取网络提取特征,并进行级联得到视频特征x,之后将视频特征x送入特征嵌入模型,将其映射到弱监督时序动作定位任务的特征空间,得到嵌入特征x
in
;3)将嵌入特征x
in
输入分类模型得到原始时域类激活序列f;4)将嵌入特征x
in
输入多分支注意力模型得到显著动作注意力权重a
act
、模糊动作注意力权重a
amb
和显著背景注意力权重a
bkd
,并构建三个相应的时域类激活序列,分别为显著动作时域类激活序列cas
act
、模糊动作时域类激活序列cas
amb
和显著背景时域类激活序列cas
bkd
;所述多分支注意力模型模型的输出为归一化处理后的注意力权重;5)根据归一化处理后的注意力权重,构建正负样本对,计算模糊动作对比损失函数l
con
,将各项损失函数结合计算总损失函数l
total
,并通过优化训练使网络达到收敛;6)在测试阶段,对时域类激活序列cas
act
进行阈值分割,获取大量动作提名,最后采用非极大值抑制算法去除冗余提名,以获得最终的动作定位结果。2.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:步骤1)中所述特征提取网络采用kinetics数据集上预训练的i3d网络,所述13d网络不参与后续的弱监督训练,所述分类模型及所述多分支注意力模型均采用时域卷积网络搭建。3.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:步骤2)所述预训练的特征提取网络为i3d网络,所述嵌入特征x
in
的计算公式为:x
in
=relu(conv(x,θ
emb
))式中:s为特征维度,t为时间维度,θ
emb
为可训练的特征嵌入模型参数,relu作为激活函数。4.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:步骤3)中f=conv(x
in
,θ
cls
)式中,θ
cls
为可训练的分类模型参数。5.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:步骤4)中所述归一化处理后的注意力权重:att=softmax(conv(x
in
,θ
att
))式中,θ
att
为可训练的注意力模型参数,6.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:所述原始时域类激活序列f的损失函数为:式中:为视频包含动作j的概率,l∈{1,2,...,t},
|l|=k=max(1,t//r),r为预设定参数,j=1,2,...,c 1;所述显著动作时域类激活序列cas
act
的损失函数为:式中:k
act
=max(1,t//r
act
),r
act
为预设定参数;所述模糊动作时域类激活序列cas
amb
的损失函数为:式中:k

amb
=max(1,t//r

amb
),r

amb
为预设定参数;所述显著背景时域类激活序列cas
bkd
的损失函数为:式中:k
bkd
=max(1,t//r
bkd
),r
bkd
为预设定参数。7.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:步骤5)所述式中:τ为温度常数,x
act
~x
act
,topk(k,*)为截取*中k个最大值的时间索引;x
bkd
~x
bkd
,,x
amb
~x
amb
,,k
amb
=max(1,t//r
amb
),r
amb
为预设定参数,用于控制模糊特征采样率。8.根据权利要求1所述的基于对比学习的弱监督时序动作定位方法,其特征在于:所述步骤6)的具体方法为:在测试阶段通过cas
act
获取视频级的类别分数p
act
,并设定阈值θ
cls
,在p
act
中筛选出高于θ
cls
的动作类别c
act
,之后对cas
act
,在类别c
act
对应的维度上采用多阈值分割策略获取大量动作提名,对于动作提名(t
s
,t
e
,c
act
),通过如下公式计算其置信分数),通过如下公式计算其置信分数),通过如下公式计算其置信分数),通过如下公式计算其置信分数
其中,t
s
和t
e
分别为动作的开始和结束时间,l
i
=(t
e-t
s
)/4,μ为预设定参数,最后采用非极大值抑制算法去除冗余提名,以获得最终的动作定位结果。

技术总结
本发明公开了一种基于对比学习的弱监督时序动作定位方法,仅在视频级的动作类别标签的监督下,从未剪辑视频中定位感兴趣的动作。首先,使用预训练的特征提取网络对原始视频的RGB数据和光流数据提取视频特征,并将其送入后续的动作定位网络。动作定位网络包含两个支路,其中一个支路将视频特征映射为原始的时域类激活序列(T-CAS);另一个支路为多分支注意力模型,分别对视频中的显著动作片段、背景片段和模糊动作片段进行建模,同时生成三个相应的时域类激活序列,并通过多示例学习(MIL)机制,使网络获得分离动作特征和背景特征的能力。本发明能够在未剪辑视频中感知精确的动作时间边界,避免完整动作的截断现象发生,很大程度地提高了动作定位精度。程度地提高了动作定位精度。程度地提高了动作定位精度。


技术研发人员:侯永宏 李岳阳 张浩元 张文静 刘传玉
受保护的技术使用者:天津大学
技术研发日:2021.12.27
技术公布日:2022/5/17
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献