一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种加权融合多种图像任务的视频行为识别方法与流程

2021-10-24 05:44:00 来源:中国专利 TAG:加权 视频 融合 识别 图像

技术特征:
1.一种加权融合多种图像任务的视频行为识别方法,包括以下具体步骤:步骤1.构建初始化的教师网络:构建常用视觉任务相似度树,初步筛选视频行为识别相关的图像任务作为教师网络,根据常用视觉任务相似度树,选定视频行为识别正相关的视觉图像任务,视频行为识别正相关的视觉图像任务包括场景识别、图像分类和基于图像的行为识别;步骤2.下载选定若干和视频行为识别正相关的视觉图像任务常用数据集的预训练模型和参数,作为初始化的教师网络;步骤3.建立多教师视频行为识别知识库:考虑相关任务与目标任务之间的相关程度,设计量化计算各相关任务作为教师任务过程中的权重,对初始化之后的教师任务进行加权融合过程中的权重计算,将各教师任务的先验知识加权融合,建立多教师的场景、物品、图像行为识别的视频行为识别知识库;步骤4.在重新分配权重的多教师网络的指导下,对学生网络进行基于对比学习的自监督训练:选用无标记视频数据,在多教师网络指导下对学生网络(即目标任务或视频行为识别)进行基于对比学习的自监督训练,使得网络模型获得提取面向相关任务的视频特征提取能力;步骤5.对作为学生网络的视频行为识别模型进行模型微调,在测试数据集上对模型视频行为识别进行性能测试,以获得最终能够用于实际视频行为识别场景的网络模型。2.按照权利要求1所述加权融合多种图像任务的视频行为识别方法,其特征在于,步骤1所述构建常用视觉任务相似度树包括以下步骤:步骤1.1.初步筛选视频行为识别相关的图像任务作为教师网络;步骤1.2.基于视觉任务相似度树,选定若干和视频行为识别最相关的若干图像任务,图像任务包括图像分类任务、场景识别任务和基于图像的行为识别任务,并引入图像识别领域的数据集imagenet和场景识别领域的数据集places365,以及图像行为识别数据集bu101和stanford40;步骤1.3.获取所述的相关图像任务的经典网络模型结构和蕴含先验知识的已训练模型,作为初始化的教师网络分支。3.按照权利要求1所述加权融合多种图像任务的视频行为识别方法,其特征在于,步骤3中,所述对初始化之后的教师任务进行加权融合过程中的权重计算,将各教师任务建立先验知识库的具体方法包括:对初始化之后的教师任务进行加权融合过程中的权重计算,按照以下三种方法进行计算:第一种为离线方法为基于各相关任务单独测试准确率的方式,也就是说和行为识别任务越相关的图像任务,其贡献越大,加权融合的权重更大,即每次单独选择某一个图像任务作为教师任务,分别在所述的网络框架上训练,随后对训练获得的视频行为识别模型在指定数据集上进行测试,最后,分别得到使用每个相关图像任务作为教师任务的视频行为识别的top1准确率,将这些准确率经过softmax归一化后的输出作为各个对应教师任务的加权融合权;第二种为在线对每个训练样本输出不同损失权重的方法,本发明所述的目标网络是在同一视频中,教师网络输出的特征和学生网络输出的特征一致视为相似度高,本发明使用
正样本对点积相似度通过softmax归一化后,作为对应的对比损失权重,即正样本对的相似度越高,权重越大;第三种方法和第二种方法类似,也是在线方法,对于不同的训练样本也给出了不同的损失权重,第三种方法通过正样本对在所有样本对中的相似度排序的序列位置经过softmax归一化来确定损失权重。4.按照权利要求1所述加权融合多种图像任务的视频行为识别方法,其特征在于,步骤4所述对学生网络进行基于对比的加权融合训练的具体方法为:步骤4.1.构造正负样本对,本发明定义从同一个视频中选取的两个或多个特征,构成正样本对,从不同视频选取的两个或多个特征形成多个负样本对,在本发明中的网络分为两个分支,教师网络分支和学生网络分支,输入教师网络的视频记为v
教师
,输入学生的网络的视频记为v
学生
;步骤4.2.提取特征:将v
教师
和v
学生
分别通过步骤(3)中的教师模型和学生模型,得到提取后的特征,其中α代表v
学生
经过学生网络后产生的输出,g代表v
教师
经过教师网络的输出;步骤4.3.构造对比损失训练:对于正样本对,行为类别相同,无论经过教师网络还是学生网络,两者的最终输出分布仍然是相似的;负样本对的行为类别不同,分别经过教师网络后,两者的输出分布是不相似的,教师网络还是学生网络通过训练来使得正样本对的特征距离变小,从而更加相似;负样本对的特征距离变大,变得不同,进而使得分类器区分不同类别之间的特征,对于一个有(k 1)个视频的批次,选择来自同一个视频的一组样本作为正样本对,当前视频和其他视频构成的负样本对有k组,本发明使用基于infonce的对比损失,网络的优化目的是最小化,相似度采用两个向量的点乘构造,如下式(1)所示:其中,α代表v
学生
经过学生网络后产生的输出,g代表v
教师
经过教师网络的输出,τ是温度超参数,来缩放向量的相似程度,这个过程不需要标签数据;步骤4.4.完全自监督训练或自监督结合监督训练:本发明提供两种运行方式,完全无标签基于自监督的方式和存在标签的有标签的监督方式,对于存在自监督标签的任务,在运行过程中,学生网络的输出除了和教师网络产生自监督损失,还和标签产生有监督的交叉熵损失,两者的损失交叉熵损失和对比损失按照相应的比例叠加在一起,构成最终的损失函数,合并后的整体损失计算如下式(2):l
联合
=l
交叉熵损失
0.1l
对比损失
……
(2),本发明的学生网络的参数θ
α
采用反向传播的方式更新,而教师网络的参数θ
g
采用固定住的方式,避免对过去的知识产生遗忘。5.按照权利要求1所述加权融合多种图像任务的视频行为识别方法,其特征在于,步骤5所述在测试数据集上对模型视频行为识别进行性能测试,包括以下步骤:步骤5.1.根据学习到的行为识别视频表征,用softmax分类层,在目标任务数据集上利用少量有标签数据进行微调;步骤5.2.测试阶段,只保留学生网络和softmax分类层及其对应参数在目标任务数据
集上进行测试。

技术总结
本发明涉及一种加权融合多种图像任务的视频行为识别方法,包括以下具体步骤:步骤1.构建初始化的教师网络;步骤2.下载选定若干和视频行为识别正相关的视觉图像任务常用数据集的预训练模型和参数,作为初始化的教师网络;步骤3.建立多教师视频行为识别知识库;步骤4.在重新分配权重的多教师网络的指导下,对学生网络进行基于对比学习的自监督训练;步骤5.在测试数据集上对模型视频行为识别进行性能测试。本发明所述方法的优越效果在于:使用与作为目标任务的视频行为识别任务正相关的图像任务作为教师任务,采用对比自监督学习的训练方式,解决了在高质量视频标记样本不足的情况下的视频行为识别问题。有效地提升了视频行为识别的准确率。行为识别的准确率。行为识别的准确率。


技术研发人员:高广宇 刘驰 李金洋
受保护的技术使用者:北京理工大学
技术研发日:2021.06.11
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜