一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

小样本视频分类和分类模型训练方法及其装置

2022-09-07 20:34:23 来源:中国专利 TAG:

技术特征:
1.一种小样本视频分类方法,其特征在于,包括:将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型,获取压缩域信息;基于所述压缩域信息,获取短时融合的帧特征;基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果。2.根据权利要求1所述的小样本视频分类方法,其特征在于,所述将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型,获取压缩域信息,包括:基于小样本分类任务,获取预测帧重要性值和图像群组重要性值;基于所述图像群组重要性值获取信息帧的rgb图像,且基于所述预测帧重要性值获取预测帧的运动向量;基于预处理的所述信息帧的rgb图像和所述预测帧的运动向量,获取压缩域信息。3.根据权利要求2所述的小样本视频分类方法,其特征在于,所述基于所述图像群组重要性值获取信息帧的rgb图像,且基于所述预测帧重要性值获取预测帧的运动向量,包括:基于图像群组重要性值,获取阶段图像群组,其中,所述阶段图像群组包括训练图像群组和测试图像群组,所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定,所述测试图像群组是基于图像群组重要性值最高值确定;解码所述阶段图像群组的信息帧的rgb图像;基于所述阶段图像群组,获取阶段预测帧,其中,所述阶段预测帧包括训练预测帧和测试预测帧,训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定,所述测试预测帧是基于预测帧重要性值最高值确定;解码所述阶段预测帧的预测帧的运动向量,基于预处理的信息帧的rgb图像和预测帧的运动向量的获取,确定压缩域信息。4.根据权利要求1所述的小样本视频分类方法,其特征在于,所述基于所述压缩域信息,获取短时融合的帧特征,包括:基于所述压缩域信息,分别构建i分支和mv分支,且基于侧向连接的i分支和mv分支的短时交互,每个分支均输出短时融合的帧特征,其中,所述基于侧向连接的i分支和mv分支的短时交互发生于同一图像群组内。5.根据权利要求1-4中任一项所述的小样本视频分类方法,其特征在于,所述基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果,包括:基于自注意力层对短时融合的帧特征的处理,获取长短时帧特征;在长短时帧特征投影于查询类别原型所在特征空间的情况下,获取查询特征;输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。6.根据权利要求5所述的小样本视频分类方法,其特征在于,所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得,包括:
基于多个所述长短时帧特征首尾拼接获取的向量,获取视频的n元组,其中,n表示超参数,且n为正整数;基于查询视频的n元组集合,获取查询视频的n元组表示;基于支撑类别下所有支撑视频的n元组集合,获取支撑类别的n元组表示。7.一种小样本视频分类模型训练方法,其特征在于,包括:构建压缩域长短时cross-transformer模型;基于预先构建的小样本视频分类训练数据集,对所述压缩域长短时cross-transformer模型进行情节训练,获取收敛的压缩域长短时cross-transformer模型,其中,所述收敛的压缩域长短时cross-transformer模型执行如权利要求1-6中任一项所述的小样本视频分类方法。8.根据权利要求7所述的小样本视频分类模型训练方法,其特征在于,所述基于预先构建的小样本视频分类训练数据集,对所述压缩域长短时cross-transformer模型进行情节训练,获取收敛的压缩域长短时cross-transformer模型,包括:基于所述压缩域长短时cross-transformer模型输出的查询视频的分类分数和查询样本标签,确定目标函数值,并基于目标函数值,利用梯度下降优化法优化所述压缩域长短时cross-transformer模型的参数,获取收敛的压缩域长短时cross-transformer模型。9.一种小样本视频分类装置,其特征在于,包括:压缩域获取模块,用于将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型,获取压缩域信息;特征提取模块,用于基于所述压缩域信息,获取短时融合的帧特征;输出模块,用于基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果。10.一种小样本视频分类模型训练装置,其特征在于,包括:构建模块,用于构建压缩域长短时cross-transformer模型;训练模块,用于基于预先构建的小样本视频分类训练数据集,对所述压缩域长短时cross-transformer模型进行情节训练,获取收敛的压缩域长短时cross-transformer模型,其中,所述收敛的压缩域长短时cross-transformer模型执行如权利要求1-6中任一项所述的小样本视频分类方法。11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8中任一项所述的小样本视频分类模型训练方法。12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8中任一项所述的小样本视频分类模型训练方法。13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8中任一项所述的小样本视频分类模型训练方法。

技术总结
本发明提供一种小样本视频分类和分类模型训练方法及其装置,涉及计算机视觉技术领域,所述分类方法包括:将小样本分类任务输入预先构建的收敛的压缩域长短时Cross-Transformer模型,获取压缩域信息;基于压缩域信息,获取短时融合的帧特征;基于短时融合的帧特征,获取查询特征,并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,分类分数最大的支撑类别用于表示查询视频的分类结果。本发明可实现少量示例视频下的快速、高精度、高效率的小样本视频分类。高效率的小样本视频分类。高效率的小样本视频分类。


技术研发人员:李扬曦 彭成维 刘科栋 缪亚男 王佩 胡卫明 李兵 刘雨帆 王坚 罗文阳
受保护的技术使用者:中国科学院自动化研究所
技术研发日:2022.05.20
技术公布日:2022/9/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献