小样本视频分类和分类模型训练方法及其装置

2022-09-07 20:34:23 来源：中国专利 TAG：

1.本发明涉及计算机视觉技术领域，尤其涉及一种小样本视频分类和分类模型训练方法及其装置。

背景技术：

2.作为计算机视觉的一个重要研究领域，在每个类别给出少量示例的条件下，小样本视频分类方法将类别未知的视频分类为示例类别之一。通常将给出示例的类别称为支撑类别(support categories)，给出的示例称为支撑视频(support videos)，待分类视频称为查询视频(query videos)。小样本视频分类技术可以显著减少视频收集与标注的工作量，也可快速部署到新类别分类问题上而无需重新进行大规模训练。为了根据极其有限的示例对新视频进行正确分类，小样本视频分类通常一次输入一个任务(task)，任务由支撑视频和若干查询视频组成；输出该任务中所有查询视频的所属支撑类别。小样本视频分类方通常采用情节训练(episodic training)技术进行模型参数估计，该训练技术以大规模视频分类数据集为基础，将数据集按类别划分为三个子集，不同子集包含完全不同的类别，从各子集中抽样若干任务分别构成元训练集、元验证集和元测试集，这种训练方式保证了训练任务与测试任务的类别完全无重合，因此可以衡量小样本分类方法在新类别上的泛化能力。模型上，小样本视频分类方法根据支撑视频对查询视频进行分类，现有方法都可纳入匹配框架，即首先提取支撑视频和查询视频的特征，随后对查询视频和支撑视频的特征进行匹配(matching)，各方法的区别主要在于特征提取方法以及匹配方法的不同。
3.而常规视频分类方法需要为每个类别给出数以千计的示例，并用这些示例训练分类模型并获取模型参数，再用分类模型判断待分类样本的所属类别。当示例过少时，分类模型训练时会发生过拟合现象，使分类模型在示例之外的视频上分类准确率大幅下降。由于小样本视频分类中每个类别仅有数个示例，常规视频分类方法不能直接用于小样本视频分类。因此，小样本视频分类方法在输入输出、训练方法与模型设计上与常规视频分类方法有较大区别。
4.现有技术中，现有小样本视频分类方法仅仅处理视频帧的rgb图像，对时序信息的利用不够充分。一方面，现有方法均匀抽取视频帧，忽略了信息在帧间分布的不均匀性，因此不能提取出最具鉴别力的视频特征，阻碍了分类精度的提高；另一方面，现有方法只能从rgb图像中隐式推理时序信息，缺乏显式时序信息对分类进行引导，因此计算效率不高，限制了小样本视频分类方法的实际应用。

技术实现要素：

5.本发明提供一种小样本视频分类和分类模型训练方法及其装置，用以解决现有技术中仅处理视频帧的rgb图像，对时序信息的利用不够充分的缺陷，实现基于少量示例视频情况下的快速、高精度、高效率的小样本视频分类。
6.本发明提供一种小样本视频分类方法，包括：
7.将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息；
8.基于所述压缩域信息，获取短时融合的帧特征；
9.基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果。
10.根据本发明提供的小样本视频分类方法，所述将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息，包括：
11.基于小样本分类任务，获取预测帧重要性值和图像群组重要性值；
12.基于所述图像群组重要性值获取信息帧的rgb图像，且基于所述预测帧重要性值获取预测帧的运动向量；
13.基于预处理的所述信息帧的rgb图像和所述预测帧的运动向量，获取压缩域信息。
14.根据本发明提供的小样本视频分类方法，所述基于所述图像群组重要性值获取信息帧的rgb图像，且基于所述预测帧重要性值获取预测帧的运动向量，包括：
15.基于图像群组重要性值，获取阶段图像群组，其中，所述阶段图像群组包括训练图像群组和测试图像群组，所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定，所述测试图像群组是基于图像群组重要性值最高值确定；
16.解码所述阶段图像群组的信息帧的rgb图像；
17.基于所述阶段图像群组，获取阶段预测帧，其中，所述阶段预测帧包括训练预测帧和测试预测帧，训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定，所述测试预测帧是基于预测帧重要性值最高值确定；
18.解码所述阶段预测帧的预测帧的运动向量，基于预处理的信息帧的rgb图像和预测帧的运动向量的获取，确定压缩域信息。
19.根据本发明提供的小样本视频分类方法，所述基于所述压缩域信息，获取短时融合的帧特征，包括：基于所述压缩域信息，分别构建i分支和mv分支，且基于侧向连接的i分支和mv分支的短时交互，每个分支均输出短时融合的帧特征，其中，所述基于侧向连接的i分支和mv分支的短时交互发生于同一图像群组内。
20.根据本发明提供的小样本视频分类方法，所述基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果，包括：
21.基于自注意力层对短时融合的帧特征的处理，获取长短时帧特征；
22.在长短时帧特征投影于查询类别原型所在特征空间的情况下，获取查询特征；
23.输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。
24.根据本发明提供的小样本视频分类方法，所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得，包括：
25.基于多个所述长短时帧特征首尾拼接获取的向量，获取视频的n元组，其中，n表示
超参数，且n为正整数；
26.基于查询视频的n元组集合，获取查询视频的n元组表示；
27.基于支撑类别下所有支撑视频的n元组集合，获取支撑类别的n元组表示。
28.本发明还提供一种小样本视频分类模型训练方法，包括：
29.构建压缩域长短时cross-transformer模型；
30.基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，所述收敛的压缩域长短时cross-transformer模型执行上述的小样本视频分类方法。
31.根据本发明提供的小样本视频分类模型训练方法，所述基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，包括：
32.基于所述压缩域长短时cross-transformer模型输出的查询视频的分类分数和查询样本标签，确定目标函数值，并基于目标函数值，利用梯度下降优化法优化所述压缩域长短时cross-transformer模型的参数，获取收敛的压缩域长短时cross-transformer模型。
33.本发明还提供一种小样本视频分类装置，包括：
34.压缩域获取模块，用于将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息；
35.特征提取模块，用于基于所述压缩域信息，获取短时融合的帧特征；
36.输出模块，用于基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果。
37.本发明还提供一种小样本视频分类模型训练装置，包括：
38.构建模块，用于构建压缩域长短时cross-transformer模型；
39.训练模块，用于基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，所述收敛的压缩域长短时cross-transformer模型执行如上述任一项所述的小样本视频分类方法。
40.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述小样本视频分类方法和上述的小样本视频分类模型训练方法。
41.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述小样本视频分类方法和上述的小样本视频分类模型训练方法。
42.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述小样本视频分类方法和上述的小样本视频分类模型训练方法。
43.本发明提供的小样本视频分类和分类模型训练方法及其装置，分类时通过利用压缩域信息选取重要性值较高的图像群组，以获得包含较多信息的重要帧，通过对信息帧的rgb图像表观信息和预测帧运动向量的短时交互获取短时融合的帧特征和长短时帧特征，
及对查询视频和支撑视频的全局匹配，并以预测分类分数最大的支撑类别作为查询视频的分类类别，实现在仅给出少量支撑视频的条件下对查询视频进行高精度分类，且提高计算效率，应用范围较广，可基于现有的大规模视频分类数据进行训练，无需额外收集和标注视频数据，减少工作量。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明提供的小样本视频分类方法的流程示意图；
46.图2是本发明提供的基于单个视频压缩域信息的获取流程示意图；
47.图3是本发明提供的短时融合的帧特征的获取流程示意图；
48.图4是本发明提供的两个分支通过侧向连接进行短时交互的示意图之一；
49.图5是本发明提供的两个分支通过侧向连接进行短时交互的示意图之二；
50.图6是本发明提供的单个分支中查询特征及分类分数的获取流程示意图；
51.图7是本发明提供的小样本视频分类装置的结构示意图；
52.图8是本发明提供的小样本视频分类模型训练装置的结构示意图；
53.图9是本发明提供的电子设备的结构示意图。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
55.下面结合图1-图6描述本发明的小样本视频分类方法。
56.本发明提供一种小样本视频分类方法，图1是本发明提供的小样本视频分类方法的流程示意图，如图1所示，该方法包括：
57.步骤110、将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息。
58.可选地，压缩域信息的获取方法，包括：
59.基于小样本分类任务，获取预测帧重要性值和图像群组重要性值；
60.基于图像群组重要性值获取信息帧的rgb图像，且基于预测帧重要性值获取预测帧的运动向量；
61.基于预处理的信息帧的rgb图像和预测帧的运动向量，获取压缩域信息。
62.可选地，压缩域长短时cross-transformer模型的分类是基于任务进行的，任务是支撑类别和查询视频的集合，其中，每个支撑类别提供多个支撑视频作为示例，即支撑视频为已知分类类别的视频，支撑类别为支撑视频的分类类别，支撑视频所属的支撑类别在任务中给出，查询视频的所属类别是未知的，任务的目标是将所有查询视频分类为支撑类别
之一。示例地，压缩域长短时cross-transformer模型输入的任务包括k个支撑视频和n个查询视频，压缩域长短时cross-transformer模型的输出是全部n个查询视频对各个支撑类别的分类分数。本发明的压缩域长短时cross-transformer模型对任务的结构不作限制，即模型对任务中支撑类别的数量、各个支撑类别包含的支撑视频数量和查询视频的数量不作限制，对所有任务是否必须具有相同的结构也不作要求，出于方便考虑，可在实现时限制任务结构相同，用占位输入替代缺失的视频，并在构造元组表示时的互注意力层添加注意力掩码，以避免占位输入参与原型计算。
63.可选地，图2是本发明提供的基于单个视频压缩域信息的获取流程示意图，如图2所示，单个视频的压缩域信息获取方法包括：
64.以压缩格式存储的压缩视频作为输入视频；抽取压缩视频中所有预测帧的运动向量；根据预测帧的运动向量计算预测帧重要性值和图像群组重要性值；根据预测帧重要性值和图像群组重要性值，从压缩视频中抽取信息帧的rgb图像和预测帧的运动向量，对抽取的信息帧的rgb图像和预测帧的运动向量进行预处理，获取压缩域信息。基于预测帧的运动向量计算预测帧重要性值i(m
t,l
)的计算公式如式(1)所示：
[0065][0066]
其中，t表示图像群组序号，l表示预测帧序号，|g
t,l
|表示第t个图像群组的第l个预测帧的图像坐标集合的元素数，(x,y)表示图像坐标，||m
t,l
(x,y)||1表示图像坐标(x,y)处的运动向量的l1范数，α表示超参数。
[0067]
基于预测帧重要性值i(m
t,l
)计算图像群组重要性值i(gop
t
)的计算公式如式(2)所示：
[0068][0069]
其中，t表示图像群组序号，l
t
表示第t个图像群组的预测帧数量，i(m
t,l
)表示第t个图像群组的第l个预测帧的重要性值。
[0070]
可选地，如图2所示，输入是以压缩格式存储的视频，输出的是视频的压缩域信息，实际应用中，视频几乎是以压缩格式存储，常见的格式如mpeg与h.264都采用运动预测的方式对视频进行编码，视频按帧划分为多个图像群组(group of pictures)，每个图像群组由一个信息帧(i-frame)和紧随其后的连续多个预测帧(p-frames)组成，信息帧用于编码rgb图像，预测帧用于编码以上一帧为参照按块计算的运动向量和残差，再从信息帧后第一个预测帧开始，根据当前预测帧和上一帧的rgb图像计算当前帧的rgb图像，因此，只需要进行部分的解码过程就能得到信息帧的rgb图像和预测帧的运动向量，大幅度提高解码效率。
[0071]
可选地，信息帧的rgb图像和预测帧的运动向量的获取方法包括：
[0072]
基于图像群组重要性值，获取阶段图像群组，其中，阶段图像群组包括训练图像群组和测试图像群组，训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定，测试图像群组是基于图像群组重要性值最高值确定，即训练时，将图像群组重要性值归一化，获取关于图像群组的概率分布，基于概率分布随机选取g个图像群组，
即训练图像群组，测试时选取图像群组重要性值最高的g个图像群组，即测试图像群组，g表示超参数且为正整数；
[0073]
解码阶段图像群组的信息帧的rgb图像；
[0074]
基于阶段图像群组，获取阶段预测帧，其中，阶段预测帧包括训练预测帧和测试预测帧，训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定，测试预测帧是基于预测帧重要性值最高值确定，即，基于被选取的阶段图像群组，训练时，将训练图像群组中所有预测帧的预测帧重要性值归一化，获取关于预测帧的概率分布，基于预测帧的概率分布随机选取m个预测帧，即训练预测帧，测试时，选取预测帧重要性值最高的m个预测帧，m表示超参数且为正整数，基于测试的稳定性考虑，测试时的抽取过程消除了训练时抽取过程的随机性；
[0075]
解码所述阶段预测帧的预测帧的运动向量，基于预处理的信息帧的rgb图像和预测帧的运动向量的获取，确定压缩域信息。
[0076]
可选地，信息帧的rgb图像和预测帧的运动向量的抽取方法还包括：测试时的抽取过程与训练时的抽取过程相同，但是对同一任务进行多次预测，对查询视频的分类分数取均值作为最终预测的分类分数，随后取分数最大的支撑类别作为查询视频的预测类别。
[0077]
可选地，信息帧的rgb图像和预测帧的运动向量的预处理方法包括：对预测帧的运动向量进行累积和对齐；将预测帧的运动向量分别除以视频的高和宽；将视频缩放至固定的尺寸；训练时按随机尺寸和高宽比对视频进行随机裁剪，测试时按固定尺寸对视频进行中心裁剪；训练时对信息帧的rgb图像进行随机色彩扰动，测试时对信息帧的rgb图像的色彩不作操作；对信息帧的rgb图像的rgb图像进行归一化。其中，测试时的预处理与训练时预处理有所区别，其目的是为了在测试时消除随机性，保持测试结果的稳定性，为实现这一目的，还可在测试时使用和训练时相同的预处理操作，但对同一任务进行多次预测，之后对查询视频的分类分数取均值作为最终预测的分类分数，并去分类分数最大的支撑类别作为查询视频的预测类别。
[0078]
可选地，预处理中对预测帧的运动向量，可采用迭代算法进行累积和对齐，迭代算法步骤如下：
[0079]
1)、初始化当前帧为待计算累积运动向量的帧，初始化累积运动向量为该帧的运动向量；
[0080]
2)、找到累积运动向量在前一帧的参考位置，将前一帧的参考位置的运动向量与累积运动向量首尾相接，并将当前帧前移一帧；
[0081]
3)、循环执行步骤2)直至当前帧为信息帧；
[0082]
4)、将累积运动向量存储至其参考的图像坐标。
[0083]
步骤120、基于压缩域信息，获取短时融合的帧特征。
[0084]
可选地，图3是本发明提供的短时融合的帧特征的获取流程示意图，如图3所示，该方法包括：
[0085]
基于压缩域信息，分别构建i分支和mv分支，且基于侧向连接的i分支和mv分支的短时交互，每个分支均输出短时融合的帧特征，其中，基于侧向连接的i分支和mv分支的短时交互发生于同一图像群组内。
[0086]
可选地，如图3所示，i分支和mv分支均包括但不限于骨干神经网络，i分支以信息
帧的rgb图像为输入，mv分支以预测帧的运动向量为输入，两个分支通过侧向连接进行短时交互，两个分支分别输出短时融合的帧特征。
[0087]
示例地，两个分支均以resnet为骨干神经网络，i分支采用resnet18结构，mv分支采用resnet50结构，并在每一级进行交互，resnet是多级卷积神经网络，包含五级卷积层，分别为conv1、conv2、conv3、conv4和conv5，特别地，在mv分支的conv1之前增加一个实例归一化层，mv分支的第一个卷积层被替换为输入通道数为2的7
×
7卷积层，替换的原因为预测帧的运动向量只有两个通道，分别表示为x分量和y分量。两个分支的最后一个全连接层都被移除以获得特征向量作为帧特征。除conv1外，每一级各自包含多个残差块。
[0088]
可选地，图4是本发明提供的两个分支通过侧向连接进行短时交互的示意图之一，如图4所示，交互仅发生在同一图像群组内的i分支特征和mv分支特征之间，i分支特征的p部分的通道和mv分支的所有通道参与侧向连接，p表示超参数且p∈[0，1]。信息帧的rgb图像特征中参与侧向连接的p部分被r等分后，分别与该帧所在图像群组中被选中预测帧的运动向量特征建立侧向连接。示例地，如图4所示，每个图像群组中的预测帧数量为2个，因此，信息帧i分支特征的p部分被2等分，即r＝2，分别与统一图像群组内的两个预测帧的mv分支特征键进行交互。同时，图4所示的i分支和mv分支均采用resnet神经网络，侧向连接仅在i分支的conv2、conv3、conv4和conv5的第一个残差块和mv分支的对应级的第一个残差块间进行，参与交互的残差块称为交互残差块。
[0089]
可选地，图5是本发明提供的两个分支通过侧向连接进行短时交互的示意图之二，如图5所示，交互残差块的交互方法包括：采用1
×
1分组卷积实现侧向连接，参与侧向连接的i分支特征和mv分支特征分别经过卷积后叠加至相对分支的对应交互残差块的残差路径上。
[0090]
可选地，对每个视频而言，g个信息帧的rgb图像经过步骤220处理后，得到g个i分支帧特征向量，g个i分支帧特征向量按行堆叠得到i分支特征矩阵其中，di是i分支帧特征向量的维度；gr个预测帧的运动向量经过步骤220处理，得到gr个mv分支帧特征向量，gr个mv分支帧特征向量按行堆叠得到mv分支特征矩阵其中,d
mv
是mv分支帧特征向量的维度。zi和z
mv
是最终输出的短时融合的帧特征，其分别作为后续的两个长时单元4013的输入。
[0091]
步骤130、基于短时融合的帧特征，获取查询特征，并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，分类分数最大的支撑类别用于表示查询视频的分类结果。
[0092]
可选地，查询特征及分类分数的获取方法包括：
[0093]
基于自注意力层对短时融合的帧特征的处理，获取长短时帧特征；
[0094]
在长短时帧特征投影于查询类别原型所在特征空间的情况下，获取查询特征；
[0095]
输出基于查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数，其中，查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。
[0096]
可选地，图6是本发明提供的单个分支中查询特征及分类分数的获取流程示意图，如图6所示，该方法包括：
[0097]
1)、通过自注意力层处理每个视频的短时融合的帧特征得到长短时帧特征，自注意力层的计算公式如式(3)所示：
[0098][0099]
其中，h表示自注意力的输出，softmax()表示softmax函数，表示三个可学习的线性变换。
[0100]
2)、通过互注意力层为查询视频和每个支撑类别分别构造元组表示，根据元组表示计算查询类别原型，并将查询视频的长短时帧特征投影至查询类别原型所在特征空间中得到查询特征，基于支撑类别和查询视频的n元组表示，用互注意力层计算每个支撑类别原型的计算公式如式(4)所示：
[0101][0102]
其中，u
b,c
表示针对查询视频的n元组qb计算得到的支撑类别c的原型，qb表示以b为下标的n元组，和表示三个可学习的线性变换，dk和dv表示超参数且为正整数，sc表示将支撑类别c的所有支撑视频的全体n元组按行堆叠得到的类元组表示。
[0103]
3)、在查询类别原型所在特征空间中计算查询特征到各个查询类别原型的负距离，得到查询视频对各个查询类别原型所属支撑类别的分类分数作为模型输出，负距离的计算公式如式(5)所示：
[0104]
δ
b,c
＝-||qbw
v-u
b,c
||
ꢀꢀꢀ
(5)，
[0105]
其中，δ
b,c
是查询视频的n元组qb到支撑类别c相应的原型u
b,c
的距离，||
·
||表示任意的距离度量，距离度量包括但不限于平方欧式距离。对查询视频的每个n元组如式(5)所示计算得到负距离后，取负距离的均值作为该查询视频到支撑类别c的分类分数，记为对每个输入的任务，压缩域长短时cross-transformer模型为其中的每个查询视频输出对应的分类分数。
[0106]
可选地，步骤130中对于i分支和mv分支的处理方法完全相同，仅有参数维度zi和z
mv
的维度不同，因此，将z∈{zi,z
mv
}作为对应分支输出的特征矩阵，d∈{di,d
mv
}为对应矩阵的维度。
[0107]
可选地，如图6所示，在自注意力层之间对z进行层归一化，还可采用多头自注意力层替代自注意力层，也可给z的行向量叠加位置编码；在互注意力层之前对元组表示进行层归一化。
[0108]
可选地，定义向量集合的一个n元组为该集合的一种n元素子集中所有向量首尾拼接得到的向量。基于多个长短时帧特征首尾拼接获取的向量，获取视频的n元组，其中，n表
示超参数，且n为正整数；
[0109]
基于查询视频的n元组集合，获取查询视频的n元组表示，查询视频的n元组集合包括多个查询视频的n元组；
[0110]
基于支撑类别下所有支撑视频的n元组集合，获取支撑类别的n元组表示。
[0111]
可选地，互注意力层的计算方法包括：为查询视频和支撑类别构造n元组表示；根据查询视频和支撑类别的n元组表示用胡注意力层计算每个支撑类别的原型；将查询视频的n元组表示投影到支撑类别原型所在的特征空间，然后在支撑类别原型所在的特征空间中计算负距离作为分类分数。
[0112]
视频的n元组表示由自注意力层的输出h的行向量的所有可能的n元组构成，每个n元组的计算公式如式(6)所示：
[0113][0114]
其中，b＝{j1,j2,
…
,jn}，表示输出h的全体行向量序号的一种无重复的n组合，如n＝3、h包含8行且行序号为{1,2,
…
,8}时，b可以是{1,3,6}，表示向量拼接操作。输出h在计算n元组之前叠加位置编码。
[0115]
可选地，小样本分类任务包括：支撑类别、支撑视频和查询视频，小样本分类任务中的支撑视频包括但不限于小样本视频分类训练数据集中元训练集和元验证集中的视频，小样本分类任务中的支撑类别包括不限于元训练集合元验证集中的类别，且分类结果计算公式如式(7)所示：
[0116][0117]
其中，表示步骤130中查询视频对支撑类别c的分类分数。
[0118]
本发明提供的小样本视频分类方法，分类时通过利用压缩域信息选取重要性值较高的图像群组，以获得包含较多信息的重要帧，通过对信息帧的rgb图像表观信息和预测帧运动向量的短时交互获取短时融合的帧特征和长短时帧特征，及对查询视频和支撑视频的全局匹配，并以预测分类分数最大的支撑类别作为查询视频的分类类别，实现在仅给出少量支撑视频的条件下对查询视频进行高精度分类，且提高计算效率，应用范围较广，同时，可基于现有的大规模视频分类数据进行训练，无需额外收集和标注视频数据，减少工作量。
[0119]
本发明还提供一种小样本视频分类模型训练方法，该方法包括：
[0120]
构建压缩域长短时cross-transformer模型；
[0121]
基于预先构建的小样本视频分类训练数据集，对压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，收敛的压缩域长短时cross-transformer模型执行上述的小样本视频分类方法。可选地，小样本视频分类训练数据集的构建方法包括：将大规模视频分类数据集按类别划分为三个子集，不同子集包含的类别不重合；从三个子集中各自抽样多个任务，分别构成元训练集、元验证集和元测试集，元训练集和元验证集用于模型训练和超参数选择，元测试集用于模型评估和不同模型间的比较。
[0122]
可选地，模型的一次完整前向计算以输入一个任务开始，到输出分类分数或分类结果为止。任务的标签，即查询视频的真实所属类别用于模型训练和评估，不应作为模型的
输入。
[0123]
可选地，情节训练方法包括：
[0124]
基于压缩域长短时cross-transformer模型输出的查询视频的分类分数和查询样本标签，确定目标函数值，并基于目标函数值，利用梯度下降优化法优化压缩域长短时cross-transformer模型的参数，获取收敛的压缩域长短时cross-transformer模型。
[0125]
可选地，目标函数采用交叉熵损失函数，计算公式如式(8)所示：
[0126][0127]
其中，n是任务中查询视频的数量，c是任务中支撑类别的数量，h
c,i
是第i个查询视频对第c个支撑类别的0-1标签，是第i个查询视频对第c个支撑类别的分类分数。
[0128]
可选地，加快情节训练过程收敛速度的方法包括但不限于：可采用imagenet预处理权值，初始化resnet网络，按一定的训练步长以0.1的比例降低学习率，采用warmup技术从较低的学习率开始线性增长至较高的初始学习率。
[0129]
本发明提供的小样本视频分类模型训练方法，通过构建压缩域长短时cross-transformer模型，并通过情节训练，使收敛的压缩域长短时cross-transformer模型中的参数得到优化，提高压缩域信息、短时融合的帧特征和查询特征的准确度，进而提高分类准确度。
[0130]
下面对本发明提供的小样本视频分类装置进行描述，下文描述的小样本视频分类装置与上文描述的小样本视频分类方法可相互对应参照。
[0131]
本发明还提供一种小样本视频分类装置，图7是本发明提供的小样本视频分类装置的结构示意图，如图7所示，小样本视频分类装置400包括：压缩域获取模块401、特征提取模块402、输出模块403，其中：
[0132]
压缩域获取模块401，用于将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息；
[0133]
特征提取模块402，用于基于压缩域信息，获取短时融合的帧特征；
[0134]
输出模块403，用于基于短时融合的帧特征，获取查询特征，并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，分类分数最大的支撑类别用于表示查询视频的分类结果。
[0135]
本发明提供的小样本视频分类装置，分类时通过利用压缩域信息选取重要性值较高的图像群组，以获得包含较多信息的重要帧，通过对信息帧的rgb图像表观信息和预测帧运动向量的短时交互获取短时融合的帧特征和长短时帧特征，及对查询视频和支撑视频的全局匹配，并以预测分类分数最大的支撑类别作为查询视频的分类类别，实现在仅给出少量支撑视频的条件下对查询视频进行高精度分类，且提高计算效率，应用范围较广，可基于现有的大规模视频分类数据进行训练，无需额外收集和标注视频数据，减少工作量。
[0136]
可选地，压缩域获取模块401，具体用于：
[0137]
基于小样本分类任务，获取预测帧重要性值和图像群组重要性值；
[0138]
基于图像群组重要性值获取信息帧的rgb图像，且基于预测帧重要性值获取预测帧的运动向量；
[0139]
基于预处理的信息帧的rgb图像和预测帧的运动向量，获取压缩域信息。
[0140]
可选地，压缩域获取模块401，具体用于：
[0141]
基于图像群组重要性值，获取阶段图像群组，其中，阶段图像群组包括训练图像群组和测试图像群组，训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定，测试图像群组是基于图像群组重要性值最高值确定；
[0142]
解码阶段图像群组的信息帧的rgb图像；
[0143]
基于阶段图像群组，获取阶段预测帧，其中，阶段预测帧包括训练预测帧和测试预测帧，训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定，测试预测帧是基于预测帧重要性值最高值确定；
[0144]
解码阶段预测帧的预测帧的运动向量，基于预处理的信息帧的rgb图像和预测帧的运动向量的获取，确定压缩域信息。
[0145]
可选地，特征提取模块402，具体用于：
[0146]
基于压缩域信息，分别构建i分支和mv分支，且基于侧向连接的i分支和mv分支的短时交互，每个分支均输出短时融合的帧特征，其中，基于侧向连接的i分支和mv分支的短时交互发生于同一图像群组内。
[0147]
可选地，输出模块403，具体用于：
[0148]
基于自注意力层对短时融合的帧特征的处理，获取长短时帧特征；
[0149]
在长短时帧特征投影于查询类别原型所在特征空间的情况下，获取查询特征；
[0150]
输出基于查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数，其中，查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。
[0151]
可选地，输出模块403，具体用于：
[0152]
基于多个长短时帧特征首尾拼接获取的向量，获取视频的n元组，其中，n表示超参数，且n为正整数；
[0153]
基于查询视频的n元组集合，获取查询视频的n元组表示；
[0154]
基于支撑类别下所有支撑视频的n元组集合，获取支撑类别的n元组表示。
[0155]
本发明还提供了一种小样本视频分类模型训练装置，图8是本发明提供的小样本视频分类模型训练装置的结构示意图，如图8所示，小样本视频分类模型训练装置500包括构建模块501和训练模块502，其中：
[0156]
构建模块501，用于构建压缩域长短时cross-transformer模型；
[0157]
训练模块502，用于基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，所述收敛的压缩域长短时cross-transformer模型执行如上述任一项所述的小样本视频分类方法。
[0158]
本发明提供的小样本视频分类模型训练装置，通过构建压缩域长短时cross-transformer模型，并通过情节训练，使收敛的压缩域长短时cross-transformer模型中的
参数得到优化，提高压缩域信息、短时融合的帧特征和查询特征的准确度，进而提高分类准确度。
[0159]
可选地，训练模块502，具体用于：
[0160]
基于所述压缩域长短时cross-transformer模型输出的查询视频的分类分数和查询样本标签，确定目标函数值，并基于目标函数值，利用梯度下降优化法优化所述压缩域长短时cross-transformer模型的参数，获取收敛的压缩域长短时cross-transformer模型。
[0161]
图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备600可以包括：处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行小样本视频分类方法和小样本视频分类模型训练方法，其中：
[0162]
小样本视频分类方法，包括：
[0163]
将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息；
[0164]
基于压缩域信息，获取短时融合的帧特征；
[0165]
基于短时融合的帧特征，获取查询特征，并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，分类分数最大的支撑类别用于表示查询视频的分类结果。
[0166]
小样本视频分类模型训练方法，包括：
[0167]
构建压缩域长短时cross-transformer模型；
[0168]
基于预先构建的小样本视频分类训练数据集，对压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，收敛的压缩域长短时cross-transformer模型执行上述的小样本视频分类方法。
[0169]
可选地，本发明具体的硬件和编程语言包括但不限于：具有2.8g赫兹中央处理器、16g字节内存和4台nvidia rtx2060图像处理器的计算机，并用python和c语言，基于pytorch深度学习框架和ffmpeg视频编码程序编制了小样本视频分类的工作程序，以实现小样本视频分类方法和小样本视频分类模型训练方法。
[0170]
此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0171]
另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，计算机程序被处理器执行时，计算机能够执行上述各方法所提供的小样本视频分类方法和小样本视频分类模型训练方法，其中：
[0172]
小样本视频分类方法，包括：
[0173]
将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息；
[0174]
基于压缩域信息，获取短时融合的帧特征；
[0175]
基于短时融合的帧特征，获取查询特征，并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，分类分数最大的支撑类别用于表示查询视频的分类结果。
[0176]
小样本视频分类模型训练方法，包括：
[0177]
构建压缩域长短时cross-transformer模型；
[0178]
基于预先构建的小样本视频分类训练数据集，对压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，收敛的压缩域长短时cross-transformer模型执行上述的小样本视频分类方法。
[0179]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的小样本视频分类方法和小样本视频分类模型训练方法，其中：
[0180]
小样本视频分类方法，包括：
[0181]
将小样本分类任务输入预先构建的收敛的压缩域长短时cross-transformer模型，获取压缩域信息；
[0182]
基于压缩域信息，获取短时融合的帧特征；
[0183]
基于短时融合的帧特征，获取查询特征，并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，分类分数最大的支撑类别用于表示查询视频的分类结果。
[0184]
小样本视频分类模型训练方法，包括：
[0185]
构建压缩域长短时cross-transformer模型；
[0186]
基于预先构建的小样本视频分类训练数据集，对压缩域长短时cross-transformer模型进行情节训练，获取收敛的压缩域长短时cross-transformer模型，其中，收敛的压缩域长短时cross-transformer模型执行上述的小样本视频分类方法。
[0187]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0188]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0189]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管
参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：日志输出方法、系统、装置、车载设备和可读存储介质与流程

小样本视频分类和分类模型训练方法及其装置

相关文献

最热文献