视频分类方法、装置、电子设备及存储介质与流程

2022-11-19 15:06:24 来源：中国专利 TAG：

1.本技术属于人工智能技术领域，具体涉及一种视频分类方法、装置、电子设备及存储介质。

背景技术：

2.目前，电子设备可以对视频进行标签分类，从而使得用户可以快速查找到需求的视频。相关技术中，电子设备可以通过神经网络将视频的网络特征分布输出为标签，从而电子设备可以根据该标签确定视频类别。
3.然而，当神经网络输出的标签较多(例如十万)时，神经网络通过标签识别视频的类别的计算量也会增多，导致神经网络的收敛速度降低，如此，电子设备的视频分类效率较差。

技术实现要素：

4.本技术实施例的目的是提供一种视频分类方法、装置、电子设备及存储介质，能够解决电子设备的视频分类效率较差的问题。
5.第一方面，本技术实施例提供了一种视频分类方法，该视频分类方法包括：获取目标视频的视频特征信息；目标视频包括图像特征信息和文本特征信息；将视频特征信息输入至视频分类模型，对目标视频进行第一分类处理，得到目标视频对应的m个第一分类类别，并对多个视频特征中的每个视频特征进行第二分类处理，得到目标视频对应的n个第二分类类别，m、n为正整数；基于m个第一分类类别，校准n个第二分类类别，并通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别。
6.第二方面，本技术实施例提供了一种视频分类装置，该视频分类装置包括：获取模块、处理模块、校准模块和确定模块。获取模块，用于获取目标视频的视频特征信息；该目标视频包括图像特征信息和文本特征信息。处理模块，用于将视频特征信息输入至视频分类模型，对目标视频进行第一分类处理，得到目标视频对应的m个第一分类类别，并对多个视频特征中的每个视频特征进行第二分类处理，得到目标视频对应的n个第二分类类别，m、n为正整数。校准模块，用于基于m个第一分类类别，校准n个第二分类类别。确定模块，用于通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别。
7.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
8.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
9.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
10.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
11.在本技术实施例中，电子设备可以对目标视频进行第一分类处理，以得到目标视频对应的m个第一分类类别，并对目标视频的图像特征信息和文本特征信息进行第二分类处理，得到目标视频对应的n个第二分类类别，从而电子设备可以根据m个第一分类类别校准第二分类类别，并通过校准后的第二分类类别，确定目标视频对应的目标分类类别。本方案中，电子设备可以通过多个分支对目标视频的特征信息进行处理，而且通过第一分支指导第二分支的方式，可以提高目标视频所属分类的准确性，进而当电子设备输出的分类类别达到千万级别时，由于电子设备可以是通过不同分支之间的指导，确定目标视频所属的分类，进而电子设备可以通过不同细粒度之间的标签快速识别出目标视频对应的分类类别，如此，提升了电子设备识别视频分类的效率和准确性。
附图说明
12.图1是本技术实施例提供的一种视频分类方法的流程图；
13.图2是本技术实施例提供的一种视频分类方法的界面的实例示意图；
14.图3是本技术实施例提供的一种视频分类装置的结构示意图；
15.图4是本技术实施例提供的一种电子设备的硬件结构示意图之一；
16.图5是本技术实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
17.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
18.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
19.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的视频分类方法进行详细地说明。
20.目前，随着通信技术的发展，电子设备中的功能也日渐增多，例如电子设备可以通过神经网络对视频进行分类，以使得用户可以根据分类快速查找到自身需求的视频，通常，电子设备可以通过神经网络中的一个全连接层将视频的网络特征分布输出为标签，从而根据该标签确定视频属于的分类，然而，当神经网络输出的标签较多(例如十万)时，单个全连接层无法完整的刻画特征到类别之间的映射，同时标签之间存在粗、细粒度之间的区别，电子设备需要通过神经网络先进行类别之间的粗粒度判别，然后再进行类别之间的细粒度判别。由于单个全连接层需要处理较多的数据量，导致神经网络的精度和神经网络的收敛速
度较差，如此，电子设备的视频分类效率较差。
21.本技术实施例中，电子设备可以对目标视频进行第一分类处理，以得到目标视频对应的m个第一分类类别，并对目标视频的图像特征信息和文本特征信息进行第二分类处理，得到目标视频对应的n个第二分类类别，从而电子设备可以根据m个第一分类类别校准第二分类类别，并通过校准后的第二分类类别，确定目标视频对应的目标分类类别。本方案中，电子设备可以通过多个分支对目标视频的特征信息进行处理，而且通过第一分支指导第二分支的方式，可以提高目标视频所属分类的准确性，进而当电子设备输出的分类类别达到千万级别时，由于电子设备可以是通过不同分支之间的指导，确定目标视频所属的分类，进而电子设备可以通过不同细粒度之间的标签快速识别出目标视频对应的分类类别，如此，提升了电子设备识别视频分类的效率和准确性。
22.本技术实施例提供的视频分类的执行主体可以为视频分类装置，该视频分类装置可以为电子设备，或电子设备中的功能模块。以下以电子设备为例，对本技术实施例提供的技术方案进行说明。
23.本技术实施例提供一种视频分类方法，图1示出了本技术实施例提供的一种视频分类方法的流程图。如图1所示，本技术实施例提供的视频分类方法可以包括下述的步骤201至步骤203。
24.步骤201、电子设备获取目标视频的视频特征信息。
25.本技术实施例中，上述目标视频包括图像特征信息和文本特征信息。
26.本技术实施例中，电子设备可以通过获取目标视频的视频特征信息，从而通过该视频特征信息，确定目标视频对应的至少一个分类类别。
27.可选地，本技术实施例中，上述视频帧特征信息可以为目标视频中每帧视频帧中的视频特征，或者为目标视频中的关键帧中的视频特征。
28.具体地，上述关键帧为电子设备通过预设时长所截取的视频帧。
29.可选地，本技术实施例中，文本特征信息可以为目标视频对应的标题特征信息和目标视频中的文本(例如字幕)特征信息。
30.可选地，本技术实施例中，上述分类类别可以包括以下至少一项：游戏类别、聊天类别、生活类别和美食类别等。
31.可选地，本技术实施例中，电子设备在得到目标视频的视频特征信息之后，电子设备可以以向量形式或数组形式将该视频特征信息进行保存，并通过向量形式或数组形式的视频特征信息，确定目标视频对应的至少一个分类类别。
32.可选地，本技术实施例中，上述步骤201具体可以通过下述的步骤201a和步骤201b实现。
33.步骤201a、电子设备提取目标视频的l视频帧对应的图像特征信息，以及目标视频对应的文本特征信息，l为大于1的整数。
34.本技术实施例中，电子设备可以对目标视频均匀采样l帧视频帧，然后根据目标视频的第一顺序，对该l帧视频帧进行排序，然后将该l帧视频帧输入至视频特征提取模型中，以提取l帧视频帧对应的图像特征信息，然后，电子设备可以将目标视频对应的文本，输入至文本特征提取模型中，以提取目标视频对应的文本特征信息。
35.可选地，本技术实施例中，上述第一顺序可以为电子设备根据目标视频的时序确
定的(例如目标视频的原始时序)；或者，第一顺序可以为电子设备根据l帧视频帧中的图像对象数量确定的。
36.可选地，本技术实施例中，上述图像对象可以包括以下至少一项：人物对象、动物对象和风景对象。
37.可选地，本技术实施例中，上述视频特征提取模型可以为vision transformer神经网络、卷积神经网络、反向传播(back propagation，bp)神经网络、径向基函数(radial basis function，rbf)神经网络、线性神经网络或自组织神经网络。
38.具体地，上述文本特征提取模型可以为bert模型。
39.示例性地，如图2所示，针对电子设备提取目标视频的l帧视频帧对应的图像特征信息，电子设备将目标视频均匀采样8帧视频帧(图2中以1-8表示)，组成[8，3，224，224](下述简称为第一向量)的输入，然后将该8帧视频帧通过tokenize模块10展平为图像，并输入至vision transformer神经网络中的空间transformer模块11中，以提取8帧视频帧中的每一帧的图像空间特征，并输出[8，64，768]的第二向量12，然后通过vision transformer神经网络中的时间transformer模块13，对第二向量进行时间维度上的聚合，输出[128，768]的第三向量14，该第三向量为8帧视频帧对应的图像特征信息；其中，第一向量中的8用于指示8帧视频帧，第一向量中的3用于指示8帧视频帧的3个维度(例如r、g、b)，第一向量中的224用于指示8帧视频帧中每帧视频帧的图像尺寸；第二向量中的8用于指示8帧视频帧，第二向量中的64用于指示8帧视频帧中的图像特征信息的数量，第二向量中的768用于指示8帧视频帧中的每帧视频帧的图像尺寸；第三向量中的128用于指示8帧视频帧经过二次处理得到的图像特征信息的数量，第三向量中的768用于指示8帧视频帧的每帧视频帧的图像尺寸。
[0040]
又示例性地，针对电子设备提取目标视频的对应的文本特征信息，电子设备可以将与目标视频对应的标题文本信息输入至bert模型中，以通过该bert模型提取标题文本信息对应的文本特征，并输出[64，768]第四向量，其中，该第四向量中的64用于指示标题文本信息的特征数量，第四向量中的768用于指示标题文本信息的对应的文本尺寸。
[0041]
步骤201b、电子设备将图像特征信息和文本特征信息进行特征融合，得到视频特征信息。
[0042]
本技术实施例中，电子设备在得到图像特征信息对应的第三向量和文本特征信息对应的第四向量之后，电子设备可以通过目标模型将第三向量和第四向量进行融合处理，以得到视频特征信息。
[0043]
具体地，上述目标模型可以为交叉注意(cross attention)模型。
[0044]
示例性地，电子设备可以通过cross attention模型，将图像特征信息和文本特征信息进行融合，并最终输出一个特征向量(即视频特征信息对应的特征向量)。
[0045]
本技术实施例中，电子设备可以通过cross attention模型整合目标视频的图像特征信息和文本特征信息之间的信息，从而可以识别出图像特征信息和文本特征信息之间的关联，进而提升了电子设备确定目标视频分类的准确性。
[0046]
步骤202、电子设备将视频特征信息输入至视频分类模型，对目标视频进行第一分类处理，得到目标视频对应的m个第一分类类别，并对图像特征信息和文本特征信息进行第二分类处理，得到目标视频对应的n个第二分类类别，m、n为正整数。
[0047]
本技术实施例中，上述视频分类模型可以包括两个处理分支，该两个处理分支中的第一处理分支中可以包括第一分类处理模块，两个处理分支中的第二处理分支中可以包括第二分类处理模块，从而电子设备可以通过该两个分类处理模块得到的目标视频对应的不同粒度的分类类别。
[0048]
本技术实施例中，电子设备可以通过视频分类模型的第一分类处理模块中的全连接层，对视频特征信息进行第一分类处理，得到m个第一分类类别。
[0049]
本技术实施例中，电子设备通过视频分类模型的第二分类处理模块中的全连接层，对视频特征信息进行第二分类处理，得到n个第二分类类别。
[0050]
本技术实施例中，上述第二分类处理模块的识别精度大于第一分类处理模块。
[0051]
需要说明的是，上述第二分类处理模块中的全连接层与第一分类处理模块中的全连接层中的参数不同，所以，第一分类类别和第二分类类别对应的类别并不相同。
[0052]
示例性地，电子设备在得到视频特征信息对应的向量(下述简称为第五向量)之后，电子设备可以将第五向量分别输出至第一分类处理模块和第二分类处理模块中，从而得到第六向量和第七向量，该第六向量用于指示m个第一分类类别对应的概率值，该第七向量用于指示n个第二分类类别对应的概率值，从而电子设备可以根据第六向量和第七向量确定目标视频对应的m个第一分类类别和n个第二分类类别。
[0053]
可选地，本技术实施例中，在视频分类模型输出的分类类别较多(例如千万级别)的情况下，电子设备可以增加至少一个处理分支，从而提升电子设备确定目标视频对应的视频分类的效率。
[0054]
步骤203、电子设备基于m个第一分类类别，校准n个第二分类类别，并通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别。
[0055]
本技术实施例中，电子设备可以以m个第一分类类别为基准，校准n个第二分类类别，从而电子设备可以通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别。
[0056]
可选地，本技术实施例中，上述步骤203中的“电子设备基于m个第一分类类别，校准n个第二分类类别”具体可以通过下述的步骤203a和步骤203b实现。
[0057]
步骤203a、电子设备获取第一类别信息。
[0058]
本技术实施例中，上述第一类别信息用于表征目标视频属于m个第一分类类别中的任一第一分类类别的概率。
[0059]
本技术实施例中，电子设备可以对m个第一分类类别进行采样处理，得到第一分类信息。
[0060]
可选地，本技术实施例中，电子设备在得到m个第一分类类别之后，电子设备可以将m个第一分类类别分别与人工标注分类进行交叉熵损失值处理，以得到m个第一分类类别中的每个第一分类类别与人工标注分类之间的差异程度，从而电子设备可以根据该交叉熵损失值调整视频分类模型，进而使得电子设备可以进一步提升视频分类模型确定视频分类的准确性。
[0061]
可选地，本技术实施例中，上述步骤203a具体可以通过下述的步骤301和步骤302实现。
[0062]
步骤301、电子设备对m个第一分类类别与预设类别进行交叉熵计算，得到m个第一
损失值。
[0063]
本技术实施例中，上述m个第一损失值中的每个第一损失值用于指示m个第一分类类别中的每个第一分类类别与预设类别之间的差异程度。
[0064]
示例性地，电子设备可以通过bceloss算法对m个第一分类类别与预设类别进行交叉熵计算，以得到m个第一损失值。
[0065]
步骤302、电子设备对m个第一损失值进行采样处理，得到第一类别信息。
[0066]
示例性地，电子设备可以对计算第一损失值之后的m个第一分类类别的进行gumbel sigmoid mask处理，以得到第一类别信息。
[0067]
示例性地，gumbel sigmoid是一种离散的、可反向传播的采样策略，具体如下述公式1所示：
[0068][0069]
其中，es为计算第一损失值之后的m个第一分类类别(下述简称为l1)；该采样策略会让l1中数值较大的位置，以较大的概率采样为1，但是也有较小概率采样为0；数值较小的位置，以较大的概率采样为0，但是也有较小概率采样为1。由于l1使用了视频人工标注标签进行训练，使得模型在与视频完全不相关的标签的位置输出概率接近于0。所以l1的第一分类信息中，与视频完全不相关的标签位置对应的数值会较小，与视频相关的标签位置对应的数值会较大。所以gumbel-sigmoid mask输出的结果在与视频完全不相关的标签位置更大概率为0，在与视频可能相关的标签位置更大概率为1。从而使得模型可以在n个第二分类类别中mask掉大部分与视频完全不相关的类别，只关注某些可能与视频有关的类别。
[0070]
τ是温度参数，在训练时可以通过调整温度参数的值来调整采样策略；当τ参数较大时，模型更倾向于mask掉较少的类别；当τ参数较小时，模型则更倾向于mask较多类别；在模型训练的初始阶段设置较大的τ，会使得模型在分支一mask掉较少的类别，使得更多的类别没有被mask掉，从而进入分支二中进行训练，有利于防止模型在初始阶段因为训练不充分的原因，漏掉一些与视频相关的类别，导致这些类别无法在分支二中进行训练；随着模型的收敛程度越来越好，逐步调小τ，会使得模型mask较多类别，使得与模型最相关的类别可以进入分支二中，有利于分支二中模型更关注于难分类别。
[0071]
g’以及g”表示的是两个耿贝尔噪声gumbel noise，通过添加这两个随机的、固定分布噪音来实现采样。具体如下述公式2所示：
[0072]
g＝-log(-log(uniform(0,1)))
ꢀꢀꢀꢀ
(公式2)
[0073]
其中，uniform(0，1)为电子设备在0至1之间进行正态分布采样。
[0074]
本技术实施例中，当模型训练时，经过gumbel sigmoid mask采样策略后，会得到一个长度为k的mask向量m(即第一类别信息)，m～[0,1]。
[0075]
需要说明的是，上述mask为电子设备将第一类别信息中大于或等于预设阈值的分类值确定为第一数值(例如1，1代表目标视频100％属于该分类)，然后将第一分类信息中小于预设阈值的分类值确定为第二数值(例如0，0代表目标视频100％不属于该分类)。
[0076]
步骤203b、电子设备根据第一类别信息、m个第一分类类别和n个第二分类类别，校准n个第二分类类别。
[0077]
示例性地，电子设备可以对第一分类类别对应的向量和第二分类类别对应的向量
进行向量相加，然后将向量相加后的向量与第一类别信息对应的向量相乘，从而得到第二类别信息对应的向量。
[0078]
可选地，本技术实施例中，上述步骤203中的“电子设备通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别”具体可以通过下述的步骤203c和步骤203d实现。
[0079]
步骤203c、电子设备对校准后的n个第二分类类别进行采样处理，获取n个第二分类信息。
[0080]
本技术实施例中，上述n个第二分类信息中的每个第二分类信息用于表征目标视频属于校准后的n个第二分类类别的任一第二分类类别的概率。
[0081]
示例性地，电子设备可以对校准后的n个第二分类类别进行sigmoid采样处理，以获取n个第二分类信息。
[0082]
步骤203d、电子设备根据n个第二分类信息，确定目标视频对应的目标分类类别。
[0083]
本技术实施例中，本技术实施例中，电子设备在得到第二类别信息对应的向量之后，电子设备可以对该向量进行mask处理，从而确定目标视频对应的目标分类类别。
[0084]
本技术实施例中，电子设备通过第一处理分支的输出结果来指导第二分支的输出结果，从而电子设备可以选择与输入最相关的一部分标签分类，再次进行更精确的分类，进而电子设备可以分别进行粗、细粒度之间的区别，以及通过多分支结构，可以加快电子设备的收敛速度，提升电子设备识别目标视频分类的效率。
[0085]
本技术实施例提供一种视频分类方法，电子设备可以对目标视频进行第一分类处理，以得到目标视频对应的m个第一分类类别，并对目标视频的图像特征信息和文本特征信息进行第二分类处理，得到目标视频对应的n个第二分类类别，从而电子设备可以根据m个第一分类类别校准第二分类类别，并通过校准后的第二分类类别，确定目标视频对应的目标分类类别。本方案中，电子设备可以通过多个分支对目标视频的特征信息进行处理，而且通过第一分支指导第二分支的方式，可以提高目标视频所属分类的准确性，进而当电子设备输出的分类类别达到千万级别时，由于电子设备可以是通过不同分支之间的指导，确定目标视频所属的分类，进而电子设备可以通过不同细粒度之间的标签快速识别出目标视频对应的分类类别，如此，提升了电子设备识别视频分类的效率和准确性。
[0086]
可选地，本技术实施例中，在上述步骤203之后，本技术实施例提供的视频分类方法还包括下述的步骤401和步骤402。
[0087]
步骤401、电子设备对校准后的n个第二分类类别与预设类别进行交叉熵计算，得到n个第二损失值。
[0088]
本技术实施例中，上述n个第二损失值中的每个第二损失值用于表征校准后的n个第二分类类别中的每个第二分类类别与预设类别之间的差异程度。
[0089]
示例性地，电子设备可以通过bceloss算法，对校准后的n个第二分类类别与预设类别进行交叉熵计算，得到n个第二损失值。
[0090]
步骤402、电子设备根据m个第一损失值和n个第二损失值，更新视频分类模型。
[0091]
示例性地，电子设备可以将m个第一损失值和n个第二损失值相加，得到第三损失值，然后电子设备可以根据该第三损失值，调整视频分类模型的参数，以更新视频分类模型，从而使得视频分类模型的收敛效果更佳。
[0092]
本技术实施例中，电子设备可以通过m个第一分类类别与预设类别之间的损失值
以及n个第二分类类别与预设类别之间的损失值，共同对视频分类模型进行调整，从而使得视频分类模型的收敛效果更佳，如此，提高了电子设备确定视频分类的准确性。
[0093]
需要说明的是，本技术实施例提供的视频分类方法，执行主体可以为视频分类装置，或者电子设备，或者还可以为电子设备中的功能模块或实体。本技术实施例中以视频分类装置执行视频分类方法为例，说明本技术实施例提供的视频分类装置。
[0094]
图3示出了本技术实施例中涉及的视频分类装置的一种可能的结构示意图。如图3所示，该视频分类装置70可以包括：获取模块71、处理模块72和确定模块73。
[0095]
其中，获取模块71，用于获取目标视频的视频特征信息；该目标视频包括图像特征信息和文本特征信息。处理模块72，用于将视频特征信息输入至视频分类模型，对目标视频进行第一分类处理，得到目标视频对应的m个第一分类类别，并对多个视频特征中的每个视频特征进行第二分类处理，得到目标视频对应的n个第二分类类别，m、n为正整数；确定模块73，用于基于m个第一分类类别，校准n个第二分类类别，并通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别。
[0096]
在一种可能的实现方式中，上述确定模块73，具体用于获取第一类别信息，第一类别信息用于表征目标视频属于m个第一分类类别中的任一第一分类类别的概率；并根据第一类别信息、m个第一分类类别和n个第二分类类别，校准n个第二分类类别。
[0097]
在一种可能的实现方式中，上述获取模块71，具体用于对m个第一分类类别与预设类别进行交叉熵计算，得到m个第一损失值，每个第一损失值用于指示m个第一分类类别中的每个第一分类类别与预设类别之间的差异程度；并对m个第一损失值进行采样处理，得到第一类别信息。
[0098]
在一种可能的实现方式中，本技术实施例提供的视频分类装置还包括更新模块，上述处理模块72，还用于对校准后的n个第二分类类别与预设类别进行交叉熵计算，得到n个第二损失值，每个第二损失值用于表征校准后的n个第二分类类别中的每个第二分类类别与预设类别之间的差异程度。更新模块，用于根据m个第一损失值和n个第二损失值，更新视频分类模型。
[0099]
在一种可能的实现方式中，上述确定模块73，具体用于对校准后的n个第二分类类别进行采样处理，获取n个第二分类信息，每个第二分类信息用于表征目标视频属于校准后的n个第二分类类别的任一第二分类类别的概率；并根据n个第二分类信息，确定目标视频对应的目标分类类别。
[0100]
在一种可能的实现方式中，上述获取模块71，具体用于提取目标视频的l视频帧对应的图像特征信息，以及目标视频对应的文本特征信息，l为大于1的整数；并将图像特征信息和文本特征信息进行特征融合，得到视频特征信息。
[0101]
本技术实施例提供一种视频分类装置，由于电子设备可以通过多个分支对目标视频的特征信息进行处理，而且通过第一分支指导第二分支的方式，可以提高目标视频所属分类的准确性，进而当电子设备输出的分类类别达到千万级别时，由于电子设备可以是通过不同分支之间的指导，确定目标视频所属的分类，进而电子设备可以通过不同细粒度之间的标签快速识别出目标视频对应的分类类别，如此，提升了电子设备识别视频分类的效率和准确性。
[0102]
本技术实施例中的视频分类装置可以是装置，也可以是电子设备中的部件、集成
电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0103]
本技术实施例中的视频分类装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施例不作具体限定。
[0104]
本技术实施例提供的视频分类装置能够实现图1至图2的方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0105]
可选地，如图4所示，本技术实施例还提供一种电子设备90，包括处理器91和存储器92，存储器92上存储有可在所述处理器91上运行的程序或指令，该程序或指令被处理器91执行时实现上述视频分类方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0106]
需要说明的是，本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0107]
图5为实现本技术实施例的一种电子设备的硬件结构示意图。
[0108]
该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
[0109]
本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0110]
其中，处理器110，用于获取目标视频的视频特征信息；该目标视频包括图像特征信息和文本特征信息；并将视频特征信息输入至视频分类模型，对目标视频进行第一分类处理，得到目标视频对应的m个第一分类类别，并对多个视频特征中的每个视频特征进行第二分类处理，得到目标视频对应的n个第二分类类别，m、n为正整数；以及基于所述m个第一分类类别，校准所述n个第二分类类别，并通过所述校准后的n个第二分类类别，确定所述目标视频对应的目标分类类别。
[0111]
本技术实施例提供一种电子设备，电子设备可以通过多个分支对目标视频的特征信息进行处理，而且通过第一分支指导第二分支的方式，可以提高目标视频所属分类的准确性，进而当电子设备输出的分类类别达到千万级别时，由于电子设备可以是通过不同分支之间的指导，确定目标视频所属的分类，进而电子设备可以通过不同细粒度之间的标签快速识别出目标视频对应的分类类别，如此，提升了电子设备识别视频分类的效率和准确性。
[0112]
可选地，本技术实施例中，上述处理器110，具体用于获取第一类别信息，该第一类别信息用于表征目标视频属于m个第一分类类别中的任一第一分类类别的概率；并根据第一类别信息、m个第一分类类别和n个第二分类类别，校准n个第二分类类别。
[0113]
可选地，本技术实施例中，上述处理器110，具体用于对m个第一分类类别与预设类别进行交叉熵计算，得到m个第一损失值，每个第一损失值用于指示m个第一分类类别中的每个第一分类类别与预设类别之间的差异程度；并对m个第一损失值进行采样处理，得到第一类别信息。
[0114]
可选地，本技术实施例中，上述处理器110，还用于在通过校准后的n个第二分类类别，确定目标视频对应的目标分类类别之后，对校准后的n个第二分类类别与预设类别进行交叉熵计算，得到n个第二损失值，每个第二损失值用于表征校准后的n个第二分类类别中的每个第二分类类别与预设类别之间的差异程度；并根据m个第一损失值和n个第二损失值，更新视频分类模型。
[0115]
可选地，本技术实施例中，上述处理器110，具体用于对校准后的n个第二分类类别进行采样处理，获取n个第二分类信息，每个第二分类信息用于表征目标视频属于校准后的n个第二分类类别的任一第二分类类别的概率；并根据n个第二分类信息，确定目标视频对应的目标分类类别。
[0116]
可选地，本技术实施例中，上述处理器110，具体用于提取目标视频的l视频帧对应的图像特征信息，以及目标视频对应的文本特征信息，l为大于1的整数；并将图像特征信息和文本特征信息进行特征融合，得到视频特征信息。
[0117]
本技术实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0118]
本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。
[0119]
应理解的是，本技术实施例中，输入单元104可以包括图形处理器(graphics processing unit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。
[0120]
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态
随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
[0121]
处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。
[0122]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0123]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0124]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0125]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0126]
本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0127]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0128]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0129]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体
实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种考虑发动机参数的飞发一体气动伴随优化设计方法

视频分类方法、装置、电子设备及存储介质与流程

相关文献

最热文献