一种视频标签分类方法、系统及计算机可读存储介质

2022-07-16 14:59:58 来源：中国专利 TAG：

1.本发明是关于人工智能和深度学习领域，特别是关于一种视频标签分类方法、系统及计算机可读存储介质。

背景技术：

2.随着通信和网速的发展，视频成了信息的另一种流行的媒介方式。视频数量的激增使得对视频进行内容理解、做层级分类的标签成为一种有效的管理方式。基于视频感知方式的多样性，一个完整的视频标签层级分类算法，应该包括视频的模态抽取和多模态内容理解两个部分。针对多模态内容的理解，一般从视觉和文本模态入手，训练联合模型共同推断视频内容。根据实践的经验发现，当前影视场景下的视频标签分类模型存在以下两个问题：
3.1)数据标注少。互联网用户上传的视频在内容和质量方面存在很大的差异，用户生成的标题通常不完整或者模棱两可，并且可能包含错误。因此虽然有很多的视频影视剧，但是高质量数据标注量较少。
4.2)实体标签细粒度不够，识别准确率不高。现有研究通常适用于粗粒度的分类，如考虑到类型、题材等划分粒度，虽然当前一些视频分类的基线模型在影视场景下整体的标签识别上得到不错的效果，但对于一些在视觉上相似的剧集处理的不好，需要增加特征做进一步识别，人物、场景等因素同样需要考虑。
5.公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

技术实现要素：

6.本发明的目的在于提供一种视频标签分类方法、系统及计算机可读存储介质，其能够通过图谱信息对视频内容进行更深入的理解，再通过两阶段模型的训练和推断来完成更细粒度的识别。
7.为实现上述目的，本发明提供了一种视频标签分类方法，所述方法包括：
8.提取视频数据的视觉特征和文本特征；
9.将所述视觉特征和文本特征进行多模态融合以获得融合特征；
10.对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；
11.获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；
12.基于所述图谱信息对所述预测结果进行修正以获得修正结果。
13.优选的，提取视频数据的视觉特征和文本特征包括：
14.对所述视频数据进行抽帧处理以获得视频帧图像，根据所述视频帧图像抽取所述视觉特征；
15.对所述视频数据中的文本信息进行预处理以形成语料集合，基于所述语料集合抽取所述文本特征。
16.优选的，所述预处理包括：分词处理以及停用词处理。
17.优选的，根据所述视频帧图像抽取所述视觉特征包括：获取视频帧图像的图片编码{r1，r2，...，rn}并将所述图片编码切分为若干个图像分支；基于所述图像分支获得视觉特征embi；
18.基于所述语料集合抽取所述文本特征包括：获取语料集合的文本序列{w1，w2，...，wn}并将所述文本序列切分为多个文本分支；基于所述文本分支获得文本特征emb
t
。
19.优选的，将所述视觉特征和文本特征进行多模态融合以获得融合特征包括：
20.学习视觉特征以及文本特征的交互特征；
21.基于所述交互特征获得融合特征。
22.优选的，对所述融合特征进行多任务预测以获得预测结果包括：
23.所述融合特征经过若干个全连接层后分别输入到分类网络和相似性网络，以在所述分类网络和相似性网络同时进行训练；
24.将所述分类网络和相似性网络分别输出的训练结果进行加权组合以获得预测结果。
25.优选的，所述方法还包括：所述分类网络通过分类损失函数对所述融合特征进行训练，所述相似性网络通过度量学习损失函数对所述融合特征进行训练。
26.优选的，基于所述图谱信息对所述预测结果进行修正以获得修正结果包括：
27.构建邻接矩阵，所述邻接矩阵中包括邻居节点以及非邻居节点，其中，所述邻居节点的注意力置为1，非邻居节点的注意力置为0；所述邻居节点为图谱信息与预测结果有连接关系的节点；
28.计算所述邻接矩阵的概率分布，根据最高概率的节点获得修正结果。
29.本发明提供了一种视频标签分类系统，所述系统包括：
30.特征提取单元，用于提取视频数据的视觉特征和文本特征；
31.融合单元，用于将所述视觉特征和文本特征进行多模态融合以获得融合特征；
32.标签分类单元，用于对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；
33.数据获取单元，用于获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；
34.修正单元，用于基于所述图谱信息对所述预测结果进行修正以获得修正结果。
35.本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的一种视频标签分类方法的步骤。
36.与现有技术数据标注少、细粒度识别准确率不高的问题相比，根据本发明的视频标签分类方法通过标签预测模型和实体纠错模型的训练和推断来完成更细粒度的识别且不需要大规模数据集就取得了较好的分类性能。
附图说明
37.图1是根据本发明一实施方式的一种视频标签分类方法流程图；
38.图2是根据本发明一实施方式的多任务网络层的结构图；
39.图3是根据本发明一实施方式的一种视频标签分类系统结构图。
具体实施方式
40.下面结合附图，对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。
41.除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。
42.如图1所示，根据本发明优选实施方式的一种视频标签分类方法，所述方法包括：
43.步骤101，提取视频数据的视觉特征和文本特征；其中，视频数据是本发明实施例中的训练数据，视觉特征表征视频数据中的图像信息，文本特征表征视频数据中的文本信息，视觉特征和文本特征分别属于不同的模态。
44.步骤102，将所述视觉特征和文本特征进行多模态融合以获得融合特征；将步骤101中提取的视觉特征和文本特征两个模态的特征进行特征融合，以生成融合特征。
45.步骤103，对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；其中，将步骤102中生成的融合特征馈送到下游分类任务层进行多任务预测，通过模型参数调优最小化损失值并得到最终的预测结果。
46.步骤104，获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；从互联网各类知识源获取视频数据的半结构化数据，例如影视剧名、演员等信息，并构建影视知识相关的图谱信息，图谱信息中包括各种半结构化数据关联信息，例如演员-剧集-演员”和“剧集-演员-剧集”等出演关系的影视知识图谱信息。其中，获取半结构化数据的途径可以从豆瓣、百科等知识源获取。半结构化数据包括影视剧名、上映日期、导演、演员、主题类型、简介描述等字段信息。
47.步骤105，基于所述图谱信息对所述预测结果进行修正以获得修正结果。本步骤中，通过局部注意力头扩展的实体纠错模型，引入外图谱信息对前置模型所获得的预测结果做修正，得到更准确的修正结果。
48.本发明实施例所述的方法可以广泛应用于基于图片-文本对数据的多模态视频分类预测问题，特别是在少量数据样本情况下的分类问题，有助于提高视频网站的运营效率。
49.本发明实施例所述的一种视频标签分类方法，较佳的，提取视频数据的视觉特征和文本特征包括：
50.对所述视频数据进行抽帧处理以获得视频帧图像，根据所述视频帧图像抽取所述视觉特征；其中，视觉特征也即是视频帧图像的图像帧特征。
51.对所述视频数据中的文本信息进行预处理以形成语料集合，基于所述语料集合抽取所述文本特征。具体的实施例中，使用基于大规模通用数据训练的多模态预训练模型提取视觉特征和文本特征。
52.本发明实施例所述的一种视频标签分类方法，较佳的，所述预处理包括：分词处理以及停用词处理。
53.本发明实施例所述的一种视频标签分类方法，较佳的，在征提取网络中根据所述视频帧图像抽取所述视觉特征包括：获取视频帧图像的图片编码{r1，r2，...，rn}并将所述图片编码切分为若干个图像分支；基于所述图像分支获得视觉特征embi；
54.基于所述语料集合抽取所述文本特征包括：获取语料集合的文本序列{w1，w2，...，wn}并将所述文本序列切分为多个文本分支；基于所述文本分支获得文本特征emb
t
。
55.具体的实施例中，文本序列{w1，w2，...，wn}和视频帧图像的图片编码{r1，r2，...，rn}会被分别切分为多个文本分支和图像分支，切分后的每一个文本分支和图像分支分别记为一个令牌token并进行编码，基于文本分支和图像分支分别提取在同一语义空间下训练的表征，即得到文本特征emb
t
和图像特征embi。在文本分支，首先将文本序列{w1，w2，...，wn}中每个令牌token的词向量和位置向量相加作为输入向量。由于文本分支是有序的，位置向量是指将令牌token的前后语序信息编码成特征向量的形式，这样就能把单词的位置关系信息引入到模型中，从而获取文本天生的有序信息。然后将输入向量馈送到transformer模型的特征提取encoder模块中进行编码输入，每一个encoder中包含两个子层，第一子层是多头自注意力机制，包括12个注意力头；第二子层是前向传播层，用来提高模型的非线性拟合能力。每个子层都使用了残差网络，在训练过程中可以缓解梯度消失的问题，使之可以构建更深层的网络。整个transformer模型共堆叠了12个相同的特征提取encoder模块结构，最终输出得到文本特征emb
t
。在图像分支，输入是单张图片，首先调整输入图片的大小格式，将给定图片缩放到224*224的大小，然后按比例裁剪图片，保留中间的图像部分，再对图片每个通道的像素值执行归一化操作。这里使用由若干个残差模块构成的resnet-50网络作为视觉特征提取的骨干结构，卷积和池化的操作主要在空间上进行，最终得到视觉特征embi。
56.本发明实施例所述的一种视频标签分类方法，较佳的，将所述视觉特征和文本特征进行多模态融合以获得融合特征包括：
57.学习视觉特征以及文本特征的交互特征；
58.基于所述交互特征获得融合特征。
59.具体的实施例中，将上一层特征提取网络得到的文本特征emb
t
和视觉特征embi分别看作文本token和视觉token，将这两个token拼接之后得到交互特征emb，再馈送到transformer模型的特征融合encoder模块中对两个token进行融合。本质上，基于特征融合encoder模块做特征之间的融合，可以解释为将查询向量query、键向量key、值向量value三个向量在注意力的多个输出头分别进行点积计算，并分别得到自适应的加权方案。对于不同区域的信息，按照不同的加权值结合起来最终得到整体的向量表达。在这里，特征融合encoder的主要作用是学习同一样本中文本token和视觉token的交互特征，最终得到一个固定长度的向量表示emb
attention
。较佳的，特征融合encoder堆叠了6层相同的编码层，每一层使用了8-head的注意力模块，相当于在8个不同的通道进行了图片、文本模态特征的融合学习。
60.本发明实施例所述的一种视频标签分类方法，较佳的，对所述融合特征进行多任务预测以获得预测结果包括：
61.所述融合特征经过若干个全连接层后分别输入到分类网络和相似性网络，以在所述分类网络和相似性网络同时进行训练；
62.将所述分类网络和相似性网络分别输出的训练结果进行加权组合以获得预测结果。具体的，本发明实施例中，将分类网络和相似性网络结合在同一个大网络中进行多任务训练和联合优化。如图2所示是多任务网络层的结构图，经过模态融合之后的融合特征先经过若干个全连接层，然后被输入到分类网络和相似性网络同时进行训练。
63.本发明实施例所述的一种视频标签分类方法，较佳的，所述方法还包括：所述分类网络通过分类损失函数对所述融合特征进行训练，所述相似性网络通过度量学习损失函数对所述融合特征进行训练。
64.具体的实施例中，分类损失函数可以为交叉熵损失函数(cross entropy loss)，所述交叉熵损失函数是经典的分类损失函数，融合特征在本实施例中作为训练样本，所述分类网络通过分类损失函数对所述融合特征进行训练的过程如下：先将softmax公式和交叉熵损失函数进行组合。假设有n个训练样本归属于c个类别，其中每个样本ri被标记为类别标签li。如公式一，交叉熵损失函数的计算公式如下：
[0065][0066]
其中fs(ri，c)表示最后的全连接层在输入为ri下，第c类的输出，li为对应输入的类别标签。
[0067]
较佳的，本发明实施例中，除了使用分类损失函数进行约束之外，还使用了度量学习损失函数与分类损失函数融合起来用于特征表示学习。例如在计算时，有三个样本分别表示为(ri，pi，ni)，其中ri是来自特定类的参考样本，pi是来自同类样本，ni是来自不同类样本。给定一个参考样本ri，度量学习网络可以生成一个特征向量f
t
(ri)∈rd，其中超参数d是特征维度。理想情况下，对于每一个参考样本ri，期望它与任一不同类样本ni的距离比同类样本pi的边距长m，且m＞0，也就是说d(ri，pi) m＜d(ri，ni)。度量学习损失函数如公式二所示：
[0068][0069]
其中d是度量学习网络中两个融合特征经过l2范数归一化之后的平方欧几里得距离，m为最小边距，即参考样本与不同类样本的距离减去参考样本与同类样本的距离的值，在模型训练过程中需要找到m的最小值。
[0070]
最终通过加权组合来整合这两种类型的损失，如公式三，λ是两个计算的权重系数，取值范围在0-1之间：
[0071]
loss＝λ*losss(r，l) (1-λ)loss
t
(r，p，n，m)
ꢀꢀ
公式三
[0072]
在多任务学习网络中引入相似性任务提高分类模型训练的难度，得到视频的多类标签，同时所学特征能更好的表达样本差异。
[0073]
本发明实施例所述的一种视频标签分类方法，较佳的，基于所述图谱信息对所述预测结果进行修正以获得修正结果包括：
[0074]
构建邻接矩阵，所述邻接矩阵中包括邻居节点以及非邻居节点，其中，所述邻居节点的注意力置为1，非邻居节点的注意力置为0；所述邻居节点为图谱信息与预测结果有连接关系的节点；
[0075]
计算所述邻接矩阵的概率分布，根据最高概率的节点获得修正结果。
[0076]
具体的实施例中，对所述预测结果进行修正前，先获得图谱信息。获取影视相关的半结构化数据，半结构化数据至少包括：剧集、上映日期、导演、演员、主题类型、简介描述等字段信息；抽取剧集、演员分别作为两类节点。影视剧名是构成知识图谱中的影视名称节点，演出人员是构成知识图谱中的演员节点，剧中的演出人员包括主角、配角、群众等，这里演员指的是主要演艺人员；构建一个包含“演员-剧集-演员”和“剧集-演员-剧集”两种出演关系的影视知识的图谱信息。关系是连接影视名称节点和演员节点之间的无向边，即将影视剧名称和演员之间形成一对多关系。引入外部知识图谱信息的共现信息对前置模型的预测结果做修正，得到更准确的实体标签预测结果。
[0077]
随后从图谱信息中获取一批训练样本g＝{g1，g2，...，gn}，其中g∈{n1，n2，n3，...，n}。对于每一个输入g，随机将一部分节点掩蔽之后得到g∈{n1，[mask]，n3，...，n}，其中，节点ni包括影视名称节点和演员节点，以及一个特殊的mask节点，本步骤的目标是训练一个重构缺失节点的模型以进行概率分布的计算，并预测其中出现概率最大的节点ni∈g。
[0078]
较佳的实施例中，对transformer模型的注意力头进行扩展。在传统的transformer的encoder部分，自注意力机制的query向量、key向量和value向量的计算是针对所有令牌token，因此相当于计算了一个全局的注意力分数；但是在本步骤中更想关注相邻节点的作用，即计算演员和影视剧名两个节点间的注意力分数只需要发生过出演关系和合作关系的，不需要计算所有令牌token，因此在encoder中一部分的注意力头替换成了局部注意力，添加图谱信息对预测结果做来修正，从而将非邻居节点之间的注意力强制置为零。对于一个待预测的视频，将带有预测概率的候选影视名称看作影视名称节点，通过出镜人物识别到的演员看作演员节点，每个节点看作一个令牌token，转为向量之后输入到模型中。在训练时提取影视知识图谱信息中的影视名称-演员两类节点，构建成一个二部图的邻接矩阵后输入到模型中。在邻接矩阵中，影视剧和演员之间有交互关系，在出演关系的影视剧名称-演员之间作为邻居节点，将邻居节点的注意力设为1，其余节点作为非邻居节点并设为0。最后使用交叉熵损失函数来训练网络计算所有类别的概率分布来预测输出节点类别，具有最高概率的节点就是经过纠正之后的标签，最终获得修正结果。
[0079]
本发明实施例提供一种视频标签分类系统，如图3所示，所述系统包括：
[0080]
特征提取单元301，用于提取视频数据的视觉特征和文本特征；
[0081]
融合单元302，用于将所述视觉特征和文本特征进行多模态融合以获得融合特征；
[0082]
标签分类单元303，用于对所述融合特征进行多任务预测以获得预测结果，所述预测结果为已进行分类的视频标签；
[0083]
数据获取单元304，用于获取所述视频数据的半结构化数据，并根据所述半结构化数据生成图谱信息；所述图谱信息表征所述视频中各类节点之间的关联信息；
[0084]
修正单元305，用于基于所述图谱信息对所述预测结果进行修正以获得修正结果。
[0085]
本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项具体实施例所
述的一种视频标签分类方法的步骤。
[0086]
本发明具体实施例提出的融合图谱信息的影视视频标签分类模型是使用图片-文本对数据在多模态分类问题上的新的尝试，不需要大规模数据集并且取得了较好的分类性能。
[0087]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0088]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0089]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0090]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0091]
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：高速磁悬浮列车的电磁模型获得方法及装置

一种视频标签分类方法、系统及计算机可读存储介质

相关文献

最热文献