一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多模态自监督深度对抗网络的短视频分类方法及装置与流程

2022-02-22 03:16:37 来源:中国专利 TAG:


1.本发明涉及短视频分类领域,尤其涉及一种基于多模态自监督深度对抗网络的短视频分类方法及装置。


背景技术:

2.随着移动终端和社交网络的普及,越来越多的信息以多媒体内容的形式呈现,短视频作为一种多媒体内容载体,凭借其“短平快”、“流量大”、“高频推送”等独特优势,在近年来发展火热,成为当下最受欢迎的内容传播方式之一。随着短视频迅速获得各大内容平台、用户以及资本等多方的支持与青睐,海量的碎片化数据产生,这些持续高速增长的短视频数据很容易湮没用户需要的信息,使得用户难以找到他们期望浏览的短视频内容,因此如何高效的处理这些信息显得至关重要。
3.目前,以深度学习为代表的人工智能技术成为当下最流行的技术之一,其也被广泛应用到视频信息处理的领域当中。因此,利用人工智能技术解决短视频分类问题,不仅可以推动计算机视觉领域的发展,同时可以提高用户体验,既具备研究价值也具备实际应用价值。


技术实现要素:

4.本发明提供了一种基于多模态自监督深度对抗网络的短视频分类方法及装置,本发明充分利用短视频的多模态信息进行多标签分类,具备一定的抗模态缺失的能力,有利于提高短视频多标签分类任务的准确度,详见下文描述:
5.第一方面,一种基于多模态自监督深度对抗网络的短视频分类方法,所述方法包括:
6.从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示;
7.以完备模态下的特征表示作为自监督信号重建原始特征,采用生成对抗网络生成缺失的模态信息,弥补原始的模态缺失;
8.引入生成对抗网络的鉴别损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征;
9.利用生成器生成的原始模态特征通过多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的特征表示向完备特征循环;
10.构建由生成对抗网络的鉴别损失、循环一致损失以及分类任务的损失构成的目标函数,并以此目标函数来指导网络寻找模型的最优解,实现对短视频的分类。
11.在一种实施方式中,所述从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示具体为:
12.学习视觉模态特征fv和音频特征fa的互补特征z1:
[0013][0014]
其中,利用fa生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重,dk为比例缩放因子;
[0015]
学习视觉模态特征fv和轨迹特征f
t
的互补特征z2:
[0016][0017]
其中,利用fv生成键矩阵和值矩阵,利用f
t
生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重;
[0018]
利用提取好的视觉模态特征fv学习特征z3:
[0019][0020]
其中,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重;
[0021]
利用提取好的视觉模态特征fv、音频特征fa和轨迹特征f
t
学习三者的完备互补特征z
*

[0022][0023]
分别用fv和fa、f
t
结合,将两个融合结果相加,构建出完备的模态表示;利用fa和f
t
生成查询矩阵,和分别为用fa和f
t
生成查询矩阵的权重,和为利用fv生成值矩阵的权重,和为利用fv生成键矩阵的权重。
[0024]
在一种实施方式中,所述生成对抗网络的鉴别损失和循环一致损失具体为:
[0025][0026][0027]
其中,φi为融合视觉和第i个模态的基于多头注意力机制模态互补编码器,gi为第i个模态的生成器,γi每项损失前面的超参数,e为期望分布。
[0028]
第二方面,一种基于多模态自监督深度对抗网络的短视频分类装置,其特征在于,所述装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0029]
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一
方面中的任一项所述的方法步骤。
[0030]
本发明提供的技术方案的有益效果是:
[0031]
1、本发明探究了短视频分类中的多模态表示学习问题,从模态互补性的角度分别利用多头注意力编码网络构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示,整个过程中充分利用短视频的多模态信息;
[0032]
2、考虑到有些视频可能存在模态缺失问题,本发明利用生成对抗网络以完备的模态特征表示作为自监督信号重建原始特征,弥补有些原始视频存在模态缺失的问题;
[0033]
3、为了学习多模态的一致性,引入生成对抗网络的鉴别损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征,再利用生成器生成的特征利用多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的模态互补性特征向量和完备模态特征向量之间的距离最小,为解决模态缺失问题提供了一种新思路。
[0034]
本发明充分利用短视频的多模态信息来对短视频进行多标签分类,同时也具备一定的抗模态缺失的能力,有利于提高短视频多标签分类任务的准确度。
附图说明
[0035]
图1为一种基于多模态自监督深度对抗网络的短视频分类方法的整体网络框架图;
[0036]
图2为生成对抗网络的框图;
[0037]
图3为一种基于多模态自监督深度对抗网络的短视频分类装置的结构示意图。
[0038]
表1为实验结果数据。
具体实施方式
[0039]
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
[0040]
实施例1
[0041]
本发明实施例提供了一种基于多模态自监督深度对抗网络的短视频分类方法,该方法充分利用了短视频的多种模态信息,具体参见图1,该方法包括以下步骤:
[0042]
101:从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示;
[0043]
其中,对于包含多种模态信息的视频内容信息,这里以三种模态为例,分别提取视频的视觉、音频和轨迹三种模态特征,考虑到在一段短视频当中视觉信息是最准确可靠也是最不容易丢失的,所以从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示。
[0044]
102:以完备模态下的特征表示作为自监督信号重建原始特征,采用生成对抗网络生成缺失的模态信息,弥补原始的模态缺失;
[0045]
其中,对于一些短视频存在一种或多种模态缺失的问题,这里采用生成对抗网络来生成缺失的模态信息,以步骤101中多头注意力机制构建的完备的模态特征表示作为自监督信号重建原始特征,来弥补原始的模态缺失,进而增加后续分类任务的准确度。
[0046]
103:引入生成对抗网络的鉴别损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征;利用生成器生成的原始模态特征通过多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的特征表示向完备特征循环;
[0047]
具体实现时,由于多模态之间还存在一致性,理论上不同模态表征的是同一短视频的内容,单独利用任一种模态都能进行分类任务。为了学习多模态之间的一致性,引入生成对抗网络的鉴别损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征,目的使以视觉模态为主的模态互补特征和完备的模态特征之间的距离最小。再利用生成器生成的原始模态特征(即原始短视频的模态特征)通过多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的特征表示向完备特征循环,目的使编码后的模态互补性特征向量和完备模态特征向量之间的距离最小,为解决模态缺失问题提供了一种新思路。而当存在模态缺失时,即模态不完备的情况下,可利用模态互补特征进行分类任务。
[0048]
104:整个网络的损失函数包括:生成对抗网络的鉴别器的鉴别损失、循环一致损失以及分类任务的损失,并以此目标函数来指导网络寻找模型的最优解;
[0049]
105:对模型的最优解进行评估,确保实验结果的客观性和准确性。
[0050]
其中,该方案性能用覆盖率、排名损失、平均精度、汉明损失和首标记错误五个评价指标来评估,确保实验结果的客观性和准确性。
[0051]
综上所述,本发明实施例充分利用短视频的多模态信息进行多标签分类,具备一定的抗模态缺失的能力,有利于提高短视频多标签分类任务的准确度。
[0052]
实施例2
[0053]
下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
[0054]
201:模型输入一个完整的具有多种模态的短视频,这里以三种模态为例,分别提取视觉、音频和轨迹三种模态;
[0055]
对于视觉模态,提取关键帧,并对所有视频关键帧运用残差网络(resnet)提取视觉特征,然后作平均池化(average pooling)操作以获取视觉模态特征xv的整体特征fv:
[0056][0057]
其中,xv为短视频原始视觉特征,βv为待学习的网络参数,dv为视觉模态特征fv的维度,为实数符号。
[0058]
对于音频模态,绘制声音频谱图,对频谱图利用cnn(卷积神经网络)和lstm(长短期记忆网络)提取声音特征fa:
[0059][0060]
其中,xa为短视频原始音频特征,pa为待学习的网络参数,da为音频模态特征fa的维度。
[0061]
对于轨迹模态,利用tdd(轨迹池深度卷积描述符)法从时间域和空间域联合提取轨迹特征f
t

[0062][0063]
其中,x
t
为短视频的原始轨迹信息,β
t
为待学习的网络参数,d
t
为轨迹模态特征f
t
的维度。
[0064]
202:基于多头注意力机制编码网络的模态互补性学习;
[0065]
对一个具体的短视频而言,一般都含有视觉信息,即视觉模态特征是存在的,但其它模态的缺失情况是不确定的。根据经验,在“短视频多标签分类”任务中视觉信息是最准确的也是最不容易丢失的,因此以视觉模态为主利用多头注意力机制编码网络编码以视觉模态为主的互补特征和一个完备的模态互补特征。
[0066]
这里以三种模态为例,分别构建了视觉和视觉、视觉和音频、视觉和轨迹以及三种完备模态下的特征表示。(视觉模态特征fv、音频模态特征fa、轨迹模态特征f
t
均是步骤201中所得)。
[0067]
其中,多头注意力机制编码网络(multi-head attention)φ的编码规则如下:
[0068][0069]
其中,输入为q,k,v,分别表示查询矩阵(query),值矩阵(value),键矩阵(key),为了防止梯度消失,引入比例缩放因子dk。
[0070]
1)视觉模态和音频模态融合
[0071]
利用提取好的视觉模态特征fv和音频特征fa,学习两者的互补特征z1:
[0072][0073]
其中,利用fv生成键矩阵和值矩阵,利用fa生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重,为了防止梯度消失,引入比例缩放因子dk。
[0074]
2)视觉模态和轨迹模态融合
[0075]
利用提取好的视觉模态特征fv和轨迹特征f
t
,学习两者的互补特征z2:
[0076][0077]
其中,利用fv生成键矩阵和值矩阵,利用f
t
生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重,为了防止梯度消失,引入比例缩放因子dk。
[0078]
3)视觉模态和视觉模态融合
[0079]
为了加重视觉信息比例,利用提取好的视觉模态特征fv,学习特征z3:
[0080][0081]
其中,利用fv生成键矩阵、值矩阵,查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重,为了防止梯度消失,引入比例缩放因子dk。
[0082]
4)视觉模态、音频模态和轨迹模态融合
[0083]
利用提取好的视觉模态特征fv、音频特征fa和轨迹特征f
t
学习三者的完备互补特
征z
*

[0084][0085]
其中,分别用fv和fa、f
t
结合,将两个融合结果相加,构建出完备的模态表示。利用fa和f
t
生成查询矩阵,和分别为用fa和f
t
生成查询矩阵的权重,和为利用fv生成值矩阵的权重,和为利用fv生成键矩阵的权重,为了防止梯度消失,引入比例缩放因子dk。
[0086]
203:为了模态一致性信息的探索,这里引入生成对抗网络(gan)。gan网络具有对抗性质,这种对抗性质通过生成器和鉴别器的相互博弈来表现,生成器可以看作解码器,对输入特征矩阵编码后的特征进行解码,再用鉴别器判别解码后的矩阵与输入矩阵的距离,目的在于生成器生成特征矩阵与输入矩阵距离最小。这里引入两个损失:
[0087]
1)引入gan网络的对抗损失
[0088]
将z
*
和zi分别送入到鉴别器z
*
中鉴别,其中,z
*
和zi是依靠步骤202中基于多头注意力机制编码器φi编码得到,这样做的目的是利用z
*
分别与zi对抗,使zi与完备的联合表示z
*
逼近,这里以三种模态为例,表示为:
[0089][0090]
1)引入gan的循环一致损失l
cycle
[0091]
传统gan网络旨在学习一个映射即生成器,旨在生成与真实样本相似的伪样本,鉴别器试图将生成的样本与真实样本区分开来,生成器和鉴别器相互博弈,直到生成器能够产生很大的真实样本时收敛。尽管如此,gan的生成器可能将任意数据都映射为目标空间中的目标数据,从而使损失无效化,因此该模型不能仅用gan损失来获得期望的输出。
[0092]
为了解决这个问题,gan网络进一步引入循环一致损失来更新学习映射,先将原始数据经过编码器编码再通过生成器解码得到最后的数据,即通过学习一个编码器φ和一个生成器g,对数据进行一次编码和解码,使数据映射到目标空间还可以再转化回到原始数据。最后得到的数据与初始数据的距离要尽可能小,这种循环一致损失体现在zi分别先经过gi解码再经过φi编码后的特征z
′i向联合表示z
*
的循环,目的在于使得z
*
和z
′i距离尽可能小,这里以三种模态为例,表示为:
[0093][0094]
其中,φi为融合视觉和第i个模态的基于多头注意力机制模态互补编码器,以完备的模态特征作为自监督信号,gi为从自监督信号中重建第i个模态的生成器,z
*
为步骤202中基于多头注意力机制编码出的完备的模态特征,γi每项损失前面的超参数,表示f范数的平方。
[0095]
204:采用传统的多标签分类损失来衡量预测标签分数与真实标签信息之间的差距:
[0096][0097]
其中,log(
·
)为对数函数,k为类别个数,yk为短视频的真实标签信息,为短视频的标签预测结果。
[0098]
所以,以三种模态为例,模型的整体损失函数l:
[0099][0100]
其中,为步骤203中的gan网络的对抗损失,α为此项损失的超参数,l
cycle
(g1,g2,g3)为步骤203中gan网络循环一致损失,lc为分类损失,μ为其对应的超参数。
[0101]
整个训练和测试过程中,模型的性能用覆盖率(coverage)、排名损失(rankingloss)、平均精度(map)、汉明损失(hammingloss)和首标记错误(one-error)五个评价指标来评估。
[0102]
其中:
[0103]
(1)覆盖率(coverage)用来计算平均需要多大程度的标签以覆盖实例的所有正确标签,它与召回率最佳水平的精确性有松散的联系,其值越小,性能越好;
[0104]
(2)排名损失(rankingloss)计算实例的倒序标签对的平均分数,其值越小,性能越好;
[0105]
(3)map表示m个类别准确度的平均值,其值越大,性能越好;
[0106]
(4)汉明损失(hammingloss)衡量标签被错分的次数,其值越小,性能越好;
[0107]
(5)首标记错误(one-error)计算预测概率值最大的标签不在真实标签集中的次数,其值越小,性能越好。
[0108]
实施例3
[0109]
实验采取的数据集为2018年ai挑战赛发布的大规模多标签短视频实时分类数据集,数据集包含20万个短视频,涵盖舞蹈、健身、唱歌等63类流行元素标签。大多数视频的长度是5-15秒。此外,每个视频被分配1-3个标签。考虑到本方法属于监督学习,只应用数据集的标记短视频。按照4:1的比例划分了训练集和测试集,对它们提取了视觉、音频和轨迹三种模态特征,以这三种模态为例来验证此发明在用于短视频分类上的有效性。实验结果见表1,表1分别展示了利用视觉和其他任一种模态结合后的分类精度以及三种模态完备下的分类精度,还验证了数据在存在某种模态缺失情况下的分类精度,可以看出这几个实验均取得了优异的结果,从而得出的结论是,本发明实施例提出的方法充分利用了可靠性最强的视觉特征并学习到了多模态之间的一致性和互补性,并且此模型还具备一定的抗模态缺失能力。
[0110]
表1
[0111][0112]
综上所述,本发明提供了一种基于多模态自监督深度对抗网络的短视频分类方法,致力于解决短视频分类问题。对于包含多种模态的视频的内容信息,这里以三种模态为例,分别提取视频的视觉、音频和轨迹特征,考虑到视觉模态的准确度最高可靠性最强,从模态互补性的角度分别利用多头注意力编码网络构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示;从模态缺失的角度利用生成对抗网络以完备的模态特征表示作为自监督信号重建原始特征,弥补原始的模态缺失;从模态一致性的角度考虑,引入生成对抗网络的鉴别器损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征,目的使互补特征无限接近于完备特征;再利用生成对抗网络的生成器生成的特征利用多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的特征向完备的模态特征循环,目的是使编码后的模态互补性特征向量和完备模态特征向量之间的距离最小;最终将此发明应用于短视频分类问题。
[0113]
实施例4
[0114]
基于同一发明构思,本发明实施例还提供了一种基于多模态自监督深度对抗网络的短视频分类装置,参加图3,该装置包括处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
[0115]
从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示;
[0116]
以完备模态下的特征表示作为自监督信号重建原始特征,采用生成对抗网络生成缺失的模态信息,弥补原始的模态缺失;
[0117]
引入生成对抗网络的鉴别损失和循环一致损失,利用鉴别器鉴别多头注意力编码网络输出的模态互补特征和完备的模态特征;
[0118]
利用生成器生成的原始模态特征通过多头注意力编码网络进行二次编码,将编码后的特征表示与完备的模态特征表示进行对抗,使编码后的特征表示向完备特征循环;
[0119]
构建由生成对抗网络的鉴别损失、循环一致损失以及分类任务的损失构成的目标函数,并以此目标函数来指导网络寻找模型的最优解,实现对短视频的分类。
[0120]
在一种实施方式中,从模态互补性的角度利用多头注意力编码网络分别构建以视觉模态为主的模态互补特征表示以及完备模态下的特征表示具体为:
[0121]
学习视觉模态特征fv和音频特征fa的互补特征z1:
[0122][0123]
其中,利用fa生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重,dk为比例缩放因子;
[0124]
学习视觉模态特征fv和轨迹特征f
t
的互补特征z2:
[0125][0126]
其中,利用fv生成键矩阵和值矩阵,利用f
t
生成查询矩阵,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重;
[0127]
利用提取好的视觉模态特征fv学习特征z3:
[0128][0129]
其中,为生成查询矩阵的权重,为生成键矩阵的权重,为生成值矩阵的权重;
[0130]
利用提取好的视觉模态特征fv、音频特征fa和轨迹特征f
t
学习三者的完备互补特征z
*

[0131][0132]
分别用fv和fa、f
t
结合,将两个融合结果相加,构建出完备的模态表示;利用fa和f
t
生成查询矩阵,和分别为用fa和f
t
生成查询矩阵的权重,和为利用fv生成值矩阵的权重,和为利用fv生成键矩阵的权重。
[0133]
在一种实施方式中,生成对抗网络的鉴别损失和循环一致损失具体为:
[0134][0135]
[0136]
其中,φi为融合视觉和第i个模态的基于多头注意力机制模态互补编码器,gi为第i个模态的生成器,γi每项损失前面的超参数。
[0137]
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
[0138]
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
[0139]
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
[0140]
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
[0141]
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
[0142]
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述想对应的,本发明实施例在此不做赘述。
[0143]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
[0144]
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
[0145]
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
[0146]
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0147]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献