一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

视频分类模型的训练方法、装置、电子设备以及存储介质与流程

2022-09-04 03:38:55 来源:中国专利 TAG:


1.本技术涉及计算机技术,尤其涉及一种视频分类模型的训练方法、装置、电子设备以及存储介质。


背景技术:

2.随着计算机技术的发展,越来越多的用户会通过观看视频的方式进行放松和娱乐。视频提供平台会在视频发布之前对视频进行审核,从而实现对视频的分类,比如,将视频分为符合相关规定的视频和不符合相关规定的视频。
3.相关技术中,往往是由视频审核人员来对待发布的视频内容进行分类,从而及时发现不符合相关规定的视频。但是,由视频审核人员来对视频内容进行分类时,需要视频审核人员完整的观看视频,导致视频分类的效率较低。因此,亟需一种更加智能的方法来提高视频分类的效率,比如基于机器学习技术来训练一个视频分类模型,通过视频分类模型来实现对视频的快速分类。


技术实现要素:

4.本技术提供一种视频分类模型的训练方法、装置、电子设备以及存储介质,以提高视频分类的效率,本技术的技术方案如下:
5.一方面,提供一种视频分类模型的训练方法,包括:
6.将样本视频输入视频分类模型,通过所述视频分类模型中的特征提取子模型,获取所述样本视频的多个样本视频图像的图像特征;
7.通过所述视频分类模型中的注意力编码子模型,对所述多个样本视频图像的图像特征进行编码,得到所述样本视频的视频特征;
8.通过所述视频分类模型,对所述多个样本视频图像的图像特征进行处理,得到所述样本视频的第一预测视频类型;对所述样本视频的视频特征进行处理,得到所述样本视频的第二预测视频类型;
9.基于第一差异信息和第二差异信息,对所述视频分类模型进行训练,所述第一差异信息为所述样本视频的标注视频类型与所述第一预测视频类型之间的差异信息,所述第二差异信息为所述标注视频类型与所述第二预测视频类型之间的差异信息。
10.在一种可能的实施方式中,所述基于第一差异信息和第二差异信息对所述视频分类模型进行训练包括:
11.基于所述第一差异信息和所述第二差异信息,对所述视频分类模型中的所述特征提取子模型进行训练;
12.基于所述第二差异信息,对所述视频分类模型中的所述注意力编码子模型进行训练。
13.在一种可能的实施方式中,所述基于所述第一差异信息和所述第二差异信息,对所述视频分类模型中的所述特征提取子模型进行训练包括:
14.在所述多个样本视频图像包括至少两个图像内容不同的样本视频图像的情况下,基于所述第一差异信息对应的第一损失函数和第一权重,以及所述第二差异信息对应的第二损失函数和第二权重,对所述特征提取子模型进行训练,所述第一权重用于表示所述第一损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重用于表示所述第二损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重大于所述第一权重;
15.所述基于所述第二差异信息,对所述视频分类模型中的所述注意力编码子模型进行训练包括:
16.基于所述第二损失函数以及所述第二权重,对所述注意力编码子模型进行训练。
17.在一种可能的实施方式中,所述基于所述第一差异信息和所述第二差异信息,对所述视频分类模型中的所述特征提取子模型进行训练包括:
18.在所述多个样本视频图像为相同图像内容的样本视频图像的情况下,基于所述第一差异信息对应的第一损失函数和第一权重,以及所述第二差异信息对应的第二损失函数和第二权重,对所述特征提取子模型进行训练,所述第一权重用于表示所述第一损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重用于表示所述第二损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重小于所述第一权重;
19.所述基于所述第二差异信息,对所述视频分类模型中的所述注意力编码子模型进行训练包括:
20.基于所述第二损失函数以及所述第二权重,对所述注意力编码子模型进行训练。
21.在一种可能的实施方式中,所述通过所述视频分类模型中的注意力编码子模型,对所述多个样本视频图像的图像特征进行编码,得到所述样本视频的视频特征包括:
22.通过所述视频分类模型中的所述注意力编码子模型,对所述多个样本视频图像中每两个相邻的样本视频图像的图像特征进行编码,得到所述多个样本视频图像的注意力特征;将所述多个样本视频图像的注意力特征进行融合,得到所述样本视频的视频特征。
23.在一种可能的实施方式中,所述对所述多个样本视频图像的图像特征进行处理,得到所述样本视频的第一预测视频类型包括:
24.对所述多个样本视频图像的图像特征进行池化,得到所述样本视频的图像分类特征;
25.对所述图像分类特征进行全连接和归一化,得到所述样本视频的第一分类参数;
26.基于所述第一分类参数,确定所述样本视频的第一预测视频类型。
27.在一种可能的实施方式中,所述对所述多个样本视频图像的图像特征进行池化,得到所述样本视频的图像分类特征包括:
28.对所述多个样本视频图像的图像特征进行拼接,得到样本拼接特征;
29.对所述样本拼接特征的每一列进行最大值池化,得到所述样本视频的图像分类特征。
30.在一种可能的实施方式中,所述对所述样本视频的视频特征进行处理,得到所述样本视频的第二预测视频类型包括:
31.对所述样本视频的视频特征进行全连接和归一化,得到所述样本视频的第二分类
参数;
32.基于所述第二分类参数,确定所述样本视频的第二预测视频类型。
33.在一种可能的实施方式中,所述方法还包括:
34.将目标视频输入所述视频分类模型,通过所述视频分类模型中的所述特征提取子模型,获取所述目标视频的多个目标视频图像的图像特征;
35.通过所述视频分类模型中的注意力编码子模型,对所述多个目标视频图像的图像特征进行编码,得到所述目标视频的视频特征;
36.通过所述视频分类模型,对所述目标视频的视频特征进行处理,得到所述目标视频的视频类型。
37.在一种可能的实施方式中,所述将样本视频输入视频分类模型之前,所述方法还包括:
38.从初始视频中以目标间隔进行抽帧,得到所述样本视频。
39.在一种可能的实施方式中,所述从初始视频中以目标间隔进行抽帧,得到所述样本视频包括:
40.从所述初始视频中以所述目标间隔进行抽帧,得到n个样本视频图像,n为正整数;
41.在n小于m的情况下,获取k个参考视频图像,所述参考视频图像为所述初始视频的第一个视频图像,m和k均为正整数,且k和n之和为m;
42.将所述n个样本视频图像和所述k个参考视频图像拼接为所述样本视频。
43.一方面,提供一种视频分类模型的训练装置,包括:
44.图像特征获取单元,被配置为执行将样本视频输入视频分类模型,通过所述视频分类模型中的特征提取子模型,获取所述样本视频的多个样本视频图像的图像特征;
45.注意力编码单元,被配置为执行通过所述视频分类模型中的注意力编码子模型,对所述多个样本视频图像的图像特征进行编码,得到所述样本视频的视频特征;
46.分类单元,被配置为执行通过所述视频分类模型,对所述多个样本视频图像的图像特征进行处理,得到所述样本视频的第一预测视频类型;对所述样本视频的视频特征进行处理,得到所述样本视频的第二预测视频类型;
47.训练单元,被配置为执行基于第一差异信息和第二差异信息,对所述视频分类模型进行训练,所述第一差异信息为所述样本视频的标注视频类型与所述第一预测视频类型之间的差异信息,所述第二差异信息为所述标注视频类型与所述第二预测视频类型之间的差异信息。
48.在一种可能的实施方式中,所述训练单元,被配置为执行基于所述第一差异信息和所述第二差异信息,对所述视频分类模型中的所述特征提取子模型进行训练;基于所述第二差异信息,对所述视频分类模型中的所述注意力编码子模型进行训练。
49.在一种可能的实施方式中,所述训练单元,被配置为执行在所述多个样本视频图像包括至少两个图像内容不同的样本视频图像的情况下,基于所述第一差异信息对应的第一损失函数和第一权重,以及所述第二差异信息对应的第二损失函数和第二权重,对所述特征提取子模型进行训练,所述第一权重用于表示所述第一损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重用于表示所述第二损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重大于所述第一权重;基于所述第二
损失函数以及所述第二权重,对所述注意力编码子模型进行训练。
50.在一种可能的实施方式中,所述训练单元,被配置为执行在所述多个样本视频图像为相同图像内容的样本视频图像的情况下,基于所述第一差异信息对应的第一损失函数和第一权重,以及所述第二差异信息对应的第二损失函数和第二权重,对所述特征提取子模型进行训练,所述第一权重用于表示所述第一损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重用于表示所述第二损失函数在训练时对所述视频分类模型的模型参数的影响程度,所述第二权重小于所述第一权重;基于所述第二损失函数以及所述第二权重,对所述注意力编码子模型进行训练。
51.在一种可能的实施方式中,所述注意力编码单元,被配置为执行通过所述视频分类模型中的所述注意力编码子模型,对所述多个样本视频图像中每两个相邻的样本视频图像的图像特征进行编码,得到所述多个样本视频图像的注意力特征;将所述多个样本视频图像的注意力特征进行融合,得到所述样本视频的视频特征。
52.在一种可能的实施方式中,所述分类单元,被配置为执行对所述多个样本视频图像的图像特征进行池化,得到所述样本视频的图像分类特征;对所述图像分类特征进行全连接和归一化,得到所述样本视频的第一分类参数;基于所述第一分类参数,确定所述样本视频的第一预测视频类型。
53.在一种可能的实施方式中,所述分类单元,被配置为执行对所述多个样本视频图像的图像特征进行拼接,得到样本拼接特征;对所述样本拼接特征的每一列进行最大值池化,得到所述样本视频的图像分类特征。
54.在一种可能的实施方式中,所述基分类单元,被配置为执行对所述样本视频的视频特征进行全连接和归一化,得到所述样本视频的第二分类参数;基于所述第二分类参数,确定所述样本视频的第二预测视频类型。
55.在一种可能的实施方式中,所述装置还包括:
56.类型确定单元,被配置为执行将目标视频输入所述视频分类模型,通过所述视频分类模型中的所述特征提取子模型,获取所述目标视频的多个目标视频图像的图像特征;通过所述视频分类模型中的注意力编码子模型,对所述多个目标视频图像的图像特征进行编码,得到所述目标视频的视频特征;通过所述视频分类模型,对所述目标视频的视频特征进行处理,得到所述目标视频的视频类型。
57.在一种可能的实施方式中,所述装置还包括:
58.样本视频获取单元,被配置为执行从初始视频中以目标间隔进行抽帧,得到所述样本视频。
59.在一种可能的实施方式中,所述样本视频获取单元,被配置为执行从所述初始视频中以所述目标间隔进行抽帧,得到n个样本视频图像,n为正整数;在n小于m的情况下,获取k个参考视频图像,所述参考视频图像为所述初始视频的第一个视频图像,m和k均为正整数,且k和n之和为m;将所述n个样本视频图像和所述k个参考视频图像拼接为所述样本视频。
60.一方面,提供一种电子设备,包括:
61.处理器;
62.用于存储所述处理器可执行指令的存储器;
63.其中,所述处理器被配置为执行所述指令,以实现上述视频分类模型的训练方法。
64.一方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备够执行上述视频分类模型的训练方法。
65.一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述视频分类模型的训练方法。
66.本技术的实施例提供的技术方案至少带来以下有益效果:
67.在本技术实施例中,通过样本视频训练一个视频分类模型,在训练过程中构建了基于样本视频图像的图像特征对样本视频进行分类的任务以及基于样本视频的视频特征对样本视频进行分类的任务,通过两个分类任务使得视频分类模型既学习到视频图像层面的内容,也学习到视频层面的内容,从而提高视频分类模型在进行视频分类时的准确率。使用视频分类模型对视频进行分类就能够在保证准确性的前提下,提高视频分类的效率。
68.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
69.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理,并不构成对本技术的不当限定。
70.图1是根据一示例性实施例示出的一种视频分类模型的训练方法的实施环境示意图。
71.图2是根据一示例性实施例示出的一种视频分类模型的训练方法的流程图。
72.图3是根据一示例性实施例示出的另一种视频分类模型的训练方法的流程图。
73.图4是根据一示例性实施例示出的又一种视频分类模型的训练方法的流程图。
74.图5是根据一示例性实施例示出的一种视频分类方法的流程图。
75.图6是根据一示例性实施例示出的一种视频分类模型的训练装置的框图。
76.图7是根据一示例性实施例示出的一种终端的框图。
77.图8是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
78.为了使本领域普通人员更好地理解本技术的技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
79.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
80.下面对本技术实施例涉及的一些名词进行介绍。
81.归一化:将取值范围不同的数列映射到(0,1)区间上,便于数据的处理。在一些情况下,归一化后的数值可以直接被实现为概率。
82.嵌入编码(embedded coding):嵌入编码在数学上表示一个对应关系,即通过一个函数f将x空间上的数据映射到y空间上,其中该函数f是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据x1以及x2,映射后得到x1对应的y1以及x2对应的y2。若映射前的数据x1>x2,那么相应地,映射后的数据y1大于y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
83.注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
84.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
85.图1是本技术实施例提供的一种视频分类模型的训练方法的实施环境示意图,参见图1,该实施环境中包括终端101和服务器102。
86.终端101可以为智能手机、智能手表、台式电脑、手提电脑和膝上型便携计算机等设备中的至少一种。终端101上可以安装并运行有支持视频分类模型训练的应用程序,用户可以通过终端101登录该应用程序,通过该应用程序来对视频分类模型进行训练,在一些实施例中,该应用程序上登录有用户的账号。
87.终端101可以泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端101可以仅为几个,或者上述终端101为几十个或几百个,或者更多数量,本技术实施例对终端101的数量和设备类型均不加以限定。终端101可以通过无线网络或有线网络与服务器102相连。
88.服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102为终端101上运行的应用程序提供的后台服务。
89.在一些实施例中,上述服务器102的数量可以更多或更少,本技术实施例对此不加以限定。当然,服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。
90.在介绍完本技术实施例的实施环境之后,下面将结合上述实施环境对本技术实施例的应用场景进行介绍,在下述说明过程中,终端也即是上述实施环境中的终端101,服务器也即是上述实施环境中的服务器102。
91.本技术实施例提供的技术方案能够应用各种需要对视频进行分类的场景下,比如应用在确定视频是否为违规视频的场景下,或者应用在为视频添加标签的场景下,本技术实施例对此不做限定。
92.以本技术实施例提供的视频分类模型的训练方法应用在确定视频是否为违规视频的场景下为例,技术人员通过终端收集训练视频分类模型时使用的样本视频,为样本视频以及样本视频中的样本视频图像添加标签,该标签用于表示样本视频以及样本视频中的样本视频图像是否为违规视频。终端将收集到的样本视频以及对应的标签上传至服务器,由服务器通过本技术实施例提供的技术方案,基于样本视频以及对应的标签训练视频分类
模型。训练完成之后,该视频分类模型就部署在该服务器上,技术人员能够通过终端调用该视频分类模型,将待分类的目标视频输入该视频分类模型,由该视频分类模型输出该目标视频的类型,类型用于表示该目标视频是否为违规视频。
93.需要说明的是,上述是以本技术实施例提供的技术方案应用在确定视频是否为违规视频的场景下为例进行说明,本技术实施例提供的技术方案应用在其他对视频进行分类的场景于上述描述属于同一发明构思,内容不再赘述。
94.另外,上述是以服务器训练该视频分类模型为例进行说明,在其他可能的实施方式中,该视频分类模型也可以由终端或者其他电子设备训练,本技术实施例对此不做限定。
95.在介绍完本技术实施例的实施环境和应用场景之后,面对本技术实施例提供的技术方案进行说明,参见图2,以执行主体为服务器为例,方法包括:
96.在步骤s201中,服务器将样本视频输入视频分类模型,通过该视频分类模型中的特征提取子模型,获取该样本视频的多个样本视频图像的图像特征。
97.其中,视频分类模型为用于对视频进行分类的模型,样本视频为训练该视频分类模型的视频,在训练该视频分类模型的过程中,服务器会采用多个样本视频来对该视频分类模型进行训练。样本视频图像也被称为该样本视频中的视频图像,样本视频图像的图像特征用于表示样本视频图像的特性,在一些实施例中,样本视频图像的图像特征为样本视频图像的图像特征向量。该视频分类模型包括特征提取子模型,该特征提取子模型用于提取视频图像的图像特征。
98.在步骤s202中,服务器通过该视频分类模型中的注意力编码子模型,基于注意力机制对该多个样本视频图像的图像特征进行编码,得到该样本视频的视频特征。
99.其中,该注意力编码子模型能够基于注意力机制对图像特征进行处理,基于注意力机制对多个样本视频图像的图像特征进行处理时,能够充分利用图像特征中的信息,从而使得确定出的视频特征能够更加准确地表示样本视频。
100.在步骤s203中,服务器通过该视频分类模型,对该多个样本视频图像的图像特征进行处理,得到该样本视频的第一预测视频类型。对该样本视频的视频特征进行处理,得到该样本视频的第二预测视频类型。
101.其中,第一预测视频类型是基于图像特征确定出的视频类型,第二预测类型是基于视频特征确定出的视频类型,确定两个视频类型所采用的特征的粒度是不同的。
102.在步骤s204中,服务器基于第一差异信息和第二差异信息,对该视频分类模型进行训练,该第一差异信息为该样本视频的标注视频类型与该第一预测视频类型之间的差异信息,该第二差异信息为该标注视频类型与该第二预测视频类型之间的差异信息。
103.其中,标注视频类型可以视作该样本视频的真实标签,作为训练视频分类模型时的监督。
104.在本技术实施例中,通过样本视频训练一个视频分类模型,在训练过程中构建了基于样本视频图像的图像特征对样本视频进行分类的任务以及基于样本视频的视频特征对样本视频进行分类的任务,通过两个分类任务使得视频分类模型既学习到视频图像层面的内容,也学习到视频层面的内容,从而提高视频分类模型在进行视频分类时的准确率。使用视频分类模型对视频进行分类就能够在保证准确性的前提下,提高视频分类的效率。
105.在一种可能的实施方式中,该基于第一差异信息和第二差异信息对该视频分类模
型进行训练包括:
106.基于该第一差异信息,对该视频分类模型中的该特征提取子模型进行训练。
107.基于该第二差异信息,对该视频分类模型中的该特征提取子模型和该注意力编码子模型进行训练。
108.在这种实施方式下,能够基于第一差异信息和第二差异信息对视频分类模型的不同子模型进行训练,从而实现对视频分类模型的整体训练。
109.在一种可能的实施方式中,该基于该第一差异信息,对该视频分类模型中的该特征提取子模型进行训练包括:
110.在该多个样本视频图像包括至少两个图像内容不同的样本视频图像的情况下,基于该第一差异信息对应的第一损失函数以及第一权重,对该特征提取子模型进行训练,该第一权重用于表示该第一损失函数在训练时对该视频分类模型的模型参数的影响程度。
111.该基于该第二差异信息,对该视频分类模型中的该特征提取子模型和该注意力编码子模型进行训练包括:
112.基于该第二差异信息对应的第二损失函数以及第二权重,对该特征提取子模型和该注意力编码子模型进行训练,该第二权重用于表示该第二损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重大于该第一权重。
113.在这种实施方式下,多个样本视频图像包括至少两个不同的样本视频图像,也就意味着样本视频为真实视频,那么可以注重训练注意力编码子模型,提高注意力编码子模型输出的视频特征的准确性。
114.在一种可能的实施方式中,该基于该第一差异信息,对该视频分类模型中的该特征提取子模型进行训练包括:
115.在该多个样本视频图像为相同图像内容的样本视频图像的情况下,基于该第一差异信息对应的第一损失函数以及第一权重,对该特征提取子模型进行训练,该第一权重用于表示该第一损失函数在训练时对该视频分类模型的模型参数的影响程度。
116.该基于该第二差异信息,对该视频分类模型中的该特征提取子模型和该注意力编码子模型进行训练包括:
117.基于该第二差异信息对应的第二损失函数以及第二权重,对该特征提取子模型和该注意力编码子模型进行训练,该第二权重用于表示该第二损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重小于该第一权重。
118.在这种实施方式下,多个样本视频图像为相同的样本视频图像,也就意味着样本视频为合成视频,视频特征与图像特征实际上是相同的,那么可以注重训练特征提取子模型,提高特征提取子模型输出的图像特征的准确性。
119.在一种可能的实施方式中,该通过该视频分类模型中的注意力编码子模型,对该多个样本视频图像的图像特征进行编码,得到该样本视频的视频特征包括:
120.通过该视频分类模型中的该注意力编码子模型,对该多个样本视频图像中每两个相邻的样本视频图像的图像特征进行编码,得到该多个样本视频图像的注意力特征。将该多个样本视频图像的注意力特征进行融合,得到该样本视频的视频特征。
121.在这种实施方式下,能够通过视频分类模型,基于注意力机制对多个样本视频图像的图像特征进行编码,从而得到多个样本视频图像的注意力特征。将多个样本视频图像
的注意力特征进行融合,就能够得到样本视频的视频特征。
122.在一种可能的实施方式中,该对该多个样本视频图像的图像特征进行处理,得到该样本视频的第一预测视频类型包括:
123.对该多个样本视频图像的图像特征进行池化,得到该样本视频的图像分类特征。
124.对该图像分类特征进行全连接和归一化,得到该样本视频的第一分类参数。
125.基于该第一分类参数,确定该样本视频的第一预测视频类型。
126.在这种实施方式下,通过池化的方式将多个样本视频图像的图像特征转变为图像分类特征,图像分类特征也就融合了多个样本视频图像的图像特征的内容,图像分类特征能够在视频图像的粒度上表示该样本视频。
127.在一种可能的实施方式中,该对该多个样本视频图像的图像特征进行池化,得到该样本视频的图像分类特征包括:
128.对该多个样本视频图像的图像特征进行拼接,得到样本拼接特征。
129.对该样本拼接特征的每一列进行最大值池化,得到该样本视频的图像分类特征。
130.在一种可能的实施方式中,该对该样本视频的视频特征进行处理,得到该样本视频的第二预测视频类型包括:
131.对该样本视频的视频特征进行全连接和归一化,得到该样本视频的第二分类参数。
132.基于该第二分类参数,确定该样本视频的第二预测视频类型。
133.在一种可能的实施方式中,该方法还包括:
134.将目标视频输入该视频分类模型,通过该视频分类模型中的该特征提取子模型,获取该目标视频的多个目标视频图像的图像特征。
135.通过该视频分类模型中的注意力编码子模型,对该多个目标视频图像的图像特征进行编码,得到该目标视频的视频特征。
136.通过该视频分类模型,对该目标视频的视频特征进行处理,得到该目标视频的视频类型。
137.在这种实施方式下,通过视频分类模型就能够快速对目标视频进行分类,无需人工观看目标视频后再进行分类,大大提高了视频分类的效率。
138.在一种可能的实施方式中,该将样本视频输入视频分类模型之前,该方法还包括:
139.从初始视频中以目标间隔进行抽帧,得到该样本视频。
140.在一种可能的实施方式中,该从初始视频中以目标间隔进行抽帧,得到该样本视频包括:
141.从该初始视频中以该目标间隔进行抽帧,得到n个样本视频图像,n为正整数。
142.在n小于m的情况下,获取k个参考视频图像,该参考视频图像为该初始视频的第一个视频图像,m和k均为正整数,且k和n之和为m。
143.将该n个样本视频图像和该k个参考视频图像拼接为该样本视频。
144.上述步骤s201-s204是对本技术实施例提供的技术方案的简单介绍,下面将结合一些例子,对本技术实施例提供的技术方案进行更加清楚的说明,参见图3,以执行主体为服务器为例,方法包括:
145.在步骤s301中,服务器获取样本视频。
146.其中,该样本视频为用于训练视频分类模型的视频。在一些实施例中,该样本视频为真实视频或者合成视频,其中,真实视频是指视频制作者通过拍摄、剪辑、动画制作等手段得到的视频,合成视频是指服务器基于一个或多个图像合成的视频。
147.在一种可能的实施方式中,服务器从初始视频中以目标间隔进行抽帧,得到该样本视频。
148.其中,该初始视频为真实视频,也即是视频制作者通过拍摄、剪辑、动画制作等手段得到的视频,比如为电影、电视剧以及短视频等类型的视频。目标间隔由技术人员根据实际情况进行设置,比如将目标间隔设置为5帧、10帧等,本技术实施例对此不做限定。在本技术实施例提供的技术方案应用在确定视频是否为违规视频的场景下,该初始视频为违规视频或者正常视频,在这种情况下,服务器还能够获取该初始视频的标签,该标签也即是样本视频的标签,用于表示样本视频为违规视频还是正常视频。
149.在这种实施方式下,服务器通过在初始视频中进行抽帧从而得到样本视频,样本视频中视频图像的数量小于初始视频中视频图像的数量,从而减少在训练视频分类模型过程中对单个视频进行处理的运算量,提高训练视频分类模型的效率。
150.举例来说,服务器从该初始视频中以该目标间隔进行抽帧,得到n个样本视频图像,n为正整数。在n小于m的情况下,服务器获取k个参考视频图像,该参考视频图像为该初始视频的第一个视频图像,m和k均为正整数,且k和n之和为m。服务器将该n个样本视频图像和该k个参考视频图像拼接为该样本视频。其中,m为预设的视频图像的数量,通过上述举例中提供的技术方案,使得不同样本视频均包括相同数量m个视频图像,从而避免视频图像数量差异对模型训练造成的干扰,提高训练出的视频分类模型对视频分类的准确性。
151.在一种可能的实施方式中,服务器获取目标图像,该目标图像为违规图像或者征程图像。服务器将该目标图像复制多次,得到多个目标图像。服务器将该多个目标图像融合为该样本视频。在一些实施例中,服务器将该目标图像的标签确定为该样本视频的标签。
152.在这种实施方式下,服务器能够基于目标图像来生成样本视频,大大降低了获取样本视频的难度,从而在训练视频分类模型时可以使用数量更多的样本视频,提高对样本视频的训练效果。
153.需要说明的是,服务器能够采用上述任一种方式来获取样本视频,或者结合上述两种实施方式来获取多个样本视频,本技术实施例对此不做限定。除了上述两种实施方式之外,本技术实施例还提供了另一种获取样本视频的方式。
154.在一种可能的实施方式中,响应于对样本视频的操作,终端向服务器发送该样本视频。在这种实施方式下,技术人员能够通过对该样本视频的操作来控制终端向服务器发送该样本视频,技术人员能够自行选择样本视频,人机交互的效率较高。
155.举例来说,终端显示视频选择页面,该视频选择页面包括多个候选视频。响应于对该多个候选视频中样本视频的点击操作,终端向服务器发送该样本视频,服务器获取该样本视频。在这种情况下,该多个候选视频为存储在终端上的视频。在该多个候选视频为存储在服务器上的视频的情况下,响应于在视频选择页面上对样本视频的点击操作,终端向服务器发送视频选择指令,该视频选择指令携带该样本视频的标识。服务器接收到该视频选择指令之后,从该视频选择指令中获取该样本视频的标识。服务器基于该样本视频的标识进行查询,获取该样本视频。
156.需要说明的是,步骤s301是可选地步骤,在存在提前生成的样本视频的情况下,服务器直接执行下述步骤s302即可。在下述步骤s302-s306中,是以服务器对视频分类模型进行一次迭代训练为例进行说明的,服务器在其他迭代训练过程中的实现过程与上述步骤s302-s306属于同一发明构思。
157.在步骤s302中,服务器将样本视频输入视频分类模型,通过该视频分类模型中的特征提取子模型,获取该样本视频的多个样本视频图像的图像特征。
158.其中,视频分类模型为用于对视频进行分类的模型,图像特征用于表示样本视频图像的深层特征。视频分类模型中的特征提取子模型用于对视频图像进行特征提取,得到图像特征。
159.在一种可能的实施方式中,服务器将该样本视频输入该视频分类模型,通过该视频分类模型中的特征提取子模型,对该样本视频的多个样本视频图像进行卷积,得到该多个样本视频图像的图像特征。
160.在这种实施方式下,能够通过特征提取子模型提取样本视频图像的图像特征,从而实现对样本视频图像的抽象表达,提高后续的运算效率。
161.举例来说,服务器将样本视频输入该视频分类模型之后,对于该多个样本视频图像中的任一样本视频图像,通过该特征提取子模型的卷积层对该样本视频图像进行特征提取,也即是采用该特征提取子模型的卷积层上的卷积核在该样本视频图像上进行滑动,在滑动过程中对被覆盖的区域执行卷积,得到该样本视频图像的图像特征,在一些实施例中,该样本视频图像的图像特征也被称为该样本视频图像的特征图。在该样本视频图像包括多个颜色通道的情况下,服务器通过该特征提取子模型,分别对该样本视频图像的多个颜色通道进行卷积,也即是采用多个卷积核分别在该样本视频图像的多个颜色通道上进行滑动,在滑动过程中对被覆盖的区域执行卷积,得到该多个颜色通道对应的多个通道图像特征,其中,该多个卷积核与该多个颜色通道一一对应。服务器通过该特征提取子模型,将该多个通道图像特征进行融合,得到该样本视频图像的图像特征。在一些实施例中,该特征提取子模型还包括池化层,服务器通过该特征提取子模型的卷积层对该样本视频图像进行卷积之后,再将卷积得到的特征图输入池化层,通过该池化层对该卷积得到的特征图进行池化,得到该样本视频图像的图像特征。通过池化层对卷积得到的特征图进行池化,能够降低特征图中的数据量,提高后续训练视频分类模型的效率。
162.需要说明的是,上述是以服务器通过该特征提取子模型对样本视频图像进行一次卷积为例进行说明,在其他可能的实施方式中,服务器能够通过该特征提取子模型对该样本视频图像进行多次卷积,本技术实施例对此不做限定。在一些实施例中,该特征提取子模型为resent-50(残差网络50)或者inception-v3(非对称卷积)等,当然随着科学技术的发展,该特征提取子模型还可以替换为更加先进的特征提取模型,本技术实施例对此不做限定。
163.在一种可能的实施方式中,服务器将该样本视频输入该视频分类模型,通过该视频分类模型中的特征提取子模型,对该样本视频的多个样本视频图像进行时频变换,得到该多个样本视频图像的多个频域样本视频图像,该多个样本视频图像与该多个频域样本视频图像一一对应。服务器通过该视频分类模型中的特征提取子模型,对该多个样本视频图像进行卷积,得到该多个样本视频图像的空域图像特征,空域图像特征能够反映样本视频
图像的像素点的特性。服务器通过该视频分类模型中的特征提取子模型,对该多个频域样本视频图像进行卷积,得到该多个样本视频图像的频域图像特征,频域图像特征能够反映样本视频图像的整体特征。服务器通过该视频分类模型中的特征提取子模型,将该多个样本视频图像的空域图像特征与对应的频域图像特征进行融合,得到该多个样本视频图像的图像特征。
164.在这种实施方式下,服务器能够通过该特征提取子模型提取样本视频图像的空域图像特征和频域图像特征,基于空域图像特征和频域图像特征得到的图像特征能够更加准确地表示样本视频图像,提高后续通过视频分类模型进行分类的准确性。
165.举例来说,服务器将样本视频输入该视频分类模型之后,对于该多个样本视频图像中的任一样本视频图像,通过该特征提取子模型对该样本视频图像进行傅里叶变换,得到该样本视频图像对应的频域样本视频图像。服务器通过该特征提取子模型的空域卷积层,对该样本视频图像进行卷积,得到该样本视频图像的空域图像特征。服务器通过该特征提取子模型的频域卷积层,对该频域样本视频图像进行卷积,得到该样本视频图像的频域图像特征。服务器通过该特征提取子模型,将该样本视频图像的空域图像特征和频域图像特征进行融合,得到该样本视频图像的图像特征。
166.在一种可能的实施方式中,服务器将该样本视频输入该视频分类模型,通过该时分类模型中的特征提取子模型,基于注意力机制对该样本视频的多个样本视频图像进行编码,得到该多个样本视频图像的图像特征。
167.在这种实施方式下,服务器能够通过视频分类模型中的特征提取子模型,基于注意力机制对多个样本视频图像进行编码,从而在获取各个样本视频图像的图像特征时,参考样本视频中的其他样本视频图像,提高确定出的图像特征的准确性,从而提高后续基于图像特征进行视频分类的准确性。
168.举例来说,服务器将该多个样本视频图像输入该视频分类模型,通过该视频分类模型的特征提取子模型,对该多个样本视频图像进行嵌入编码,得到多个第一嵌入特征,一个第一嵌入特征对应于一个样本视频图像,第一嵌入特征用于表示各个样本视频图像在该多个样本视频图像中的位置以及各个样本视频图像的内容。服务器将多个第一嵌入特征输入视频分类模型,通过该特征提取子模型的三个线性变换矩阵,对多个第一嵌入特征进行线性变换,得到该多个样本视频图像的每个样本视频图像对应的查询(query)向量、键(key)向量以及值(value)向量。服务器通过该特征提取子模型,基于该多个样本视频图像对应的查询向量以及键向量,获取多个样本视频图像的注意力权重。服务器通过该特征提取子模型,基于该多个样本视频图像的各个样本视频图像的注意力权重和该多个样本视频图像的各个样本视频图像的值向量,获取该多个样本视频图像的注意力编码向量,注意力编码向量也即是样本视频图像的图像特征。
169.需要说明的是,服务器能够采用上述任一种方式来获取多个样本视频图像的图像特征,本技术实施例对此不做限定。
170.在步骤s303中,服务器通过该视频分类模型中的注意力编码子模型,对该多个样本视频图像的图像特征进行编码,得到该样本视频的视频特征。
171.其中,该注意力编码子模型能够基于注意力机制对图像特征进行处理,基于注意力机制对多个样本视频图像的图像特征进行处理时,能够充分利用图像特征中的信息,从
而使得确定出的视频特征能够更加准确地表示样本视频。
172.在一种可能的实施方式中,服务器通过该视频分类模型中的注意力编码子模型,对该多个样本视频图像中每两个相邻的样本视频图像的图像特征进行编码,得到该多个样本视频图像的注意力特征。服务器将该多个样本视频图像的注意力特征进行融合,得到该样本视频的视频特征。
173.在这种实施方式下,服务器能够通过视频分类模型中的注意力编码子模型,对多个样本视频图像的图像特征进行编码,从而得到多个样本视频图像的注意力特征。将多个样本视频图像的注意力特征进行融合,就能够得到样本视频的视频特征,这样得到的视频特征的准确性较高。
174.举例来说,该注意力编码子模型用于获取视频的视频特征,服务器将该多个样本视频图像的图像特征输入该视频分类模型中的注意力编码子模型,通过该注意力编码子模型,对该多个样本视频图像的图像特征进行嵌入编码,得到多个第二嵌入特征,一个第二嵌入特征对应于一个样本视频图像的图像特征,第二嵌入特征用于表示各个样本视频图像的图像特征在该多个样本视频图像的图像特征中的位置以及各个样本视频图像的图像特征的内容。服务器将多个第二嵌入特征输入视频分类模型,通过该注意力编码子模型的三个线性变换矩阵,对多个第二嵌入特征进行线性变换,得到该多个样本视频图像的每个样本视频图像的图像特征对应的查询(query)向量、键(key)向量以及值(value)向量。服务器通过该注意力编码子模型,基于该多个样本视频图像的图像特征对应的查询向量以及键向量,获取多个样本视频图像的图像特征的注意力权重。服务器通过视频分类模型,基于该多个样本视频图像的图像特征的注意力权重和值向量,获取该多个样本视频图像的注意力特征。服务器将该多个样本视频图像的注意力特征进行融合,得到该样本视频的视频特征。在一些实施例中,该视频分类模型为语义特征编码器,比如为双向编码器表示(bidirectional encoder representations from transformers,bert)的编码器。
175.比如,服务器通过该注意力编码子模型,将每个第二嵌入特征分别与三个线性变换矩阵相乘,得到每个样本视频图像的图像特征分别对应的查询向量、键向量以及值向量。对于该多个样本视频图像中的第一个样本视频图像,服务器通过该注意力编码子模型,基于第一个样本视频图像的图像特征的查询向量,与该多个其他样本视频图像的图像特征的键向量,确定多个其他样本视频图像的图像特征对第一个样本视频图像的图像特征的多个注意力权重。服务器通过该注意力编码子模型,将多个其他样本视频图像的图像特征对第一个样本视频图像的图像特征的注意力权重,与多个其他样本视频图像的图像特征的值向量进行加权求和,得到该第一个样本视频图像的注意力特征。需要说明的是,上述是以服务器通过该视频分类模型,对该多个样本视频图像的第一个样本视频图像进行编码,得到该第一个样本视频图像的注意力特征为例进行说明的,服务器对该多个样本视频图像的其他样本视频图像进行编码的方式与上述对该第一个样本视频图像进行编码的方法属于同一发明构思,实现过程参见上述描述,在此不再赘述。服务器将该多个样本视频图像的注意力特征进行加权求和,得到该样本视频的视频特征,其中,加权求和的权重由技术人员根据实际情况进行设置,本技术实施例对此不做限定。
176.在步骤s304中,服务器通过该视频分类模型,对该多个样本视频图像的图像特征进行处理,得到该样本视频的第一预测视频类型。
177.其中,第一预测视频类型是基于图像特征确定出的视频类型,第二预测类型是基于视频特征确定出的视频类型,确定两个视频类型所采用的特征的粒度是不同的。
178.在一种可能的实施方式中,服务器通过该视频分类模型,对该多个样本视频图像的图像特征进行池化,得到该样本视频的图像分类特征。服务器通过该视频分类模型,对该图像分类特征进行全连接和归一化,得到该样本视频的第一分类参数。服务器通过该视频分类模型,基于该第一分类参数,确定该样本视频的第一预测视频类型。在一些实施例中,该视频分类模型输出标签,该标签用于指示样本视频的视频类型,比如,该视频分类模型输出第一预测标签,该第一预测标签用于表示该第一预测视频类型。
179.在这种实施方式下,服务器通过池化的方式将多个样本视频图像的图像特征转变为图像分类特征,图像分类特征也就融合了多个样本视频图像的图像特征的内容,图像分类特征能够在视频图像的粒度上表示该样本视频。
180.举例来说,服务器通过该视频分类模型,对该多个样本视频图像的图像特征进行拼接,得到样本拼接特征。对该样本拼接特征的每一列进行最大值池化,得到该样本视频的图像分类特征。比如,在该样本拼接特征为m
×
d维的特征矩阵的情况下,服务器通过该视频分类模型,对该m
×
d维的特征矩阵的每一列进行最大值池化,也就是保留该m
×
d维的特征矩阵的每一列的最大值,得到d维的特征向量,该d维的特征向量也即是该图像分类特征,m和d均为正整数,在图像特征为1
×
d的特征向量的情况下,m为样本视频中样本视频图像的数量。服务器通过该视频分类模型,对该图像分类特征进行至少一次全连接,得到第一全连接特征。服务器通过该视频分类模型,对该第一全连接特征进行归一化,得到第一分类参数。其中,该第一分类参数为概率序列,概率序列包括多个概率值,每个概率值对应于一种视频类型。服务器通过该视频分类模型,将该第一分类参数中最大的概率值对应的视频类型确定为该第一预测视频类型。在一些实施例中,该视频分类模型包括第一分类器,第一分类器用于执行上述步骤,服务器通过该第一分类器来基于该多个样本视频图像的图像特征确定该第一预测视频类型。
181.在本技术实施例提供的视频分类模型的训练方法应用在确定视频是否为违规视频的场景的情况下,该第一分类参数中概率值的数量为两个或者三个。在第一分类参数中概率值的数量为两个的情况下,这两个概率值对应于两个视频类型,分别为违规视频和正常视频。在第一分类参数中概率值的数量为三个的情况下,这三个概率值对应于三个视频类型,分别为违规视频、正常视频以及待定视频,其中,待定视频为视频分类模型无法准确分类的视频,需要视频审核人员进行二次确认。
182.在步骤s305中,服务器通过该视频分类模型,对该样本视频的视频特征进行处理,得到该样本视频的第二预测视频类型。
183.在一种可能的实施方式中,服务器通过该视频分类模型,对该样本视频的视频特征进行全连接和归一化,得到该样本视频的第二分类参数。服务器通过该视频分类模型,基于该第二分类参数,确定该样本视频的第二预测视频类型。
184.举例来说,服务器通过该视频分类模型,对该样本视频的视频特征进行至少一次全连接,得到第二全连接特征。服务器通过该视频分类模型,对该第二全连接特征进行归一化,得到第二分类参数。其中,该第二分类参数为概率序列,概率序列包括多个概率值,每个概率值对应于一种视频类型。服务器通过该视频分类模型,将该第二分类参数中最大的概
率值对应的视频类型确定为该第二预测视频类型。在一些实施例中,该视频分类模型包括第二分类器,第二分类器用于执行上述步骤,服务器通过该第二分类器来基于该视频特征确定该第二预测视频类型。在一些实施例中,该视频分类模型输出标签,该标签用于指示样本视频的视频类型,比如,该视频分类模型输出第二预测标签,该第二预测标签用于表示该第二预测视频类型。
185.在本技术实施例提供的视频分类模型的训练方法应用在确定视频是否为违规视频的场景的情况下,该第二分类参数中概率值的数量为两个或者三个。在第二分类参数中概率值的数量为两个的情况下,这两个概率值对应于两个视频类型,分别为违规视频和正常视频。在第二分类参数中概率值的数量为三个的情况下,这三个概率值对应于三个视频类型,分别为违规视频、正常视频以及待定视频,其中,待定视频为视频分类模型无法准确分类的视频,需要视频审核人员进行二次确认。
186.为了对本技术实施例提供的技术方案进行更加清楚的说明,下面将结合图4,对上述步骤s302-s305进行说明。
187.参见图4,视频分类模型包括特征提取子模型401、注意力编码子模型402、第一分类器403以及第二分类器404。服务器将样本视频输入视频分类模型,通过该视频分类模型的特征提取子模型401对该样本视频的多个样本视频图像4011进行特征提取,得到该多个样本视频图像4011的图像特征4012。服务器通过该视频分类模型,对样本拼接特征进行最大值池化,得到该样本视频的图像分类特征405,该样本拼接特征由该多个样本视频图像4011的图像特征4012拼接得到。服务器将该多个样本视频图像4011的图像特征4012输入注意力编码子模型402,通过该注意力编码子模型402,基于注意力机制对该多个样本视频图像4011的图像特征4012进行编码,得到该样本视频的视频特征4021。服务器将该样本视频的图像分类特征405输入第一分类器403,通过该第一分类器403对该图像分类特征405进行全连接和归一化,得到第一分类参数。服务器基于第一分类参数获取该样本视频的第一预测视频类型。服务器将该样本视频的视频特征4021输入第二分类器404,通过该第二分类器404对该视频特征4021进行全连接和归一化,得到第二分类参数。服务器基于第二分类参数获取该样本视频的第二预测视频类型。
188.在步骤s306中,服务器基于第一差异信息和第二差异信息,对该视频分类模型进行训练,该第一差异信息为该样本视频的标注视频类型与该第一预测视频类型之间的差异信息,该第二差异信息为该标注视频类型与该第二预测视频类型之间的差异信息。
189.其中,标注视频类型可以视作该样本视频的真实标签,作为训练视频分类模型时的监督。
190.在一种可能的实施方式中,该视频分类模型包括特征提取子模型和注意力编码子模型,服务器基于该第一差异信息和该第二差异信息,对该特征提取子模型进行训练。服务器基于该第二差异信息,对该注意力编码子模型进行训练。
191.在这种实施方式下,服务器能够基于第一差异信息和第二差异信息对视频分类模型的不同子模型进行训练,从而实现对视频分类模型的整体训练。
192.为了对上述实施方式进行更加清楚的说明,下面通过两个例子对上述实施方式进行说明。
193.例1、在该多个样本视频图像包括至少两个图像内容不同的样本视频图像的情况
下,服务器基于该第一差异信息对应的第一损失函数和第一权重,以及该第二差异信息对应的第二损失函数和第二权重,对该特征提取子模型进行训练,该第一权重用于表示该第一损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重用于表示该第二损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重大于该第一权重。服务器基于该第二损失函数以及该第二权重,对该注意力编码子模型进行训练。
194.其中,在该多个样本视频图像包括至少两个不同的样本视频图像的情况下,该多个样本视频图像是通过上述步骤s301中第一种实施方式获取的。第二权重大于该第一权重也就表示在训练过程中,着重基于样本视频的视频特征训练了注意力编码子模型。视频分类模型的模型参数为视频分类模型的内参数。
195.在这种实施方式下,多个样本视频图像包括至少两个不同的样本视频图像,也就意味着样本视频为真实视频,那么可以注重训练注意力编码子模型,提高注意力编码子模型输出的视频特征的准确性。
196.比如,在该多个样本视频图像包括至少两个图像内容不同的样本视频图像的情况下,服务器基于该第一差异信息,构建第一损失函数,该第一损失函数为交叉熵损失函数。服务器将该第一损失函数的损失值与第一权重相乘,得到第一目标损失值。服务器基于该第二差异信息,构建第二损失函数,该第二损失函数为交叉熵损失函数。服务器将该第二损失函数的损失值与第二权重相乘,得到第二目标损失值。服务器基于该第一目标损失值和第二目标损失值,采用梯度下降法对该特征提取子模型进行训练,也即是调整该特征提取子模型的模型参数。服务器基于该第二目标损失值,采用梯度下降法对该注意力编码子模型进行训练,也即是调整该注意力编码子模型的模型参数。第一损失函数的形式参见下述公式(1),第二损失函数的形式参见下述公式(2)。
[0197][0198][0199]
其中,l1为第一损失函数,l2为第二损失函数,为标注视频类型对应的标签,y1为第一预测视频类型对应的标签,y2为第二预测视频类型对应的标签。
[0200]
在一些实施例中,上述第一损失函数l1和第二损失函数l2可以通过第一权重和第二权重组成联合损失函数lc,服务器基于该联合损失函数lc对该特征提取子模型和该注意力编码子模型进行训练,该联合损失函数lc的形式参见下述公式(3)。
[0201]
lc=w1l1 w2l2ꢀꢀ
(3)
[0202]
其中,w1为第一权重,w2为第二权重。在一些实施例中,在该多个样本视频图像包括至少两个不同的样本视频图像的情况下,w1=0.4,w2=1。
[0203]
例2、在该多个样本视频图像为相同图像内容的样本视频图像的情况下,服务器基于该第一差异信息对应的第一损失函数和第一权重,以及该第二差异信息对应的第二损失函数和第二权重,对该特征提取子模型进行训练,该第一权重用于表示该第一损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重用于表示该第二损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重小于该第一权重。服务器基于该第二损失函数以及该第二权重,对该注意力编码子模型进行训练。
[0204]
其中,在该多个样本视频图像包括至少两个不同的样本视频图像的情况下,该多
个样本视频图像是通过上述步骤s301中第二种实施方式获取的。第二权重小于该第一权重也就表示在训练过程中,着重训练了特征提取子模型。
[0205]
在这种实施方式下,多个样本视频图像为相同的样本视频图像,也就意味着样本视频为合成视频,视频特征与图像特征实际上是相同的,那么可以注重训练特征提取子模型,提高特征提取子模型输出的图像特征的准确性。
[0206]
比如,在该多个样本视频图像为相同图像内容的样本视频图像的情况下,服务器基于该第一差异信息,构建第一损失函数,该第一损失函数为交叉熵损失函数。服务器将该第一损失函数的损失值与第一权重相乘,得到第一目标损失值。服务器基于该第二差异信息,构建第二损失函数,该第二损失函数为交叉熵损失函数。服务器将该第二损失函数的损失值与第二权重相乘,得到第二目标损失值。服务器基于该第一目标损失值和第二目标损失值,采用梯度下降法对该特征提取子模型进行训练,也即是调整该特征提取子模型的模型参数。服务器基于该第二目标损失值,采用梯度下降法对该注意力编码子模型进行训练,也即是调整该注意力编码子模型的模型参数。第一损失函数的形式参见上述公式(1),第二损失函数的形式参见上述公式(2)。在这种情况下,上述公式(3)中第一权重w1=1,第二权重w2=0。
[0207]
在一些实施例中,在获取待样本视频之后,服务器为样本视频添加视频来源标签,该视频来源标签用于指示样本视频为真实视频还是合成视频。
[0208]
需要说明的是,上述步骤s302-s306是以服务器对视频分类模型进行一次迭代训练为例进行说明的,服务器在其他迭代训练过程中的实现过程与上述步骤s302-s306属于同一发明构思。
[0209]
在一些实施例中,服务器结束对该视频分类模型进行训练的标志包括:该联合损失函数收敛到目标数值或者对该视频分类模型的训练次数达到次数阈值,其中,目标数值以及次数阈值由技术人员根据实际情况进行设置,本技术实施例对此不做限定。
[0210]
在本技术实施例中,通过样本视频训练一个视频分类模型,在训练过程中构建了基于样本视频图像的图像特征对样本视频进行分类的任务以及基于样本视频的视频特征对样本视频进行分类的任务,通过两个分类任务使得视频分类模型既学习到视频图像层面的内容,也学习到视频层面的内容,从而提高视频分类模型在进行视频分类时的准确率。使用视频分类模型对视频进行分类就能够在保证准确性的前提下,提高视频分类的效率。
[0211]
除了上述步骤s301-s306介绍完本技术实施例提供的视频分类模型的训练方法之外,本技术实施例还提供了一种视频分类方法,参见图5,以执行主体为服务器为例,方法包括:
[0212]
s501、服务器将目标视频输入该视频分类模型,通过该视频分类模型中的特征提取子模型,获取该目标视频的多个目标视频图像的图像特征。
[0213]
其中,目标视频也即是待进行分类的视频,该视频分类模型为采用上述步骤s301-s306训练得到的视频分类模型。步骤s501中获取目标视频图像的图像特征的方法与上述步骤s302中获取样本视频图像的图像特征属于同一发明构思,实现过程参见上述步骤s302的描述,在此不再赘述。
[0214]
s502、服务器通过该视频分类模型中的注意力编码子模型,对该多个目标视频图像的图像特征进行编码,得到该目标视频的视频特征。
[0215]
其中,步骤s502中获取目标视频的视频特征的方法与上述步骤s303中获取样本视频的视频特征属于同一发明构思,实现过程参见上述步骤s303的描述,在此不再赘述。
[0216]
s503、服务器通过该视频分类模型,对该目标视频的视频特征进行处理,得到该目标视频的视频类型。
[0217]
其中,步骤s503中确定目标视频的视频类型的方法与上述步骤s305中获取样本视频的第二预测视频类型属于同一发明构思,实现过程参见上述步骤s305的描述,在此不再赘述。
[0218]
通过上述步骤s501-s503,服务器通过视频分类模型就能够快速对目标视频进行分类,无需人工观看目标视频后再进行分类,大大提高了视频分类的效率。
[0219]
图6是根据一示例性实施例示出的一种视频分类模型的训练装置的框图。参见图6,该装置包括:图像特征获取单元601、注意力编码单元602、分类单元603以及训练单元604。
[0220]
图像特征获取单元601,被配置为执行将样本视频输入视频分类模型,通过该视频分类模型中的特征提取子模型,获取该样本视频的多个样本视频图像的图像特征。
[0221]
注意力编码单元602,被配置为执行通过该视频分类模型中的注意力编码子模型,对该多个样本视频图像的图像特征进行编码,得到该样本视频的视频特征。
[0222]
分类单元603,被配置为执行通过该视频分类模型,对该多个样本视频图像的图像特征进行处理,得到该样本视频的第一预测视频类型。对该样本视频的视频特征进行处理,得到该样本视频的第二预测视频类型。
[0223]
训练单元604,被配置为执行基于第一差异信息和第二差异信息,对该视频分类模型进行训练,该第一差异信息为该样本视频的标注视频类型与该第一预测视频类型之间的差异信息,该第二差异信息为该标注视频类型与该第二预测视频类型之间的差异信息。
[0224]
在一种可能的实施方式中,该训练单元604,被配置为执行基于该第一差异信息和该第二差异信息,对该视频分类模型中的该特征提取子模型进行训练。基于该第二差异信息,对该视频分类模型中的该注意力编码子模型进行训练。
[0225]
在一种可能的实施方式中,该训练单元604,被配置为执行在该多个样本视频图像包括至少两个图像内容不同的样本视频图像的情况下,基于该第一差异信息对应的第一损失函数和第一权重,以及该第二差异信息对应的第二损失函数和第二权重,对该特征提取子模型进行训练,该第一权重用于表示该第一损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重用于表示该第二损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重大于该第一权重。基于该第二损失函数以及该第二权重,对该注意力编码子模型进行训练。
[0226]
在一种可能的实施方式中,该训练单元604,被配置为执行在该多个样本视频图像为相同图像内容的样本视频图像的情况下,基于该第一差异信息对应的第一损失函数和第一权重,以及该第二差异信息对应的第二损失函数和第二权重,对该特征提取子模型进行训练,该第一权重用于表示该第一损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重用于表示该第二损失函数在训练时对该视频分类模型的模型参数的影响程度,该第二权重小于该第一权重。基于该第二损失函数以及该第二权重,对该注意力编码子模型进行训练。
[0227]
在一种可能的实施方式中,该注意力编码单元602,被配置为执行通过该视频分类模型中的该注意力编码子模型,对该多个样本视频图像中每两个相邻的样本视频图像的图像特征进行编码,得到该多个样本视频图像的注意力特征。将该多个样本视频图像的注意力特征进行融合,得到该样本视频的视频特征。
[0228]
在一种可能的实施方式中,该分类单元603,被配置为执行对该多个样本视频图像的图像特征进行池化,得到该样本视频的图像分类特征。对该图像分类特征进行全连接和归一化,得到该样本视频的第一分类参数。基于该第一分类参数,确定该样本视频的第一预测视频类型。
[0229]
在一种可能的实施方式中,该分类单元603,被配置为执行对该多个样本视频图像的图像特征进行拼接,得到样本拼接特征。对该样本拼接特征的每一列进行最大值池化,得到该样本视频的图像分类特征。
[0230]
在一种可能的实施方式中,该基分类单元603,被配置为执行对该样本视频的视频特征进行全连接和归一化,得到该样本视频的第二分类参数。基于该第二分类参数,确定该样本视频的第二预测视频类型。
[0231]
在一种可能的实施方式中,该装置还包括:
[0232]
类型确定单元,被配置为执行将目标视频输入该视频分类模型,通过该视频分类模型中的该特征提取子模型,获取该目标视频的多个目标视频图像的图像特征。通过该视频分类模型中的注意力编码子模型,对该多个目标视频图像的图像特征进行编码,得到该目标视频的视频特征。通过该视频分类模型,对该目标视频的视频特征进行处理,得到该目标视频的视频类型。
[0233]
在一种可能的实施方式中,该装置还包括:
[0234]
样本视频获取单元,被配置为执行从初始视频中以目标间隔进行抽帧,得到该样本视频。
[0235]
在一种可能的实施方式中,该样本视频获取单元,被配置为执行从该初始视频中以该目标间隔进行抽帧,得到n个样本视频图像,n为正整数。在n小于m的情况下,获取k个参考视频图像,该参考视频图像为该初始视频的第一个视频图像,m和k均为正整数,且k和n之和为m。将该n个样本视频图像和该k个参考视频图像拼接为该样本视频。
[0236]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0237]
在本技术实施例中,通过样本视频训练一个视频分类模型,在训练过程中构建了基于样本视频图像的图像特征对样本视频进行分类的任务以及基于样本视频的视频特征对样本视频进行分类的任务,通过两个分类任务使得视频分类模型既学习到视频图像层面的内容,也学习到视频层面的内容,从而提高视频分类模型在进行视频分类时的准确率。使用视频分类模型对视频进行分类就能够在保证准确性的前提下,提高视频分类的效率。
[0238]
在本技术实施例中,电子设备可以实现为终端,下面对终端的结构进行说明:
[0239]
图7是根据一示例性实施例示出的一种终端的框图,该终端700可以为用户所使用的终端。通常,终端700包括有:处理器701和存储器702。
[0240]
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用dsp(digital signal processing,数字信号处理)、fpga(field-
programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0241]
存储器702可以包括一个或多个存储介质,该存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。
[0242]
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
[0243]
外围设备接口703可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0244]
射频电路704用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选的,射频电路704包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其他终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0245]
显示屏705用于显示ui(user interface,用户界面)。该ui可以包括图像、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置终端700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图像,也即异形屏。显示屏705可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0246]
摄像头组件706用于采集图像或视频。可选的,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其他融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0247]
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
[0248]
定位组件708用于定位终端700的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件708可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0249]
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0250]
在一些实施例中,终端700还包括有一个或多个传感器170。该一个或多个传感器170包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
[0251]
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
[0252]
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3d动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0253]
压力传感器713可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少
一种。
[0254]
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商logo时,指纹传感器714可以与物理按键或厂商logo集成在一起。
[0255]
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
[0256]
接近传感器716,也称距离传感器,通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
[0257]
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0258]
上述电子设备还可以实现为服务器,下面对服务器的结构进行介绍:
[0259]
图8是本技术实施例提供的一种服务器的框图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,cpu)801和一个或多个的存储器802,其中,所述一个或多个存储器802中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器801加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器800还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0260]
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由终端700的处理器701或者服务器800的处理器801执行以完成上述视频分类模型的训练方法。可选的,存储介质可以是非临时性存储介质,例如,所述非临时性存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0261]
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序可以由电子设备的处理器执行,以实现上述视频分类模型的训练方法。
[0262]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其他实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
[0263]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并
且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献