一种用于视频分类的方法、设备、介质及程序产品与流程

2021-11-22 13:08:00 来源：中国专利 TAG：

1.本技术涉及通信领域，尤其涉及一种用于视频分类的技术。

背景技术：

2.随着5g网络的普及，移动互联网行业基于视频内容的广告、社交和娱乐等应用出现了爆发式增长。因此对于互联网内容提供商，基于视频内容深度理解的推荐、广告投放和安全风控等技术对于提高产品的商业价值具有十分重要的意义。传统视频理解算法一般先使用基于图像的2d卷积神经网络提取视频帧特征，再对帧级特征进行聚合得到视频特征。

技术实现要素：

3.本技术的一个目的是提供一种用于视频分类的方法、设备、介质及程序产品。
4.根据本技术的一个方面，提供了一种用于视频分类的方法，该方法包括：
5.将视频数据输入已训练的视频分类模型的转换层，输出所述视频数据对应的多个一维向量，其中，所述转换层包括全连接层，通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块，将所述多个图像块输入所述全连接层，输出得到所述多个一维向量；
6.将至少一个一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。
7.根据本技术的一个方面，提供了一种用于视频分类的第一设备，该第一设备包括：
8.将视频数据输入已训练的视频分类模型的转换层，输出所述视频数据对应的多个一维向量，其中，所述转换层包括全连接层，通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块，将所述多个图像块输入所述全连接层，输出得到所述多个一维向量；
9.将至少一个一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。
10.根据本技术的一个方面，提供了一种用于视频分类的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其中，所述处理器执行所述计算机程序以实现如上所述任一方法的操作。
11.根据本技术的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的操作。
12.根据本技术的一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述任一方法的步骤。
13.与现有技术相比，本技术通过在视频分类模型的转换层中将视频数据切分为多个图像块，将该多个图像块输入全连接层，输出得到每个图像块对应的一维向量，并将至少一个一维向量输入视频分类模型的自注意力层，得到每个图像块对应的关注权重，然后将每个关注权重和其对应的一维向量进行加权求和，得到最后的加权后的视频数据，可以更快
地更准确地从该加权后的视频数据中提取关注程度更高的视频特征，可以实现对视频数据中具有关键信息的图像帧或图像块进行定位，通过更具针对性地提取视频数据的视频特征，可以提高视频分类的速度和准确性。
附图说明
14.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
15.图1示出根据本技术一个实施例的一种用于视频分类的方法流程图；
16.图2示出根据本技术一个实施例的一种用于视频分类的第一设备结构图；
17.图3示出可被用于实施本技术中所述的各个实施例的示例性系统。
18.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
19.下面结合附图对本技术作进一步详细描述。
20.在本技术一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(central processing unit，cpu))、输入/输出接口、网络接口和内存。
21.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(random access memory，ram)和/或非易失性内存等形式，如只读存储器(read only memory，rom)或闪存(flash memory)。内存是计算机可读介质的示例。
22.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(phase
‑
change memory，pcm)、可编程随机存取存储器(programmable random access memory，pram)、静态随机存取存储器(static random
‑
access memory，sram)、动态随机存取存储器(dynamic random access memory，dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(electrically
‑
erasable programmable read
‑
only memory，eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(compact disc read
‑
only memory，cd
‑
rom)、数字多功能光盘(digital versatile disc,dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
23.本技术所指设备包括但不限于终端、网络设备、或终端与网络设备通过网络相集成所构成的设备。所述终端包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、ios操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程逻辑器件(programmable logic device，pld)、现场可编程门阵列(field programmable gate array，fpga)、数字信号处理器(digital signal processor，dsp)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服
务器构成的云；在此，云由基于云计算(cloud computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(ad hoc网络)等。优选地，所述设备还可以是运行于所述终端、网络设备、或终端与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
24.当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本技术，也应包含在本技术保护范围以内，并在此以引用方式包含于此。
25.在本技术的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。
26.图1示出根据本技术一个实施例的一种用于视频分类的方法流程图，该方法包括步骤s11和步骤s12。在步骤s11中，第一设备将视频数据输入已训练的视频分类模型的转换层，输出所述视频数据对应的多个一维向量，其中，所述转换层包括全连接层，通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块，将所述多个图像块输入所述全连接层，输出得到所述多个一维向量；在步骤s12中，第一设备将至少一个一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。
27.在步骤s11中，第一设备将视频数据输入已训练的视频分类模型的转换层，输出所述视频数据对应的多个一维向量，其中，所述转换层包括全连接层，通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块，将所述多个图像块输入所述全连接层，输出得到所述多个一维向量。在一些实施例中，第一设备可以是用户设备，或者，也可以是网络设备。在一些实施例中，视频数据可以是视频文件，或者，还可以是视频文件的播放地址或下载地址，或者，还可以是视频文件的标识信息(例如，视频id或视频名称)。在一些实施例中，视频分类模型包括转换层和自注意力层，转换层是基于开源深度学习框架构建的，开源深度学习框架包括但不限于pytorch、tensorflow等，转换层用于实现从原始视频数据到一维向量的转换，自注意力层是基于自注意力机制构建的，自注意力机制是注意力机制的改进，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译，而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。在一些实施例中，自注意力机制实际上是一种网络的构型，它想要解决的问题是网络接收的输入是很多向量，并且向量的大小也是不确定的情况，比如机器翻译(序列到序列的问题，机器自己决定多少个标签)，词性标注(一个向量对应一个标签)、语义分析(多个向量对应一个标签)等文字处理问题，针对全连接神经网络存在的这个问题，可以通过自注意力机制来解决，自注意力机制实际上是想让机器注意到整个输入中不同部分之间的相关性。在一些实施例中，自注意力机制(self
‑
attention)是输入和输入自己进行比较(计算相似度)，将输入的与上下文无关的词向量更新成上下文有关的词向量，解决了rnn(循环神经网络)等的短时记忆问题(即某个输入的词向量只与前几个输入有关)。在一些实施例中，基于自注意力机制构建的自注意力层接收多个输入(即长序列数据)，然后返回多个输出，自注意力机制允许输入与输入之间彼此交互(“self”)，并找出多个输入中应该受到或可能受到更多关注的对象(“attention”)，输出是这些交互和注意力(关注程度)得分的总和。在一些实施例中，转换
层包括全连接层，全连接层是基于全连接神经网络构建的，转换层先将原始视频数据中的至少一帧图像切分为多个图像块，该至少一帧图像可以是原始视频数据的全部帧图像或其中的部分帧图像，在此，可以按照切分数量信息将每一帧图像切分为预定数量个图像块，或者，还可以按照切分尺寸信息将每一帧图像切分为若干个预定大小的图像块。在一些实施例中，切分数量信息或切分尺寸信息可以是预先默认设置的，或者，还可以根据该视频数据对应的图像尺寸信息来动态确定。在一些实施例中，将每个图像块输入全连接层，得到该图像块对应的一维向量，从而将二维形式的图像块转换成一维形式的一维向量，以实现将该视频数据即二维图像组成的帧图像序列转换成一维形式的一维向量组成的向量序列。
28.在步骤s12中，第一设备将至少一个一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。在一些实施例中，可以将该至少一帧图像切分成的多个图像块转换成的多个一维向量输入自注意力层，或者，先从该多各一维向量中确定至少一个一维向量，在将该至少一个一维向量输入自注意力层，输出得到该视频数据对应的视频分类信息。在一些实施例中，自注意力层根据输入的至少一个一维向量组成的向量序列，将该向量序列进行线性变换后生成q、k、v三个向量，q、k、v向量中的每个元素对应该向量序列中的一个一维向量，即q、k、v向量中的每个元素对应一个图像块，q、k、v向量中的每个元素可以直接是其对应的一维向量，或者，每个元素还可以是根据其对应的一维向量生成的。在一些实施例中，将q向量中的每个元素和k向量中的每个元素进行相似度计算得到权重，相似度计算使用的相似度函数包括点积、拼接、感知机等，然后对这些权重进行归一化，比如使用softmax函数对这些权重进行归一化，然后将每个权重和其对应的v向量中的元素进行加权求和得到最后的加权后的v向量，然后通过对该加权后的v向量进行视频特征提取获得该视频数据的视频特征，根据该视频特征来确定该视频数据对应的视频分类。在一些实施例中，人们对图像或视频的关注并不是均衡的，通常主要关注图像或视频中的部分图像块，本方案通过在视频分类模型的转换层中将视频数据切分为多个图像块，将该多个图像块输入全连接层，输出得到每个图像块对应的一维向量，并将至少一个一维向量输入视频分类模型的自注意力层，得到每个图像块对应的关注权重，然后将每个关注权重和其对应的一维向量进行加权求和，得到最后的加权后的视频数据，可以更快地更准确地从该加权后的视频数据中提取关注程度更高的视频特征，可以实现对视频数据中具有关键信息的图像帧或图像块进行定位，通过更具针对性地提取视频数据的视频特征，可以提高视频分类的速度和准确性。
29.在一些实施例中，所述将所述视频数据中的至少一帧图像切分为多个图像块，包括：根据所述视频数据对应的图像尺寸信息，确定所述视频数据对应的切分配置信息；根据所述切分配置信息，将所述视频数据中的至少一帧图像切分为多个图像块。在一些实施例中，根据视频数据对应的图像尺寸信息(图像长宽信息)，确定该视频数据对应的切分配置信息，该切分配置信息用于定义如何对该视频数据中的至少一帧图像进行切分。在一些实施例中，可以该至少一帧图像对应同一个切分配置信息，即所有帧图像采用相同的切分方式，或者，还可以不同的帧图像对应独立的切分配置信息，即不同的帧图像采用不同或相同的切分方式。在一些实施例中，切分配置信息包括但不限于切分数量信息、切分尺寸信息等，切分数量信息用于定义将对应的帧图像切分成多少个图像块，切分尺寸信息用于定义将对应的帧图像切分成大小为几乘几的图像块。在一些实施例中，切分配置信息还包括切
分顺序信息，该切分顺序信息用于定义将对应的帧图像按照某个顺序进行切分，例如按照先从左到右再从上到下的顺序进行切分。在一些实施例中，根据视频数据对应的图像尺寸信息，可以确定切分数量信息或切分尺寸信息，例如，切分数量信息或切分尺寸信息与图像尺寸信息成正比，图像尺寸越大，则切分数量越多或切分尺寸越大。在一些实施例中，将视频数据对应的图像尺寸信息输入一个预定的函数关系式，该函数关系式的输出即是切分数量信息或切分尺寸信息。
30.在一些实施例中，所述切分配置信息包括以下至少一项：切分数量信息；切分尺寸信息。在一些实施例中，可以按照切分数量信息将每一帧图像切分为预定数量个图像块，或者，还可以按照切分尺寸信息将每一帧图像切分为若干个预定大小的图像块。在一些实施例中，对于按照切分尺寸信息进行切分的方式，对于处于帧图像边缘的图像块，该图像块的尺寸可以小于该切分尺寸信息。
31.在一些实施例中，所述根据所述视频数据对应的图像尺寸信息，确定所述视频数据对应的切分配置信息，包括：对于所述视频数据中的至少一帧图像中的每帧图像，通过对该帧图像进行图像识别，根据图像识别结果，根据所述视频数据对应的图像尺寸信息及所述图像识别结果，确定该帧图像对应的切分配置信息。在一些实施例中，不同的帧图像对应独立的切分配置信息，即不同的帧图像采用不同或相同的切分方式，切分配置信息是与具体的帧图像对应的。在一些实施例中，通过对每帧图像进行图像识别，根据图像识别结果，以及该视频数据对应的图像尺寸信息，确定该帧图像对应的切分配置信息。在一些实施例中，该图像识别结果包括但不限于该帧图像中的背景区域的大小或占比、该帧图像对应的图像复杂度信息等，例如，切分数量信息与背景区域的占比成反比，背景区域在该帧图像中的占比越大，则切分数量越少，又例如，切分尺寸信息与背景区域的占比成正比，背景区域在该帧图像中的占比越大，则切分尺寸越大。在一些实施例中，可以先根据该视频数据对应的图像尺寸信息，确定该帧图像对应的基准切分配置信息，然后在根据该帧图像对应的图像识别结果，在该基准切分配置信息上进行调整，以得到适合该帧图像的切分配置信息。
32.在一些实施例中，所述图像识别结果包括该帧图像对应的图像复杂度信息。在一些实施例中，图像复杂度信息用于表征该帧图像的纹理复杂度，纹理复杂度用于衡量该帧图像间的纹理差异。在一些实施例中，切分数量信息与该帧图像对应的图像复杂度信息成正比，该帧图像的纹理差异越大，则切分数量越多，又例如，切分尺寸信息与该帧图像对应的图像复杂度信息成反比，该帧图像的纹理差异越大，则切分尺寸越小。
33.在一些实施例中，所述多个图像块中相邻的至少两个图像块存在预定大小的重叠区域。在一些实施例中，切分出来的每个图像块同与其相邻的一个或多个图像块之间存在预定大小的像素重叠，可以是每个图像块同与其相邻的每个图像块的重叠区域之和需要满足该预定大小，或者，还可以是每个图像块与其相邻的每个图像块的重叠区域均需要满足该预定大小。例如，将帧图像切分为大小为s*s的图像块，每两个相邻的图像块之间均存在s/2个像素的重叠。在一些实施例中，通过使得相邻的至少两个图像块存在预定大小的重叠区域，从而有利于对该视频数据或该帧图像的全局特征进行提取，可以进一步提高视频特征提取的速度和准确性。
34.在一些实施例中，所述方法还包括：第一设备从所述多个一维向量中确定至少一个目标一维向量；其中，所述步骤s12包括：第一设备将所述至少一个目标一维向量输入所
述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息。在一些实施例中，并不会将转换层输出的所有一维向量均输入自注意力层，而是会先从该多个一维向量中确定至少一个一维向量，再将该一维向量输入自注意力层，从而可以提高自注意力层的工作速度及工作效率。在一些实施例中，从该多个一维向量中确定至少一个一维向量的方式，可以是对所述多个一维向量执行去重处理，得到去重后剩余的至少一个一维向量，或者，还可以是从所述多个一维向量中确定至少一个一维向量，其中，所述至少一个一维向量中的每个一维向量在所述多个一维向量中的重复次数大于或等于预定的次数阈值。
35.在一些实施例中，所述从所述多个一维向量中确定至少一个目标一维向量，包括：对所述多个一维向量执行去重处理，得到去重后剩余的至少一个目标一维向量。在一些实施例中，可以对该多个一维向量执行去重处理，仅保留相同的若干个一维向量中的一个，得到去重后剩余的至少一个一维向量。在一些实施例中，还可以仅保留互相之间相似度大于或等于预定的相似度阈值的若干个一维向量中的一个。在一些实施例中，通过对该多个一维向量执行去重处理，可以去除图像块或帧图像之间所存在的数据冗余，提高视频特征提取的效率。
36.在一些实施例中，其中，所述从所述多个一维向量中确定至少一个目标一维向量，包括：从所述多个一维向量中确定至少一个目标一维向量，其中，所述至少一个目标一维向量中的每个目标一维向量在所述多个一维向量中对应的相似一维向量的个数大于或等于预定的个数阈值。在一些实施例中，从该多个一维向量中确定出来的至少一个一维向量中的每个一维向量，需要满足该多个一维向量中与该一维向量之间的相似度大于或等于预定的相似度阈值的相似一维向量的个数大于或等于预定的个数阈值，即需要满足确定出来的每个图像块存在预定数量的与其相似的图像块。在一些实施例中，还需要满足该一维向量所对应的若干个相似一维向量对应的帧图像数量大于或等于预定的数量阈值，即需要满足确定出来的每个图像块所对应的多个相似图像块呈现在预定数量的帧图像上，即该预定数量的帧图像中的每个帧图像均有呈现该多个相似图像块中的其中至少一个图像块，而不是该多个相似图像块仅仅集中呈现在个别帧图像上。
37.在一些实施例中，对于所述每个目标一维向量，该目标一维向量及该目标一维向量所对应的相似一维向量对应的多个图像块呈现在所述至少一帧图像中的至少一个预定帧数的连续帧图像序列上。在一些实施例中，对于确定出来的每个一维向量，除了需要满足该多个一维向量中与该一维向量之间的相似度大于或等于预定的相似度阈值的相似一维向量的个数大于或等于预定的个数阈值，还需要满足该一维向量对应的图像块与该一维向量所对应的相似一维向量对应的图像块呈现在该至少一帧图像中的至少一个预定帧数的连续帧图像序列上，该连续帧图像序列包括预定帧数的连续帧图像，该连续帧图像中的每个帧图像均有呈现该多个图像块中的其中至少一个图像块，即除了需要满足确定出来的每个图像块存在预定数量的与其相似的图像块，还需要满足该图像块及该图像块对应的若干个相似图像块呈现在至少一个预定帧数的连续帧图像序列上，即该连续帧图像序列中的每个帧图像上均有呈现该图像块及该若干个相似图像块中的其中至少一个图像块。
38.在一些实施例中，所述步骤s12包括：第一设备将至少一个一维向量输入所述视频分类模型的自注意力层，通过所述自注意力层对所述至少一个一维向量进行线性变换生成多个第一向量及第二向量，对所述多个第一向量进行归一化处理得到所述第二向量对应的
自适应权重信息，根据所述第二向量及所述自适应权重信息，获得加权后的第二向量，通过对所述加权后的第二向量进行特征提取，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。在一些实施例中，自注意力层根据输入的至少一个一维向量组成的向量序列，将该向量序列进行线性变换后生成第一向量q、第一向量k及第二向量v，q、k、v向量中的每个元素对应该向量序列中的一个一维向量，即q、k、v向量中的每个元素对应一个图像块，q、k、v向量中的每个元素可以直接是其对应的一维向量，或者，每个元素还可以是根据其对应的一维向量生成的，将q向量中的每个元素和k向量中的每个元素进行相似度计算得到权重，相似度计算使用的相似度函数包括点积、拼接、感知机等，然后对这些权重进行归一化，比如使用softmax函数对这些权重进行归一化，得到v向量对应的自适应权重信息，该自适应权重信息中包括多个归一化后的自适应权重，然后将每个适应权重和其对应的v向量中的元素进行加权求和得到最后的加权后的v向量，然后通过对该加权后的v向量进行视频特征提取获得该视频数据的视频特征，根据该视频特征来确定该视频数据对应的视频分类。
39.在一些实施例中，所述方法还包括：第一设备根据预定的分类任务，构建包含分类标签的视频分类训练集，基于所述视频分类训练集对未训练的视频分类模型进行训练，获得已训练的视频分类模型，其中，所述已训练的视频分类模型包括所述转换层及所述自注意力层，根据所述视频分类训练集对所述转换层及所述自注意力层进行参数最优化调优。例如，分类任务可以是将测试视频数据分为涉黄视频和非涉黄视频的具体任务，根据该分类任务，通过对大量的测试视频数据进行分类来构建包含分类标签的视频分类训练集，该视频分类训练集中包括多个测试视频数据及每个测试视频数据对应的分类标签，该分类标签包括“涉黄”及“非涉黄”，分类标签用于指示其对应的测试视频数据的具体分类，即指示该测试视频数据属于涉黄视频还是非涉黄视频。在一些实施例中，基于该视频分类训练集对未训练的视频分类模型进行训练，获得已训练的视频分类模型，模型训练是指根据该视频分类训练集对视频分类模型的转换层及自注意力层进行参数最优化调优，从而在模型训练过程中不断优化视频分类模型的转换层及自注意力层中的各个参数，然后可以将该已训练的视频分类模型部署到业务生产中进行视频分类预测，例如，将某个目标视频输入该已训练的视频分类模型，该训练分类模型会输出该目标视频是否为涉黄视频的视频分类预测结果。
40.图2示出根据本技术一个实施例的一种用于视频分类的第一设备结构图，该第一设备包括一一模块11和一二模块12。一一模块11，用于将视频数据输入已训练的视频分类模型的转换层，输出所述视频数据对应的多个一维向量，其中，所述转换层包括全连接层，通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块，将所述多个图像块输入所述全连接层，输出得到所述多个一维向量；一二模块12，用于将至少一个一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。
41.一一模块11，用于将视频数据输入已训练的视频分类模型的转换层，输出所述视频数据对应的多个一维向量，其中，所述转换层包括全连接层，通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块，将所述多个图像块输入所述全连接层，输出得到所述多个一维向量。在一些实施例中，第一设备可以是用户设备，或者，也可以是网络设
备。在一些实施例中，视频数据可以是视频文件，或者，还可以是视频文件的播放地址或下载地址，或者，还可以是视频文件的标识信息(例如，视频id或视频名称)。在一些实施例中，视频分类模型包括转换层和自注意力层，转换层是基于开源深度学习框架构建的，开源深度学习框架包括但不限于pytorch、tensorflow等，转换层用于实现从原始视频数据到一维向量的转换，自注意力层是基于自注意力机制构建的，自注意力机制是注意力机制的改进，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译，而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。在一些实施例中，自注意力机制实际上是一种网络的构型，它想要解决的问题是网络接收的输入是很多向量，并且向量的大小也是不确定的情况，比如机器翻译(序列到序列的问题，机器自己决定多少个标签)，词性标注(一个向量对应一个标签)、语义分析(多个向量对应一个标签)等文字处理问题，针对全连接神经网络存在的这个问题，可以通过自注意力机制来解决，自注意力机制实际上是想让机器注意到整个输入中不同部分之间的相关性。在一些实施例中，自注意力机制(self
‑
attention)是输入和输入自己进行比较(计算相似度)，将输入的与上下文无关的词向量更新成上下文有关的词向量，解决了rnn(循环神经网络)等的短时记忆问题(即某个输入的词向量只与前几个输入有关)。在一些实施例中，基于自注意力机制构建的自注意力层接收多个输入(即长序列数据)，然后返回多个输出，自注意力机制允许输入与输入之间彼此交互(“self”)，并找出多个输入中应该受到或可能受到更多关注的对象(“attention”)，输出是这些交互和注意力(关注程度)得分的总和。在一些实施例中，转换层包括全连接层，全连接层是基于全连接神经网络构建的，转换层先将原始视频数据中的至少一帧图像切分为多个图像块，该至少一帧图像可以是原始视频数据的全部帧图像或其中的部分帧图像，在此，可以按照切分数量信息将每一帧图像切分为预定数量个图像块，或者，还可以按照切分尺寸信息将每一帧图像切分为若干个预定大小的图像块。在一些实施例中，切分数量信息或切分尺寸信息可以是预先默认设置的，或者，还可以根据该视频数据对应的图像尺寸信息来动态确定。在一些实施例中，将每个图像块输入全连接层，得到该图像块对应的一维向量，从而将二维形式的图像块转换成一维形式的一维向量，以实现将该视频数据即二维图像组成的帧图像序列转换成一维形式的一维向量组成的向量序列。
42.一二模块12，用于将至少一个一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。在一些实施例中，可以将该至少一帧图像切分成的多个图像块转换成的多个一维向量输入自注意力层，或者，先从该多各一维向量中确定至少一个一维向量，在将该至少一个一维向量输入自注意力层，输出得到该视频数据对应的视频分类信息。在一些实施例中，自注意力层根据输入的至少一个一维向量组成的向量序列，将该向量序列进行线性变换后生成q、k、v三个向量，q、k、v向量中的每个元素对应该向量序列中的一个一维向量，即q、k、v向量中的每个元素对应一个图像块，q、k、v向量中的每个元素可以直接是其对应的一维向量，或者，每个元素还可以是根据其对应的一维向量生成的。在一些实施例中，将q向量中的每个元素和k向量中的每个元素进行相似度计算得到权重，相似度计算使用的相似度函数包括点积、拼接、感知机等，然后对这些权重进行归一化，比如使用softmax函数对这些权重进行归一
化，然后将每个权重和其对应的v向量中的元素进行加权求和得到最后的加权后的v向量，然后通过对该加权后的v向量进行视频特征提取获得该视频数据的视频特征，根据该视频特征来确定该视频数据对应的视频分类。在一些实施例中，人们对图像或视频的关注并不是均衡的，通常主要关注图像或视频中的部分图像块，本方案通过在视频分类模型的转换层中将视频数据切分为多个图像块，将该多个图像块输入全连接层，输出得到每个图像块对应的一维向量，并将至少一个一维向量输入视频分类模型的自注意力层，得到每个图像块对应的关注权重，然后将每个关注权重和其对应的一维向量进行加权求和，得到最后的加权后的视频数据，可以更快地更准确地从该加权后的视频数据中提取关注程度更高的视频特征，可以实现对视频数据中具有关键信息的图像帧或图像块进行定位，通过更具针对性地提取视频数据的视频特征，可以提高视频分类的速度和准确性。
43.在一些实施例中，所述将所述视频数据中的至少一帧图像切分为多个图像块，包括：根据所述视频数据对应的图像尺寸信息，确定所述视频数据对应的切分配置信息；根据所述切分配置信息，将所述视频数据中的至少一帧图像切分为多个图像块。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
44.在一些实施例中，所述切分配置信息包括以下至少一项：切分数量信息；切分尺寸信息。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
45.在一些实施例中，所述根据所述视频数据对应的图像尺寸信息，确定所述视频数据对应的切分配置信息，包括：对于所述视频数据中的至少一帧图像中的每帧图像，通过对该帧图像进行图像识别，根据图像识别结果，根据所述视频数据对应的图像尺寸信息及所述图像识别结果，确定该帧图像对应的切分配置信息。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
46.在一些实施例中，所述图像识别结果包括该帧图像对应的图像复杂度信息。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
47.在一些实施例中，所述多个图像块中相邻的至少两个图像块存在预定大小的重叠区域。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
48.在一些实施例中，所述设备还用于：从所述多个一维向量中确定至少一个目标一维向量；其中，所述一二模块12用于：将所述至少一个目标一维向量输入所述视频分类模型的自注意力层，输出所述视频数据对应的视频分类信息。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
49.在一些实施例中，所述从所述多个一维向量中确定至少一个目标一维向量，包括：对所述多个一维向量执行去重处理，得到去重后剩余的至少一个目标一维向量。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
50.在一些实施例中，其中，所述从所述多个一维向量中确定至少一个目标一维向量，包括：从所述多个一维向量中确定至少一个目标一维向量，其中，所述至少一个目标一维向量中的每个目标一维向量在所述多个一维向量中对应的相似一维向量的个数大于或等于预定的个数阈值。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
51.在一些实施例中，对于所述每个目标一维向量，该目标一维向量及该目标一维向量所对应的相似一维向量对应的多个图像块呈现在所述至少一帧图像中的至少一个预定帧数的连续帧图像序列上。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
52.在一些实施例中，所述一二模块12用于：将至少一个一维向量输入所述视频分类模型的自注意力层，通过所述自注意力层对所述至少一个一维向量进行线性变换生成多个第一向量及第二向量，对所述多个第一向量进行归一化处理得到所述第二向量对应的自适应权重信息，根据所述第二向量及所述自适应权重信息，获得加权后的第二向量，通过对所述加权后的第二向量进行特征提取，输出所述视频数据对应的视频分类信息，其中，所述自注意力层是基于自注意力机制构建的。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
53.在一些实施例中，所述设备还用于：根据预定的分类任务，构建包含分类标签的视频分类训练集，基于所述视频分类训练集对未训练的视频分类模型进行训练，获得已训练的视频分类模型，其中，所述已训练的视频分类模型包括所述转换层及所述自注意力层，根据所述视频分类训练集对所述转换层及所述自注意力层进行参数最优化调优。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
54.除上述各实施例介绍的方法和设备外，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。
55.本技术还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。
56.本技术还提供了一种计算机设备，所述计算机设备包括：
57.一个或多个处理器；
58.存储器，用于存储一个或多个计算机程序；
59.当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。
60.图3示出了可被用于实施本技术中所述的各个实施例的示例性系统；
61.如图3所示在一些实施例中，系统300能够作为各所述实施例中的任意一个设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或nvm/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本技术中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。
62.对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。
63.系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。
64.系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的dram。在一些实施例
中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
65.对于一个实施例，系统控制模块310可包括一个或多个输入/输出(i/o)控制器，以向nvm/存储设备320及(一个或多个)通信接口325提供接口。
66.例如，nvm/存储设备320可被用于存储数据和/或指令。nvm/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
67.nvm/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，nvm/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。
68.(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
69.对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
70.在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
71.需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本技术的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
72.另外，本技术的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本技术的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
73.通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、rf、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
74.作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(ram,dram,sram)；以及非易失性存储器，诸如闪存、各种只读存储器(rom,prom,eprom,eeprom)、磁性和铁磁/铁电存储器(mram,feram)；以及磁性和光学存储设备(硬盘、磁带、cd、dvd)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
75.在此，根据本技术的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本技术的多个实施例的方法和/或技术方案。
76.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像分割方法、装置、电子装置、计算机设备和存储介质与流程

一种用于视频分类的方法、设备、介质及程序产品与流程

相关文献

最热文献